首页 / 更多教程 / 构建结构化NLP服务(loading...)

构建结构化NLP服务(loading...)

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了构建结构化NLP服务(loading...)，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3129字，纯文字阅读大概需要5分钟。

内容图文

记录结构化NLP服务之路，本文长期更新

管道(pipeline)

从不同数据源(source)获取数据
清洗数据
构建数据集(dataset)
- 数据集管理
拆分训练集/验证集/测试集
选择机器学习框架/算法(framework/algorithm)
模型训练(train)/预训练/微调训练
构建分类器(classifier)
基于分类器提供 Rest 服务(server)
输出结构化数据
- 结构化数据提供给目标(dest)应用服务
服务于应用层(application)

Python 环境

使用Python，一开始都会浪费很多时间在环境上，例如：

python 的不同版本
pip 的不同版本，每个python版本都对应一个pip，装python版本还需要装对应的pip
python 某个库在某个版本下可以装，但是它依赖的库在这个版本下的版本不能跑

手工方式(manual)

安装目标 python 版本，例如 3.6的最高版本： python3.6.11
- wget https://www.python.org/ftp/python/3.6.11/Python-3.6.11.tgz
- tar xzf Python-3.6.11.tgz
- cd Python-3.6.11
- ./configure --enable-optimizations
- make altinstall
安装对应 pip版本
- 下载 get-pip 脚本
- 使用对应版本的 python 安装对应版本的 pip
  - python3.6 get-pip.py
手工更改 /usr/local/bin 下 python 和 pip 的软连接映射
- pip 软链接
  - ln -s -f /usr/local/bin/pip3 /usr/bin/pip
  - ln -s -f /usr/local/bin/pip3 /usr/bin/pip3
  - ln -s -f /usr/local/bin/pip3 /usr/bin/pip3.6
- python 软链接
  - ln -s -f /usr/local/bin/python3.6 /usr/bin/python
  - ln -s -f /usr/local/bin/python3.6 /usr/bin/python3
  - ln -s -f /usr/local/bin/python3.6 /usr/bin/python3.6

使用 pyenv 管理

使用 pyenv 管理python环境
查看管理的 python 版本：pyenv versions ，带*号带是当前使用的版本
验证当前python版本：python --version
查看有哪些可用版本的python：pyenv install --list
安装指定版本python：pyenv install 3.6.11
切换版本：pyenv global 3.6.11
如果是 Mac 系统，zsh 和 fish 两个shell 环境还需要为两个 shell 添加一些配置，参考 pyenv git 里的说明，请搜关键词 Zsh 或 fish

使用 conda 管理

使用 conda 管理python环境
安装 minicoda
创建并安装指定版本的 python 环境：conda create -n py3.6 python=3.6.11
切换环境：source activate py3.6
查看当前生效的python和pip版本：python --version, pip --version

机器学习库

万变不离其宗，程序=数据结构+算法，每一种特定的库处理的是特定数据结构相关的算法，理解这点，保持目标问题导向的库选择和使用。

pandas，关于DataFrame的数据结构
numpy，处理多维数组
jieba，分词
sklearn，常见NLP任务
tensorflow，Google深度学习库
- tensorflow-gpu
pytorch，更新和维护比tensorflow强
spacy
paddlepaddle 中文处理更友好

统一命令行接口

将整个管道的不同阶段操作统一到一致的命令行接口，不要让NLP任务变成一堆无序的项目和脚本，类似 git，将管道中的多任务统一到一致的接口里。

基本操作心智模型：python main.py -p {profile} -a action_name [sub options]

操作说明
- -p 指定配置环境，例如与携程阿波罗环境的划分：
  - dev 开发环境配置
  - fat 测试环境配置
  - pre 预发布环境配置
  - pro 线上环境配置
- -a 指定action，例如：
  - -a build -d questions: 构建问题数据集
  - -a server -t answer: 启动答案服务

如何迭代

开发/内部部署发布/测试/迭代/发布，其中内部部署发布 是首要重要的事情，遵循一些必要的原则有助于达成这点：

内部发布优于第1版正确性，先把流程打通并发布一个版本，快速进入测试-开发迭代优先于1版正确性，最好能达成每周发布。
第一性原理，NLP处理的数据是非结构化的，NLP的能力是通过对数据向量化，对数据进行分类和标注，提供数据背后的结构化信息。有了结构化信息，构建这些结构化信息的关系，进而可以对这些结构化的关系信息进行查询或推理。围绕这点带着要解决的目标问题去寻找工具，而不是先找工具，再找问题。

（未完待续…)

内容总结

以上是互联网集市为您收集整理的构建结构化NLP服务(loading...)全部内容，希望文章能够帮你解决构建结构化NLP服务(loading...)所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/983506.html

来源：【匿名】

【上一篇】美团O2O排序解决方案——线上篇【下一篇】关于IE的RegExp.exec的问题

更多 ►

【构建结构化NLP服务(loading...)】教程文章相关的互联网学习教程文章

阿里云服务器，数据库热备、暖备、冷备实战-镜像篇（域环境下配置）【图】

阿里云服务器值得信赖概述 “数据库镜像”是一种针对数据库高可用性的基于软件的解决方案。其维护着一个数据库的两个相同的副本，这两个副本分别放置在不同的SQL Server数据库实例中。建议使用不同位置的两台服务器来承载。在同一时刻，其中一台上的数据库用于客户端访问，充当“主体服务器”角色；而另一台则根据镜像会话的配置和状态，充当热备份服务器，即“镜像服务器角色”，这两种角色不是绝对的。优点 l 增强了数据保护...

zabbix监控第一台服务器【代码】【图】

客户机的IP是192.168.0.80，主机名是wls12c 1. 安装客户端，　　1.1 新建zabbix的用户groupadd zabbix useradd -g zabbix zabbix1.2 安装客户端./configure --prefix=/usr/local/zabbix-3.6.2/ --enable-agent make make install1.3 配置文件vim etc/zabbix_agentd.confLogFile=/tmp/zabbix_agentd.log Server=192.168.0.95 ServerActive=192.168.0.95 Hostname=wls12c1.4 启动客户端[root@wls12c zabbix-3.6.2]$ sbin/zabbix_agen...

添加Hyper-V群集主机到VMM服务器【图】

本节演示添加受信任的Hyper-V Server故障转移群集到VMM管理服务器中。一、先决条件1. 确保故障转移群集服务器是与VMM管理服务器的域具有双向信任关联的 Active Directory 域的成员。2. 添加的计算机必须支持 Hyper-V。3. VMM仅支持通过组策略配置WinRM服务设置，并且只能在受信任Active Directory域中的主机上配置。具体而言，VMM 支持配置“允许自动配置侦听器”、“打开兼容性 HTTP 侦听程序”和“打开兼容性 HTTPS 侦听程序”组...

优云敏捷运维分享之二：服务型CMDB的消费场景【图】

近年来，CMDB在IT运维管理中的价值逐步得到认可，使用CMDB的期望值也日益增长。然而，CMDB实施和维护的高成本却一直是建设者们的痛点。那么今天，我们来探讨一下如何通过消费来持续驱动CMDB的逐步完善。消费驱动是指依托用户消费的收益，吸引研发者、销售者，逐步围绕该产业开展建设并延伸拓展其发展范畴。举例来说，网购的消费方式驱动了电商的蓬勃发展，新型的生活模式驱动了职能家居的研制。借鉴这一思路，我们不妨通过加强CMD...

一个 go 文件服务器 ssdb【代码】

file system ssdb go http listen 文件存储到 ssdb gfs | twemproxy | ssdb(master) ssdb(slave) ssdb 连接协议为 redis 协议生成MD5 KEY handle.go 代码package mainimport ("fmt""io/ioutil""net/http""path" )func (ctx *Context) server(w http.ResponseWriter, r *http.Request) {//params := r.URL.Query()//key := params.Get("k")//callback := params.Get("cb")path := r.URL.Pathif path == "/" {home(w, r)} e...

构建结构化NLP服务(loading...)

记录结构化NLP服务之路，本文长期更新管道(pipeline) 从不同数据源(source)获取数据清洗数据构建数据集(dataset) 数据集管理拆分训练集/验证集/测试集选择机器学习框架/算法(framework/algorithm)模型训练(train)/预训练/微调训练构建分类器(classifier)基于分类器提供 Rest 服务(server)输出结构化数据结构化数据提供给目标(dest)应用服务服务于应用层(application) Python 环境使用Python，一开始都会浪费很多时间在环境上，...

2021.4.11 字节跳动实习笔试题—服务部署【代码】【图】

2021.4.11 字节跳动实习笔试题—服务部署题目要求输入输出代码测试结果题目要求输入输出代码 #include<bits/stdc++.h> #include<unordered_map> using namespace std;class Solution {public:int demand(string s, string m, int i, int j) {vector<int> ans;//去重组合int cnt = 1;for (int p = 0; p < i; p++) {ans.push_back(s[p]);}for (int q = 0; q < j; q++) {ans.push_back(m[q]);}sort(ans.begin(), ans.end());for (int...

2021年便宜购买阿里云服务器攻略（阿里云小站篇）！【图】

本文主要讲通过阿里云小站便宜购买阿里云服务器的攻略，力争将可获取的优惠完整清晰的列出来，以供阿里云新老用户参考。云小站所提供的优惠包括代金券优惠、今日限时秒杀、新用户专享1折起、企业新用户特惠、心选建站以及其他热门活动推荐。地址：阿里云小站一：代金券优惠首先，有一张金额为20元的云服务器ECS代金券，虽然金额比较小，但是如果你是购买1核1G 1核2G这种配置比较低的阿里云服务器还是很有用的，这张20元的代金券是...

使用SSH服务管理远程主机【图】

使用SSH服务管理远程主机配置网络参数这里使用的是nmtui命令来配置网络执行nmtui命令运行网络配置工具选中Edit a connection并按下回车键在RHEL7中网卡的名称变成了类似于eno16777728这样的名字，选中要编辑的网卡名称，然后按下Edit（编辑）按钮在服务器主机的网络配置信息中填写IP地址192.168.10.10/24，至此Linux系统中配置网络的步骤就结束了，单击????按钮保存配置。通过修改配置文件修改IP地址等网络参数使用vim文本编辑器对...

8 应用服务器性能优化【图】

应用服务器就是处理网站业务的服务器，网站的业务代码都部署在这里，是网站开发最复杂，变化最多的地方，优化手段主要有缓存、集群、异步等。1 分布式缓存回顾网站架构演化历程，当网站遇到性能瓶颈时，第一个想到的解决方案就是使用缓存。在整个网站应用中，缓存几乎无所不在，既存在于浏览器，也存在于应用服务器和数据库服务器；既可以对数据缓存，也可以对文件缓存，还可以对页面片段缓存。合理使用缓存，对网站性能优化意...

打造独立数据库访问的中间服务【代码】【图】

想从 DB_A 数据库获取数据的 web 服务越来越多，项目之间的关系逐渐演变为下面这样：很容易看出来按上图这样的发展趋势会存在很多问题（项目关系为个人抽象出来的简化版，实际情况比这要复杂的多）。 a. 当 webappA 运行过程中出现异常无法访问，webappB/ webappC .... 还能正常获取 DB_A 数据吗？ b. 各种各样的提供给 webappB/webappC ... 获取 DB_A 数据的服务都集中在 webappA 中，webappA 的体积会无限水平扩张，...

各种数据文件加密和数字签名服务解决方案【图】

各种数据文件是指非PDF格式文件和数据，因为PDF格式文件有数字签名和加密标准，所以，我们必须按照其标准实现数字签名和加密。而其他格式文件，如文本文件、图片文件、音频文件、视频文件、Office文件、CAD文件等等，大约三百多种，当然还包括字符串数据，这些五花八门的文件大多数都不支持数字签名和加密，所幸的是，这些文件都可以归类到MIME类型中。MIME (Multipurpose Internet Mail Extensions，多用途互联网邮件扩展) ，其...

使用iptables配置nat服务器【图】

使用iptables配置nat服务器概念： SNAT：nat服务器修改报文中的源IP地址后，将报文转发到目的地址。 DNAT：nat服务器修改报文中的目的IP地址，然后将报文转发到目的服务器组网： Nat服务器：提供两个网卡，一个接外部网络，一个接内部网络。内网服务器：一个网卡，接内部网络。要求：内网服务器可以通过nat服务器的中转可以访问外部网络，外部网络通过nat服务器的中转可以访问内网服务器。配置：假定外部网络地址段为192.168...

实现通过'net 映射sql server 读取局域网内其他服务器文件

应用程序服务器：IIS6.0+windows Server2003 数据库服务器：Sql 2005+windows Server2003 研究原因以前数据库服务器和web服务器在同一台服务器上，先在特殊原因把数据库服务器和Web服务器放在了不同的位置上，为了实现sql server数据库中数据快速导出，尝试了很多方法，但是当数据量太大以后，导出的速度就特别慢。最终在老大的帮助下，解决了这一问题，就是通过创建文件夹共享和盘符映射。文件共享开启guest账号：右击我的电脑...

[自定义服务器控件] 第三步：CheckBoxList。【图】

前面发了文本框和下拉列表框的，这回发一个CheckBoxList。不知道中文名字该叫什么。CheckBoxList 最郁闷的地方就是：明明可以选择多个选项，但是 SelectedValue 只能得到第一个选项，其他被选中的还得另想办法。不知道vs2005 有没有改进，至少 vs2003 是这样的。 Public Function GetSelectedValue()Function GetSelectedValue() As String Dim item As ListItem Dim tmpStr As String = "" For Each item In...

首页 / 更多教程 / 构建结构化NLP服务(loading...)

构建结构化NLP服务(loading...)

内容导读

内容图文

管道(pipeline)

Python 环境

手工方式(manual)

使用 pyenv 管理

使用 conda 管理

机器学习库

统一命令行接口

如何迭代

内容总结

内容备注

内容手机端

【构建结构化NLP服务(loading...)】教程文章相关的互联网学习教程文章

阿里云服务器，数据库热备、暖备、冷备实战-镜像篇（域环境下配置）【图】

zabbix监控第一台服务器【代码】【图】

添加Hyper-V群集主机到VMM服务器【图】

优云敏捷运维分享之二：服务型CMDB的消费场景【图】

一个 go 文件服务器 ssdb【代码】

构建结构化NLP服务(loading...)

2021.4.11 字节跳动实习笔试题—服务部署【代码】【图】

2021年便宜购买阿里云服务器攻略（阿里云小站篇）！【图】

使用SSH服务管理远程主机【图】

8 应用服务器性能优化【图】

打造独立数据库访问的中间服务【代码】【图】

各种数据文件加密和数字签名服务解决方案【图】

使用iptables配置nat服务器【图】

实现通过'net 映射sql server 读取局域网内其他服务器文件

[自定义服务器控件] 第三步：CheckBoxList。【图】

更多教程 - 最新教程

更多教程 - 最热教程