python的中文分词

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python的中文分词，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3362字，纯文字阅读大概需要5分钟。

内容图文

中文分词

这里写目录标题

中文分词

基于词典的分词方法

机械分词方法、字符串匹配的分词方法。

按照一定的策略将待分词的汉字串与一个充分大的机器词典中的词条进行匹配。
三个要素:1.分词词典 2.文本扫描顺序 3.匹配原则

按照扫描句子的顺序，可以分为正向扫描、逆向扫描和双向扫描。

匹配的原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。

最大匹配算法：（正向/逆向）

设词典中的最长词的长度为n；
从待分句子中取出长度为n的字符串，与词典进行匹配；
如果匹配成功，作为一个词；
如果匹配不成功，将该从句子中去掉一个汉字再次匹配，重复进行直至完成匹配。

正向最大匹配算法每次去除最后一个字，错误率0.6%。逆向最大匹配算法每次去除第一个字，错误率0.4%。

预处理优化

对句子：设立切分标志
1. 自然切分标志：非字符号（标点符号）
2. 非自然切分标志：利用词缀和不构成词的词（们，啊）
对词典：将词典按照词频大小排列。

缺点：歧义；未登录词；

基于统计的分词方法

词是字的稳定组合，相邻的字同时出现的频率越大，越有可能构成一个词。

算法实现：计算文本中相邻的字的组合频度，计算互现信息，高于某一个阈值则认为可能构成了一个词。

主要应用模型：ngram模型，HMM模型和最大熵模型。

互信息：两个离散随机变量X、Y的相互依赖（关联、影响）程度。

实际应用中一般将基于统计的方法与基于词典的方法相结合。

基于语义、理解的分词方法

评测一个分词系统的效果的主要指标：精度（查准率）、召回率（查全率）、F值

N：标准分割的单词数、e：分词器错误标注的单词数、c：分词器正确标注的单词数

精度（查准率），表明分词器分词的准确程度。R = C/N

召回率（查全率），表明分词器切分正确的词有多么全。P = c/(c + e)

F值，综合反应整体的指标。F = 2PR/(P + R)

错误率，表明分词器的错误程度。ER = e/N

R、P、F越大越好，ER越小越好。一个完美的分词器的P、R、F的值均为1，ER值为0。

分词工具

jieba算法：

基本原理：对于需要划分的词，如果在词典中，则直接读取、划分；如果不在词典中，用Viterbi算法进行分词。

jieba的三种分词模式：精确模式：对语句进行最精确的划分；全模式：扫描出句子中所有可以成词的词语；搜索引擎模式；

jieba.cut()函数是中文语句分词的主要函数。调用方式：

import jieba
jieba.cut(sentence, cut_all=False, HMM=True)
# sentence：需要分词处理的字符串 
# cut_all：分词模式。True全模式，False精准模式。
# HMM：是否使用HMM模型

例：

import jieba
s=jieba.cut(sentence) # 字符串
list(s)

thula分词工具包

thulac分词工具包中的thulac()函数，生成模型：

thulac(user_dict=None, model_path=None, T2S=False, seg_only=False, filt=False)# 初始化程序，进行自定义设置
# user_dict：设置用户词典。

thulac模型的调用方式：

cut()进行一句话分词

cut(sentence, text=False)

cut_f()对文件进行分词

cut_f(Text, text=False)# text表示是否返回文本，默认False

cut_f(input_text, output_text)# 输入文件 输出文件

例：

import thulac
thu1 = thulac.thulac() # 默认模式
text = thu1.cut("我爱北京天安门", text=True) #进行一句话分词 
# 结果：我_r 爱_v 北京_ns 天安门_ns
print(text)

练习

切分以下句子：

import thulac 
thu1 = thulac.thulac() #默认模式 

# 结果：他_r 用_v 了_u 两_m 个_q 半天_m 写_v 完_v 了_u 这_r 篇_q 文章_n 。_w
text1 = thu1.cut("他用了两个半天写完了这篇文章。", text=True) 
print(text1)

# 结果：我等_r 她_r 等_v 了_u 半天_m 。_w
text2 = thu1.cut("我等她等了半天。", text=True) 
print(text2)

import jieba

# 结果：['人们', '朝向', '不同', '的', '出口', '。']
s1 = jieba.cut("人们朝向不同的出口。", cut_all=False, HMM=True)
print(list(s1))


# 结果：['我们', '出发', '的', '时间', '不同', '。']
s2 = jieba.cut("我们出发的时间不同。", cut_all=False, HMM=True)
print(list(s2))

内容总结

以上是互联网集市为您收集整理的python的中文分词全部内容，希望文章能够帮你解决python的中文分词所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/615097.html

来源：【匿名】

【上一篇】Python学习之数据类型的使用及内置方法Day07 【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python的中文分词】教程文章相关的互联网学习教程文章

目录模块安装开源代码基本用法词性标注模块安装pip install jieba jieba分词器支持4种分词模式:精确模式该模式会试图将句子最精确地切分开，适合在文本分析时使用。全模式该模式会将句子中所有可以成词的词语都扫描出来，速度也非常快，缺点是不能解决歧义问题，有歧义的词语也会被扫描出来。搜索引擎模式该模式会在精确模式的基础上对长词语再进行切分，将更短的词切分出来。在搜索引擎中，要求输入词语的一部分也能检索到整个词语...

有哪些高质量的中文分词api？【图】

最好多多推荐一些对中国本土的一些互联网用词——比如说“卧槽，给力，牛逼，好六，六六六，水贴，爆吧，女票，男票，蓝孩子，孩纸”之类的俚语也能有很好的分词能力的中文分词API就好了。回复内容：稍微体验过的，简单收录下哈工大：语言云（语言技术平台云 LTP-Cloud）东北大学NiuTrans统计机器翻译系统：东北大学自然语言处理实验室中科院张华平博士ICTCLAS ：NLPIR汉语分词系统波森科技：首页 - BosonNLP结巴：fxsjy/jieba G...

三种常用的python中文分词工具

本篇文章给大家分享的内容是三种常用的python中文分词工具，有着一定的参考价值，有需要的朋友可以参考一下这三种分词工具,在这里分享下~1.jieba 分词:# -*- coding: UTF-8 -*- import os import codecs import jieba seg_list = jieba.cut(邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。)f1 = codecs.open("d2w_ltp.txt","w") print "/".join(seg_list)for i in seg_list:f1.write(i.encode("u...

jieba中文分词的使用实例详解

中文文本分类不像英文文本分类一样只需要将单词一个个分开就可以了，中文文本分类需要将文字组成的词语分出来构成一个个向量。所以，需要分词。这里使用网上流行的开源分词工具结巴分词（jieba），它可以有效的将句子里的词语一个个的提取出来，关于结巴分词的原理此处不再赘述，关键是他的使用方法。1、安装结巴分词是一个Python的工具函数库，在python环境下安装，安装方式如下：（1）python2.x下全自动安装：easy_install ...

Python中文分词实现方法(安装pymmseg)

本文实例讲述了Python中文分词实现方法。分享给大家供大家参考，具体如下：在Python这pymmseg-cpp 还是十分方便的！环境 ubuntu10.04 , python2.65 步骤: 1 下载mmseg-cpp的源代码 http://code.google.com/p/pymmseg-cpp/ 2 执行：tar -zxf pymmseg-cpp*.tar.gz //解压后得到pymmseg 目录 cd pymmseg\mmseg-cpp python build.py #生成 mmseg.so文件3 将 pymmseg 目录复制到 /usr/local/lib/python2.6/dist-packages 中 4 测试有...

python实现中文分词FMM算法实例

本文实例讲述了python实现中文分词FMM算法。分享给大家供大家参考。具体分析如下： FMM算法的最简单思想是使用贪心算法向前找n个，如果这n个组成的词在词典中出现，就ok，如果没有出现，那么找n-1个...然后继续下去。假如n个词在词典中出现，那么从n+1位置继续找下去，直到句子结束。import re def PreProcess(sentence,edcode="utf-8"): sentence = sentence.decode(edcode) sentence=re.sub(u"[。，,！……!《》<>\":：？\?、...

基于Python的中文分词方案那种比较好？

回复内容： "结巴"中文分词：做最好的Python中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.https://github.com/fxsjy/jiebapynlpir，对ictclas的封装，最近做毕设正在用，速度和准确率都很好～闲来无事，写了两个分词程序，一个是基于mmseg的另一个是基于CRF的，目前已经上传pypi.pip install scsegpip install genius其实我没有用过...

想做Python聊天机器人有什么好用的中文分词、数据挖掘、AI方面的Python库或者开源项目推荐？

想做http://www.gxlcms.com/wiki/1514.html" target="_blank">Python聊天机器人有什么好用的中文分词、数据挖掘、AI方面的Python库或者开源项目推荐？准确率测试（使用对应项目提供在线测试，未添加用户自定义词典）结巴中文分词209.222.69.242:9000/中科院分词系统ictclas.org/ictclas_demo.htmlsmallseg smallseg.appspot.com/smallsegsnailseg snailsegdemo.appspot.com/(后两者网址需要翻墙)测试文本1工信处女干事每月经过下属...

[Python] 中文分词【代码】

目录模块安装开源代码基本用法词性标注模块安装 pip install jiebajieba分词器支持4种分词模式:精确模式该模式会试图将句子最精确地切分开，适合在文本分析时使用。全模式该模式会将句子中所有可以成词的词语都扫描出来，速度也非常快，缺点是不能解决歧义问题，有歧义的词语也会被扫描出来。搜索引擎模式该模式会在精确模式的基础上对长词语再进行切分，将更短的词切分出来。在搜索引擎中，要求输入词语的一部分也能检索到整个...

python的中文分词【代码】

中文分词这里写目录标题中文分词基于词典的分词方法最大匹配算法：（正向/逆向）预处理优化基于统计的分词方法基于语义、理解的分词方法分词工具jieba算法：thula分词工具包练习基于词典的分词方法机械分词方法、字符串匹配的分词方法。按照一定的策略将待分词的汉字串与一个充分大的机器词典中的词条进行匹配。三个要素:1.分词词典 2.文本扫描顺序 3.匹配原则按照扫描句子的顺序，可以分为正向扫描、逆向扫描和双向扫描。...

基于python中jieba包的中文分词中详细使用之一

基于python中jieba包的中文分词中详细使用（一） 01.前言之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛，现在就现有的python环境中对其官方文档做一些自己的理解以及具体的介绍。本文主要内容也是从官网文档中获取。 02.jieba的介绍 02.1 What “jieba” （Chinese for “to stutter”）Chiese text segmention:built to be the best Python Chinse word segmenmtation module."jieba"中文分词：做最好的Python中文分...

python中文分词教程之前向最大正向匹配算法介绍

前言　　中文分词是中文文本处理的一个基础性工作，然而长久以来，在Python编程领域，一直缺少高准确率、高效率的分词组件。　　大家都知道，英文的分词由于单词间是以空格进行分隔的，所以分词要相对的容易些，而中文就不同了，中文中一个句子的分隔就是以字为单位的了，而所谓的正向最大匹配和逆向最大匹配便是一种分词匹配的方法，这里以词典匹配说明。　　最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法，分为正向...

【Python自然语言处理】中文分词技术——规则分词【代码】

中文分词方法本文参考自书籍《Python自然语言处理实战：核心技术与算法》用做个人的学习笔记和分享1. 规则分词规则分词是一种机械分词方法，主要通过维护词典，在切分语句时将语句的每个字符串和词表中的词逐一匹配找到则切分，找不到则不切分。具体包括正向最大匹配法、逆向最大匹配法和双向最大匹配法 1.1 正向最大匹配法 1.1.1 算法描述 ①从左向右取待切分汉语句的m 个字符作为匹配字段， m 为机器词典中最长词条的字符数。...

python3.6 基于Pycharm实现中文分词、去停用词、词云可视化【代码】【图】

python3.6 基于Pycharm实现中文分词、去停用词、词云可视化可视化词云的时候遇到了中文不显示的问题，解决方法代码中有标注。import glob import random import jieba import matplotlib.pyplot as plt from wordcloud import WordCloud# 数据读取 def get_content(path):with open(path, r, encoding=utf8, errors=ignore) as f:content = for line in f:# 去掉每句话开头和结尾的空格line = line.strip()content += linereturn ...

Python数据挖掘-中文分词【代码】

将一个汉字序列切分成一个一个单独的词安装分词模块： pip install jieba 分词在特殊场合的实用性，调用add_word()，把我们要添加的分词加入jieba词库高效方法：将txt保存的词库一次性导入用户词库中 import jieba jieba.load_userdict("D:\\Python\\Python数据挖掘\\Python数据挖掘实战课程课件\\2.2\\金庸武功招式.txt") 1、搭建语料库import os import os.path import codecsfilePaths=[] fileContents=[] for root,dir...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python的中文分词

python的中文分词

内容导读

内容图文

中文分词

这里写目录标题

基于词典的分词方法

最大匹配算法：（正向/逆向）

预处理优化

基于统计的分词方法

基于语义、理解的分词方法

分词工具

jieba算法：

thula分词工具包

练习

内容总结

内容备注

内容手机端

【python的中文分词】教程文章相关的互联网学习教程文章

[Python] 中文分词【代码】

有哪些高质量的中文分词api？【图】

三种常用的python中文分词工具

jieba中文分词的使用实例详解

Python中文分词实现方法(安装pymmseg)

python实现中文分词FMM算法实例

基于Python的中文分词方案那种比较好？

想做Python聊天机器人有什么好用的中文分词、数据挖掘、AI方面的Python库或者开源项目推荐？

[Python] 中文分词【代码】

python的中文分词【代码】

基于python中jieba包的中文分词中详细使用之一

python中文分词教程之前向最大正向匹配算法介绍

【Python自然语言处理】中文分词技术——规则分词【代码】

python3.6 基于Pycharm实现中文分词、去停用词、词云可视化【代码】【图】

Python数据挖掘-中文分词【代码】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程