首页 / 更多教程 / 中文分词文章索引和分词数据资源分享
中文分词文章索引和分词数据资源分享
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了中文分词文章索引和分词数据资源分享,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1792字,纯文字阅读大概需要3分钟。
内容图文
昨天在AINLP公众号上分享了乐雨泉同学的投稿文章:《分词那些事儿》,有同学留言表示"不过瘾",我想了想,其实我爱自然语言处理博客上已经积攒了不少中文分词的文章,除了基于深度学习的分词方法还没有探讨外,“古典”机器学习时代的中文分词方法都有涉及,从基于词典的中文分词(最大匹配法),到基于统计的分词方法(HMM、最大熵模型、条件随机场模型CRF),再到Mecab、NLTK中文分词,都有所涉及。回头看,这些文章最早的大概有10年了,现在看有些稚嫩,可能不适宜再放到公众号上推了,但是这里做个索引,感兴趣的同学可以在博客上阅读,基本上都是有代码可以参考的。
中文分词入门系列
中文分词入门之最大匹配法
中文分词入门之最大匹配法扩展2
中文分词入门之篇外
中文分词入门之文献
基于字标注的中文分词方法
中文分词入门之字标注法1
中文分词入门之字标注法2
中文分词入门之字标注法3
中文分词入门之字标注法4
中文分词入门之字标注法全文文档
用MeCab打造一套实用的中文分词系统
用MeCab打造一套实用的中文分词系统(二)
用MeCab打造一套实用的中文分词系统(三):MeCab-Chinese
Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器
rickjin老大的两篇日文翻译文档,很有帮助
Darts: Double-ARray Trie System 翻译文档
日文分词器 Mecab 文档
其他同学在52nlp博客上分享的中文分词相关文章,感谢大家
初学者报到: 实现了一个最大匹配的分词算法
初学者报道(2):实现 1-gram分词算法
初学者报道(3) CRF 中文分词解码过程理解
Itenyh版-用HMM做中文分词一:序
Itenyh版-用HMM做中文分词二:模型准备
Itenyh版-用HMM做中文分词三:前向算法和Viterbi算法的开销
Itenyh版-用HMM做中文分词四:A Pure-HMM 分词器
Itenyh版-用HMM做中文分词五:一个混合的分词器
最后关于中文分词的数据资源,多说两句,中文分词的研究时间比较长,方法比较多,从实际经验看,好的词库资源可能更重要一些,最后提供一份中文分词的相关资源,包括中文分词字标注法全文pdf文档,以及web上其他同学分享的词库资源,感兴趣的同学可以关注AINLP,回复“fenci"获取:
内容总结
以上是互联网集市为您收集整理的中文分词文章索引和分词数据资源分享全部内容,希望文章能够帮你解决中文分词文章索引和分词数据资源分享所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。