JAVA开源中文分词工具-IKAnalyzer下载及使用
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了JAVA开源中文分词工具-IKAnalyzer下载及使用,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含2624字,纯文字阅读大概需要4分钟。
内容图文
关键字:中文分词、IKAnalyzer
最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查。
关于IKAnalyzer的介绍,网上很多,搜一下就知道了。下载地址见文章最后面。
下载解压之后主要使用和依赖以下文件:
IKAnalyzer2012_u6.jar?? — IKAnalyzer核心jar包
IKAnalyzer.cfg.xml??? — 配置文件,可以在这里配置停词表和扩展词库
stopword.dic??? — 停词表
lucene-core-3.6.0.jar? — lucene jar包,注意:只能使用这个3.6版本,高版本有问题
IKAnalyzer中文分词器V2012_U5使用手册.pdf? — 使用手册
新建Java项目,将IKAnalyzer2012_u6.jar和lucene-core-3.6.0.jar添加到Build Path,将stopword.dic和IKAnalyzer.cfg.xml添加到项目根目录。
看一下IKAnalyzer.cfg.xml的内容:
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK Analyzer 扩展配置</comment> <!–用户可以在这里配置自己的扩展字典 –> <entry key="ext_dict"></entry> <!–用户可以在这里配置自己的扩展停止词字典–> <entry key="ext_stopwords">stopword.dic;</entry> </properties>
?使用示例代码:
package com.lxw1234.wordsplit; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.wltea.analyzer.lucene.IKAnalyzer; /** * * @author lxw的大数据田地 -- lxw1234.com * */ public class Test { public static void main(String[] args) throws Exception { String text = "lxw的大数据田地 -- lxw1234.com 专注Hadoop、Spark、Hive等大数据技术博客。 北京优衣库"; Analyzer analyzer = new IKAnalyzer(false); StringReader reader = new StringReader(text); TokenStream ts = analyzer.tokenStream("", reader); CharTermAttribute term=ts.getAttribute(CharTermAttribute.class); while(ts.incrementToken()){ System.out.print(term.toString()+"|"); } analyzer.close(); reader.close(); } }
执行结果为:
lxw|的|大数|数据|田地|lxw1234.com|lxw|1234|com|专注|hadoop|spark|hive|等|大数|数据|技术|博客|北京|优|衣|库|
分词分的很细。
看这个构造函数:Analyzer analyzer = new IKAnalyzer(false);
IKAnalyzer支持两种分词模式:最细粒度和智能分词模式,如果构造函数参数为false,那么使用最细粒度分词。
改成智能分词模式之后的结果:
Analyzer analyzer = new IKAnalyzer(true);
lxw|的|大|数据|田地|lxw1234.com|专注|hadoop|spark|hive|等|大|数据|技术|博客|北京|优|衣|库|
结果还是不太理想,“大数据”和“优衣库”都被分开了,原因是IKAnalyzer自带的词库里面没有这两个词。
需要配置扩展词库。
在项目根目录新建文件MyDic.dic,里面内容为:
大数据
优衣库
每行一个词,特别注意:MyDic.dic的文件编码必须为UTF-8。
编辑IKAnalyzer.cfg.xml配置文件,添加扩展词库:
<!–用户可以在这里配置自己的扩展字典 –>
<entry key="ext_dict">MyDic.dic;</entry>
再运行:
lxw|的|大数据|田地|lxw1234.com|专注|hadoop|spark|hive|等|大数据|技术|博客|北京|优衣库|
这下基本是我们想要的结果了。
参考更多大数据Hadoop、Spark、Hive相关:lxw的大数据田地
下载地址:https://code.google.com/p/ik-analyzer/downloads/list
这个地址估计大家不方便,上传了一份到网盘:
http://lxw1234.com/archives/2015/07/422.htm
原文:http://superlxw1234.iteye.com/blog/2229237
内容总结
以上是互联网集市为您收集整理的JAVA开源中文分词工具-IKAnalyzer下载及使用全部内容,希望文章能够帮你解决JAVA开源中文分词工具-IKAnalyzer下载及使用所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。