首页 / JAVA / JAVA开源中文分词工具-IKAnalyzer下载及使用

JAVA开源中文分词工具-IKAnalyzer下载及使用

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了JAVA开源中文分词工具-IKAnalyzer下载及使用，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2624字，纯文字阅读大概需要4分钟。

内容图文

关键字：中文分词、IKAnalyzer

最近有个需求，需要对爬到的网页内容进行分词，以前没做过这个，随便找了找中文分词工具，貌似IKAnalyzer评价不错，因此就下来试试，在这里记录一下使用方法，备查。

关于IKAnalyzer的介绍，网上很多，搜一下就知道了。下载地址见文章最后面。

下载解压之后主要使用和依赖以下文件：

IKAnalyzer2012_u6.jar?? — IKAnalyzer核心jar包

IKAnalyzer.cfg.xml??? — 配置文件，可以在这里配置停词表和扩展词库

stopword.dic??? — 停词表

lucene-core-3.6.0.jar? — lucene jar包，注意：只能使用这个3.6版本，高版本有问题

IKAnalyzer中文分词器V2012_U5使用手册.pdf? — 使用手册

新建Java项目，将IKAnalyzer2012_u6.jar和lucene-core-3.6.0.jar添加到Build Path，将stopword.dic和IKAnalyzer.cfg.xml添加到项目根目录。

看一下IKAnalyzer.cfg.xml的内容：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 扩展配置</comment>
	<!–用户可以在这里配置自己的扩展字典 –>
	<entry key="ext_dict"></entry>
	
	<!–用户可以在这里配置自己的扩展停止词字典–>
	<entry key="ext_stopwords">stopword.dic;</entry>
</properties>

?使用示例代码：

package com.lxw1234.wordsplit;

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

/**
 * 
 * @author lxw的大数据田地 -- lxw1234.com
 *
 */
public class Test {

	public static void main(String[] args) throws Exception {
		String text = "lxw的大数据田地 -- lxw1234.com 专注Hadoop、Spark、Hive等大数据技术博客。 北京优衣库";
		Analyzer analyzer = new IKAnalyzer(false);
		StringReader reader = new StringReader(text);
		TokenStream ts = analyzer.tokenStream("", reader);  
        CharTermAttribute term=ts.getAttribute(CharTermAttribute.class); 
        while(ts.incrementToken()){  
            System.out.print(term.toString()+"|");  
        }
        analyzer.close();
        reader.close();  
	}

}

执行结果为：

lxw|的|大数|数据|田地|lxw1234.com|lxw|1234|com|专注|hadoop|spark|hive|等|大数|数据|技术|博客|北京|优|衣|库|

分词分的很细。

看这个构造函数：Analyzer analyzer = new IKAnalyzer(false);

IKAnalyzer支持两种分词模式：最细粒度和智能分词模式，如果构造函数参数为false，那么使用最细粒度分词。

改成智能分词模式之后的结果：

Analyzer analyzer = new IKAnalyzer(true);

lxw|的|大|数据|田地|lxw1234.com|专注|hadoop|spark|hive|等|大|数据|技术|博客|北京|优|衣|库|

结果还是不太理想，“大数据”和“优衣库”都被分开了，原因是IKAnalyzer自带的词库里面没有这两个词。

需要配置扩展词库。

在项目根目录新建文件MyDic.dic，里面内容为：

大数据

优衣库

每行一个词，特别注意：MyDic.dic的文件编码必须为UTF-8。

编辑IKAnalyzer.cfg.xml配置文件，添加扩展词库：

<!–用户可以在这里配置自己的扩展字典 –>
<entry key="ext_dict">MyDic.dic;</entry>

再运行：

lxw|的|大数据|田地|lxw1234.com|专注|hadoop|spark|hive|等|大数据|技术|博客|北京|优衣库|

这下基本是我们想要的结果了。

参考更多大数据Hadoop、Spark、Hive相关：lxw的大数据田地

下载地址：https://code.google.com/p/ik-analyzer/downloads/list

这个地址估计大家不方便，上传了一份到网盘：

http://lxw1234.com/archives/2015/07/422.htm

原文：http://superlxw1234.iteye.com/blog/2229237

内容总结

以上是互联网集市为您收集整理的JAVA开源中文分词工具-IKAnalyzer下载及使用全部内容，希望文章能够帮你解决JAVA开源中文分词工具-IKAnalyzer下载及使用所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1179107.html

来源：【匿名】

【上一篇】Java-线程池专题（什么是线程池，如何使用，为什么要用）【下一篇】JAVA/JSP学习系列之五

更多 ►

【JAVA开源中文分词工具-IKAnalyzer下载及使用】教程文章相关的互联网学习教程文章

Docker Caused by: java.nio.file.AccessDeniedException: /usr/share/elasticsearch/plugins/ik-analyzer/【代码】

在使用Docker安装Elasticsearch的IK-Analyzer中文分词器时出现以下错误错误信息：Caused by: java.nio.file.AccessDeniedException: /usr/share/elasticsearch/plugins/ik-analyzer/plugin-descriptor.properties 错误原因:在拷贝IK-analzyer中文分词器插件到elasticsearch中后,重启Docker容器报以下错误：Caused by: java.nio.file.AccessDeniedException: /usr/share/elasticsearch/plugins/ik-analyzer/plugin-descriptor.prop...

首页 / JAVA / JAVA开源中文分词工具-IKAnalyzer下载及使用

JAVA开源中文分词工具-IKAnalyzer下载及使用

内容导读

内容图文

内容总结

内容备注

内容手机端

【JAVA开源中文分词工具-IKAnalyzer下载及使用】教程文章相关的互联网学习教程文章

Docker Caused by: java.nio.file.AccessDeniedException: /usr/share/elasticsearch/plugins/ik-analyzer/【代码】

下载 - 相关标签

JAVA - 技术教程分类

JAVA - 最新教程

JAVA - 最热教程