首页 / SOLR / solr4.4.0集成carrot2支持中文和添加自己的中文分词器的方法

solr4.4.0集成carrot2支持中文和添加自己的中文分词器的方法

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了solr4.4.0集成carrot2支持中文和添加自己的中文分词器的方法，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1498字，纯文字阅读大概需要3分钟。

内容图文

默认 carrot2中是支持中文的，但是需要一个参数进行指定 carrot.lang= CHINESE_SIMPLIFIED carrot2支持的语言可以参考http://doc.carrot2.org/#div.attribute.lingo.MultilingualClustering.defaultLanguage 但是默认， carrot2使用的分词类是org.apache.luc

默认 carrot2中是支持中文的，但是需要一个参数进行指定

carrot.lang=CHINESE_SIMPLIFIED

carrot2支持的语言可以参考http://doc.carrot2.org/#div.attribute.lingo.MultilingualClustering.defaultLanguage

但是默认，carrot2使用的分词类是 org.apache.lucene.analysis.cn.smart.SentenceTokenizer，这是看 carrot源代码找到的源码如下(在org.apache.solr.handler.clustering.carrot2.LuceneCarrot2TokenizerFactory类中)

private ChineseTokenizer() throws Exception {
this.tempCharSequence = new MutableCharArray(new char[0]);

// As Smart Chinese is not available during compile time,
// we need to resort to reflection.
final Class<?> tokenizerClass = ReflectionUtils.classForName(
"org.apache.lucene.analysis.cn.smart.SentenceTokenizer", false);
this.sentenceTokenizer = (Tokenizer) tokenizerClass.getConstructor(
Reader.class).newInstance((Reader) null);
this.tokenFilterClass = ReflectionUtils.classForName(
"org.apache.lucene.analysis.cn.smart.WordTokenFilter", false);
}

如果，没有这个类，carrot2默认就会使用一个 ExtendedWhitespaceTokenizer 使用空格进行切词，所以如果要使用carrot2自己的中文切词，需要加入 lucene-analyzers-smartcn-4.4.0.jar

当然也可以使用自己的分词包，比如IK等等，把上述源码替换成相应的类即可。

内容总结

以上是互联网集市为您收集整理的solr4.4.0集成carrot2支持中文和添加自己的中文分词器的方法全部内容，希望文章能够帮你解决solr4.4.0集成carrot2支持中文和添加自己的中文分词器的方法所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/530345.html

来源：【匿名】

【上一篇】solr索引mysqlDIH链接【下一篇】solr主从集群2

更多 ►

【solr4.4.0集成carrot2支持中文和添加自己的中文分词器的方法】教程文章相关的互联网学习教程文章

第二步solr配置中文分词IK Analyzer【代码】【图】

1、下载IK Analyzer 2012FF_hf1.zip解压如下图：注解（IK Analyzer 2012才能支持solr4.0以上的版本）下载地址：http://pan.baidu.com/s/1c0nMOhE650) this.width=650;" src="/upload/getfiles/default/2022/11/14/20221114115016278.jpg" title="QQ截图20150121150425.png" />2、添加IK Analyzer 2012 FF 中文分词：把IKAnalyzer2012_FF文件夹IKAnalyzer2012_FF.jar放在tomcat1.6，webapps\solr\WEB-INF\lib的目录下，修改E:\solr\...

Solr7使用Oracle数据源导入+中文分词

oracle.jdbc.driver.OracleDriver" url="jdbc:oracle:thin:@192.168.2.218:1521:product " user="数据库用户名" password="数据库密码" /><document name=”product” pk=”主键”><entity name="bless" query="select * from bless"<--这里配查询语句--> deltaImportQuery="SELECT * FROM userinfo where UserID=‘${dih.delta.spuid}‘" deltaQuery="select bless_id from bless where bless_time > ‘${dataimporter.last_index...

linux下solr7.5的安装与中文分词【代码】【图】

solr的安装 ??首先要保证我们的服务器是有java环境,这里我用的是jdk1.8,为了方便我们直接从官网下载最新的solr7.5 ??wget http://mirrors.hust.edu.cn/apache/lucene/solr/7.5.0/solr-7.5.0.tgz ??下载完成之后进行解压 tar -zxvf solr-7.5.0.tgz,如果一切顺利的话我们会在目录下看到我们的solr目录 ??完成之后进入solr目录的bin下, cd solr-7.5.0/bin/ 尝试使用命令启动./solr start 会发现启动失败??这是因为使用的是root用户所以...

首页 / SOLR / solr4.4.0集成carrot2支持中文和添加自己的中文分词器的方法

solr4.4.0集成carrot2支持中文和添加自己的中文分词器的方法

内容导读

内容图文

内容总结

内容备注

内容手机端

【solr4.4.0集成carrot2支持中文和添加自己的中文分词器的方法】教程文章相关的互联网学习教程文章

第二步solr配置中文分词IK Analyzer【代码】【图】

Solr7使用Oracle数据源导入+中文分词

linux下solr7.5的安装与中文分词【代码】【图】

SOLR - 相关标签

分词器 - 相关标签

SOLR - 最新教程

SOLR - 最热教程