首页 / SOLR / Solr4.7.1中配置中文分词器
Solr4.7.1中配置中文分词器
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了Solr4.7.1中配置中文分词器,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1739字,纯文字阅读大概需要3分钟。
内容图文
![Solr4.7.1中配置中文分词器](/upload/InfoBanner/zyjiaocheng/1167/941aa853bd0544569b1b0c5eba78222b.jpg)
1、SmartChineseAnalyzer
(1)将lucene-analyzers-smartcn-4.7.1.jar添加到tomcat/webapps/solr/WEB-INF/lib文件中
(2)编辑solr主目录中conf/schema.xml文件,在<types></types>之间添加如下定义:
(3)为了测试,将schema.xml中<field name="author">的type类型改为text_zh
(4)测试,启动tomcat,浏览器访问http://localhost:8080/solr/#/collection1/analysis
2、IK Analyzer
(1)将IKAnalyzer2012FF_u1.jar添加到tomcat/webapps/solr/WEB-INF/lib文件夹中
(2)编辑solr主目录中conf/schema.xml文件,添加如下定义
(3)为了配合测试,将title自动的type改为text_ik
(4)测试,同样http://localhost:8080/solr/#/collection1/analysis
补充:
MMSeg4j也是一个中文分词器,当前版本是1.9.1,链接:http://code.google.com/p/mmseg4j/
我在测试过程中发现,用这个分词器在分词时会报如下错误:
java.lang.IllegalStateException: TokenStream contract violation: reset()/close() call missing, reset() called multiple times, or subclass does not call super.reset(). Please see Javadocs of TokenStream class for more information about the correct consuming workflow.
原因是在调用incrementToken()方法之前没有调用reset()方法
这里纠结这个问题了。。。
本文出自 “十里稻花香” 博客,请务必保留此出处http://5880861.blog.51cto.com/5870861/1390918
原文:http://5880861.blog.51cto.com/5870861/1390918
内容总结
以上是互联网集市为您收集整理的Solr4.7.1中配置中文分词器全部内容,希望文章能够帮你解决Solr4.7.1中配置中文分词器所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。