Solr配置IK中文分词器和自定义分词停词

ik中文分词器下载

第一步:把IK-Analyzer-7.2.1.jar添加到apache-tomcat-9.0.43\webapps\solr\WEB-INF\lib目录下。

第二步:复制IKAnalyzer的配置文件IKAnalyzer.cfg.xml和自定义词典ext.dic和停用词词典stopword.dicapache-tomcat-9.0.43\webapps\solr\WEB-INF\classes下。这一步是用来配置自定义分词和自定义停词的,一些专有名词,我们希望它能够作为独立的词条,这叫做扩展词;一些助词,谓词我们不希望它被作为词条,这叫停词。停词就是不作为搜索条件,扩展词可以搜索
在这里插入图片描述在IKAnalyzer.cfg.xml配置文件里面配置如下信息:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict">ext.dic;</entry> 
	
	<!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords">stopword.dic;</entry> 
	
</properties>

示例:
stopword.dic扩展词文件中加入“而且”词条之前
ik分词器将“善良而且坚强”分词为 “善良”,“而且”,“坚强”三个词条,
加入之后
ik分词器将“佳都科技”分词为 “善良”,“坚强”两个词条,

ext.dic扩展词文件中加入“牛二瓦”词条之前
ik分词器将“牛二瓦”分词为 “牛”,“二”,“瓦”三个词条,
加入之后
ik分词器将“牛二瓦”分词为 “牛二瓦”,“二”,“瓦”三个词条(如果不想,二和瓦这两个字,就将这两个字加入到stopword.dic中),

第三步:配置Coremanaged-schema文件,目录solorhome\collection1\conf

<!--ik分词器配置-->
	<fieldType name="text_ik" class="solr.TextField">
    <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
	</fieldType>

	<field name="content_ik" type="text_ik" indexed="true" stored="false"/>

保存,重启tomcat就可以使用IK分词器了

solr管理页面选择核然后选择analysis就可以查看分词效果了
在这里插入图片描述


版权声明:本文为weixin_43085797原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。