Java小强个人技术博客站点    手机版
当前位置: 首页 >> 软件 >> IK分词器扩展词停用词

IK分词器扩展词停用词

24940 软件 | 2022-2-9

Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎,能够解决不断涌现出的各种用例。 作为 Elastic Stack 的核心,它集中存储您的数据,帮助您发现意料之中以及意料之外的情况。


# 进入容器内部
docker exec -it es /bin/bash
# 查看文件
cat /usr/share/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml


内容

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict"></entry>
	 <!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords"></entry>
	<!--用户可以在这里配置远程扩展字典 -->
	<!-- <entry key="remote_ext_dict">words_location</entry> -->
	<!--用户可以在这里配置远程扩展停止词字典-->
	<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>


这里需要定制自己的扩展词或者停用词,dic词典一行一个词,非常容易编辑。

问题是如果我是一个刚开始的项目,从哪里来那么多字典,就好像输入法需要安装词库。


我们可以去搜狗输入法官方下载一些词库

https://pinyin.sogou.com/dict/ 


下载后是一些.scel的文件,用文本是无法编辑的,此时需要一个工具来把他转为可用的词典

深蓝细胞词库scel转txt工具.rar


微信截图_20220209170204.jpg


转换后安装到自己的插件中。


这是一个通用的做法,如果是你用的solr,也可以这样操作。

推荐您阅读更多有关于“ elasticsearch 字典 词典 扩展词 停用词 ”的文章

上一篇:Redisson 分布式锁和同步器 下一篇:Elasticsearch安装IK分词器

猜你喜欢

发表评论: