网站首页
Java
站长
开源
框架
理论
JS
Linux
DB
服务器
NET
生活
软件
PHP
其他
您的位置:首页 > 软件 > IK分词器扩展词停用词
IK分词器扩展词停用词
2022-2-9    2559    0

Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎,能够解决不断涌现出的各种用例。 作为 Elastic Stack 的核心,它集中存储您的数据,帮助您发现意料之中以及意料之外的情况。


# 进入容器内部
docker exec -it es /bin/bash
# 查看文件
cat /usr/share/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml


内容

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict"></entry>
	 <!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords"></entry>
	<!--用户可以在这里配置远程扩展字典 -->
	<!-- <entry key="remote_ext_dict">words_location</entry> -->
	<!--用户可以在这里配置远程扩展停止词字典-->
	<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>


这里需要定制自己的扩展词或者停用词,dic词典一行一个词,非常容易编辑。

问题是如果我是一个刚开始的项目,从哪里来那么多字典,就好像输入法需要安装词库。


我们可以去搜狗输入法官方下载一些词库

https://pinyin.sogou.com/dict/ 


下载后是一些.scel的文件,用文本是无法编辑的,此时需要一个工具来把他转为可用的词典

深蓝细胞词库scel转txt工具.rar


微信截图_20220209170204.jpg


转换后安装到自己的插件中。


这是一个通用的做法,如果是你用的solr,也可以这样操作。

上一篇: Redisson 分布式锁和同步器
下一篇: Elasticsearch安装IK分词器
发表评论:
您的网名:
个人主页:
编辑内容: