mmseg4j 1.8 中有词库变化检测功能,新加载词库后,很有可能此时的分词(搜索时)与索引不对应了。所以要有个机制让重新做索引。
这里使用最简单的方式,就是被动式的加载词库。由外围的程序去决定什么时候更新词库,然后也由外围的程序决定重做索引与否。比如可以写个 shell 脚本放到 crontab 里。
按 solr 的理念——用 url 方式去通知 mmseg4j 加载词库。这个任务交出 MMseg4jHandler 去做。
参数:
dicPath 是指定词库的目录,特性与MMSegTokenizerFactory中的dicPath一样(相对目录是,是相对 solr.home)。
check 是指是否检测词库,其值是true 或 on。
reload 是否尝试加载词库,其值是 true 或 on。此值为 true,会忽视 check 参数。
solrconfig.xml文件增加:
<requestHandler name="/mmseg4j" class="com.chenlb.mmseg4j.solr.MMseg4jHandler" > <lst name="defaults"> <str name="dicPath">dic</str> </lst> </requestHandler>
然后可以用 http://localhost:8080/solr/mmseg4j/?reload=true,去尝试加载(注意:内存空间要有2倍词库大小的可能空间。一个词库可可能 50M)。
返回结果如下:
<?xml version="1.0" encoding="UTF-8"?> <response> <lst name="responseHeader"><int name="status">0</int><int name="QTime">1</int></lst><lst name="result"><str name="dicPath">java.net.URI:file:/data/deployment_new/lelifeextra/solr/solrhome/dic/</str><bool name="changed">false</bool></lst> </response>
注意:dicPath 参数是 MMSegTokenizerFactory 里指定的 dicPath 才有意义。
附注:
mmseg4j-core-1.10.0.jar 中的 chars.dic, units.dic, words,dic , 这三个都是官方词库,你可以更改以便覆盖官方配置, 也可以不更改。
放入以文件名为words开头, .dic为文件结尾的UTF-8格式的文件, 如果是带BOM的UTF8文件, 第一行为空即可. 每行一个词。
推荐您阅读更多有关于“ mmseg4j MMSeg4jHandler 动态词库 ”的文章
Java小强
未曾清贫难成人,不经打击老天真。
自古英雄出炼狱,从来富贵入凡尘。
发表评论: