600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > 架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库

架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库

时间:2021-07-10 19:52:47

相关推荐

架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库

文章目录

ik中文分词器1. 安装ik中文分词器(7.4.2版本)2. 使用ik中文分词器2.1 分词器: ik_max_word2.1 分词器: ik_smart 自定义中文词库自定义词库, 导入字典

ik中文分词器

1. 安装ik中文分词器(7.4.2版本)

上传zip文件到我们的服务器

2. 解压并放在elasticsearch的plugins的ik文件夹下

yum install -y unzip zip安装zip工具unzip elasticsearch-analysis-ik-7.4.2.zip -d /usr/local/elasticsearch-7.4.2/plugins/ik

进入ES的ik目录下cd /usr/local/elasticsearch-7.4.2/plugins/ik

重新启动ESjpskill ***su esusercd /usr/local/elasticsearch-7.4.2/bin./elasticsearch -d

2. 使用ik中文分词器

2.1 分词器: ik_max_word

此分词器会将文本进行最细粒度的拆分, 比如将"中华人民共和国国歌"

拆分为"中华人民共和国",“中华人民”,“中华”,“华人”,“人民共和国”,“人民”,“人”,“民”,“共和国”,“共和”,“和”,“国国”,“国歌”

2.1 分词器: ik_smart

此分词器会将文本进行最粗粒度的拆分.

自定义中文词库

在我们使用ik分词器的时候, 随着时代的发展, 难免出现时代流行词语而ik分词器不识别的问题, 如下, 骚年, 慕课网并不能作为一个词汇的问题:

自定义词库, 导入字典

关闭ES:jps,kill xxx进入ik的config中配置

cd /usr/local/elasticsearch-7.4.2/plugins/ik/config/

切换到root, 编辑配置文件IKAnalyzer

su root

vim IKAnalyzer.cfg.xml

创建custom.dic文件vim custom.dic

切换会esuser用户, 启动ES

su esuser

cd /usr/local/elasticsearch-7.4.2/bin/

./elasticsearch -d

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。