网站建设用哪个好,动漫制作专业软件有哪些,wordpress动漫电影主题公园,手把手教你搭建自己的网站❤️ 博客主页#xff1a;水滴技术 #x1f680; 支持水滴#xff1a;点赞#x1f44d; 收藏⭐ 留言#x1f4ac; #x1f338; 订阅专栏#xff1a;大数据核心技术从入门到精通 文章目录一、内置分词器1. Standard#xff08;标准分词器#xff09;英文示例中文示例… ❤️ 博客主页水滴技术 支持水滴点赞 收藏⭐ 留言 订阅专栏大数据核心技术从入门到精通 文章目录一、内置分词器1. Standard标准分词器英文示例中文示例2. Simple简单分词器英文示例中文示例3. Whitespace空格分词器英文示例中文示例4. Stop停止分词器英文示例中文示例5. Keyword关键字分词器英文示例中文示例6. Pattern模板分词器英文示例中文示例7. Language语言分词器英文示例中文示例8. Fingerprint指纹分词器英文示例中文示例二、总结三、附录附录一关于“停止词”的解释附录二Java 正则表达式附录三参考资料四、系列文章五、热门专栏大家好我是水滴~~
今天是女神节在这里先祝各位女神们节日快乐。
一、内置分词器
Elasticsearch 内置了 8 种分词器我们无需做任何配置即可使用它们。
1. Standard标准分词器 standard 是 Elasticsearch 的默认分词器它通过 Unicode 文本分割算法根据单词将文本进行分词。它删除了大多数的标点符号并将字母转为小写。 英文示例
测试分词器
POST _analyze
{analyzer: standard,text: The 2 QUICK Brown-Foxes jumped over the lazy dogs bone.
}分词结果
[ the, 2, quick, brown, foxes, jumped, over, the, lazy, dogs, bone ]中文示例
测试分词器
POST /_analyze
{analyzer: standard,text: 戴尔DELL 灵越15pro酷睿i5笔记本电脑旗舰款
}分词结果
[ 戴, 尔, dell, 灵, 越, 15pro, 酷, 睿, i5, 笔, 记, 本, 电, 脑, 旗, 舰, 款 ]2. Simple简单分词器 simple 分词器会按照任何非字母字符进行分割例如数字、空格、连字符等。会丢弃非字符的字符并将大写更改为小写。 英文示例
测试分词器
POST /_analyze
{analyzer: simple,text: The 2 QUICK Brown-Foxes jumped over the lazy dogs bone.
}分词结果
[ the, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]中文示例
测试分词器
POST /_analyze
{analyzer: simple,text: 戴尔DELL 灵越15pro酷睿i5笔记本电脑旗舰款
}分词结果
[ 戴尔, dell, 灵越, pro酷睿i, 笔记本电脑旗舰款 ]3. Whitespace空格分词器 whitespace 顾名思义是按照空格进行分词的即简单的按照空格将原文进行分割。 英文示例
测试分词器
POST _analyze
{analyzer: whitespace,text: The 2 QUICK Brown-Foxes jumped over the lazy dogs bone.
}分词结果
[ The, 2, QUICK, Brown-Foxes, jumped, over, the, lazy, dogs, bone. ]
中文示例
测试分词器
POST _analyze
{analyzer: whitespace,text: 戴尔DELL 灵越15pro酷睿i5笔记本电脑旗舰款
}分词结果
[ 戴尔DELL, 灵越15pro酷睿i5笔记本电脑旗舰款 ]4. Stop停止分词器 stop 分词器与 simple 相同在些基础上会删除停止词如a, the, or等并将大写转为小写。“停止词”见附录一。 英文示例
测试分词器
POST _analyze
{analyzer: stop,text: The 2 QUICK Brown-Foxes jumped over the lazy dogs bone.
}分词结果
[ quick, brown, foxes, jumped, over, lazy, dog, s, bone ]
中文示例
测试分词器
POST _analyze
{analyzer: stop,text: 戴尔DELL 灵越15pro酷睿i5笔记本电脑旗舰款
}分词结果
[ 戴尔, dell, 灵越, pro酷睿i, 笔记本电脑旗舰款 ]5. Keyword关键字分词器 keyword 不做分词会将整个输入的字符串做为一个关键词。 英文示例
测试分词器
POST _analyze
{analyzer: keyword,text: The 2 QUICK Brown-Foxes jumped over the lazy dogs bone.
}分词结果
[ The 2 QUICK Brown-Foxes jumped over the lazy dogs bone. ]
中文示例
测试分词器
POST _analyze
{analyzer: keyword,text: 戴尔DELL 灵越15pro酷睿i5笔记本电脑旗舰款
}分词结果
[ 戴尔DELL 灵越15pro酷睿i5笔记本电脑旗舰款 ]6. Pattern模板分词器 pattern 分词器使用正则表达式将文本进行分词表达式默认为\W会删除所有中文。“正则表达式”见附录二。 英文示例
测试分词器
POST _analyze
{analyzer: pattern,text: The 2 QUICK Brown-Foxes jumped over the lazy dogs bone.
}分词结果
[ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]中文示例
测试分词器
POST /_analyze
{analyzer: pattern,text: 戴尔DELL 灵越15pro酷睿i5笔记本电脑旗舰款
}分词结果
[ dell, 15pro, i5 ]7. Language语言分词器 Language 分词器按照特定语言进行分词支持的语言有arabic, armenian, basque, bengali, brazilian, bulgarian, catalan, cjk, czech, danish, dutch, english, estonian, finnish, french, galician, german, greek, hindi, hungarian, indonesian, irish, italian, latvian, lithuanian, norwegian, persian, portuguese, romanian, russian, sorani, spanish, swedish, turkish, thai。 其中 cjk 表示“中日韩语”但使用结果并不理想。 英文示例
测试分词器
POST _analyze
{analyzer: english,text: The 2 QUICK Brown-Foxes jumped over the lazy dogs bone.
}分词结果
[ 2, quick, brown, fox, jump, over, lazy, dog, bone ]中文示例
测试分词器
POST /_analyze
{analyzer: cjk,text: 戴尔DELL 灵越15pro酷睿i5笔记本电脑旗舰款
}分词结果
[ 戴尔, dell, 灵越, 15pro, 酷睿, i5, 笔记, 记本, 本电, 电脑, 脑旗, 旗舰, 舰款 ]8. Fingerprint指纹分词器 fingerprint 是一种特殊的分词器它会删除重复的字符将这一个个单字符进行排序并连接成一个字符串可用于重复检测的指纹例如文章抄袭检查。 英文示例
测试分词器
POST _analyze
{analyzer: fingerprint,text: Yes yes, Gödel said this sentence is consistent and.
}分词结果
[ and consistent godel is said sentence this yes ]中文示例
测试分词器
POST _analyze
{analyzer: fingerprint,text: 是的是的Gödel说这句话是一致的。
}分词结果
[ godel 一 句 是 的 致 话 说 这 ]二、总结
Elasticsearch 内置的这些分词器对中文支持都不太好而目前我们使用的中文分词器都是第三方插件其中使用比较多的是“IK 分词器”。下一篇文章我们主要讲解IK 分词器的安装、使用、自定义分词等。
三、附录
附录一关于“停止词”的解释
引自百度百科 停止词是由英文单词:stopword翻译过来的原来在英语里面会遇到很多atheor等使用频率很多的字或词常为冠词、介词、副词或连词等。 如果搜索引擎要将这些词都索引的话那么几乎每个网站都会被索引也就是说工作量巨大。可以毫不夸张的说句只要是个英文网站都会用到a或者是the。那么这些英文的词跟我们中文有什么关系呢 在中文网站里面其实也存在大量的stopword我们称它为停止词。比如我们前面这句话“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高几乎每个网页上都存在所以搜索引擎开发人员都将这一类词语全部忽略掉。如果我们的网站上存在大量这样的词语那么相当于浪费了很多资源。原本可以添加一个关键词排名就可以上升一名的为什么不留着添加为关键词呢停止词对SEO的意义不是越多越好而是尽量的减少为宜。 附录二Java 正则表达式
Pattern (Java Platform SE 8 ) (oracle.com)
附录三参考资料
Built-in analyzer reference | Elasticsearch Guide [7.17] | Elastic
四、系列文章 Elasticsearch 核心技术一Elasticsearch 安装、配置、运行Windows 版 Elasticsearch 核心技术二elasticsearch-head 插件安装和使用 Elasticsearch 核心技术三Kibana 安装、配置、运行Windows 版 Elasticsearch 核心技术四索引管理、映射管理、文档管理REST API Elasticsearch 核心技术五常用数据类型详解
五、热门专栏 《Python入门核心技术》 《IDEA 教程从入门到精通》 《Java 教程从入门到精通》 《MySQL 教程从入门到精通》 《大数据核心技术从入门到精通》