ES实战-分析数据1

news/2024/4/17 7:59:08

分析是文档被发送并加入倒排索引之前,es在其主体上进行的操作,具体如下
1.字符过滤-使用字符过滤器转变字符
2.文本切分为分词-将文本切分为单个或多个分词
3,分词过滤-使用分词过滤器转变每个分词
4.分词索引-将这些分词存储到索引中
为文档使用分析器
1.当创建索引的时候,为特定的索引进行设置-直接生效
2.在es配置文件中,设置全局分析器-需重启生效
在映射中指定某个字段的分析器

#为description字段指定myCustomerAnalyzer分析器
{"mappings": {"document":{"properties":{"description":{"type":"string","analyzer":"myCustomerAnalyzer"}}}}
}
#指定不要分析description字段
{"mappings": {"document":{"properties":{"description":{"type":"string","index":"not_analyzed"}}}}
}

使用分析API来分析文本

curl -XPOST 'localhost:9200/_analyze' -H 'Content-Type: application/json' -d '{"analyzer": "standard","text": "share your experience with NoSql & big data technologies"
}'

请求Elasticsearch返回get-together索引中ID为1的文档,在description和tags字段上的词项向量以及相关统计信息

curl -X GET "localhost:9200/get-together/_termvectors/1?pretty=true" -H 'Content-Type: application/json' -d '{
"fields":["description","tags"],
"term_statistics":true
}'

分析器包含:
1.标准分析器:
1.1.标准分词器
1.2.标准分词过滤器
1.3,小写转换分词过滤器
1.4.停用词分词过滤器
2.简单分析器
3.空白分析器
4.停用词分析器
5,关键词分析器
6.模式分析器
7.语言和多语言分析器
8.雪球分析器
分词器包括:
1.标准分词器
2,关键词分词器
3.字母分词器
4.小写分词器
5.空白分词器
6.模式分词器
7.UAX URl电子邮件分词器
8.路径层次分词器
分词过滤器
1.标准分词过滤器
2.小写分词过滤器
3.长度分词过滤器
4.停用词分词过滤器
5.截断分词过滤器,修剪分词过滤器,限制分词数量过滤器
6.颠倒分词过滤器
7.唯一分词过滤器
8.ASCII折叠分词过滤器
9.同义词分词过滤器


https://www.xjx100.cn/news/3271462.html

相关文章

【数据回顾】20240205千股跌停的信息面回顾

一、回顾过去 这是发生在2024年2月5日的事件,一千多只股票跌停,当时传闻的利空消息主要是: 1. 基金公司把基金持仓的股票转融通给别人做空,收融券利息,然后这利息还不算基金收益。 2. 上海机场发布,机场往来…

代码随想录算法训练营第四十九天(动态规划篇)| 474. 一和零, 完全背包理论基础

474. 一和零 题目链接:https://leetcode.cn/problems/ones-and-zeroes/submissions/501607337/ 思路 之前的背包问题中,我们对背包的限制是容量,即每个背包装的物品的重量和不超过给定容量,这道题的限制是0和1的个数&#xff0…

【芯片设计- RTL 数字逻辑设计入门 15 -- 函数实现数据大小端转换】

文章目录 函数实现数据大小端转换函数语法函数使用的规则Verilog and Testbench综合图VCS 仿真波形 函数实现数据大小端转换 在数字芯片设计中,经常把实现特定功能的模块编写成函数,在需要的时候再在主模块中调用,以提高代码的复用性和提高设…

算法学习——LeetCode力扣二叉树篇4

算法学习——LeetCode力扣二叉树篇4 222. 完全二叉树的节点个数 222. 完全二叉树的节点个数 - 力扣(LeetCode) 描述 给你一棵 完全二叉树 的根节点 root ,求出该树的节点个数。 完全二叉树 的定义如下:在完全二叉树中&#xf…

【项目日记(九)】项目整体测试,优化以及缺陷分析

💓博主CSDN主页:杭电码农-NEO💓   ⏩专栏分类:项目日记-高并发内存池⏪   🚚代码仓库:NEO的学习日记🚚   🌹关注我🫵带你做项目   🔝🔝 开发环境: Visual Studio 2022 项目日…

C#,21根火柴棍问题(21 Matchticks Problem)的算法与源代码

一、21根火柴棍问题(21 Matchticks Problem) 21根火柴棍问题是西方经典游戏之一。 给定21根火柴,2个人A和B(比如:分别是计算机和用户)。 每个人一次可以挑选 1-- 4 根火柴。 被迫挑最后一根火柴的人输了…

java中ArrayList类常用API

前言:在学习java的ArrayList类的时候,有很多的API需要了解,下面我将举出其中在新手学习时使用频率较大的几个API。 先大体看一下有哪几个:(如图) 目录 1.add() 解释: …

Ubuntu Desktop - Terminal 输出全部选中 + 复制

Ubuntu Desktop - Terminal 输出全部选中 复制 1. Terminal2. Terminal 最大化3. Edit -> Select All4. Copy & PasteReferences 1. Terminal 2. Terminal 最大化 3. Edit -> Select All 4. Copy & Paste Edit -> Copy or Shift Ctrl C Edit -> Paste…