首页 / ELEASTATICSEARCH / Elasticsearch 索引的映射配置详解

Elasticsearch 索引的映射配置详解

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Elasticsearch 索引的映射配置详解，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含8241字，纯文字阅读大概需要12分钟。

内容图文

Elasticsearch 索引的映射配置详解 - 文章图片

本文共1540字，阅读大约需要 5分钟！

概述

Elasticsearch 与传统的 SQL数据库的一个明显的不同点是，Elasticsearch 是一个 非结构化 的数据库，或者说是一个 无模式 的数据库。Elasticsearch 中数据最重要的三要素当属：索引、类型、文档，其中索引这个概念非常重要，我们可以粗略地将其类比到传统SQL数据库中的 数据表。本文就从 Elasticsearch 的索引映射如何配置开始讲起。

注：本文首发于 My 公众号 CodeSheep ，可长按或扫描下面的 小心心 来订阅 ↓ ↓ ↓

Elasticsearch 索引的映射配置详解 - 文章图片

本文内容脑图如下：

Elasticsearch 索引的映射配置详解 - 文章图片

索引模式映射

创建索引时，可以自定义索引的结构，比如创建一个保存用户信息数据的 users 索引，其典型的结构如下：

id：唯一表示符
name：姓名
birthday：出生日期
hobby：爱好

为此我们可以创建一个 json 格式的索引模式映射文件：users.json

{
    "mappings" : {
        "user" : {
            "properties" : {
                "id" : {
                    "type" : "long",
                    "store" : "yes"
                },
                "name" : {
                    "type" : "string",
                    "store" : "yes",
                    "index" : "analyzed"
                },
                "birthday" : {
                    "type" : "date",
                    "store" : "yes"
                },
                "hobby" : {
                    "type" : "string",
                    "store" : "no",
                    "index" : "analyzed"
                }
            }
        }
    }
}

上面的 json代码意义如下：

创建一个名称为 users的 Index
里面有一个名称为 user的 Type
而 user 有四个 field
且每个 field 都有自己的属性定义

然后我们来执行如下命令来新建一个索引：

curl -X PUT http://47.98.43.236:9200/users -d @users.json

结果如下，索引 users、类型 user、以及四个字段都已经顺利插入：

Elasticsearch 索引的映射配置详解 - 文章图片

关于字段的 可选类型，有如下几种：

string：字符串
number：数字
date：日期
boolean：布尔型
binary：二进制
ip：IP地址
token_count类型

关于每种类型有哪些属性，可参考官方文档，由于内容太多，此处不再赘述。

分析器的使用

分析器是一种用于 分析数据 或者按照用户想要的方式 处理数据 的工具，对于 字符串类型 的字段，Elasticsearch 允许用户自定义分析器。

先来自定义一个分析器

{
  "settings" : {
    "index" : {
      "analysis" : {
        "analyzer" : {
          "myanalyzer" : {
            "tokenizer" : "standard",
            "filter" : [
              "asciifolding",
              "lowercase",
              "myFilter"
            ]
          }
        },
        "filter" : {
          "myFilter" : {
            "type" : "kstem"
          }
        }
      }
    }
  },
    "mappings" : {
        "user" : {
            "properties" : {
                "id" : {
                    "type" : "long",
                    "store" : "yes"
                },
                "name" : {
                    "type" : "string",
                    "store" : "yes",
                    "index" : "analyzed",
                    "analyzer" : "myanalyzer"
                },
                "birthday" : {
                    "type" : "date",
                    "store" : "yes"
                },
                "hobby" : {
                    "type" : "string",
                    "store" : "no",
                    "index" : "analyzed"
                }
            }
        }
    }
}

上述 json代码中，用户定义了一个名为 myanalyzer 的分析器，该分析器包含 一个分词器 + 三个过滤器，分别如下：

分词器： standard
过滤器： asciifolding
过滤器： lowercase
过滤器： myFilter（自定义过滤器，其本质是 kstem）

再来看如何测试和使用自定义的分析器

可以通过类似如下的 Restful接口来测试 analyze API 的工作情况：

Elasticsearch 索引的映射配置详解 - 文章图片

可见我们输入的时一行字符串普通 "Cars Trains"，而输出为： car 和 train，这说明短语 "Cars Trains" 被分成了两个词条，然后全部转为小写，最后做了词干提取的操作，由此证明我们上面自定义的分析器已然生效了！

相似度模型的配置

Elasticsearch 允许为索引模式映射文件中的不同字段指定不同的 相似度得分 计算模型，其用法例析如下：

   "mappings" : {
        "user" : {
            "properties" : {
                "id" : {
                    "type" : "long",
                    "store" : "yes"
                },
                "name" : {
                    "type" : "string",
                    "store" : "yes",
                    "index" : "analyzed",
                    "analyzer" : "myanalyzer",
                    "similarity" : "BM25"
                },
                "birthday" : {
                    "type" : "date",
                    "store" : "yes"
                },
                "hobby" : {
                    "type" : "string",
                    "store" : "no",
                    "index" : "analyzed"
                }
            }
        }
    }

上述 json文件中，我们为 name 字段使用了 BM25 这种相似度模型，添加的方法是使用 similarity 属性的键值对，这样一来 Elasticsearch 将会为 name 字段使用 BM25 相似度计算模型来计算相似得分。

信息格式的配置

Elasticsearch 支持为每个字段指定信息格式，以满足通过改变字段被索引的方式来提高性能的条件。Elasticsearch 中的信息格式有如下几个：

default：默认信息格式，其提供了实时的对存储字段和词向量的压缩
pulsing：将重复值较少字段的信息列表编码为词条矩阵，可加快该字段的查询速度
direct：该格式在读过程中将词条加载到未经压缩而存在内存的矩阵中，该格式可以提升常用字段的性能，但损耗内存
memory：该格式将所有的数据写到磁盘，然后需要FST来读取词条和信息列表到内存中
bloom_default：默认信息格式的扩展，增加了把 bloom filter 写入磁盘的功能。读取时 bloom filter 被读取并存入内存，以便快速检查给定的值是否存在
bloom_pulsing： pulsing 格式的扩展，也加入 bloom filter 的支持

信息格式字段（ postings_format）可以在 任何一个字段上 进行设置，配置信息格式的示例如下：

   "mappings" : {
        "user" : {
            "properties" : {
                "id" : {
                    "type" : "long",
                    "store" : "yes",
                    "postings_format" : "pulsing"
                },
                "name" : {
                    "type" : "string",
                    "store" : "yes",
                    "index" : "analyzed",
                    "analyzer" : "myanalyzer"
                },
                "birthday" : {
                    "type" : "date",
                    "store" : "yes"
                },
                "hobby" : {
                    "type" : "string",
                    "store" : "no",
                    "index" : "analyzed"
                }
            }
        }
    }

在该例子之中，我们手动配置改变了 id 字段的信息格式为 pulsing，因此可加快该字段的查询速度。

文档值及其格式的配置

文档值这个字段属性作用在于：其允许将给定字段的值被写入一个更高内存效率的结构，以便进行更加高效的排序和搜索。我们通常可以将该属性加在 需要进行排序 的字段上，这样可以提效。

其配置方式是通过属性 doc_values_format 进行，有三种常用的 doc_values_format 属性值，其含义从名字中也能猜个大概：

default：默认格式，其使用少量的内存但性能也不错
disk：将数据存入磁盘，几乎无需内存
memory：将数据存入内存

举个栗子吧：

   "mappings" : {
        "user" : {
            "properties" : {
                "id" : {
                    "type" : "long",
                    "store" : "yes"
                },
                "name" : {
                    "type" : "string",
                    "store" : "yes",
                    "index" : "analyzed",
          "analyzer" : "myanalyzer"
                },
                "birthday" : {
                    "type" : "date",
                    "store" : "yes"
                },
                "hobby" : {
                    "type" : "string",
                    "store" : "no",
                    "index" : "analyzed"
                },
                "age" : {
                    "type" : "integer",
                    "doc_values_format" : "memory"
                 }
            }
        }
    }

上述 json配置中，我们给类型 user 添加了一个 age 字段，假如我们想对年龄字段进行排序，那么给该字段设置文档值格式的属性是可以提升效率的。

后记

由于能力有限，若有错误或者不当之处，还请大家批评指正，一起学习交流！

我的个人博客：www.codesheep.cn

如果有兴趣，也可以抽时间看看作者关于容器化、微服务化方面的文章：

作者更多 务实、能看懂、可复现的 原创文章尽在公众号 CodeSheep，欢迎订阅 ??????

Elasticsearch 索引的映射配置详解 - 文章图片

内容总结

以上是互联网集市为您收集整理的Elasticsearch 索引的映射配置详解全部内容，希望文章能够帮你解决Elasticsearch 索引的映射配置详解所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1042345.html

来源：【匿名】

【上一篇】搭建Elasticsearch 高可用集群【下一篇】Elasticsearchik插件如果能精准查中文？

更多 ►

【Elasticsearch 索引的映射配置详解】教程文章相关的互联网学习教程文章

四十六 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中【代码】【图】

前面我们讲到的elasticsearch(搜索引擎)操作，如：增、删、改、查等操作都是用的elasticsearch的语言命令，就像sql命令一样，当然elasticsearch官方也提供了一个python操作elasticsearch(搜索引擎)的接口包，就像sqlalchemy操作数据库一样的ORM框，这样我们操作elasticsearch就不用写命令了，用elasticsearch-dsl-py这个模块来操作，也就是用python的方式操作一个类即可 elasticsearch-dsl-py下载下载地址：https://github.com/ela...

使用Python操作Elasticsearch数据索引的教程【代码】

Elasticsearch是一个分布式、Restful的搜索及分析服务器，Apache Solr一样，它也是基于Lucence的索引服务器，但我认为Elasticsearch对比Solr的优点在于：轻量级：安装启动方便，下载文件之后一条命令就可以启动； Schema free：可以向服务器提交任意结构的JSON对象，Solr中使用schema.xml指定了索引结构；多索引文件支持：使用不同的index参数就能创建另一个索引文件，Solr中需要另行配置；分布式：Solr Cloud的配置...

Elasticsearch 【索引模板 index templates】【代码】

https://www.elastic.co/guide/en/elasticsearch/reference/1.7/indices-templates.html一、索引模板，定义模板，当新索引创建时，自动匹配，并应用定义的模板新增索引模板(index templates)我们新建一个索引模板template_1 设置它的主分片为1个。类型有type1且_source disabledPUT /_template/template_1 { "template": "t-*", "settings": { "number_of_shards":1 }, "mappings": { "type1":{ "_source":{...

ElasticSearch-javaAPI-索引与文档操作【代码】

1.引入elasticsearch与json依赖<dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-high-level-client</artifactId> <version>7.4.0</version></dependency><dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-client</artifactId> <version>7.4.0</version></dependency><dependency> <groupId>org.elasticsearch</groupId>...

ES（ElasticSearch）索引创建【图】

环境：ES 6.2.2os：Centos 7kibana:6.2.21、创建新的索引（index） PUT indexTest001 结果： 2、索引设置 ES 默认提供了好多索引配置选项，参考https://www.elastic.co/guide/en/elasticsearch/reference/6.8/index-modules.html，这些配置选项都有经过优化的默认配置值，除非你非常清楚这些配置的作用以及知道为什么去修改它，不然使用其默认值即可。原文：https://www.cnblogs.com/xiaozengzeng/p/12347947.html

Elasticsearch 使用集群 - 列出索引【代码】

章节Elasticsearch 基本概念Elasticsearch 安装Elasticsearch 使用集群Elasticsearch 健康检查Elasticsearch 列出索引Elasticsearch 创建索引Elasticsearch 创建和查询文档Elasticsearch 删除索引Elasticsearch 修改数据Elasticsearch 更新文档Elasticsearch 删除文档Elasticsearch 批处理Elasticsearch 搜索数据Elasticsearch 搜索APIElasticsearch Query DSL(查询语言)Elasticsearch 搜索Elasticsearch 过滤Elasticsearch 聚合现...

python3 elasticsearch6.4 创建索引插入数据

es_client = Elasticsearch(["localhost:9200"]) 创建索引 es_client.indices.create(index=log_index, ignore=400) 创建索引（如果此索引不存在则会创建）并且插入数据 body = {"func_info":"删除日志", "error_info":"id为空", "write_date":datetime.datetime.now()} 创建索引（如果此索引不存在则会创建）并且可以批量插入数据，此效率比较高 body1 = {"func_info":"删除日志", "error_info":"id为空", "write_date":dat...

elasticsearch创建索引时的一些选项问题

我想用elasticsearch为博客的文章做站内搜索，后台用的php。文章表articles的全部字段如下： id title content user_id created_at updated_at 现在我想为文章表的title字段、content字段、updated_at字段，共三个字段创建索引。下面是我参照elasticsearch-php客户端的官方文档写的创建索引blog和创建类型article的demo，分词用到了ik分词。其中有些选项不太清楚什么意思，具体问题在下面代码中（有4个），请...

Elasticsearch做站内搜索，索引与mysql数据表同步问题

使用Elasticsearch做站内搜索，后台框架是laravel，所以使用的这个laravel包，"Elasticquent"(https://github.com/elasticquent/Elasticquent), 问题：假如mysql中有一个artiles表，现在有新的article加入，那么，Elasticsearch的索引怎么自动同步mysql的artiles表中的数据？回复内容：使用Elasticsearch做站内搜索，后台框架是laravel，所以使用的这个laravel包，"Elasticquent"(https://github.com/elasticquent/Elasticquent), ...

使用Python操作Elasticsearch数据索引的教程【图】

ElasticSearch 索引 VS MySQL 索引【图】

前言这段时间在维护产品的搜索功能，每次在管理台看到 elasticsearch 这么高效的查询效率我都很好奇他是如何做到的。这甚至比在我本地使用 MySQL 通过主键的查询速度还快。为此我搜索了相关资料：这类问题网上很多答案，大概意思呢如下：ES 是基于 Lucene 的全文检索引擎，它会对数据进行分词后保存索引，擅长管理大量的索引数据，相对于 MySQL 来说不擅长经常更新数据及关联查询。说的不是很透彻，没有解析相关的原理；不过既然...

搜索引擎ElasticSearch系列（四）： ElasticSearch2.4.4 sql插件安装【图】

一：ElasticSearch sql插件简介With this plugin you can query elasticsearch using familiar SQL syntax. You can also use ES functions in SQL. 二：sql插件安装地址：https://github.com/NLPchina/elasticsearch-sql/找到对应的2.4.4版本，如下图：启动es服务，运行cmd命令切换到bin目录，接着输入以下命令：plugin install https://github.com/NLPchina/elasticsearch-sql/releases/download/2.4.4.0/elasticsearch-sql-2.4....

使用SQL语句查询Elasticsearch索引数据【代码】【图】

Elasticsearch 的官方查询语言是 Query DSL，存在毕竟有存在的道理，存在即合理。SQL 作为一个数据库查询语言，它语法简洁，书写方便而且大部分服务端程序员都清楚了解和熟知它的写法。但是作为一个 ES 萌新来说，就算他已经是一位编程界的老江湖，但是如果他不熟悉 ES ，那么他如果要使用公司已经搭好的 ES 服务，他必须要先学习 Query DSL，学习成本也是一项影响技术开发进度的因素而且不稳定性高。但是如果 ES 查询支持 SQL的话...

MySQL索引 VS ElasticSearch索引【代码】【图】

今天MySQL数据库栏目介绍MySQL索引与ElasticSearch索引的对比。前言这段时间在维护产品的搜索功能，每次在管理台看到 elasticsearch 这么高效的查询效率我都很好奇他是如何做到的。这甚至比在我本地使用 MySQL 通过主键的查询速度还快。为此我搜索了相关资料：这类问题网上很多答案，大概意思呢如下：ES 是基于 Lucene 的全文检索引擎，它会对数据进行分词后保存索引，擅长管理大量的索引数据，相对于 MySQL 来说不擅长经常更新数据...

elasticsearch-Elasticsearch修改集群名字后索引数据失败

elasticsearchmysql集群river 我在公司局域网里面搭了两个es，默认的cluster.name都是elasticsearch，他们自动建集群了，然而这不是想要的结果，我要他们各自同步不同的数据，于是我改了elasticsearch.yml文件，只修改了cluster.name值，但是改了之后同步脚本执行不了，同步脚本如下：echo '{ "type" : "jdbc", "jdbc" : { "url" : "'$kburl'", "user" : "'$kbuser'", "passwor...

首页 / ELEASTATICSEARCH / Elasticsearch 索引的映射配置详解

Elasticsearch 索引的映射配置详解

内容导读

内容图文

内容总结

内容备注

内容手机端

【Elasticsearch 索引的映射配置详解】教程文章相关的互联网学习教程文章

SEARCH - 相关标签

配置 - 相关标签

映射 - 相关标签

ELEASTATICSEARCH - 最新教程

ELEASTATICSEARCH - 最热教程