如何在Elasticsearch中更新字段类型（elasticsearch 更新字段）

25-03-11 10

在这里，我们将给大家分享关于如何在Elasticsearch中更新字段类型的知识，让您更了解elasticsearch更新字段的本质，同时也会涉及到如何更有效地Elasticsearch字段类型、El

在这里，我们将给大家分享关于如何在Elasticsearch中更新字段类型的知识，让您更了解elasticsearch 更新字段的本质，同时也会涉及到如何更有效地Elasticsearch 字段类型、ElasticSearch 学习笔记 - 7. 字段类型、ElasticSearch 常用字段类型、ElasticSearch6.5.0 【字段类型】的内容。

本文目录一览：

如何在Elasticsearch中更新字段类型（elasticsearch 更新字段）
Elasticsearch 字段类型
ElasticSearch 学习笔记 - 7. 字段类型
ElasticSearch 常用字段类型
ElasticSearch6.5.0 【字段类型】

如何在Elasticsearch中更新字段类型（elasticsearch 更新字段）

ElasticSearch文档尚不清楚如何执行此操作。

我索引了一些推文，其中一个字段created_at被索引为字符串而不是日期。我找不到如何通过curl调用对该更改重新索引。如果重新编制索引是一个复杂的过程，那么我宁愿只是删除其中的内容并重新开始。但是，我也找不到如何指定字段类型！

任何帮助是极大的赞赏。

答案1

小编典典

您需要使用Put Mapping AP I 定义映射。

curl -XPUT ''http://localhost:9200/twitter/_doc/_mapping'' -H ''Content-Type: application/json''  -d ''{    "_doc" : {        "properties" : {            "message" : {"type" : "text", "store" : true}        }    }}''

日期可以定义如下：

curl -XPUT ''http://localhost:9200/twitter/_doc/_mapping'' -H ''Content-Type: application/json''  -d ''{    "_doc" : {        "properties" : {            "user" : {"type" : "keyword", "null_value" : "na"},            "message" : {"type" : "text"},            "postDate" : {"type" : "date"},            "priority" : {"type" : "integer"},            "rank" : {"type" : "float"}        }    }}''

Elasticsearch 字段类型

在学习 ES 文档相关操作之前，我们先学习 ES 中常用的字段类型。

1、text

当一个字段的内容需要被全文检索时，可以使用text类型，支持长内容的存储，比如检索文章内容、商品信息等。该类型的字段内容在保存时会被分词器分析，并且拆分成多个词项，然后根据拆分后的词项生成对应的索引，根据关键字检索时可能会将关键字分词，用分好的词从之前生成的索引中去匹配，进而找到对应的文档。对于text类型的字段你可能无法通过指定文本精确的检索到。另外需要注意的是，text类型的字段不能直接用于排序、聚合操作。这种类型的字符串也称做analyzed字符串。

2、keyword

keyword类型适用于结构化的字段，比如手机号、商品id、用户id等，默认最大长度为256。keyword类型的字段内容不会被分词器分析、拆分，而是根据原始文本直接生成倒排索引，所以keyword类型的字段可以直接通过原始文本精确的检索到。keyword类型的字段可用于过滤、排序、聚合操作。这种字符串称做not-analyzed字符串。

3、日期类型

ES 中的date类型默认支持如下两种格式：

strict_date_optional_time，表示 yyyy-MM-dd''T''HH:mm:ss.SSSSSSZ 或者 yyyy-MM-dd 格式的日期
epoch_millis，表示从 1970.1.1 零点到现在的毫秒数，

如果我们要存储类似2020-12-01 20:10:15这种格式的日期就会有问题，我们可以在创建索引时指定字段为date类型以及可以匹配的日期格式：

PUT blog
{
  "mappings": {
    "properties": {
      "publishDate":{
        "type": "date",
        "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis"
      }
    }
  }
}

需要注意的是，如果不主动指定字段类型为date，ES 默认使用text类型去保存日期的值。

4、布尔类型

boolean类型就简单了，有true、false两个值。

5、数值类型

类型	取值范围
byte	-2^7 ~ 2^7-1
short	-2^15 ~ 2^15-1
integer	-2^31 ~ 2^31-1
long	-2^63 ~ 2^63-1
float	32位单精度IEEE 754浮点类型
double	64位双精度IEEE 754浮点类型
half_float	16位半精度IEEE 754浮点类型
scaled_float	缩放类型的的浮点数

一般情况下，如果可以满足需求，则优先使用范围小的类型，来提高效率。

6、数组类型

其实在 ES 中并没有数组类型，但我们却可以按数组格式来存储数据，因为 ES 中默认每个字段可以包含多个值，同时要求多个值得类型必须一致。例如可以按照如下方式指定一个字段的值为数组：

"label": [
    "Elastcsearch",
    "7.9.3版本"
  ]

7、对象类型

这个其实没什么特别的，由于 ES 中以 JSON 格式存储数据，所以一个 JSON 对象中的某个字段值可以是另一个 JSON 对象。

8、范围类型

类型	技能
integer_range	-2^31 ~ 2^31-1
long_range	-2^63 ~ 2^63-1
float_range	32位单精度IEEE 754浮点类型
double_range	64位双精度IEEE 754浮点类型
date_range	自系统历元以来无符号64位整数范围内的毫秒数
ip_range	IPv4、IPv6 的一系列IP地址值

例如我们可以创建索引时定义一个日期范围的字段类型：

PUT blog
{
  "mappings": {
    "properties": {
      "reader_age_range":{
        "type": "integer_range"
      }
    }
  }
}

添加文档时可以这样指定字段的值：

"reader_age_range": {
    "gte": 10,
    "lte": 50
}

最后我们通过一个完整的例子梳理一下这些字段类型，首先创建blog索引，并指定相关字段的类型：

PUT blog
{
  "mappings": {
    "properties": {
      "publishDate": {
        "type": "date",
        "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis"
      },
      "reader_age_range": {
        "type": "integer_range"
      }
    }
  }
}

然后添加一条文档数据：

POST blog/_doc
{
  "title": "Learn Elastcsearch",
  "publishDate": "2020-12-01 20:10:15",
  "isTop": true,
  "score": 4.5,
  "commnetNum": 50,
  "label": [
    "Elastcsearch",
    "7.9.3版本"
  ],
  "author": {
    "name": "shehuan",
    "github": "https://github.com/shehuan"
  },
  "reader_age_range": {
    "gte": 10,
    "lte": 50
  }
}

上边我们只指定了publishDate和reader_age_range字段的类型，其它的并未指定。其实在添加文档时，ES 也会根据字段的值动态的推断出它的类型，即动态映射，但这样可能出现推断不符合预期的问题，例如前边说过的日期类型，所以你可以根据实际情况选择是否主动指定字段的类型。

再使用如下请求查看一下文档字段的mapping信息：

GET blog/_mapping?pretty

结果如下：

{
  "blog" : {
    "mappings" : {
      "properties" : {
        "author" : {
          "properties" : {
            "github" : {
              "type" : "text",
              "fields" : {
                "keyword" : {
                  "type" : "keyword",
                  "ignore_above" : 256
                }
              }
            },
            "name" : {
              "type" : "text",
              "fields" : {
                "keyword" : {
                  "type" : "keyword",
                  "ignore_above" : 256
                }
              }
            }
          }
        },
        "commnetNum" : {
          "type" : "long"
        },
        "isTop" : {
          "type" : "boolean"
        },
        "label" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "publishDate" : {
          "type" : "date",
          "format" : "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis"
        },
        "reader_age_range" : {
          "type" : "integer_range"
        },
        "score" : {
          "type" : "float"
        },
        "title" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        }
      }
    }
  }
}

由于我们未指定title字段的类型， ES 自动将其映射成了text类型，同时还添加了一个类型为keyword的字段：

这意味着，我们可以使用title.keyword的方式将title字段当做keyword类型去使用。

ES 中常用的字段类型就介绍到这里了。其中text和keyword可能理解起来比较抽象，但也是重点，后边结合具体的例子就好理解了，分词相关的内容后边也会专门介绍。

ElasticSearch 学习笔记 - 7. 字段类型

1、字符串类型

（1）string
string类型在ElasticSearch 旧版本中使用较多，从ElasticSearch 5.x开始不再支持string，由text和keyword类型替代。
（2）text
当一个字段是要被全文搜索的，比如Email内容、产品描述，应该使用text类型。
设置text类型以后，字段内容会被分析，在生成倒排索引以前，字符串会被分析器分成一个一个词项。text类型的字段不用于排序，很少用于聚合。
（3）keyword
keyword类型适用于索引结构化的字段，比如email地址、主机名、状态码和标签。
如果字段需要进行过滤(比如查找已发布博客中status属性为published的文章)、排序、聚合。
keyword类型的字段只能通过精确值搜索到。

2、整数类型

类型	取值范围
byte	-128~127
short	-32768~32767
integer	-2^31~2^31-1
long	-2^63~2^63-1

3、浮点类型

double，float ，half_float，scaled_float

4、date类型

UNIX在内部采用了一种最简单的计时方式

计算从UNIX诞生的UTC时间1970年1月1日0时0分0秒起, 流逝的秒数.
UTC时间1970年1月1日0时0分0秒就是UNIX时间0,
UTC时间1970年1月2日0时0分0秒就是UNIX时间86400.

ElasticSearch 内部会将日期数据转换为UTC，并存储为milliseconds-since-the-epoch的long型整数。

5、boolean类型

逻辑类型（布尔类型）可以接受true/false/”true”/”false”值

6、binary类型

二进制字段是指用base64来表示索引中存储的二进制数据，可用来存储二进制形式的数据，例如图像。默认情况下，该类型的字段只存储不索引。二进制类型只支持index_name属性。

7、array类型

在ElasticSearch中，没有专门的数组（Array）数据类型，
但是，在默认情况下，任意一个字段都可以包含0或多个值，这意味着每个字段默认都是数组类型

在同一个数组中，数组元素的数据类型是相同的，ElasticSearch不支持元素为多个数据类型：[ 10, “some string” ]，常用的数组类型是：

（1）字符数组: [ “one”, “two” ]
（2）整数数组: productid:[ 1, 2 ]
（3）对象（文档）数组: “user”:[ { “name”: “Mary”, “age”: 12 }, { “name”: “John”, “age”: 10 }]，ElasticSearch内部把对象数组展开为 {“user.name”: [“Mary”, “John”], “user.age”: [12,10]}

8、object类型

JSON天生具有层级关系，文档会包含嵌套的对象

DELETE test

PUT test

PUT test/my/1
{
  "employee":{
    "age":30,
    "fullname":{
      "first":"hadron",
      "last":"cheng"
    }
  }
}

GET /test/_mapping
{
  "test": {
    "mappings": {
      "my": {
        "properties": {
          "employee": {
            "properties": {
              "age": {
                "type": "long"
              },
              "fullname": {
                "properties": {
                  "first": {
                    "type": "text",
                    "fields": {
                      "keyword": {
                        "type": "keyword",
                        "ignore_above": 256
                      }
                    }
                  },
                  "last": {
                    "type": "text",
                    "fields": {
                      "keyword": {
                        "type": "keyword",
                        "ignore_above": 256
                      }
                    }
                  }
                }
              }
            }
          }
        }
      }
    }
  }
}

9、ip类型

ip类型的字段用于存储IPv4或者IPv6的地址

PUT test
{
  "mappings": {
    "my":{
      "properties": {
        "nodeIP":{
          "type": "ip"
        }
      }
    }
  }
}

ElasticSearch 常用字段类型

高春辉、王春生、朱峰：关于开源创业的 15 件小事

一、数据类型

1.1 核心数据类型

字符串型：text (分词)、keyword (不分词)

数值型：long、integer、short、byte、double、float、half_float、scaled_float

日期类型：date

布尔类型：boolean

二进制类型：binary

范围类型：integer_range、float_range、long_range、double_range、date_range

1.2 复杂数据类型

数组类型：array

对象类型：object

嵌套类型：nested object

1.3 地理位置数据类型

geo_point (点)、geo_shape (形状)

1.4 专用类型

记录 IP 地址 ip

实现自动补全 completion

记录分词数：token_count

记录字符串 hash 值 murmur3

多字段特性 multi-fields

ES 常用的数据类型可分为 3 大类

核⼼数据类型
复杂数据类型
专⽤数据类型

核心数据类型

（1）字符串

text ⽤于全⽂索引，搜索时会自动使用分词器进⾏分词再匹配
keyword 不分词，搜索时需要匹配完整的值

（2）数值型

整型： byte，short，integer，long
浮点型： float, half_float, scaled_float，double

（3）日期类型

date

json 没有 date 类型，插入 | 更新文档 | 字段时怎么表示 date 类型？

#mapping，将字段类型设置为 date
"type" : "date"

#插入 | 更新此字段的值时，有 3 种表示方式

#使用固定格式的字符串
"2020-04-18"、"2020/04/18 09:00:00"

#值使用长整型的时间戳，1970-01-01 00:00:00，s
1610350870

#值使用长整型的时间戳，ms
1641886870000

（4）范围型

integer_range， long_range， float_range，double_range，date_range

比如招聘要求年龄在 [20, 40] 上，mapping：

age_limit :{
　"type" : "integer_range"
}

插入 | 更新文档 | 字段时，值写成 json 对象的形式：

"age_limit" : {
　"gte" : 20,
　"lte" : 40
}

gt 是大于，lt 是小于，e 是 equals 等于。

按此字段搜索时，值写常量：

"term" : {
　"age_limit" : 30
}

age_limit 的区间包含了此值的文档都算是匹配。

（5）布尔

boolean #true、false

（6）⼆进制

binary 会把值当做经过 base64 编码的字符串，默认不存储，且不可搜索

复杂数据类型

（1）对象

object

#定义 mapping
"user" : {
"type":"object"
}

#插入 | 更新字段的值，值写成 json 对象的形式
"user" : {
"name":"chy",
"age":12
}

#搜索时，字段名使用点号连接
"match":{
"user.name":"chy"
}

一个对象中可以嵌套对象。

（2）数组

#ES 没有专门的数组类型，定义 mapping，写成元素的类型
"arr" : {
"type":"integer"
}

#插入 | 更新字段的值。元素可以是各种类型，但元素的类型要相同
"arr" : [1,3,4]

专用数据类型

#定义 mapping
"ip_address" : {
"type":"ip"
}

#插入 | 更新字段的值，值写成字符串形式
"ip" : "192.168.1.1"

#搜索
"match":{
"ip_address":"192.168.1.1"
}

#ip 在 192.168.0.0 ~ 192.168.255.255 上的文档都匹配
"match":{
"ip_address":"192.168.0.0/16"
}

ElasticSearch6.5.0 【字段类型】

字符串类型

text　　　　适合全文索引，有分析的过程
keyword　　适合结构化的数据，比如地址、电话号码。。。

数字

long　　　　【带符号 64 位整数】范围：-2⁶³~ 2⁶³-1
integer　　【带符号 32 位整数】范围：-2³¹ ~ 2³¹-1
short 【带符号 16 位整数】范围：-32768 ~ 32767
byte 【带符号 8 位整数】范围：-128 ~ 127
double 【双精度 64 位浮点数】范围：IEEE 754
float 【单精度 32 位浮点数】范围：IEEE 754
half_float 【半精度 16 位浮点数】范围：IEEE 754
scaled_float 范围：一个有限的浮点数

日期

date

布尔

boolean

二进制

binary

范围类型

integer_range 【带符号 32 位整数】范围：-2³¹ ~ 2³¹-1
float_range 【32 位单精度浮点数】
long_range 【带符号 64 位整数】范围：-2⁶³~ 2⁶³-1
double_range 【双精度 64 位浮点数】
date_range 【无符号 64 位整数毫秒表示的自系统历元以来经过的日期值范围】
ip_range 【支持 IPv4 或 IPv6 (或混合) 地址的一系列 ip 值】

复合类型

Array datatype 【数组，内容可以是任意类型】
Object datatype 【单个 JSON 对象】
Nested datatype 【JSON 对象数组】

地理类型

Geo-point datatype 【地理坐标 (经度，纬度)】
Geo-Shape datatype 【用于复杂形状，如多边形】

特殊类型

IP datatype 【IPv4 和 IPv6 地址】
Completion datatype 【这是一个导航功能，可以在用户键入相关结果时引导他们，提高搜索精度。建议使用支持快速查找的数据结构，但是构建这种结构成本很高，而且存储在内存中。】
Token count datatype 【这个字段实际上是一个整数字段，它接受字符串值，分析它们，然后统计字符串中的单词数量。】
mapper-murmur3 【mapper- whisper 3 插件能够计算索引时字段值的哈希值，并将它们存储在索引中。有时在高基数和大字符串字段上运行基数聚合时很有用】
mapper-annotated-text 【这个插件是实验性的，未来可能被删除】
Percolator type 【percolator 字段类型将 json 结构解析为原生查询并存储该查询，以便 percolator 查询可以使用它来匹配所提供的文档。任何包含 json 对象的字段都可以配置为 percolator 字段】
join datatype 【join 数据类型是在具有相同索引的文档中创建父 / 子关系的特殊字段】
Alias datatype 【字段别名只能在具有单一映射类型的索引上指定。因此，要添加字段别名，索引必须在 6.0 或更高版本中创建，或者使用设置 index.mapping 的旧索引】

我们今天的关于如何在Elasticsearch中更新字段类型和elasticsearch 更新字段的分享已经告一段落，感谢您的关注，如果您想了解更多关于Elasticsearch 字段类型、ElasticSearch 学习笔记 - 7. 字段类型、ElasticSearch 常用字段类型、ElasticSearch6.5.0 【字段类型】的相关信息，请在本站查询。

本文标签：