Elasticsearch读写延迟问题,如何对索引refresh_interval刷新间隔设置

1. ES的数据是如何存储的

Elaticsearch,简称为 ES, ES 是一个开源的高扩展的分布式全文搜索引擎, 是整个 Elastic
Stack 技术栈的核心。它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上
百台服务器,处理 PB 级别的数据。

ES最常用的就是作为检索数据库,那其数据是如何存储的呢?

ES的索引数据是写入到磁盘上的。但这个过程是分阶段实现的,因为IO的操作是比较费时的。

当一个文档进入ES的初期, 文档是被存储到内存里的,默认经过1s之后, 会被写入文件系统缓存,这样该文档就可以被搜索到了,注意,此时该索引数据被没有最终写入到磁盘上。如果你对这1s的时间间隔还不满意, 调用_refresh就可以立即实现内存->文件系统缓存, 从而使文档可以立即被搜索到。

所以refresh实现的是文档数据从内存到文件系统缓存的过程。

2. ES默认延迟写入引发的惨案

在 Elasticsearch 中,写入和打开一个新段的轻量的过程叫做refresh。默认情况下每个分片会每秒自动刷新一次。这就是为什么我们说 Elasticsearch是近实时搜索:文档的变化并不是立即对搜索可见,但会在一秒之内变为可见。

起初并不知道这个特性,导致应用了es保存数据的业务在存储数据后立即读取却取出不到的问题。

3. 解决默认延迟写入导致的问题

这些行为可能会对新用户造成困惑:他们索引了一个文档然后尝试搜索它,但却没有搜到。这个问题的解决办法是用refresh API执行一次手动刷新:/usersl_refresh

尽管刷新是比提交轻量很多的操作,它还是会有性能开销。当写测试的时候,手动刷新很有用,但是不要在生产环境下每次索引一个文档都去手动刷新。相反,你的应用需要意识到Elasticsearch 的近实时的性质,并接受它的不足。
主动刷新时间间隔(refresh_interval)如何设定?

refresh_interval 参数定义

针对标题中的刷新时间间隔,es 提供了 refresh_interval 参数,它可以进行动态设置,refresh_interval 的默认值是 1s。

可配置的单位如下:

  • ms:表示毫秒。
  • s:表示秒。
  • m:表示分钟。

如果是指定的纯数字,单位是毫秒。

动态设置

es 可以针对指定索引进行动态设置,如下示例:

PUT /{index}/_settings
{ 
  "refresh_interval": "2s" 
}

强制刷新

如果要针对某次添加数据或数据变更进行强行刷新操作时,可以通过下列方式:

POST {index}/_doc?refresh
{
  "title" : "深入理解 elasticsearch"
}

如上操作可以使数据马上写入,即可立即搜索可见。

重置 refresh_interval

PUT {index}/_settings
{
  "index" : {
    "refresh_interval" : null
  }
}

使用客户端链接进行更新的示例(python):

es.indices.refresh(index="my_index")

 参考链接:

elasticsearch-修改refresh_interval刷新间隔设置_javachen__的博客-CSDN博客_index.refresh_interval

python elasticsearch 更新后刷新-云社区-华为云


版权声明:本文为u013705056原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。