一、前言

二、ES Search 的运行机制

ES的搜索过程如下：在这里插入图片描述
看起来很简单的图，在我们 ES 集群中进行搜索，其实并没有那么简单。

Search 执行的时候实际分两个步骤运作的：查询(Query) 和获取(Fetch)

查询阶段(Query Phase):在此阶段,协调节点(Coordinating Node)将搜索请求路由到索引(index)中的所有分片(shards)(包括:主要或副本)。分片独立执行搜索,并根据相关性分数创建一个优先级排序结果。所有分片将匹配的文档和相关分数的文档ID返回给协调节点。协调节点创建一个新的优先级队列,并对全局结果进行排序。可以有很多文档匹配结果,但默认情况下,每个分片将前10个结果发送到协调节点,协调创建优先级队列。
获取阶段(Fetch Phase):在协调节点对所有结果进行排序,并通过文档id,从分片中得到原始文档,再返回

相关性算分在 shard 与 shard 间是相互独立的，也就意味着同一个 Term的 IDF等值在不同 shard 上是不同等。文档的相关性算分和它所处的 shard 相关

所以在文档数量不多时，会导致相关性算法严重不准的情况发生

解决思路有两个：

1）设置分片数为1个，从根本上排除问题，在文档数量不多的时候可以考虑该方案，比如百万到千万级别的文档数量
2）使用DFS Query-then-Fetch 查询方式：拿到所有文档后再重新完整的计算一次相关性算法，耗费更多 cpu 和内存，执行性能也比较低下，一般不建议使用。使用方式如下：

GET test_search_relevance/_search?search_type=dfs_query_then_fetch {
  “query”: {
    "match": { "name": "hello" }
  }
}

es 默认会采用相关性算分排序，用户可以通过设定sorting参数来自行设定排序规则
在这里插入图片描述
排序的过程实质是对字段原始内容排序的过程，这个过程中倒排索引无法发挥作用，需要用到正排索引，也就是通过文档Id和字段可以快速得到字段原始内容。
es 对此提供来2种实现方式：

es 提供了3种方式来解决分页与遍历的问题：from/size、scroll、search_after
在这里插入图片描述

from/size：存在深度分页问题。获取from～size的数据，我们需要把每个Node节点的前size个数据取出来然后排序。所以，页数越深，处理文档越多，占用内存越多，耗时越长
scroll：以快照的方式来避免深度分页。不能用来做实时搜索。尽量不要使用复杂的 sort 条件
search_after：避免深度分页的性能问题（通过唯一排序值定位将每次要处理的文档数都控制在 size 内），提供实时的下一页文档获取功能。缺点是不能使用 from 参数，即不能指定页数，只能下一页，不能上一页。
将50个文档排序后返回前10个文档