网站首页 > 技术文章 正文
from+size浅分页
查询语句:
curl -XGET "http://127.0.0.1:9200/my_index/_search" -H 'Content-Type: application/json' -d'
{
"query": {
"match_all": {}
},
"from": 10,
"size": 5
}'
上面的查询表示从搜索结果中取第10条开始的5条数据。
这个查询语句在 Elasticsearch 集群内部是怎么执行?假设该索引只有primary shards,没有 replica shards,假设10个分片。搜索一般包括两个阶段,query 和 fetch 阶段,query 阶段确定要取哪些doc,fetch 阶段取出具体的 doc。
Query阶段
- Client 发送一次搜索请求,node1 接收到请求,然后,node1 创建一个大小为 from + size 的优先级队列用来存结果,我们管 node1 叫 coordinating node。
- coordinating node将请求广播到涉及到的 shards,每个 shard 在内部执行搜索请求,然后,将结果存到内部的大小同样为 from + size 的优先级队列里,可以把优先级队列理解为一个包含 top N 结果的列表。
- 每个 shard 把暂存在自身优先级队列里的数据返回给 coordinating node,coordinating node 拿到各个 shards 返回的结果后对结果进行一次合并,产生一个全局的优先级队列,存到自身的优先级队列里。
在上面的过程中,coordinating node 拿到 (from + size) * 分片数目 条数据,然后合并并排序后选择前面的 from + size 条数据存到优先级队列,以便 fetch 阶段使用。另外,各个分片返回给 coordinating node 的数据用于选出前 from + size 条数据,所以,只需要返回唯一标记 doc 的 _id 以及用于排序的 _score 即可,这样也可以保证返回的数据量足够小。
coordinating node 计算好自己的优先级队列后,query 阶段结束,进入 fetch 阶段。
fetch阶段
query 阶段知道了要取哪些数据,但是并没有取具体的数据,这就是 fetch 阶段要做的。
- coordinating node 发送 GET 请求到相关shards。
- shard 根据 doc 的 _id 取到数据详情,然后返回给 coordinating node。
- coordinating node 返回数据给 Client。
coordinating node 的优先级队列里有 from + size 个 _doc _id,但是,在 fetch 阶段,并不需要取回所有数据,在上面的例子中,前10条数据是不需要取的,只需要取优先级队列里的第11到15条数据即可。
需要取的数据可能在不同分片,也可能在同一分片,coordinating node 使用 multi-get 来避免多次去同一分片取数据,从而提高性能。
scroll深分页
from+size查询方式在10000-50000条数据(1000到5000页)以内的时候还是可以的,但是如果数据过多的话,就会出现深分页问题。
举例说明:
Elasticsearch 的这种方式提供了分页的功能,同时,也有相应的限制。举个例子,一个索引,有10亿数据,分10个 shards,然后,一个搜索请求,from=1,000,000,size=100,这时候,会带来严重的性能问题,CPU,内存,IO,网络带宽。
为了解决上面的问题,elasticsearch提出了一个scroll滚动的方式。
scroll 类似于sql中的cursor,使用scroll,每次只能获取一页的内容,然后会返回一个scroll_id。根据返回的这个scroll_id可以不断地获取下一页的内容,所以scroll并不适用于有跳页的情景。
1、初始搜索请求应该在查询中指定 scroll 参数,如 ?scroll=1m,这可以告诉 Elasticsearch 需要保持搜索的上下文环境多久。
初始搜索:注意这里面的1m表示数据缓存1分钟,超过1分钟自动清理掉。size是每次返回数据的多少
GET /my_index/my_type/_search?scroll=1m
{
"query": {
"match_all": {}
},
"size": 1,
"from": 0
}
返回结果:
{
"_scroll_id": "DnF1ZXJ5VGhlbkZldGNoAwAAAAAAAJFwFkRJQkY5QWRRU2t1SkFDb2JPMlFEQXcAAAAAAACRcRZESUJGOUFkUVNrdUpBQ29iTzJRREF3AAAAAAAAkXIWRElCRjlBZFFTa3VKQUNvYk8yUURBdw==",
"took": 0,
"timed_out": false,
"_shards": {
"total": 3,
"successful": 3,
"skipped": 0,
"failed": 0
},
"hits": {
"total": 34,
"max_score": 1,
"hits": [
..................
]
}
}
返回结果包含一个 scroll_id,可以被传递给 scroll API 来检索下一个批次的结果。
2. 每次对 scroll API 的调用返回了结果的下一个批次结果,直到 hits 数组为空。scroll_id 则可以在请求体中传递。scroll 参数告诉 Elasticsearch 保持搜索的上下文等待另一个3m。返回数据的size与初次请求一致。
# post请求或者get请求都可以,注意请求路径中不要写索引名称了
$ curl -XPOST "http://127.0.0.1:9200/_search/scroll" -H 'Content-Type: application/json' -d'
{
"scroll":"3m",
"scroll_id": "DnF1ZXJ5VGhlbkZldGNoAwAAAAAAAJOHFkRJQkY5QWRRU2t1SkFDb2JPMlFEQXcAAAAAAACTiBZESUJGOUFkUVNrdUpBQ29iTzJRREF3AAAAAAAAk4YWRElCRjlBZFFTa3VKQUNvYk8yUURBdw=="
}'
原理上来说可以把 scroll 分为初始化和遍历两步,初始化时将所有符合搜索条件的搜索结果缓存起来,可以想象成快照,在遍历时,从这个快照里取数据,也就是说,在初始化后对索引插入、删除、更新数据都不会影响遍历结果。因此,scroll 并不适合用来做实时搜索,而更适用于后台批处理任务,比如群发。
search_after 深分页
scroll 的方式,官方的建议不用于实时的请求(一般用于数据导出),因为每一个scroll_id 不仅会占用大量的资源,而且会生成历史快照,对于数据的变更不会反映到快照上。
search_after 分页的方式是根据上一页的最后一条数据来确定下一页的位置,同时在分页请求的过程中,如果有索引数据的增删改查,这些变更也会实时的反映到游标上。但是需要注意,因为每一页的数据依赖于上一页最后一条数据,所以无法跳页请求。
为了找到每一页最后一条数据,每个文档必须有一个全局唯一值,官方推荐使用 _uid 作为全局唯一值,其实使用业务层的 id 也可以。
1、首次查询
# 必须使用文档中的唯一值的字段作为排序的规范,如果业务字段没有包含唯一字段,可以使用_id字段
# 另外还需要传入个时间字段来同时进行排序
$ curl -XGET "http://127.0.0.1:9200/orchsym-kong-plugin-2022.06.14/_search" -H 'Content-Type: application/json' -d'
{
"_source": [
"_id","request"
],
"query": {
"match": {
"type": "kong_access_log"
}
},
"size": 3,
"sort": [
{
"request.time": {
"order": "desc"
}
},
{
"_id": {
"order": "desc"
}
}
]
}'
查询返回结果:
{
"took" : 1,
"timed_out" : false,
"_shards" : {
"total" : 3,
"successful" : 3,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : 34,
"max_score" : null,
"hits" : [
{
"_index" : "orchsym-kong-plugin-2022.06.14",
"_type" : "doc",
"_id" : "SrPbYYEB5aAT_arJwVfV",
"_score" : null,
"_source" : {
"request" : {
"orchsym_user_name" : "1_1_1",
"remote_addr" : "172.18.89.52",
"scheme" : "http",
"method" : "GET",
"upstream_uri" : "/por-1/o3aek9yd2a/85e6db65-e5cd-3fb6-afb0-4b72fd5f615e/app/tctest",
"original_uri" : "/por-1/propath/defaroute/app/tctest",
"uri" : "/por-1/propath/defaroute/app/tctest",
"orchsym_app_id" : "02195d19-a583-4f91-96b8-111315fea0a8",
"protocol" : "HTTP/1.1",
"orchsym_request_id" : "b9bf1a60-bb94-48d7-8eca-1ca922bdcb8e#3",
"orchsym_app_name" : "test1",
"size" : 365,
"orchsym_portal_id" : 1,
"time" : 1655204191
}
},
"sort" : [
1655204191000,
"SrPbYYEB5aAT_arJwVfV"
]
},
{
"_index" : "orchsym-kong-plugin-2022.06.14",
"_type" : "doc",
"_id" : "SbPbYYEB5aAT_arJwVfV",
"_score" : null,
"_source" : {
"request" : {
"orchsym_user_name" : "1_1_1",
"remote_addr" : "172.18.89.52",
"scheme" : "http",
"method" : "GET",
"upstream_uri" : "/app/tctest",
"original_uri" : "/por-1/propath/defaroute/app/tctest",
"uri" : "/por-1/o3aek9yd2a/85e6db65-e5cd-3fb6-afb0-4b72fd5f615e/app/tctest",
"orchsym_app_id" : "02195d19-a583-4f91-96b8-111315fea0a8",
"protocol" : "HTTP/1.1",
"orchsym_request_id" : "b9bf1a60-bb94-48d7-8eca-1ca922bdcb8e#3",
"orchsym_app_name" : "test1",
"size" : 644,
"orchsym_portal_id" : 1,
"time" : 1655204191
}
},
"sort" : [
1655204191000,
"SbPbYYEB5aAT_arJwVfV"
]
},
{
"_index" : "orchsym-kong-plugin-2022.06.14",
"_type" : "doc",
"_id" : "SLPbYYEB5aAT_arJwVfV",
"_score" : null,
"_source" : {
"request" : {
"remote_addr" : "172.18.89.52",
"orchsym_user_name" : "1_1_1",
"method" : "GET",
"scheme" : "http",
"upstream_uri" : "/app/tctest",
"original_uri" : "/por-1/propath/defaroute/app/tctest",
"uri" : "/por-1/o3aek9yd2a/85e6db65-e5cd-3fb6-afb0-4b72fd5f615e/app/tctest",
"orchsym_app_id" : "02195d19-a583-4f91-96b8-111315fea0a8",
"protocol" : "HTTP/1.1",
"orchsym_request_id" : "9187cfcc-6625-47a9-9c70-9f66cf9030ae#2",
"orchsym_app_name" : "test1",
"size" : 644,
"orchsym_portal_id" : 1,
"time" : 1655204188
}
},
"sort" : [
1655204188000,
"SLPbYYEB5aAT_arJwVfV"
]
}
]
}
}
第二次查询:
# 需要将前一次查询时,最后显示的sort字段值,作为参数传给下一次查询中的search_after字段
# 当使用search_after参数时,from的值必须被设为0或者-1,也可以不写
$ curl -XGET "http://127.0.0.1:9200/orchsym-kong-plugin-2022.06.14/_search" -H 'Content-Type: application/json' -d'
{
"_source": [
"_id","request"
],
"query": {
"match": {
"type": "kong_access_log"
}
},
"size": 4,
"search_after": [1655204188000,"SLPbYYEB5aAT_arJwVfV"],
"sort": [
{
"request.time": {
"order": "desc"
}
},
{
"_id": {
"order": "desc"
}
}
]
}'
第二次查询返回结果就会如下所示:
{
"took" : 1,
"timed_out" : false,
"_shards" : {
"total" : 3,
"successful" : 3,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : 34,
"max_score" : null,
"hits" : [
{
"_index" : "orchsym-kong-plugin-2022.06.14",
"_type" : "doc",
"_id" : "RrPbYYEB5aAT_arJwVfV",
"_score" : null,
"_source" : {
"request" : {
"remote_addr" : "172.18.89.52",
"orchsym_user_name" : "1_1_1",
"method" : "GET",
"scheme" : "http",
"upstream_uri" : "/por-1/o3aek9yd2a/85e6db65-e5cd-3fb6-afb0-4b72fd5f615e/app/tctest",
"original_uri" : "/por-1/propath/defaroute/app/tctest",
"uri" : "/por-1/propath/defaroute/app/tctest",
"orchsym_app_id" : "02195d19-a583-4f91-96b8-111315fea0a8",
"orchsym_request_id" : "9187cfcc-6625-47a9-9c70-9f66cf9030ae#2",
"protocol" : "HTTP/1.1",
"size" : 365,
"orchsym_app_name" : "test1",
"orchsym_portal_id" : 1,
"time" : 1655204188
}
},
"sort" : [
1655204188000,
"RrPbYYEB5aAT_arJwVfV"
]
},
{
"_index" : "orchsym-kong-plugin-2022.06.14",
"_type" : "doc",
"_id" : "RbPbYYEB5aAT_arJwVfV",
"_score" : null,
"_source" : {
"request" : {
"orchsym_user_name" : "1_1_1",
"remote_addr" : "172.18.89.52",
"scheme" : "http",
"method" : "GET",
"upstream_uri" : "/app/tctest",
"original_uri" : "/por-1/propath/defaroute/app/tctest",
"uri" : "/por-1/o3aek9yd2a/85e6db65-e5cd-3fb6-afb0-4b72fd5f615e/app/tctest",
"orchsym_app_id" : "02195d19-a583-4f91-96b8-111315fea0a8",
"protocol" : "HTTP/1.1",
"orchsym_request_id" : "8320d291-ac04-4a13-ba99-012f56780136#2",
"size" : 644,
"orchsym_app_name" : "test1",
"orchsym_portal_id" : 1,
"time" : 1655204186
}
},
"sort" : [
1655204186000,
"RbPbYYEB5aAT_arJwVfV"
]
},
{
"_index" : "orchsym-kong-plugin-2022.06.14",
"_type" : "doc",
"_id" : "R7PbYYEB5aAT_arJwVfV",
"_score" : null,
"_source" : {
"request" : {
"orchsym_user_name" : "1_1_1",
"remote_addr" : "172.18.89.52",
"method" : "GET",
"scheme" : "http",
"upstream_uri" : "/por-1/o3aek9yd2a/85e6db65-e5cd-3fb6-afb0-4b72fd5f615e/app/tctest",
"original_uri" : "/por-1/propath/defaroute/app/tctest",
"uri" : "/por-1/propath/defaroute/app/tctest",
"orchsym_app_id" : "02195d19-a583-4f91-96b8-111315fea0a8",
"protocol" : "HTTP/1.1",
"orchsym_request_id" : "8320d291-ac04-4a13-ba99-012f56780136#2",
"orchsym_app_name" : "test1",
"size" : 365,
"orchsym_portal_id" : 1,
"time" : 1655204186
}
},
"sort" : [
1655204186000,
"R7PbYYEB5aAT_arJwVfV"
]
},
{
"_index" : "orchsym-kong-plugin-2022.06.14",
"_type" : "doc",
"_id" : "GrPbYYEB5aAT_arJmlfF",
"_score" : null,
"_source" : {
"request" : {
"remote_addr" : "172.18.89.52",
"orchsym_user_name" : "1_1_1",
"scheme" : "http",
"method" : "GET",
"upstream_uri" : "/por-1/o3aek9yd2a/85e6db65-e5cd-3fb6-afb0-4b72fd5f615e/app/tctest",
"original_uri" : "/por-1/propath/defaroute/app/tctest",
"uri" : "/por-1/propath/defaroute/app/tctest",
"orchsym_app_id" : "02195d19-a583-4f91-96b8-111315fea0a8",
"orchsym_request_id" : "b9bf1a60-bb94-48d7-8eca-1ca922bdcb8e#2",
"protocol" : "HTTP/1.1",
"orchsym_app_name" : "test1",
"size" : 365,
"orchsym_portal_id" : 1,
"time" : 1655204183
}
},
"sort" : [
1655204183000,
"GrPbYYEB5aAT_arJmlfF"
]
}
]
}
}
猜你喜欢
- 2024-10-14 Excel表格太大时,怎么打印到一页上?
- 2024-10-14 写给Java应用开发者的Elasticsearch调优手册
- 2024-10-14 Excel表格太大时,怎么打印到一页上?收藏
- 2024-10-14 Excel中如何设置自动分页打印(excel表格怎么设置分页打印)
- 2024-10-14 还在浪费A4纸?按下Excel这个按钮,所有内容即可打印在同一页
- 2024-10-14 滑动页面时的控件设计规范——吸底&锚点
- 2024-10-14 ElasticSearch优化点简述(elasticsearch集群优化)
- 2024-10-14 一组Excel打印技巧,实用就好(excel打印技巧大全)
- 2024-10-14 打印设置用得好,天天追着幸福跑(打印基本设置)
- 2024-10-14 VBA实用代码赏析之八:页面、日期函数及选择的操作
- 最近发表
- 标签列表
-
- cmd/c (64)
- c++中::是什么意思 (83)
- 标签用于 (65)
- 主键只能有一个吗 (66)
- c#console.writeline不显示 (75)
- pythoncase语句 (81)
- es6includes (73)
- sqlset (64)
- windowsscripthost (67)
- apt-getinstall-y (86)
- node_modules怎么生成 (76)
- chromepost (65)
- c++int转char (75)
- static函数和普通函数 (76)
- el-date-picker开始日期早于结束日期 (70)
- localstorage.removeitem (74)
- vector线程安全吗 (70)
- & (66)
- java (73)
- js数组插入 (83)
- linux删除一个文件夹 (65)
- mac安装java (72)
- eacces (67)
- 查看mysql是否启动 (70)
- 无效的列索引 (74)