Php使用es做距离定位,es地理位置之地理坐标

记得小时候去北京时,关于北京城的地图还卖两块钱一份,得益于科技的进步,现在我们总是可以知道自己的准确位置,比如距离自己 5 km 内的餐馆,距离自己最近的酒店等等。

es 中不仅提供了地理位置的功能,还可以将地理位置、全文搜索、结构化搜索和分析结合到一起。

es提供了 两种表示地理位置的方式:

(1)用纬度-经度表示的坐标点使用 geo_point 字段类型。

(2) 以 GeoJSON 格式定义的复杂地理形状,使用 geo_shape 字段类型。

当然两种方式有着不同的作用,geo_point计算距离某个坐标点一定距离的所有坐标点,并根据坐标点之间的距离进行打分、或者聚合到显示在地图上的一个网络; 而 geo_shape完全是用来过滤的。他可以判断两个地理形状是否有重合,或者一个地理形状是否包含另一个地理形状。

1. 经纬度坐标表示

注意,地理坐标点不能被自动映射,必须手动指定该字段的类型为 geo_point,比如下列:

PUT /attractions

{

"mappings": {

"restaurant": {

"properties": {

"name": {

"type": "string"

},

"location": {

"type": "geo_point"

}

}

}

}

}

mapping定义完成之后,就可以索引包含位置信息的文档了,经纬度信息的形式可以使字符串、数组或者对象。

PUT /attractions/restaurant/1

{

"name": "Chipotle Mexican Grill",

"location": "40.715, -74.011" // lat, lon

}

PUT /attractions/restaurant/2

{

"name": "Pala Pizza",

"location": {

"lat": 40.722,

"lon": -73.989

}

}

PUT /attractions/restaurant/3

{

"name": "Mini Munchies Pizza",

"location": [ -73.983, 40.719 ] // lon, lat

}

注意: 使用字符串进行表示地理位置时是经度在前,纬度在后,但是是数组表示时,却正好相反,唯独在前,经度在后。在es内部,无论是什么形式,都是按照经度在前,纬度在后进行保存的。

2. 地理坐标点过滤

有四种地理坐标点相关的过滤器可以用来选中或者排除文档:

(1)geo_bounding_box: 找出落在矩形框中的点

该过滤器是目前为止最有效的过滤器,使用简单,只需要指定矩形的顶部,底部和左右边界勾勒出一个矩形,就可以寻找在该矩形内的所有文档,使用方式如下:

GET /attractions/restaurant/_search

{

"query": {

"bool": {

"filter": {

"geo_bounding_box": {

"location": { // 也可以使用 bottom_left, top_right

"top_left": {

"lat": 40.8,

"lon": -74.0

},

"bottom_right": {

"lat": 40.7,

"lon": -73.0

}

}

}

}

}

}

}

(2)geo_distance: 找出与指定位置给定距离的点

地理距离过滤器,是指定一个圆心和半径,寻找该圆中的所有文档。两点之间的距离运算是非常耗时的,也许我们并不需要非常精确的结果,所以我们可以指定计算距离的算法,我们可以根据需要从精度和性能之间做出权衡。

1): arc ,最慢但是最精确。

2): plane:这种方式是将地球看成是平面,所以这种方式相对于arc快一些,但是不是很精确。

3):sloppy_arc:使用 Haversine formula 来计算距离。它比 arc 计算方式快 4 到 5 倍,并且距离精度达 99.9%。这也是默认的计算方式。

GET /attractions/restaurant/_search

{

"query": {

"bool": {

"filter": {

"geo_distance": {

"distance": "1km",

"distance_type": "plane",

"location": {

"lat": 40.715,

"lon": -73.988

}

}

}

}

}

}

对于distance参数,访问 Distance Units 查看所支持的距离表示单位。

(3)geo_distance_range: 找出与指定位置给定最小距离和最大距离之间的点

地理距离区间过滤器,相比于上一个过滤器的区别,就是它是一个环,它会排除内圈中的所有文档。

GET /attractions/restaurant/_search

{

"query": {

"bool": {

"filter": {

"geo_distance_range": {

"gte": "1km",

"lt": "2km",

"location": {

"lat": 40.715,

"lon": -73.988

}

}

}

}

}

}

(4)geo_polygon: 找出落在多边形中的点

注意:这些过滤器判断点是否落在指定区域时的计算方法稍有不同,但过程类似。指定的区域被转换成一系列以quad/geohash为前缀的tokens,并被用来在倒排索引中搜索拥有相同tokens的文档。由于需要做很多复杂的操作,所以地理过滤器的代价比较昂贵,在使用时应该尽可能使用其他代价较小的过滤器比如 bool 过滤器过滤掉更多的文档,最后再使用地理坐标过滤器进行筛选。

3. 按距离排序

搜索结果可以按照距离进行排序

GET /attractions/restaurant/_search

{

"query": {

"match_all": {}

},

"sort": [

{

"_geo_distance": {

"location": { // 计算所有文档按照该指定位置的距离

"lat": 40.715,

"lon": -73.998

},

"order": "asc",

"unit": "km", // 将距离以 km 为单位写入每个返回结果的sort键中

"distance_type": "plane"

}

}

]

}