城市空间下的POI数据爬取
内容
如何简单爬取POI数据及初步了解坐标纠偏知识
POI数据的简单爬取
什么是POI数据?
POI是“Point of interest” 的缩写,可以翻译成“信息点”,每个POI包含四方面信息:名称、类别、经度纬度等信息。(核心标签:经度、纬度。用来定义空间位置)
常用开放的API数据接口
百度开发者平台、高德开发者平台
- 针对数据小白有一定壁垒;
- 数据基础要求
- 开发者权限的申请
- 注:开发者平台 不仅仅可以爬取POI数据,也可以爬取各类其他空间数据。
百度POI数据爬取利器
三步走:
- 输入搜索城市
- 输入关键字
- 得到结果,复制进入Excel
缺陷:
- 只能搜索市级界面
- 数据量800条以内,可能不全
- 坐标系:百度坐标系
脉策科技最多能爬769条(可以加关键字来缩小你的范围去爬精确的数据)
(上图的数据)ctrl+A,全部选择。复制到EXCEL里,只有一列。
选择EXCEL里面的“数据”——“分类”
插入“三维地图” power map
空间数据坐标纠正
什么是坐标纠偏?
目前市面上比较常见的互联网地图的坐标系主要有这样几种:GCJ-02、BD-09、WGS84、CGCS2000。
地球坐标(WGS84)
国际标准,从GPS设备中取出的数据的坐标系
国际地图提供商使用的坐标系,
WGS84,原始坐标体系。主要有Google Earth在用。
火星坐标(GCJ-02)也叫国测局坐标系
GCJ-02是由国测局制定的互联网地图坐标系,又叫火星坐标,最常见的互联网地图坐标系,在中国能见到的互联网
地图基本都是这种坐标了,比如高德地图、腾讯地图、百度地图、Google地图(中国范围)。
中国标准:从国行移动设备中定位获取的坐标数据使用这个坐标系
国家规定:国内出版的各种地图系统(包括电子形式),必须至少采用GCJ-02对地理位置进行首次加密。
百度坐标(BD-09)
百度标准:百度SDK,百度地图,Geocoding使用(二次加密)
BD-09是百度地图独有的坐标系,是在GCJ-02的基础之上进行二次加密的地图坐标,比GCJ-02坐标偏了几百米
的样子。
CGCS2000
CGCS2000是国家2000坐标系,是一个地心坐标系,目前的话应该就只有天地图在用了,所以目前的互联网地图就
只有天地图使用的是真实坐标,其他都是使用的加密坐标。
说明
CGCS2000、WGS84都是地心坐标系,地心与参心不同,参心坐标系是以参考椭球为基准建立的坐标系,不同的国家有着自己的参考椭球标准,所以会存在一些差异性,而地心坐标系是以地球的质量中心为基准建立的坐标系统,所以,2000与84基本是重合的,只有高程基准面会存在差异,天地图的定位API就是直接读取的手机GPS坐标,不加密直接显示到地图上。
Geocoding——地址反查坐标
Geocoding空间定位技术
Geocoding是基于空间定位技术的一种编码方法,它提供了一种把描述 或地址的地理位置信息转换成可以被用于GIS(地理信息系统)的地理坐标的方式>>>地址匹配
插件须知:
- 返回百度坐标
- 数据保存成excel,并且按照模板规格
1.第一栏写地址,尽量详细
2.第二栏写城市
- 如果地址不够详细,则返回坐标也会不精确