基于空间位置信息的多源POI数据融合问题的研究
伴随着网络电子地图与基于位置服务(LBS)的快速发展,以POI为代表的空间地理数据出现了快速增长。POI是兴趣点(Point of interest)的缩写,是一种代表真实地理实体的点状数据,POI一般包含名称、类别、经纬度以及地址等基本信息。一方面,POI信息的搜集、存储以及更新需要花费大量的人力、物力,并且POI信息的及时添加和更新服务已经成为各个网络地图的核心竞争力;另一方面,不同来源的POI信息完善和丰富程度各有不同。如何把来源不同的POI信息进行集成融合从而实现数据复用,已成为急需解决的问题。
POI数据融合技术是解决地理空间数据复用的关键技术,本文所提到的POI数据融合技术最终目标是:将两个POI数据集合中表示同一个地理实体的POI对象标识出来,并将它们放在“融合集”中。国外研究者提出的解决方案有大致如下:基于Ontology的技术;基于空间位置的技术;基于非空间属性的技术。为从两个来源不同的POI数据集合中准确找出用于融合的对应对象,本文在国外研究成果的基础上提出一种改进方案,该方案在空间位置属性的基础上利用非空间属性相似度来提高结果融合集的准确性。本文的具体研究工作与研究成果如下:
首先,对两个不同来源的POI数据集合实施空间位置技术找出对应对象组成的初步融合集,基于位置方法的优点是它仅仅根据经纬度位置信息就可以找对应对象,而经纬度信息是每个POI都必须具备的,不存在数据缺失问题;缺点是来源不同的POI的经纬度都普遍存在误差与坐标系不统一的问题。
其次,使用低阈值的名称属性相似度算法排除由空间位置方法找出的错误对应对象。该算法的优点是它只使用非空间特征属性而不用考虑经纬度中存在的差异,方法也更为成熟,缺点是它要求不同来源的POI之间必须有比较统一的存储模式,另外,非空间特征属性有可能存在信息缺失与标注错误问题。此外,在此步骤中使用低阈值的名称属性相似度算法的原因是:空间位置相近的POI对象有相似的名称。
第三,使用高阈值的名称属性相似度算法找出空间位置方法未能找出的对应对象。这里之所以使用高阈值的名称相似度算法,是因为二次过滤的POI数据没有空间位置的约束。
最后,用多组POI数据集合测试改进方案,实验结果表明融合集的准确率、召回率以及F1值都有明显提高。
POI数据融合;空间位置信息;名称属性;相似度算法
中国海洋大学
硕士
地图学与地理信息系统
张巍
2013
中文
P208;TP391.1
69
2013-12-31(万方平台首次上网日期,不代表论文的发表时间)