POI数据的质量提高:分类、合并和去除重复张蒲生博士POI•兴趣点–起源于英文PointofInterest(POI)–商业设施:餐馆、商铺、旅馆等等•主要商业价值–公益设施:公园、博物馆、公交站10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved2其实POI不一定真的是一个点,很多时候是简化成一个点。譬如说:雍和宫,北海公园10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved3为什么POI数据很重要?•地图服务的基础数据之一。•在线和手机地图许多常用的功能都离不开POI。•LBS应用的基础。•LBS服务:比如手机上的餐馆点评(Yelp和大众点评)•本地搜索的主要对象•主要满足用户的某种搜索需求。•比如搜索“川菜馆”,浏览点评再作决定。•比如在附近搜索“餐馆”,寻找可步行的午餐去处。•比如搜索“五洲皇冠”,寻找折扣和订房电话。10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved4地图中POI10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved5地图中POI–GoogleMaps10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved6地图中POI–BingMaps10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved7高品质POI的竞争优势10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved8为什么高品质POI数据很重要?•商业价值–数据产品(DataasaProduct)•高品质的数据产品吸引多种LBS用户•地图客户–Apple和Baidu均使用高德数据!•BusinessIntelligence–衍生产品和服务(DataasaService)•高德推出商业决策服务:数据质量和算法同样重要!–比如“你的咖啡馆应该开在那里?”10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved9POI数据品质的基本标准•衡量POI数据品质的标准:–地域性的覆盖度–更新速度–空间位置的精确度•地址•经纬度(找路的和房顶的)–非空间信息的精确度•名称拼写•电话号码•分类10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved10POI数据品质的高级标准•非空间信息的丰富性–基于类型的特定信息–餐馆:收不收卡、停车位、营业时间、价位,打分和点评,照片和PhotoSynth–旅馆:最近平均价位,礼宾服务项目•深层次集成的可扩展性–相关网址、携程订房链接、大众点评网信息及订餐链接10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved11POIARestaurantatSeattle(SeaStarRestaurantatSeattle)AhotelatSeattle(LaQuintaInn&Suites)10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved1210/12/2012Copyright©Dr.PushengZhang.AllRightsReserved1310/12/2012Copyright©Dr.PushengZhang.AllRightsReserved14POI数据的采集和加工•数据来源–实地原始数据采集.–购买和收集数据.–商家自己的更新.–网络爬虫(CrawlingfromInternet).•数据大小–美国:两三千万POIs–基础数据不是非常大,但是扩展数据很大。10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved15POI数据生产的挑战10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved16POI数据生产的挑战•生产高品质数据产品的挑战:–非标准化。–从多个来源获取、协调和合并数据。–核实校正数据。–去处重复。–恰当分类并产生类型相关的属性。–更新10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved17POI数据生产的挑战-合并•从多个来源获取、协调和合并数据。–最近实地获取的商家信息。–原来的商家信息。–商家自己的更新。–企业提供的。–网上爬的。•扩充属性–从多种数据来源丰富小POI数据的属性。•怎样自动化和智能化?•相信谁?10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved18POI数据生产的挑战-校正•人工核实–名称拼写,别名–地址–经纬度•用于找路的经纬度,靠近道路。•房顶经纬度,可用于地图上显示名称。–电话–网址•图片数据提取•自动化10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved19POI数据生产的挑战-去除重复•多数据来源,难以避免的问题!•怎么高效和准确地找到。–尽量减小搜索空间–怎样判定重复:定义相似性–合并和去除重复10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved20POI数据生产的挑战-分类•类型划分错误或缺失。–比如在地图上搜“湘菜馆”•“湘菜馆”是不是一个有效的POI类型•有些餐馆没有划分到湘菜菜系,就不会出现在搜索结果里。•有些POI具有多个类型,怎么保证包括这些所有的类型。•有时人工分类很难完全准确和客观。•这是个数据挖掘的问题。10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved21POI数据生产的挑战-更新•美国–大约三分之一小商家在其前两年内倒闭–过半数的小商家在其前四年内倒闭。•中国有过之而无不及!10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved22POI的合并同一家餐馆可能在不同的数据来源上有所不同,我们可以找到匹配的记录们将它们合并吗?10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved23首先要有好的数据源•投资在数据采集环节•提高网爬和UGC数据和利用网爬数据•获取高品质的合作伙伴数据来扩展属性–比如餐馆打分和点评信息10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved24POI数据扩充•不同的数据源可以提供不同的属性•Yelp给必应地图提供餐馆的打分和评价信息–网爬:获取数据–集成:寻找匹配餐馆10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved25分层信息集成10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved26POI数据扩充•社区信息–给POI增加标注,“望京”“海淀黄庄”–社区信息是在本地搜索非常有用的信息。10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved27寻找匹配•大海捞针•怎样缩小搜索范围?•建立相似性模型寻找匹配–地域匹配•地域分片,最好建空间索引•在附近区域寻找–名称匹配•同义词–建立同义词库–包含常见不同写法和网络别称–类别匹配10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved28合并•匹配完成后,合并属性–非冲突性扩充属性,相对简单–属性冲突时,需要运用规测和打分系统解决–允许多个属性值并存,同义词和别称•比如名称:WalMart,Wal-Mart,Walmart–允许多个类型并存•川菜,湘菜10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved29POI数据来源的可信度•供应商的可信度–市场信誉和口碑•高德是中国地图数据的最佳供应商–地域差异•有些供应商在特定地区很好–类型差异•有些供应商在一些领域很强,比如Yelp在美国餐饮业的数据–采集时间•机器学习–根据以往匹配合并的质量观察•可以给每个供应商总体打分•按地域给每个供应来源打分•用户反馈非常重要–报告错误的频率的历史记录10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved30数据校正•数据验证–核实名称的拼写–经纬度和地址的准确性•用于找路的经纬度,靠近道路。•房顶经纬度,可用于地图上显示名称。–打电话,看看是不是–网址,打开网页•UGC辅助校正–很多人移动该POI到另外一个地方10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved31POI的去除重复基于匹配的合并是相对保守的:只有相似指数非常接近时,我们才匹配。所以我们需要去除重复!10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved32去除重复是合并任务的自然延伸•产生原因–不同数据来源–商家迁移•自动的匹配在合并中已经完成。•很多去除重复都使用交互的方式–算法快速的选出可能的重复–人工确认和核实10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved33GeoDDupe•下面我来介绍马里兰大学的一项技术•交互式系统来去除POI重复10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved3410/12/2012Copyright©Dr.PushengZhang.AllRightsReserved35相似度•类似合并时相似度的计算–用户定义的加权相似度•距离•名称•类型•共同相邻的POIs10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved36显示可能重复的POIs•按照相似度值递减排序10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved37去除重复•检查可能的重复POIs•确认去除重复、合并10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved38交互式工具•目前工具和算法还远远不够完美。•需要开发高效的交互式工具帮助去除重复的工作–高效的匹配算法往往需要空间索引的协助。–有效的相似度权重需要用数据来训练建模。•回归分析或者数据挖掘的方式10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved39POI的分类我要在地图上浏览附近的川菜馆选择,地图显示这些结果在后台是怎么标注成川菜馆的类别的?10/12/2012Copyright©Dr.PushengZhang.AllRightsReserved40用户在地图上查找POI的方式•浏览(Browsing)–“我第一次到北京,看看周围都有什么?”•搜索(Search)–“我知道在王府井附近有家全聚德,想查找具体位置和预订电话”•这两种也有时交互使用。10/12