一、大数据的涵义与研究意义二、与空间信息和位置相关的大数据三、空间大数据的应用四、空间大数据的存储五、总结大数据的涵义与研究意义大数据:大型复杂数据集的聚合,这些数据集的规模和复杂程度常超出目前数据库管理软件和传统数据处理技术在可接受时间下的获取、管理、检索、分析、挖掘和可视化能力。大数据的涵义与研究意义大数据的特点:1)Volume(体量大):大量TB级以上已有的数据等待处理;2)Velocity(速度快):需要响应以s甚至ms计的流数据不断产生;3)Variety(模态多样):数据来源和类型繁多文本、图片、视频等结构化和非结构化数据并存;4)Veracity(真伪难辨):由于数据的噪音、缺失、不一致性、歧义等引起的数据不确定性;5)Value(价值):大数据使得人们以前所未有的维度量化和理解世界,蕴含了巨大的价值,大数据的终极目标在于从数据中挖掘价值。大数据的核心:预测大数据的涵义与研究意义研究大数据的意义:科学进步图灵奖获得者吉姆•格雷提出:大数据是科学研究的第四范式,是从计算密集型科研发展到以大数据为基础的数据密集型科研方法。科学实验模型归纳模拟仿真数据密集型科学研究方法的发展真正的革命并不发生在分析数据的机器,而在于数据本身和我们如何运用数据。大数据的涵义与研究意义研究大数据的意义:社会变革2009至今美国政府全面开放了40万联邦政府原始数据集。大数据已成为美国国家创新战略、国家安全战略、国家IT产业发展战略以及国家信息网络战略的交叉领域、核心领域。21世纪数据的价值有可能等同于20世纪的石油,大数据研究使得人们降低了对因果关系的渴求,而关注相关关系。只需要知道是什么,而不需知道为什么。这将使得理解现实和做决定的基础也将受到根本性挑战。社会价值大数据的涵义与研究意义研究大数据的意义:经济增长新的职业新的企业新的应用新的产值与空间信息和位置相关的大数据指直接或间接关联着相对于地球的某个地点的数据,包括自然地理数据和社会经济数据。空间媒体数据地理数据轨迹数据包含位置的数字化的文字、图形、图像、视频影像等媒体数据,主要来源于移动社交网络、微博等新型互联网应用指通过GNSS等测量手段以及网络签到等方法获得的用户活动数据,可以被用来反映用户的位置和用户的社会偏好。位置大数据的分类与空间信息和位置相关的大数据地理数据内容:土地覆盖类型数据、地貌数据、土壤数据、水文数据、植被数据、居民地数据、河流数据、行政境界及社会经济方面的数据等。特点:数据体量大、较为规则化、变化较慢。与空间信息和位置相关的大数据轨迹数据内容:个人轨迹数据、群体轨迹数据、车辆轨迹数据等特点:数据体量大、信息碎片化、准确性较低、半结构化出租车轨迹数据示例与空间信息和位置相关的大数据空间媒体数据内容:互联网图像视频数据、社交网络数据在线电子商务数据、城市监控摄像头数据特点:数据来源混杂、数据异构性大、数据价值密度低,实时性强与空间信息和位置相关的大数据社会交流、个性化信息推送、驾驶安全、智能驾驶为个人生活服务城市规划、疾病控制、智能交通、节能减排、环境保护、应急响应企业调度、门店选址、广告推送、位置营销为企业经济服务为城市运行服务位置大数据的作用大数据的应用1.空间大数据与智能交通Inrix是美国的一家交通数据处理公司,也是全球领先的道路交通信息和驾驶员服务供应商。他们设计的APP是一款致力于为全球交通问题带来智能数据和先进的分析方法的交通智能化平台。大数据的应用利用大数据预判未来交通信息和路况是核心2012年英国伦敦奥运会利用INRIX软件和在线服务确保交通顺畅;在美国有超过25个州的交通部门使用INRIX数据辅助交通管理。三、空间大数据的应用2015年2月11日,国内智能交通行业领军企业北京千方科技股份有限公司与INRIX签署战略合作协议。千方科技在国内智能交通行业具有深厚的理解和市场、技术积累,INRIX在欧美地区具有成熟的交通信息化解决方案和先进理念。双方将结合各自的优势,整合交通信息化及数据分析解决方案和产品,共同拓展智能交通行业市场,双方将在交通大数据分析、增值挖掘、交通仿真等技术方向深度交流,提升双方专业化及技术能力。不过,由于涉及国内职能部门的数据保护问题,国内手机用户还未能够体验这款App。三、空间大数据的应用2.空间大数据与社会生活2014年春节期间,百度地图定位可视化大数据播报的国内春节人口迁徙情况。2015年最近一周南京夫子庙景区热力图三、空间大数据的应用3.空间大数据与应急管理2013年4月15日,波士顿马拉松爆炸案事发几小时内,数以千计的在场群众将事发现场拍摄的照片和视频放到了公共网络平台上,这些照片和视频图像来自各种相机,手机和平板电脑。不到一天时间,嫌犯被确认并在纽约被抓获这是一种典型的利用空间社会媒体的位置大数据与反犯罪机构的专业能力结合,建立的城市安全与应急新体制位置大数据研究涉及到数据采集、数据处理、计算和存储以及可视化等一套完整的方法体系•NOSQL•可视化•重数据•轻算法•泛在测绘数据采集数据分析数据存储数据表达海量数据的高效存储支持丰富的数据类型处理速度快数据库应当易于扩展大数据下对于数据库的需求CAPNOSQLBASE不保证遵循ACID原则分布式的非关系型的必须保证两者权衡一致性可用性分区容错性BASE灵活高可用性高性能易扩展NoSQL数据库的特点Key-value型文档型图形数据库列式存储定义一个大的有序结构数组HashValue[m],用来存放各信息查询哈希表哈希函数当查询的时候再使用哈希函数得到这个下标值编写一个哈希函数将关键值的名字转换为HashValue[m]中的某个下标值xKey-value型文档集合数据库集合就是一组文档。集合是无模式的。多个文档组成集合多个集合数据库。它包含多个键/值对文档中的键/值对是有序的文档型数据库分类Examples举例典型应用场景数据模型优点缺点键值(key-value)TokyoCabinet/Tyrant,Redis,Voldemort,OracleBDB内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。Key指向Value的键值对,通常用hashtable来实现查找速度快数据无结构化,通常只被当作字符串或者二进制数据列存储数据库Cassandra,HBase,Riak分布式的文件系统以列簇式存储,将同一列数据存在一起查找速度快,可扩展性强,更容易进行分布式扩展功能相对局限文档型数据库CouchDB,MongoDbWeb应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容)Key-Value对应的键值对,Value为结构化数据数据结构要求不严格,表结构可变,不需要像关系型数据库一样需要预先定义表结构查询性能不高,而且缺乏统一的查询语法。图形(Graph)数据库Neo4J,InfoGrid,InfiniteGraph社交网络,推荐系统等。专注于构建关系图谱图结构利用图结构相关算法。比如最短路径寻址,N度关系查找等很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案。这便是一个document,使用JSON格式,一目了然。其中的geom即为Geometry类型的数据,即地理空间数据,也是采用JSON格式存储,这样后续的空间索引与空间查询将十分方便。db.xqpoint.find({geom.coordinates:[122.53233,52.968872]})精确查询邻域查询db.xqpoint.find({geom.coordinates:{$near:[122,52]}})db.xqpoint.find({geom.coordinates:{$near:[122,52]}}).limit(5)db.xqpoint.find({geom.coordinates:{$near:[122,52],$maxDistance:5}}).limit(5)范围查询box=[[80,40],[100,50]]db.xqpoint.find({geom.coordinates:{$within:{$box:box}}})center=[80,44]radius=5db.xqpoint.find({geom.coordinates:{$within:{$center:[center,radius]}}})polygon1=[[75,35],[80,35],[80,45],[60,40]]db.xqpoint.find({geom.coordinates:{$within:{$polygon:polygon1}}})大数据研究带来的挑战多源数据的分析和挖掘空间大数据的位置安全结合地理计算的可视分析可扩展的动态海量数据管理新的数据共享机制需要建立感谢你的聆听