多结构化数据管理潘鹏现代数据管理的特征——结构化、半结构化、非结构化(不易组织)——文本、图像、视频、音频(内容多样,不易处理)——海量(不易存取)——基于语义(不易查找)——面向网络(不易管理)2现代数据管理的特征1)数据的形式多样——结构化、半结构化、非结构化——文本、图像、视频、音频——单模态、多模态数据库方式:——以结构化为主,擅长处理结构化数据。——文本、数字、日期等程序可直接识别的符号数据。3数据类型!现代数据管理的特征2)查询的需求——文字匹配——基于语义——相似性匹配、排序——聚类、分类、去冗余数据库方式:——基于关键字、基于值的比较——精确匹配、排序——存在性查询、等值查询、范围查询4检索算法!现代数据管理的特征3)运行和应用环境和网络(尤其是语义网)结合更加密切、更加直接:——大量的数据直接来自网络,包括用于机器学习的训练数据和用于检索的数据。——语义知识也可能从网络中获取。——与web应用集成(电子商务、搜索引擎、内容检索、情报分析)——网络后台数据、爬虫数据库方式:企业级应用,生产型企业、政府部门的较规范化的信息管理,用于规范和优化管理的流程,提高业务吞吐量。手工录入、批量导入。5价值挖掘!现代数据管理的特征4)处理的需求——面向海量数据,TB、PB级别——查询为主、更新不频繁(?)——数据一致性可弱化数据库方式:——面向企业级数据库——增、删、改、查——ACID特性的控制6系统运行机制!现代数据管理的特征5)关键技术——相似性的度量——高维数据的处理——语义特征的获取——语义知识的组织——训练、学习的模型——海量数据的分布存储、分布式并行处理——查询反馈——可视化7现代数据管理的特征数据库方式:——基于数据字典的数据组织——关系代数理论的实现技术——索引机制——多维数据(不是高维)的查询算法——面向关系代数的查询优化——系统保护(并发、恢复、完整性控制、安全性控制)8现代数据管理的特征6)系统开放性——分布式、易于扩充、低成本——编程模型数据库方式——服务器模式、异构集成、中间件——编程接口9‘大数据(BigData)”概念的提出每秒钟,人们发送290封电子邮件;每分钟人们在youtube上传20小时的视频;人们每月在总共在facebook上浏览7000亿分钟;移动互联网用户发送和上传的数据量达到1.3exabytes,相当于10的18次方;每秒钟亚马逊处理72.9笔订单;。。。。。。101112‘大数据(BigData)”概念的提出麦肯锡全球研究院(MGI)估算,全球企业2010年在硬盘上存储了超过7EB(1EB=10亿GB)的新数据,同时,消费者在PC和笔记本等设备上存储了超过6EB新数据。1EB数据相当于美国国会图书馆中存储的数据的4000多倍。对这些海量数据的存储,超过了任何一家传统企业的能力。↓对于互联网平台级的公司,他们每时每刻在忙于把这些数据收集、整理、归类、保存(或者托管方式)。13‘大数据(BigData)”概念的提出以Google为例目前有超过200个Google文件系统集群在运行,每个集群大约有1000~5000台机器,每个谷歌文件系统(Googlefilesystem,GFs)都存储着高达5PB的数据。成千上万的机器需要的数据都从GFS集群中检索,这些集群中数据读写的吞吐量可高达40GBps,每天都在产生着含大量知识的数据。14‘大数据(BigData)”概念的提出传统的企业中,数据多是以表格的形式保存在数据库中。↓所有的信息格式都一样,便于编程处理。∣处理需求、处理方法、优化措施。15‘大数据(BigData)”概念的提出微博等各种网络信息发布渠道的海量数据:文本、照片、视频位置信息、链接信息、XML类型的数据。。。“长微博”工具——把文字转换成图片,突破140字的限制往往图片形式存在的微博,包含大量的信息。数据的生成(基于语义),表现形式自然、直观。16‘大数据(BigData)”概念的提出社会化的网络,为大数据提供了额外的价值维度。一件商品、一则消息、一副图片。。。↓不同影响力的社会个体不同的附加价值和效果在不同的数据类型中进行交叉分析的技术,是大数据的核心技术之一。↓语义分析技术、图文转换技术、模式识别技术、地理信息技术等等,都将获得应用。17‘大数据(BigData)”概念的提出沙里淘金大数据无疑是有价值的(视频监控、流量记录、日志记录。。。)但是挖掘大数据的价值类似沙里淘金(每天产生24小时的视频数据,绝大部分都没有利用价值,可能是几秒镜头捕捉到某罪犯体貌特征,对公安部门而言就是弥足珍贵的。为了这几秒钟,必须要保存全部的24小时)。↓大数据的一个典型特征,价值密度比较低(为了一点金子,需要保存全部沙子)。18‘大数据(BigData)”概念的提出实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一数据仓库系统、BI应用对处理时间的要求并不高(甚至可以容忍1、2天获得结果)。对于更多用户而言则需要在1秒钟内形成答案,否则这些结果可能就是过时的、无效的、或者难以忍受的。19网络化、服务化、平台无关、云计算、客户体验。。。金融从业人员所需的股价波动信息、导航用户所需的实时路况信息、搜索引擎的返回结果、社会关系网络信息‘大数据(BigData)”观点的提出业界对大数据归纳出4个层面的特点(4V):Volume:数据体量巨大(从TB级别,跃升到PB级别);Variety:数据类型繁多(网络日志、视频、图片、地理位置信息等等);Velocity:处理速度快(1秒定律,有别于传统的数据挖掘技术);Value:价值密度低。Veracity:真实性——IBM。Variability:易变性——Forrester分析师布赖恩·霍普金斯(BrianHopkins)和鲍里斯·埃韦尔松(BorisEvelson)撰写的《首席信息官,请用大数据扩展数字视野》报告中。目前,没有大数据的正式定义。20BigData相关的研究计划2012年3月29日,美国政府宣布“大数据的研究和发展计划。”提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究。六个联邦政府的部门和机构宣布新的2亿美元的投资,提高从大量数字数据中访问、组织、收集发现信息的工具和技术水平。21BigData相关的研究计划国防部多尺度异常检测(ADAMS)项目解决大规模数据集的异常检测和特征化。MachineReading项目,旨在实现人工智能的应用和发展学习系统的过程中对自然文本进行知识插入,而不是依靠昂贵和费时的知识表示目前的处理进程,并需要专家和相关知识工程师所给出的语义表示信息。22BigData相关的研究计划Mind‘sEye项目,旨在为机器建立视觉的智能。传统的机器视觉研究的对象选取广泛的物体来描述一个场景的属性名词,而Mind’sEye旨在增加在这些场景的动作认识和推理需要的知觉认知基础。这些技术可以建立一个更完整的视觉智能效果。视频和图像的检索和分析工具(VIRAT)计划旨在开发一个系统能够利用军事图像分析员收集的数据进行大规模的军事图像分析,使分析师能够在相关活动发生时建立警报。VIRAT还计划开发工具,能够以较高的准确率和召回率的从大量视频库里进行视频内容的检索。23BigData相关的研究计划XDATA项目计划旨在开发用于分析大量的半结构化和非结构化数据的计算技术和软件工具。其核心挑战是可伸缩的算法在分布式数据存储中的应用、如何使人机交互工具能够有效迅速的定制不同的任务,以方便对不同数据进行视觉化处理。对开源软件工具包的灵活使用,处理大量国防应用中的数据。24BigData相关的研究计划国家人文基金会数据挖掘的挑战旨分析大数据的变化对人文社会科学的影响,这种新的计算为基础的研究方法都需要搜索、分析和理解大量的材料,如数字化的书籍和报纸数据库,从网络搜索,传感器和手机记录交易数据。BigData相关的研究计划计算先行者已经资助在加州大学伯克利分校的一个研究小组,深入整合算法、机器和人,以解决大数据的研究挑战。随机网络模型的重点研究组开发一种统一的理论框架为基准的统计方法,可伸缩的网络模型算法,以区别随机性的网络知识。通过学习大量报纸数据中单词和短语之间的关系,提供自动化和可扩展性的媒体分析工具。相关的研究热点之知识库构建基于开放网络大数据构建知识库是国内外工业界开发和学术界研究的一个热点。目前,世界各国各个组织建立的知识库多达50余种,相关的应用系统更是达到了上百种。其中,有代表性的知识库或应用系统有KnowItAll,TextRunner,NELL,Probase,Satori,PROSPERA,SOFIE以及一些基于维基百科等在线百科知识构建的知识库DBpedia,YAGO,Omega,WikiTaxonomy。27相关的研究热点之知识库构建一些著名的商业网站、公司和政府也发布了类似的知识搜索和计算平台。如Evi公司的TrueKnowledge知识搜索平台;美国官方政府网站Data.gov;wolfram的知识计算平台wolframalpha;Google的知识图谱(knowledgegraph);Facebook推出的类似的实体搜索服务graphsearch等。28相关的研究热点之知识库构建在国内,中文知识图谱的构建也有大量的研究和开发工作。代表性工作有:中国科学院计算技术研究所的基于OpenKN(开放知识网络)的“人立方、事立方、知立方系统”;中国科学院数学与系统科学研究院的陆汝钤(qián)提出的知件(knowware);上海交通大学最早构建的中文知识图谱平台zhishi.me;百度推出的中文知识图谱搜索;搜狗推出的知立方平台;复旦大学GDM实验室推出的中文知识图谱展示平台等。29相关的研究热点之知识库构建就规模而言,拥有概念最多的知识库是Probase,目前核心概念约270万,概念总量达到千万级。包含实体最多的是wolframalpha,有10万亿个实体。近年来影响力比较大的知识库或知识搜索服务有Google的知识图谱,目前规模是5亿个实体对象和350亿条实体间关系信息,且规模在随着信息的增长不断地增加;微软亚洲研究院的Probase也是近几年比较热门的知识库,它是基于概率化构建的知识库,支持针对短文本的语义理解。比较有特色的还有国内搜狗的知立方系统,侧重与基于图的逻辑推理计算,包括利用语义网的三元组推理补充实体数据、对用户查询词进行语义理解以及句法分析等。30相关的研究热点之知识库构建Google发布的知识图谱,将搜索结果知识系统化,一个关键词就能获得完整的知识体系,从而让用户能快捷简单地发现新的信息和知识。知识图谱从Freebase、维基百科或全球概览中获得专业的信息,并通过大规模的信息搜索分析来提高结果的深度和广度。“知识图谱”和传统的搜素结果相比,在3个方面有所提升:①结果的正确与全面一个关键词可能有多重含义,知识图谱会展示全面的信息,让用户找到自己最想要的答案。②最好的总结更好地的理解用户搜索的信息,并总结出相关的内容和主题。“人——人的生平事迹”。③更深、更广。知识图谱”会给出搜索结果的完整知识体系,用户可能会发现新知识。“一个旅行目的地——以此命名的餐馆——一本小说——同名电影”。31大数据领域的开源技术1.ApacheHadoop一个开源的分布式计算框架。最初由Doug为支持其开源Web搜索引擎Nutch所创立。通过集成MapReduce技术,Hadoop将大数据分布到多个数据节点上进行处理。Hadoop遵循Apache2.0许可证,可以轻松处理结构化、半结构化和非结构化数据,成为现在非常流行的大数据解决方案。32大数据领域的开源技术2.R语言R语言是一种开源编程语言,专门为数据统计和数据可视化而设计。R语言最初由RossIhaka和RobertGentleman在奥克兰大学设计出来,之后迅速成为大数据领域的重要工具。R语言遵循GNU的GPL(GeneralPublicLicense,通用公共