大数据技术47

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大数据技术及其在现代教育领域中的应用南京大学计算机科学与技术系窦万春教授提纲什么是“数据”?什么是“数据库”?什么是“大数据”?大数据处理的工具与手段大数据技术在现代教育领域中的潜在应用结语1、什么是“数据”•日程生活中,数据和信息经常混为一谈。•“数据是对事实、概念或指令的一种特殊表达形式,这种特殊的表达形式可以用人工的方式或者用自动化的装置进行通信、翻译、转换或进行加工处理”。---ISO•信息是对“人”有用的数据,可以影响人们的行为和决策。•信息处理的本质是数据处理,数据处理的目标是或的有用的信息。---上述解释来自国际标准化组织的相关定义2、什么是“数据库”数据多了,怎么办?好雨知时节!•数据库技术产生了!始于上个世界60年代中期需求分析•数据怎样规范表示?•涉及哪些软件?•涉及哪些硬件?•数据如何输入?•结果如何输出?•如何解决数据的访问冲突问题?•如何从大量的数据中发现一写潜在的应用规律?•…基本概念•数据库(DB):接受统一管理的相关数据的集合。•数据库管理系统(DBMS):数据库系统中管理数据的软件系统,它是数据库系统中的核心组成部分,对数据库的一切操作,包括定义、查询、更新以及各种控制,都是通过DBMS进行。如甲骨文•数据库系统(DBS):实现有组织地、动态地存储大量关联数据,方便多用户访问,由计算机软件、硬件和数据资源组成的系统。•数据库技术:研究数据库的结构、存取、管理和使用的软件学科。软件硬件+数据本身3、什么是“大数据”?“大数据”概念的诞生2008年9月4日《自然》(Nature)刊登了一个名为“BigData”的专辑2009年7月O'ReillyMedia出版社出版了一本名为“BeautifulData”的书2009年10月微软为纪念JimGray,出版了“第四范式—数据密集的科学发现(TheFourthParadigm—DataIntensiveScientificDiscovery)”“大数据”概念的诞生2011年2月11日:Science刊登了一个名为DealingwithData的专辑,联合Science:Signaling、Science:TranslationalMedicine和ScienceCareers推出相关专题,讨论数据对科学研究的重要性同一天,在美国很受欢迎的智力竞答“危险边缘(Jeopardy)”电视节目中,IBM的“沃森”系统以绝对优势战胜两名人类顶级选手。和14年前的“深蓝”(战胜加里•卡斯帕罗夫)相比,“沃森”除具有超群的计算能力外,更拥有超大规模的数据以及数据处理能力.“大数据”概念的诞生2012年3月29日,美国总统科技政策办公室OSTP(OfficeofScienceandTechnologyPolicy)宣布了每年投资两亿美元的“大数据研究计划”(BigDataR&DInitiative)同一天,我国科技部发布的“‘十二五’国家科技计划信息技术领域2013年度备选项目征集指南”把大数据研究列在首位.“大数据”概念的诞生“大数据”主要讨论的是与科学发现有关的数据“大数据”很好地概括了当前数据管理领域问题的重要性和多样性数据问题在研究和应用上空前的深度和广度“大数据”成为一个时髦的术语(Buzzword),成为工业界与学术界共同关注的热点“大数据”是个合适的umbrella,较广的覆盖面应用驱动,将IT的重点转移到数据方面,超越传统数据库的理念.与大数据相关的几个热点问题非结构化数据:数据特点云计算与大数据:处理平台Hadoop与大数据:主流的处理工具1、非结构化数据﹁(结构化数据)=非结构化数据什么是结构化的数据?结构化数据•任何一列的数据不可以再细分•任何一列的数据都有相同的数据类型结构化数据很多.人力资源管理库存管理门诊挂号工资管理物流管理户籍管理各种票务管理…印象:目前的数据管理技术和手段已经很完善了!现实:数据库管理技术确实在一些领域得到了完美的应用!数据库的三大成就关系模型E.F.Codd(数据库领域第二个图灵奖获得者)事务处理JimGray(数据库领域第三个图灵奖获得者)查询优化结构化(模式和实例分离)关系数据库理论(关系代数)物理存储(索引/统计)孔子登东山而小鲁,登泰山而小天下.非结构化数据更多.非结构化数据的实例:文本、图片、网页、图像、音频、视频等等。这里的“多”,包括数据量“巨大”和种类“繁杂”!﹁(结构化数据)=非结构化数据数据量“巨大”种类“繁杂”!多媒体文件的基本要素:文字、声音、图像。多媒体效果的组成过程:音频文件、视频文件、文字文件(字幕),按照一定时间节点的合成。更为科学的统计规律世界上的数据80%是非结构化数据二/八定律两个世界(twouniversals).数据库世界.非数据库世界.29大数据的评估指标[1]1、数据规模可观(入门标准)大数据最基本的要求当然是数据规模大,但很难给出一个绝对的数字标准来确定大小,而只能用一些模糊的感觉来相对比较。例如,一个公司在年度预算中有了专门的,显著的数据存储和分析预算(例如,总预算的3-5%),有了独立的数据处理和分析部门,有了比较完整的数据存储,安全和保密政策与管理流程,有了高度依赖数据分析结果的商业模式,那么,可以说这个公司面临着利用大数据的机会或挑战了。[1]谢文:看得见的未来——十谈大数据时代()302、数据结构复杂数据量只是反映数据性质的一个指标,还不是最重要的指标。一天产生一百万个T数据的公司也许算不上大数据公司,而另一个一天只产生一万个T数据的公司也许反而是个大数据公司,其原因在于数据结构的复杂性。例如,A公司拥有一亿用户,但用户在A公司网站上只干一件事或一类事,由此产生的数据量虽然不小,但结构简单,重复性高,分析起来很容易,归归类,简单数据挖掘基本功足够。B公司只有一千万用户,却是个开放平台,用户在此可以干互联网能够支持的所有事情,网络行为又可分为个人,群体,组织等层次,那么这个数据的结构就够复杂,能够支持深度挖掘和复杂建模,因而就可以算作大数据。313、数据关联度高网络业一个常见现象就是随着数据量的增加,用户行为所产生的数据间的关系越来越不清晰,越来越难以捉摸,越来越相互孤立,也就是所谓的数据碎片化。这种碎片化主要来自两个方面:一是网站结构碎片化,逻辑混乱化,各种产品与服务之间相互孤立化,因而导致数据之间关系断裂,关联度很低。例如,明明是同一个用户在一个网站上使用了十种不同的产品和服务,但由于其中五种无需注册使用,其他五种又需要分别注册使用,结果这十种网络行为的数据无法整合在一起,或者需要通过种种技术手段和工具进行高成本的数据整合,以至于入不敷出。这也就减少了数据的含金量,降低了数据的可挖掘度,使得无论数据量如何大,结构如何复杂,也形成不了大数据。反之,如果一个WEB2.0时代的开放平台,架构清晰,逻辑分明,用户与用户,用户与用户行为,行为与行为之间都具有确定的关联性,那么这样的数据就具有极高的含金量,极高的分析挖掘价值,也就可以形成大数据结论•“大数据”技术不能简单的认为是大的“数据”和大的“数据库技术”。•严格意义上讲,技术本质上大数据技术和数据库技术是两个完全不同的技术体系!•为什么呢?334、大数据处理的工具与手段34第一阶段:简单数字资源的产生和丰富数字资源的产生和积累过程(数据库技术应运而生)可以理解成对应资本主义自由贸易的初级阶段第二阶段:规范化数字资源的大规模集成应用大规模结构化数字资源的管理与信息分析与提取,可以理解成跨国公司的形成过程第三阶段:网络环境下异构数字资源的增值应用网络环境下结构化和非结构化数字资源共存的情况下,如何实现增值应用,可以理解成资本运作的高级阶段。大数据产生的历史背景35•“生命的本质在于物质的组织形式,而不在于物质的自身”——人工生命之父克里斯·兰顿(ChrisLangton).•物品的生产与流通到资本的产生与流通,映射到数字资源的生产和管理到数字资源的增值与再生数据之间的泛在互联需要什么样的工具与手段?因为数据规模大,需要大容量的存储因为数据结构复杂,需要高性能的计算能力因为异构的数据之间关联度强,需要跨平台的协同处理能力方法论和工具方法论:MapReduce工具:HadoopHadoop史前2003:GFS(Google文件系统)论文发表SanjayGhemawat,HowardGobioff,Shun-TakLeung:TheGooglefilesystem.SOSP2003:29-432004:MapReduce论文发表JeffreyDean,SanjayGhemawat:MapReduce:SimplifiedDataProcessingonLargeClusters.OSDI2004:137-1502006:BigTable论文发表FayChang,JeffreyDean,SanjayGhemawat,etal:Bigtable:ADistributedStorageSystemforStructuredData.OSDI2006:205-218Hadoop诞生2004年:DougCutting和MichaelJ.Cafarella根据GoogleLab论文实施,取名Hadoop。Cloudera公司,Hadoop商用版(Apache开源版)2005秋天:Hadoop由Apache作为Lucene的子项目Nutch的一部分正式引入。2006年3月:Map/Reduce和NutchDistributedFileSystem(NDFS)分别被纳入Hadoop的项目中2006.1–2008:Web-scaleHadoop!(@Yahoo!)Hadoop诞生的背景用户对大数据存储、管理和分析需求迫切传统数据库对非结构化数据几乎无能为力利用传统数据库来对大数据进行处理时,会面临很多难以解决的问题。软、硬件平台的要求高,成本压力成本和收益不匹配的充分发掘和利用非结构化数据背后的商业价值,用户希望能以更经济的方式、更好的性能来处理数据,从而推动业务创新Hadoop不能做什么?Hadoop在处理网页数据等方面取得巨大成功,经过几年的发展,从一门边缘技术成长为一种事实上的标准Hadoop自身的弱点Hadoop是一个离线的、批量的数据处理系统,实时在线(OLTP,高效分析)仍是数据库的擅长HDFS存储的是大文件,数据移动频繁,查询响应时间难以保证有尝试将Hadoop和数据库结合起来应对企业大数据的挑战5、大数据技术在现代教育领域中的潜在应用新技术的辩证认知•创新是一个民族进步的灵魂,是一个国家兴旺发达的不竭动力。•创新是在现有技术体系上的拔高,而不是摈弃原有的技术体系。•忘记过去意味着背叛!什么是现代教育工欲善其事,必先利其器!利器已有,如何善工?现代教育的内涵与外延•内涵:利用数字化技术实现知识更新与传播的高效与便捷。•外延:受众与老师在知识接受与传播环节的数字化工具及网络虚拟化课堂。•工具的更新与高效,是为了更好的实现教育不代表现代教育时代的教学资源敬请指正谢谢!

1 / 47
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功