Hadoop与大数据:一个数据库学者的解读Hadoopvs.BigData:UnscramblingofaDatabaseResearcher周傲英周傲英提纲Hadoop的起源和历史Hadoop在数据管理中的地位传统数据库发展回顾什么是“大数据”从数据库角度看大数据研究结语Hadoop的起源和历史Hadoop在数据管理中的地位传统数据库发展回顾什么是“大数据”从数据库角度看大数据研究结语提纲Hadoop的起源和历史Hadoop在数据管理中的地位传统数据库发展回顾什么是“大数据”从数据库角度看大数据研究结语Hadoop的起源和历史Hadoop在数据管理中的地位传统数据库发展回顾什么是“大数据”从数据库角度看大数据研究结语Hadoop史前2002:开源搜索引擎Nutch2003:索引1亿个网页2003:GFS(Google文件系统)论文发表SanjayGhemawat,HowardGobioff,Shun-TakLeung:TheGooglefilesystem.SOSP2003:29-432004:MapReduce论文发表JeffreyDean,SanjayGhemawat:MapReduce:SimplifiedDataProcessingonLargeClusters.OSDI2004:137-1502002:开源搜索引擎Nutch2003:索引1亿个网页2003:GFS(Google文件系统)论文发表SanjayGhemawat,HowardGobioff,Shun-TakLeung:TheGooglefilesystem.SOSP2003:29-432004:MapReduce论文发表JeffreyDean,SanjayGhemawat:MapReduce:SimplifiedDataProcessingonLargeClusters.OSDI2004:137-150Hadoop诞生2004–2006:Nutch+DFS+MapReduceDougCuttingandMichaelJ.Cafarella2006.1–2008:Web-scaleHadoop!(@Yahoo!)2004–2006:Nutch+DFS+MapReduceDougCuttingandMichaelJ.Cafarella2006.1–2008:Web-scaleHadoop!(@Yahoo!)Hadoop生态圈(部分)2006:BigTable论文发表FayChang,JeffreyDean,SanjayGhemawat,etal:Bigtable:ADistributedStorageSystemforStructuredData.OSDI2006:205-2182006–2008:HBase开发开始到成为Hadoop子项目2008.9:HIVE成为Hadoop子项目2006:Pig@Yahoo!2006:BigTable论文发表FayChang,JeffreyDean,SanjayGhemawat,etal:Bigtable:ADistributedStorageSystemforStructuredData.OSDI2006:205-2182006–2008:HBase开发开始到成为Hadoop子项目2008.9:HIVE成为Hadoop子项目2006:Pig@Yahoo!Hadoop生态圈(部分)2006:BigTable论文发表FayChang,JeffreyDean,SanjayGhemawat,etal:Bigtable:ADistributedStorageSystemforStructuredData.OSDI2006:205-2182006–2008:HBase开发开始到成为Hadoop子项目2008.9:HIVE成为Hadoop子项目2006:Pig@Yahoo!2006:BigTable论文发表FayChang,JeffreyDean,SanjayGhemawat,etal:Bigtable:ADistributedStorageSystemforStructuredData.OSDI2006:205-2182006–2008:HBase开发开始到成为Hadoop子项目2008.9:HIVE成为Hadoop子项目2006:Pig@Yahoo!提纲Hadoop的起源和历史Hadoop在数据管理中的地位传统数据库发展回顾什么是“大数据”从数据库角度看大数据研究结语Hadoop的起源和历史Hadoop在数据管理中的地位传统数据库发展回顾什么是“大数据”从数据库角度看大数据研究结语Hadoop在数据管理中的地位Hadoop具有新颖的技术思路在处理网页数据等方面取得巨大成功Hadoop经过几年的发展,从一门边缘技术成长为一种事实上的标准。Hadoop具有新颖的技术思路在处理网页数据等方面取得巨大成功Hadoop经过几年的发展,从一门边缘技术成长为一种事实上的标准。“TheGreatMapReduceDebate”“MapReduce:AMajorStepBack”,DatabaseColumnBlog,Jan.17,2008Agiantstepbackwardintheprogrammingparadigmforlarge-scaledataintensiveapplicationsAsub-optimalimplementation,inthatitusesbruteforceinsteadofindexingNotnovelatall--itrepresentsaspecificimplementationofwellknowntechniquesdevelopednearly25yearsagoMissingmostofthefeaturesthatareroutinelyincludedincurrentDBMSIncompatiblewithallofthetoolsDBMSusershavecometodependon“MapReduce:AMajorStepBack”,DatabaseColumnBlog,Jan.17,2008Agiantstepbackwardintheprogrammingparadigmforlarge-scaledataintensiveapplicationsAsub-optimalimplementation,inthatitusesbruteforceinsteadofindexingNotnovelatall--itrepresentsaspecificimplementationofwellknowntechniquesdevelopednearly25yearsagoMissingmostofthefeaturesthatareroutinelyincludedincurrentDBMSIncompatiblewithallofthetoolsDBMSusershavecometodependon“TheGreatMapReduceDebate”“MapReduce:AMajorStepBack”,DatabaseColumnBlog,Jan.17,2008主要针对MapReduce的开源实现——HadoopAgiantstepbackwardintheprogrammingparadigmforlarge-scaledataintensiveapplicationsAsub-optimalimplementation,inthatitusesbruteforceinsteadofindexingNotnovelatall--itrepresentsaspecificimplementationofwellknowntechniquesdevelopednearly25yearsagoMissingmostofthefeaturesthatareroutinelyincludedincurrentDBMSIncompatiblewithallofthetoolsDBMSusershavecometodependon“MapReduce:AMajorStepBack”,DatabaseColumnBlog,Jan.17,2008主要针对MapReduce的开源实现——HadoopAgiantstepbackwardintheprogrammingparadigmforlarge-scaledataintensiveapplicationsAsub-optimalimplementation,inthatitusesbruteforceinsteadofindexingNotnovelatall--itrepresentsaspecificimplementationofwellknowntechniquesdevelopednearly25yearsagoMissingmostofthefeaturesthatareroutinelyincludedincurrentDBMSIncompatiblewithallofthetoolsDBMSusershavecometodependonBelover,nofighter!提纲Hadoop的起源和历史Hadoop在数据管理中的地位传统数据库发展回顾什么是“大数据”从数据库角度看大数据研究结语Hadoop的起源和历史Hadoop在数据管理中的地位传统数据库发展回顾什么是“大数据”从数据库角度看大数据研究结语什么是数据库?Data+BaseOracle/DB2/MySQL1974:SystemR1968:IMS(IBMInformationManagementSystem)层次模型1965:IDS(IntegratedDataStore)网状模型1965:ListProcessingTaskForceunderCODASYL1967:LPTFDBTG(DataBaseTaskGroup)1959:CODASYL(ConferenceonDataSystemsLanguages)Data+BaseOracle/DB2/MySQL1974:SystemR1968:IMS(IBMInformationManagementSystem)层次模型1965:IDS(IntegratedDataStore)网状模型1965:ListProcessingTaskForceunderCODASYL1967:LPTFDBTG(DataBaseTaskGroup)1959:CODASYL(ConferenceonDataSystemsLanguages)数据库的基本目的计算机从数值计算转到数据处理,OS中的文件系统发展成DBMSCOBOL,CODASYLDBTG报告(图灵奖获得者CharlesBachman)数据库系统最原始的目标是解决记账(Billing)和订票(Booking)问题商务智能的雏形事务处理(图灵奖获得者JimGray)数据库发展伊始,其目标应用简单明确计算机从数值计算转到数据处理,OS中的文件系统发展成DBMSCOBOL,CODASYLDBTG报告(图灵奖获得者CharlesBachman)数据库系统最原始的目标是解决记账(Billing)和订票(Booking)问题商务智能的雏形事务处理(图灵奖获得者JimGray)数据库发展伊始,其目标应用简单明确数据库的三大成就关系模型E.F.Codd(数据库领域第二个图灵奖获得者)事务处理JimGray(数据库领域第三个图灵奖获得者)查询优化结构化(模式和实例分离)关系数