超越Hadoop*的大数据:未来的研究方向ACAS002JasonDai工程总监兼首席工程师,软件与解决方案事业部芮勱恪博士科研计划总监,高校科研协作办公室2议程•大数据和Hadoop*生态系统•英特尔与大学合作大数据研究•高效的mapreduce内存实施•高效的图形分析算法•英特尔努力推动生产研究本课程演示文稿(PDF)发布在技术课程目录网站:intel.com/go/idfsessionsBJ该网址同时打印于会议指南中专题讲座日程页的上方3议程•大数据和Hadoop*生态系统•英特尔大学合作部和大数据研究•高效的mapreduce内存实施•高效的图形分析算法•英特尔努力推动生产研究4什么是大数据?大数据的特点是数量大、速度快、现有系统与算法难以处理。•数量大–TB级转向PB级–需要智能(而非强力)的大规模并行处理•速度快–无所不在的传感器带来了新的海量数据–摄取困难•处理难–需要复杂分析(例如,查找类型、趋势和关系)–需要整合多种数据类型(无模式,无管理,不一致的句法和语义)SamuelMaddenISTC主任与教授EECS,MIT数据应当是资源,而非负载现有数据处理工具不够完善5例如:Web分析大型网络企业:成千上万的服务器,不计其数的用户,和每天TB级的“键击资料”不仅仅是简单的报告:例如:实时分析用户的下一步操作,或应该为他们提供什么广告,或他们可以归于哪一用户类型现有分析系统要么:无法扩展至所需规模,要么无法提供所需完善度SamuelMaddenISTC主任与教授EECS,MIT6例如:传感器分析智能手机提供商收费机构市政部门保险公司医生企业采集大规模视频流,定位,加速,以及来自手机和其它设备的数据这些数据需要存储、处理并挖掘,例如,评测交通量、驾驶风险或医疗诊断。SamuelMaddenISTC主任与教授EECS,MIT7数据交换时代传统业务解决方案结合新分析模式实现实时价值机遇新分析模式经济高效的垂直解决方案计算平台技术结构MICEPEXEXALYTICS传统业务解决方案业务流程创新内存数据库—集成式分析—系统与设备医疗能源-科学制造FSI电子商务大数据大数据生态系统中的Hadoop*8议程•大数据和Hadoop*生态系统•英特尔与大学合作大数据研究•高效的mapreduce内存实施•高效的图形分析算法•英特尔努力推动生产研究9数据传输计算与存储平台数据管理与处理分析数据使用可视化最终用户工具应用服务英特尔大数据行动概述分布式机器学习(大学合作者)物联网/M2M(英特尔研究院和大学合作者)英特尔软件英特尔架构英特尔研究院英特尔ITHiTune*和其它面向Hadoop的工具业务智能和Hadoop*压缩和解压IPs微服务器Hadoop发布与服务其它信托经纪人(McAfee*)基于地点的服务(Telmap)端到端数据安全联合设备架构视频分析分布式视频分析分布式架构(Guavus)医疗,电信,……大型对象存储面向大数据与分析的企业数据解决方案计划大数据市场确定规模和细分市场(联合Bain)Hadoop性能和架构10议程•大数据和Hadoop*生态系统•英特尔与大学合作大数据研究•高效的mapreduce内存实施•高效的图形分析算法•英特尔努力推动生产研究11算法,机器,人(AMPLab)适应型/主动型机器学习与分析云计算众包/人力计算大规模和多样化数据以BSD开源形式发布的所有软件12Berkeley数据分析系统Mesos*:资源管理平台SCADS:不依赖规模的存储系统PIQL,Spark:处理框架更高查询语言/处理框架资源管理存储MesosAMPLab第三方HDFSSCADSHadoop*Hive*Pig*…MPIPIQLSharkSpark……13数据中心编程:Spark•面向再利用工作数据集的应用的内存集群计算框架–迭代算法:机器学习,图形处理,优化–交互式数据采掘:排序速度超过基于磁盘的工具•主要理念:RDD“可恢复、分布式数据集”,发生故障后可自动重新构建–存储大型工作数据集–基于“数据沿袭”的容错机制14Spark:动因复杂任务、交互式查询和在线处理都需要一项技术是Hadoop*MR所不具备的:•高效的数据共享第1阶段第2阶段第3阶段交互式任务查询1查询2查询3交互式采掘任务1任务2…流处理15Hadoop*中的传送与共享Iter.1Iter.2...输入HDFS读取HDFS存写HDFS读取HDFS存写输入查询1查询2查询3结果1结果2结果3...HDFS读取16Iter.1Iter.2...输入Spark:内存数据共享分布式内存输入查询1查询2查询3...一次性处理17引入Shark•Spark+Hive*(NoSQL中的SQL)•利用Spark的内存RDD缓存和灵活的语言功能:结果再利用,和低延迟•可扩展,可容错,速度快•查询功能兼容Hive18性能指标评测:查询1SELECT*FROMgrepWHEREfieldLIKE‘%XYZ%’;30GB输入表19性能指标评测:查询25GB输入表SELECTpagerank,pageURLFROMrankingsWHEREpagerank10;*20议程•大数据和Hadoop*生态系统•英特尔与大学合作大数据研究•高效的mapreduce内存实施•高效的图形分析算法•英特尔努力推动生产研究21CPU1CPU2CPU3CPU4数据并行(MapReduce)12.942.321.325.824.184.318.484.417.567.514.934.3解决大量独立的子问题22面向数据并行ML的MapReduce•大型数据并行任务的理想选择!数据并行图形并行交叉验证特性提取MapReduce计算充分的统计还可以继续完善机器学习吗?23数据机器学习流程图片docs视频排名提取特性面孔重要话语边信息图形信息相似面孔共享话语家庭影片结构化机器学习算法置信传播LDA协同过滤数据中的价值面部标签doc主题推荐视频24数据并行化机器学习提取特性图形信息结构化机器学习算法数据中的价值图形输入多数为并行数据结构化图形计算并行图形25解决并行图形ML数据并行图形并行交叉验证特性提取MapReduce计算充分的统计图形模式GibbsSampling置信传播VariationalOpt.半监督学习标签传播CoEM数据采掘网页排名三角形计数协同过滤张量分解MapReduce?并行图形抽象2602468101214160246810121416SpeedupNumberofCPUs较好最佳GraphLabCoEM示例:终身学习计划(CoEM)GraphLab16个内核30分钟速度提高15倍!CPU占用减少6倍!Hadoop*95个内核7.5小时分布式GraphLab32EC2机器80秒仅为Hadoop时间的0.3%27示例:网页排名4千万次网页,14亿个链接GraphLabTwisterHadoop5.5小时1小时8分钟**28议程•大数据和Hadoop*生态系统•英特尔与大学合作大数据研究•高效的mapreduce内存实施•高效的图形分析算法•英特尔努力推动生产研究29英特尔对Hadoop*的贡献•英特尔®DistributionforApacheHadoop*–性能,安全和管理–下载地址:•英特尔面向Hadoop的开源计划–HiBench:Hadoop综合基准指标套件–ProjectPanthera:有效支持基于Hadoop的标准SQL特性–ProjectRhino:为ApacheHadoop生态系统增强数据保护–GraphBuilder:基于Hadoop的可扩展图形构建工具•使用案例1:专门和交互式查询–交互式查询(探索性专门查询,商业智能图表和采掘)–同类项目:Google*Dremel,Facebook*Peregrine,Cloudera*Impala,Apache*Drill,等(数秒延迟)–使用Shark/Spark为交互式查询实现次秒级的延迟•使用案例2:内存实时分析–迭代数据采掘,在线分析(例如:将图表载入内存以支持在线分析,高速缓存中间结果以支持迭代机器学习)–同类项目:GooglePowerDrill–使用Shark/Spark可靠地将数据载入分布式内存以支持在线分析31使用Spark/Shark进行内存实时数据分析•使用案例3:流处理–流分析,CEP(例如:入侵检测,实时统计,等)–同类项目:Twitter*Storm,Apache*S4,Facebook*Puma–使用Spark简化流处理更佳的可靠性面向离线、在线和流分析的统一框架•使用案例4:并行图形分析与机器学习–使用案例:图形算法,机器学习(例如:社交网络分析,推荐引擎)–同类项目:Google*Pregel,CMUGraphLab*–使用Bagel(PregelonSpark)支持Spark环境下的并行图形分析和机器学习32总结•Hadoop*中部署的MapReduce十分有用,不过:–内存实施显示出重要优势–图形算法可能更适合现有问题•英特尔继续和大学研究人员合作•英特尔致力于在生产环境中落实研究成果33行动号召•在您的大数据研究中引入英特尔研究成果!•和我们一起利用Spark/Shark研究下一代内存实时分析34LegalDisclaimerINFORMATIONINTHISDOCUMENTISPROVIDEDINCONNECTIONWITHINTELPRODUCTS.NOLICENSE,EXPRESSORIMPLIED,BYESTOPPELOROTHERWISE,TOANYINTELLECTUALPROPERTYRIGHTSISGRANTEDBYTHISDOCUMENT.EXCEPTASPROVIDEDININTEL'STERMSANDCONDITIONSOFSALEFORSUCHPRODUCTS,INTELASSUMESNOLIABILITYWHATSOEVERANDINTELDISCLAIMSANYEXPRESSORIMPLIEDWARRANTY,RELATINGTOSALEAND/ORUSEOFINTELPRODUCTSINCLUDINGLIABILITYORWARRANTIESRELATINGTOFITNESSFORAPARTICULARPURPOSE,MERCHANTABILITY,ORINFRINGEMENTOFANYPATENT,COPYRIGHTOROTHERINTELLECTUALPROPERTYRIGHT.•AMissionCriticalApplicationisanyapplicationinwhichfailureoftheIntelProductcouldresult,directlyorindirectly,inpersonalinjuryordeath.SHOULDYOUPURCHASEORUSEINTEL'SPRODUCTSFORANYSUCHMISSIONCRITICALAPPLICATION,YOUSHALLINDEMNIFYANDHOLDINTELANDITSSUBSIDIARIES,SUBCONTRACTORSANDAFFILIATES,ANDTHEDIRECTORS,OFFICERS,ANDEMPLOYEESOFEACH,HARMLESSAGAINSTALLCLAIMSCOSTS,DAMAGES,ANDEXPENSESANDREASONABLEATTORNEYS'FEESARISINGOUTOF