#IWT15日程•数据时代的来临•大数据技术VS传统数据仓库•大数据计算架构•案例分享#IWT15数据时代的来临#IWT15来源:YouTube,Amazon,August互联网正在转移到所有设备中#IWT15来源:Siliconangle.com进入家用设备#IWT15Workplaces…Source:AP进入厂房车间…#IWT15Source:Libelium进入城市管理…#IWT1505101520253035201320142015E2016E2017E2018E2019EBillions联网设备数预测物联网设备借入式汽车可穿戴设备智能电视平板电脑智能手机个人电脑当前Source:BIIntelligenceEstimates物联网(IoT)将成为有史以来最大的设备市场#IWT1530,00020,000WeAreHere10,000-40,000200520082011201520172020预估到2020年将生成的数据量单位Exabyte1Exabyte=1兆GigabytesSource:IDCTheDigitalUniverse,BIIntelligenceEstimates……而透过物联网连带全球将生成的数据量#IWT15InternetofCustomers与Internetofthings#IWT15大数据技术vs传统数据仓库#IWT15企业级大数据平台特征基于开源平台✔可管理性开放式架构安全性✔✔✔MapReduceSpark/Flink搜索引擎数据挖掘流计算SQLonHadoop多任务管理任意类型数据数据资产管理企业级系统管理企业级数据中心HDFS分布式存储NoSQL数据库#IWT15未来数据:新的数据类型Videos,photos,voiceUnstructureddocs,emailsClickstreamServerlogsSocial/WebDataSensor.MachineDataGeolocation85%Source:IDC??应用数据平台数据源BusinessAnalyticsCustomApplicationsPackagedApplications交易系统(CRM,ERP,等等)SILORDBMSSILOSILOEDWMPP传统数据仓库#IWT15YARNenableHadooptheModernDataArchitectureYARN:DataOperatingSystemWithYARN•Landalldatainasinglecluster•Multi-tenantcentralinteractionpointforalldataaccessandsimultaneousprocessing•Eachworkload(batch,interactiveandreal-time)canbeprocessedonthemostefficientplatform•EnableecosystemtomoveapplicationsnativelyintoHadoopandleverageexistingskillslikeSQL•Commonplatformtoextendconsistentsecurity,governanceandoperations1°°°°°°°°°°°°°°°°°°°°NHDFS(HadoopDistributedFileSystem)OLTP,ERP,CRMSystemsDocuments,EmailsWebLogs,ClickStreamsSocialNetworksMachineGeneratedSensorDataGeolocationDataRDBMSScriptPigSearchSolrSQLHive/Tez,HCatalogNoSQLHBaseAccumuloStreamStormOthersIn-MemoryAnalytics,ISVenginesBatchMapReduceEDWMPPCustomApplicationsAnalyticsVisualizationCustomApplicationsCustomApplicationsAnalytics来源:Hortonworks#IWT15数据源OLTP,ERP,CRMSystemsDocuments,EmailsWebLogs,ClickStreamsSocialNetworksMachineGeneratedSensorDataGeolocationData传统数据仓库在未来的一段时间内仍将继续存在并发展,尤其是针对交易数据的分析应用。Hadoop定位与数据仓库并存(并非上下级关系)面向多种类型的数据与多种类型的数据分析应用。(4V)新技术的快速发展,将可能在未来使得传统数据仓库与Hadoop之间的边界越来越模糊,直至统一。•数据虚拟化技术•内存数据库•其他NewSQL数据库应用数据平台BusinessAnalyticsCustomApplicationsPackagedApplicationsSILORDBMSSILOSILOEDWMPP数据仓库与大数据共存与融合#IWT15大数据技术计算框架#IWT15Hadoop已经成为存储所有数据的资源池物联网应用需要将Hadoop变为一个高性能的分析平台需要Hadoop不光能存储数据,更要能够处理计算数据#IWT15价值大数据应用开发三部曲数据加载数据处理数据应用•数据加载到HDFS/HBASE?•数据加载的方式?•数据模型?•数据加载过程的调度和管理?•性能与成本?•多少不同类型的数据计算与处理?•如何调度和管理?•如何与应用接口?•性能与成本?•多少不同类型的应用?•应用之间的关系?•数据与应用的安全性?•如何处理大规模的最终用户•需求变更客户画像交叉销售风险控制实时推荐StreamingDataTextDataApplicationsDataTimeSeriesGeoSpatialRelationalSocialNetworkVideo&Image#IWT15Hadoop计算环境平台管理APACHEHADOOP及其相关系统环境SecurityYARNPigCascadingSparkBatchSparkStreamingStorm*StreamingHBaseSolrNoSQL&SearchJujuProvisioning&coordinationSavannah*MahoutMLLibML,GraphGraphXMapReducev1&v2计算引擎数据管理与系统运维Workflow&DataGovernanceTez*Accumulo*HiveImpalaSparkSQLDrill*SQLonHadoopSentry*OozieZooKeeperSqoopKnox*WhirrFalcon*FlumeDataIntegration&AccessHttpFSHue*Certification/supportplannedfor2014Vortex*#IWT15SQL分析挖掘预测图形化数据分析智能搜索时间、用户、地理位置、事件等标签辅助技术:Kafka,HBase,Cassandra,Accumulo基于大数据技术的数据分析处理Hadoop核心层#IWT15高可扩展的物联网数据分析存储平台方案:•流式数据处理24*7透过Kafka•日志文件•事件触发数据流•数据加载入Hadoop/HDFS中•数据被“处理”(解析、规范..),存入中间层(Hbase)InformaticaBigDataEdition•数据由中间层被广播到不同的处理引擎•SQL分析(如Vortex)•挖掘预测(如Dataflow)•智能搜索(如ElasticSearch)#IWT15数据物联网云端数据价值客户满意度提高竞争力降低风险和成本灵活数据准备SQL数据分析智能查询数据挖掘与预测ITSophisticateCIOTheWizDataScientistMaestroBusinessAnalystSpeedDemonImpatientBusinessUserHadoop计算框架逻辑应用企业交易社交媒体创新#IWT15Actian大数据架构AdvancedTextSearch#IWT15Drill1.xHive0.13withTezImpala2.xPresto0.56Shark/SparkSQLActianVortexLatencyLowMediumLowLowMediumLowFilesYes(allHivefileformats)Yes(allHivefileformats)Yes(Parquet,Sequence,…)Yes(RC,Sequence,Text)Yes(allHivefileformats)Yes(allHivefileformats)HBase/M7YesYesVariousissuesNoYesNoSchemaHiveorschema-lessHiveHiveHiveHiveProprietaryorHiveSQLsupportANSISQLHiveQLHiveQL(subset)ANSISQLHiveQLANSISQL+advancedanalyticsClientsupportODBC/JDBCODBC/JDBCODBC/JDBCODBC/JDBCODBC/JDBCODBC/JDBC,ADO.NET,…LargejoinsYesYesNoNoNoYesNesteddataYesLimitedNoLimitedLimitedLimitedHiveUDFsYesYesLimitedNoYesNoTransactionsNoNoNoNoNoYesOptimizerLimitedLimitedLimitedLimitedLimitedYesConcurrencyLimitedLimitedLimitedLimitedLimitedYesSQL-on-Hadoop方案比较:#IWT15FullyACIDcompliant–bringstransactionalintegritytoHadooptopreventinaccurateresultsHadoopdistributionagnostic-avoidsvendorlock-inandprovidescustomerflexibilityVortex-SQLAnalyticsHighestPerformingandFullyIndustrializedSQLinHadoopFullANSISQL92support–enablesuseofALLstandardBItoolsandappsHighlyPerformant–upto30xfasterthanourclosestcompetitor,ImpalaNativeDBMSSecurity-authentication,userandrole-basedsecurity,dataprotection,andencryptionMature,provenplannerandfastestoptimizerensurescustomerscanmaximizenumberofnodes,CPU,memoryandcacheNativein-HadoopYARN–manageHadoopresourcesautomaticallytopreventinefficienciesCollaborativearchitecture-querynativeHadoopfileformats(likeParquet)withoutingestionOpenAPIs-allowreadaccesstoourblockformatUpdateCapability–providesabilitytoupdatewithoutimpactingreadperformanceHighestConcurrency–allowsyourcustomer