大数据成功关键--高效地实现大数据的移动刘春霞liuchunx@cn.ibm.comIBM软件部资深信息整合顾问3InfoSphere:维护信息供应链信息治理治理质量安全和隐私生命周期标准事务和协作应用业务分析应用外部信息源分析整合管理多维数据集流大数据主数据内容数据流信息数据仓库内容分析可靠信息移动的速度•敏捷用户想要快速地访问数据,几分钟内和小时级内(如自主的数据整合)对分析的需求两者都需要!•权威性在一个流程框架内内的可靠信息避免信息冗余需要敏捷和可靠的数据访问任何数据到大数据大数据到任何数据大数据中心批量数据整合(用于大数据)任何数据ETL/ELTETL/ELTELT加载获益利用探索性分析方法最佳性能/最小批处理窗口和实时流数据提取获益从多种来源提取数据:机器数据、社交数据、多结构成熟的整合工具,更高的生产力数据中心获益以大数据形式产生和分析的数据–从不清除用于完成大数据运行时内的工作的图形工具将现有的企业数据引入一个探索性分析平台将社交数据和机器数据引入一个企业数据仓库系统自动化一个低成本数据暂存区域的工具对数据的推送处理(不是其他方法)BigInsightsHadoopInfoSphereBigInsights的批量数据整合集市数据仓库仓库集市DataStage数据库FilesFiles文件并行写入DataStage子集并行读取细节和摘要●与大数据来源交换信息●将企业信息转移到大数据来源,使它可包含在分析中●获取Hadoop的分析结果,并将它们应用于其他IT解决方案●并行性和规模●对HDFS的支持通过信息服务器并行引擎提供了大规模可伸缩性●作业血统与大洞察来源/目标步骤●使用信息服务器中的扩展性功能大数据文件组件使用BDFS作为来源•BDFS引入了新来源选项NamenodeClusterHost和Port•BDFS可并行读取文件模式•BDFS可使用Readers选项并行读取单个文件BDFS数据流程图名称节点文件请求BDFS数据节点BDFS数据数据PXPX•BDFS使用多个读取器流程并行化HDFS读取InfoSphereDataStage使用BDFS作为目标•BDFS引入了新的目标选项NamenodeClusterHost和Port•BDFS通常写入单个文件•BDFS能够并行写入多个文件BDFS示例•客户情绪倾向性分析作业可以通过分析电子邮件在InfoSphereBigInsights中执行。•客户情绪倾向性摘要将被更新到仓库中。•InfoSphereDataStage作业将挑选信息并更新数据仓库(使用SCD阶段的客户维度)•可执行基于分类的电子邮件的风险识别。可以将电子邮件分类为高风险和低风险。分析作业输出风险分类12BDFS:可扩展性和性能InformationServer–BigdataintegrationDataStageNodes(2)Server:IntelWestmere-EX(4sockets)CPU:Intel(R)Xeon(R)CPUE7-4870@2.40GHzStorage:1TBBigInsightsNodesServers:x3630M3NumberofSystems:26(5usedforthetest)CPU:Intel(R)Xeon(R)CPUX5675@3.07GHzMemory:48GBStorage:4TB13InformationServer–Bigdataintegration-读写都具有近线性的可扩展能力-最高可达5.2TB/小时-DataStage节点翻倍,处理效率翻倍直至磁盘资源全部占用BDFS:可扩展性和性能平衡的优化–从DataStage生成HadoopMapReduce作业使用DataStageDesign流程生成ETL作业使用BalancedOptimization将其编译为在BigInsights上运行。将支持•完全下推–Hadoop内的所有处理(如果可能)•混合下推–内部的一些处理和外部剩余处理,具体取决于来源和目标15•通过InformationServer和Hadoop数据文件系统(HDFS)的整合,强化了IBM在大数据的领导地位•通过JobSequencer对BigInsights和其他MapReduce作业进行编程调用,结合DataStage和Hadoop实现端到端工作流。•利用设计器用户界面和标准阶段结构来生成MapReduce作业,为用户提供处理BigData来源的能力,可以使用Hadoop更高效地处理这些来源。•实现InfoSphereDataStage和InfoSphereStreams之间的直接数据流整合,结合两个平台的强大功能和应用范围•通过所有用例提供丰富元数据支持。自动化的大数据作业生成从DataStage调用Oozie工作流•Oozie是Hadoop中的一个工作流计划引擎•Oozie提供了一个JavaAPI来调用Oozie工作流–调用者是Oozie客户端–DS可充当Oozie客户端•使用OozieAPI,我们构建了一个Oozie调用者模块–该模块是同步的–成功执行工作流时返回1–发生错误时返回0•作业调度程序有一个执行命令阶段–Oozie调用者模块从执行命令阶段执行–使用返回代码在发生错误时放弃作业序列序列InfoSphereStreams-InformationServer连接器1)用户希望向现有DataStage作业添加Streams分析2)用户希望向现有Streams应用添加DataStage处理3)从头创建一个DataStage作业和Streams应用。■这些整合可能具有以下数据流:•DataStage-Streams•DataStage-Streams-DataStage•Streams-DataStage联邦整合(用于大数据)18分析和报告工具Web应用建模–查询–交付搜索–分析–可视化VivisimoVelocityInfoSphereFederationHive(odbc)InfoSphereDatabaseFederation可能是IBMVivisimo等大数据联邦解决方案的另一个企业数据来源•新用户以灵活、简单的方式检索数据的能力–“只需一次单击”•只需几次单击,便可在文件/数据库与BigInsights之间移动数据•满足需求,以便:–生成用于个人开发工作的沙盒•用户界面显示了一些策略选项,无需任何编码即可将它们自动化。•基于所选的策略和源系统功能来利用InfoSphereDataStage和InfoSphereDataReplication。•整合的设计和操作元数据,用于内置治理用于大数据的InfoSphereDataClick:敏捷和可控的整合DB2/ORACLEInfoSphereDataClickBigInsights分析应用数据仓库转换/复制分析存储分析DS/CDC实时整合(用于大数据)20InfoSphere数据复制应用程序事务日志高速双向数据对实时信息的低延迟捕获分析极大规模的移动信息每秒TB级数据,每天PB级数据。分析各种信息分析原生格式的各种信息–流音频、视频、空间等信息非扩散性的记录捕获从事务数据库日志中读取数据,将数据分发给任何目标–包括BigDataStreams、ETLforWarehouses或BigInsightsRDBMS消息队列ETLHadoop系统流系统仓库21InfoSphereDataClick实时数据高性能传递JournalLogRedo/ArchiveLogsSourceEngineAndMetadataTargetEngineAndMetadataTCP/IPNetezzaTargetsSourcesOracleDB2提升数据仓库数据及时性,动态的数据仓库结合ETL/ELT优化批处理•从源到目标更少的时间和处理•即使禁止抽取,数据也可以获取为转换清洗ETL提供实时的数据降低数据集市的成本221stClick2ndClick•预选数据源和目标•Tab页上显示的核对标志表明所需的配置完成•复查配置Execution!!!InfoSphereDataClick–点击两下完成数据整合23顶级性能加速时间价值:InformationServer高速的NetezzaConnectorInfoSphereInformationServer(Intel®Xeon®E7-4870)•OS:RedHatEL5.3x86-64•ProcessorType:Intel®Xeon®E7-4870,40cores/80threads•ProcessorSpeed:2.4GHZ•MemorySize:1TBRAM•DiskSpace:2TBtotaldiskspace•NetworkCard:Intel®10GigabitCX4IBMNetezza1000-12Appliance(TwinFin-12)•12S-Blades•96CPUcores•Processor:Intel®Xeon®E55202.27GHz•StorageSpace:128TB**@4xcompressionratio•NetworkCard:Intel®10GigabitCX4•63writeroptionenabled10GEthernetNetezzaAllperformancedatawasobtainedinthespecificoperatingenvironmentandundertheconditionsshownandispresentedasanillustrationonly.Performanceobtainedinotheroperatingenvironmentsmayvary,andcustomersshouldconducttheirowntesting.卸载速度=2.58TB/hour加载速度=2.38TB/hour24大数据清洗(验证、充实和匹配)对传统数据和大数据的统一和整合访问验证、标准化、充实和匹配数据值得信任的数据存储实现了整体视图业务洞察事务数据传统应用源社会网络视频和照片整合数据质量仓库风险仪表板流计算InformationServer提供市场上最全面的数据集成和数据管理解决方案独特优势Business/ITcollaborationondataqualityobjectives•Automatedbusiness/ITcollaboration•EstablishframeworkformetadatalineageUnderstandyourdata•IncludesautomateddatadiscoveryCleanseandvalidatedata•HighestperformancetoolsinthemarketMonitordataquality•Onlysolutionofferingrealtime/in-flightdatavalidationandmonitoringFlexibility•SOAenabled•Breadthofsupportedsourcesandtargets优点LowestTotalCostofOwnership(TCO)•Enablessharedservicesandcentralizedrulemanagement•ProvidesasharedmetadatarepositoryBestinclassdataqualityanalysistools•Understandthecontent,quality,andstructureofdatasources•Automatedataprofilingandanalysis•MonitordataqualityovertimeUniqueparallelprocessingengine•Deliversunmatchedabilitytoscaleforhugedatavolumes