如何获取全视角的商业智能如何获取全视角的商业智能如何获取全视角的商业智能如何获取全视角的商业智能如何获取全视角的商业智能如何获取全视角的商业智能如何获取全视角的商业智能如何获取全视角的商业智能-商业智能领域中数据集成的重要性商业智能领域中数据集成的重要性商业智能领域中数据集成的重要性商业智能领域中数据集成的重要性丁朝阳丁朝阳丁朝阳丁朝阳IBMSWG高级信息集成咨询顾问高级信息集成咨询顾问高级信息集成咨询顾问高级信息集成咨询顾问“数据看来不正确”–业务用户“我没有我需要的数据”–业务分析员“我们没有利用我们的信息”–架构师纠结纠结纠结纠结::::如何理解我们拥有的信息资产如何理解我们拥有的信息资产如何理解我们拥有的信息资产如何理解我们拥有的信息资产“我如何能知道我拥有高质量的数据”–数据拥有者“我需要跨系统的理解我的数据”–数据分析者“我不了解业务人员要什么?”–开发者83%数据集成项目需要重复实施甚至失败消费者缺乏信心无效和重复性工作增加运作成本如果信息缺乏管理如果信息缺乏管理如果信息缺乏管理如果信息缺乏管理,,,,会带给我们什么会带给我们什么会带给我们什么会带给我们什么????错误或不完整数据导致BI和CRM系统不能正常发挥优势甚至失效低劣数据质量严重地降低公司年收入无法预测商机而造成损失,比事后弥补将多达10~100倍25%时间浪费在辨别数据是否“坏数据”痛失商机有内涵有内涵有内涵有内涵((((InContext))))Real-timedeliveryofrelevantinformationwhenandwhereit’sneeded富有洞察富有洞察富有洞察富有洞察((((Insightful))))Derivemeaningfrominformationchallenges可信赖的信息是什么可信赖的信息是什么可信赖的信息是什么可信赖的信息是什么????needed完整完整完整完整((((Complete))))Relatedinformationreconciledintoasingleandholisticview准确准确准确准确((((Accurate))))Complexanddisparatedatatransformed,cleansedanddelivered你需要一个对信息灵活管理你需要一个对信息灵活管理你需要一个对信息灵活管理你需要一个对信息灵活管理,,,,整合整合整合整合,,,,分析的平台分析的平台分析的平台分析的平台分析分析分析分析整合整合整合整合交易系统管理管理管理管理业务分析应用CubesBigDataMasterData外部信息源CubesStreamsContentDataStreamingInformationDataWarehouses管控管控管控管控QualitySecurity&PrivacyLifecycle对症下药对症下药对症下药对症下药::::8888个有用的良方个有用的良方个有用的良方个有用的良方((((最佳实践最佳实践最佳实践最佳实践)没有解决所有问题的万能药没有解决所有问题的万能药没有解决所有问题的万能药没有解决所有问题的万能药需要从多方面对症下药需要从多方面对症下药需要从多方面对症下药需要从多方面对症下药找出你最最痛心的问题找出你最最痛心的问题找出你最最痛心的问题找出你最最痛心的问题首先搞定它首先搞定它首先搞定它首先搞定它!!!!策略策略策略策略####1111––––深刻了解源系统深刻了解源系统深刻了解源系统深刻了解源系统业务业务业务业务数据数据数据数据2.确保数据能够符合已知业务业务业务业务分析分析分析分析数据数据数据数据分析分析分析分析1.发现数据的实际特征2.确保数据能够符合已知的业务规则3.报告当前的数据现状最佳实践最佳实践最佳实践最佳实践::::自动的数据特征发现自动的数据特征发现自动的数据特征发现自动的数据特征发现勿需编程忠告:你没有时间和金钱以及足够的精力去手工检测数据表和主键分析表和主键分析表和主键分析表和主键分析字段分字段分字段分字段分析析析析Source1Source2ForeignKey&DuplicateAnalysis外键和重复数据分析外键和重复数据分析外键和重复数据分析外键和重复数据分析策略策略策略策略####2222––––内部数据质量内部数据质量内部数据质量内部数据质量•是同样的公司/个人吗?•是同样的地址吗?•一样的产品吗?•相同的用法吗?NAMEADDRESSIBM187N.Pk.Str.SalemNH01456I.B.M.Inc.187N.Pk.St.SaremNH01456InternationalBus.M.187No.ParkStSalemNH04156Int.Bus.Machines187ParkAveSalemNH01456Inter-NationConsult.15MainSt.AndoverMA02341Int.Bus.ConsultantsPOBox9BostonMA02210I.B.ManufacturingParkBlvd.BostonMA04106PARTDESCRIPTIONWINGASSYDRILL4HOLEUSE5J868AHEXBOLT¼INCHWINGASSEMBLY,USE5J868-AHEXBOLT.25”–DRILLFOURHOLESUSE45J868ABOLTS(HEX.25)–DRILLHOLESFOREAONWINGASSEMRUDER,TAP6HOLES,SECUREW/KL2301RIVETS(10CM)SpellingErrorsLackofStandardsinSynonyms,Acronyms,AbbreviationsErrorCodes?AssemblyPartSizeInstructionBlk1|FirstSt|05-00Blk1|FirstSt|05-001|FirstSt|#05-00Blk1|FirstSt|#05-00Building|Street|Unit最佳实践最佳实践最佳实践最佳实践::::数据清理数据清理数据清理数据清理数据的再造数据的再造数据的再造数据的再造Blk1,1St,05-0005-00FristSt,Block11FirstStr,#05-00Block1,FirstStr,#05-001,St,#05-00Original1|St|#05-00标准化标准化标准化标准化Blk1|FirstSt|05-00Blk1|FirstSt|05-001|FirstSt|#05-00Blk1|FirstSt|#05-001|St|#05-00Building|Street|Unit匹配匹配匹配匹配生成生成生成生成#05-00,Blk1,FirstSt#05-00,1,StFinalResult策略策略策略策略#3#3#3#3––––公共元数据共享公共元数据共享公共元数据共享公共元数据共享CustomerCustomerNumberNameAddressCommentsFromDataModelCustomerTblCustomerIDNameAddressAddress1CommentsFromETLToolTheIdentifierofcustomersthataretrackedfororderingpurposes.CorporatecustomeridentifiersareassignedbytheSalesDataControlleraccordingtothecorporatedatadescriptionandnamingpolicyforreferenceidentifiers.Uniqueidentifierofcustomersthataretrackedfororderingpurposes.CustomerDetailsCustomerNumberNameAddressRemarksFromBIToolCustomerIDNameAddress1Address2DescrFromDatabasefororderingpurposes.Valuesstartwith02fornon-Corporatecustomersand01forCorporatecustomers.NULLCustomer’sidentifiernumbers.Valuesstartwith01forCorporatecustomers,02fornon-Corporatecustomers,03foroverseas-basedCustomers.哪个元数据信息是正确的哪个元数据信息是正确的哪个元数据信息是正确的哪个元数据信息是正确的????哪个是当前正在使用的哪个是当前正在使用的哪个是当前正在使用的哪个是当前正在使用的????哪个是即将用到的哪个是即将用到的哪个是即将用到的哪个是即将用到的?最佳实践最佳实践最佳实践最佳实践::::建立一个公共元数据库建立一个公共元数据库建立一个公共元数据库建立一个公共元数据库整合的公共元数据库ModelingtoolBItoolBIRepositoryCOBOLdefinitionfilesOthersources’definitionfilesETLTool+Processes从不同的应用和源系从不同的应用和源系从不同的应用和源系从不同的应用和源系统中整合元数据统中整合元数据统中整合元数据统中整合元数据Category:CostsTerm:TaxExpenseFullName:TaxtobepaidonGrossIncome“Theexpenseduetotaxes…..”(JohnWalshisresponsibleforupdates.90%reliablesource)Status:CURRENTDatabase=DB2Schema=NAACCTTable=DLYTRANSColumn=TAXVLdatatype=Decimal(14,2)Derivation:SUM(TRNTXAMT)最佳实践最佳实践最佳实践最佳实践:建立统一的业务术语建立统一的业务术语建立统一的业务术语建立统一的业务术语共享元数据Status:CURRENT在业务人员和技术人员之间建议一套统一的术语表在业务人员和技术人员之间建议一套统一的术语表在业务人员和技术人员之间建议一套统一的术语表在业务人员和技术人员之间建议一套统一的术语表!!!!InfoSphereDataStageInfoSphereBusinessGlossary建立对数据血统的追踪建立对数据血统的追踪建立对数据血统的追踪建立对数据血统的追踪在在在在BIBIBIBI应用中访问业务元数据应用中访问业务元数据应用中访问业务元数据应用中访问业务元数据IBMConfidential策略策略策略策略#4#4#4#4––––与任何地方的任何系统相连与任何地方的任何系统相连与任何地方的任何系统相连与任何地方的任何系统相连DB2,Informix,Netezza,ODBC,Oracle,RedBrick,SAS,Sybase,Teradata,etcWebSphereMQ,SeeBeyond,JMS,XML,EJB,WebServices,EXML,XMLS,Teradata,etcAdabas,Allbase/SQL,Datacom/DB,DB2/400,DB2/OS390,Essbase,FOCUS,IDMS/SQL,IMS,NonStopSQL,RDB,VSAM,etcEXML,XMLS,EDI,SWIFT,etcOracleApplications,PeopleSoft,SAPR/3,SAPBW,Siebel最佳实践最佳实践最佳实践最佳实践::::利用有丰富连接的工具利用有丰富连接的工具利用有丰富连接的工具利用有丰富连接的工具建议建议建议建议::::用预建的连接器用预建的连接器用预建的连接器用预建的连接器,,,,而不是用手工而不是用手工而不是用手工而不是用手工你希