适用于数据仓库的主数据管理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

EXECUTIVEBRIEF适用于数据仓库的MDM和InformaticaDataQuality通过可靠的参考数据,实现及时、正确的决策和准确的报告本文档含有InformaticaCorporation的保密、专有信息和商业秘密信息(“机密信息”),事先未经Informatica的书面同意,不得进行拷贝、散发、复印或以任何其它方式复制。尽管我们尽最大努力确保本文档中信息的准确性和完整性,但仍可能存在一些印刷错误或技术误差。如因使用本文档所含信息而造成任何损失,Informatica概不负责。本文档中包含的信息随时可能更改,恕不另行通知。Informatica自行决定将这些材料中讨论的产品属性纳入其任何软件产品的发布或升级中,并自行决定任何此类发布或升级的时间安排。受下列一项或多项美国专利保护:6,032,158;5,794,246;6,014,670;6,339,775;6,044,374;6,208,990;6,850,947;6,895,471;或受下列正在申请的美国专利保护:09/644,280;10/966,046;10/727,700。此版本发布于2010年9月1适用于数据仓库的MDM和InformaticaDataQuality引言.....................................................2..............3..............4..........................5MDM....................................6..........................7.....................................................82虽然许多公司都曾投资兴建成熟完善的商务智能(BI)系统,以优化业务流程或确保遵守管制报告要求,但是这些公司却往往仍无法达到预期的效果。为什么呢?这是因为这些系统没有包含有关客户、产品、渠道合作伙伴、供应商和员工的关键业务可靠数据—亦称之为主数据或参考数据。因此,业务负责人无法作出较好的决策。为满足法规报告要求,合规主管殚精竭力。负责为其经理准备报告的业务分析师在手动搜索和整理相关信息上花费了太多的时间。为修正数据质量问题,宝贵的IT资源变得紧张。所有这些问题都可以归结于无法向使商业智能系统增效的数据仓库提供可靠的数据。本文将阐述主数据管理(MDM)和InformaticaDataQuality(DQ)可以如何极大增强数据准确度和可靠性,实现及时、可信赖的决策和准确的报告。引言3适用于数据仓库的MDM和InformaticaDataQuality当无法通过商业智能系统和报告系统提供准确的数据时,业务总体上都会受到影响。以下是为创建报表的商业智能系统提供不可靠数据所造成的一些后果:• 不准确的管理报告导致决策不够明智。如果对按收益排列的前100位客户和最可盈利的产品存在误解,那么会导致收入和利润的损失。• 合规性法案(例如萨班斯—奥克斯利和BaselII法案)要求公司能为其财务和合规报表提供一定的透明度和可审计性。不准确的报告使公司面临严重风险,例如陡升的经济处罚和负面的市场感知认识,更不用提公司主管有可能因此被判入狱。• 如果业务分析师花费过多时间在多个商业智能系统间手动搜索和整理信息以更新和修正报表,则业务分析师的生产率会受到影响。此低效的工作会直接影响成本和营利能力。这些业务问题的根源在于没有关于客户、产品、渠道合作伙伴和供应商的唯一真实版本。由于在处理每个业务流程的不同系统间收集、存储和管理这些数据(亦称之为参考数据或主数据),因此,需要正确地解析重叠和冲突的参考数据,以获得唯一真实版本,从而带来宝贵而可操作的洞察力。许多组织拥有数十或数百个数据库并且在这些数据库中有维护相同核心参考对象的数十个(有时为数百个)不同的应用程序,而这些核心参考对象还具有重叠的属性。此复杂度使公司难以弄清例如“谁是我们按收益排列的前100位客户?”或者“我们在上两个季度售出多少零件X?”等问题。商业智能系统的用途是以中立的视角报告取自多个系统的现有数据。商业智能系统可以为维度分析进行一些累积工作,但是设计或配备商业智能系统并非为了创建唯一的真实版本。在取自应用程序孤岛的客户或产品数据中存在的不一致会对数据仓库中运行的分析可靠性产生消极的影响。4对于识别完全不同的数据、将这些数据解析为唯一的真实版本并将其与其它数据关联以推导出某些含义而言,主数据管理必不可少。事实上,许多MDM项目在初始阶段往往侧重于创建更多可靠的数据,以获得更为准确的商业智能报表。MDM是一个受控流程,通过此流程,主数据以该企业记录系统的形式进行创建和维护。实施MDM是为了确保已验证并确保主数据正确、一致和完整,并可以分层进行集中和动态的管理。然后,这些可靠和相关的主数据会从MDM系统提供给数据仓库,分析师和业务负责人可以从数据仓库检索这些数据并将其用于商业智能系统和报告。以下示例(如图1所示)将突显MDM对于商业智能所具有的价值。生产全局映像系统的公司的业务负责人需要清楚其最重要的前100位客户,以解决在产品中断后出现的客户服务问题。为响应此请求,业务分析师使用商业智能系统制作了按收益排列的前100位客户的报表。然而不幸的是,他们没有实施MDM系统,对于其中一位名列前茅的客户,数据仓库中存在两个条目,而商业智能系统需要数据仓库来增效。GeneralElectric公司在分两次进行的单笔交易中购买了多个映像系统:一笔4亿美元的交易来自“TheGeneralElectricCompany”名下的美国会计系统,第二笔3亿美元的交易来自“GE”公司名下的欧洲会计系统。数据仓库不清楚这两个公司名称其实代表着同一家公司,而将它们报告为两家单独的交易和公司实体。结果,“TheGeneralElectricCompany”并未显示为前100位客户之一。此报表中的信息不可靠,那么在此报表基础上作出的任何决策均将是不正确的。通过实施MDM系统,MDM系统可正确地识别“TheGeneralElectricCompany”和“GE”是否为同一家公司,从而此制造商将能够解决这类可能带来较大代价的问题。如果将此信息传送至数据仓库,数据仓库则会正确地将这两笔交易额累计为7亿美元。现在,随着MDM落实到位,在报表中,“TheGeneralElectricCompany”将正确地显示在按收入排出的前100位客户中。此报表信息可靠,任何使用此报表进行的业务决策都将十分准确。引言5适用于数据仓库的MDM和InformaticaDataQualityMDM要作出及时而自信的决策,业务负责人需要有途径获取可靠的数据,而通过将MDM与数据仓库相集成可以获得这些可靠数据。在构建数据仓库中付出的大部分努力中包括参考数据的管理,这为数据仓库开发人员带来了大量工作—为了从许多可能存在的数据源集成频繁冗余、常常不正确的参考数据,数据仓库开发人员必须编码和维护复杂的逻辑。维护这类自定义编码逻辑不仅费时而且昂贵。它使数据集成流程增加了大量开支。需要整合重复数据。必须评估冲突以确定最为可靠的数据表示法。此整合不仅可确保参考数据的可靠性,而且还可以确保用于准确聚合交易数据的关键要素和度量的可靠性。作为有关数据仓库中数据准确性的基石,此相关性消除了错误信息,并确保商业智能系统的收获能有价值。图1.两种数据仓库情形:左侧为,在主数据输入数据仓库之前,如果未使用MDM系统,那么在创建可靠的主数据时将存在报告不准确的风险;右侧为,MDM系统如何通过在主数据输入数据仓库前解决数据问题,为准确的报告提供支持。6MDMMDM为集成和管理参考数据提供免代码、低维护的解决方案。在MDM系统成为数据仓库的维数据的确定来源后,它使数据仓库能够侧重于卷管理和数据交付的数据管理目标。简而言之,主数据管理提供以下功能:“匹配与合并”逻辑,用于从一个或多个源系统识别并整合重复记录• 宽泛的单元格级别关联和历史记录,为数据内容提供了详细的审计跟踪• 适用于跨所有数据源和应用程序的所有关系数据的中央资料库• 这些功能将极大降低与以下所述的数据仓库有关的总体开发和维护工作:MDM• 在设计数据仓库过程中的第一步—不论是一个企业数据仓库(EDW)、分布式数据仓库(DDW),还是数据集市总线架构—是统一数据仓库的维度,即建立共享维度。KimballGroup的创始人RalphKimball是数据仓库领域的革新者和教育家。在许多文献和Wikipedia中都有提到过他,他定义了共享维度的符合条件:“维度的两个副本要么完全相同(包括键值和所有属性值),要么一个维度是另一个维度完全的真子集。”对于数据仓库的共享维度,MDM系统将是合规、已集成、已清洗和标准化的单一数据源。此系统将消除在填充合规的数据结构时所牵涉的大部分转换工作,使数据仓库资源能够着重于回答业务问题,而不是集成数据。MDM• 对于保持维度变更的历史记录而言,渐变维度是最为有效和使用最为频繁的方法。对于其数据细分属性之一存在变更的每个维记录,数据仓库开发人员会签发一个新的维记录。此方法的缺陷是维表持续增大,从而拖累加载和查询性能。增长问题存在多方面的原因,它是由于维记录中的各类更改均采用了渐变维度的方法,其中包括对属性的更改,例如客户名称、物料状态或分部经理姓名。通过提供进行历史记录跟踪的选项,MDM系统解决了这个性能问题。它可以记录所有对参考数据实体的更改,解放数据仓库,使之可以在维度渐变时全力跟踪数据细分的更改。当数据仓库维度增长放缓时,它们可以将查询和加载性能受到的影响降至最低。如果用户希望查询某记录的非渐变维的历史记录,他们可以展开浏览MDM系统中的历史记录表。MDM• 数据仓库元数据和沿袭解决方案一般仅限于提供结构化和流程沿袭。例如,标准的数据仓库实施应能够回答此类问题:“哪些系统中的哪些字段是数据仓库中‘客户名称’字段的数据源?”、“哪些加载脚本将更新数据仓库中的‘客户名称’字段?”,甚至还可以回答“哪些业务规则或转换将影响数据仓库中的‘客户名称’字段?”引言7适用于数据仓库的MDM和InformaticaDataQuality在提供足够的“内容”沿袭方面,数据仓库存在不足。例如,大多数数据仓库无法回答“为何客户名称对于‘FreddJones’记录很重要?”。回答此类问题通常需要至少查询所有可能涉及的源系统的临时表,以发现该值由哪个源系统提供。MDM使用户不必再执行此类费时的手动数据跟踪,因为MDM为每个记录上的每个字段均保留了详细的数据沿袭(即在单元格级别的跟踪数据沿袭)。对于基础对象中的每个数据单元格,MDM系统可以识别为单元格提供值的源系统,尤其根据值的最新更新时间来识别该值是由哪个源系统中的哪条记录提供的。MDM系统还跟踪所有记录合并的历史记录。对于增强数据资产准确度和价值而言,将数据质量规则与活动(探查、清洗和监测)和MDM流程相集成显得十分关键。在启动任何MDM项目之前,您都需要了解源数据的内容、质量和结构。在数据源进行的数据探查使数据管理员和数据仓库管理员能够在数据进入MDM系统之前,快速发现和分析跨所有数据源的所有数据异常。此流程可极大加快从MDM实施中获取价值。由于数据清洗增强了数据的准确度,带来了数据完整性,并从源头增进了数据的可信度,因此数据清洗改善了MDM系统中的数据一致性。一旦源数据进入MDM系统,它将接受数据质量处理,其中包括验证、更正和标准化。MDM系统存储了在数据清洗前后的整个历史记录,从而开发人员不必再跟踪数据仓库中的数据沿袭。最后,数据质量度量标准使数据仓库管理员能够更好地监控参考数据的质量,并确保可以长期持续使用高质量的数据。因此,从技术角度看,实施MDM和InformaticaDataQuality,作为数据仓库中主数据的确定来源,可以从提取、转换和加载(ETL)流程中简化数据集成。此方法可极大减低与数据仓库有关的整个开发和维护工作。通过建立数据质量度量标

1 / 12
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功