InformaticaETL工具培训BusinessMatrix2009,TitleofPresentation,SpeakerName2纲要第一部分:ETL基础知识1第二部分:InformaticaPowerCenter2•什么是ETL•ETL整体流程•ETL过程介绍•ETL实践技巧•InformaticaPowerCenter体系结构•产品安装与配置•系统管理介绍•开发过程•常用组件介绍•Informatica调优技巧BusinessMatrix2009,TitleofPresentation,SpeakerName3数据转换(Transform)不完整数据、错误数据、重复数据清洗处理不一致数据转换数据拆分和合并数据粒度转换商务规则计算代理键的转换装载(Load)将转换后的中间结果数据复制到结果表中将基础模型中的数据分发到集市中直接使用SQL语句复制数据使用批量装载方法复制数据数据抽取(Extract)从各个不同的异构或同构的数据源抽取结构化的RDBMS、Excel、CSV文件、非结构化的文件等主要操作是数据复制,有时候也会包含数据清洗和转换环节存量、增量数据抽取ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程什么是ETLBusinessMatrix2009,TitleofPresentation,SpeakerName4ETL整体流程ETL流程图基础模型中间层。。。。。。时间维产品维机构维帐户维客户维。。。。。。。。。。。。多维Cube汇总模型份额Cube客户基本信息宽表份额事实客户数Cube贡献度Cube汇总汇总汇总汇总。。。。。。份额事实交易事实客户事实mapping表加载加载中间表缓冲区数据源。。。。。。客户文件帐户文件字典表其它文件数据缓冲区转换转换抽取清洗手工参数加载加载BusinessMatrix2009,TitleofPresentation,SpeakerName5ETL过程概述ETL处理流程时间段加载、多个数据源取数、分层设计、按源系统和销售机构控制加载不定期处理流程数据老化、数据备份与数据恢复BusinessMatrix2009,TitleofPresentation,SpeakerName6ETL实践技巧准备区的使用•建立准备区数据库•将源数据抽取到准备区后再处理时间戳的使用•按时间戳抽取数据源增量数据•按时间记录维度和事实数据日志表的使用•使用日志表记录数据处理日志•当数据发生错误后,便于分析问题调度的使用•ETL处理的关键环节•实现ETL任务灵活控制•加载日期控制表的使用BusinessMatrix2009,TitleofPresentation,SpeakerName7ETL实践技巧维度表ETL处理缓慢变化维度第一种类型处理缓慢变化维度第二种类型处理缓慢变化维度第三种类型处理事实表ETL处理交易明细事实处理主要操作为插入,没有更新操作,重载数据时会有删除操作。累计快照事实处理主要操作为插入和更新。快照事实处理主要操作为插入和更新。时间压缩事实处理主要操作为插入、更新,与缓慢变化维度第二种类型处理逻辑类似。BusinessMatrix2009,TitleofPresentation,SpeakerName8纲要第一部分:ETL基础知识1第二部分:InformaticaPowerCenter2•什么是ETL•ETL整体流程•ETL过程介绍•ETL实践技巧•InformaticaPowerCenter体系结构•产品安装与配置•系统管理介绍•开发过程•常用组件介绍•Informatica调优技巧BusinessMatrix2009,TitleofPresentation,SpeakerName9InformaticaPowerCenter体系架构BusinessMatrix2009,TitleofPresentation,SpeakerName10InformaticaPowerCenter体系架构BusinessMatrix2009,TitleofPresentation,SpeakerName11PowerCenter产品组件服务器组件InformaticaServicePowerCenter服务引擎IntegrationServiceETL服务引擎RepositoryService资料库管理服务WebServiceHub客户端组件AdministrationConsole系统Web管理控制台RepositoryManager资料库客户端访问工具DesignerETL流程设计客户端工具WorkflowManagerETL会话、作业设计客户端工具WorkflowMonitorETL执行监控客户端工具BusinessMatrix2009,TitleofPresentation,SpeakerName12纲要第一部分:ETL基础知识1第二部分:InformaticaPowerCenter2•什么是ETL•ETL整体流程•ETL过程介绍•ETL实践技巧•InformaticaPowerCenter体系结构•产品安装与配置•系统管理介绍•开发过程•常用组件介绍•Informatica调优技巧BusinessMatrix2009,TitleofPresentation,SpeakerName13产品安装与配置产品安装服务器端安装客户端安装样例安装数据库准备•资料库数据•源数据库•目标数据库样例数据准备•样例程序导入•样例数据导入BusinessMatrix2009,TitleofPresentation,SpeakerName14系统管理InformaticaServer管理•域(Domain)管理•节点(Node)管理•资料库(Repository)管理•集成服务(IntegrationService)管理•用户权限管理•License管理资料库(Repository)管理•RepositoryManager•目录管理•权限管理•版本管理BusinessMatrix2009,TitleofPresentation,SpeakerName15纲要第一部分:ETL基础知识1第二部分:InformaticaPowerCenter2•什么是ETL•ETL整体流程•ETL过程介绍•ETL实践技巧•InformaticaPowerCenter体系结构•产品安装与配置•系统管理介绍•开发过程•常用组件介绍•Informatica调优技巧BusinessMatrix2009,TitleofPresentation,SpeakerName16系统管理介绍系统管理控制台BusinessMatrix2009,TitleofPresentation,SpeakerName17系统管理介绍资料库管理BusinessMatrix2009,TitleofPresentation,SpeakerName18系统管理介绍数据集成服务管理BusinessMatrix2009,TitleofPresentation,SpeakerName19纲要第一部分:ETL基础知识1第二部分:InformaticaPowerCenter2•什么是ETL•ETL整体流程•ETL过程介绍•ETL实践技巧•InformaticaPowerCenter体系结构•产品安装与配置•系统管理介绍•开发过程•常用组件介绍•Informatica调优技巧BusinessMatrix2009,TitleofPresentation,SpeakerName20开发过程开发过程和步骤BusinessMatrix2009,TitleofPresentation,SpeakerName21Informatica培训第一步:定义源要从数据提取数据,必须在资料库中定义源,源的类型有以下几种:关系表、视图平面文件COBOL文件XML文件通过MetadataExchangeforDataModels(一个附带产品)使用特定数据模型工具的数据模型导入源定义BusinessMatrix2009,TitleofPresentation,SpeakerName22Informatica培训第二步:定义目标创建映射之前,必须在资料库中定义目标,目标的类型有以下几种:关系表平面文件COBOL文件XML文件导入目标定义定义目标,有以下几种方式导入现有目标定义。从关系目标或平面文件导入目标定义基于源定义创建目标定义手动创建目标定义BusinessMatrix2009,TitleofPresentation,SpeakerName23Informatica培训第三步:创建映射映射是一组由转换对象(用于定义数据转换规则)链接的源和目标。映射是指源和目标之间的数据流。当Server运行会话时,它会使用映射中配置的指令来读取、转换和写入数据。源转换组件目标链接BusinessMatrix2009,TitleofPresentation,SpeakerName24Informatica培训第四步:定义任务SessionTaskBusinessMatrix2009,TitleofPresentation,SpeakerName25Informatica培训第五步:创建工作流BusinessMatrix2009,TitleofPresentation,SpeakerName26Informatica培训第六步:工作流调试监控BusinessMatrix2009,TitleofPresentation,SpeakerName27Informatica调试调试在Designer中可以运行调试器来对建好的映射进行调试调试日志目标装载情况经过每个实例的数据流BusinessMatrix2009,TitleofPresentation,SpeakerName28纲要第一部分:ETL基础知识1第二部分:InformaticaPowerCenter2•什么是ETL•ETL整体流程•ETL过程介绍•ETL实践技巧•InformaticaPowerCenter体系结构•产品安装与配置•系统管理介绍•开发过程•常用组件介绍•Informatica调优技巧BusinessMatrix2009,TitleofPresentation,SpeakerName29Informatica组件组件列表SourceQualifier:从数据源读取数据Expression:行级转换Filter:数据过滤Sorter:数据排序Aggregator:聚合Joiner:异构数据关接连接Lookup:查询连接UpdateStrategy:对目标编辑insert,update,delete,rejectBusinessMatrix2009,TitleofPresentation,SpeakerName30Informatica组件组件列表Router:条件分发SequenceGenerator:序列号生成器Normalizer:记录规范化Rank:对记录进行TOPxUnion:数据合并StoredProcedure:存储过程组件其它应用组件,如:用户自定义组件Custom、、Java自编程组件BusinessMatrix2009,TitleofPresentation,SpeakerName31Informatica组件组件类型Passive组件——流入流出组件的行数不发生变化——例如:Expression组件Active组件——流入流出组件的行数发生变化——例如:Aggregator组件Passive组件流入n行记录流出m行记录组件Active流入n行记录流出n行记录BusinessMatrix2009,TitleofPresentation,SpeakerName32函数介绍函数分类•聚合函数•字符串