Informatica ETL工具技术培训

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

InformaticaETL工具培训BusinessMatrix2009,TitleofPresentation,SpeakerName2纲要第一部分:ETL基础知识1第二部分:InformaticaPowerCenter2•什么是ETL•ETL整体流程•ETL过程介绍•ETL实践技巧•InformaticaPowerCenter体系结构•产品安装与配置•系统管理介绍•开发过程•常用组件介绍•Informatica调优技巧BusinessMatrix2009,TitleofPresentation,SpeakerName3数据转换(Transform)不完整数据、错误数据、重复数据清洗处理不一致数据转换数据拆分和合并数据粒度转换商务规则计算代理键的转换装载(Load)将转换后的中间结果数据复制到结果表中将基础模型中的数据分发到集市中直接使用SQL语句复制数据使用批量装载方法复制数据数据抽取(Extract)从各个不同的异构或同构的数据源抽取结构化的RDBMS、Excel、CSV文件、非结构化的文件等主要操作是数据复制,有时候也会包含数据清洗和转换环节存量、增量数据抽取ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程什么是ETLBusinessMatrix2009,TitleofPresentation,SpeakerName4ETL整体流程ETL流程图基础模型中间层。。。。。。时间维产品维机构维帐户维客户维。。。。。。。。。。。。多维Cube汇总模型份额Cube客户基本信息宽表份额事实客户数Cube贡献度Cube汇总汇总汇总汇总。。。。。。份额事实交易事实客户事实mapping表加载加载中间表缓冲区数据源。。。。。。客户文件帐户文件字典表其它文件数据缓冲区转换转换抽取清洗手工参数加载加载BusinessMatrix2009,TitleofPresentation,SpeakerName5ETL过程概述ETL处理流程时间段加载、多个数据源取数、分层设计、按源系统和销售机构控制加载不定期处理流程数据老化、数据备份与数据恢复BusinessMatrix2009,TitleofPresentation,SpeakerName6ETL实践技巧准备区的使用•建立准备区数据库•将源数据抽取到准备区后再处理时间戳的使用•按时间戳抽取数据源增量数据•按时间记录维度和事实数据日志表的使用•使用日志表记录数据处理日志•当数据发生错误后,便于分析问题调度的使用•ETL处理的关键环节•实现ETL任务灵活控制•加载日期控制表的使用BusinessMatrix2009,TitleofPresentation,SpeakerName7ETL实践技巧维度表ETL处理缓慢变化维度第一种类型处理缓慢变化维度第二种类型处理缓慢变化维度第三种类型处理事实表ETL处理交易明细事实处理主要操作为插入,没有更新操作,重载数据时会有删除操作。累计快照事实处理主要操作为插入和更新。快照事实处理主要操作为插入和更新。时间压缩事实处理主要操作为插入、更新,与缓慢变化维度第二种类型处理逻辑类似。BusinessMatrix2009,TitleofPresentation,SpeakerName8纲要第一部分:ETL基础知识1第二部分:InformaticaPowerCenter2•什么是ETL•ETL整体流程•ETL过程介绍•ETL实践技巧•InformaticaPowerCenter体系结构•产品安装与配置•系统管理介绍•开发过程•常用组件介绍•Informatica调优技巧BusinessMatrix2009,TitleofPresentation,SpeakerName9InformaticaPowerCenter体系架构BusinessMatrix2009,TitleofPresentation,SpeakerName10InformaticaPowerCenter体系架构BusinessMatrix2009,TitleofPresentation,SpeakerName11PowerCenter产品组件服务器组件InformaticaServicePowerCenter服务引擎IntegrationServiceETL服务引擎RepositoryService资料库管理服务WebServiceHub客户端组件AdministrationConsole系统Web管理控制台RepositoryManager资料库客户端访问工具DesignerETL流程设计客户端工具WorkflowManagerETL会话、作业设计客户端工具WorkflowMonitorETL执行监控客户端工具BusinessMatrix2009,TitleofPresentation,SpeakerName12纲要第一部分:ETL基础知识1第二部分:InformaticaPowerCenter2•什么是ETL•ETL整体流程•ETL过程介绍•ETL实践技巧•InformaticaPowerCenter体系结构•产品安装与配置•系统管理介绍•开发过程•常用组件介绍•Informatica调优技巧BusinessMatrix2009,TitleofPresentation,SpeakerName13产品安装与配置产品安装服务器端安装客户端安装样例安装数据库准备•资料库数据•源数据库•目标数据库样例数据准备•样例程序导入•样例数据导入BusinessMatrix2009,TitleofPresentation,SpeakerName14系统管理InformaticaServer管理•域(Domain)管理•节点(Node)管理•资料库(Repository)管理•集成服务(IntegrationService)管理•用户权限管理•License管理资料库(Repository)管理•RepositoryManager•目录管理•权限管理•版本管理BusinessMatrix2009,TitleofPresentation,SpeakerName15纲要第一部分:ETL基础知识1第二部分:InformaticaPowerCenter2•什么是ETL•ETL整体流程•ETL过程介绍•ETL实践技巧•InformaticaPowerCenter体系结构•产品安装与配置•系统管理介绍•开发过程•常用组件介绍•Informatica调优技巧BusinessMatrix2009,TitleofPresentation,SpeakerName16系统管理介绍系统管理控制台BusinessMatrix2009,TitleofPresentation,SpeakerName17系统管理介绍资料库管理BusinessMatrix2009,TitleofPresentation,SpeakerName18系统管理介绍数据集成服务管理BusinessMatrix2009,TitleofPresentation,SpeakerName19纲要第一部分:ETL基础知识1第二部分:InformaticaPowerCenter2•什么是ETL•ETL整体流程•ETL过程介绍•ETL实践技巧•InformaticaPowerCenter体系结构•产品安装与配置•系统管理介绍•开发过程•常用组件介绍•Informatica调优技巧BusinessMatrix2009,TitleofPresentation,SpeakerName20开发过程开发过程和步骤BusinessMatrix2009,TitleofPresentation,SpeakerName21Informatica培训第一步:定义源要从数据提取数据,必须在资料库中定义源,源的类型有以下几种:关系表、视图平面文件COBOL文件XML文件通过MetadataExchangeforDataModels(一个附带产品)使用特定数据模型工具的数据模型导入源定义BusinessMatrix2009,TitleofPresentation,SpeakerName22Informatica培训第二步:定义目标创建映射之前,必须在资料库中定义目标,目标的类型有以下几种:关系表平面文件COBOL文件XML文件导入目标定义定义目标,有以下几种方式导入现有目标定义。从关系目标或平面文件导入目标定义基于源定义创建目标定义手动创建目标定义BusinessMatrix2009,TitleofPresentation,SpeakerName23Informatica培训第三步:创建映射映射是一组由转换对象(用于定义数据转换规则)链接的源和目标。映射是指源和目标之间的数据流。当Server运行会话时,它会使用映射中配置的指令来读取、转换和写入数据。源转换组件目标链接BusinessMatrix2009,TitleofPresentation,SpeakerName24Informatica培训第四步:定义任务SessionTaskBusinessMatrix2009,TitleofPresentation,SpeakerName25Informatica培训第五步:创建工作流BusinessMatrix2009,TitleofPresentation,SpeakerName26Informatica培训第六步:工作流调试监控BusinessMatrix2009,TitleofPresentation,SpeakerName27Informatica调试调试在Designer中可以运行调试器来对建好的映射进行调试调试日志目标装载情况经过每个实例的数据流BusinessMatrix2009,TitleofPresentation,SpeakerName28纲要第一部分:ETL基础知识1第二部分:InformaticaPowerCenter2•什么是ETL•ETL整体流程•ETL过程介绍•ETL实践技巧•InformaticaPowerCenter体系结构•产品安装与配置•系统管理介绍•开发过程•常用组件介绍•Informatica调优技巧BusinessMatrix2009,TitleofPresentation,SpeakerName29Informatica组件组件列表SourceQualifier:从数据源读取数据Expression:行级转换Filter:数据过滤Sorter:数据排序Aggregator:聚合Joiner:异构数据关接连接Lookup:查询连接UpdateStrategy:对目标编辑insert,update,delete,rejectBusinessMatrix2009,TitleofPresentation,SpeakerName30Informatica组件组件列表Router:条件分发SequenceGenerator:序列号生成器Normalizer:记录规范化Rank:对记录进行TOPxUnion:数据合并StoredProcedure:存储过程组件其它应用组件,如:用户自定义组件Custom、、Java自编程组件BusinessMatrix2009,TitleofPresentation,SpeakerName31Informatica组件组件类型Passive组件——流入流出组件的行数不发生变化——例如:Expression组件Active组件——流入流出组件的行数发生变化——例如:Aggregator组件Passive组件流入n行记录流出m行记录组件Active流入n行记录流出n行记录BusinessMatrix2009,TitleofPresentation,SpeakerName32函数介绍函数分类•聚合函数•字符串

1 / 87
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功