DataStage培训

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

DATASTAGE培训内容提要:•一、datastage介绍•二、如何安装datastage•三、配置datastage工程•四、设计并运行datastage的job•五、操作元数据•六、操作关联数据•七、操作约束条件及数据来源•八、定义查找使用的哈希文件•九、聚合数据•十、job的运行及调试•十一、创建Basic表达式一,datastage的介绍本章主要讲解ETL的概念,datastage的介绍、组成及主要功能。ETL概要ETL包括数据抽取(Extract)、数据转换(Transform)以及数据加载(Load)3个阶段。一般而言,这三个过程中有二次落地(生成中间文件)。•AscentialDataStage是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。•DataStage能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统。包括Oracle,Sybase,DB2,SQLServer,Teradata,FTP文件系统,文本文件等等。•数据清洗、转换、加载都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。DS介绍:Datastage是C/S软件,服务器端存储所有的ds项目和元数据,由关系型数据库(RDBMS)组成。客户端具有同服务端一样的软件接口。客户端运行于windows95或更高版本,服务端可运行于windowsNT4.0或windows2000版本,datastage的很多版本都支持unix。•DSAdministrator在服务端管理ds的项目和服务端操作。主要用于工程的参数调整,变量设置,及command操作。•DSDesigner建立ds的job并且编译执行的程序。主要用于job的开发及编译。•DSDirector运行和监控ds的job。主要用于job调试。•DSManager允许编辑和查看在ds中存储的内容。主要用于项目管理或job的导入、导出、备份。DataStage中的Designer•DataStage中的Designer允许使用熟练地拖拽图标和连线的方式来表示数据抽取、清洗、转换、整合和加载的过程,并将数据导入数据仓库的表单之中。•Designer提供一个数据流程的模式,轻松将设置和Job的设计有机的组成。•使用Designer,可以:1、指定数据如何抽取。•2、指定数据的转换规则和进行转换。•3、使用参考性质的LookUp到数据集市中编辑数据。•a)例如,如果销售的记录集包括CustomerID,可以在CustomerMaster表中使用LookUp查找到Customer的名称。•b)当需要连接数据集市并使用查询,可以快速的进行访问。•4、对数据进行整合。•5、在定义的约束条件中将基础数据分割成为多个输出的连接。•在Tools菜单中可以轻松的于Director,Designer和Manager之间切换。DataStage中的Director•使用Datastage的Director可以对设计的job进行验证、运行、任务调度和监控的工作。也可以针对job的运行查看运行的聚合统计情况。在Datastage中进行开发•在Administrator中定义全局的和项目属性。•在Datastage中的Manager里导入定义源的元数据和目标的元数据。•在Datastage中的Designer中验证和编译job。•在Datastage中的Director中验证、运行、和监控job。Datastage的工程管理•所有的工作都在一个工程中。•在安装过后,需要建立一个工程,这是安装必选的项目。•在使用它工作之前,要登录这个工程。•可以在工程间进行导入和导出Datastage的项目内容。•多个用户可以在同一时间使用同一工程,但是不能同时编辑同一个项目。多用户可以在同一时间使用一个工程中工作,但是Datastage禁止在同一时间由多个用户访问同一个job。打开JOB后要把JOB关闭后才可以退出DataStageDesigner,不然JOB就会给当前用户锁定,要通过DataStageDirector才可以解锁。初学DS时会经常忘记这步的,必须注意。第四章设计并运行Datastage的Job下面的讲解中,将可以了解到:•描述什么是Datastage的Job。•一步步讲述如何建立DatastageJob。•描述Link和Stage。•识别不同类型的Stage。•设计一个简单抽取和加载的Job。•编译、验证和运行Job。•监控Job的执行。什么是Job一个Job就是一个Datastage的运行程序。在Datastage中,可以设计并运行Jobs,执行一些有用的数据仓库,包括数据的抽取、转换、聚合和数据加载等等。Datastage的Job是:1、在Designer中设计和编译。2、在Director中进行任务预定,调度和监控Jobs。3、全部在Datastage的控制下执行。Job开发的浏览•在Manager——导入数据源和目标数据库的数据结构定义。•在Designer——加入Stage定义数据的抽取和加载。•加入Transformer和其它的Stage来定义转换。•从源数据到目的数据,加入Link来定义数据的流向。•编译Job。•在Director中,验证、运行和监控Job。在这个讲解中,将通过一个单一Job的过程第一步,着手定义元数据。Designer的工作区域中间偏右是Datastage的设计区域,可以将Stage和Link从工具的板块上拖动过来放在上面,左边是“Repository”(存储)窗口,显示的是Manager中的分支。Manager中的分支,就像Jobs和表定义一样可以直接拖拽到设计区域,点击“View——Repository”来显示“Repository”窗口。点击“View——PropertyBrowser”来显示“PropertyBrowser”窗口,显示在设计区选择的项目的属性。Designer的工具栏工具栏中的一些图标可以快捷的调用一些Datastage的内部函数,更加方便进行Jobs的设计工作。Designer的Stage工具面板•工具面板中包含描述的图标,可以将其加入到Jobs设计当中。下面将部分的Stage进行简单的说明(有些Stage在普通应用中并不常用):被动Stage和主动Stage•被动Stage的定义是用来读写数据源的Stage。•被动Stage包括:Sequential,Odbc,Hash文件的Stage。•主动Stage的定义是用来数据的筛选和转换部分的Stage。•主动Stage包括:Transformer、Aggregator和Sort的插件。SequentialStage•导出数据或加载数据到一个Sequential文件。•为Sequential指定完整的路径。•指定文件的格式:定义宽度或者分隔符。•指定列的定义。•指定写的形式:覆盖、追加。Sequential文件时用来从一个Sequential文件导出或者加载到一个Sequential文件中。在修改Sequential文件的时候需要指定一下内容:•1、文件的路径和名称。•2、文件的格式。•3、列的定义。•4、如果SequentialStage被用作一个目标的话,指定写入动作时选择:覆盖已存在的文件或者在文件基础上进行追加。编辑目标端的一个Sequential文件Stage定义一个Sequential的目标Stage类似于定义一个源的SequentialStage。在输入的Link中,定义数据导入到Stage的数据格式。从“InputBox”中输入Link的列表进行选择。定义一个文件的Job,定义文件被写入,如果文件不存在,Datastage将会自动建立,在“Updateaction”中指定数据文件是否覆盖或者追加。“General”页框中的“FilterCommand”,可以指定一个过滤程序,可以使用其在抽取数据的过程中进行数据的过滤。举例,在读取数据之前要有一个解压缩的过程。从中选择类型或者浏览从过滤程序中,在输入框中指定命令行,只有在“General”页框中的Stage页面中选择了“Stageusesfiltercommands”的选择框,这个输入框变为可用,如果指定了过滤命令,数据浏览没有定义,那么“ViewData”按钮不可用。在“Format”页框中,指定不同格式的目标文件,同指定源文件相同。如果目标文件不存在,在Jobs运行之后,才可以浏览数据。如果这时点击了“ViewData”按钮,Datastage将会返回一个“FailedtoOpen….”的错误。在源数据的Stage里定义输出数据的列定义,同时定义目标Stage中的相应的输入Link。可以将Link想象成为一个通道,从一头流到另外一头,所以输入和输出的格式要保持一致。TransformerStage•很关键的主动Stage。•使用TransformerStage可以定义条件、来源和字段的对应关系。•输入的列和输出的列进行对应。•在这个讲解中,我们将定义列的对应。TransformerStage是一个重要的主动Stage,其它主动地Stage执行很多指定类型的转换。在TransformerStage中可以指定:1、列的对应。2、数据的来源。3、过滤条件。字段对应是指输入字段和输出字段进行对应,从输入列到输出列数值直接通过。数据来源的值经过计算写入到输出的列,以输入列为基础。在引入的行将被写入到输出的列,约束指定的条件将有效。TransformerStage元素Transformer有以下元素:在上方,左边的区域显示输入Link的列信息,如果有很多的输入Link,就会有许多的列显示。在上方,右边的区域显示的输出Link的内容,我们不能在这里定义字段,如果有很多的输出Link,就会有很多的列显示。现在,忽略右上方的“StageVariables”窗口,我们将在以后的讲解进行讲述。下方显示元数据的列定义,输入和输出的Link。如果有很多的输入和输出的Link,那么将出现很多的页框。AnnotationStage•使用它来在Job上增加文本注释。•输入框有不同格式的设置。•当Job打印的时候显示。•描述注释的Stage将在下一节介绍。增加一个或多个“Annotation”的Stage就像一个文本数据框一样进行设置,可以通过在工具栏上的设置要求其是否进行显示。这里有俩个“Annotation”的Stage,“”DescriptionAnnotationStage”将在下面一个讲解中进行讲述。编辑AnnotationStage输入框内输入的是文本类型,指定的设置有:1、文本的字体和颜色。2、输入框的颜色。3、文字的横纵位置。编译Job在运行Jobs之前,必须要对其进行编译,在服务端的机器上产生可以运行的编码,对于编译Jobs,点击“File——Compile”或者在工具栏上点击“Compile”按钮,编译Jobs的窗口显示Jobs编译的情况。编译如果发生错误:点击“Showerror”来定位错误的位置。点击“More”来返回关于错误更多的信息。运行Job•从Datastage的Designer切换到Director。•在Director的列表中,选择要运行的Job点击运行。•选择运行的属性。•验证这个Job。•运行Job,并在日志浏览中监控Job运行的过程。操作关联数据•在关联的源数据表单中抽取,过滤、转换数据。•加载数据到关联表单中。•通过OracleEnterpriseStage来进行连接。•支持用户定义SQL。•上面是一个最简单的抽取数据JOB设置一个OracleEnterprise连接•在connection设置数据库的用户,密码和数据库。•Source里设置读取数据库的那个表,也可以自己自定义写SQL语句抽取,在ReadMethod选择。•

1 / 66
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功