数据仓库及税源监控分析平台袁芳2011年11月什么是数据仓库数据仓库之父WilliamH.Inmon在1991年出版的“BuildingtheDataWarehouse”一书中所提出的定义被广泛接受——数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库特点——面向主题操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。主题是与传统数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。每一个主题对应一个宏观的分析领域。数据仓库排除对于决策无用的数据,提供特定主题的简明视图。数据仓库特点——集成的数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。数据仓库特点——相对稳定的数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。数据仓库——反映历史变化数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。数据仓库的组成1、数据仓库数据库数据仓库的数据库是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。数据仓库的组成2、数据抽取工具数据抽取工具把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具的关键。数据转换都包括:删除对决策应用没有意义的数据段;转换到统一的数据名称和定义;计算统计和衍生数据;给缺值数据赋给缺省值;把不同的数据定义方式统一。数据仓库的组成3、元数据元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。商业元数据从商业业务的角度描述了数据仓库中的数据。数据仓库的组成4、访问工具为用户访问数据仓库提供手段。有数据查询和报表工具;应用开发工具;联机分析处理(OLAP)工具;数据挖掘工具。数据仓库组成5、数据集市(DataMarts)为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。数据仓库数据存储与管理数据的存储与管理是整个数据仓库系统的核心。OLAP(联机分析处理)服务器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP(关系型在线分析处理)、MOLAP(多维在线分析处理)和HOLAP(混合型线上分析处理)。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。数据仓库的几个概念维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地区、行业维等)粒度:数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。单元格:多维数组的取值(2011年10月,安徽,增值税,56亿)数据仓库设计步骤1)选择合适的主题(所要解决问题的领域)2)明确定义事实表3)确定和确认维4)选择事实表5)计算并存储fact表中的衍生数据段6)转换维表7)数据库数据采集8)根据需求刷新维表9)确定查询优先级和查询模式。数据仓库的建立步骤1)收集和分析业务需求。2)建立数据模型和数据仓库的物理设计。3)定义数据源。4)选择数据仓库技术和平台。5)从操作型数据库中抽取、净化、和转换数据到数据仓库。6)选择访问和报表工具。7)选择数据库连接软件。8)选择数据分析和数据展示软件。9)更新数据仓库。数据仓库与数据库的联系二者的联系:数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。数据仓库数据一般来源于数据库。数据仓库与数据库的区别(1)1、出发点不同:数据库是面向事务的设计;数据仓库是面向主题设计的。2、存储的数据不同:数据库一般存储在线交易数据;数据仓库存储的一般是历史数据。3、设计规则不同:数据库设计是尽量避免冗余,一般采用符合范式的规则来设计;数据仓库在设计是有意引入冗余,采用反范式的方式来设计。4、提供的功能不同:数据库是为捕获数据而设计,数据仓库是为分析数据而设计。数据仓库与数据库的区别(2)5、基本元素不同:数据库的基本元素是事实表,数据仓库的基本元素是维度表。6、容量不同:数据库基本容量上要比数据仓库小的多。7、服务对象不同:数据库是为了高效的事务处理而设计的,服务对象为企业业务处理方面的工作人员;数据仓库是为了分析数据进行决策而设计的,服务对象为企业高层决策人员。税源分析监控平台税源监控分析平台产生背景省局领导要求:“所有业务均由一个系统支持(不要一个系统只解决一项业务目的),所有数据集中在一个数据库”。为税源专业化管理提供技术支撑各应用系统已实现省级集中税源监控分析平台主要任务为实现管理决策的需求,利用数据仓库技术,抽取各生产业务系统原始凭证,使用数据分析、展示工具,加工分析原始凭证,展示分析查询结果的一体化应用平台。税源监控分析平台数据特点1、所有数据来源于原始凭证数据标准化有据可查定位准确有利于今后的业务拓展2、各种分析都是通过工具来实现的。实现了业务加载与技术无关性。3、采用合作的开发模式。税源分析监控平台与各生产系统之间联系与区别平台的基础数据来源于各生产系统。生产系统是面向事务的设计,税源分析监控平台是面向主题设计的。生产系统是用于采集数据,平台是用于分析数据。生产系统一般存储在线交易数据,税源分析监控平台一般次月进行数据分析,展示分析结果。技术架构数据仓库的数据流程业务应用输出︵展现、发布︶ETL本地元数据(技术元数据、业务元数据)门户CTAIS防伪税控车购税其它交易系统数据仓库原始凭证库明细库汇总库ETLETL结果︵表、指标︶公用信息库ETLETL数据归集数据归集是对分散在各业务系统数据进行抽取。目前已抽取的数据包括:综合征管软件、增值税防伪税控系统、车辆购置税征收管理系统、公路内河货物运输发票税控系统、机动车销售发票系统、出口退税系统。数据抽取的方式是通过原始凭证。从源头规范和统一了数据口径,提高了数据质量,保障了分析数据的可追溯性。可实现透明访问。抽取的原始凭证与实际上的原始凭证的差异。已抽取原始凭证220多项,抽取记录近亿条记录归集的手段:原始凭证定义工具。业务功能一户式查询征管状况分析申报监控数据质量分析税收风险管理税收收入分析重点税源分析预警数据仓库要完成的基础工具原始凭证定义工具数据抽取工具通用查询工具风险管理工具应用管理工具数据质量检测工具通用采集工具元数据管理工具档案管理工具安徽国税数据仓库资源集成各系统的原始凭证。原始凭证加工的公用信息。各类应用工具。分析成果。如何使用数据仓库省局管理用户的使用省、市分析用户的使用一般用户的使用安徽国税数据仓库的建设概况安徽国税数据仓库建设项目与浪潮公司合作完成的。2008年9月1日,数据仓库一期项目启动2009年9月15日,用户试运行,同年11月一期项目通过验收。2010年8月启动数据仓库二期项目。目前已基本完成。登录登录地址::8710/可通过省局网站链接用户:CTAIS用户,134……。密码默认为999999。IE设置添加IP地址:“网站”列表中,安全级别调整到“低”。进入【Internet选项】常规页,Internet临时文件框,按“设置”按钮,选择“每次访问此页时检查”。详细见下载文档。控件安装进入“安徽国税统一工作平台”,打开页面“下载安装”链接,系统检测需安装的插件,点击“系统插件安装”链接。安装下载的“报表”控件。详细见下载文档。安装FLASH插件进入“安徽国税统一工作平台”,打开页面“下载”按钮,点击“FLASHPLAYER10插件下载“超链接,下载“FLASHPLAYER10”插件,安装下载的“FLASHPLAYER10”插件。详细见下载文档。解决树形菜单显示问题由于IE版本的不同,树形菜单有时只能显示第一层,不能显示下面的第二层或更多层。进入“安徽国税税源监控分析平台”,打开页面“下载”按钮,点击“树形菜单解决方案”超链接,下载“树形菜单解决方案”压缩包。解压下载的“树形菜单解决方案”,把其中的“msxml3.dll”,拷贝到系统system32文件夹下。点击“开始--运行”,弹出“运行”对话框输入“regsvr32msxml3.dll”命令,点击“确定”按钮。详细见下载文档。原始凭证查询通过原始凭证查询模块可以查询已抽取的原始凭证内容、与原系统的字段对照、关键字等信息公用表公用纳税人信息(GY_NSRXX_YDLS)公用申报信息(GY_SB_SBXX)公用应申报纳税人信息(GY_SB_YZCWSBQC)公用税票信息(GY_SPXX_HZ)合并的资产负债表(CWBB_ZCFZB_MX)合并的损益表(CWBB_SYB_MX)征管状况分析设计思路按照“原始凭证──过渡数据表──明细数据表──汇总数据表”的设计思路,实现了征管状况分析(登记、申报、征收)。次月的月初加工征管状况分析报表。最初的数据是从2010年元月开始的征管状况分析设计思路征管状况分析登记类汇总表申报类汇总表征收类汇总表纳税人信息明细表纳税人状态变更表纳税人税种变更表一般纳税人资格变更表非居民企业资格变更表企业所得税征收方式鉴定表纳税人登记补录表注销税务登记申请审批表停业复业(提前复业)报告书重新税务登记申请审批表复业(提前复业)报告书非正常户认定书非正常户解除非正常户注销无证户失踪处理无证户失踪、注销状态解除无证户失踪注销无证户注销税务登记表(适用临时纳税人)税务登记表(无证户)变更税务登记表税务登记表(适用个体经营)税务登记表(适用单位纳税人)谢谢