构建基于商务智能的税收数据分析系统税收数据分析系统需求分析税收数据分析系统的目标构建基于商务智能的税收数据分析系统的目的就是把安徽国税所辖的信息系统的内部数据和外部数据进行有效的集成,为安徽国税系统的各层决策、分析人员使用。安徽国税信息系统内部数据是指通过税务业务系统收集到的数据,这些数据分布在不同的硬件、数据库、网络环境中,为不同的业务部分提供服务。所有这些数据从结构上看,是相对独立的,不利于安徽国税决策者进行全面分析和查询。假如我们针对决策者的需求,对这些数据进行结构上的重组,按更方便决策分析的角度去设计,并且充分考虑今后的扩展性与外部数据的接口,将使安徽国税信息系统的各类数据真正发挥更大的价值。税收数据分析系统的建设需要实现以下三个要求:1、建立统一的数据应用平台建立统一的数据应用平台逐一数据仓库。将各类信息系统所有重要可用数据统一的数据抽取、转换和加载规则进行充分整合,保证了数据的一致性、可靠性、真实性,为业务查询、决策支持提供基础。2、实现快捷OLAP查询传统的应用系统无法应付多用户的并发查询操作,业务系统的数据库本身并不能为查询性能优化而配置,必须实现业务查询的拆分。将实时性要求高,返回数据量小,对明细数据的查询仍访问业务系统数据库。对实时性要求不高,为实现不同来源数据的集成,实现多样性的业务需求的可扩展性,必须要定义一整套税收数据标准,为系统应用打下坚实的基础。包括定义数据格式标准、数据命名标准、数据类型标准、数据长度标准定义和数据依靠关系标准等等。3、建立统一的数据抽取存储规范如何将各业务系统的数占有条不紊地进行公道的采集、传输和清洗加工并最后入库,是整个系统的重点和难点。需要综合考虑以下几个方面:一是数据抽取,如何高效、正确、安全地抽取各应用模块下的应用数据;二是数据转换和入库,如何高效、正确地将应用数据转换成便于分析、完整清洁的数据仓库入库数据;三是任务集成,如何保证数据采集、传输、加工、入库可以流畅完成,中间可以无缝集成,当某一数据装载环节失败时可以迅速定位失败原因并方便地重新正确装载数据。4、设置公道的主题划分主题是一个抽象的概念,是由业务信息系统中的事实数据在一定层次上归纳和综合,并用来分析和利用的对象,主题只是一个逻辑的概念,是对应业务应用中某一分析领域所涉及的分析对象。主题的确定应该保证其具有独立的内涵或明确的界限,并能为数据分析提供所要求的一切内容。5、不同类型的前端应用模式支持前端应用模式担负着数据利用价值展示的重要工作。对于数据仓库或数据集市中的数据一般可以采用静态报表、动态报表、实时查询、OLAP分析以及决策支持等方式,通过多维分析、趋势分析、异类分析、关联分析等分析方法进行应用展示。由于税务系统的业务处理系统比较复杂,且数据量比较庞大,导致一些业务表的增量数据无法直接获得,可以采取的解决办法分别是:在省级税务机关可以采取设置前置机用来与业务处理系统进行数据同步,包括在省局的省级集中的应用系统和分散在各地市的仍未实行省级集中的应用系统。通过触发器的方式获取增量数据,形成一个整体的税务数据ETL过程。在地市级税务机关,可以定期采取预先定制的相关主题的分析计划进行数据抽取,获取自身关注的分析主题的增量数据,而不必全范围抽取所有应用系统的增量数据。4.3.2数据处理由于业务的变化、误操作、输入错误等原因,将会造成业务系统数据的不规范,不一致,甚至错误。为了保证数据仓库中用于分析的数据的正确性,必须在数据进入数据仓库之前对其进行清洗和规范。首先要进行数占有效性检查,提高数据质量,包括子数据集的选择和缺失值的处理。缺失值的处理需要观察缺失值情况,考虑舍去后对预测的结果是否有较大的影响。对于含有大量缺失值,并且不是重要的字段可以忽略,使该字段不用于建模;对于含有较多缺失值同时是重要的字段,引用均值、默认值代替缺失值或根据现有正确数据的分布比例导有缺失值。缺失值的处理,可以用回归、基于推导的贝叶斯形式化方法的工具或判定树归纳确定,有意识地填充缺失值,从而提高模型的适用性。其次要进行数据变量的格式规范,将各种例如日期型变量、字符型变量等进行规范处理。最后进行相关数据变量的选择,剔除不必要的字段。4.3.3数据存储数据加载就是将经过清洗、规范的数据加载到目标数据仓库中来。数据加载分两种:一是增量加载(将增量数据加载到数据仓库的表中)二是更新加载(将物理表完全更新进行加载)。本系统由于数据量较大,主要采用增量加载。4.4逻辑模型设计4.4.1主题域分析税务系统的业务处理系统十分复杂,且数据量相当庞大,仅安徽国税综合征管信息系统就包含2000多个数据表,每年产生50G的数据量。因此在进行逻辑模型设计时必须首先根据业务需求确定相应的分析主题域,确定要装载到数据仓库的主题。本分析系统可以首先确定5个方面的分析主题,即纳税人主题、税收收入主题、税务治理行为主题、纳税义务履行情况主题以及税务机关主题。1、纳税人主题:纳税人主题包括了与纳税人相关的所有属性信息和行为信机制等内容。4、数据应用层数据应用层负责为决策层、治理层、操作层等的业务需求提供数据展示。需要考虑数据处理应用的性能、数据的更新加载、专项数据集市等因素。数据集市:一般用于为单个职能部分提供相关应用。数据集市可以是独立的数据仓库,也可以定时更新来自数据仓库的数据。报表:一般存在预定义报表以及可以实现订单式的可定义报表等。OLAP:定义报表是特殊定制业务,但无法实现深层次的分析应用。通过联机分析处理(OLAP),可以实现向决策层、治理层提供分析、预测、决策支持等需求。实时查询:根据数据应用层用户提出的各类日常查询需求,并根据数据仓库的要求开发客户端程序。决策支持:通过数据挖掘满足用户对数据的分析和预测需求。4.3ETL设计ETL(Ext:actTransformLoading,数据抽取转化装载规则)是负责完成从数据源数据到数据仓库数据的转化过程,是实施数据仓库建设的重要环节。如果说数据仓库主题化模型是建设一座高楼大厦的话,数据仓库的数据是建造大厦的砖石,那么ETL就相当于建造大厦的过程。在数据仓库系统设计过程中难度最大的部分是用户需求分析和模型设计,这其中工作量最大的就是ETL规则的设计和实施。ETL的目标就是把源数据通过数据抽取、清洗、聚集后正确的加载到数据仓库中。ETL过程要经过几个层次的存储区,才能终极为OLAP或其他数据应用用户提供一致的、干净的和高效率的数据。4.3.1数据抽取数据的抽取是从数据源,也就是各种业务系统将用于分析的数据抽取出来。一般可以通过ODBC数据源或是文本文件进行数据的抽取。通过ODBC方式抽取数据的优点是可简化抽取过程,缺点是抽取速度较慢;通过文本导出数据文件的方式优点是速度较快,而缺点是中间过程较多,不利于自动化处理。这里我们优先选择文本导出导入的方式。由于数据的抽取过程可能会对业务系统造成一定的影响,所以这部分工作大部分是在业务系统不繁忙的晚上进行。数据仓库的数据并不要求与联机事务处理系统保持实时的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。4.2.2体系结构的具体描述1、源数据层安徽国税数据仓库的源数据包括以下几个方面。一是各类税收业务数据,包括税收综合征管系统、金税工程系统、出口退税治理系统、办公自动化系统以及其他专用应用系统。二是相关历史数据,包括新旧系统结转的历史数据等。三是相关外部数据,包括工商、质检、统计等相关第三方信息数据。通过制定数据抽取计划,公道、有效的实施应用系统数据的抽取工作。2、数据过渡层数据仓库的数据必须经过数据源抽取后的清理和格式化,保持其一致性。数据抽取要求做到以下几点:一是必须要对业务系统的影响最小化;二是源数据与数据仓库隔离,以保持数据仓库的完整性;三是在数据加载情况需要校验一致性和完整性;四是必要有高效的数据转换规则。因此建立数据过渡层很有必要。数据转换规则即在数据抽取转换的过程中定义相应的规则至元数据定义中,包括常用字段的存储标准、数据转换标准、数据表示标准、相关数占有效性检测标准以及错误数据处理机制等。3、数据提供层数据提供层包括经过数据过渡层转换加载的各类历史数据以及经过加工处理形成的主题分析数据,它将为上层的数据应用层提供统一的、规范的数据,是税收数据分析系统的核心部分。同时还需要设计数据安全规则、数据校验规则、数据规范标准以及相关变化题、纳税义务履行情况主题等相关主要逻辑模型进行扼要介绍。4.4.3.1纳税人主题纳税人是税务机关治理的直接对象,通过履行纳税义务为国家提供税收来源。纳税人主题包括纳税人基本信息、纳税人资格认定信息、纳税人税种核定信息、纳税人停歇业信息、纳税人变更信息、纳税人注销信息、纳税人登记类型信息、纳税人财务登记信息、纳税人定额信息、纳税人违法违章信息以及重点税源信息等。通过纳税人主题域中相关逻辑模型在行业、注册类型、纳税人规模、时间等多维组合下的静态分布和动态变化的分析,及时了解纳税人状态和变化,为户籍治理提供信息依据。同时将纳税人主题域中相关模型与税务治理行为主题、纳税义务履行情况主题等相关模型进行多维组合分析,实现对纳税人信息的统一分析,即纳税人主题将包括以纳税人为主线的所有纳税人相关信息,也就是安徽国税提出的“一户式”治理模式。另外,将纳税人信息与相关外部信息进行关联分析可以实现不同经济环境下纳税人的结构变化、未来户籍结构状况的预测等分析需求。息,提供对纳税人的统一分析数据。2、税收收入主题:税收收入主题包括了与税收收入相关的所有属性和行为信息,提供对税收收入的全程监控和分析的统一数据。3、税务治理行为主题:税务治理行为主题包括了税务机关的所有税务业务治理行为的相关信息,提供对税务机关治理行为的正当性、效率、质量等方面进行监测和分析的统一数据。4、纳税义务履行情况主题:纳税义务履行情况主题包括了纳税人的所有纳税义务履行情况的相关信息,提供对纳税人纳税申报、税款缴纳、发票使用等方面进行监控和分析的统一数据。5、税务机关主题:税务机关主题除了提供税务机关在税务治理方面的一些分析角度之外,还可以包括诸如人力资源治理、财物资源及成本治理、行政管理等分主题为了支持五个主题域的目标和需要解决的问题,需要设立更多的主题进行多维分析。在数据仓库主题域设计完成的基础上,可以完成数据仓库全部主题的具体逻辑设计。安徽国税数据仓库不仅要能满足现有的信息消费需求,还要有很好的可扩展性满足新的需求,并能作为一个未来其他系统的数据平台。因此数据仓库必须要有灵活,统一的数据组织结构,并试图包含所有现在和未来安徽国税关心和可能关心的信息。4.4.2粒度层次和维度的确定在进行数据仓库逻辑模型设计时还需要解决的两个重要问题分别是粒度层次和维度的确定。粒度层次的确定与否直接影响数据仓库中数据量和信息查询效果。由于税务系统日常业务较多,天天发生的数据类型众多,所以可以采取多重粒度。对近期即当年度的涉税数据采取低粒度形式存储,对以前年度的相关数据采取高粒度形式存储。这样既能满足用户决策分析和综合查询的需要,又能减少数据仓库的数据量。维度是决策分析的角度和出发点。基于不同的维度,可以看到各量度的分析结果,也可以基于所有的维度进行交叉分析。常用的税收数据分析维度为时间维度、地理维度、机构维度、纳税人维度、税收治理员维度等。4.4.3主要主题域的逻辑模型税务系统的业务处理系统十分复杂,需要设计的逻辑模型数量很多,逻辑属性十分庞杂,且由于数据仓库设计要滞后于业务系统的设计,根据工作需要许多次要的逻辑属性要待业务系统数据库基本定型后继续修改,没有必要也不可能在建立初期就确定。本文只对纳税人主题、税收收入主题、税务治理行为主个当前最重要的主题,以不断完善和扩展税收数据分析系统。同时税收数据分析系统还必须要适应用户需求的多样性、各类数据源的多样性,需要数据仓库的体系结构必须具有强大的可扩展性。.4.3.2税收收入主题税收收入和计划是税务系统的主要任务,对税收收入信息全面地、正确地收集和公道的表达是本主题的主要目标。本主题域通过对