浅析“大数据”时代如何加强数据深度分析应用课题承担单位:宁阳县国家税务局摘要:本文首先就“大数据”时代税收数据分析发展背景进行了简要说明,并提出了数据深度分析利用的理论与方法:完善的一体化税收数据分析工作体系与数据挖掘理论;其次从技术应用层面与管理层面剖析了做好数据深度分析利用的重点、关键点;最后结合实际情况,提出目前发展数据深度分析应用存在的问题及建议。关键词:数据挖掘系统一体化数据深度分析工作体系工作流程业务重组管理机制技术应用一、当前税收数据分析发展情况简析近年来,国税部门结合税收工作中的热点、难点和焦点问题,不断拓展选题范围,积极探索开展数据处理分析,建立起了比较完善的数据处理分析工作运行机制,实现了税收数据的增值应用,为加强税源管理和辅助领导决策提供了重要依据。数据分析在税收管理工作中的作用初步显现。随着金税三期工程建设的实施,国税系统各主要业务应用系统已实现总局、省局集中运行,总局、省局拥有的数据量迅速增大,税收数据资源变得更加丰富,我省也建立了独立自主的数据综合分析利用平台,税收数据在税收管理和服务中的核心作用渐趋明显。但是在大数据时代的背景下,以业务操作为主要特征的信息化应用平台在数据管理和数据应用分析这一关键领域的功能缺陷日益突出,成为制约数据分析应用一个主要瓶颈。虽然省局综合数据分析利用平台实现了一定的数据分析功能,并且制定了一定量的预警分析指标,但在多行业数据采集、预测性分析、跨部门联网数据交互分析、互联网大数据分析、逻辑性分析、征管数据纵向深度分析、跨省数据交互分析以及数据取数口径准确性等方面还有待加强。本文结合当前税收信息化工作,就如何在“大数据”时代充分利用这些丰富的税收数据资源,实现税收数据的深度分析应用,从中发现税收征管工作中存在的问题和薄弱环节,发现税收管理规律,更好地为税收管理和辅助决策服务,进行了认真的思考和探索。二、数据深度分析应用的理论与方法所谓税收数据的深度分析应用,可以理解为:在系统整合和税收数据集中的基础上,遵从科学化、精细化管理要求,树立利用税收数据资源分析主导税收工作的理念,利用相关学科的原理、方法和模型,对海量涉税数据,包括税务系统内部数据及通过对政府、企业、居民、互联网等采集的外部数据,进行加工、处理,多层次、多角度分析和挖掘税收数据资源,再经过掌握数据分析技术与税源管理的复合型专业人才的深度加工,形成能够发现税收征管漏洞、辅助税收征管决策、监督政策执行、促进税收增长的有价值信息,为税收管理和决策提供重要依据,达到信息管税的目标,促进税收管理质量和效率的提高。开展数据深度分析应用工作,首先在工作方法上,要有明确、精准的数据分类,完善、科学的工作流程和规范、标准的岗则设计,这就要求建立一套完善的一体化数据深度分析应用工作体系;其次在技术理论上,要能够实现在海量“大数据”中排除无用数据、找出涉税数据规律并评估出有意义的数据规律或模式,就必须以先进的数据挖掘理论为指导,以多样化的数据挖掘技术为支撑。以下两部分将对一体化数据深度分析工作体系建设与数据挖掘在税收数据分析中的应用展开详细介绍。(一)一体化数据深度分析应用工作体系建设开展数据深度分析应用工作需要有三个条件:一是数据在总量上要达到一定规模,这里的数据总量不仅指征管数据总量,还包括其他相关的第三方数据总量。只有在数据总量上达到一定规模后,才有可能从大量的无序的数据中发现其中所蕴藏的规律性。二是数据分析技术要发展到一定程度,才能够实现对海量数据的深度分析挖掘,使有规律数据转变为有意义数据。三是通过科学有效的工作模式将分析得到的数据信息融入到稽查、征管、评估、计统等税收工作的方方面面,将数据的作用最大化,推动税收工作的“数字化”革命。目前,税收数据的高度集中,“互联网+”、“云数据”等信息化新模式的出现,促进了数据信息的快速积累,为税收数据的深度分析应用在数据总量上创造了条件;数据挖掘技术的完善,为税收数据的深度分析应用在技术上提供了可能;金税三期工程建设的实施以及增值税发票升级版系统的推行,使税收信息化步入了一个全新的发展阶段,为税收数据深度分析应用开辟了道路。新阶段、新形势、新任务都要求必须加强数据利用,税收数据深度分析应用是税收信息化建设发展到一定阶段的必然结果,也是税收信息化发展的必然要求。因此,建立一套集多方数据采集、数据深度分析、数据充分利用的一体化数据深度分析工作体系势在必行。(1)税收数据资源的分类收集税收数据资源是税务部门在税收征管过程中,根据其所能收集到的与之有关的数据信息,包括各种消息数据,情报数据,资料数据等,经过筛选,加工,处理,存取,能够满足税务部门及纳税人需求的,可以反映经济活动及其发展变化情况的各种信息的集合。税收数据资源在信息系统中又可以被分为程序数据、税收业务数据和税收相关数据;按来源可分为税务系统内部数据和税务系统外部信息数据两大类,内部数据来源于两个方面:首先是纳税人,纳税人是产生数据的主体(例如申报数据、发票领购数据、税务登记数据等);其次是税务机关,税务机关内部不同部门根据各自职能围绕纳税人开展工作产生新的数据(例如稽查黑名单数据、风险预警数据、资源综合利用认定数据等);税务系统外部数据是政府职能部门及相关产业为纳税人办理审批和服务过程中产生的数据以及互联网数据(例如工商、国土、海关、建委、公安、银行、电力、石油等部门数据以及来源于网络的交易数据、物流信息、信息服务平台数据等)。(2)一体化数据深度分析工作流程一体化数据的分析工作一般流程为:数据的收集、数据的确认和存储、数据的加工分析、数据的传输使用、数据的交叉验证。结合日常的税务业务,得到一个完整的工作流,如图1所示。图1(3)以流程为导向实施税收业务重组实施税收业务重组,首先要从税收数据流运转的角度重新审视税收业务流程,运用信息管理的一般原理分析其本质,依托信息技术和数据流转规律建立适应税收数据流运转的统一规范的业务流程,可以实现全面的信息共享。结合实际工作,可以从下面三个方面进行流程优化:一是尽量减少、合并人工的信息流环节,实现纳税人与税务人员单点接触,甚至零点接触,以尽量减少或排除人为因素的影响;另一方面整合、简并面向纳税人的咨询、受理、审批等涉税流程数据,提高数据质量。二是重塑数据采集流程,提高数据共享度。重塑涉税信息的采集流程,实现各级、各部门和各行业涉税信息的广泛共享,充分利用现代信息技术,与统计、经贸、地税、工商、银行、技术监督、民政等相关部门建立横向、纵向联网体系;制定严格规范的采集制度,使采集标准和口径统一,实现一次采集,多环节共用,提高信息共享度。三是科学设置税收信息流转工作流程。结合税收业务的要求,按流程、分环节设置,将税收信息流运转的主要环节科学分解到办税服务部门、税源管理部门、计算统计部门等各部门,各部门将各自信息初步加工后由数据处理部门整合形成数据分析报告。(二)数据挖掘在税收数据分析中的应用在1989年美国底特律召开的人工智能学术会议上,首次提出了“数据挖掘”的概念,此后,数据挖掘理论不断完善,数据挖掘技术飞速发展,目前数据挖掘的理论与技术已经相当成熟,金融、财务、通讯、互联网等领域在关于如何更好的利用数据挖掘技术服务产业发展的研究上已取得了显著建树,美国等税收征管系统比较完善的国家也逐步将数据挖掘技术应用到税收工作的各个方面,并取得了显著成效。数据挖掘理论是在“大数据”时代开展数据深度分析利用最有力的武器。所谓数据挖掘,是一个从大量数据中抽取挖掘出其中隐含的、以前未知的、对决策有价值的模式或规律等知识的复杂过程。简单地讲,就是从大量数据中提取出有潜在用途的知识。数据挖掘的全过程定义描述如图2所示。图2如图2所示,数据挖掘的主要步骤有:数据清洗:清除与挖掘主题明显无关的数据和噪声数据;数据集成:组合来自多个数据源中的相关数据;数据转换:将数据转换为易于进行数据挖掘的存储形式;数据挖掘:利用智能方法挖掘数据规律或模式;模式评估:根据一定的评估标准,从挖掘结果中筛选出有意义和价值的规律或模式;知识表示:利用可视化和知识表达技术,向用户展示挖掘成果。综合考虑我国税收信息化的建设情况以及近年来在税收信息化方面的研究成果,将数据挖掘技术全面地应用数据深度分析应用工作中,已经具备可行性。随着金税三期工程的进一步开展,税务决策支持子系统不断的完善,三方数据交互机制的建立,“互联网+”模式的进一步发展,数据挖掘技术必将使税收数据分析工作迈上新的台阶。(1)数据挖掘系统开展数据挖掘工作,首先要建立完善的、符合税收业务工作需求的数据挖掘系统。数据挖掘涉及多个学科,包括统计学、数据库和信息技术等。此外,不同的数据挖掘任务,还会运用到其他学科领域的一些知识理论和技术方法。数据挖掘的复合交叉性,决定了数据挖掘系统的多样性。数据挖掘系统基本框架:图3税收数据挖掘系统不但要挖掘金三核心征管数据库中的数据,还要挖掘相关的第三方信息,比如企业用电信息、国土资源信息、互联网交易信息、银行资金往来信息等对税收数据分析可能有用的信息,而后者,也就是第三方信息,是目前最迫切需要的也是最难挖掘的。要建立完善的、功能强大的税收数据挖掘系统,应该做到以下几点:一是在处理数据类型方面,数据挖掘系统应具备挖掘数据信息、文本信息、互联网信息、异构信息、历史信息功能。二是在数据挖掘的方法方面,数据挖掘系统应具备提供描述知识、对比概念描述知识、分类知识、关联知识、趋势与演化分析知识等多种或集成的数据挖掘结果。三是在数据挖掘技术方面,应具备完全自主交互式、基于查询驱动、基于数据库与数据仓库技术、基于机器学习、统计等数据挖掘技术的整合。(2)数据挖掘算法数据挖掘算法可以将有用信息分类汇总、初步加工,让信息自动生成初步成型的逻辑关系,也是进行有效的数据分析必不可少的步骤。数据挖掘算法灵活多变,类型多种多样,下面列举几种比较常用的数据挖掘算法:统计学算法:在数据挖掘中常常会涉及一定的统计过程,通过这种过程可以从抽样分析中提取到未知的数学模型,如数据抽样和建模、判断假设以及误差控制等。决策树:决策树方法主要用于数据分类。一般分成两个阶段:树的构造和树的修剪。模糊逻辑:模糊逻辑是模糊集合与布尔逻辑的融合。一个公式的真值,可在[0,1]区间任意取值。在数据挖掘中,常用来进行证据合成、置信度计算等,可为税收风险管理、数据质量监控、税源监控提供初步的情报信息。粗集:粗集理论是一种处理模糊和不确定问题的新型数学工具,可以处理的问题包括数据简化、数据相关性发现、数据意义的评估、数据的近似分析等。探索、完善有针对性的数据挖掘算法,可以另数据采集工作事半功倍。三、税收数据深度分析应用工作的重点(一)技术应用层面(1)规范数据资源分析应用流程税收数据资源分析应用不是一个独立的环节,而是一个互动循环的过程,是一个复杂的系统。首先通过对业务的理解,明确业务需求,即确定税收分析的目的,从而提出问题;结合问题明确分析主题,围绕主题确定需要的变量和抽样方案,根据抽样方案从集中后的数据库平台中提取数据;按照实际需要对实施方案作进一步的调整,然后构建分析模型,通过模型计算得到分析结果,将其进一歩转换成可行的决策建议并付诸实施,评价实际工作中取得的成效,在此基础上提出改进建议,不断完善,得到最佳的决策方案。税收分析流程可以用下图描述。图4(2)注重数据挖掘流程标准化现行税收分析体系已经很难满足信息使用者对税务信息的一般使用要求。信息使用者往往需要自己完成对税收信息的再次加工和深度挖掘。信息使用者相互之间由于资源不能共享,进行了大量重复的分析工作,造成了资源的浪费。因此从社会经济的角度出发,税收信息化的建设应该要考虑到使用者对于税务信息的需求,在税收分析模块中引入适当的数据挖掘流程。首先要对信息使用者进行深度调研,充分了解使用者的信息需求,明确税收分析的目的。根据税收分析的目的,更新税收分析体系构架,完善税收分析工作流程。(3)优化完善数据综合分析利用平台结合分析应用需求,采用数据仓库技术,开发囊括政府部门、银行、互联网等多渠道的税收信息资源接口,建立计统、税收预测、重点税源、税源调查