龙源期刊网的大数据审计方法探讨作者:孙梦蝶来源:《现代企业》2018年第04期随着大数据技术的发展,各行业的信息化程度大大提高,审计工作涉及行业广,这就要求审计工作必须发展大数据技术。近年来相关文件也做出了指示,如《国务院关于加强审计工作的意见》在2014年10月提出要在审计实践中运用信息化技术审查问题的能力,探索大数据技术的运用。国务院2015年8月颁布的《关于促进大数据发展行动纲要》中的国家大数据战略,促进我国大数据发展。同年12月,构建大数据审计工作模式的要求在《关于完善审计制度若干重大问题的框架意见》文件中被明确。刘家义提出:“推进以大数据审计是实现审计全覆盖的必由之路。”在此情况和背景下,如何获取、存储和使用大数据技术进行数据分析是审计部门和审计机构面临的重大挑战。在审计研究领域,许多机构和学者对大数据对审计的影响进行了阐述。大数据环境下开展审计工作已引起了广泛关注。因此,对大数据审计的展望也十分有研究价值,本文将重点分析Python语言在大数据环境下实施审计的可行性,为审计人员在大数据环境下实施审计,获取数据和进行数据分析挖掘数据价值提供理论参考。一、大数据审计特征维基百科把“无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”称为大数据。大数据环境下非格式化数据比例非常大,如何审计非格式化数据,发现审计线索,是值得研究的。大数据4V的特点给电子数据审计带来机遇的同时又带来了挑战。从数据层次来看,审计大数据涉及广泛的数据来源,结构化数据是当前被审计数据的主要类型,但半结构化数据、非结构化数据越来越多。数据类型的多样化与以往便于存储、分析的结构化数据相比,对大数据的处理能力提出了更难的挑战。被审计单位的财务数据和业务数据,数据不仅产生于组织内部运作的各个环节,也来自于组织外部。这些数据的价值对审计工作来说也是不可否认的。因此,被审计数据作为各种数据集合,自然具有体量大、多样化、价值高等大数据特征。从技术层次来看,大数据审计技术是一系列具体的技术和方法,用于挖掘和呈现审计大数据,收集、存储、分类和分析挖掘以及可视化来实现数据的价值,审计的多样化使得审计数据更加复杂,不难想象与大数据应用在单一行业相比,审计数据获取,分配和存储技术面临的挑战。从应用层次来看,大数据审计在应用中的实践主要体现在深度挖掘审计证据,跨部门、多行业开展数据分析,关联分析财务与业务数据、挖掘过去数据与实时数据的相关性,以发现审计问题、得出合理的审计结论。龙源期刊网大数据技术可以助推实现审计全覆盖。并且大数据审计可以推进制度完善,即通过挖掘某种社会现象的潜在规律,作为政策制定的依据,针对问题进行大数据分析、不断完善政策,推动国家治理现代化。同时,有部分政府审计领域的学者认为大数据审计的目标之一使政府审计揭示宏观经济社会运行风险的能力和效率大大提高,以揭露重大违法违纪问题,最终实现审计全覆盖、维护国家经济安全的目的。大数据审计的应用,十分符合推行现代审计综合模式的要求,符合数字化审计方式的特征。二、Python的特点及其优势Python是一种面向对象的计算机程序设计语言,它具有简单、解释型、交互式和可移植的特点,在数据分析领域正在得到越来越多的应用(官网:https://)。随着其数据科学计算库的升级,Python程序设计语言越来越适用于分析数据科学。Python是一门真正的通用设计语言,Python编程语言的通用性,脚本语言应用的广范性,有众多组件、扩展库的支持,并且适用于多种平台的操作系统,从这些方面来看Python都优于科学计算领域最流行的商业软件Matlab。虽然目前Matlab中的某些高级数据分析功能Python还无法替代,但是对于基础性、前瞻性的审计数据处理工作,完全可以用Python来完成。大数据审计需要用到的Python主要包括:Numpy,Scripy,Pandas,Matplotlib等。Numpy是一个科学计算的库,提供了矩阵运算等功能;Scripy工具包包括统计,优化,整合,线性代数模块,常微方程求解器等,可以和Numpy数组一起工作,并提供许多像数值积分、优化这样的对用户友好的和有效的数值例程;Pandas是Python的一个数据分析包,最初作为金融数据分析工具被开发出来。因此,提供了能使审计人员便捷处理数据的函数和方法。Pandas建立在Numpy之上,使以Numpy为中心的应用变得简单,并且非常适合进行数据清洗和整理。Matplotlib是Python的一个可视化模块,审计人员可以利用该模块更方便的制作线条图、柱状图等专业图形。Python有着像Matlab一样强大的计算工具包Numpy,有Matplotlib绘图工具包能够对数据进行可视化,有科学计算工具包Scripy,Pandas可以像SQL对数据进行控制,对于大数据环境下的电子数据审计而言,使用Python可以实现数据获取、分析和可视化,非常有发展潜力。1.Python数据获取研究。使用Python内置函数读取文本和数字,打开审计文件读取文件内容,获取word、excel文件指定行的内容,以实现从键盘、文本文件、Office文件获取。Python的标准数据库接口支持多种数据库。接口定义了必须的对象和数据库存取方式,以便为各种底层数据库和数据库接口提供一致的访问接口,审计人员可以根据适合审计项目的数据库下载不同的模块,联接数据库后,可以通过执行SQL语句等方式完成查找和存储。随着大数据时代的到来,大量的信息从网络中涌出,爬虫像蜘蛛一样在网络中穿梭,自动收集有价值的信息,使用简单的Python脚本就能够抓取网页信息,满足数据分析的需求。爬龙源期刊网的检查功能,查看网页的URL、请求方式、状态码和网站地址代理名称等特定信息,了解网页的构成,以便于进一步通过编写Python脚本,实现爬虫。2.Matplotlib绘图工具包。Matplotlib是Python一个可视化模块,一个2D绘图库。审计人员写几行代码,便可以完成直方图、条形图、散点图等基础绘图,根据图像的趋势判断数据的合理性,以进一步做出正确的审计结论。3.Jieba和PyTagCloud实现中文标签云。Jieba是Python的一个中文分词组件,支持多种分词模式。PyTagCloud是Python的一个扩展库,可以生成一个标签云,当前它可以输出图片和网页两种格式。通过Jieba组件对被审计的文档分词,去除标点符号、“的”、“地”、“了”等停用词,通过设置参数提取文档内权重大、词频高的词语。Jieba分词的结果结合PyTagCloud的标签云可视化功能,可以实现对审计文件进行充分的理解。在被审计单位提供审计数据,或已通过爬虫技术获取的数据的基础上,可使用标签云技术实现可视化分析。4.使用gensim进行文本相似度计算。文本相似度计算的需求始于搜索引擎,它需要计算用户查询和爬下来的众多网页之间的相似度,从而把最相似的排在最前返回给用户。使用的主要算法是tf-idf(词频-逆文档频率)。文本相似度计算主要的步骤有,首先导入jieba和gensim库,使用jieba对文章进行分词,然后建立TF-IDF模型,通过模型计算文本与query文本的相似度即可。三、总结本文研究了在大数据审计方法方面Python语言的数据获取方式,包括从文件获取、从数据库获取,介绍了利用网络爬虫技术抓取网页信息,获取外部数据以满足数据分析的需求方式;然后介绍了几个实用的Python模块,Matplotlib绘图工具包、Jieba分词组件等,以实现审计工作的基本绘图、中文标签云和相似度分析功能。值得思考的是,在“4V”的定义下,政府掌握的数据资源不太符合“价值密度低”的界定,并且审计工作中接触到的非结构化数据还是很少,看起来不应归为“大数据”,审计人员通过使用基本的数据处理技术就能够对政府数据进行分析处理。但从另一个角度看,大数据不仅代表的是具有其特征的数据集,更是一项技术的集——能够采集、存储和关联性分析数量巨大、来源分散、格式多样的数据,更是一种大数据思维,审计人员利用这种创新的思维模式,得以从审计数据中发现疑点,从而提升审计人员发现数据价值、获取知识和更新认知领域的能力。在大数据审计模式下,审计人员不仅要对大数据技术充分利用,而更应该具有系统化大数据的思维。为有效解决当前现象,可采取以下措施实现对大数据审计发展的推动:首先,构建审计大数据信息资源平台,通过建设大数据信息资源平台,实现资源共享和关联分析各被审计单位、行业、地方等多个系统间的数据。其次,创新数据分析方法,审计人员从简单的汇总、统计数据,向运用各种深度挖掘、智能学习算法、可视化等技术实现的大数据分析。审计人员可以通龙源期刊网等技术,将丰富的审计工作经验与前沿分析技术相结合,在审计过程中实现大数据技术的应用,以进一步提高审计能力和效率。再其次,完善审计制度体系,在审计数据的标准方面,设定统一标准,规范数据、统一接口,制定大数据审计工作规范,建立健全符合我国国情且系统化的准则体系。(作者单位:南京审计大学)