大型企业统计云的设计与实现邹暾,侯杰华,蒋晓方湖南省烟草专卖局经济信息中心,长沙市芙蓉南路一段628号410004摘要:随着国家工业化与信息化深度融合要求的提出,大型企业的统计工作对信息化提出了新的需求。大型企业应以云计算技术为基础,通过数据仓库、商业智能、大数据分析与挖掘等先进技术,建立智能化的统计云平台,实现企业各系统间统计数据无障碍联通和充分共享、提升统计分析与数据挖掘能力,充分体现数据云价值,为企业运营决策提供有力支撑。湖南省烟草公司以云计算为基础探索建立了基于传统数据结构的企业统计云,取得了较好的应用效果,并逐步向基于大数据的统计云转变。关键词:统计、云计算、数据仓库、大数据中图分类号:TP311.5文献标识码:AThedesignandimplementoflargeenterprises’statisticscloudZOUTun,HOUJiehua,JIANGXiaofangEconomicInformationCentre,HunanTobaccoMonoployBureau,No.628,Section1,FurongSouthRoad,Changsha,41004Abstract:Duetothecountry'srequestofdeepintegratingbetweenindustrializationandinformatization,largeenterprisesrequireinformationtechnologyprovidingmoresupporttostatistics.Largeenterprisesshouldbuildupintelligentstatisticscloudplatformbasedoncloudcomputingtechnology,useadvancetechnologysuchasdatawarehouse,businessintelligence,bigdataanalysisandminingtorealizestatisticsdatasharingfullyandexchangefreelybetweenapplications,toenhancestatisticsanalysisanddataminingability,sothatenterprisescangetthemaximumvaluefromdatacloud.Thestatisticscloudshouldprovidestrongsupporttoenterprisesbusinessdecision.HunanTobaccoCompanyconstructedastatisticscloudbasedoncloudcomputingandachievedgoodresults,thecompanywillusingbigdatatechnologytoenhancethestatisticscloud’sability.Keywords:Statistics;Cloudcomputing;Bigdata.引言随着国家工业化与信息化深度融合要求的提出,各大型企业的统计工作对信息化的支撑能力提出了新的需求。各单位围绕各类业务先后建立了很多应用系统,数据的种类和数量越来越多,涉及的范围越来越广,产生并积累了海量的数据,统计工作在准确性、及时性、一致性、安全性等方面面临巨大的挑战,急需新的技术为统计工作提供支撑。国家工信部在《互联网行业“十二五”规划》指出:云计算将深刻改变计算模式和信息服务模式,要组织采用云计算技术开展公共应用示范,积极有序地开展安全、高效、绿色的基础设施即服务(IaaS)示范,支持基于互联网的应用平台即服务(PaaS),积极利用云计算技术发展面向中小企业的软件即服务(SaaS)。随着云计算和大数据技术的迅速发展和普及,政府机构与大型企业开始在统计工作平台建设中引入这些技术,统计平台云化、大数据化逐渐成为趋势,国家统计局已在2010年建立了整个统计数据系统的私有云[1]。因此,研究如何建立和应用统计云平台,对有效提高统计工作质量、提升数据价值具有很强的现实意义。1大型企业统计云的应用需求国内大型企业统计云的应用需求有一定的共性,一般主要有以下方面:1)数据统计质量通过十一五、十二五的信息化建设,目前,一般的大型企业均已实现了统计数据网络直报。但数据质量仍然是公众和组织缺乏自信的主要问题:一是由于统计数据报送系统层级较多,各环节有缝连接,数据可能失真;二是系统建设主体不一、建设时间不一、数据口径不一、接口标准不一,导致形成数据孤岛。要解决此问题,一是在统计云平台中实现各应用系统的协同,系统之间无缝连接;二是统一业务数据的统计口径和交互标准,三是建立数据稽核清洗系统和数据质量管理系统,以保证统计数据的高质量。2)统计数据发布与共享随着统计信息化建设的发展,企业统计能力较以往有了大幅提升,特别在业务数据方面,实时性有了很大提高。因此,如何把统计数据及时、准确、安全地发布,让企业相关人员能够即时了解企业经营信息和运行状况,有效利用统计数据进行生产经营决策参考,提高企业数据资源的价值,是各个企业亟待解决的问题,需要有专门的系统对数据进行发布与管理。3)数据可视化数据可视化主要是借助于图形化手段,通过视觉化方式呈现数据,直观地传达数据关键的方面与特征,能够让数据使用者快速抓住要点信息,从而实现对于复杂数据的深入洞察,清晰有效地传达与沟通信息。目前,已有不少先进的数据可视化工具,但由于其高度专业化的特点,难以让所有人熟练使用,因此,需要将这些工具进行二次开发,形成易于使用的服务。4)大数据的存储、处理、分析与挖掘随着企业信息化的发展,应用系统越来越多,产生的数据量也越来越大,特别是进入互联网经济时代,新的业务模式和应用产生了海量的大数据,这些大数据与传统的结构化数据不同,数据量大、数据种类多、数据格式多种多样,非结构化特征明显,例如位置轨迹、用户行为、传感信息、图像视频等,难以用传统的技术手段存储与处理,同时,对于大数据的分析与挖掘,传统的数据库技术已无法胜任,需要建立专门的大数据平台来处理[2]。5)资源动态配置目前,统计应用呈现以下特点:一是随着统计报数的自动化程度越来越高,统计工作的频率由每月向每天转变,一般企业往往在夜间对当天的数据进行抽取、清洗与处理,需要大量的计算与存储资源;二是统计工作的重点由报数逐渐向数据分析挖掘转变,数据分析挖掘工作需要大量计算资源,发生时间具有不确定性。因此,基础设施平台必须具备对计算资源动态调度的能力,以保证统计应用在上述情况下具有足够的数据处理能力;在任务结束后,又可以释放资源,实现资源的高效利用。同时,平台应具备稳定可靠、恢复快速、结构简洁、易于维护、安全性高、成本低廉的特点。2大型企业统计云平台总体架构设计2.1总体架构按照国际国内相关云计算标准的定义,云计算平台的服务模式主要有基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)几大类[3]。根据定义,我们对大型企业的统计云平台进行总体架构设计。作为某个具体企业的统计云建设,可根据自身需求,对该架构进行取舍与调整。统计云总体架构如下图所示:图1大型企业统计云架构2.2基础设施即服务为实现基础信息设备资源共享、灵活调度、动态迁移等能力,需要有虚拟化技术和统一存储服务作为支撑[4]。考虑到性价比和目前IT技术发展趋势,应采用PC服务器虚拟化后提供应用计算服务,而在数据库服务方面,由于小型机在数据库处理方面能力更强,可靠性更高,因此可采用小型机虚拟化后提供数据库服务。应建立存储资源池,通过存储虚拟化为各主机间提供统一的存储服务,保证数据的可用性和可管理性,并提供动态迁移能力。同时,为了有效管控和运维全企业信息化资源,应在虚拟化软件之上建立统一的云资源管理调度平台和运行监控管理平台。目前,成熟的PC服务器虚拟化软件有:Vmware、Xen、KVM、Hyper-V等,小型机虚拟化软件有SDM、HMC等,存储虚拟化设备有SVC、VPLEX等。云资源管理调度与运行监控方面,相关虚拟化软件厂家均有对于自己产品的管理软件,但对其余厂家支持不足,且只针对物理机与虚拟机进行管理,不能从业务视角对资源进行管理,界面也较复杂,如要达到较好的管理效果,一般需要定制开发。2.3平台即服务统计云平台应提供以下平台级服务:2.3.1数据仓库统计云平台除网络报数有较多的数据写入工作外,一般以在线分析查询为主要任务,因此,一般统计云平台应采用数据仓库产品用于传统业务数据的处理,以提升系统性能。如数据量非常大,单台设备无法支撑时,应采用支持集群的数据仓库产品,例如IBMDB2Purescale、OracleRAC、SybaseIQ等。2.3.2大数据库大数据从数据结构分类,可分为结构化数据、半结构化数据和非结构化数据。结构化数据的处理仍然可用传统的关系型数据库处理,只是对于海量的数据,必须采用支持大规模并行处理的数据库产品。对于半结构化数据和非结构化数据,关系型数据库已不能满足应用需求,必须采用NoSQL数据库产品进行存储和管理,在对其进行分析挖掘时,还必须采用分布式大规模批量处理的分布式计算[5]。NoSQL不需要事先定义数据模式和表结构,具有较好的扩展性,同时通过基于BASE模型(基本可用、软状态、最终一致性),在可用性和一致性上进行一定的取舍,实现较高的性能。目前较成熟的产品有HBase、Cassandra、SimpleDB、MongoDB等。2.3.3数据抽取转换装载为统一业务数据的统计口径,解决不同单位、不同应用系统间的数据差异问题,应建立数据抽取转换装载系统,从各单位各应用系统抽取数据,按照统一的口径,进行清洗和转换,使之达到一定的数据质量水平,然后装载到统一的企业数据仓库,形成企业的标准数据源。目前,有InfomaticaPowercenter、IBMDatastage、MicrosoftDTS、OracleDataIntegrator等成熟产品。2.3.4企业数据总线统计云平台应提供企业数据总线服务,使数据从单个部门、单个系统通过服务从专有变为共享,通过松耦合的可重复服务将相关的数据直接呈现给各种用户和流程,并利用开放标准获得数据的可互操作性。企业数据服务总线由有组织的数据及相关集成平台构成,能够提供强大的数据级功能和共享服务方法,支持数据使用者以一致和可重复的方式访问任何位置、任意形式的数据,可以提高企业范围内数据的可用性。目前成熟的企业数据总线产品很多,IBM、Oracle、Microsoft等均有相关产品。2.3.5取数服务平台应可根据各单位、各部门和各类业务人员的需求,按照企业关键绩效指标体系,为各类应用系统及各种数据分析挖掘工作提供可定制的数据集市服务,提供规范的取数服务,在保证企业数据安全的前提下,实现数据的共享,保证各类分析应用数据源的一致性和准确性,提高数据资产的利用率。2.3.6数据质量管理数据质量是统计工作的生命线,因此,必须建立有效的数据质量管理系统和数据质量管理体系,对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警和处理,使得数据质量获得有效提高,改善和提高企业的管理水平。可结合元数据管理对数据质量进行管理。2.3.7元数据管理随着企业业务模式的创新和各类应用系统的建设与升级,特别是考虑到大数据应用对企业的影响,数据的来源和种类越来越多,数据的类型、结构、标准、意义等也在不断变化,再考虑到数据管理人员与系统维护人员的岗位变动等原因,企业统计云平台必须建立元数据管理系统与元数据维护规范,准确记录与维护数据的各类属性,以及各类数据间的逻辑关系、数据与业务之间的关系等。对于统计工作来说,有效的元数据管理可以准确记录统计口径的定义及其变化,对统计数据的标准化而言有着非常重要的意义。2.3.8海量数据处理随着统计数据范围的扩展,统计数据的体量增长非常迅速,在某些行业与机构如政府、金