目录第1章绪论·············································(3)1.1数据挖掘技术·····································(3)1.2研究问题分析·····································(4)1.3国内经济普查实践与数据分析现状···················(4)1.4本文研究内容及方法·······························(4)第2章聚类分析算法····································(4)2.1数据挖掘过程·····································(4)2.2聚类分析技术基础·································(5)2.3数据挖掘对聚类的要求·····························(5)2.4聚类方法的分类···································(6)第3章K均值算法········································(6)3.1K均值算法思想····································(6)3.2K均值算法流程····································(7)第4章K均值算法在经普数据分析上的实现··················(7)4.1数据的采集、预处理·······························(7)4.2算法演示·········································(8)4.3数据分析··········································(8)第5章K均值算法分析系统的设计··························(9)5.1开发工具及运行环境简介····························(9)5.2主界面···········································(10)5.3修改密码·········································(11)5.4运算模块·······································(12)5.5企业数据管理模块·······························(20)5.6退出登陆·······································(26)5.7下一步工作·····································(26)第6章结束语········································(26)第7章致谢··········································(26)参考文献·············································(27)郑飞跃基于数据挖掘的经济普查数据分析1基于数据挖掘的经济普查数据分析郑飞跃(电子信息工程学系指导教师:黄海)摘要:随着全国第二次经济普查数据的上报,面对普查之后的海量数据,如何更好地利用这些数据资料,帮助国家在金融危机下制定更好的经济决策,成为目前社会各界关注的热点。将数据挖掘技术应用于经济普查数据的分析,可以找出隐含在数据中的更深层次的信息,对决策者制定决策是很有参考价值的。关键词:经济普查数据挖掘决策树算法K-均值算法Abstract:Withthecountry'ssecondeconomiccensusdatatoreport,inthefaceofthehugeamountofdataafterthesurvey,howtomakebetteruseofthesedatatohelpcountriesinfinancialcrisistodevelopbettereconomicdecision-making,becomethecommunity'sconcernaboutthehotspots.Dataminingtechnologywillbeappliedtotheanalysisofeconomiccensusdata,canbefoundinthedataimpliedadeeperlevelofinformation,decision-makingforpolicymakersisagoodreference.keywords:EconomicCensusDataMiningDecisionTreeAlgorithmK-meansalgorithm第一章绪论计算机技术的发展为工商企业、政府机构和教育科研单位实现信息的数字化处理提供了机遇,数据库和数据仓库已经广泛地应用于企业管理、产品的销售、科学计算和信息服务等领域。数据收集工具的进步使我们拥有数量庞大的数据。虽然数据库系统可以高效地实现数据的录入、查询和统计等功能,但缺乏挖掘数据背后隐藏的知识的手段,难以发现数据中存在的关系和规则,无法预测未来的趋势。而传统的数据分析方法已远远不能满足现实对于数据分析的需求,数据的迅速增加与数据的分析处理方法滞后的矛盾越来越大,从而导致了大量的数据成为数据丰富,但信息贫乏的“数据坟墓”。而数据挖掘技术(DataMining)正是解决这一课题的重要方法。权威的Gaxtoer调查报告显示,数据挖掘将是未来几年全球范围内重点投资研究的十大新技术之一,它引起了学术界和工业界的广泛关注,是当今数据库系统研究和应用领域内的一个热点问题。1.1数据挖掘技术数据挖掘技术出现于20世纪80年代后期,90年代有了突飞猛进的发展,并在21世纪持续繁荣。还有很多和这一术语相近的术语,如数据库的知识发现(KDD)、数据分析、数据融合(DataFusion)以及决策支持等。数据挖掘将数据库管理系统和人工智能中机器学习两种技术相结合,用数据库管理系统来存储数据,用机器学习的方法来分析数据,自发发现隐含在大量数据中的知识。它是一个萃取和展现新知识的流程。数据挖掘汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容,是一门新兴的交叉学科。数据挖掘从一开始就是面向应用的,它不仅是面向特定数据库的简单查询调用,而且要对这些数据进行微观、宏观的统计,分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘更强调的是从海量数据中发现隐含的知道和算法的可伸缩性,是一门很接近使用的技术。目前数据挖掘技术主要运用于商业、医学、科研领域,着眼于海量数据集存储、检索与处理,目标是帮助人们从繁冗复杂的数据中发现有价值的信息,从而挖掘出其潜在的价值,提高其利用率。郑飞跃基于数据挖掘的经济普查数据分析21.2研究问题分析我国第二次经济普查自2008年12月31日正式启动以来,现在已基本完成普查数据的收集、处理与上报工作。本次经济普查是我国经济发展进入21世纪后进行的一项重大国情国力调查,是党中央、国务院为正确认识国情、准确把握国力、科学制定国策而采取的一项重要举措。也是在全球金融危机大背景下正确把握我国当前经济状况的重要渠道的。只有通过经济普查,才能比较准确地把握中国经济变化的规律和趋势,正确制定经济政策和社会经济发展规划,进一步控制经济增长,提高经济发展速度,促进经济和社会协调发展,推动可持续发展战略的实施。在这次经济普查中,从国民经济行业分类的具体构成来看,涉及到19个大的行业归类,875个行业小类。可以说这次经济普查提供的数据是非常完整的。面对普查之后的海量数据存储,国家更需要有力的数据分析工具以及方法将丰富的数据转换成有价值的知识,否则大量的数据将成为数据丰富,但信息贫乏的“数据坟墓”。数据挖掘技术正是从大型数据库或数据仓库中提取有潜在应用价值的信息或模式,旨在帮助人们从海量数据中发现有价值的信息。如何从普查数据中及时发现有用的信息,从而挖掘出其潜在的价值,提高其利用率,是经济普查数据研究领域的一项重要课题。1.3国内经济普查实践与数据分析现状事实上,经济普查的主要目的就是分析企业的财务信息,也就是财务数据挖掘。财务数据挖掘其实是一类深层次的财务数据分析方法。目前的经济普查系统可以高效地实现数据录入、查询和统计,但却无法发现数据中存在的关系和规则,无法根据现有的经普数据分析结果预测未来经济发展趋势。传统的财务分析只是停留在较浅层次的分析,比如:因素分析、比例分析、趋势分析等,对决策的帮助并不大,究其原因,正式缺乏有效的挖掘知识和手段,导致了“数据爆炸但知识贫乏”的现象。而随着数据库技术的迅速发展以及数据库系统的广泛应用,企业积累的数据越来越多,如自身业务运作的数据,资金运作的数据,对外投资的数据和整个市场相关行业状况的各种数据,激增的数据背后隐藏着许多重要的信息。这些数据不再是为了编制财务经济报表、分析财务状况而收集,分析这些数据也不再单纯为了了解企业各种状况,更主要的是为决策者提供真正有价值的信息,也可帮助企业提供竞争力,在这种情况下,数据挖掘技术就显得至关重要。1.4本文研究内容及方法本文认真分析了数据挖掘的基本原理和一般方法,选择了合理的数据挖掘工具。通过将数据挖掘技术应用到经济普查的数据分析中去,实现经济普查数据的充分开发以及利用。同时在数据挖掘技术应用研究的过程中,利用全国经济普查数据,分析我市某区经济普查数据中若干企业的经济指标间关系,并对结果进行评价,为相关部门制定决策提供依据。第二章聚类分析算法2.1数据挖掘过程在实施数据挖掘之前先制定采取什么样的步骤,每一步做什么,达到什么样的目标,是非常必要的。有了好的计划才能保证数据挖掘有条不紊的实施,并取得成功。现在,通用的数据挖掘是从数据集中识别出以模式来表示知识。它包含多个处理步骤,各个步骤之间互相影响并反复调整,形成一种螺旋上升的过程。其过程包括以下几个步骤:郑飞跃基于数据挖掘的经济普查数据分析3(1)确定挖掘目标。了解应用领域和相关知识,从用户的观点出发确定数据挖掘的目标。这是实现数据挖掘的重要因素。相当于系统分析。这个过程要考虑的因素有:该领域的瓶颈是什么,目标是什么,挖掘模型的可理解性是否重要等。(2)建立目标数据集。从现有的数据中,确定哪些数据是与本次数据分析任务相关的。根据挖掘目标从原始数据中选择相关数据集,并将不同数据源中的数据集中起来,在这一阶段需要解决数据挖掘平台,操作系统和数据源数据类型等不同所产生的数据格式差异。(3)数据预处理。对选择数据,需要进行数据清洗工作,将数据变成干净的数据。目标数据集中不可避免的存在着不完整,不一致,不精确和冗余的数据,这些数据被称为“脏数据”。数据抽取之后通常采用基于规则的方法分析多数据源之间的关系,然后再对他们实施相应的处理。(4)数据挖掘算法。使用合适的数据挖掘算法进行数据分析。首先确定实现数据挖掘目标的数据挖掘功能;其次选择合适的模式搜索算法。数据挖掘的算法包括决策树、神经网络、遗传算法等。(5)挖掘结果的评价与解释。根据最终用户的决策目的对数据挖掘的结果进行评价,将有用的结果以可视化的技术提供给用户,让用户能够对模型结果做出解释,同事评价模型的有效性。2.2聚类分析技术基础将物理或抽象对象的集合分组成为类似的对象组成的多个类或簇的过程被称为聚类,聚类是数据挖掘三大领域(关联规则,聚类,分类)之一。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。在血多应用中,可以将一个簇中的数据对象作为一个整体来对待。在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同客户群的特征;在生物上,聚类分析被用来动植物分类和对基因进行分类,获取对