大数据创新课程总结报告

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

*******************创新课程*******************兰州理工大学计算机与通信学院2015年秋季学期学习总结报告专业班级:计算机科学与技术13级4班姓名:尚锞学号:13240407指导教师:王艳成绩:摘要.....................................................................................................................1一、数据分析与处理概述.......................................................................................21.1数据分析.....................................................................................................21.2数据处理..................................................................................................3二、算法理论...........................................................................................................42.1随机森林算法..........................................................................................42.2高斯混合模型..........................................................................................5三、算法实现...........................................................................................................53.1随机森林算法.............................................................................................53.2高斯混合模型.............................................................................................6四、仿真试验结果及分析.......................................................................................74.1随机森林算法.............................................................................................74.2高斯混合模型.............................................................................................8五、结束语...............................................................................................................8参考文献...................................................................................................................91摘要数据(Data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理(dataprocessing)是对数据的采集、存储、检索、加工、变换和传输。本文介绍了多种数据分析与处理的方法,数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。关键词:数据处理、数据采集、存储、检索2一、数据分析与处理概述越来越多的应用涉及到大数据,这些数据的属性,包括数量,速度,多样性等等都是呈现了数据不断增长的复杂性,所以,数据的分析方法在数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于此,数据分析的方法理论有哪些呢?1.1数据分析PredictiveAnalyticCapabilities(预测性分析能力)数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。DataQualityandMasterDataManagement(数据质量和数据管理)数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。AnalyticVisualizations(可视化分析)不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。SemanticEngines(语义引擎)我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。DataMiningAlgorithms(数据挖掘算法)可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。3假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。1.2数据处理数据处理时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法其实有很多,但是根据长时间的实践,笔者总结了一个基本的大数据处理流程,整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。采集数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。在数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。统计/分析统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。导入/预处理虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足4部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。挖掘与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法都以单线程为主二、算法理论2.1随机森林算法在机器学习中,随机森林(RandomForests)是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。由LeoBreiman和AdeleCutler发展、推论出的算法。这个术语是1995年由贝尔实验室的TinKamHo所提出的随机决策森林(randomdecisionforests)而来的。这个方法则是结合Breimans的Bootstrapaggregating想法和Ho的randomsubspacemethod以建造决策树的集合。随机森林算法过程:根据下列算法而建造每棵树:1.用N来表示训练例子的个数,M表示变量的数目。2.我们会被告知一个数m,被用来决定当在一个节点上做决定时,会使用到多少个变量。m应小于M3.从N个训练案例中以可重复取样的方式,取样N次,形成一组训练集(即bootstrap取样)。并使用这棵树来对剩余预测其类别,并评估其误差。4.对于每一个节点,随机选择m个基于此点上的变量。根据这m个变量,计算其最佳的分割方式。55.每棵树都会完整成长而不会剪枝(Pruning)(这有可能在建完一棵正常树状分类器后会被采用)。2.2高斯混合模型高斯混合模型和k-means其实是十分相似的,区别仅仅在于GMM引入了概率。高斯混合模型属于统计学习的模型中的概率模型。所谓概率模型,就是指我们要学习的模型的形式是P(Y|X),这样在分类的过程中,我们通过未知数据X可以获得Y取值的一个概率分布,也就是训练后模型得到的输出不是一个具体的值,而是一系列值的概率(对应于分类问题来说,就是对应于各个不同的类的概率),然后我们可以选取概率最大的那个类作为判决对象(算法分类softassignment)高斯混合模型的学习过程就是训练出几个概率分布,对样本中的数据分别在几个高斯模型上投影,就会分别得到在各个类上的概率,然后我们可以选取概率最大的类所为判决结果。三、算法实现3.1随机森林算法Trainingtree1/100...Trainingtree10/100...Trainingtree20/100...Trainingtree30/100...Trainingtree40/100...Trainingtree50/100...Trainingtree60/100...Trainingtree70/100...Trainingtree80/100...Trainingtree90/100...Trainingtree100/100...6Classifierdistributions:18815nodeswereemptyandhadnoclassifier.Classifierwithid=1wasusedat0nodes.Classifierwithid=2wasusedat6685nodes.Classifierwithid=3wasusedat0nodes.Class

1 / 11
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功