大数据、数据挖掘与建筑环境及能源应用97

gatokluez
2 ℃
2018-02-28

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

大数据、数据挖掘与暖通专业HVAC-relatedBigdata,datamining刘京2015.3一、大数据的故事1.1数据的由来•记录信息的能力是人类文明的标志之一；•计量和记录是数据的起点，是数据化昀早的根基；数字时代和数据爆炸人类存储信息量的增长速度比世界经济的增长速度快4倍，而计算机数据处理能力的增长速度比世界经济的增长速度快9倍。其中非数字数据不到2%。大数据的特征——“量”大•指数增长，从0.8zb（2009）到35zb（2020）Exponentialincreaseincollected/generateddataz阿里数据拥有5000台服务器，攒下了超过100PB已处理过的数据，等于104857600个GB，相当于4万个西雅图中央图书馆，580亿本藏书。仅淘宝和天猫两个子公司每日新增的数据量，就足以让一个人连续不断看上28年的电影。大数据的特征——种类繁杂•不同格式、类型、结构…•文本、数字、图片、录音影像、时序信号、社交媒体数据…•静态数据、流数据•简单的应用程序可以产生、收集多种类型的数据•注意数字化和数据化的区别大数据的来源数据收集自身不再成为了解世界的障碍-任性的时代！关键问题：-数据管理、分析、整理、可视化和新知识的获得大数据带给我们的新研究理念①传统随机采样技术的结束-小数据时代缺陷：z受采样条件的制约，即随机性自身的影响；z不适合子项的深入研究；z忽略细节；z不能脱离事先设计、传统思维的影响•样本=总体。只有获得所有数据，才有真正认识事物的可能；•不单纯意味着数据一定要“多”，重要的是所有细节的涵盖；大数据带给我们的新研究理念②追求精确的时代结束•只有5%左右的数据是结构化的；•不精确不再是缺点，大数据决定了适当的容错是可能的；•不再需要对数据进行仔细的事先清理和筛选，不再为误差精度而担心，“概率”准确度；•大数据的简单算法比小数据的复杂算法更有效-为什么谷歌翻译系统昀出色？•接受混乱是数据的标准状态，不要想法去避免它-开放性、多样性的数据库建立和分析方法大数据带给我们的新研究理念③注重机理（因果）研究时代的结束•相比于内在机理的挖掘，在大数据时代，相关关系的寻找更重要-“是什么”“为什么”；•相比之下，相关关系的发现更准确、更快速，更不易受误导-机理研究存在很大风险；•是大数据预测技术的核心思想-只要找好关联物即可；大数据的应用①——人类行动学•表面：看起来随机而无规律的每个人的移动•潜在价值：提供定制广告；预测交通状况和人员聚集情况；消除潜在的传染病危害；•利用：GPS各种相关设备、移动车辆、移动通信、银行信息…大数据的应用②——人类社交活动•表面：寻找和维持朋友、同事关系，发泄情绪；•潜在价值：个体的喜好、商务信用；营销策略；•利用：Facebook,Twitter,微信，QQ…大数据的应用③——人类商务活动表面：基本商务信息（购物、金融贸易…）；潜在价值：新的商务类型；利用：电商（阿里巴巴、Amazon、ebay）、大型销售商、政府部门的数据大数据的应用④——人体健康•表面：测量身体各部位数据；•潜在价值：提供个性化医疗服务；•利用：各种传感器一般性的结论•未来的世界，数据将无处不在。世界不再是各种事件的构成，而是信息组合；•所有数据均有其价值，而且数据的真实价值可能远远大于表象价值，就像冰山藏在海洋下面的部分一样；•与自然界的物质不同，数据的价值不会随着使用而减少，关键是如何评估和挖掘数据的潜在价值；•数据的总和比部分更有价值-数据重组技术；•数据的价值是动态变化的；•要格外关注数据噪声（数据废气）的重要价值；•引领大数据时代的关键因素不是技能，而是思维的创新。可怕的结论•大数据时代，“专家”或“行业工程师”可能要让位于数据科学家、统计学家和分析家，因为后者没有传统观念的束缚，更注意把握数据内在的规律；•原因：专业技能是小数据时代的产物！•思考：我们会失业么？大数据的局限性•大数据的预测可能是不全面、不准确的；•大数据只能提供参考答案，不能给出准确答案；•真正的创新是超越于数据之上的！二、数据分析和数据挖掘数据分析和数据挖掘的区别•共同点：都是从收集到的数据中提取有用信息，对数据进行处理后发现知识的过程；•区别：•数据量不同（数据分析-小、数据挖掘-大）；•数据类型不同（数据分析-规范化数据；数据挖掘-规范化和非规范化数据）；•目的不同（数据分析-假设检验；数据挖掘-挖掘新的知识和信息）；•手段不同（数据分析-统计学；数据挖掘-还需要机器学习的算法）•常规的Excel数据处理过程是数据分析！数据挖掘的9大定律BusinessGoalsLawBusinessKnowledgeLawDataPreparationLawNFLLawWatkins’LawInsightLawPredictionLawValueLawLawofChange数据挖掘的挑战•如何选择数据挖掘的方案？•如何规避和有效利用数据噪声？•如何面对数据不断更新的影响？数据挖掘的基本流程•信息收集（数据仓库）•数据集成•数据规约•数据清理•数据变换•数据挖掘•模式评估•知识表示数据预处理，至少占60%工作量至少占60%费用（1）数据挖掘的基础——数据仓库（datawarehouse）•数据存放、组织归类、提供使用的集成平台；•主要用于支持决策，可以对多个异构的数据来源有效集成，集成后可按照主题重组，包括历史数据；•传统的一体式、云存储等不同形式；•内涵不同于现有的企业型数据库（database），表现在：•数据仓库的数据结构更灵活，包含了过去的、综合的、集成的、提炼的信息；•数据一旦进入数据仓库，修改或更新的操作较少•知名数据仓库产品：•Oracle(Oracle),Teradata(Teradata),DB2(IBM),SQLServer(Microsoft)…数据仓库的基本结构•ETL(ExtractTransformLoad)：数据抽取、转换、装载过程；•OLAP(OnLineAnalyticalProcessing)：对数据进行有效集成和分析；•Reporting：报表（2）数据集成•将多个数据源中的数据（以数据库为代表）结合起来存放到一个一致的数据存储（以数据仓库为代表）中的过程；•目的：进行数据汇总和数据概化；•需要利用专业知识来检测并解决数据值的识别和冲突问题；数据预处理•目的：提高数据质量，使数据挖掘的过程更加有效，更加便捷，提高结果的精度和可靠性；•此过程重要、不可或缺；•针对对象：噪声数据、空缺数据、错误数据和不一致数据；•背景•太多杂乱的数据-属性信息不完整、夹杂噪声值（错误、孤立点）、重复值（属性和数据冗余）、异常值、格式不符合要求…•数据挖掘需要高质量的数据（3）数据清理•通过填写缺失的数据、光滑噪声数据、识别或删除离群点并解决不一致性来对数据进行处理的过程。•目标：•格式标准化•异常数据剔除•错误纠正•重复数据去除（3-1）处理缺失数据数据仓库的数据很多是不完整的；空缺（遗漏）属性值：•简单地将存在空缺（遗漏）属性值的数据记录删除-有风险•人工方式填写、补齐空缺值-可行性差•将空缺（遗漏）属性值作为一种特殊属性值处理；•采用统计学原理，根据信息表中其余数据在该属性上的分布情况对空缺（遗漏）属性值进行估计补充。具体做法：平均值、同类样本昀可能值、贝叶斯公式或判定树-有风险时空序列缺失：•时间段局部性缺失-线性插值补缺；•缺失时间段较长-利用历史数据；•空间缺失-周围数据点代替（3-2）处理重复数据•真正重复性的数据；•属性冗余：通过因子分析或经验方法确信部分属性的相关数据足以对信息进行挖掘和决策，可通过专业常识或相关数学方法找出具有昀大影响属性因子的属性数据，其余属性删除；•属性数据冗余：若某属性的部分数据足以反映该问题信息，则其余可删除。若经过分析，这部分冗余数据可能还有他用，则先保留。•数据集成可以部分解决该问题。（3-3）处理噪声数据•数据随机误差或偏差；•利用分箱技术（平滑箱算法）来检测周围相应属性值进行局部数据平滑；•利用聚类技术，根据要求检测孤立点数据并进行修正；•利用回归函数和时间序列分析进行修正；（3-4）处理异常数据•专指不遵循数据模型的一般规律的数据。•注意异常点不同于噪声，前者是数据固有可变性的结果。有时异常点隐含着重要的信息，甚至于其本身就是重点寻找的对象。•方法：•针对时间序列数据，采用移动窗口理论等实现检测；•针对空间数据，采取移动曲面拟合法等实现检测；•针对多维数据，采取聚类分析法等实现检测。（4）数据转换•分为常规数据转换和非常规数据转换两类，实现定性问题定量化、定量问题定性化。•常规数据转换：通过线性或非线性数学变换方法等消除数据在空间、属性、时间及精度等特征表现上的差异，将数据转换为适用于数据挖掘的形式。•常用方法：昀小-昀大规范化、Z-score规范化即零-均值规范化、小数定标规范化；•目的：减少数据复杂度；数据规范化，使数据按比例缩放，落入特定区域；进行属性构造，通过一个或多个属性变换计算构造出新的属性等。数据标准化•把区间较大的数据整合到一个相对较规则的区间中。常用方法：•标准差标准化：处理后的所有数据的平均值为0，标准差为1。标准差•极差标准化：处理后的所有数据的极差为1。•极差正规化：处理后的所有数据都在0~1之间。•昀小-昀大规范化：把所有数据转化到新设定的昀小值和昀大值区间内极差非常规数据转换•如音频、视频数据转换为文本格式的数据等，方法多样。（5）数据规约•目的：一般的数据预处理之前，对数据集进行压缩，以便后续的数据挖掘工作更高效、精度更高、更简便；•可以没有该步骤；•特点：损失原始数据-与数据清理、数据变换的不同之处；•主要方法：维数消减模型-慎用，以免牺牲数据质量数据挖掘的主要算法①——聚类算法•把有共同特征的对象聚成一类，又称群分析；•是数据挖掘的核心技术，也可作为数据挖掘系列过程中的预处理算法；•把所有的对象数据按相异度（距离）分成不同的群组；•特点：划分前不知道数据要分成几组，也不知道依赖哪些变量来进行划分。聚类后要结合专业知识予以合理解释；•代表算法：K-means算法、K-medoids算法、PAM算法等。区别只在于每个聚类中心点的确定方法。数据挖掘的主要算法②——分类算法•目的：如何找出同类事物共同性质的特征性知识和不同事物之间的差异性知识；•代表算法：KNN算法；决策树算法；神经网络算法；支持向量机SVM算法；•分类不会百分百准确，每个算法都有其准确率表述。数据挖掘的主要算法③——关联算法•概念：•关联：两个或多个变量的数据之间存在某种规律性；•支持度：数据集中包含某几个特定项的概率，反映关联规则在数据集中的重要性；•置信度：数据集中出现A时，B发生的概率，用于衡量关联规则的可信程度；•目的：寻找海量数据各属性之间隐含的关联性；•代表算法：Apriori算法、Eclat算法、FP-Growth算法数据挖掘的主要算法④——序列挖掘•从一个序列中的数据找出统计规律，一般用于预测；•序列可以是字符串、基因排列等，更常见的是时间序列；•代表算法：AutoregressiveModel、IntegratedModel、movingaverage…数据挖掘工具R语言：•免费开源的数据挖掘工具；•函数式编程；向量化运算；•算法全、数据展示多样；•用户：Facebook,Google,LinkedIn,Microsoft…MATLAB：•数值计算软件；•高效的数学表达式、符号运算功能SPSSModeler,SASEnterpriseMiner,IBMIntelligentMiner,…左为RossIhaka右为RobertGentleman•R语言的镜像站，包含了R的执行文档、源代码和说明文件，还有各种用户自己撰写的软件包数据挖掘的结果显示•原则：直观加美观；•MSOffice是远远不够的；•更为专业的数据可视化工具