2014/7/26信息工程大学韩中庚1仅供教师教学参考,禁止上传互联网!2014/7/26信息工程大学韩中庚2大数据环境下的数据建模方法1.大数据环境与数据建模概述1.大数据环境与数据建模概述3.数据处理与数据建模方法3.数据处理与数据建模方法5.数学建模竞赛的实践过程5.数学建模竞赛的实践过程6.数学建模的指导与实践方法6.数学建模的指导与实践方法4.数学建模竞赛的赛题分析4.数学建模竞赛的赛题分析2.大数据的建模分析方法2.大数据的建模分析方法2014/7/26信息工程大学韩中庚3一、大数据环境与数据建模概述一个数据体量特别大,数据类别特别多的数据集,且无法用传统数据库工具对其进行管理和处理。通常情况数据量为10TB以上,从海量数据到巨量数据。•关于大数据最重要的问题是如何使用?•最大的挑战在于哪些技术能更好地使用大数据?•大数据的应用水平如何?1.大数据的传说2014/7/26信息工程大学韩中庚4一、大数据环境与数据建模概述(1)数据体量巨大,从TB级别到PB级别。(2)数据类型繁多,数据来自多种数据源,突破了通常的结构化数据范畴,包括半结构化和非结构化数据。如网络日志、视频、语音、图片、地理信息、人员信息、商业信息等。(3)数据的真实性高、但价值密度低。如连续不间断的监控视频,可能有用的数据仅有几秒钟。(4)处理速度快,1秒定律,即实现实时处理。2.大数据的基本特征2014/7/26信息工程大学韩中庚5一、大数据环境与数据建模概述(1)20世纪80年代开始数学热,数学热促使了数学模型发展,但经典的数学模型对带有观测误差的数据处理能力有限;(2)90年代出现了信息热,信息等价于数据,然而当时的信息处理技术从计算能力、适应能力和容错能力等难以达到使用的标准。(3)从90年代中期,统计学成为大众消费数据的热点,使得统计学家从象牙塔走到了现实世界,从而出现了统计建模。3.大数据的发展与应用过程2014/7/26信息工程大学韩中庚6(4)进入21世纪,网络密布、数据激增,统计建模在一定程度上为数据分析提供了一套可扩展、可深化,高质高效地揭示有价值信息的方法。(5)近几年来,大数据体量不断增加、类型复杂,统计建模方法已不能全胜任。需要更多针对大数据分析的数据建模方法。(6)关于大数据分析(数据采集、数据处理、数据建模、数据应用)方法现已成为新热点。一、大数据环境与数据建模概述3.大数据的发展与应用过程2014/7/26信息工程大学韩中庚7由于大数据来源复杂、体量巨大、价值潜伏、处理速度快等特点,要求利用计算机和数学技术予以实现(数据工程)。大数据分析的研究方向:(1)数据的表示与预处理方法,主要强调采集、存取、加工,使其规范化和可视化的方法。(2)数据的统计规律,侧重于对微观数据本质特征的提取和模式发现。(3)数据的分类、识别、排序、预测等建模方法和快速算法。一、大数据环境与数据建模概述4.大数据分析的研究方向2014/7/26信息工程大学韩中庚8一、大数据环境与数据建模概述大数据分析最重要的是通过分析获取智能、深入、有价值的信息,最终确定信息是否有价值和决定性因素。主要研究的理论与方法:(1)可视化分析:可视化能够直观的呈现大数据特点,并能够容易被人们所认识和接受。(2)数据挖掘算法:它是大数据分析理论的核心。通过快速高效的算法,能够将不同属性的数据规律呈现出来,能够深入数据内部挖掘出事物内在的普遍规律。5.大数据分析的研究理论与方法2014/7/26信息工程大学韩中庚9一、大数据环境与数据建模概述(3)数据质量与数据管理:高质量的数据和有效的数据管理,无论是在学术研究还是实际应用,都有助于保证分析结果的正确性和可靠性。包括:数据的采集、存贮、利用和预处理方法。(4)预测性分析方法:大数据分析目的之一是预测性分析,即预测事物未来发展的规律。建立科学合理的数学模型,对预测结果的正确性尤为重要。5.大数据分析的研究理论与方法2014/7/26信息工程大学韩中庚10二、大数据的建模分析方法(1)数据采集:将分散的、不同结构的数据源中的数据进行筛选、转换、集成,最后加载到数据库或数据集中,成为联机分析处理、数据挖掘的基础。(2)数据存取:采用关系数据库SQL、MySQL、Oracle,非关系数据库NoSQL、MongoDB等。(3)基础架构:分布式文件存储、云存储等。1.大数据技术方法2014/7/26信息工程大学韩中庚11二、大数据的建模分析方法(4)数据处理:自然语言处理技术(NLP)是研究人与计算机交互的语言问题的一门学科。它是属于信息处理与人工智能的相关技术。(5)统计分析:假设检验、T检验、F检验、显著性检验、差异分析、相关分析、方差分析、卡方分析、偏相关分析、多元回归分析、逐步回归分析、logistic回归分析、岭回归分析、残差分析、因子分析、聚类分析、主成分分析、聚类分析、判别分析、对应分析、最优尺度分析等。1.大数据技术方法2014/7/26信息工程大学韩中庚12二、大数据的建模分析方法(6)数据挖掘:分类、聚类、估计、预测、相关性分组或关联规则、描述和可视化、复杂数据类型挖掘(Text,Web,图形图像,视频,音频等)。(7)模型预测与仿真:预测模型、机器学习模型、建模仿真。(8)结果呈现:云计算、标签云、关系图等。1.大数据技术方法2014/7/26信息工程大学韩中庚13二、大数据的建模分析方法(1)数据采集:利用多个数据库接收来自Web、App或者传感器等的数据,并进行简单的查询和处理工作。(2)数据导入与预处理:要对这些海量数据进行有效的分析,需要将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集,并做一些简单的清洗和预处理工作。2.大数据分析过程2014/7/26信息工程大学韩中庚14二、大数据的建模分析方法(3)统计与分析:统计与分析主要利用分布式数据库,或者分布式计算集群来对存储的海量数据进行简单的统计分析和分类汇总等,以满足大多数常用分析方法的需求。(4)数据挖掘与数据建模:主要通过数据挖掘技术进行建模,依据现有的数据基于各种可能的有效算法进行计算,以实现分析预测、分类、聚类、识别、排序等目的。2.大数据分析过程2014/7/26信息工程大学韩中庚15三、数据处理与数据建模方法1、数据类型一致化方法(1)极小型:对某个极小型数据x,则令1(0)xxx,或xMx,即可将x极大化。(2)中间型:对某个中间型数据x,则令2()1,()22()1,()2xmmxMmMmxMxMmxMMm即可将中间型数据x极大化。2014/7/26信息工程大学韩中庚16三、数据处理与数据建模方法1、数据类型一致化方法(3)区间型:对某个区间型数据x,则令1,1,1,axxacxaxbxbxbc其中[,]ab为x的最佳稳定区间,max{,}camMb,M和m分别为x可能取值的最大值和最小值。即可将x极大化。2014/7/26信息工程大学韩中庚17三、数据处理与数据建模方法2.数据的规范化方法在实际中各类数据之间,往往存在着不可公度性,难以做统一的数据分析和比较,或许会出现“大数吃小数”的错误,导致分析结果的不合理。常用变换方法:标准差法、极值差法和功效系数法等。假设m个数据12,,,mxxx,不妨设已做了类型的一致化,并有n组观测值(1,2,,;1,2,,)ijxinjm。2014/7/26信息工程大学韩中庚18三、数据处理与数据建模方法2.数据的规范化方法令ijjijjxxxs(1,2,,;1,2,,)injm,其中1221111,[()](1,2,,)nnjijjijjiixxsxxjmnn。(1)标准差方法显然(1,2,,;1,2,,)ijxinjm的均值和均方差分别为0和1,即是无量纲的,称之为ijx的标准观测值。2014/7/26信息工程大学韩中庚19三、数据处理与数据建模方法2.数据的规范化方法(2)极值差方法令ijjijjjxmxMm(1,2,,;1,2,,)injm,其中11max{},min{}(1,2,,)jijjijininMxmxjm。则[0,1]ijx是无量纲的标准观测值。2014/7/26信息工程大学韩中庚20三、数据处理与数据建模方法2.数据的规范化方法(3)功效系数方法令ijjijjjxmxcdMm(1,2,,;1,2,,)injm,其中,cd均为确定的常数。c表示“平移量”,d表示“旋转量”,即表示“放大”或“缩小”倍数。则[,]ijxccd。譬如若取60,40cd,则[60,100]ijx。2014/7/26信息工程大学韩中庚21按规范的评价标准,对于定性数据一般分为五个等级,如A,B,C,D,E。如何将其量化?若A-,B+,C-,D+等又如何合理量化?简单地对应数字分量化方法是不科学的!根据实际问题构造模糊隶属函数的量化方法是一种可行有效的方法。3.定性数据的量化方法三、数据处理与数据建模方法2014/7/26信息工程大学韩中庚22假设对于某项定性数据分为A,B,C,D,E共5个等级:{v1,v2,v3,v4,v5}。譬如:对某事件“满意度”可化分为{很满意,满意,较满意,不太满意,很不满意}将其5个等级依次对应为5,4,3,2,1。为取连续量化值,取偏大型柯西分布和对数函数作为隶属函数:53,ln31,])(1[)(12xbxaxxxf其中ba,,,为待定常数.三、数据处理与数据建模方法3.定性数据的量化方法2014/7/26信息工程大学韩中庚2353,ln31,])(1[)(12xbxaxxxf其中ba,,,为待定常数.当“很满意”时,则隶属度为1,即1)5(f;当“较满意”时,则隶属度为8.0,即8.0)3(f;当“很不满意”时,则隶属度为0.01,即01.0)1(f.计算得,3915.0,8942.0,1086.1a3699.0b。则53,3699.0ln3915.031,)8942.0(1086.11)(12xxxxxf三、数据处理与数据建模方法3.定性数据的量化方法2014/7/26信息工程大学韩中庚2453,3699.0ln3915.031,)8942.0(1086.11)(12xxxxxf根据这个规律,对于任何一个评价值,都可给出一个合适的量化值。据实际情况可构造其他的隶属函数。如取偏大型正态分布。三、数据处理与数据建模方法3.定性数据的量化方法2014/7/26信息工程大学韩中庚25三、数据处理与数据建模方法4.数据统计分析方法(1)常用的统计检验方法:假设检验、T检验、χ2检验、F检验、显著性检验等;(2)常用的分析方法:差异分析、相关分析、偏相关分析、方差分析、多元回归分析、逐步回归分析、logistic回归分析、残差分析、因子分析、主成分分析、聚类分析、判别分析、对应分析、最优尺度分析等。(3)常用的预测分析方法:插值与拟合、多元回归、灰色系统理论、时间序列等。2014/7/26信息工程大学韩中庚26三、数据处理与数据建模方法5.多属性的综合排序方法常用方法:综合加权法、动态加权法、层次分析法、Borda函数法、TOPSIS(逼近理想点的排序)法、ELECTRE(级别高于关系的排序)法、PROMETHEE(优先函数的排序)法、LINMAP(多维偏好的线性规划)法。2014/7/26信息工程大学韩中庚27三、数据处理与数据建模方法6.聚类分析与模式识别方法聚类分析与模式识别都是对数据对象进行分类的方法,但二者有着本质的不同。(1)聚类分析方法:对于同类事物按照某些指标数据的特性(如相似程度、亲疏关系等)来进行分类的一种方法。一般事物的特性带有模糊性,为此可确定相应的模糊矩阵,通常需