观察和实验是科学家探究自然的主要方法,但如果你有数据,那么如何让这些数据开口说话呢?数据用现代人的话说即信息,信息的挖掘与分析也是建模的一个重要方法。数据分析建模简介1.科学史上最有名的数据分析例子开普勒三定律数据来源:第谷·布拉赫(1546-1601,丹麦人),观察力极强的天文学家,一辈子(20年)观察记录了750颗行星资料,位置误差不超过0.67°。观测数据可以视为实验模型。数据处理:开普勒(1571-1630,德国人),身体瘦弱、近视又散光,不适合观天,但有一个非常聪明的数学头脑、坚韧的性格(甚至有些固执)和坚强的信念(宇宙是一个和谐的整体),花了16年(1596-1612)研究第谷的观测数据,得到了开普勒三定律。2.数据分析法2.1思想采用数理统计方法(如回归分析、聚类分析等)或插值方法或曲线拟合方法,对已知离散数据建模。适用范围:系统的结构性质不大清楚,无法从理论分析中得到系统的规律,也不便于类比,但有若干能表征系统规律、描述系统状态的数据可利用。2.2基础知识(1)数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出;(2)数据分析(dataanalysis)是指分析数据的技术和理论;(3)数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律;2.3常用的统计方法在实际问题的数学建模中,常用的统计方法有数据的统计描述和分析、统计推断、相关性分析、方差分析、回归分析、因子分析、主成分分析、聚类分析和判别分析等。1数据的描述性统计针对一组杂乱无章的数据(即样本),描述性统计的步骤为:初步整理和直观描述----作出频数表和直方图进一步加工,提取有用信息----计算统计量统计量:用来进一步反映数据特征,它是加工出来的,反映样本数据特征的函数,它不含任何未知量,大致可以分三类:(1)表示位置的统计量----样本均值、中位数、上下1、4分位点(2)表示变异程度的统计量----标准差、方差、极差(3)表示分布形状的统计量----偏度、峰度表1某地区45年来降水量数据(单位:毫米)年份1月2月3月4月5月6月7月8月9月10月11月12月年总计11082559223012734110412744462612842207716993162106481301406321110303244711446160201901658577463510904103942522435147056843229338920315145315910311148955160280120119364314185107245196727852244975752426014815324229511215301423113228634898269181171153061131551332141093116087243175519460586810260154910236621667110199119231042466010171119261601057924732301545610026103412165413136148203385416108327139162113024772231269166327321075261095143588911962303796032711456111344151886401834416881734961573889816182844100111110870198650517041752651391271557610168145681602115818430120841388220057802332104963196744106162652055304802713821727第一步:探索性数据分析(统计方法)1.做出相关图形:散点图、直方图、频数表等\plot(A(:,1),'*')%绘制散点图\hist(A(:,1))%绘制直方图\直方图:hist(A(:,1))\频数表:tabulate(A(:,1))-----------经过观察无明显规律。2.计算相关的统计参数:频数表、均值、方差、标准差、偏度、峰度、协方差矩阵等tabulate(A(:,1))%频数表M=mean(A);%均值V=var(A);%方差S=std(A);%标准差y=skewness(A)%偏度【解读】:偏度用于衡量样本均值的对称性,若偏度为负,则数据均值左侧的离散型比右侧的强;若偏度为正,则右侧的离散性比左侧的强。严格对称分布的偏度为0。【结果】:0.999341.02840.706010.567340.403540.67791.90551.39920.558982.32320.822741.13270.62368。-----------------------------全部右偏。k=kurtosis(A)%峰度【解读】:峰度是分布形状的另一种度量,若比3(正态分布的峰度)大得多,表示分布有沉重的尾巴,说明样本中有较多远离均值的数据。【结果】:3.67844.32383.12952.58773.00652.73286.59224.24582.443110.2692.81314.31742.8452;------------------------------10月分布最分散。2统计推断统计推断主要有参数估计和假设检验。参数估计:点估计、均值的区间估计和方差的区间估计假设检验:均值检验、方差检验【例】:学校学生的身高构成一个总体,通常认为身高是服从正态分布的(这就是问题的基本假定),从这群人中随机抽出n人,量得身高为(这就是观测数据),它受到随机性的影响。若要估计这群人的平均身高,即上述正态分布的均值(这种估计就是一种推断形式,此处估计的对象是总体分布中的未知参数,故又称为参数估计)。若感兴趣的问题是“平均身高是否超过1.7米”就需要通过样本检验关于总体分布的命题“”是否成立?(这便是假设检验)例:X=[216,203,197,208,206,209,206,208,202,203,206,213,218,207,208,...202,194,203,213,211,193,213,208,208,204,206,204,206,208,209,...213,203,206,207,196,201,208,207,213,208,210,208,211,211,214,...220,211,203,216,224,211,209,218,214,219,211,208,221,211,218,...218,190,219,211,208,199,214,207,207,214,206,217,214,201,212,...213,211,212,216,206,210,216,204,221,208,209,214,214,199,204,...211,201,216,211,209,208,209,202,211,207,202,205,206,216,206,...213,206,207,200,198,200,202,203,208,216,206,222,213,209,219];[H,p]=jbtest(X,0.05)%P为接受假设的概率值,P越接近于0,则可以拒绝是正态分布的原假设;H=0p=0.7281[mu1,sig1,mu_ci,sig_ci]=normfit(X,0.05);mu=[mu1,mu_ci']mu=208.8167207.6737209.9596%该分布的均值及置信区间sig=[sig1,sig_ci']sig=6.32325.61187.2428%该分布的方差及置信区间3相关性分析在现实问题中,常会遇到没有因果关系的变量x与y(地位对称),比如:(1)一个家庭的月收入x与这个家庭的孩子数量y;(2)一个人的身高x与他的体重y等。这里x与y无因果关系,但它们之间却存在着一定的关系,如(2)中,一般来说个子高的人体重也大一些。因此,人们希望了解这些x、y之间关系究竟密切到了什么程度?这就需要统计意义下的相关。相关分析的步骤:建立样本相关系数,这是衡量x、y之间关系密切程度的指标。主要任务:由x、y的一些观测值如估计及检验有关的假设,如(一般地,当时,x、y不相关;时,x、y有正(负)相关)。12211()()cov(,)()()niiixynniiiixxyyxyxxyyρ===−−==−⋅−∑∑∑例:从某大学中随机选择10名男生,的观测值如表3。表3身高与体重观测值身高(x)1.711.631.841.901.581.601.751.781.801.64体重(y)65637075605564696558计算相关系数:;设(x,y)服从正态分布,考虑假设检验问题:H0:x与y线性不相关,取显著水平,查表得所以拒绝H0,即x与y的线性相关性高度显著,即格子高的人一般体重也要大些。0.91xyρ=0.01α=22282222()()(0.005)3.355,0.7650.912()nnntttcntααα−−−====−+[R,P]=corrcoef(A(:,1:12))%相关系数【解读】:R返回相关系数矩阵;P用于检验假设:如果P(i,j)较小,小于0.05,则相关性显著。【结果】:10.14954-0.0702860.275930.359910.0876250.363590.10318-0.199650.11190.175580.0507810.149541-0.13830.183860.239310.19440.085131-0.108860.089692-0.133870.1292-0.062304-0.070286-0.13831-0.31307-0.12404-0.024753-0.21859-0.00647740.093672-0.23614-0.00043908-0.321150.275930.18386-0.3130710.138120.053880.187490.06594-0.156890.14996-0.0268470.293840.359910.23931-0.124040.1381210.0343330.20326-0.0601450.142320.014662-0.23735-0.0186650.0876250.1944-0.0247530.053880.03433310.045256-0.058771-0.14980.0018883-0.0619870.184250.363590.085131-0.218590.187490.203260.04525610.32935-0.063454-0.1313-0.0779310.21040.10318-0.10886-0.00647740.06594-0.060145-0.0587710.329351-0.037819-0.0293-0.011184-0.24315-0.199650.0896920.093672-0.156890.14232-0.1498-0.063454-0.03781910.0599680.15171-0.145610.1119-0.13387-0.236140.149960.0146620.0018883-0.1313-0.02930.05996810.1106-0.183250.175580.1292-0.00043908-0.026847-0.23735-0.061987-0.077931-0.0111840.151710.11061-0.0261650.050781-0.062304-0.321150.29384-0.0186650.184250.2104-0.24315-0.14561-0.18325-0.0261651相关系数表格(R)10.326870.646380.0665490.0151660.567070.0140840.500010.188550