信息分析实例全国GDP及技术贸易额统计数据(亿元)年份序号全国GDPx全国技术贸易额y1987111954.533.521988214922.372.491989316917.881.461990418598.475.101991521662.594.801992626651.9150.891993734560.5207.551994846670.0228.871995957494.9268.3519961066850.5300.2019971173142.7351.3719981276967.2435.8219991380579.2523.4120001488228.1650.7520011594346.4784.75信息分析1、绘制散点图2、建立一元线性回归模型bxayˆ3、计算回归系数2767.274604316985521167175661124720116760056612)(ˆ222xxnyxxynb9243.1711211672767.2124720ˆˆnxbnya所求回归预测模型为:xy2767.29243.171ˆ解:信息分析散点图01002003004005006007008009000100002000030000400005000060000700008000090000100000x/亿元y/亿元信息分析4.检验线性关系的显著性22220.9471()nxyxyRnxxny(y)当显著性水平α=0.05,自由度=n-m=15-2=13时,查相关系数临界值表,得R0.05(13)=0.5139,因R=0.9471>0.5139=R0.05(13)故在α=0.05显著性水平上,检验通过,说明两变量之间相关关系显著。信息分析5.预测当显著性水平α=0.05,自由度=n-m=13时,查t分布表得:t0.025(13)=2.16当2008年时,GDP为153671.7866,y的点估计值为:0ˆ69.85870.0073153671.78661051.9453()y亿元22202/011)(ˆ)x(xn)x-n(xnSmntyy75169.06111032419833.96871051.94532.1611315121333121861051.9453230.8842信息分析§2.多元线性回归●结构mmxbxbxbxbby3322110ˆ二元时:22110ˆxbxbby信息分析●参数确定min)ˆ(12niiiyyQniiiixbxbby1222110)(000210bQbQbQ22221120221221110122110iiiiiiiiiiiiiiixbxxbxbyxxxbxbxbyxxbxbnby信息分析设有n组样本),,2,1/(1nixxymiii矩阵形式:eXBYXB Y或 ˆnyyyY21mbbbB10neeee21mnnnmmxxxxxxxxX212221212111111信息分析minQXBXBYXBXBYYYXBYXBYXBYXBY''''''))('''()()'(根据:1()''',(')''''2'20(X)ABBAYXBBXYYXBB'X'YQXYX'XBBB'XX'Y所以:与是同值矩阵=信息分析例如:一电器公司对某地区电冰箱的销售情况进行了市场调查,其中,年份、电冰箱销售量Y(千台)、新结婚户数X1(千户)、居民户均收入X2(千户)的资料如表1所示:信息分析首先,分别对电冰箱销售量Y(千台)、新结婚户数X1(千户)、居民户均收入X2(千户)进行描述性统计分析,具体步骤如下:1.运行SPSS,按Analyze→DescriptiveStatistics→Descriptives顺序打开Descriptives对话框;2.选定Y、X1、X2变量送入Variable(s)栏中;选中Savestandardizedvaluesasvariables复选项,要求计算变量的标准化值,并保存在当前数据文件中;3.单击Options按钮,打开对话框,选中Mean、Sum、Std.deviation、Minimum、Maximum、Range复选项;4.在主对话框中单击OK按钮,提交运行。信息分析信息分析其次,分别考察Y变量与X1变量、X2变量的关系,对其进行相关分析,具体步骤如下:1.运行SPSS,读取数据文件后按Analyze→Correlate→Bivariate顺序单击菜单项,展开对话框;2.制定分析变量,选择源变量栏中的Y、X1、X2送入Variable(s)栏;3.分别选择Person相关,One-tailed单尾t检验,选中Flagsignificantcorrelations复选项;4.在主对话框中单击OK按钮,提交运行。输出结果如表3所示。表3表在行变量与列变量的交叉单元格上市这两个变量的相关计算结果。自上而下三个统计量分别为:PersonCorrelation——皮尔逊相关系数;Sig.(1-tailed)——单尾t检验结果。对于相关系数为0的假设成立的概率;N为参与相关系数计算的有效观测量数。信息分析表3显示,电冰箱销售量Y与新结婚户数X1、居民户均收入X2有着极强的正相关,皮尔逊相关系数分别高达0.943和0.993。信息分析最后,从表3中可以看出电冰箱销售量Y同居民新结婚户数X1、居民户均收入X2有一定关系,可用二元线性回归预测法进行预测。具体步骤如下:1.运行SPSS,读取数据文件后按Analyze→Regression→Linear顺序单击菜单项,展开对话框;2.在左侧的源变量栏中选择变量Y(电冰箱销售量)作为因变量进入Dependent框中,选择X1(居民新结婚户数)、X2(居民户均收入)作为自变量进入Independent(s)框中;3.在Method选择框中选择Stepwise(逐步回归)作为分析方式;4.提交系统执行结果。从输出的众多表格中选取表4(回归系数分析表)。其中,Model为回归方程模型编号,UnstandardizedCoefficients为非标准化回归系数,StandardizedCoefficients为标准化回归系数,t为偏回归系数为0的假设检验的t值,Sig.为偏回归系数为0的假设检验的显著性水平值。信息分析表4显示,常数(Constant)、居民户均收入(X2)具有统计意义,而居民新结婚户数(X1)因显著性水平值(t=0.834>0.5)较高而不具有统计意义。从表4中可以推出模型方程:Y=-20.771+1.387X2。若预计2006年该地区居民新婚户数为30.2千户,居民户均收入62.5千元,根据模型方程不难推出2006年电冰箱销售量Y=-20.771+1.387×62.5=65.92(千台)。信息分析§3.非线性回归预测一、常见一元非线性回归预测模型结构(1)双曲线回归模型(2)多项式回归模型(3)对数曲线回归模型(4)三角函数回归模型(5)幂函数回归模型(6)指数回归模型xbayˆkkxbxbxbxbby332210ˆxbaylnˆbSinxayˆbaxyˆxabyˆ信息分析二、参数确定的方法(1)直接换元法(2)间接代换法(如对数变换等)(3)线性化迭代方法信息分析(1)直接换元法通过简单的变量换元直接化为线性回归模型如令:由于这类模型因变量没有变形,直接采用最小平方法估计回归系数,并进行检验和预测。xbayˆxbayxaxˆ,则信息分析(2)间接代换法通过对数变形的代换间接地化为线性回归模型如令则:由于经变换后改变了因变量的形态,使得变形后模型的最小平方估计失去了原模型的残差平方和最小的意义,从而估计不到原模型的最佳回归系数,造成回归模型与原数列之间的偏差较大。baxyˆxbaylnlnˆlnaaxxyyln,ln,ˆlnˆxbayˆ信息分析(3)线性化迭代方法如:高斯—牛顿迭代方法的基本思想就是使用泰勒级数展开或去近似地代替非线性回归模型,通过多次迭代,多次修正系数,使回归系数不断逼近非线性回归模型的最佳回归系数,最后使原模型的残差平方和达到最小。xcbayˆ信息分析一元线性回归预测案例研究例:x、y两变量的观察数据如下表所示,根据数据进行回归预测。数据序号xyx2y2xy11.54.82.2523.047.2021.85.73.2432.4910.2632.47.05.7649.0016.8043.08.39.0068.8924.9053.510.912.25118.8138.1563.912.415.21153.7648.3674.413.119.36171.6157.6484.813.623.04184.9665.2895.015.325.00234.0976.50合计30.391.1115.111036.65345.09信息分析•根据前表可知:xbxayxbyaxxnyxxynb9303.22579.02579.093.309303.291.919303.23.3011.11591.913.3009.3459)(222所以有信息分析•相关系数检验。根据前表数据以及相关系数计算公式可知本例为显著线性相关。)7(666.0)7()29()2(9911.01.919165.10363.309111.1151.913.309109.345)(1)(1105.005.005.0222222rrrrnrynyxnxyxnxyr即有查表得信息分析•计算确定置信区间。计算得到置信区间为[10.42,13.54],具体计算过程如下:54.136612.0365.298.11)()2(42.106612.0365.298.11)()2(6612.01.13)37.34(9112903.2)()(112)()(22022202ySntyySntyxxxxxnnyyyS4)(令信息分析序号性别年龄身高体重序号性别年龄身高体重123456789101112131415男男男男男女女女女女男男男男男131313131313131313131314141414156.0155.0144.6161.5161.3158.0161.0162.0164.3144.0157.9176.1168.0164.5153.047.537.838.641.643.347.347.147.033.833.849.254.550.044.058.0161718192021222324252627282930女女女女女男男男男男女女女女女141414141415151515151515151515164.7160.5147.0153.2157.9166.0169.0170.0165.1172.0159.4161.3158.0158.6169.044.153.036.430.140.457.058.551.058.055.044.745.444.342.851.1三十名学生的身高与体重数据信息分析相关分析双变量相关分析偏相关分析距离相关分析点击Bivariate进行双变量相关分析。信息分析相关系数非参数资料的相关系数非正态分析资料的相关系数相关系数显著性检验标识有显著意义的相关系数单尾检验双尾检验信息分析输出变量的均值和标准差输出两变量的积差和与协方差信息分析由输出结果可知,身高与体重的