SPSS案例分析

406756019
3 ℃
2020-01-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

某道路弯道处53车辆减速前观测到的车辆运行速度，试检验车辆运行速度是否服从正态分布。这道题目的解答可以先通过绘制样本数据的直方图、P-P图和Q-Q图坐车粗略判断，然后利用非参数检验的方法中的单样本K-S检验精确实现。一、初步判断1.1绘制直方图（1）操作步骤在SPSS软件中的操作步骤如图所示。（2）输出结果通过观察速度的直方图及其与正态曲线的对比，直观上可以看到速度的直方图与正太去线除了最大值外，整体趋势与正态曲线较吻合，说明弯道处车辆减速前的运行速度有可能符合正态分布。1.2绘制P-P图（1）操作步骤在SPSS软件中的操作步骤如图所示。（2）结果输出根据输出的速度的正态P-P图，发现速度均匀分布在正态直线的附近，较多部分与正态直线重合，与直方图的结果一致，说明弯道处车辆减速前的运行速度可能服从正态分布。二、单样本K-S检验2.1单样本K-S检验的基本思想K-S检验能够利用样本数据推断样本来自的总体是否服从某一理论分布，是一种拟合优的检验方法，适用于探索连续型随机变量的分布。单样本K-S检验的原假设是：样本来自的总体与指定的理论分布无显著差异，即样本来自的总体服从指定的理论分布。SPSS的理论分布主要包括正态分布、均匀分布、指数分布和泊松分布等。单样本K-S检验的基本思路是：首先，在原假设成立的前提下，计算各样本观测值在理论分布中出现的累计概率值F(x)，；其次，计算各样本观测值的实际累计概率值S(x)；再次，计算实际累计概率值与理论累计概率值的差D(x)；最后，计算差值序列中的最大绝对值差值，即）（）（iixFxSmaxD通常，由于实际累计概率为离散值，因此D修正为：）（）（1iixFxSmaxDD统计量也称为K-S统计量。在小样本下，原假设成立时，D统计量服从Kolmogorov分布。在大样本下，原假设成立时，Dn近似服从K(x)分布：当D小于0时，K(x)为0；当D大于0时，）2-（exp）1-（）（22xjxKj容易理解，如果样本总体的分布与理论分粗的差异不明显，那么D不应较大。如果D统计量的概率P值小于显著性水平α，则应拒绝原假设，认为样本来自的总体与指定的分布有显著差异如果D统计量的P值大于显著性水平α，则不能拒绝原假设，认为，样本来自的总体与指定的分布无显著差异。在SPSS中，无论是大样本还是小样本，仅给出大样本下的和Dn对应的概率P值。2.2软件操作步骤单样本K-S检验的操作步骤如图所示2.3输出结果并分析SPSS的输出结果如表所示.单样本Kolmogorov-Smirnov检验速度N98正态参数a,b均值47.988标准差11.6310最极端差别绝对值.090正.050负-.090Kolmogorov-SmirnovZ.888渐近显著性(双侧).409a.检验分布为正态分布。b.根据数据计算得到。该表表明，速度的均值为47.988，标准差为11.6310。最大绝对差值为0.090，最大正差值为0.050，最大负差值为-0.090。本例应采用大样本下D统计量的精确概率值，输出了根号nD值0.888和概率P值0.409，如果显著性水平为0.05，由于概率P值大于显著性水平，因此不能拒绝原假设，可以认为弯道处车辆减速前的运行速度服从正态分布。第13题表中数据为某条公路上观测到的交通流速度与密度数据，试用一元线性回归模型分析两者的101关系。一、一元线性回归的基本原理1.1一元线性回归模型：01Y2~(0,)N上述模型可分为两部分：（1）01是非随机部分；（2）是随机部分。β0和β1为回归常熟和回归系数该式被称为估计的一元线性回归方程。1.2模型参数估计用最小二乘法估计参数，是在关于随机误差的正态性、无偏性、同方差性、独立性这四个假设的基础上进行的。2^201miniiiiifxyyybbx为了求回归系数，0，1，令一阶导数为0，得：01201iiiiiinbbxybxbxxy从中解出：1201()()()iiixxyybxxbybx二、一元线性回归分析的假设检验：__^^222111SST()()()nnniiiiiiyyyyyySSRSSE其中：SST称为总体离差平方和，代表原始数据所反映的总偏差的大小。SSR称为回归离差平方和，它是由变量x引起的偏差，反应x的重要程度SSE称为剩余离差平方和，它是由实验误差以及其它未加控制因素引起的偏差，反映了试验误差及其它随机因素对试验结果的影响。2.1回归方程优度检验的21SSRSSERSSTSST相关系数反映了由于使用Y与X之间的线性回归模型来估计y的均值，而导致总离差平方和减少的程度。它与SSR成正比，R2的取值在0-1之间，其值越接近1，说明方程对样本数据点的拟合度越高；反之，其越接近0说明，明模型的拟合度越低。2.2回归方程的显著性检验假设01:0,H11:0H。在0H成立的条件下，有：12//nSSRnFSSE12(1)nnn上式中，n1=1，n2=n-2，F服从自由度为（1，n-2）的F分布。给定显著水平，若12(,)FFnn,拒绝原假设，表明回归效果显著。2.3回归系数的显著性检验在0H成立的条件下，有：^^t(2)xxLtn当2(2)ttn时，拒绝原假设，回归显著。注意：注意回归方程的显著性检验与回归系数的显著性检验的的区别：回归系数的显著性检验是用于检验回归方程各个参数是否显著为0的单一检验，回归方程的显著性检验是检验所有解释变量的系数是否同时为0的联合检验，分别为t检验FF检验。对于一元线性回归模型，F检验与t检验是等价的,而对于二元以上的多元回归模型，解释变量的整体对被解释变量的影响是显著的，并不表明每一个解释变量对它的影响都显著,因此在做完F检验后还须进行t检验。2.4残差均值为零的正态性分析，进行一元线性回归建模的前提是残差ε~N（0，δ2）。而结实变量x去某个特定的值是，对应的残差必然有证有负，但总体上应服从已领为君值得正态分布。可以通过绘制残插图对该问题进行分析。残插图是一种散点图，途中横坐标是结实变量，纵坐标为残差。如果残差的均值为零，则残插图中的点应在纵坐标为零的横线上、下随机散落。三、软件操作一元线性回归的软件操作步骤如图所示。四、输出结果SPSS的输出结果如表所示。模型汇总b模型RR方调整R方标准估计的误差1.972a.944.94110.0432a.预测变量:(常量),密度。b.因变量:速度该表中格列数据的含义（从第二列开始）依次是：被解释变量和解释变量的负相关系数、判定系数R2、调整的系数R2、回归方程的估计标准误差。依据该表可以进行拟合优度检验。由于判定系数R2较接近1，因此认为拟合优度较高，被解释变量可以被模型解释的部分较多，不能被模型解释的部分较少。该表各项数据的含义（从第一列开始）依次为：被解释变量的表差来源，离差平方和。自由度、方程、回归方程显著性检验中F检验统计量的观测值和概率P值。由表可知，F检验统计量的观测值为，369.56，对应的概率P值为0.000。如果显著性水平取0.05，由于概率P值小于显著性水平，所以应该拒绝原假设，认为，被解释变量与及时变量的线形关系是显著的，可以建立线性模型。系数a模型非标准化系数标准系数tSig.B标准误差试用版1(常量)153.3443.98738.462.000密度-3.893.202-.972-19.224.000a.因变量:速度该表中各列数据的含义（第二列开始）依次为：偏回归系数，偏回归系数的标准误差，标准化偏回归系数、回归系数显著性检验中t检验统计量的观测值、对应的概率P值。从表中可以看出，产量和密度对应的概率P值均为0.000。若取显著性水平为0.05，则应拒绝原假设，Anovab模型平方和df均方FSig.1回归37276.268137276.268369.566.000a残差2219.03122100.865总计39495.29823a.预测变量:(常量),密度。b.因变量:速度认为密度与速度的线性关系显著。残差统计量a极小值极大值均值标准偏差N预测值2.312123.37187.60840.258024残差-11.862221.2178.00009.822424标准预测值-2.119.888.0001.00024标准残差-1.1812.113.000.97824a.因变量:速度该表中可以看出，残差和标准残差的均值均为0，符合残差均值为零的正态性分析。综上，该公路上速度与密度的一元线性回归模型为：3441533938.K.V，其中，V表示速度，K表示密度。第17题为了分析双车道公路上驾驶人超车行为及其影响因素，应用超车试验研究了超车过程中同向的车流间隙对驾驶人换车道的影响。此次试验共采集到有效样本数据342条，表中给出了部分试验数据整理结果。请用logistic回归模型标定出换道行为模型。本题可采用二元logistic回归分析对换道行为进行标定。一、二元Logistic回归基本原理当被解释变量为0/1二分类变量时，虽然无法直接采用一般线性回归模型建模，但可充分借鉴其理论模型和分析思路。利用一般线性回归模型对被解释变量取值为1的概率进行建模，此时回归方程被解释变量的实际取值范围在0~1之间。回归方程的一般形式为：xPy101现将P转换为pp1对对两边取对数，并建立被解释变量与解释变量之间的多元分析模型，即kiiixpp10）1（ln于是有））（-（1110kiiixexpP该式即被解释变量预测为1类的模型。二、软件操作二元logistic回归模型的SPSS操作如图所示。操作中，对换道行为进行了分类设置：超车成功=1，超车失败=2。三、结果输出分类表a,b已观测已预测超车百分比校正失败成功步骤0超车失败04.0成功08100.0总计百分比66.7a.模型中包括常量。b.切割值为.5该表显示了logistic分析初级阶段（第0步，方程中只有常数项，其他回归系数约束为0），的混淆矩阵。可以看待，有4人超车失败但模型预测错误，正确率为0%，有8人超车成功模型预测正确，正确率为100%。模型总的预测正确率为66.7%。方程中的变量BS.E,WalsdfSig.Exp(B)步骤0常量.693.6121.2811.2582.000该表为方层中只有常数项时回归系数方面的指标，由于此时模型中未包含任何解释变量，该表并没有实际意义。不在方程中的变量得分dfSig.步骤0变量速度10.1701.001车头间距.5681.451车头时距3.2101.073总统计量10.8023.013该表显示了待进入方程的各解释变量的情况。可以看到，下一波速度。车头间距和车头时距进入方程，则Score检验统计量的鬼厕纸和概率P值分别依次是10.170、0.001，0.568、0.451,3.210,0.073。如果显著性水平为0.05，则由于车头间距和车头时距的概率P值大于显著性水平，所以不能进入方程。分类表a已观测已预测超车百分比校正失败成功步骤1超车失败40100.0成功08100.0总计百分比100.0a.切割值为.500因此将车头间距和车头时距移除，再看该分类表，模型的预测率为100%。从而车辆环岛行为模型的标定仅与行车速度有关。方程中的变量BS.E,WalsdfSig.Exp(B)EXP(B)的95%C.I.下限上限步骤1a速度4.7291693.794.0001.998113.156.000.常量-145.07153532.647.0001.998.000a.在步骤1中输入的变量:速度.从而得到换到行为的logistic回归模型标定结果V..pp071145-7294）1（ln（1）））0711457294（-（11V..expP（2）则式（2）为超车成功的标定模型，其中，V为行车速度。