统计学基础实验分析报告实验项目综合练习实验日期2015.12.13实验地点80608实验目的熟练运用SPSS软件相关功能实验内容影响国内旅游总花费增长的主要因素可能有:人口,旅行社的发展情况,城市公共交通运营状况,农村居民家庭人均纯收入,城镇居民家庭人均可支配收入,城乡居民储蓄存款。收集数据对此进行分析。实验步骤收集数据。数据文件的预处理。单样本的t检验。配对样本的t检验。相关分析。曲线估计。两个独立样本的t检验。实验结果1、单样本的t检验单个样本统计量N均值标准差均值的标准误农村居民家庭人均纯收入(元)152638.947333953.5550472246.2068545图1-1图1-2图1-1是15位农村居民家庭人均纯收入的描述性分析,包含的统计量有:样本量N=15,平均存款金额2638.947333千元,标准差=953.5550472,均值的标准误差n=246.2068545。图1-2的单个样本的检验结果是:t检验统计量:-0.564;自由度df=N-1:14;双侧概率P值(sig)=0.581。概率P值大于显著性水平=0.05,不应拒绝原假设,即农村居民家庭人均纯收入的平均收入与2500在95%的置信度下不存在显著性差异。农村居民家庭人均纯收入的平均收入在95%的置信度下的置信区间为:[2500-389.1138,2500+667.0085]=[2110.8862,3167.0085]。2、配对样本的t检验成对样本统计量均值N标准差均值的标准误对1农村居民家庭人均纯收入(元)2638.94733315953.5550472246.2068545单个样本检验检验值=2500tdfSig.(双侧)均值差值差分的95%置信区间下限上限农村居民家庭人均纯收入(元).56414.581138.9473333-389.113851667.008517城镇居民家庭人均可支配收入(元)7974.180000153628.6409434936.9110629图2-1成对样本相关系数N相关系数Sig.对1农村居民家庭人均纯收入(元)&城镇居民家庭人均可支配收入(元)15.991.000图2-2图2-3图2-1是配对样本T检验的基本描述性统计分析,包括:均值、样本容量、标准差和均值标准误差。从两对样本的均值变化可以看出:二者的均值不完全相等,其离散程度也不完全相同。图2-2是两配对样本T检验的相关分析,包括相关系数和检验的概率P值。这两个变量的相关系数=0.991,根据直观的分析,说明二者具有线性相关。对相关系数进行显著性检验,其概率P值=0.000,小于显著性水平0.05,接受原假设,即认为农村居民家庭人均纯收入与城镇居民家庭人均可支配收入具有线性关系。成对样本检验成对差分tdfSig.(双侧)均值标准差均值的标准误差分的95%置信区间下限上限对1农村居民家庭人均纯收入(元)-城镇居民家庭人均可支配收入(元)-5335.23266672686.2335143693.5825110-6822.8192032-3847.6461301-7.69214.000图2-3是两配对样本T检验的主要结果分别是:两配对样本的平均差值:农村居民家庭人均纯收入-城镇居民家庭人均可支配收入平均差-5335.2326667;差值的标准差为2686.2335143;差值的均值标准误差为693.5825110;置信度为95%的差值的置信区间为[-6822.8192032,-3847.6461301];t统计量-7.692;自由度为14;双侧概率P值=0.000,小于显著性水平0.05,拒绝原假设,即:二者有显著性差异。3、相关分析图3-1相关性国内旅游总花费(亿元)城镇居民家庭人均可支配收入(元)国内旅游总花费(亿元)Pearson相关性1.992**显著性(双侧).000N1515城镇居民家庭人均可支配收入(元)Pearson相关性.992**1显著性(双侧).000N1515**.在.01水平(双侧)上显著相关。图3-2相关性国内旅游总花费(亿元)旅行社数量(个)国内旅游总花费(亿元)Pearson相关性1.957**显著性(双侧).000N1515旅行社数量(个)Pearson相关性.957**1显著性(双侧).000N1515**.在.01水平(双侧)上显著相关。图3-3相关性控制变量国内旅游总花费(亿元)城镇居民家庭人均可支配收入(元)旅行社数量(个)国内旅游总花费(亿元)相关性1.000.904显著性(双侧)..000df012城镇居民家庭人均可支配收入(元)相关性.9041.000显著性(双侧).000.df120图3-4从散点图3-1可以看出:国内旅游总花费与城镇居民人均可支配收入具有与相关性。图3-2中两相关变量(国内旅游总花费与城镇居民人均可支配收入)的Pearson相关系数=0.992>0,表示呈正相关;相关系数检验对应的概率P值=0.000,小于显著性水平0.05,应拒绝原假设(两变量之间不具有相关性)即国内旅游总花费与城镇居民人均可支配收入之间的相关性显著。图3-3中两相关变量(国内旅游总花费与旅行社个数)的Pearson相关系数=0.957>0,表示呈正相关;相关系数检验对应的概率P值=0.000,小于显著性水平0.05,应拒绝原假设(两变量之间不具有相关性)即国内旅游总花费与旅行社个数之间的相关性显著。图3-4两相关变量(国内旅游总花费与城镇居民人均可支配收入)的偏相关系数=0.904,呈正相关;对应的偏相关系数双侧检验概率P值=0.000,小于显著性水平0.05,应拒绝原假设(两变量之间不具有相关性)即国内旅游总花费与城镇居民人均可支配收入之间的相关性显著。不过,与国内旅游总花费与城镇居民人均可支配收入的相关分析比较:身高与肺活量的Pearson相关系数=0.992,相关系数检验对应的概率P值=0.000。说明控制变量(旅行社个数)使得国内旅游总花费与城镇居民人均可支配收入的相关性降低。4、曲线估计图4-1图4-2模型汇总和参数估计值因变量:城镇居民家庭人均可支配收入(元)方程模型汇总参数估计值R方Fdf1df2Sig.常数b1b2b3二次.973219.526212.0001272371.993-20.8388.559E-005三次.975236.630212.000398947.937.000-8.001E-0054.384E-010复合.960310.522113.000.0111.000幂.955276.035113.0007.536E-06513.320自变量为年底总人口(万人)。图4-3三次模型汇总RR方调整R方估计值的标准误.988.975.971616.341自变量为年底总人口(万人)。图4-4ANOVA平方和df均方FSig.回归179779978.692289889989.346236.630.000残差4558512.65912379876.055总计184338491.35114自变量为年底总人口(万人)。图4-5系数图4-6复合模型汇总RR方调整R方估计值的标准误.980.960.957.092自变量为年底总人口(万人)。图4-7ANOVA平方和df均方FSig.回归2.61712.617310.522.000残差.11013.008总计2.72714自变量为年底总人口(万人)。图4-8系数未标准化系数标准化系数tSig.B标准误Beta年底总人口(万人)1.000.0002.664166825.411.000(常数).011.0081.312.212因变量为ln(城镇居民家庭人均可支配收入(元))。图4-9从散点图4-1可以看出,年底总人口和城镇居民家庭人均可支配收入呈明显的曲线关系,而不是线性关系。因此,我们考虑曲线估计。图4-2是曲线模型的拟合优度检验:从拟合优度来看:四种曲线的拟合优度都较高,其中三次曲线模型最高(2R=0.975)、二次曲线模型其次(2R=0.973)、复合模型2R=0.960,最后是幂函数曲线模型2R=0.955。再结合曲线的简单性,可以首选三次未标准化系数标准化系数tSig.B标准误Beta年底总人口(万人)**2-8.001E-005.000-22.838-7.133.000年底总人口(万人)**34.384E-010.00023.768..(常数)398947.93759805.0376.671.000曲线模型或二次曲线模型。又二次曲线模型中的年度的回归系数(1b=-20.838)为负值,与实际不符,应该舍去。图4-3是从图形直观展示各种模型与观测值的拟合程度。从拟合优度的检验可知,二次曲线模型是不恰当的。三次曲线模型、复合曲线模型可选。图4-4是三次曲线模型的拟合优度检验。2R=0.975图4-5是三次曲线模型的整体性检验。对应的概率P值=0.00,小于显著性水平0.05,拒绝原假设。表示建立的三次曲线模型是恰当的。图4-6是三次曲线模型的回归系数检验。回归系数1b对应的概率P值为0.000,都小于显著性水平0.05,拒绝原假设。说明回归系数1b不显著。可见三次曲线模型不适用。图4-7是复合曲线模型拟合优度检验。2R=0.960图4-8是复合曲线模型的整体性检验。对应的概率P值=0.000,小于显著性水平0.05,拒绝原假设。表示建立的复合曲线模型是恰当的。图4-9是复合曲线模型的回归系数检验。xxbby)000.1(011.0)(10回归系数0b、1b对应的概率P值分别为0.212、0.000,0b对应的概率P值大于显著性水平0.05,拒绝原假设。说明回归系数0b不显著。复合曲线模型不合理。5、两个独立样本的t检验组统计量户口N均值标准差均值的标准误图5-1图5-2图5-1是关于两独立样本T检验的基本描述统计量。图5-2是关于两独立样本T检验的检验结果:首先,利用F检验对两总体方差是否相等的检验:Levene检验的F值=16.287,对应的P值(sig)=0.000;概率P值小于显著性水平=0.05;应拒绝原假设,即:两总体(城镇和农村户口的收入)方差不相等,没有通过Levene方差齐性检验。其次,利用t检验对两总体均值差是否存在显著性差异的检验:t统计量的值=-5.508;对应的双侧概率P值(sig)=0.000;概率P值小于显著性水平=0.05;拒绝原假设,即:两总体均值差(城镇和农村户口的平均收入差)存在显著性差异。两个总体均值差(城镇和农村户口的平均收入差)的置信度为95%的置信区间为[-7319.5674480,-3350.8978854],该置信区间不包含0,也说明两总体均值差存在显著性差异。收入农村152638.947333953.5550472246.2068545城镇157974.1800003628.6409434936.9110629独立样本检验方差方程的Levene检验均值方程的t检验FSig.tdfSig.(双侧)均值差值标准误差值差分的95%置信区间下限上限收入假设方差相等16.287.000-5.50828.000-5335.2326667968.7208860-7319.5674480-3350.8978854假设方差不相等-5.50815.924.000-5335.2326667968.7208860-7389.6218395-3280.8434939自由度df=298(=15+15-2);t统计量的分子——两个总体均值差的均值=-5335.233(=2638.947333-7974.180000);t统计量的分母——两个总体均值差的标准误差。实验分析