-1-北京建筑大学理学院信息与计算科学专业实验报告课程名称《数据分析》实验名称数据的基本统计与非参数检验实验地点基C-423日期2016.3.17姓名班级学号指导教师成绩【实验目的】(1)熟悉数据的基本统计与非参数检验分析方法;(2)熟悉撰写数据分析报告的方法;(3)熟悉常用的数据分析软件SPSS。【实验要求】根据各个题目的具体要求,完成实验报告【实验内容】根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别对数据的“家庭收入”、“现住面积”,进行数据的基本统计量分析,撰写相应的分析报告;根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别分析不同学历对家庭收入、现住面积是否有显著影响,撰写相应的分析报告。根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析家庭收入与10000元是否有显著差异,撰写相应的分析报告。根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析婚姻状况对家现住面积是否有显著影响,撰写相应的分析报告。根据附件“减肥茶数据”给出的相关数据,请选用恰当的分析方法,分析该减肥茶对减肥是否有显著影响,撰写相应的分析报告。【分析报告】1.表一家庭收入和现住面积的基本描述统计量家庭收入现住面积N有效29932993缺失00均值17696.156762.7241均值的标准误279.64310.47349中值15000.000060.0000众数10000.0060.00标准差15298.8034125.90383方差2.341E8671.008偏度5.546.910偏度的标准误.045.045峰度55.4253.078峰度的标准误.089.089百分位数2510000.000045.00005015000.000060.00007520000.000080.0000-2-表一说明,家庭收入方面:被调查者中家庭收入的均值为17696.16元,中值为15000元,普遍收入为10000元;家庭收入的标准差和方差都相对较大,所以,各家庭收入之间有明显的差异;偏度大于零,说明右偏;峰度大于零,说明数据呈尖峰分布;由家庭收入的四分位数可知,25%的家庭,收入在10000以下,有50%的家庭,收入在15000以下,有75%的家庭,收入在20000以下;现住面积方面:被调查者中现住面积的均值为62.724平方米,中值为60平方米,普遍面积为60平方米;现住面积的标准差和方差都相对较大,所以,各家庭现住面积之间有明显的差异;偏度近似等于零,说明现住面积数据对称分布;峰度大于零,说明现住面积数据为尖峰分布;由现住面积的四分位数可知,25%的家庭,现住面积为45平方米以下,有50%的家庭,现住面积在60平方米以下,有75%的家庭,现住面积在80平方米以下。图一:家庭收入直方图该图表明,家庭收入分布存在一定的右偏。图二:现住面积直方图该图形象的展示了现住面积的数据分布比标准正态分布更陡峭。-3-表二:学历与现住面积的交叉表new總計1.002.003.004.005.00文化程度初中及以下計數7968100805預期計數779.221.22.21.11.3805.0文化程度內的%98.9%1.0%0.1%0.0%0.0%100.0%new內的%27.5%10.1%12.5%0.0%0.0%26.9%佔總計的百分比26.6%0.3%0.0%0.0%0.0%26.9%殘差16.8-13.2-1.2-1.1-1.3標準殘差.6-2.9-.8-1.0-1.2高中(中专)計數1240171001258預期計數1217.633.23.41.72.11258.0文化程度內的%98.6%1.4%0.1%0.0%0.0%100.0%new內的%42.8%21.5%12.5%0.0%0.0%42.0%佔總計的百分比41.4%0.6%0.0%0.0%0.0%42.0%殘差22.4-16.2-2.4-1.7-2.1標準殘差.6-2.8-1.3-1.3-1.4大学(专、本科)計數83251544896預期計數867.323.62.41.21.5896.0文化程度內的%92.9%5.7%0.6%0.4%0.4%100.0%new內的%28.7%64.6%62.5%100.0%80.0%29.9%佔總計的百分比27.8%1.7%0.2%0.1%0.1%29.9%殘差-35.327.42.62.82.5標準殘差-1.25.61.72.62.0研究生及以上計數29310134預期計數32.9.9.1.0.134.0文化程度內的%85.3%8.8%2.9%0.0%2.9%100.0%new內的%1.0%3.8%12.5%0.0%20.0%1.1%佔總計的百分比1.0%0.1%0.0%0.0%0.0%1.1%殘差-3.92.1.9.0.9標準殘差-.72.23.0-.24.0總計計數2897798452993預期計數2897.079.08.04.05.02993.0文化程度內的%96.8%2.6%0.3%0.1%0.2%100.0%new內的%100.0%100.0%100.0%100.0%100.0%100.0%佔總計的百分比96.8%2.6%0.3%0.1%0.2%100.0%-4-图三:学历与家庭收入直方图表二表明:首先,在所调查的2993个样本中,805个样本为初中及以下学历,1258为高中(中专)学历,896为大学(专,本科)学历,34为研究生及以上学历,分别占总样本的26.9%,42%,29.9%,和1.1%,可见高中学历居多;收入为0~5w,5w~10w,10w~15w,15w~20w,20w~25w的样本量分别为2897,79,8,4,5,各占样本的96.8%,2.6%,0.3%,0.1%,0.2%,收入在0~5w的占较大比例。其次,对不同学历进行分析。在初中及以下学历中,98.9%的家庭收入在5万以下,1%的家庭收入在5w~10w之间;在高中学历中98.6%的家庭收入在5万以下,1.4%的家庭收入在5w~10w之间;在大学学历中92.9%的家庭收入在5万以下,5.7%的在5w~10w之间;在研究生及以上学历中85.3%的家庭收入在5万以下,8.8%的家庭收入在5w~10w,2.9%的家庭收入在10w~15w之间。最后,对家庭收入进行分析。在家庭收入为5w(2897)以下的样本中,学历为研究生及以上学历的最少,为29;其他家庭收入中,大学学历的占大多数。由此可以得出,学历与家庭收入有一定的联系。但是,样本中的各学历的样本量存在一定的悬殊。这些结论从图中可以直观的展现出来。表三:不同学历的家庭收入的一致性检验结果數值df漸近顯著性(2端)皮爾森(Pearson)卡方102.257a12.000概似比81.38712.000線性對線性關聯60.1431.000有效觀察值個數2993a.13資料格(65.0%)預期計數小於5。預期的計數下限為.05。本检验的原假设是:不同学历对家庭收入是否有显著影响。如果显著性水平a设为0.05,由于卡方的概率p-值小于a,因此应拒绝假设,认为不同学历与家庭收入是否无显著影响。这种无影响主要体现在家庭收入低的比例在低学历中低于总体比例,而家庭收入高的在比例在低学历中高于总体比例表四:学历与现住面积交叉表-5-square總計1.002.003.004.005.00文化程度初中及以下計數4733072401805預期計數380.0397.526.6.5.3805.0文化程度內的%58.8%38.1%3.0%0.0%0.1%100.0%square內的%33.5%20.8%24.2%0.0%100.0%26.9%佔總計的百分比15.8%10.3%0.8%0.0%0.0%26.9%殘差93.0-90.5-2.6-.5.7標準殘差4.8-4.5-.5-.71.4高中(中专)計數65857425101258預期計數593.9621.241.6.8.41258.0文化程度內的%52.3%45.6%2.0%0.1%0.0%100.0%square內的%46.6%38.8%25.3%50.0%0.0%42.0%佔總計的百分比22.0%19.2%0.8%0.0%0.0%42.0%殘差64.1-47.2-16.6.2-.4標準殘差2.6-1.9-2.6.2-.6大学(专、本科)計數2735734910896預期計數423.0442.529.6.6.3896.0文化程度內的%30.5%64.0%5.5%0.1%0.0%100.0%square內的%19.3%38.8%49.5%50.0%0.0%29.9%佔總計的百分比9.1%19.1%1.6%0.0%0.0%29.9%殘差-150.0130.519.4.4-.3標準殘差-7.36.23.6.5-.5研究生及以上計數92410034預期計數16.116.81.1.0.034.0文化程度內的%26.5%70.6%2.9%0.0%0.0%100.0%square內的%0.6%1.6%1.0%0.0%0.0%1.1%佔總計的百分比0.3%0.8%0.0%0.0%0.0%1.1%殘差-7.17.2-.1.0.0標準殘差-1.81.8-.1-.2-.1總計計數1413147899212993預期計數1413.01478.099.02.01.02993.0文化程度內的%47.2%49.4%3.3%0.1%0.0%100.0%square內的%100.0%100.0%100.0%100.0%100.0%100.0%佔總計的百分比47.2%49.4%3.3%0.1%0.0%100.0%-6-图四:不同学历与现住面积的直方图表四表明:首先,在所调查的2993个样本中,805个样本为初中及以下学历,1258为高中(中专)学历,896为大学(专,本科)学历,34为研究生及以上学历,分别占总样本的26.9%,42%,29.9%,和1.1%,可见高中学历居多;现住面积为0~60m2,60~120m2,120~180m2,180~240m2,240~300m2的样本量分别为1413,1478,99,2,1,各占样本的47.2%,49.4%,3.3%,0.1%,0.0%,现住面积在第一和第二种情况下居多。其次,对不同学历进行分析。在初中及以下学历中,58.8%的现住面积为60m2以下,38.1%的现住面积在60~120m2之间,3%的现住面积在120~180m2之间;在高中学历中,52.3%的现住面积为60m2以下,45.6%的现住面积在60~120m2之间,2%的现住面积在120~180m2之间;在大学学历中,30.5%的现住面积为60m2以下,64%的现住面积在60~120m2之间,5.5%的现住面积在120~180m2之间;在研究生及以上学历中,26.5%的现住面积为60m2以下,70.6%的现住面积在60~120m2之间,2.9%的现住面积在120~180m2之间。最后,对家庭收入进行分析。在现住面积为60m2以下及60~120m2的样本中,学历为高中的占大多数;在现住面积120~180m2的样本中,大学学历的占大多数。由此可以得出,学历与家庭收入有一定的联系。但是,样本中的各学历的样本量存在一定的悬殊。这些结论从图四中可以直观的展现出来。表四:不同学历的现住面积的一致性检验结果數值df漸近顯著性(2端)皮爾森(Pearson)卡方174.891a12.000概似比178.93812.000線性對線性關聯131.4291.000有效觀察值個數2993a.9資料格(45.0%)預期計數小於5。預期的計數下限為.01。本检验的原假设是:不同学历对现住面积是否有显著影响。如果显著性水平a设为0.05,由于卡方的概率p-值小于a,因此应拒绝假设,认为现住面积与家庭收入是否无显著影响。这种无影响主要体现在现住面积小的比例在低学历中低于总体比例,而现住面积大的在比例在低学历中高于总体比例。3.表五:家庭收入的统计资料N平均數標準偏差標準錯誤平均值家庭收入299317696