第九章调查资料的统计分析(1)本章结构推论统计3.多元统计4.常用统计分析软件简介5.描述统计2.概述1.调查结果的展示6.9.1概述市场调查统计分析方法类型描述统计分析•即将数据以表格、图形或数值形式表现出来,主要着重于对数量水平或其他特征的描述。•可能是通过某具体指标反映某一方面的特征,也可能是通过若干变量描述它们的相互关系。–但不具有推断性质。推论统计分析•即通过样本推断总体。•这类方法对数据的收集方法、变量的选择、测度的决定、资料的时间空间范围有严格限制,必须符合严格的假设条件。•其结果不仅可用于描述数量关系,还可以推断总体,进行预测,揭示原因以及检验理论等。描述统计分析案例男64%女36%对景观的满意程度915.815.815.83256.156.171.91221.121.193.047.07.0100.057100.0100.0非常满意满意一般不满意TotalValidFrequencyPercentValidPercentCumulativePercent非常满意16%不满意7%一般21%满意56%推论统计分析案例采用简单随机抽样方法从甲乙两学校各自抽取100位学生,甲学校样本在体育锻炼上平均每周花费时间为120分,样本标准差为30,乙学校样本在体育锻炼上平均每周花费时间为110分,标准差为10,两个学校的学生在平均每周体育锻炼时间上有没有显著差异?甲班乙班第二节描述统计分析定量数据描述统计分析2.定性数据描述统计分析1.数值表示图示,表示数值表示图示多变量相关分析3.定性数据定量数据案例数据(表9-2某公司30名职工数据)员工号受教育年数(年)职位年薪(元)工作资历员工号受教育年数(年)职位年薪(元)工作资历114030150116120171002216036600117120252002380177001182016925024120261001191502670025121594001201203090026161472501211804395027150370501221203150028150277501231704020039151387001241504110031016040350125160348003111203390012612030900312120199501271919200031319152125128191110625314161402002291911350003158019800230120262503定性数据职位:0表示一般职员,1表示管理者工作资历:1表示工作年限低于5年;2表示工作年限在6-10年;3表示工作年限大于10年定量数据受教育年数(年)年薪(元)一、定性数据描述统计分析——频数分布表频数分布表:频数分布是数据的表格汇总,表示在几个互不重叠的组别中每一组项目的频数和百分比。频数百分比累计百分比工作年限低于5年1343.33%43.33%工作年限在6-10年930.00%73.33%工作年限大于10年826.67%100.00%总计30100.00%一、定性数据描述统计分析——图示饼图:以圆的整体面积代表被研究现象的总体,按各构成部分占总体比重的大小把圆面积分割成若干扇形来表现部分与总体的比例关系。饼图一般只能用于单选问题。饼图不能切成太多的部分,一般不要超过7部分。4~9平方米35%9~14平方米35%14平方米以上23%4平方米以下7%某城市商品房住户人均居住面积饼图一、定性数据描述统计分析——图示线图又称曲线图,即利用线段的升降来说明现象的变动情况,主要用于表示现象在时间上的变化趋势、现象的分配情况和两个现象之间的依存关系。包括简单线图和复合线图。图9-3北京市商品房住户人均居住面积区域分布曲线图0102030404以下4~99~1414以上人均居住面积(平方米)比例%南部地区北部地区一、定性数据描述统计分析——图示条形图:是利用相同宽度的条形的长短或高低来表现数据的大小与变动。如果条形图横排,也可称为带形图,纵排也可称为柱形图。表现各种不同数值资料相互对比的结果。条形图可分为简单条形图和复合条形图。图9-4北京市商品房住户人均住房面积条形图0102030404以下4~99~1414以上人均居住面积(平方米)比例%一、定性数据描述统计分析——数值表示众数(mode)表示一组资料或资料中出现次数最多或最常见的数值。在市场调查资料中,众数代表了最典型的个案,或分布的高峰所对应的变量值。例如,在A、B、C、D四个品牌中,最受消费者偏爱的是品牌D,那么品牌D或品牌D所对应的编码(变量值)就是众数。众数简单直观,主要用于描述定类变量的中心;但是众数可能会因为资料中个别值的变化而有较大的变化,因而是很不稳定的。EXCEL中计算众数的函数为:MODE(区域)一、定性数据描述统计分析——数值表示中位数(median)表示一组资料按照大小的顺序排列时中间位置的那个数值。有50%的个案(按某个变量)的取值在中位数之下,50%在它之上。中位数实际上就是一个50百分位数。例如,在某市的调查中13个商场一周的营业额(X)按从小到大的顺序排列为(万元):23,35,47,59,88,102,145,198,230,256,278,345,388中位数主要适用于顺序变量,对极端值不敏感。EXCEL中计算中位数的函数为:MEDIAN(区域)某企业生产了两批钢筋,每批各10根,它们的抗拉强度指标如下,判断:下列两类情况哪一批钢筋更理想:第一批:808596979797100110111120第二批:90100120125130130135140145145第一批:110120120125125125130130135140第二批:90100120125130130135140145145第一批:110120120125125125130130135140第二批:90110124125130137139140145145在这三情况中,抗拉强度更好批次分别是:第二批;第一批;第二批二、定量数据描述统计分析二、定量数据描述统计分析——直方图直方图:先把定量数据分组;把研究的变量放在横轴,每组的频数或百分比放在纵轴;每组的频数或百分比用一个长方形绘制,长方形的底是组宽,高是每组相应的频数或百分比。一次休闲度假活动时间一般为几天12.010.08.06.04.02.06050403020100Std.Dev=1.87Mean=3.0N=108.00定量数据的数值表示表9-4EXCEL对公司员工年薪的描述分析描述集中趋势描述离散趋势描述对称和偏斜程度年薪平均42750标准误差4927.011中位数35700众数40200标准差26986.35方差7.28E+08峰度4.815795偏度2.169985区域117900最小值17100最大值135000求和1282500观测数30定量数据的数值表示集中趋势分析:就是确定数据一般水平的代表值或中心值,常用的指标有三种,即平均数、中位数和众数。平均数,也称为均值(mean),等于变量值之和除于个案数。平均数是最典型的也是最常用的统计量,适用于等距的和等比率的变量。平均数也是最“有意义”的统计量,它可以看成是资料的“平衡点”或“中心”位置所在。由于平均数的计算需要用到所有的资料,因此与中位数和众数相比,它所含的讯息量最大。但是平均数对个别极端值的变化会是很敏感的。nxnxxxxniin121定量数据的数值表示——离散趋势分析除了用上述典型的统计量描述分布的中心位置外,还要用一些统计量描述分布围绕中心向两个方向分散(伸展)的程度。方差和标准差:反映所有观测值对均值的离散关系。方差或标准差越大,均值的代表性越差。EXCEL中方差和标准差的计算函数为:VAR(区域)和STDEV(区域)2SS1)(122nxxSnii补充SPSS基础知识三、多变量相关分析——定性数据定性变量间的相关分析交叉列联表分析定量变量间的相关分析散点图(Scatterdiagram)相关系数(Coefficientofcorrelation)定性变量间的相关分析——交叉列联表分析交叉列联表分析是同时描述两个或两个以上变量联合分布的统计技术。进行交叉列联分析的变量必须是离散变量,并且只能有有限个取值,否则要进行分组。两变量的交叉列联分析列联表可以清楚地表示两个类别变量之间的相互关系。居住时间与对百货商场的熟悉程度的交叉列联分析单位:频数熟悉程度居住时间13年以下13-30年30年以上合计不熟悉453455134熟悉525327132合计978782266居住时间与对百货商场的熟悉程度的交叉列联分析单位:%熟悉程度居住时间13年以下13-30年30年以上不熟悉46.439.167.1熟悉53.660.932.9合计100.0100.0100.0列百分比居住时间与对百货商场的熟悉程度的交叉列联分析单位:%熟悉程度居住时间13年以下13-30年30年以上行合计不熟悉33.625.441.0100.0熟悉39.440.120.5100.0行百分比比较上面两个表,你选择哪种百分比?建议:对自变量取百分比自变量为列变量,取列百分比自变量为行变量,取行百分比020406080100%18-192.46.917.569.920-293.65.711.276.930-392.23.77.884.140-491.12.45.488.450-590.51.44.291.160-690.80.92.692.8总在用经常用偶尔用从不用使用电脑的程度与年龄成反比不同文化程度的公众在工作中使用电脑的情况0%50%100%从不用95.494.892.874.948.935偶尔用0.20.33.715.12724.5经常用0.40.30.85.713.224.3总在用0.10.20.22.310.716小学以下小学初中高中或中专大专大学三变量的交叉列联表分析引入第三变量后再进行交叉列联分析,则可能出现以下四种结果:剔除外部环境的影响,使原先两变量间的关系更单纯。否定原先两变量间的关系。尽管原先观察两变量间没有关系,第三变量的引入可能揭示了它们之间的一些联系。没有影响。例1:婚姻状况和衣服支出水平衣服支出水平婚姻状况已婚未婚高31%52%低69%48%合计100%100%个案数700300性别、婚姻状况和衣服支出水平衣服支出水平性别男女婚姻状况婚姻状况已婚未婚已婚未婚高35%40%25%60%低65%60%75%40%合计100%100%100%100%个案数400120300180婚姻状况和衣服支出水平仅分析婚姻状况和衣服支出水平这两个变量时,从数字上看未婚者在衣服支出方面比已婚者更高一些。但引入变量性别以后,发现对于男性来说,已婚者与未婚者在衣服支出方面没有显著差异,但对于女性未婚者与已婚者,在衣服支出方面的差异则很明显例2:受教育水平对私家车拥有状况的交叉列联分析私家车受教育水平本科及以上本科以下有32%21%没有68%79%合计100%100%个案数250750收入、受教育水平对私家车拥有状况的交叉列联分析私家车收入低高受教育水平受教育水平本科及以上本科以下本科及以上本科以下有20%20%40%40%没有80%80%60%60%合计100%100%100%100%个案数10070015050例3:年龄和出国旅行欲望的交叉列联分析是否希望出国旅行年龄45岁以下45岁及以上是50%50%不是50%50%合计100%100%个案数500500性别、年龄和出国旅行的欲望进行交叉列联分析是否希望出国旅行性别男女年龄年龄45岁以下45岁及以上45岁以下45岁及以上是60%40%35%65%不是40%60%65%35%合计100%100%100%100%个案数300300200200例4:家庭规模对是否经常吃快餐的交叉列联分析是否经常吃快餐家庭规模小大是