信息分析与决策Chapert3-2 数据的特征分析与描述(1)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第3章数据的特征与描述(2)3.7交叉分组下的频数分析通过基本的频数分析能够掌握单个变量的数据分布情况。但在实际分析中,不仅需要了解单变量的分布特征,常常需要分析多个变量不同取值下的分布,掌握多变量的联合分布特征,从而进一探讨变量之间的互相影响和关系。3.7交叉分组下的频数分析Ex:对居民储蓄问题的分析Data:“居民储蓄调查数据.sav”分析任务:分析不同特征的储户群(如城镇储户和农村储户)对调查问题的态度储户特征和所调查问题之间的关系。3.7交叉分组下的频数分析交叉分组下的频数分析又称为列联表Crosstabulation分析两大基本任务:根据收集到的数据产生二维或多维的交叉列联表.在交叉列联表的基础之上,对两两变量间是否存在一定的相关性进行分析。3.7交叉分组下的频数分析命令:AnalyzeDescriptiveStatisticCrosstabs…3.7交叉分组下的频数分析结果:二维的交叉列联表观察频数和各种百分比总户数282282户中,城镇户口为200,农村户口为82,构成的分布为交叉列联表的列边缘分布61,175,46为行边缘分布,为认同未来收入增加,基本不变,减少的人的频数统计值3.7交叉分组下的频数分析18,41,23为在农村户口中,认同未来收入增加,基本不变,减少的户数的频数分布。由于频数不利于交叉分组下的分布比较,引进了相应的百分比。认为未来收入会增加的61户中,城镇户口为43户,农村户口占18户,这一分布被称为交叉列联表的条件分布。即在行或列的取值条件下的分布。3.7交叉分组下的频数分析21.5%为200户城镇人口中认同未来收入会增加的人所占的百分比,为行百分比70.5%为认同未来收入会增加的61户中,城镇人口所占的百分比。为列百分比15.2%为认同收入增加的城镇人口43户占总户数282的百分比,称为总百分比。3.7交叉分组下的频数分析分析:城镇和农村储户对“未来两年内收入状况的变化趋势”是否持相同的态度?3.7交叉分组下的频数分析在所调查的282个样本中,城镇户口200,农村户口82,分别占总样本的70.9%和29.1%,可见城镇户口占多数。认为未来收入会增加,基本不变,减少的样本数分别为61,175,46,各占样本的21.6%,62.1%,16.3%,因此认为未来收入基本不变的占较大的比例。3.7交叉分组下的频数分析在城镇储户(200)中,认为未来收入会增加,基本不变,减少的样本数分别为43,134,23,占总样本比例为21.5%,67%,11.5%,认为未来收入不变的占较大比例。农村户口中82户,样本数分别为18,41,23,各占总样本(82)的22.0%,50.0%,28%,这说明认同未来收入不变的仍占较大比例,但认为未来收入会减少的比例高于会增加的比例。对不同类储户进行分析3.7交叉分组下的频数分析在认为未来收入会减少的的46个样本中,城镇储户和农村储户均为23,各占50%。比例相当。在认为未来收入会增加的样本(61)中,城镇户口和农村户口分别为43,18,百分比为70.5%和29.5%,比例相差较大。对不同看法进行分析在认为基本不变的175个样本中,城镇储户和农村储户分别为134和41,各占总样本(175)的76.6%和23.4%,比例差距进一步加大。3.7交叉分组下的频数分析分析总结:总体上讲,较大部分储户认为未来收入会基本不变,且认为收入会增加的比例高于会减少的比例;城镇储户中认为收入会增加的比例高于会减少额比例(70.5%50%),但农村储户认为收入会增加的比例低于减少的比例(29.5%50%).可见,城镇和农村储户在对该问题的看法上存在分歧。3.7交叉分组下的频数分析上述分析,在分组展示的Bar图中得到直观的印证。选中,显示分组的Bar图3.7交叉分组下的频数分析多维的交叉列联表Ex:职工基本情况数据的交叉列联分析Data:“数据加工职工数据.sav”命令:AnalyzeDescriptiveStatisticCrosstabs…3.7交叉分组下的频数分析性别变量定义为层变量Layer,生成一张涉及三变量的三维的交叉列联表。反映不同性别和不同职称以及不同文化程度交叉分组下职工频数分布情况。3.7交叉分组下的频数分析3.8多重反应分析SPSS的多重反应分析(MultipleResponse)又称为多选项分析,主要是针对问卷调查的多选问题。多选问题在问卷调查中普遍存在,要求被调查者从高问卷中给出的若干个可选答案中选择1个以上的答案。但SPSS变量每个变量只对应一个值,因此出现多个选项答案时,要特别处理。3.8多重反应分析处理方法二分法MultipleDichotomiesMethod分解问题,将多选项问题中的每个答案看成一个0/1变量,分别表示是否选择了答案。Ex:某商业公司在进行消费者偏好调查中,为分析消费者消费倾向性,设计了以下问题:Q-请按次数选择您经常购买物品的场所:(1)超市(2)大型商店(3)专卖店(4)网购(5)不固定这是一个多选问题,二分法将其分解为5个小问题,设置5个相应的0/1变量。变量名Name标签LableValueS1经常去超市购物吗?0/1S2经常去大型商场购物吗?0/1S3经常去专卖店购物吗?0/1S4经常网购吗?0/1S5购物场所不固定吗?0/1如果一个消费者选择了超市,大型商场和网购,则S1,S2,S4的取值为1,其余变量为0。利用二分法解决问卷中多选项问题的统计。3.8多重反应分析处理方法分类法MultipleCategoryMethod基本思想:估计多选项问题最多可能出现的答案数,然后为每个答案定义一个变量,变量的取值为备选答案。3.8多重反应分析Ex:某地区高三学生的高考志愿调查中,为分析学生填报志愿的倾向性,设计了如下问题:Q:按照你的志愿,请按顺序依次选择你打算报考的三所大学:(1)北京大学(2)清华大学(3)中国人民大学(4)北京师范大学(5)北京航空航天大学(6)北京外国语大学3.8多重反应分析根据问题要求,采用分类法设置三个SPSS变量,如下定义SPSS变量名LableValueV1志愿一1/2/3/4/5/6V2志愿二1/2/3/4/5/6V3志愿三1/2/3/4/5/6若某考生选择了北大,清华和北航,则变量V1,V2,V3依次取值1,2,5.分析案例实例:消费者购物场所的调查Data:response.sav45名消费者调查进场购物场所的结果。年龄:1-中老年人,2-青年人性别:1-男性,2-女性六个备选答案,每个设置了一个变量分析案例操作:Step-1定义多重数据集AnalyzeMultipleResponseDefineSets二分法分解将定义好的多选项变量集加入到MultResponseSets中分析案例Step-2多选项频数分析AnalyzeMultipleResponseFrequencies分析案例结果:从频数表中看出,45份的调查表中,选择在不同场所购物有136次,其中选择经常在超市购物游16人,网购29人,说明调查人员中,网购已逐渐成为主流。分析案例Step-3多重反应列联表分析MultipleResponseCrosstabsAnalyzeMultipleResponseCrosstabs分析案例分析结果可以得到不同年龄层次人对不同购物方式选择的各种百分比。数据表明76.5%的老年人会选择在专卖店购物,体现他们对品牌的信赖。58%的老年人趋向于超市或批发市场,网上购物则只有41.2%。而年青人网购的比例达到78.8%,成为购物主要方式。分析案例分析结果从表中可以看出不同年龄结构的被访者对选择购物场所的态度,超市的购物人群中,中老年人占较大比重62.5%,年青人只占37.5%。而网购的人员构成中,年轻人占到75.9%,体现出年轻人追赶时尚的趋势。整体分析中年青人占购物群体的主体62.2%,在购物场所的选择方面,网购比例占到64.4%,逐渐成为购物的主流方式。3.9探索性分析探索性分析是指对数据的探索和考察。通过对数据的分析,寻求和确定适合所研究问题的统计方法。SPSS的数据探索过程Explore,是解决此类问题的有效方法。3.8探索性分析探索过程提供了很多关于数据的概括分析和图表直观描述的方法,不仅对个案数据有效,而且还可以针对分组个案。探索过程的因变量必须是定距型变量,分组变量可为定序或名义级变量。3.8探索性分析对数据进行初步的考察考察数据中是否有明显不合理的数值,通常是过大或过小的极端值Extremevalues以及不符合现实的离群点outliers.通过分析原因,决定是否从数据文件中剔除或者进行相关处理。3.8探索性分析Ex:1代表男性,2代表女性,若性别栏里出现了3,则是显然的不合理。原因可能是误录。这种情况可以根据分析问题的性质决定提出此个案或随机指定一个值处理。3.8探索性分析对数据分布的假设检验在统计分析理论中,要求对数据的分布有一定要求。例如,线性回归分析要求残差服从均值为0的正态分布,很多统计方法对样本要求来自正态总体。检测假设条件是否成立,决定分析问题时选用的统计方法。这就涉及对数据分布的检验问题。3.8探索性分析对数据的直观初步分析对于分组数据和不分组的数据,可以利用SPSS提供的各种描述统计量和图表进行直观分析。例如,散点图,直方图,茎叶图,箱图和样本均值,样本标准差等,借助这些方法可以对数据的分布有一个全面和准确地认识。实例分析Ex:工厂利用氯化银生产陶瓷轴承品,必须保持1500度或更高的温度。标准合金的耐热温度服从正态分布,现对一种新型合金的耐热性进行测试,分别在8个生产车间进行了240次对比试验,对这种新型合金进行探索分析。并给出分析结论。实例分析Data:explore.sav操作:AnalyzeDescriptiveStatisticsExplore…实例分析结果分析:过程概述表中给出参与分析的个案数,缺失值信息以及其他分组信息等。实例分析描述性统计量显示两种不同合金的描述性统计量列表。利用该表的统计量可以比较两种合金的相关关系。实例分析探索性分析的极值统计两种合金的五种最大,最小值。实例分析正态性检验正态性检验包括了Kolmogorov-smirnov和Shapiro-Wilk检验。标准合金的概率值p都大于0.05,通过正态性检验,可以认为标准合金的温度分布服从正态分布。但新型合金的概率p值都小于0.05,没能通过正态性检验,不能认为新型合金温度的分布服从正态分布。实例分析茎叶图新型合金温度均匀分布在1530-1543之间,然后再更高的温度时逐渐分散。实例分析茎叶图标准合金的温度变化分布在1510左右,然后向两边逐渐分散,呈现出较明显的正态性,进一步验证了正态性检验的结果。实例分析探索分析的箱图箱图中可以看出两种类型的合金温度值的分布:标准合金的温度分布上下较均匀。而新型合金的温度分布上下存在不对称性。课后练习数据文件:“居民储蓄调查数据.sav”分析要求:采用多选项的分类法分析“居民储蓄调查数据”实现以下两个分析目标。1)分析储户的储蓄目的2)分析不同年龄段储户的的储蓄目的提示:由于调查问卷中,储蓄目的是一个多选项问题,设定选择最多三个目的。

1 / 47
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功