1-1第四章SPSS的基本统计分析1-2SPSS的基本统计分析频数分析-对应图表法计算描述统计量-对应数值法探索性描述分析-结合交叉分组下的频数分析多选项分析统计图-对应图形法1-3频数分析目的粗略把握变量的总体分布状况。例:对某个问题的总体看法,如新业务的使用愿望、教学效果等对某事物的客观描述,如通话的漫游类型、大客户的行业分布采用的方法制作频数分布表:包括计算频数、累计频数、百分比、累计百分比绘制统计图形:条形图(品质数据)、饼图、直方图(数量数据)1-4频数分析基本操作步骤(1)菜单选项:Analyze-DescriptiveStatistics-Frequencies(2)选择几个待分析的变量到variables框.(3)chart选项,选择所需要的图形例:班级男女生频数分布表、成绩分布表1-5频数分析•应用举例移动通话的漫游类型分析特点:定类数据使用频数、百分比、总数(不可缺少的)不使用频数表中给出的累计频数和累计百分比移动通话时间分析、移动客户话费分析特点:定序数据、数量数据除使用频数、百分比、总数外,还可以充分使用累计频数和累计百分比1-6频数分析•数据中存在缺失值•使用有效百分比(分母为有效样本数)•例:学生成绩得优率、得良率Frequencies-Format频数分布表输出按变量值、频数升序、降序输出1-7频数分析•频数分析中的其他分析•计算中位数、分位数:适用于定序、定距数据–数据按升序排序后,找到若干个分位点上的变量值–quartiles:计算四分位数25%(QL)、50%(中位数)、75%(QU)–cutpointsfornequalgroups:n等份–percentile:自定义百分位点•计算众数:适用于定类数据(但必须是数值型)1-8频数分析•频数分析中的其他分析•分位数的应用•从一个侧面比较两组样本数据的集中趋势–例:(QL=50,QU=80)和(QL=70,QU=75)的比较•在排除极端值影响的条件下,通过计算分位数差,比较两组样本数据的离散程度–例:(QL=50,QU=80)和(QL=70,QU=75)的比较分位数、中位数、众数的应用举例不同类型的移动客户月话费比较(数据拆分)利用分位数(不显示频数分布表),比较男女生成绩集中程度1-9计算描述统计量目的精确把握变量的总体分布状况,了解数据的集中趋势、离散趋势、对称程度、陡峭程度。基本方法计算基本描述统计量1-10计算描述统计量描述集中趋势的统计量均值(mean):表示某变量所有变量值集中趋势或平均水平的统计量。适用于定距定比数据。特点:利用了全部数据,易受极端值的影响。描述离散程度的统计量标准差(standarddeviation--StdDev):表示某变量的所有变量值离散趋势的统计量。SPSS中计算的是样本标准差。方差(variance):标准差的平方。SPSS中计算的是样本方差。极差(range):最大值(minimum)-最小值(minimum)1-11计算描述统计量描述对称程度的统计量偏度(skewness):描述某变量所有变量值分布形态的偏斜程度和方向的统计量.偏度为0表示对称;大于0表示正偏差大(右偏),众数比均值小,极值大于均值;小于0表示负偏差大(左偏)。niiSDxx133/)(1-n1Skewness1-12计算描述统计量描述陡峭程度的统计量峰度(kurtosis):描述某变量所有变量值分布形态陡缓程度的统计量。峭度为0表示与正态分布峭度相同。大于0表示比正态分布陡,尖峰。小于0表示比正态分布缓;平峰。3/)(1-n1Kurtosis441SDxxnii1-13计算描述统计量其他统计量均值标准误差(S.Emeans)中心极限定理认为:样本均值~N(u,2/n)反映样本均值与总体真值间的平均离散程度样本数越大,样本均值的离散程度越小,对真值的估计越准确1-14计算描述统计量基本操作步骤(1)菜单选项:Analyze-DescriptiveStatistics-Descripive(2)选择将参加计算的数值型变量名到Variables框。——仅适用于数值型变量分析比较男生和女生的学习成绩比较集中趋势比较离散趋势比较偏斜程度比较陡峭程度实现方式:数据拆分1-15其他功能数据标准化处理新变量的均值为0,标准差为1;小于0表示在平均水平下,大于0反之.正态分布的数据标准化后呈标准正态分布(68%,95%,99%)savestandardizedvaluesasvariables选项将变量作标准化后,结果存入名为“Z+原变量名”的新变量中.数据标准化处理应用举例快速找到移动话费出众的客户网通集团企业效益评价SDxxzii/)(计算描述统计量1-16探索性描述分析目的:在未知数据分布特点情况下,通过计算详尽描述统计量,辅助全面的统计图,认识数据分布。基本操作步骤(1)菜单选项:analyze-descriptivestatistics-Explore(2)选择将参加计算的数值型变量名到Dependentlist框(3)进行分组描述分析时,将分组变量选入Factlist框描述统计量:M统计量:集中趋势的估计值,不受极端值影响。用于判断有无异常值。1-17探索性描述分析相关图形箱线图茎叶图直方图正态分布图:检验变量是否符合正态分布方差齐性检验:各组离散程度是否相同H0:方差相等举例:两班学生成绩分布情况,离散程度是否相同。购买数量已婚者单身者多31%52%少69%48%列总计100%100%个案数700300购买数量男性女性已婚者单身者已婚者单身者多35%40%25%60%少65%60%75%40%列总计100%100%100%100%个案数400120300180购买数量全部样本多37.3%少62.7%列总计100%个案数1000购买流行服装1-19交叉分组下的频数分析针对定类数据和定序数据的频数分析(用于定类定序数据分析有customtable\logistic\loglinear)目的:通过了解不同变量在不同水平下的数据分布情况,判断水平对变量是否有影响例:女生的学习成绩比男生好吗?(两变量)不同专业的女生学习成绩都比男生好吗?(三变量)分析的主要步骤产生交叉列联表分析列联表中变量间的关系1-20产生交叉列联表•什么是列联表多个变量在不同取值下的数据分布频数表列变量行变量工商管理控制变量频数性别成绩优良差男女1-21产生交叉列联表基本操作步骤(1)菜单选项:analyze-descriptivestatistics-crosstabs(2)选择一个变量作为行变量到row框.(3)选择一个变量作为列变量到column框.(4)可选一个或多个变量作为控制变量到layer框.(5)是否显示各分组的条图(displayclusteredbarcharts)1-22产生交叉列联表定距数据可做适当分组后再产生列联表仅利用频数,信息利用不充分进一步计算cells选项:选择在频数分析表中输出各种百分比.row:行百分比(Rowpct);column:列百分比(Colpct);total:总百分比(Totpct);1-23分析列联表中变量间的关系目的:通过列联表分析,检验行列变量之间是否独立。方法:卡方检验:对品质数据的相关性进行度量(这里两变量均为定类数据或定序数据)1-24分析列联表中变量间的关系•卡方检验基本步骤(1)H0:行列变量之间无关联或相互独立(2)构造卡方统计量•统计量服从(r-1)*(c-1)个自由度的卡方分布•count:观察(实际)频数•expectedcount:期望频数(期望频数反映的是H0成立情况下的数据分布特征)优良中及格总数男1055323女8124125总数1817944837.535.418.88.3100eeofff22)(1-25分析列联表中变量间的关系卡方检验基本步骤(3)计算卡方统计量的值,并得到该统计量值的概率P值(4)决策。概率P与显著性水平比较,小于等于则拒绝H0,否则不能拒绝实现步骤statistics选项PearsonChi-Square:常用于行列变量独立性检验LikelihoodRatio:可用于对数线性模型检验Fisher‘sExactTest:N40,或Fe5Linear-by-LinearAssociation:线性相关卡方检验1-26卡方检验的要求:一般要求列联表中期望频数小于5的格子数不超过20%,否则会夸大卡方值,容易得出拒绝结论,可以采用精确检验。N=40,T=5,Pearson卡方检验,若P≈α,改用确切概率法检验N40,或T5,确切概率法检验1-27分析列联表中变量间的关系行列变量相关性的其他测度指标Nominal:phi系数:在2×2列联表中,通常[-1,1],负号无实际意义列联C系数(contingencycoefficient),通常为[0,1)V系数[0,1]值越大表示行列变量的相关性越大n2nC22)]1(),1min[(2crnV1-28分析列联表中变量间的关系Ordinal反映定序变量一致性指标行变量等级越高,列变量等级也越高或越低——一致性高行变量等级越高,列变量等级不定——不一致指标绝对值越大越相关,越接近0越无关1-29定序变量一致性检验年龄与工资收入交叉列联表低中高青40000中05000老00600低中高青00500中06000老40000一致一致1-30应用举例受教育程度越高通信支出越高吗?受教育程度越高通信支出比例越高吗?1-31多选项分析什么是多选项问题?(1)即:在回答某些问题时,答案在两个以上例如:请问您平时主要的休闲娱乐方式是:a.看电视、听广播b.玩游戏c.体育运动d.逛街购物e.经常去港澳游玩f.看书学习g.喝酒聊天h.工作太忙,没时间休闲娱乐又如:您经常浏览的网站?在下列品牌中您信任哪些品牌?(2)多选项问题不能直接处理。因为SPSS中的一个变量对每一个答案只能取一个值。1-32多选项分析多选项问题的处理方法(1)思路:将一个问题定义成几个变量,用这几个变量来描述该问题的几个可能被选择的答案。分别做频数分析或交叉分组下的频数分析(2)方法:多选项二分法(multipledichotomiesmethod)和多选项分类法(multiplecategorymethod)普通频数分析和交叉分组下的频数分析1-33多选项分析多选项二分法将每个答案作为一个变量,每个变量只有两个取值(0或1)。例如:变量名变量名标签编码方案X1北京大学01X2清华大学01X3人民大学01X4北京理工大学01X5北京师范大学01X6北京外国语大学011-34多选项分析多选项分类法:预先估计多选项问题可能被选择的最多答案数.为每个答案建立一个变量,取值为多选项问题的可选答案.例如:最多可选三个学校变量名变量名标签编码方案A第一选项(1)北京大学(2)清华大学(3)人民大学(4)北京理工大学(5)北京师范大学(6)北京外国语大学B第二选项(1)北京大学(2)清华大学(3)人民大学(4)北京理工大学(5)北京师范大学(6)北京外国语大学C第三选项(1)北京大学(2)清华大学(3)人民大学(4)北京理工大学(5)北京师范大学(6)北京外国语大学1-35多选项分析多选项分析的基本思路定义多选项变量集多选项频数分析多选项交叉分组下的频数分析1-36多选项分析定义多选项变量集目的:将已分解的变量定义为一个集合,便于进行多选项分析菜单选项:analyze-multipleresponse-DefineVariableSets从原变量中选取被分解的变量(数值型)到variablesinsets框指定被分解的变量是按多选项二分法(dichotomies)分解还是按多选项分类法(categories)分解的.为变量集命名。系统自