SPSS笔记

算死草dm
2 ℃
2020-01-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1、信度分析（指标及其降维与量表的可靠性关系，即Cronbachα系数）.............................22分析——频率分析（把握数据分布特征）................................................................................33、分析——探索.............................................................................................................................44、P-P图..........................................................................................................................................45、制图.............................................................................................................................................5附加内容：参数估计.......................................................................................................................56、t检验（studentt检验）——均值的差异性............................................................................6附加：非参数检验...........................................................................................................................67、方差F检验................................................................................................................................68、单因素ANONA检验（亦是方差检验，即一维方差分析）.....................................................79、分析→一般线性模型→单变量.................................................................................................810、卡方分析（Kappa）——表示观测值At与理论值pt间的偏离程度。...............................811、相关分析（不确定性关系分析）——方向与大小方面的关联...........................................9附加：二元变量相关分析：（两个及以上变量零假设的相关性分析）.....................................912、偏相关分析：（控制可能影响性变量）...............................................................................1013、回归分析基础（确定性关系的分析）.................................................................................10附加：线性回归分析（R2、F（方差）、Sig.）........................................................................1014、主成分分析与因子分析.........................................................................................................1515、因子分析.................................................................................................................................1716、分析→分类.............................................................................................................................19分类概述（非分层的）.................................................................................................................19附加：K-means聚类过程：（用变量来实现样品的动态分类）................................................20附加：系统聚类（分层聚类）.....................................................................................................20两步聚类：（置信度Confidencelevel区别其是否有差异）......................................................211、信度分析（指标及其降维与量表的可靠性关系，即Cronbachα系数）信度界定：人们在衡量某事物的某种综合特征时，往往要从影响该事物该种特征的多个方面进行分析。例如评价某人的身体素质，就要从他的身高、胸围、脉搏、血压及肺活量等多个方面进行考虑。由这些指标的聚集构成的表称为量表。量表的结构是否合理，或者说所选择的指标是否全面反映对应事物的性质，以及指标取值的可信程度等等，需要作出判断。可靠性分析就是一种对上面几个问题进行解决的方法。基本功能：通过研究测量数值和组成研究指标的特性，剔除无效的或者对研究对象作用较小的指标，从而达到将一个多维的研究对象进行降维的目的，正是由于对分析数据进行了降维，发现了反映研究对象的数据结构，从而提高数据的可靠性。可靠性分析主要应用在用多个指标反映对象的问题，通过对多维变量进行变量降维，达到既不影响研究对象，又降低研究难度的作用。进行可靠性分析时，最常用的度量统计量是Cronbachα系数。该系数判断量表的内部一致性。当量表内的项目被标准化为标准差取1时，根据项目的平均相关系数来判断;当项目没有进行标准化时，采用项目间的平均协方差进行判断。Cronbachα系数可被看作相关系数，即该量表与所有含有其他可能项目数的量表之间的相关系数。Cronbachα系数其大小可以反映量表随机误差影响的程度，反映测试的可靠程度。Cronbachα系数系数值越大，则量表受随机误差的影响较小，越可靠。关键：1）量表的α系数为计算恒定值，如果删除CHX则α变为靠近量表的α系数，有较大提升，说明CH1的数据值得怀疑，剔除该变量有助于提高整个表的可靠性。2）标准差取1时，根据项目的平均相关系数来判断;当项目没有进行标准化时，采用项目间的平均协方差进行判断。3）Cronbachα系数系数值越大，则量表受随机误差的影响较小，越可靠。信度判断标准：Cronbach'sAlpha值注：大于0.9（很好）；大于0.8（一般）；大于0.7（提示需要修正，但勉强可以接受），低于0.7需要预示信度很差。2分析——频率分析（把握数据分布特征）统计分析的目的是研究总体的数量特征。离散：提供最常用的标准差，其中均值标准误可以粗略用于：均值差（观测均值与假设值）与标准误的比值超出[-22]的范围，则可以断定两个值不同。分布：偏度和峰度描述分布形状和对称性的统计量有关偏度的经验标准：偏度值超过标准误的两倍，可以认为分布有偏。图表：直方图（提供正态曲线）。说明：将标准化得分另存为变量。3、分析——探索1）集中趋势计量的指标是：众数、中位数、均值和总和。频数分布数列中各观察值有一种向中心集中的趋势，在中心附近的观察值数目较多，远离中心的较少，这称为集中趋势。2）离散趋势的指标有：极差、方差和标准差。反映的是一组资料中各观测值之间的差异或离散程度。离散趋势小时，集中趋势的指标值的代表性就高;与之相反的是，集中趋势小时，离散趋势的指标的代表性就高。方差（variance），是一组资料中各数值与其算术平均数的离差平方和平均数。标准差（standarddeviation），是方差的平方根。一般来讲方差和标准差的数值越小则说明数据越稳定，方案越好。3）偏度（|SK|大于2）描述频数分布数列中各观察值是否对称地分布在中心的两侧，或者说某一侧的观察值是否比另一侧的观察值对中心偏离得更远些。是衡量平均数、中位数和标准差之间的关系的，用SK表示。一般为|SK|大于2时，就算偏离程度很大了。4）峰度（kurtosis——峰度K系数为3）是频数分布的另一个性质，它是指次数曲线的高峰形态。用K表示。峰度系数为3称为常态峰，大于3称为高狭峰，其余为低阔峰。5）M估计（M-estimators）：（集中趋势的稳健估计，该统计量是利用迭代方法计算出来，一般来说受异常值影响要小的多。）常用的点估计方法有矩法估计和极大似然估计。6）正态分布的Lilliefors显著性检验：小于0.05指差异性显著，大于0.05且接近1是为齐质性或者说同质性。7）奇异值分析（箱图分析）4、P-P图Q-Q图相对P-P图来说原理很相似，使用的是实际百分位数与理论百分位数进行绘制图形，一般来说更稳健一点，但问题是没有明确的经验界值，故使用的频率较少。一般原理或者说意义：确定实际累积概率是否与理论分布的累积概率匹配，如果选定变量与检验的理论分布匹配，则点聚集在（理论分布计算的）直线周围，保持一致。5、制图附加内容：参数估计总体的参数正态分布总体N(μ,σ2)中的均值μ和方差σ2。点估计（M-estimators）：常用的点估计方法有矩法估计和极大似然估计。Huber提出的ψ函数中，常数k=1.339;Tukey提出的ψ函数中，常数k=4.685;Hampel提出的ψ函数中，常数a,b和c分别取1.7,3.4和8.5;Andrew函数中，常数c取1.34.区间估计（置信水平（1-α））：估计θ在某一个小区间内，这样就能提高可信程度。1-α是置信度，也称置信概率;α称为显著性水平。“LowerBound”和“UpperBound”项分别对应置信区间的下限和上限。6、t检验（studentt检验）——均值的差异性待检假设通常用H0表示，对立假设用H1表示。概率很小的事件在一次试验中几乎是不可能发生的，如果小概率事件在一次试验中发生了，就说明事先的假设H0为真是不下确的，因此拒绝H0,接受H1（且拒绝原假设，接受新假设，且均值越大效果更好）;否则接受H0。概率大，则可能发生，可以接受原假设。也就是Sig大于还是小于0.05（P值）。Levene检验：用于检验方差是否齐性。F检验显著（p0.05），则方差不齐（违反模型假设），反之，方差齐。上表可以看出，方差不齐，则看第二行的t值，即t=-5.99是显著的（p