1、信度分析(指标及其降维与量表的可靠性关系,即Cronbachα系数).............................22分析——频率分析(把握数据分布特征)................................................................................33、分析——探索.............................................................................................................................44、P-P图..........................................................................................................................................45、制图.............................................................................................................................................5附加内容:参数估计.......................................................................................................................56、t检验(studentt检验)——均值的差异性............................................................................6附加:非参数检验...........................................................................................................................67、方差F检验................................................................................................................................68、单因素ANONA检验(亦是方差检验,即一维方差分析).....................................................79、分析→一般线性模型→单变量.................................................................................................810、卡方分析(Kappa)——表示观测值At与理论值pt间的偏离程度。...............................811、相关分析(不确定性关系分析)——方向与大小方面的关联...........................................9附加:二元变量相关分析:(两个及以上变量零假设的相关性分析).....................................912、偏相关分析:(控制可能影响性变量)...............................................................................1013、回归分析基础(确定性关系的分析).................................................................................10附加:线性回归分析(R2、F(方差)、Sig.)........................................................................1014、主成分分析与因子分析.........................................................................................................1515、因子分析.................................................................................................................................1716、分析→分类.............................................................................................................................19分类概述(非分层的).................................................................................................................19附加:K-means聚类过程:(用变量来实现样品的动态分类)................................................20附加:系统聚类(分层聚类).....................................................................................................20两步聚类:(置信度Confidencelevel区别其是否有差异)......................................................211、信度分析(指标及其降维与量表的可靠性关系,即Cronbachα系数)信度界定:人们在衡量某事物的某种综合特征时,往往要从影响该事物该种特征的多个方面进行分析。例如评价某人的身体素质,就要从他的身高、胸围、脉搏、血压及肺活量等多个方面进行考虑。由这些指标的聚集构成的表称为量表。量表的结构是否合理,或者说所选择的指标是否全面反映对应事物的性质,以及指标取值的可信程度等等,需要作出判断。可靠性分析就是一种对上面几个问题进行解决的方法。基本功能:通过研究测量数值和组成研究指标的特性,剔除无效的或者对研究对象作用较小的指标,从而达到将一个多维的研究对象进行降维的目的,正是由于对分析数据进行了降维,发现了反映研究对象的数据结构,从而提高数据的可靠性。可靠性分析主要应用在用多个指标反映对象的问题,通过对多维变量进行变量降维,达到既不影响研究对象,又降低研究难度的作用。进行可靠性分析时,最常用的度量统计量是Cronbachα系数。该系数判断量表的内部一致性。当量表内的项目被标准化为标准差取1时,根据项目的平均相关系数来判断;当项目没有进行标准化时,采用项目间的平均协方差进行判断。Cronbachα系数可被看作相关系数,即该量表与所有含有其他可能项目数的量表之间的相关系数。Cronbachα系数其大小可以反映量表随机误差影响的程度,反映测试的可靠程度。Cronbachα系数系数值越大,则量表受随机误差的影响较小,越可靠。关键:1)量表的α系数为计算恒定值,如果删除CHX则α变为靠近量表的α系数,有较大提升,说明CH1的数据值得怀疑,剔除该变量有助于提高整个表的可靠性。2)标准差取1时,根据项目的平均相关系数来判断;当项目没有进行标准化时,采用项目间的平均协方差进行判断。3)Cronbachα系数系数值越大,则量表受随机误差的影响较小,越可靠。信度判断标准:Cronbach'sAlpha值注:大于0.9(很好);大于0.8(一般);大于0.7(提示需要修正,但勉强可以接受),低于0.7需要预示信度很差。2分析——频率分析(把握数据分布特征)统计分析的目的是研究总体的数量特征。离散:提供最常用的标准差,其中均值标准误可以粗略用于:均值差(观测均值与假设值)与标准误的比值超出[-22]的范围,则可以断定两个值不同。分布:偏度和峰度描述分布形状和对称性的统计量有关偏度的经验标准:偏度值超过标准误的两倍,可以认为分布有偏。图表:直方图(提供正态曲线)。说明:将标准化得分另存为变量。3、分析——探索1)集中趋势计量的指标是:众数、中位数、均值和总和。频数分布数列中各观察值有一种向中心集中的趋势,在中心附近的观察值数目较多,远离中心的较少,这称为集中趋势。2)离散趋势的指标有:极差、方差和标准差。反映的是一组资料中各观测值之间的差异或离散程度。离散趋势小时,集中趋势的指标值的代表性就高;与之相反的是,集中趋势小时,离散趋势的指标的代表性就高。方差(variance),是一组资料中各数值与其算术平均数的离差平方和平均数。标准差(standarddeviation),是方差的平方根。一般来讲方差和标准差的数值越小则说明数据越稳定,方案越好。3)偏度(|SK|大于2)描述频数分布数列中各观察值是否对称地分布在中心的两侧,或者说某一侧的观察值是否比另一侧的观察值对中心偏离得更远些。是衡量平均数、中位数和标准差之间的关系的,用SK表示。一般为|SK|大于2时,就算偏离程度很大了。4)峰度(kurtosis——峰度K系数为3)是频数分布的另一个性质,它是指次数曲线的高峰形态。用K表示。峰度系数为3称为常态峰,大于3称为高狭峰,其余为低阔峰。5)M估计(M-estimators):(集中趋势的稳健估计,该统计量是利用迭代方法计算出来,一般来说受异常值影响要小的多。)常用的点估计方法有矩法估计和极大似然估计。6)正态分布的Lilliefors显著性检验:小于0.05指差异性显著,大于0.05且接近1是为齐质性或者说同质性。7)奇异值分析(箱图分析)4、P-P图Q-Q图相对P-P图来说原理很相似,使用的是实际百分位数与理论百分位数进行绘制图形,一般来说更稳健一点,但问题是没有明确的经验界值,故使用的频率较少。一般原理或者说意义:确定实际累积概率是否与理论分布的累积概率匹配,如果选定变量与检验的理论分布匹配,则点聚集在(理论分布计算的)直线周围,保持一致。5、制图附加内容:参数估计总体的参数正态分布总体N(μ,σ2)中的均值μ和方差σ2。点估计(M-estimators):常用的点估计方法有矩法估计和极大似然估计。Huber提出的ψ函数中,常数k=1.339;Tukey提出的ψ函数中,常数k=4.685;Hampel提出的ψ函数中,常数a,b和c分别取1.7,3.4和8.5;Andrew函数中,常数c取1.34.区间估计(置信水平(1-α)):估计θ在某一个小区间内,这样就能提高可信程度。1-α是置信度,也称置信概率;α称为显著性水平。“LowerBound”和“UpperBound”项分别对应置信区间的下限和上限。6、t检验(studentt检验)——均值的差异性待检假设通常用H0表示,对立假设用H1表示。概率很小的事件在一次试验中几乎是不可能发生的,如果小概率事件在一次试验中发生了,就说明事先的假设H0为真是不下确的,因此拒绝H0,接受H1(且拒绝原假设,接受新假设,且均值越大效果更好);否则接受H0。概率大,则可能发生,可以接受原假设。也就是Sig大于还是小于0.05(P值)。Levene检验:用于检验方差是否齐性。F检验显著(p0.05),则方差不齐(违反模型假设),反之,方差齐。上表可以看出,方差不齐,则看第二行的t值,即t=-5.99是显著的(p