数据统计与分析技术数据统计与分析技术1.分析前数据预处理2.样本描述性统计3.平均数比较与T检验4.相关分析5.回归分析6.非参数检验7.方差分析8.聚类分析和判别分析9.主成分分析和因子分析10.时间序列分析分析前数据预处理1.1数据的排序1.2数据的转置1.3数据的拆分1.4数据文件的合并1.5数据的选择1.6数据的加权1.7数据的转换样本描述性统计2.1基本数学模型2.2频数分析过程2.3数据描述过程2.4数据探察过程2.5列联表分析过程平均数比较与T检验3.1分组平均数的比较3.2单一样本t检验3.3独立样本t检验3.4配对样本t检验相关分析4.1相关系数4.2偏相关系数4.3距离分析回归分析5.1线性回归5.2曲线回归非参数检验6.1非参数检验概述6.2单样本检验6.3独立样本差异的显著性检验6.4相关样本差异的显著性检验方差分析7.1方差分析概述7.2方差分析的基本步骤7.3单因素方差分析7.4多因素方差分析7.5协方差分析聚类分析和判别分析8.1聚类分析和判别分析过程概述8.2快速样本聚类过程8.3分层聚类分析8.4判别分析主成分分析和因子分析9.1主成分分析9.2因子分析时间序列分析10.1指数平滑法10.2季节分解法10.3自回归法10.4自回归综合移动平均模型ByeBye数据的排序1.在主菜单中单击Data菜单选项,打开该菜单条;2.单击SortCases选项,打开对话框;3.在左边窗口选定变量名,再用箭头按钮,将变量转到Sortby窗口中;4.在SortOrder方框中,选择排序方式。数据的排序—对话框数据的转置1.在主菜单中单击Data菜单选项,打开该菜单条;2.单击Transpose选项,打开对话框;3.在左边窗口选定变量名,再用箭头按钮,将变量转到Transpose窗口中;4.单击“OK”按钮,确认后,生成新的数据文件。数据的转置—对话框数据的拆分1.在主菜单中单击Data菜单选项,打开该菜单条;2.单击SplitFile选项,打开对话框;3.选择进行拆分的方式;4.在左边窗口选定变量名,用中间箭头按钮,将变量转到GroupsBasedon窗口中;5.注意拆分前的排序,选择两种方式。数据的拆分—对话框数据文件合并1.样本合并(横向拼接)Data—MergeFiles—AddCases2.变量合并(纵向拼接)Data—MergeFiles—AddVariable数据的选择1.根据逻辑关系表达式选择数据2.随机选取数据3.在给定范围内选择数据4.用过滤器变量选择数据数据的加权1.加权(Weight)是一种通过人为方法来调节样本或数据大小的方法,在资料输入、样本分析和科学评价中经常起到举足轻重的作用。2.加权有两种情况:对变量的值加权对个案加权—对话框数据的加权—对话框数据的转换1.利用Compute功能选项转换数据2.利用Count功能选项转换数据3.利用Recode功能选项转换数据4.利用AutomaticRecode功能选项转换数据5.利用随机数种子转换数据基本数学模型1.描述集中趋势的统计量:算术平均数调和平均数几何平均数众数中位数2.描述离散趋势的统计量极差平均差标准差(方差)标准误3.描述分布特征的统计量偏度峰度算术平均数算术平均数等于所有样本数据的总和除以数据个数。算术平均值是描述样本数据中心趋势最常用的统计量。在分组条件下,其公式为:niiniiiffXX11标准差(方差)标准差(σ)与方差(σ2)是反映数据离散趋势最常用的统计量。在分组条件下,方差的公式为:niiniiiffXX1122)(标准差是方差方差的算术平方根。频数分析过程该过程可计算数据资料的各种描述统计指标、给出变量简单频数分布表、绘制几种变量分布图。Analyze→DescriptiveStatistics→Frequencies出现对话框频数分析过程—对话框统计量选择对话框数据描述过程该过程计算数据资料的各种描述统计指标,但不给出分布图。Analyze→DescriptiveStatistics→Descriptives出现对话框数据描述过程—对话框Options对话框数据探察过程探索性数据分析是指对数据的初步考察,由描述统计指标和直观的图形组成。包括检查数据错误、描述整体或分组数据的数量特征和分布特征,假设检验,奇异值辨认等。Analyze→DescriptiveStatistics→Explore出现对话框数据探察过程—对话框列联表分析过程列联表是按两个标志对一组观察值进行交叉分组所得到的频数分布表,表中列出同时联系于横行和纵行某特定标志名称的观察值数目,在表的右边栏列出各行频数的合计,在表的底行列出各列频数的合计,在两者交叉处,即表的右下角,列出频数总计。Analyze→DescriptiveStatistics→Crosstabs出现对话框列联表分析过程—对话框平均数分析该过程主要用于分组计算各统计指标,也可以进行单因素随机设计方差分析和线性检验。Analyze→CompareMeans→Means出现对话框平均数分析—对话框Options对话框单一样本t检验Analyze→CompareMeans→One–SampleTTest出现对话框该过程用于检验样本平均数与总体平均数之间是否存在差异。单一样本t检验—对话框独立样本t检验Analyze→CompareMeans→Independent-SampleTtest出现对话框该过程用于检验两个独立样本的平均数之间是否存在差异。独立样本t检验—对话框独立样本独立样本(IndependentSample)是指两个样本彼此独立,没有任何关联。例如实验组与控制组、男生组与女生组、高收入组与低收入组、大学数学系与物理系等。但这里的独立样本是广义的独立,仅是指非关联变量。两独立的样本各接受相同的测量,研究者的兴趣在比较两批样本群在测量结果总体上是否存在差异。独立样本中,所有观测都是独立的,即具体个别样本的顺序可以变化的,与变量无关。配对样本t检验Analyze→CompareMeans→Paired-SampleTtest出现对话框该过程用于检验两个配对样本的平均数之间是否存在差异。配对样本t检验—对话框配对样本配对样本(PairedSample)或相关样本(CorrelatedSample),指两个样本的观测值之间彼此有关联,如同一批被试者接受两种实验条件,即同一批观测对象接受两种不同的测量。对于此类样本,研究者所感兴趣的是二次测量之间是否存在差异。如实验前和实验后的测量,即具体个别样本的顺序不可以变化的。相关分析相关分析是研究两变量之间的关系。相关模型包括皮尔逊(Pearson)、斯皮尔曼(Spearman)和肯特尔(Kendall)三种子模型。相关模型要求X、Y变量都是随机变量,并都呈正态分布。满足上述正态分布的定量数据可用Pearson相关模型。对于定序、计数数据、对于不满足正态分布的数据,则非参数检验模型,即Spearman和Kendall相关模型。相关分析相关过程调用:Analyze→Correlate→Bivariate:Pearson相关模型Pearson相关系数计算公式:22)()())((YYXXYYXXriiiir是最常用的相关系数偏相关系数多个变量之间的相关关系是错综复杂的,任何两个变量之间都有简单相关关系,而这种相关关系中夹杂了其他变量所带来的影响。固定其他因素,而计算某两个因素之间的相关系数称为偏相关系数。偏相关系数相关过程调用:Analyze→Correlate→Partial:距离分析对于更复杂数据资料之间的关系,可利用距离分析来进行研究。距离分析通过计算各样本点之间的距离,来观测样本之间的相似或不相似程度,从而可进一步进行聚类分析、因子分析和多维分析。线性回归一元线性回归多元线性回归可化为线性回归的非线性回归多元回归的方法线性回归线性回归过程调用:Analyze→Regression→LinearRegressionx:可控制或可精确观测得到的数据的变量;Y:与x具有相关关系的随机变量。xi(i=1,2,…,n)yi(i=1,2,…,n)数据对(样本值):(xi,yi)i=1,2,…,n散点图(ScatterGraph)假定Y与x具有线性相关关系:(xi,yi)bxaY其中,是数学期望为0的随机变量,假设满足正态分布,于是:bxaYE一元线性回归x1,x2,…,xr:r个可控制或可精确观测得到的数据的变量;Y:与x1,x2,…,xr具有相关关系的随机变量。假定Y与x1,x2,…,xr具有线性相关关系:rrxbxbxbbY...22110其中,是数学期望为0的随机误差,且满足正态分布。对于n组样本观察值(nr):xi1,xi2,…,xir(i=1,2,…,n)yi(i=1,2,…,n)多元线性回归模型为:niExbxbxbbyiiirriii,...,2,10...22110其中,i互不相关。多元线性回归多元线性回归方法1.Enter(全回归法)2.Stepwise(逐步回归法)3.Remove(剔除法)4.Backward(向后回归法)5.Forward(向前回归法)引入自变量的显著性水平1剔除自变量的显著性水平2对不在方程中的自变量能否引入?引入自变量对已在方程中的自变量能否剔除?剔除自变量筛选结束能否能否逐步回归的基本步骤1.双曲线型buayxuxbay得到令,1buavyvxuxbay得到1,11令方法:变量替换可化为线性回归的非线性回归2.指数曲线型bxaey若a0,则令v=lny,得到:bxavln若a0,则令v=ln(-y),得到:bxav)ln(3.幂函数型0xaxyb若a0,则令v=lny,u=lnx,得到(a0情况类推):buavln可化为线性回归的非线性回归4.对数曲线型xbaylog令u=logx,得到:buay令v=logy,得到:bxaylogbxavxbayloglog令u=logx,v=logy,得到:buav可化为线性回归的非线性回归5.S曲线型xbeay1令:yveux1得到:buav可化为线性回归的非线性回归曲线回归客观实现中各因素之间呈现线性关系的现象并不很多,更多的是呈现曲线关系,这时应采用非线性回归分析。非线性回归模型包括两种形式:一是可线性化的,如二次曲线模型、对数模型等;一是不可线性化的,如逻辑曲线模型。SPSS提供了拟合各种常用曲线模型的功能。曲线回归线性回归过程调用:Analyze→Regression→CurveEstimationLinear(线性模型)Quadratic(二次曲线模型)Compound(复合曲线模型)Growth(增长曲线模型)Logarithmic(对数模型)Cubic(三次曲线模型)S(S型曲线模型)Exponential(指数模型)Inverse(双曲线模型)Power(幂函数模型)Logistic(逻辑曲线模型)非参数检验概述非参数检验的着眼点不是总体参数,而是总体的分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在总体的分布位置,形状是否相同。由于这一类方法并不涉及总体参数,因而被称为非参数方法。非参数检验概述NonparametricTests菜单提供八种非参数检验的分析方法,分为两类:1.分布类型检验方法Chi-Square过程;检验二项分类变量分布的Binomial过程;检验样本序列随机性的Runs过程及检验样本是否服从各种常用分布的l-SampleK-S过程。2.分布位置检验方法独立样本分布位置检验的2、KIndependentSamples过程;相关样本分布位置检验的2、KRelatedSamples过程。单样本检验1.卡方检验(Chi-S