类型名称描述性分析频数分析探索分析列联表分析比率分析均值单样本T检验独立样本T检验配对样本T检验卡方检验二项检验两独立样本检验多独立样本检验两配对样本检验多配对样本检验游程检验单样本K-S检验单因素方差分析多因素方差分析协方差分析多因变量方差双变量相关分析偏相关分析距离分析线性回归分析曲线回归分析非线性回归分析回归分析(分析--回归)基本统计分析(分析--描述统计)均值比较和T检验(分析--比较平均值)非参数检验(分析--非参数检验)方差分析相关分析Logistic回归分析有序回归分析(Ordinal)概率单位回归(Probit)加权回归分析频数分析交叉表分析快速聚类分层聚类两阶段聚类分析(以上为根据分析方法的不同)一般判别分析逐步判别分析决策树分析因子分析主成分分析一般对应分析多重对应分析指数平滑模型ARIMA模型季节分解模型寿命表分析kaplan-meier分布Cox回归分析信度分析多维尺度分析缺失值分析缺失值分析回归分析(分析--回归)生存分析(分析--生存函数)信度分析多重响应分析(分析--多重响应)聚类分析(分析--分类)判别分析因子分子和主成分分析(分析--降维--因子分析)对应分析时间序列模型(分析--预测)说明主要对连续变量做描述性分析,输出多种类型的统计量对数据的分布趋势进行初步分析,产生频率分布表数据分布情况未知的情况下,检验数据的特异值或输入错误,并获得数据的基本特征非数值型变量的相关性分析,分析离散变量的名义变量和有序变量是否相关描述两数值变量间比率的摘要统计量的综合列表计算一个或多个自变量类别中因变量的分组均值和相关的单变量统计将单个变量的样本均值与假定的常熟相比较,通过检验得出预先的假设是否正确的结论。一般要求数据正态分布比较两个样本或者两个分组个案的均值是否相同检验两个相关的样本是否来自具有相同均值的总体或者检验两个有联系的正态总体的均值是否显著差异根据样本的频数判断样本是否来自于特定分布的总体检验样本是否来自二项分布总体总体分布未知的情况下检验样本是否来自相同分布的总体。主要对集中趋势、离中趋势、偏度等指标进行差异性检验。总体分布未知的情况下检验样本来自的两相关配对总体是否具有显著差异。两配对样本指两样本具有相同或相似的非处理因素。一般用于对配对研究对象给予不同处理并进行处理前后是否具有显著性差异的分析。检验样本的随机性和两个总体的分布是否相同。检验样本是否来自特定的理论分布。将样本观察值的分布和设定的理论分布进行比较,求最大偏离并检验其是否是偶然的,是则认为来自设定的理论分布分析单个控制因素取不同水平时因变量的均值是否存在显著差异分析两个或两个以上因素是否对不同水平下样本的均值产生显著影响将难以人为控制的因素作为协变量,首先通过线性回归方法消除干扰因素影响,之后进行方差分析研究控制变量对多个因变量的影响,分析控制因素取不同水平时因变量的均值是否存在显著差异,还利用因变量协方差通过计算两个变量间的相关系数,判断其是否显著相关。用于仅包括两个变量的数据分析,当数据文件包括多个变量时,可剔除其他变量的线性影响。偏相关系数。通过控制一些被认为次要的变量的影响得到两个变量间的实际相关系数将所有变量按照一定的标准进行分类,计算一对观测量或变量间的广义距离,距离小为一类变量之间的关系可以用常用的曲线描述适用于了解参数的初始值或取值范围,而模型又无法转化为线性模型估计。用于因变量为二分变量(只能取两值)时的回归拟合用于因变量为有序的分类变量时的回归拟合用于对响应比例与刺激作用之间的关系的分析随机误差项出现异方差对已定义好的多重响应变量集输出其频数及其总频数中的百分比等基本统计量根据分类变量的不同分类输出多重响应变量集包含的各个响应的频数及百分比在聚类个数已知的情况下,快速将个体分配到各类。又称K-均值聚类,以距离为标准。又称系统聚类。每个个体看作一类,将相近程度最高的两类进行合并成一个新类,再与相近程度最高的类进行合并,不断重复,直到所有的个体都归于一类。揭示数据内部的自然分组,运用信息准则确定最优的分组格式并依据距离形成聚类特征树进行分组。根据研究对象的不同,分为样本聚类(Q型聚类,针对观测量,特征差异)和变量聚类(R型聚类,针对变量,性质差异)。在已知分类的前提下,对未知分类的观测量归入已有分类的一种多元统计分析方法。在分析之前对自变量进行一次相应筛选的判别分析方法。采用树形结构图。一种数据简化技术,通过研究众多变量间的内部依赖关系,探求观测数据中的基本结构,并用少数几个独立的不可观测变量来表示其基本的数据结构。将多个变量通过线性变换以选出较少个数重要变量的多元统计分析方法。将一个连列表的行和列中各元素的比例结构,以点的形式在较低维的空间中表示出来。两个分类变量适用于分析一组属性变量间的相关性。对不规则的时间序列数据加以平滑,从而获得其变化规律和趋势,并以此对未来的经济数据进行推断和预测。自回归移动平均模型。将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。由于季节因素导致的时间序列的有规则变动。按月(季)平均法、移动平均趋势剔除法非参数估计。将观察区间划分为较小的时间区间,对每个区间所有观察至少该时长的人员计算该区间内发生事件终止的概率,再估计不同时点发生该事件的概率。非参数估计。乘法极限估计、PL法、最大似然估计半参数模型。可估计各研究因素对风险率的影响评价调查问卷是否具有稳定性和可靠性。利用被访者和对研究对象的分组,来反映被访者对研究对象相似性的感知。完全随机缺失MCAR——缺失和变量的取值无关;随机缺失MAR——调查变量只依赖于数据组数中有记录的变量;非随机缺失——缺失与其他变量的取值有关,也和自身有关。删除、替换、分析。只能为定量变量估计统计数据并插补缺失数据。集中趋势(均值、中位数、众数、百分位数),离中趋势(方差、标准差、均值标准误差、极差或范围、最大值、最小值、变异/离散系数),分布形态(偏度、峰度)广泛应用于分类变量、不服从正态分布变量功能:1绘制箱图茎叶图反映分布形式,识别特异值或输入错误等;2.检测数据是否服从正态分布;3.检验不同组数据方差是否相等零假设:样本所属总体的分布与理论分布无显著差异零假设:样本所属总体的分布与所指定的某个二项分布无显著差异Mann-WhitneyU检验--检验两个样本总体在某些位置上是否相同,平均秩,独立样本是否具有相同分布Kolmogorov-SmirnovZ双样本检验法--秩累计频率,是否来自相同总体Moses极限反映检验法--实验样本控制样本秩的跨度,是否来自相同总体Wald-Wald-Wolfowitz游程检验法--是否被随机赋秩Kruskal-Wallis检验--是否来自相同总体Jonckheere-Terpstra检验--独立样本来自的不同总体是否具有相同分布中位数检验--独立样本来自的不同总体是否具有相同分布符号检验--是否来自相同总体Wilcomxon配对符秩检验--是否来自相同总体McNemar变化显著性检验--二分变量边际齐性检验--定序变量(分析-比较均值-单因素ANOVA)(分析-一般线性模型-单变量)(分析-一般线性模型-单变量)(分析-一般线性模型-多变量)(分析-相关-双变量)(分析-相关-偏相关)一般采用最小二乘估计法来估计相关参数。y=a+xb+e一般采用最大似然法来估计相关参数。Ln(p/(1-p))=a+xb+e,p为事件发生概率可用加权最小二乘法(WLS)适用于对大样本进行快速聚类,尤其是形成的类的特征有一定的认识特点:能够同时处理分类变量和连续变量、自动选择最优分类个数、大样本数据下表现优异根据研究对象的不同,分为样本聚类(Q型聚类,针对观测量,特征差异)和变量聚类(R型聚类,针对变量,性质差异)。距离判别法(距离)、费舍尔判别法(投影)、贝叶斯判别法(条件概率)。(分析--分类--判别--一起输入自变量)(分析--分类--判别--使用步进式方法)(分析--分类--树)分析群体之间的相关关系和预测方面广泛应用。??(分析--降维--对应分析)(分析--降维--最优尺度)(分析--预测--创建模型)原理:任一期的指数平滑值都是本期实际观察值与前一期指数平滑值的加权平均。(分析--预测--创建模型,与上面“方法”选择不一样)(分析--预测--周期性分解)适用于大样本情况小样本,充分利用每个数据包含的信息(分析--度量--可靠性分析)Alpha信度系数法,考虑表的内在信度/内在一致性。(分析--度量--多维尺度(ALSCAL))(分析--缺失值分析)