SPSS学习笔记

kenji0219
3 ℃
2020-01-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

Spss学习笔记(1)在spss中，数据文件的管理功能基本上都集中在data和transform菜单上，其中transform主要实现变量级别的数据管理，如计算新变量、变量取值重新编码等，data的功能主要是实现文件级别的数据管理，如变量排序，文件合并、拆分等。Transform菜单说明：计算新变量：compute变量转换：recode,visualbander,count,rankcases,automaticrecode五个过程，可以看成是compute再某一方面的强化和打包。专用过程：建立时间序列、缺失值代替和设定随机种子三个过程，前两个专用于时间序列模型。设定随机种子的功能主要影响伪随机函数的使用。数据分析中，将连续变量转换为等级变量，或将分类变量不同的变量等级进行合并是常见的工作。而recode可以很好的完成这个任务。Recode提供了精确的分组功能，但是如果希望进行的分组是有规律的，比如等距分组或者等样本量分组，使用recode过程进行操作就显得非常麻烦，而且可视化程度不高，可以使用visualbander过程进行可视化分段。在数据分析中，将字符变量转换为数值变量是非常实用的一个功能，除了使用recode过程手工设定转换规则外，还可以使用automaticrecode过程自动按照原变量的大小或者字母排序生成新变量，而变量值就是原值的大小次序。Automaticrecode的排序功能和rankcases类似，不同在于，automaticrecode可以用于字符型变量。所谓变量的秩序，就是对记录按照某个变量值得大小来排序。Rankcases就是用来排序的专用过程。Count：该过程用来表示某个变量的取值中是否出现某个值，可以使单个数值，也可以指定区间，并且可以仅给出条件，而不必对整个数据集进行操作。该过程可以直接使用recode过程来实现。Randomnumberseed：默认情况下，随机种子随时间不停改变，这样计算出的随机数值无法重复，可以用该过程人为指定一个种子，以后所有的伪随机函数在计算时都会以该种子开始计算，即结果可以重现。Data菜单说明：简单命令：包括插入变量、插入记录和到达某条记录，这些功能都可以用鼠标在数据界面上直接完成，很少会使用菜单调用。常用的简单过程：包括排序、拆分文件、选择记录和加权记录。变量与数据文件属性向导：用于定义数据字典，或者将预定义的数据字典直接引入当前数据文件，对于大型或者连续性的数据分析项目而言，这是一个非常有用的功能。数据重构向导：用于进行数据转制，或者对重复测量数据进行长型、宽型记录格式间的转换。文件合并过程：用于生成实施联合分析所需的设计。其他过程：包括定义日期变量过程、数据汇总过程和查找重复记录向导。Sortcases：记录排序。Splitfile：记录拆分。Selectcases：不需要分析全部的数据，而是按照要求分析其中的一部分。Weightcases：记录加权。默认情况下，每行就是一条记录，但是有时非常麻烦。这时候可以使用频数格式录入数据，即相同取值的观测只录入一次，另加一个频数变量用于记录该数据出现了多少次。Aggregate数据汇总：分类汇总就是按照指定的分类变量对观测值进行分组。分类汇总的分类变量可以指定多个，称为多重分类汇总。Definevariableproperties：变量属性定义向导，用于对数据集中已存在的变量进一步定义其属性。CopyDataProperties：用于将定义好的数据字典直接应用到当前文件中。IdentifyingDuplicatecases：查找个别变量值重复，或者所有数值完全重复的记录。Restructure：根据用户的要求改变数据的排列格式。Transpose：用于对数据进行行列转置。主要用于编成，进行矩阵运算时的矩阵转置操作。数据文件的合并有两种：纵向连接和横向合并。纵向连接是几个数据集中的数据纵向相加，组成一个新的数据集，新数据集中的记录是原来几个数据集中记录数的总和。横向合并是按照记录的次序，或者某个关键变量的数值，将不同数据集中的不同变量合并为一个数据集，新数据集中的变量数十所有原数据集中不重名变量的总和。Spss学习笔记（2)相关分析和回归分析：都可以用来考查两个连续变量间的关系，但反映的是不同的侧面。尽管在提及相关分析的时候，往往考查的都是两个连续变量的相关关系，但实际上对任何类型的变量，都可以使用相应的指标进行相关关系得考查。测量相关程度的相关系数很多，各种参数的计算方法及特点各异。连续变量的相关指标：此时一般用积差相关系数，又称pearson相关系数来表示其相关性的大小，积差相关系数只适用于两变量呈线性相关时。其数值介于-1~1之间，当两变量相关性达到最大，散点呈一条直线时取值为-1或1，正负号表明了相关的方向，如果两变量完全无关，则取值为零。作为参数方法，积差相关分析有一定的适用条件，当数据不能满足这些条件时，分析者可以考虑使用Spearman等级相关系数来解决问题。有序变量的相关指标：所谓有序的等级资料的相关性/一致性高，就是指行变量等级高的列变量等级也高，反之亦然。如果行变量等级高而列变量等级低，则被称为不一致。简单相关分析：当两个连续变量在散点图上的散点呈现直线趋势时，就可以认为二者存在直线相关趋势，也称为简单相关趋势。Pearson相关系数，也称乘积相关系数，就是人们定量描述线性相关程度好坏的一个常用指标。积差相关系数的适用条件：在相关分析中首先要考虑的问题就是两个变量是否可能存在相关关系，如果得到了肯定的结论，那才有必要进行下一步定量的分析。另外还必须注意以下几个问题：1、积差相关系数适用于线性相关的情形，对于曲线相关等更为复杂的情形，积差相关系数的大小并不能代表相关性的强弱。2、样本中存在的极端值对积差相关系数的影响极大，因此要慎重考虑和处理，必要时可以对其进行剔出，或者加以变量变换，以避免因为一两个数值导致出现错误的结论。3、积差相关系数要求相应得变量呈双变量正态分布，注意双变量正态分布并非简单的要求x变量和y变量各自服从正态分布，而是要求服从一个联合的双变量正态分布。以上几条要求中，前两者的要求最严，第三条比较宽松，违反时系数的结果也是比较稳健的。Spearman相关系数又称为秩相关系数，使利用两变量的秩次大小作线性相关分析，对原始变量的分布不做要求，属于非参数统计方法。因此它的适用范围比Pearson相关系数要广的多。即使原始数据是等级资料也可以计算Spearman相关系数。对于服从Pearson相关系数的数据也可以计算Spearman相关系数，但统计效能比Pearson相关系数要低一些（不容易检测出两者事实上存在的相关关系）。Kendall’stau-b等级相关系数是用于反映分类变量相关性的指标，适用于两个变量均为有序分类的情况。简单相关和偏相关有一个共同点，就是对所分析的数据背景应当有一定程度的了解。在这种情况下进一步进行积差相关系数的计算，以在定量的水平上对这种关联予以确认。同理，计算偏相关系数也是同样的情况，只是又在计算积差相关系数的基础上考虑了其他因素的影响。但有的时候会遇到一种情况，在分析前对数据所代表的专业背景知识了解的尚不充分，本身就属于探索性的研究，这时往往需要先对各个指标或者案例的差异性、相似程度进行考察，以先对数据有一个初步的了解，然后再根据结果考虑如何进行深入的分析。Distinces过程就可以用于计算记录（或变量）间的距离（或相似程度），根据变量的不同类型，可以有许多距离、相似程度测量指标供用户选择。但由于本模块只是一个预分析的过程，因此距离分析并不会给出常用的p值，而只给出各变量/记录之间的距离大小，以供用户自行进行判断相似性。Distinces过程可以计算距离测量指标或者相似性测量指标，这可以在主对话框中加以切换。距离测量指标，根据不同的数据类型，距离测量指标也有所不同。分为连续性变量、频数表资料和二分类变量三种。相似性测量指标时间上就是前述的那些相关分析指标体系，只是更为详细一些，主要分为剂量资料和二分类变量两种。相关和回归描述的是两变量间联系的不同侧面，简单回归分析就是寻找因变量数值随自然量变化而变化的直线趋势，并在散点图上找到这样一条直线，相应得方程也就被称为直线回归方程。通过回归方程解释两个变量之间的关系会显得更为精确。除了描述两个变量之间的关系外，回归方程还可以进行预测和控制。无序分类变量的统计推断：x2检验主要用于检验某无序分类变量各水平在两组或多组间的分布是否一致。还可以用于检验一个分类变量各水平出现的概率是否等于指定概率；一个连续变量的分布是否符合某种理论分布等。其主要用途：1、检验某个连续变量的分布是否与某种理论分布相一致。2、检验某个分类变量各类的出现概率是否等于制定概率。3、检验某两个分类变量是否相互独立。4、检验控制某种或某几种分类因素的作用以后，另两个分类变量是否相互独立。5、检验某两种方法的结果是否一致。主成分分析只是一种中间手段，其背景是研究中经常会遇到多指标的问题，这些指标间往往存在一定的相关，直接纳入分析不仅复杂，变量间难以取舍，而且可能因多元共线性而无法得出正确结论。主成分分析的目的就是通过线性变换，将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标，便于进一步分析。Spss学习笔记（3)有关因子分析和回归分析因子分析是一种多变量化简技术。目的是分解原始变量，从中归纳出潜在的“类别”，相关性较强的指标归为一类，不同类间变量的相关性较低。每一类变量代表了一个“共同因子”，即一种内在结构，因子分析就是要寻找该结构。适用条件样本量样本量与变量数的比例应在5：1以上总样本量不得少于100，而且原则上越大越好各变量间必须有相关性KMO统计量：0.9最佳，0.7尚可，0.6很差，0.5以下放弃Bartlett’s球形检验标准分析步骤判断是否需要进行因子分析，数据是否符合要求进行分析，按一定标准确定提取的因子数目如果进行的是主成分分析，则将主成分存为新变量用于继续分析，步骤到此结束如果进行的是因子分析，则考察因子的可解释性，并在必要时进行因子旋转，以寻求最佳解释方式如有必要，可计算出因子得分等中间指标供进一步分析使用公因子数量的确定主成分的累积贡献率：80~85％以上特征根：大于1综合判断因子分析时更重要的是因子的可解释性回归分析的基本步骤(1)确定自变量和因变量(2)从样本数据出发确定变量之间的数学关系式,并对回归方程的各个参数进行估计.(3)对回归方程进行各种统计检验.(4)利用回归方程进行预测.通径分析实际上是回归分析的扩展，同时又是结构方程模型的一种特例情况。对于应用来说，更重要的问题是，各种方法都是在一定具体条件下应用的，因此如何选择恰当的方法便成为正确应用这些方法的前提。Spss学习笔记（4)对于12种社会统计方法，可以用最简练的语言将这些分析方法加以概括：1、多元回归应用于单方程模型，其因变量必须为测量性变量，其自变量可以为测量型变量或虚拟型变量。研究目的是通过自变量的变化来预测因变量的变化，多元回归用最小二乘法求解回归系数。2、如果变量之间有多层因果关系，就可以由多个内在联系得多元回归方程组成一套通径分析连立方程组，每个方程都通过多元回归求解系数，然后应用通径分析分解变量之间的直接作用和间接作用。3、如果一套联立方程组中含有潜在变量（即不可直接观测的变量），便不能再用最小二乘法求解，这是可以应用结构方程模型，它主要采用最大似然估计求解。4、在研究有两组各包含多个变量的变量组之间的关系时，可以采用典型相关分析。典型相关分析的所有变量必须为测量型变量或虚拟变量。5、多元方差分析研究两个以上的类别中在多项测量型数据指标上是否存在显著差异。6、当因变量为二分类变量且自变量为测量型变量和虚拟变量时，不能采用多元回归，而应该采用logistics回归。7、logit模型是对数线形模型的一种特例。它与logistic回归的不同在于，它的自变量全部都是分类变量。8、鉴别分析主要应用于在已知一些案例的各种条件值及其