常用统计学方法简介——SPSS实战篇提纲背景介绍数据管理数据导入数据分析一些建议参考文献SPSS软件简介SPSS原为StatisticalPackagefortheSocialSciences的简称,意为“社会科学统计软件包”。2002年SPSS公司正式将英文全称更改为StatisticalProductandServiceSolutions,意为“统计产品与服务解决方案”。SPSSforWindows是一个集数据整理、分析功能于一身的组合式软件包。SPSS的基本功能:数据管理、统计分析、图表分析、输出管理等创始人Nie、HullandBent历史悠久1968年完成spss基本框架的构建1984年正式推出基于pc的版本用户群广全球范围内用户超过250,000遍及全世界60多个国家,有1,200多名员工权威全美50个州的政府所指定使用的统计软件SPSS软件简介常用的统计分析软件SASSPSSStataS-plusR软件的特点功能强大囊括了各种成熟的统计方法和模型提供各种数据准备与数据整理技术自由灵活的表格功能提供了各种常用的统计学图形兼容性好在数据方面…在结果方面…易用性强SPSS13.0的新增功能图形和结果新增三种新的图形:Populationpyramids、3-Dbarcharts以及Dotcharts图形功能的表达:组图功能、添加误差条、参考线、连接线等数据和结果的管理与导出字符型变量可长达32767字节可以读入SAS9.1.3数据应用日期时间向导可将结果中的统计图表直接导出到PowerPoint文件统计功能的增强新增决策树模块在复杂抽样模块中增加了线型回归、方差分析和协方差分析等二分类和多分类Logistic回归等定性数据的分析功能提纲背景介绍数据管理数据导入数据分析一些建议参考文献SPSS界面介绍SPSS界面介绍数据的录入数据的录入数据文件*.sav语法文件*sps结果文件*spo脚本文件*sbs草稿结果文件*rtf数据的录入数据的录入数据的录入变量名:不超过64个字符首字符必须是字母或汉字,不能以“_”或“.”结尾变量名不能有空格或某些特殊符号,如“!”、“?”和“*”变量名不能与SPSS的关键字相同,如ALL、AND、BY、EQ、WITH、OR等数据的录入标准数值型逗号数值型圆点数值型科学计数法型日期型美元数值型用户自定义型字符型变量类型数据的录入数据的录入数据的录入数值标签数据的录入缺失值的定义数据的录入列宽对齐连续性变量有序分类变量无序分类变量数据的获取方法一:数据的获取方法二:数据的获取SPSS13.0可以导入*.sav,*.xls,*.dbf,*.dat,*.txt,*.mdb,*.w,*.dbc以及各类SAS数据文件。数据的获取使用文本导入向导读入文本类型的数据*.txt数据的保存数据的保存提纲背景介绍数据管理数据导入数据分析一些建议参考文献数据的管理文件级别的管理变量级别的管理文件级别的管理DefineVariablePropertiesCopyDataPropertiesDefineDatesInsertVariableInsertCaseGotoCaseSortCasesTransposeRestructureMergeFilesAggregateIdentifyDuplicateCasesOrthogonalDesignSplitFileSelectCasesWeightCasesDefineVariableProperties…DefineVariableProperties…InsertVariables/Cases插入变量插入记录InsertVariables/Cases点击右键插入变量插入记录GotoCase...SortCase...SortCase...点击右键*只能进行单变量排序Transpose...将数据库的行列,列行Restructure...Restructure...Restructure...MergeFiles...纵向合并横向合并AddCases...遵循两个原则:1.两个待合并的SPSS数据文件,其内容合并是有实际意义的;2.为方便SPSS数据文件的合并,在不同数据文件中,数据含义相同的列,最好起相同的变量名,变量类型和变量长度也要尽量相同,这样方便SPSS对变量的自动对应和匹配。AddCases...AddVariables...遵循三个原则:1.如果不是按照记录号对应的规则进行合并,则两个数据文件必须至少有一个变量名相同的公共变量,这个变量是两个数据文件横向对应合并的依据,称为关键变量;2.如果是使用关键变量进行合并的对应,则两个数据文件都必须事先按关键变量进行升序排列;3.为方便SPSS数据文件的合并,在不同数据文件中,数据含义不同的列,变量名不应该取相同的名称。AddVariables...AddVariables...*横向合并一定要按照关键变量进行排序,否则相应的合并操作将会失败!Aggregate...Aggregate...IdentifyDuplicateCases...IdentifyDuplicateCases...SplitFile...SelectCases...SelectCases...分析所有的记录只分析满足条件的记录从原始数据中按某种条件抽样基于时间或记录序号来选择记录使用筛选指标变量来选择删除隔离WeightCases...疗效合计治愈未治愈新剂型12923152旧剂型10129130合计23052282ComputeRecodeVisualBanderCountRankCasesAutomaticRecodeDate/TimeCreatTimeSeriesReplaceMissingValueRandomNumberGeneratorsRunPendingTransforms变量级别的管理Compute...生成新变量Compute...设置条件练习:1、计算平均的收缩压和舒张压:2、计算BMI:3、计算年龄:有两种方法Age=RND((CTIME.DAYS(invidate)-CTIME.DAYS(birth))/365.25)Age=RND((invidate-birth)/(60*60*24*365.25))bmi=weight/(height/100)**2sbp=(sbp1+sbp2+sbp3)/3dbp=(dbp1+dbp2+dbp3)/3Recode...练习:1、IntoSameVariables将性别变量编码(1=男;2=女)修改为0=男;1=女2、IntoDifferentVariables根据计算出来的年龄分组,1表示40岁,2表示41-59岁,3表示=60岁IntoDifferentVariablesIntoDifferentVariablesVisualBander...VisualBander...VisualBander...VisualBander...Count...RankCases...RankCases...AutomaticRecode...Date/Time...ReplaceMissingValue...ReplaceMissingValue...用所有记录该变量上数值的均值用相邻的前和后的邻近数值的均值用相邻的前和后邻近数值的中位数线性内插值法:以缺失值前后的2个有效观察值,根据内插法估计和替代缺失值。线型趋势法。用线性回归法生成和替代缺失值。RandomNumberGenerators...提纲背景介绍数据管理数据导入数据分析一些建议参考文献数据汇总报告描述性统计统计表均数比较一般线性模型混合模型相关分析回归分析对数线性模型聚类/判别分析因子分析及主成分分析量表(信度、效度)分析非参数检验时间序列分析生存分析多重响应等几大类缺失值分析复杂抽样SPSS统计分析过程数据汇总报告(Reports)即时汇总数据汇总行汇总报告列汇总报告OLAPCubesOLAP:OnlineAnalyticalProcessingOLAPCubesOLAPCubesOLAPCubes基本描述统计分析Frequencies…Frequencies…Frequencies…Descriptives…Descriptives…Explore…•判断有无离群点或极端值•提示数据转换方法•了解组间差异的特征•给出统计量、正态检验和描述性统计图,包括茎叶图、直方图及箱图Explore…需分析的变量分组变量记录的标签Explore…描述统计量图形缺失值处理Explore…Explore…Crosstabs…例:某医师研究用兰苓口服液与银黄口服液治疗慢性咽炎疗效有无差别,将病情相似的80名患者随机分成两组,分别用两种药物治疗。问两药的治疗有效率是否相同。Crosstabs…Crosstabs…Crosstabs…、P值2连续性变量的假设检验一、t检验1、样本均数与总体均数的比较2、完全随机设计(成组设计)的两样本均数的比较3、完全配对设计的两样本均数比较二、方差分析1、完全随机设计(成组设计)的单因素方差分析2、随机区组设计(配伍设计)的两因素方差分析三、协方差分析样本均数与已知总体均数的比较例:通过大量调查,已知某地正常男婴体重为3.26Kg,某医生随机抽取20名难产男婴,测得出生体重如下:问,该地难产男婴体重是否不同于本地正常男婴?3.53.53.23.53.33.03.33.23.42.73.43.63.52.83.42.93.53.54.04.0SPSS分析命令:Analyze→CompareMeans→One-SampleTTest…样本均数与已知总体均数的比较总体均数样本均数与已知总体均数的比较结论:不能认为难产男婴的出生体重与正常男婴不同。均数标准差标准误P值自由度t值完全随机设计(成组设计)两个样本均数的比较例:某医生测得12名正常人和13名病毒性肝炎患者血清转铁蛋白含量(g/L)结果如下:问肝炎患者和正常人血清转铁蛋白含量有无差异?病毒性肝炎患者:2.342.472.222.312.362.382.152.572.192.252.282.312.42正常人:2.612.712.732.642.682.812.762.552.912.852.712.64SPSS分析命令:Analyze→CompareMeans→Independent-SamplesTTest…完全随机设计(成组设计)两个样本均数的比较分析变量分组变量完全随机设计(成组设计)两个样本均数的比较统计描述方差齐性检验结论:病毒性肝炎患者与正常人血清转铁蛋白含量有差别。配对设计的两个样本均数比较例:为比较某新药与常规药降血脂的效果,将性别相同、血清总胆固醇水平相近的高血脂患者配成对子,每对中随机抽取一个人服用新药,另一个人服用常规药。服用一段时间后,测得血清总胆固醇含量(mmol/L)如下:问新药与常规药降血清总胆固醇效果是否相同?新药:6.576.466.276.896.217.617.607.046.687.42常规药:6.006.835.977.286.306.647.387.006.037.22SPSS分析命令:Analyze→CompareMeans→Paired-SamplesTTest…配对设计的两个样本均数比较配对设计的两个样本均数比较结论:不能认为新药与常规药降低血清总胆固醇的效果不同。配对差值方差分析AnalysisofVariance,ANOVA方差分析的目的:推断多个总体均数是否相等方差分析的使用条件:各处理组样本来自正态总体各样本是相互独立的随机样本各处理组的总体方差相等,即方差齐性方差分析的结果解释:方差分析的F检验,当P≤0.05,可以认为各组总体均数不等或不全相等,但并不以为着任意两组总体均数都有差别。需