STATA从入门到精通第七章方差分析Page2STATA从入门到精通方差分析方差分析是基于样本方差对总体均值进行统计推断的方法,它是通过实验观察某一种或多种因素的变化对实验结果是否带来显著影响,进而鉴别各种因素的效应,从而选取一种最优方案。方差分析包括单因素方差分析、多因素方差分析和协方差分析。Page3STATA从入门到精通7.1t检验的Stata基本命令t检验是用于小样本(样本容量小于30)两个平均值差异程度的检验方法。它是用t分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。t检验包括单样本t检验、两样本t检验,其中两样本t检验又包括配对样本t检验和两独立样本t检验。1、单样本t检验的Stata操作单样本t检验有两种用法。一是检验样本平均数是否显著地不同于某个假设值。二是检验同一套观察值中的两个变量的统计指标是否显著地不同。这等价于两者的差值的平均数是否等于零。在Stata应用中使用ttest命令来完成,单样本ttest有两种命令格式:命令格式1(通过样本进行t检验):ttestvarname==#[if][in][,level(#)]命令格式2(通过样本的统计指标进行t检验):ttesti#obs#mean#sd#val[,level(#)]其中,#obs为样本容量,#mean为样本均值,#sd为标准差,#val为待检验数值,level为置信度水平。Page4STATA从入门到精通2、两样本t检验的Stata操作两样本t检验的Stata操作有三种基本命令格式,如下所示:命令格式1(通过样本进行双变量t检验):ttestvarname1==varname2[if][in],[options]命令格式2(通过样本进行分组t检验):ttestvarname[if][in],by(groupvar)[options]命令格式3(通过样本的统计指标进行t检验):ttesti#obs1#mean1#sd1#obs2#mean2#sd2[,options]其中,#obs为样本容量,#mean为样本均值,#sd为标准差,#val为待检验数值,level为置信度水平。Page5STATA从入门到精通Ttest的主要选项如下表7-1所示:【例7.1】使用文件“减肥.dta”的数据来对样本ttest命令的应用进行说明。该例子是通过减肥茶前后的体重数据来评估减肥茶是否有效果。本例要求用单样本t检验验证在服用减肥药之前,体重的均值是否为90公斤。以及使用减肥药前后,体重是否有显著变化。部分数据如下表7-2所示:主要选项描述*by(groupvar)通过定义组变量unequal非配对的数据含有不同变量welch使用Welch近似level(#)置信水平默认95%Page6STATA从入门到精通表7-2减肥茶服用前后体重对比表喝减肥茶前体重(公斤)喝减肥茶后体重(公斤)906395718279917310074876591679073866087769871887282758762Page7STATA从入门到精通【例7.2】使用文件“职工信息表.dta”的数据来对两独立样本ttest命令的应用进行说明。表7-3给出了某厂职工的性别、年龄、职称及文化程度的信息。本例要求检验不同性别的职工工资是否相同,使用的方法包括一般的t检验,消除同方差假定的t检验。表7-3某厂职工信息表职工号性别年龄基本工资职称文化程度1男职工481014高级工程师本科2男职工49984工程师专科3男职工541044高级工程师高中4男职工41866助理工程师高中5男职工38848助理工程师本科6女职工41824无技术职称高中7女职工42824无技术职称高中8女职工41824无技术职称高中9女职工42859工程师专科10男职工35827助理工程师本科11男职工561014高级工程师专科12男职工59989工程师专科13男职工59938助理工程师初中14男职工41889工程师本科15男职工55887助理工程师初中16男职工45887助理工程师初中Page8STATA从入门到精通17男职工51887助理工程师初中18男职工43879工程师专科19女职工50867助理工程师初中20男职工35879工程师专科21男职工37879工程师专科22男职工37827助理工程师高中23男职工39847助理工程师初中24女职工49887助理工程师初中25女职工53867助理工程师高中26女职工50867助理工程师高中27男职工36830助理工程师专科28男职工42847助理工程师初中29男职工33827助理工程师高中30女职工44867助理工程师初中Page9STATA从入门到精通7.2单因素方差分析本节首先介绍单因素方差分析的原理,然后介绍实现单因素方差分析的两个命令oneway和longway。单因素方差分析用于比较多组样本的均数是否相同,并假定:每组的数据服从正态分布,具有相同的方差,且相互独立。单因素方差分析表Page10STATA从入门到精通Oneway命令的基本格式如下:onewayresponse_varfactor_var[if][in][weight][,options]主要选项描述bonferronibonferroni多重比较检验scheffescheffe多重比较检验sidaksidak多重比较检验tabulate产生列表[no]means[不]显示均值[no]standard[不]显示标准差[no]freq[不]显示频数[no]obs[不]显示观测个数noanova不显示方差分析表nolabel以数值形式显示,而不是以标签形式wrap列表不隔开missing将缺失值作为一类Page11STATA从入门到精通longway命令的基本格式如下:lonewayresponse_vargroup_var[if][in][weight][,options]主要选项描述meanF分布的期望值,默认是1medianF分布的中位数,默认是1exact精确置信区间level置信度,默认95%Page12STATA从入门到精通【例7.3】使用文件“大学生信息表.dta”的数据来对单因素方差分析oneway命令的应用进行说明。表7.7来自于Ward和Ault(1990)对在校大学生的抽样调查表,其中year代表所处的大学年级,gender代表性别,drink用一个33级别表来衡量学生喝酒频度和程度,gpa代表学分积点,belong表示是否是大学生联谊会的会员,employed为是否就业。部分数据如表7-7所示:表7-7大学生信息表本例中,我们检验大学生饮酒行为平均数是否会因为是否就业而有所变化。yeargenderdrinkgpabelongemployedFreshmanMale53.2nonmembeNoFreshmanFemale93nonmembeYesFreshmanMale292.85nonmembeNoFreshmanFemale22nonmembeNoFreshmanFemale19nonmembeNoFreshmanMale19nonmembeNoFreshmanMale24nonmembeNoPage13STATA从入门到精通7.3双因素和多因素方差分析多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。若研究的是两个变量,则称为双因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。Page14STATA从入门到精通多因素方差分析处理的就是两个或者更多x分类变量的情况。在Stata中用命令anova实现,其基本命令格式如下:anovaresponse_var[if][in][weight][,options]要在anova中纳入任何交互项,只需要指定有关变量的名称,并用*号连接即可。主要选项描述category(varlist)分类变量class(varlist)分类变量,与上同义。如不注明,Stata默认所有变量都是分类变量。repeated(varlist)重复观测因子partial使用边际平方和,默认选项sequential使用序列平方和noconstant没有常数项regress显示回归结果[no]anova不显示ANOVA表Page15STATA从入门到精通【例7.4】使用文件“员工信息表.dta”的数据来对多因素方差分析anova命令的应用进行说明。表7.15介绍了某单位的员工信息表,其中minority代表是否属于少数民族,这里的0是非少数民族,1表示为少数民族,educ代表教育年限,salary为年薪,beginsalary为起始年薪,gender为性别。部分数据如表7-15所示:表7-15员工信息表考察工资是否因性别、少数民族与否的不同而存在差异。minorityeducsalarybeginsalarygender081575010200Female081590010200Female08162009750Female08166509750Female081680010200Female081695010200Female081740010200Female081770010200FemalePage16STATA从入门到精通7.4协方差分析不论是单因素方差分析还是多因素方差分析,控制因素都是可控的,其各个水平可以通过人为的努力得到控制和确定。但在许多实际问题中,有些控制因素很难人为控制,但它们的不同水平确实对观测变量产生了较为显著的影响。协方差分析将那些人为很难控制的控制因素作为协变量,并在排除协变量对观测变量影响的条件下,分析控制变量(可控)对观测变量的作用,从而更加准确地对控制因素进行评价。Page17STATA从入门到精通协方差分析拓展了多因素方差分析,使之可以包含分类变量和连续变量的情况。当出现连续变量时,定义此变量,方差分析便可进行。Anova具有处理连续变量和分类变量的能力。方法就是在双因素和多因素方差分析格式后,再加上continuous,指定连续变量。其基本命令格式如下:anovaresponse_var[if][in][weight][,options]要在anova中纳入任何交互项,只需要指定有关变量的名称,并用*号连接即可。Page18STATA从入门到精通主要选项描述category(varlist)分类变量class(varlist)分类变量,与上同义。如不注明,Stata默认所有变量都是分类变量。continuous(varlist)表明是连续变量repeated(varlist)重复观测因子partial使用边际平方和,默认选项sequential使用序列平方和noconstant没有常数项regress显示回归结果[no]anova不显示ANOVA表Page19STATA从入门到精通【例7.5】本例中继续使用上例中的数据来对stata中协方差分析的操作进行说明。首先,在上例的基础上,检验薪水水平的差异是否还由起始薪水的差异所引起,其中起始薪水为连续变量。在分析薪水差异的原因之后,对变量进行回归分析,得到回归方程。20本章结束,谢谢观看!