调查技术是国际上通行的科学研究的主要方法之一;在我国采用调查技术进行科学研究,都是十分普遍的现象;,调查设计的资料相对容易得到,样本量相对较大,从中可以得到非常科学、有意的结论。效度?信度?what'sreliability?what'svalidity?调查问卷的效度、信度2008年5月24日ResearchCenterofEpidemiologyandHealthStatistics,CapitalUniversityofMedicalScience郭秀花教授题目一、QuestionnaireValidity二、ExampleofValidity三、QuestionnaireReliability四、ExampleofReliability五、ThecorrelationbetweenReliabilityandValidityMainContentPreparativeKnowledge1.误差公理误差(error)是指对事物某一特征的度量值偏离真实值的部分,即测定值与真实值之差,样本统计量与总体参数之差。没有一项研究推论能够达到百分之百的真实。Nostudyisfreeoferrors,theinferencesareneverperfectlyvalid.误差公理:实验结果都会有误差,误差自始至终存在于一切科学实验的过程之中。2.误差的种类(typesoferror)(1)随机误差(randomerror)随机误差是由不确定原因引起的,不可避免和消除。其偏离总体的方向不能确定。包括随机测量误差和抽样误差。随机测量误差(randommeasurementerror):没有固定的倾向,可使多次观测结果有大有小。抽样误差(sampleerror):由于抽样造成的样本指标与总体指标之间的差别。(2)系统误差(systematicerror)是由于偏倚(使研究结果按照一个方向偏离总体,bias)产生的错误结果,可校正和消除。(3)过失误差(grosserror)是由于科研设计错误,或实验者的主观片面、粗心大意引起的误差。必须避免和剔除!问卷测验中测量误差通常来源于两个方面:一是产生于问卷测验过程中的误差,称为测量误差(measurementError),也称为随机误差(randomerror);二是由问卷的结构质量造成的误差,称为系统误差(systemError)。measurementErrorreliabilitysystemErrorvalidity一、调查问卷的效度ThevalidityofaquestionnaireThevalidityofmeasuresThequestionofvalidityishowfarcanwebesurethatameasurereallydoesreflecttheconcepttowhichitissupposedtobereferring.效度(validity)通常是指问卷的有效性和正确性,亦即问卷能够测量出其所欲测量特性的程度。对于一个标准测验来说,效度比信度更为重要。1.效度分析的意义效度是问卷调查研究中最重要的特征,问卷调查的目的就是要获得高效度的测量与结论,效度越高表示该问卷测验的结果所能代表要测验的行为的真实度越高,越能够达到问卷测验目的,该问卷才正确而有效。问卷的准确性或称为有效性是用问卷的效度加以刻划的,它反映了对问卷的系统误差的控制程度。2、效度的定义效度是指问卷测验的准确性,即测验能够反映所要测量特性的程度.其包括两个方面的含义:一是问卷测验的目的;二是问卷对测量目标的测量精确度和真实性。效度是一个具有相对性、连续性、间接性的概念。在测量理论中,效度被定义为在一系列测量中,与测量目的有关的真变异数(即有效变异)与总变异数之比:222xvxySSrr2xy表示测量的效度系数,Sv2代表有效变异数,Sx2代表总变异数。3.常用的效度指标确定一个问卷效度的方法,通常是以答卷者的问卷得分和另一个效度标准求相关,以其相关系数的大小来表示效度。如果相关系数高,则该问卷的效度就高。一般常用的效度指标有内容效度、结构效度。(1)内容效度(contentvalidity)内容效度是指问卷内容的贴切性(relevance)和代表性(representativeness),即问卷内容能否反应所要测量的特质,能否达到测验目的,较好地代表所欲测量的内容和引起预期反应的程度。内容效度常以题目分布的合理性来判断,属于命题的逻辑分析,所以,内容效度也称为“逻辑效度”(logicalvalidity)、“内在效度(intrinsicValidity)”、“循环效度(circularvalidity)”。内容效度的评价主要通过经验判断进行,通常考虑3方面的问题:其一是项目所测量的是否真属于应测量的领域;其二是测验所包含的项目是否覆盖了应测领域的各个方面;其三是测验题目的构成比例是否恰当。常用的内容效度的评价方法有两种:一是专家法,即请有关专家对问卷题目与原来的内容范围是否符合进行分析,作出判断,看问卷题目是否较好地代表了原来的内容。二是统计分析法,即从同一内容总体中抽取两套问卷,分别对同一组答卷者进行测验,两种问卷的相关系数就可用来估计问卷的内容效度。计算某个问题与去掉此问题后总得分的相关性情况,分析是否需要被剔除(敏感性分析)。(2)结构效度(ConstructValidity)结构效度又称构想效度,是指问卷对某一理论概念或特质测量的程度,即某问卷测验的实际得分能解释某一特质的程度。如果我们根据理论的假设结构,通过问卷测验得到答卷者实际分数,经统计检验,结果表明问卷能有效解释答卷者该项特质,则说此问卷具有良好的结构效度。常用的确定结构效度的方法有:(1)根据文献、前人研究结果、实际经验等建立假设性理论建构;(2)对问卷题目进行分析。主要是分析问卷的内容,答卷者对题目所作的反应,问卷题目的同质性以及分项目之间的关系来判断问卷的结构效度;(3)根据建构的假设性理论编制适当的问卷;(4)计算与同类权威问卷的相关;(5)以统计检验的实证方法去考查问卷是否能有效解释所欲建构的特质。3.效标效度(CriterionValidity)效标效度也称为准则关联效度(Criterion-RelatedValidity)、经验效度(EmpiricalValidity)、统计效度(StatisticalValidity)。效标效度是说明问卷得分与某种外部准则(效标)间的关联程度,用问卷测量得分与效度准则之间的相关系数表示。一般估计效标效度的主要方法有:(1)相关法,即求某问卷分数与效标间的相关,所得结果即效标效度。(2)区分法,即看问卷分数是否可以区分由效标所划分的团体。可以运用t检验对先后两次问卷结果平均分数进行差异性检验。若差异有统计学意义,说明问卷是有效的;若差异无统计学意义,说明问卷是无效的。(4)判别效度(DiscriminantValidity)判别效标也称为辨别效标,是指运用相同的问卷测定不同特质和内涵,测量结果之间不应有太大的相关性。(5)聚合效度(ConvergentValidity)聚合效度也称为收敛效度,是指运用不同测量方法测定同一特质所得结果的相似程度,即对同一特质的两种或多种测定方法间应有较高的相关性。6.效度的评价Spitzer认为如果满足以下5个条件就可以认为问卷有效:.(1)问卷有内容效度和结构效度;(2)在问卷制定阶段应当请有关人员提出意见,供修正和提高内容效度;(3)问卷经过反复使用证明了其可靠性;(4)如果有金标准存在,应以金标准为准;(5)无金标准时可由判别效度代替。7.提高问卷效度的方法(1)理论正确,解释清楚。问卷内容要适合问卷测验的目的,题目要清楚明了,易于理解,问卷的排列要由易到难,题目的难度和区分度要合适;(2)操作规范以减少误差;(3)控制系统误差。它主要包括仪器不准,题目和指导语有暗示性,答案安排不当(被试可以猜测)等,控制这些因素可以降低系统误差,提高效度;(4)样本适宜且要预防流失。重视问卷调查的回收率。样本容量一般不应低于30;(5)适当增加问卷的长度。增加问卷的长度既可提高问卷的信度,也可以提高问卷的效度,但增加问卷的长度对信度的影响大于对效度的影响;(6)排除无关因素干扰。认清并排除足以混淆或威胁结论的无关干扰变量。二、效度分析实例(example)例2对例1中的问卷测验结果进行效度分析1.问卷的敏感性(可靠性)分析(1)操作过程从菜单选择Analyze→Scale→ReliabilityAnalysis…→Item(输入问卷的各条目或各因子包含的条目)→单击“Statistics”按钮,弹出信度分析统计量对话框→Descriptivesfor:→√Scaleifitemdeleted→OKScaleifitemdeleted:去掉当前题目整个问卷的描述统计量,即敏感性分析,包括以下内容:ScaleMeanifItemDeleted:去掉当前题目问卷合计分的均数;ScaleVarianceifItemDeleted:去掉当前题目问卷合计分的方差;CorrectedItem-TotalCorrelation:当前题目得分与去掉当前题目问卷合计分的Pearson相关系数;SquaredMultipleCorrelation:以当前题目为因变量,其它所有题目为自变量求得的决定系数R2;AlphaifItemDeleted:去掉当前题目后问卷的Cronbachα系数。(2)输出结果SCL90各条目的敏感性分析结果:ItemScaleScaleCorrectedMeanVarianceItem-AlphaifItemifItemTotalifItemDeletedDeletedCorrelationDeletedA131.72501272.71730.63970.9736E231.75001253.62820.80270.9732B331.82501261.07120.74080.9734A431.75001259.78210.75570.9733D531.70001278.26670.38720.9740C631.82501300.04550.05960.9745I731.90001279.06670.53200.9737H831.57501255.12240.75900.9733B931.27501259.23010.65720.9735…………………………………………………………………..E8631.17501272.81470.37640.9742I8731.92501277.14810.62310.9736I8832.05001282.97180.60570.9737J8932.20001304.16410.00000.9741I9032.17501302.71220.12500.9741一般地,在做问卷的敏感性分析时,可以将“AlphaifItemDeleted”值,作为调整题目的一个重要参考依据。如果“AlphaifItemDeleted”值越大,其相对应的题目越应是首先考虑调整的题目。从本次问卷结果敏感性分析可以看出,量表的各个题目的“AlphaifItemDeleted”值均在0.97左右变化,且变化的幅度很小。所以,就“AlphaifItemDeleted”值这项指标看量表各题目均可以保留,无需调整。这个结果可能与研究者所采用的SCL-90辆标是一个经典量表有关。摘要目的:探讨调查问卷的可靠性。方法:对武警十五支队201名战士,作心理卫生自评90项调查问卷资料,利用SAS软件编程,计算Alpha可靠性系数,进行可靠性分析。结果:有6项被剔除达到要求后,α=0.973569,当使用标准化数据时,α=0.974102。结论:利用可靠性分析,可以