传播研究方法第四部分数据分析第十四讲假设与推论统计中国青年政治学院赵菁2015年12月17日复习——统计学:是什么?统计学:两个作用描述性统计:用某种方法对资料进行总结,使之更便于使用。例:回收了200份问卷,如何总结概括资料?【百分数、均值、标准差…】当处理两个以上变量的相互关系时,描述性统计特别有用。【相关系数、多元统计分析】归纳性统计(统计推论):根据从总体抽取的样本对总体进行概括;根据反复观察制定普遍性定律。复习:理解平均数平均数(average):集中趋势量度(measuresofcentraltendency)均值(mean)中位数(median):一系列数据的中点。众数(mode):出现次数最多的数值。nXX复习:理解平均数何时用什么?【众数、中位数、平均数】依赖于所描述的数据类型如果数据属性是分类的,而且数值只属于一种类型,使用众数;如果数据中包含极值,而且不想扭曲平均数(按均值计算),则使用中位数;如果数据不包括极值,也不是分类数据,就使用均值。复习:理解变异性变异性(variability):散布/离散程度,对不同数值之间的差异性的测量。每个数值和特定值的差异程度均值变异性的三种量度:极差、标准差、方差四、理解变异性计算极差(range):数据分布中的最大值减去最小值计算标准差(standarddeviation,缩写为s或SD):标准化了的与均值的偏差,与均值的平均距离计算方差(variance):标准差的平方1n)(2XXs复习:用图表说话频数分布(frequencydistribution):记录和展现特定数据出现次数的方法。在建立频数分布时,数值通常依据一定的组距分组。组距(dassinterval):一个值域范围五、用图表说话建立直方图建立直方图(Histogram)建立直方图(Histogram)建立直方图(Histogram)频数分布数据分布相互区别程度的四个方面:1.平均值2.变异性3.偏度4.峰度(kurtosis)频数分布——平均值数据分布相互区别程度的四个方面:1.平均值分布E均值分布D均值分布C均值分布B均值分布A均值分布A均值分布B均值分布C均值分布D均值分布E均值频数分布——变异性数据分布相互区别程度的四个方面:2.变异性均值相同,变异性不同;分布A的变异性分布B的变异性分布C的变异性分布D的变异性分布E的变异性分布A分布B分布C分布D分布E频数分布——偏度数据分布相互区别程度的四个方面:3.偏度(skewness)正偏(右侧尾比左侧尾长);负偏(左侧尾比右侧尾长)分布A:正偏分布C:负偏分布B:无偏分布A分布B分布C频数分布——峰度数据分布相互区别程度的四个方面:4.峰度(kurtosis)扁平Or陡峭分布A:扁平分布C:陡峭分布B:无峰度陡峭峰说明离散性或变异性更小分布A分布B分布C复习:计算相关系数相关系数(correlationcoefficient):反映两个变量之间关系的量化指标【动态性质】。二元相关:两个变量的相关变量变化方向相同,为正相关(positivecorrelation);变量变化方向相反,为负相关(negativecorrelation)皮尔逊积距相关(PearsonProduct-momentcorrelation):考察两个连续变量之间的关系相关系数r;rXY:变量X和Y之间的相关系数复习:计算相关系数相关系数(correlationcoefficient):变量X的变化变量Y的变化相关关系类型数值例子X值增大Y值增大正相关正值,【.00-1.00】你用于学习的时间越多,考试成绩就会越高。X值降低Y值降低正相关正值,【.00-1.00】你在银行存的钱越少,所得利息就越少。X值增大Y值降低负相关负值,【-1.00-.00】你运动越多,体重就越轻。X值降低Y值增大负相关负值,【-1.00-.00】你完成考试的时间越少,所犯的错误越多。!相关关系讨论的是一个群体的两个变量之间的关系,反映的是通则,而不是对应任何一个特定的个人。051015202530354020253035404550556065年龄脂肪含量观察散点图的大致趋势,人的年龄的与人体脂肪含量具有什么相关关系?年龄与脂肪的散点图,从整体上看,它们是线性相关的;这些点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关。复习:计算相关系数有关相关系数:相关系数的绝对值反映相关的强度。相关系数-0.7比相关系数0.5表示的相关强度;相关系数反映两个变量共同变化的程度。如果一个变量值不发生变化,那么就不存在共同的变异性,即,两个变量之间的相关系数为0【如,年龄和逻辑推理能力,年龄均为25岁】。如果限制或控制一个变量的值域范围,这个变量和其他变量之间的相关系数相对于这个值没有限制的情况来说会更【如,计算阅读理解成绩与年级之间的相关】。变异性产生影响,不应该人为的限制变异性。大小本讲概要描述统计:计算信度和效度正态曲线假设:检验你的问题显著性的含义——推论统计两个群体的t检验——不同群体的均值检验两个群体的t检验——两个相关群体的均值检验方差分析(One-wayANOVA)一、利用SPSS计算信度和效度重复信度/前侧-后测方法(Test-retestmethod):重复同样的测量处理信度问题。如果预期获得的信息不该有变化,那么重复测量就应该得到相同的结果。如果两次测量的结果有出入,且差异较大,那么测量方法就一定有问题。复本信度(Parallel-formsReliability):以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数。计算重复信度:计算皮尔逊相关系数计算复本信度:计算皮尔逊相关系数假设研究记忆,看一眼给定的10个单词并尽可能记住,然后在20秒内记忆、10秒钟休息,之后背诵这些单词。建立复本:测试内容相同:符合研究任务要求的另一组单词,不同于第一组。计算复本信度:计算皮尔逊相关系数内在一致性信度:克隆巴赫系数内在一致性(internalconsistencyreliability):确定测试中的项目是否彼此一致,都只表示一个维度、一个结构或一个关注的领域。1.4+4=?2.5-?=33.6+2=?4.8-?=35.1+1=?1.4+4=?2.这三只小猪中哪一只最肥?3.6+2=?4.8-?=35.这匹狼到底要干什么?较高的内在一致性内在一致性信度:克隆巴赫系数内在一致性(internalconsistencyreliability):确定测试中的项目是否彼此一致,都只表示一个维度、一个结构或一个关注的领域。克隆巴赫系数(Cronbach’s):对内在一致性系数的测量;计算逻辑:计算每个测试者在每个项目上的得分和总得分之间的相关系数,并与所有单个项目得分的变异性比较;测试中每个项目的得分与总分的变化越一致,这个系数的值就越大。这个系数值越大,就越可确信这个测试是内在一致的,或在测量同一个事物。使用SPSS计算内在一致性信度使用SPSS计算内在一致性信度使用SPSS计算内在一致性信度使用SPSS计算内在一致性信度利用SPSS计算效度效标效度:说明问卷得分与某种外部准则(效标)间的关联程度,用问卷测量得分与效度准则之间的相关系数表示。——相关法结构效度:又称构想效度,是指问卷对某一理论概念或特质测量的程度,即某问卷测验的实际得分能解释某一特质的程度。——因素分析法利用SPSS计算效度:例如:小学生智力量表,共30个题目:1-6题为想象力;7-12题为思维力;13-18题为观察力;……计算校标效度:分别使用这个智力量表和一个得到公认的智力量表(效标)进行施测。分别计算出两个智力量表的总分。分析二者的相关,如果相关很高,则说明这个量表具有较高的效标效度。50位同学阅读理解成绩频率分布直方图阅读理解成绩频率组距2468二、正态曲线xy0频数组距200位同学阅读理解成绩频率分布直方图阅读理解成绩频率组距o2468样本容量增大时频率分布直方图正态曲线可以看出,当样本容量无限大,分组的组距无限缩小时,这个频率直方图上面的折线就会无限接近于一条光滑曲线---正态曲线.钟型曲线生活中的正态分布人的身高高低不等,但中等身材的占大多数,特高和特矮的只是少数,而且较高和较矮的人数大致相近,这从一个方面反映了服从正态分布的随机变量的特点。矮个中等身材高个不聪明中等聪明聪明少数人多数人很小的概率很小的概率正态分布的特性1均值中位数众数对称性渐进性xy与x轴围成的面积为1均值μ,标准差σ正态分布的特性2——正态曲线下的面积xy均值μ,标准差σ223334.13%34.13%13.59%13.59%2.15%2.15%.13%.13%正态总体几乎总取值于区间之内,而在此区间以外取值的概率只有0.26%。通常认为这种情况在一次试验中几乎不可能发生。【3σ原则】3,3最中意的标准值:z值要对有不同均值μ和标准差σ的正态分布进行比较,需要一定的标准。Z值(zscore):标准值,偏离均值的标准差个数。【不同分布的z值具有可比性】sXX)(zZ:z值X:具体的数值S:数据分布的标准差:数据分布的均值Xx0标准正态分布:μ=0σ=1最中意的标准值:z值sXX)(z16814312s168X求原始数值为143、标准差为12的z值08.2-1225-12)168-143(z16814312s168X曲线下面积为0.018808.2-1225-12)168-143(z只有1.88%的个案小于143最中意的标准值:z值sXX)(z16814312s168X求阴影区面积08.2-1225-12)168-143(z19308.2122512)168-193(z0.0188*2=0.0376练习:计算图中的阴影区面积sXX)(z8012s80X90105833.012)80-90(z08.212)80-105(z0.203-0.019=0.185阴影区面积为18.5%,有18.5%的个案位于90-105分之间三、假设:检验你的问题从某一研究问题中得出待检验的假设;从总体中选择样本,检验研究假设;首先要建立零假设(nullhypothesis),作为研究的起点9年级学生的ABC记忆考试的平均成绩和12年级学生的平均成绩没有差异;由社区长期照料老人的效果和由家庭长期照料老人的效果没有差异。三、假设:检验你的问题研究假设;变量间有关系的明确表述;每一个零假设都有一个对应的研究假设。无方向研究假设:反映群体间的差异,但是差异的方向不确定。有方向研究假设:反映群体间的差异,而且差异的方向是确定的。三、假设:检验你的问题研究假设;变量间有关系的明确表述;无方向研究假设:反映群体间的差异,但是差异的方向不确定。9年级学生的ABC记忆考试的平均成绩不同于12年级学生的平均成绩1291:XXH三、假设:检验你的问题研究假设;变量间有关系的明确表述;有方向研究假设:反映群体间的差异,而且差异的方向确定。12年级学生的ABC记忆考试的平均成绩比9年级学生的平均成绩高。研究假设的目的:直接检验的研究假设是研究过程中的重要一步。通过比较检验的结果与随机预期的结果(零假设)来确定这两个中哪一个是所观察到的群体间差异的更好的解释。9121X:XH例,研究白人家庭和黑人家庭提供给孩子的支持数量;零假设:白人家庭和黑人家庭提供给孩子的支持数量没有差异;无方向的假设:白人家庭提供给孩子的支持数量不同于黑人家庭提供的支持数量;有方向的假设:白人家庭提供给孩子的支持数量高于黑人家庭提供的支持数量。三、假设:检验你的问题单尾与双尾:单尾(one-tailedtest):反映有方向假设,假定了特定