第三讲推断统计一、概率分布(理论基础)二、假设检验三、方差分析四、非参数检验五、回归分析概率分布[学习目标]1、了解掌握有关概率的基本知识;2、理解常用概率分布的基本特征3、二项分布与正态分布的具体应用[学习重点]概率原理;二项分布、标准正态分布表、t分布表、x2分布、F分布的特征及使用。一、概率分布概率论是推论统计的基础。推论统计通过对样本数量化结果的分析,在指出是什么和不是什么的同时,还用概率指出这种可能性的大小。概率的一些基本概念什么是概率后验概率:事件A出现的次数m与观测次数n的比值为事件A的概率估计值,可写作当观测次数n无限增大,计算出的概率估计值越接近真实的概率值。因这种概率是由事件A出现的次数决定,故又称为统计概率。先验概率它是真实的概率而不是估计值。①实验的每一种可能结果(称为基本事件)是有限的,②每一个基本事件出现的可能性相等。如果基本事件的总数为n,事件A包括m个基本事件,则事件A的概率为:这种概率称为或古典概率,当进行多次观测时,按观测结果计算的概率(后验概率)基本接近先验概率。概率的某些基本性质(一)概率的公理系统。(1)任何一个随机事件A的概率都是非负的P(A)0(2)必然事件的概率为1,必然事件是指在一定条件下必然发生的事件。P(A)=1(3)不可能事件的概率为0,不可能事件是指在一定条件下必然不发生的事件。P(A)=0概率值0≤P(A)≤1。概率接近1的事件其发生的可能性较大,而概率接近0的事件其发生的可能性较小。(二)概率的加法定理加法定理是指两个互不相容事件A、B之和的概率,等于两个事件概率之和。写作P(A+B)=P(A)+P(B)。所谓互不相容事件是指在一次实验或调查中,若事件A发生则事件B就一定不发生,否则二者为相容事件。例:对某一考生进行考核,若该生得优的概率为0.10,得良的概率为0.60,问该生考核成绩为优或良的概率为多大?P(优+良)=P(优)+P(良)=0.10+0.60=0.70〈三〉概率的乘法定理概率的乘法定理适用于几种情况组合的概率,即几种事件同时发生的情况。乘法定理:两独立事件同时出现的概率等于该两事件概率的乘积。P(A+B)=P(A)·P(B)。所谓独立事件指的是一个事件的出现对另一个事件的出现不发生影响,如果事件A的概率随事件B是否出现而改变,事件B的概率随事件A是否出现而改变,则此两事件被称为相关事件或相依事件。例:一份有10道四选一多项选择题的试卷,考生全凭随机猜测得满分的概率有多大?P(A+B)=P(A)·P(B)=0.2510=0.000000953概率分布的类型概率分布是指对随机变量取值的概率分布情况用数学方法(函数)进行描述。概率分布依不同的划分标准,可分为不同的类型。(一)离散分布与连续分布·(二)经验分布与理论分布(三)基本随机变量分布与抽样分布(一)离散分布与连续分布(是否具有连续性)离散随机变量的概率分布又称作离散分布,即计数数据的概率分布,它可用分布函数加以数量化描述。如二项分布连续分布是指连续随机变量的概率分布,即测量数据的概率分布,它用连续随机变量的分布函数描述它的分布规律。如正态分布。(二)经验分布与理论分布(分布函数的来源)经验分布是指根据观察或实验所获得的数据而编制的次数分布或相对频率分布,经验分布往往是总体的一个样本,它可对所研究的对象给以初步描述,并作为推论总体的依据。理论分布有两个含义,一是随机变量概率分布的函数——数学模型,二是指按某种数学模型计算出的总体的次数分布。(三)基本随机变量分布与抽样分布(描述的数据特征)基本随机变量分布是指理论分布中描述构成总体的基本变量的分布,心理与教育统计中常用的基本随机变量分布有二项分布与正态分布。抽样分布是样本统计量的理论分布。正态分布正态分布也称常态分布或常态分配,是连续随机变量概率分布的一种,是在数理统计的理论与实际应用中占有重要地位的种理论分布。正态分布(normaldistribution)也叫高斯分布(Gaussiandistribution),是最常见、最重要的一种连续型分布正态分布的特征(一)正态分布的函数(又称密度函数)为式中π是圆周率3.14159…e是自然对数的底2.71828…x为随机变量取值一∞x∞μ为理论的平均数δ2为理论的方差y为概率密度即正态分布上的纵坐标。222)(21uxey正态曲线(normalcurve)图形特点:1.钟型2.中间高3.两头低4.左右对称5.最高处对应于X轴的值就是均数6.曲线下面积为17.标准差决定曲线的形状Xf(X)m012-1-2xy-3μ=-1σ=0.5012-1-2xy-33μ=0σ=1012-1-2xy-334μ=1σ=2(2)曲线在x轴的上方,与x轴不相交.即y0(3)曲线是单峰的,它关于直线x=μ对称.(5)曲线与x轴之间的面积为1.(4)曲线在x=μ处达到峰值(最高点)1σ2π(1)图象中间高,两边低,左右对称(6)当xμ时,图象自左向右下降;……..(二)正态分布的特征1、正态分布的形式是对称的,(但对称的不一定是正态分布),它的对称轴是过平均数点的垂线。正态分布中,平均数、中数、众数三者相等,此点y值最大(0.3989)。2、正态分布的中央点(即平均数点)最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于正负1个标准差处,曲线两端向靠近基线处无限延伸,但终不能与基线相交。012-1-2xy-33μ=0σ=13、正态曲线下的面积为1,由于它在平均数处左右对称,故过平均数点的垂线将正态曲线下的面积划分为相等的两部分,即各为0.50。0.00.10.20.30.40.5-4-3-2-101234Xf(X)0.54、正态分布是一族分布。它随随机变量的平均数,标准差的大小与单位不同而有不同的分布形态。如果平均数相同,标准差不同,这时标准差大的正态分布曲线形式低阔,如果标准差小,则正态曲线的形式高狭。标准正态分布(standardnormaldistribution)的两个参数为:μ=0,σ=1记为N(0,1)XeAXuNNuXz,21);1,0(),(222mm其中标准正态分布被转化为变换:一般正态分布标准正态变量经一般正态分布为一个分布族:N(m,s2);标准正态分布只有一个N(0,1);这样简化了应用dXeXFXX)2()(2221)(m0.00.10.20.30.40.5-4-3-2-101234Xf(X)221()2zZueu-∞6、在正态分布曲线下,标准差与概率(面积)有一定的数量关系。即标准正态分布面积或概率-1~168.27%-1.96~1.9695.00%-2.58~2.5899.00%-3~399.74%-4~499.99%正态分布表的编制与使用依据正态分布的密度函数,编制方法:从Z=O开始,逐渐变化Z分数,计算从Z=0至某一定值之间的概率。012-1-2zy-33μ=0P=1zY正态表一般包括以下三栏:第一栏表明Z分数单位,在平均数这一点上Z=0,在平均数以上(即曲线右侧)Z分数为正值,在平均数以下(即曲线左侧)Z分数为负值。一般正态表上z分数列到3.99,更详细的列到5.00。第二栏为y(即密度函数或比率数)值,即某一Z分数点上的曲线纵坐标的高度,标准正态曲线下y==0.3989,它是Z=0。这一点上曲线纵坐标具有的最大值或说概率密度值。第三栏为概率值(常标以P)即不同z分数点与平均数之间的面积与总面积之比。使用正态表,可以进行如下几个方面的计算:(一)依据Z分数求概率。即已知差度(Z),求面积(P)因为z分数的值表示该点至平均数之间的距离,所以称之为差度有下述三种情况:1.某Z分数值与平均数(Z=0)之间的概率。2.求某Z分数以上或以下自概率。3.求两个Z分数之间的概率。(二)从概率(P)求Z分数,即从面积求差度值。这种计算的查表方法有以下几种情况:1、从平均数开始的概率值已知,求Z值。2、求两端概率的Z值。指已知位于正态分布两端的概率值求该概率值分界点的Z值。3、若已知正态曲线下中央部分的概率,求Z分数是多少,则将中央部分的概率值除以2(因为正态曲线于平均数处对称)然后再据此P值查表求z,因为是曲线中间部分。(三)求概率的密度Y,即正态曲线的高。不论已知概率,还是已知Z值,都可从表的第一或第三栏查对应的第二栏。所知的概率是位于正态曲线的中间部分,还是两尾端部分。这一点要注意区分,才能通过P值查表求得正确的概率密度Y。次数分布是否正态的检验方法在心理与教育的实际测量和实验中所获得的基本随机变量。为了统计分析的需要,常要分析次数分布是否为正态分布,对分布曲线是否为正态分布的拟合检验方法是X2检验,除此之外,还有一些简单的方法,帮助分析。这些方法有累加次数曲线法,偏态峰态量数的描述方法法。(一)皮尔逊偏态量数法(skwed)皮尔逊发现在偏态分布中平均数距中数较近而离众数较远。在正偏态中MMdMo,在负偏态中MMdMo,而在正态分布三者合于一点。根据平均数与众数或中数的距离,提出一个偏态量数公式,用以描述分布形态:式中δ为标准差,sk为偏态量数,当SK=0时,分布对称,当SK为正数时,分布属正偏态,当SK为负数时,分布属负偏态.例SPSS中30名学生的成绩分布3OMMdMMSKSKSS或峰度、偏度检验法这种方法是根据分析分布的峰度系数(cofficientofkurtosis)与偏度系数(cofficientofskewness),确定分布形态。一般情况下,需要观测数据的数目要足够大,应用这种方法才有意义。偏度系数当g1=0时分布是对称的,当gl0分布为正偏态,当g10分布呈负偏态。当观测数据数目N200时,这个偏态系数的统计量g1才较可靠。2/3231]/)([/)(NXXNXXg峰度系数当g2=0时,正态分布的峰度,g20时,分布的峰度比正态分布峰度低阔,g20时,表明分布的峰度比正态分布的峰度高狭。当N1000时,计算出的g2统计量才较可靠。3]/)([/)(2242NXXNXXg用SPSS次数分布是否正态的检验Analyze——descriptive选择optionsDistribution中kurtosis与skewness即可用SPSS求z分数Analyze——descriptive选择savestandardizedvaluesasvariable即可标准分数的优越性表现在三个方面:(1)各种标准分数的单位是绝对等价的,因此,它具有可加性;(2)标准分数值的大小和正负,可以反映某一考分在全体考分中所处的地位,因此,它具有可比性;(3)标准分数可以作为舍弃异常数据的依据:如果Z的绝对值大于3,则可考虑舍弃这种原始数据。样本分布样本分布指样本统计量的分布,即样本统计量的抽样分布,它是统计推论的重要依据。在分析样本统计量的分布时,首先要保证各个样本是独立的,各个样本都服从同样的分布,为了保证这一点,取样方法应该用随机抽样的方法。正态分布及渐近正态分布(normaldistribution)样本统计量为正态分布或接近正态分布的两种情况,凡符合这两种情况的分布,都可根据正态分布的概率进行统计推论。mm(一)原总体为正态分布,方差δ²的已知,样本平均数的抽样分布为正态分布。SEn各自的正态分布形式转换成相同的标准正态分布。样本平均数的标准分数,可写作:XxXZm(二)总体分布非正态,但σ已知,且样本足够大时(n30),其样本平均数的抽样分布为渐近正态分布其样本平均数的抽样分布的平均数与标准差,与总体的μ及σ之间,也有下述关系:mm2nt分布(T-distribution)t分布是统计分析中应用较多的一种随机变量函数的分布,是