统计学公式1一、用统计量描述数据一、水平的度量:1.简单平均数:1231niniXxxxxxnn.2.加权平均数:1122112kiikkikMfMfMfMfxfffn.(如果原始数据被分成k组,各组的组中值分别用12kMMM,,,表示,各组的频数分别用12kfff,,,表示,则得到样本平均数计算公式)3.中位数(eM):1212212nennxnMxxn为奇数为偶数.4.四分位数:(1)定义算法:L(25%)U(75%)434nQnQ位置位置,(2)较准确算法:LU143(1)4nQnQ位置位置,(3)1122nQ位置(其中[]表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上),(4)Excel给出的四分位数位置的确定方法:34LnQ位置,314UnQ位置(如果位置不是整数,则按比例分摊位置两侧数值的差值)。二、差异的度量:1.极差(R)=一组数据的最大值-最小值.2.四分位差(dQ):75%25%dQQQ.3.总体方差(2):(1)未分组数据:221()NiixN,统计学公式2(2)组距分组数据:221()KiiiMfN.4.总体标准差():(1)未分组数据:21()NiixN,(2)组距分组数据:21()KiiiMfN.5.样本方差(2s):(1)未分组数据:221()1niixxsn,(2)组距分组数据:221()1kiiiMxfsn.6.样本标准差:(1)未分组数据:21()1niixxsn,(2)组距分组数据:21()1kiiiMxfsn.7.标准分数(z):iixxzs.8.离散系数(sv):ssvx.三、分布形状的度量:1.偏态(SK):3(1)(2)nxxSKnns.2.峰态系数(K):24(1)3(1)()(1)(2)(3)(2)(3)ixxnnnKnnnsnn.统计学公式3二、概率分布一、度量事件发生的可能性:1.事件A发生的概率:A()mPApn事件发生的次数重复试验次数.二、随机变量的概率分布:1.离散型随机变量X的期望值:1()(()(niiiiiiEXxpXEXxpX取有限个值)取无穷个值).2.离散型随机变量X的方差:22()()iiiDXxp.3.离散型随机变量X的标准差:或()DX.4.概率密度函数为()fx的连续型随机变量,期望值:()()dEXxfxx,方差:22()()()dDXxfxx.5.二项分布(~(,)XBnp)设X为n次重复试验中出现成功的次数,X取x的概率为:!!()!(0,1,2,,)xxnxnnxCnxnxPXxCpqxn式中:,二项分布的期望:(),EXnp方差:2()DXnpq.6.泊松分布(~()XP),对于Xx时有e(0,1,2,,0)!xPXxxx式中,—给定的时间间隔、长度、面积、体积内“成功”的平均数;e=2.71828;x—给定的时间间隔、长度、面积、体积内“成功”的次数。期望值:()EX,方差:()DX.统计学公式47.超几何分布(~(,,)XHnNM),对于Xx时有:()1,2,,xnxMNMnNCCPXxxlC,式中,min(,)lMn,n为试验次数;N为总体元素个数;M为总体中代表成功的元素的个数。8.概率密度函数:221221()e,2πxfxx.()fx=随机变量X的频数;=正态随机变量X的均值;2=正态随机变量X的方差;=3.1415926;e=2.71828;x=随机变量的取值()x.9.标准正态分布:(1)随机变量具有均值为0,标准差为1的正态分布;(2)任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布:~(0,1)XZN;(3)标准正态分布的概率密度函数:221()e,2πxxx;(4)标准正态分布的分布函数:2-21()()ded2πtxxxxtt.三、样本统计量的概率分布:1.样本均值分布:2~xNn,~(01)xNn,.2.样本均值的期望值和方差:()Ex;22xn.3.总体比例:011NNNN或.4.样本比例:011nnppnn或.5.当样本容量很大时,样本比例的抽样分布可用正态分布近似,即:(1)~,pNn.统计学公式56.样本方差的分布:对于来自正态总体的简单随机样本,则比值22(1)ns的抽样分布服从自由度为(1)n的2分布,即222(1)~(1)nsn.7.统计量的标准误差:样本均值和样本比例的标准误差分别为xn;(1)pn.8.估计的标准误差:样本均值:ˆxsn.四、Excel中的统计函数:BINOMDIST——计算二项分布的概率NORMDIST——计算正态分布的概率NORMINV——计算正态分布的区间点(临界值)NORMSDIST——计算标准正态分布的概率NORMSINV——计算标准正态分布的区间点(分位数)CHIDIST——计算2分布的右尾概率CHIINV——计算给定2分布的右尾概率的临界值FDIST——计算F分布的右尾概率FINV——计算给定F右尾概率的临界TDIST——计算给定t值的分布概率TINV——计算给定概率的t值三、参数估计一、一个总体参数的区间估计:1.总体均值在1置信水平下的置信区间可一般性地表达为:x(分位数值x的标准误差)2.大样本的估计(1)假定条件:总体服从正态分布,且方差(2)已知;如果不是正态分布,可由正态分布来近似(30n).(2)使用正态分布统计量z:~(0,1)xzNn.统计学公式6(3)总体均值在1-置信水平下的置信区间为22()sxzxznn或未知.3.小样本的估计(1)假定条件:总体服从正态分布,但方差(2)未知;小样本(30n).(2)使用t分布统计量:~(1)xttnsn.(3)总体均值在1-置信水平下的置信区间为:2sxtn.3.总体比例的区间估计(1)假定条件:总体服从二项分布;可以由正态分布来近似;np(成功次数)和(1)np(失败次数)均应该大于10.(2)使用正态分布统计量z:~(0,1)(1)pzNn.(3)总体比例在1-置信水平下的置信区间为:2(1-)pppzn.样本比例±分位数值×样本比例的标准误差4.总体方差的区间估计(1)估计一个总体的方差或标准差;(2)假设总体服从正态分布;(3)总体方差2的点估计量为2s,且2221~1nsn;统计学公式7(4)总体方差在1-置信水平下的置信区间为222222121111nsnsnn.5.样本量的确定(1)估计一个总体均值时样本量的确定:令E代表允许的估计误差,可以推导出所需样本量的计算公式:2222()znE.(2)估计一个总体比例时样本量的确定:令E代表允许的估计误差,可以推导估计总体比例时所需样本量的计算公式:222()(1)znE.四、假设检验一、一个总体参数的检验1.大样本的检验(1)在大样本的情况下,样本均值的抽样分布近似服从正态分布,其抽样标准差为/n.采用正态分布的检验统计量.设假设的总体均值为0,当总体方差2已知时,总体均值检验的统计量为:0/xzn.(2)当总体方差2未知时,可以采用样本方差2s来代替,此时总体均值检验的统计量为:0/xzsn.2.小样本的检验在小样本(30n)情形下,检验时首先假定总体服从正态分布.检验统计量的选择与总体方差是否已知有关。统计学公式8(1)当总体方差2已知时,即使是在小样本的情况下,样本均值经过标准化后仍然服从标准正态分布,此时可按0/xzn对总体均值进行检验.(2)当总体方差2未知时,需要用样本方差2s代替2,此时0/xzn给出的检验统计量不在服从标准正态分布,而是服从自由度为1n的t分布.因此需要采用t分布进行检验.检验统计量为:0/xtsn.3.总体比例的检验(总体均值检验类似)检验统计量(大样本,p服从正态分布):000(1)pzn.4.总体方差的检验(总体服从正态分布)检验统计量:2220(1)ns.五、分类变量的推断一、一个分类变量的拟合优度检验1.期望频数相等拟合优度检验又称一致性检验.使用2分布.计算公式:22()oeefff统计学公式9式中,of为观察频数;ef为期望频数,统计量服从自由度为1k的2分布;k为类别个数.如果统计量2等于0,表明观察频数与期望频数完全一致;如果显著不同于0,则表明观察频数与期望频数之间存在显著差异,2值越大差异就越显著.2.期望频数不相等用期望比例乘以观察频数(即样本量)即得期望频数.二、两个分类变量的独立性检验1.列联表与2独立性检验对列联表中的两个分类变量进行分析,通常是判断两个变量是否独立.该检验的原假设是:两个变量独立(无关),如果原假设被拒绝,则表明两个变量不独立,或者说两个变量相关.2独立性检验的统计量为:22()oeefff.式中,of为观察频数;ef为期望频数,统计量服从自由度为(1)(1)rc的2分布;r为行数;c为列数.要计算出检验统计量,关键是计算出期望频数。如果两个变量独立,两个变量各类别交叉项的概率可根据独立事件的概率乘法公式求得.设给定单元格所在行的合计频数为RT,所在列的合计频数为CT,任意给定单元格(比如第i行第j列的单元格ijrc)的概率为:()()()()()ijijRTCTPrcPrPcnn用上式乘以总观察频数(即样本量n),则可以得到任意单元格的期望频数为:()()eRTCTfnnn.三、两个分类变量的相关性度量1.系数和Cramer’sV系数统计学公式10系数:主要用于2X2列联表的相关性测量.计算公式为:2n.式中,2是由22()oeefff计算出的值;n为列联表的总频数,即样本量.Cramer’sV系数:2min((1),(1))Vnrc.2.列联系数列联系数主要用于大于2X2列联表的相关性测量,用C表示:22Cn.当两个变量独立时,C=0.六、方差分析与实验设计一、方差分析的基本原理1.误差分解总平方和=处理平方和+误差平方和,即SSTSSASSE.二、单因素方差分析1.效应检验一般地,设因素A有个I处理,单因素方差分析要检验的假设为:0:0(1,2,,)iHiI(没有处理效应)1:iH至少有一个不等于0(有处理效应)2.单因素方差分析表统计学公式11误差来源平方和()SS自由度()df均方()MS检验统计量()F处理效应21()IiiiSSAnyy1I1SSAMSAIMSAMSE误差211()inIiijiijSSEnyynI1SSEMSEn总效应211()inIiijijSSTnyy1n3.多重比较Fisher最小显著差异方法(LSD)第一步:提出假设:01:;:ijijHH.第二步:计算检验统计量:ijyy.第三步:计算LSD,其公式为:/211(1)()ijLSDtnMSEnn,式中,/2t是自由度为nI时t分布的临界值;in和jn分别是第i个样本和第j个样本的样本量.第四步:作出决