统计学公式

lmsister
2 ℃
2020-03-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

统计学公式1一、用统计量描述数据一、水平的度量：1.简单平均数:1231niniXxxxxxnn.2.加权平均数：1122112kiikkikMfMfMfMfxfffn.（如果原始数据被分成k组，各组的组中值分别用12kMMM，，，表示，各组的频数分别用12kfff，，，表示，则得到样本平均数计算公式）3.中位数（eM）：1212212nennxnMxxn为奇数为偶数.4.四分位数：（1）定义算法：L(25%)U(75%)434nQnQ位置位置，（2）较准确算法：LU143(1)4nQnQ位置位置，（3）1122nQ位置（其中[]表示中位数的位置取整。这样计算出的四分位数的位置，要么是整数，要么在两个数之间0.5的位置上），（4）Excel给出的四分位数位置的确定方法：34LnQ位置，314UnQ位置（如果位置不是整数，则按比例分摊位置两侧数值的差值）。二、差异的度量：1.极差（R）=一组数据的最大值-最小值.2.四分位差（dQ）：75%25%dQQQ.3.总体方差（2）：（1）未分组数据：221()NiixN，统计学公式2（2）组距分组数据：221()KiiiMfN.4.总体标准差（）：（1）未分组数据：21()NiixN，（2）组距分组数据：21()KiiiMfN.5.样本方差（2s）：（1）未分组数据：221()1niixxsn，（2）组距分组数据：221()1kiiiMxfsn.6.样本标准差：（1）未分组数据：21()1niixxsn，（2）组距分组数据：21()1kiiiMxfsn.7.标准分数(z)：iixxzs.8.离散系数（sv）：ssvx.三、分布形状的度量：1.偏态（SK）：3(1)(2)nxxSKnns.2.峰态系数（K）：24(1)3(1)()(1)(2)(3)(2)(3)ixxnnnKnnnsnn.统计学公式3二、概率分布一、度量事件发生的可能性：1.事件A发生的概率：A()mPApn事件发生的次数重复试验次数.二、随机变量的概率分布：1.离散型随机变量X的期望值：1()(()(niiiiiiEXxpXEXxpX取有限个值）取无穷个值）.2.离散型随机变量X的方差：22()()iiiDXxp.3.离散型随机变量X的标准差：或()DX.4.概率密度函数为()fx的连续型随机变量，期望值：()()dEXxfxx,方差：22()()()dDXxfxx.5.二项分布（~(,)XBnp）设X为n次重复试验中出现成功的次数，X取x的概率为：!!()!(0,1,2,,)xxnxnnxCnxnxPXxCpqxn式中：，二项分布的期望：(),EXnp方差：2()DXnpq.6.泊松分布（~()XP）,对于Xx时有e(0,1,2,,0)!xPXxxx式中，—给定的时间间隔、长度、面积、体积内“成功”的平均数；e=2.71828；x—给定的时间间隔、长度、面积、体积内“成功”的次数。期望值：()EX，方差：()DX.统计学公式47.超几何分布（~(,,)XHnNM）,对于Xx时有：()1,2,,xnxMNMnNCCPXxxlC，式中，min(,)lMn，n为试验次数；N为总体元素个数；M为总体中代表成功的元素的个数。8.概率密度函数：221221()e,2πxfxx.()fx=随机变量X的频数；=正态随机变量X的均值；2=正态随机变量X的方差；=3.1415926；e=2.71828；x=随机变量的取值()x.9.标准正态分布：（1）随机变量具有均值为0，标准差为1的正态分布；（2）任何一个一般的正态分布，可通过下面的线性变换转化为标准正态分布：~(0,1)XZN；（3）标准正态分布的概率密度函数：221()e,2πxxx；（4）标准正态分布的分布函数：2-21()()ded2πtxxxxtt.三、样本统计量的概率分布：1.样本均值分布：2~xNn，~(01)xNn，.2.样本均值的期望值和方差：()Ex；22xn.3.总体比例：011NNNN或.4.样本比例：011nnppnn或.5.当样本容量很大时，样本比例的抽样分布可用正态分布近似，即:(1)~,pNn.统计学公式56.样本方差的分布：对于来自正态总体的简单随机样本，则比值22(1)ns的抽样分布服从自由度为(1)n的2分布，即222(1)~(1)nsn.7.统计量的标准误差：样本均值和样本比例的标准误差分别为xn；(1)pn.8.估计的标准误差：样本均值：ˆxsn.四、Excel中的统计函数：BINOMDIST——计算二项分布的概率NORMDIST——计算正态分布的概率NORMINV——计算正态分布的区间点(临界值)NORMSDIST——计算标准正态分布的概率NORMSINV——计算标准正态分布的区间点(分位数)CHIDIST——计算2分布的右尾概率CHIINV——计算给定2分布的右尾概率的临界值FDIST——计算F分布的右尾概率FINV——计算给定F右尾概率的临界TDIST——计算给定t值的分布概率TINV——计算给定概率的t值三、参数估计一、一个总体参数的区间估计：1.总体均值在1置信水平下的置信区间可一般性地表达为：x（分位数值x的标准误差）2.大样本的估计（1）假定条件：总体服从正态分布,且方差(2)已知；如果不是正态分布，可由正态分布来近似(30n).（2）使用正态分布统计量z：~(0,1)xzNn.统计学公式6（3）总体均值在1-置信水平下的置信区间为22()sxzxznn或未知.3.小样本的估计（1）假定条件：总体服从正态分布,但方差(2)未知；小样本(30n).（2）使用t分布统计量：~(1)xttnsn.(3)总体均值在1-置信水平下的置信区间为:2sxtn.3.总体比例的区间估计（1）假定条件：总体服从二项分布；可以由正态分布来近似；np(成功次数)和(1)np(失败次数)均应该大于10.（2）使用正态分布统计量z：~(0,1)(1)pzNn.（3）总体比例在1-置信水平下的置信区间为：2(1-)pppzn.样本比例±分位数值×样本比例的标准误差4.总体方差的区间估计（1）估计一个总体的方差或标准差；（2）假设总体服从正态分布；（3）总体方差2的点估计量为2s，且2221~1nsn；统计学公式7（4）总体方差在1-置信水平下的置信区间为222222121111nsnsnn.5.样本量的确定（1）估计一个总体均值时样本量的确定：令E代表允许的估计误差，可以推导出所需样本量的计算公式：2222()znE.(2)估计一个总体比例时样本量的确定：令E代表允许的估计误差，可以推导估计总体比例时所需样本量的计算公式：222()(1)znE.四、假设检验一、一个总体参数的检验1.大样本的检验(1)在大样本的情况下，样本均值的抽样分布近似服从正态分布，其抽样标准差为/n.采用正态分布的检验统计量.设假设的总体均值为0,当总体方差2已知时,总体均值检验的统计量为：0/xzn.(2)当总体方差2未知时,可以采用样本方差2s来代替,此时总体均值检验的统计量为：0/xzsn.2.小样本的检验在小样本（30n）情形下，检验时首先假定总体服从正态分布.检验统计量的选择与总体方差是否已知有关。统计学公式8（1）当总体方差2已知时，即使是在小样本的情况下，样本均值经过标准化后仍然服从标准正态分布，此时可按0/xzn对总体均值进行检验.(2)当总体方差2未知时，需要用样本方差2s代替2，此时0/xzn给出的检验统计量不在服从标准正态分布，而是服从自由度为1n的t分布.因此需要采用t分布进行检验.检验统计量为：0/xtsn.3.总体比例的检验（总体均值检验类似）检验统计量（大样本，p服从正态分布）：000(1)pzn.4.总体方差的检验（总体服从正态分布）检验统计量：2220(1)ns.五、分类变量的推断一、一个分类变量的拟合优度检验1.期望频数相等拟合优度检验又称一致性检验.使用2分布.计算公式：22()oeefff统计学公式9式中，of为观察频数；ef为期望频数，统计量服从自由度为1k的2分布；k为类别个数.如果统计量2等于0，表明观察频数与期望频数完全一致；如果显著不同于0，则表明观察频数与期望频数之间存在显著差异，2值越大差异就越显著.2.期望频数不相等用期望比例乘以观察频数（即样本量）即得期望频数.二、两个分类变量的独立性检验1.列联表与2独立性检验对列联表中的两个分类变量进行分析,通常是判断两个变量是否独立.该检验的原假设是:两个变量独立(无关),如果原假设被拒绝,则表明两个变量不独立,或者说两个变量相关.2独立性检验的统计量为：22()oeefff.式中，of为观察频数；ef为期望频数，统计量服从自由度为(1)(1)rc的2分布；r为行数；c为列数.要计算出检验统计量，关键是计算出期望频数。如果两个变量独立，两个变量各类别交叉项的概率可根据独立事件的概率乘法公式求得.设给定单元格所在行的合计频数为RT，所在列的合计频数为CT，任意给定单元格（比如第i行第j列的单元格ijrc）的概率为：()()()()()ijijRTCTPrcPrPcnn用上式乘以总观察频数（即样本量n），则可以得到任意单元格的期望频数为：()()eRTCTfnnn.三、两个分类变量的相关性度量1.系数和Cramer’sV系数统计学公式10系数：主要用于2X2列联表的相关性测量.计算公式为：2n.式中，2是由22()oeefff计算出的值；n为列联表的总频数，即样本量.Cramer’sV系数：2min((1),(1))Vnrc.2.列联系数列联系数主要用于大于2X2列联表的相关性测量，用C表示：22Cn.当两个变量独立时，C=0.六、方差分析与实验设计一、方差分析的基本原理1.误差分解总平方和=处理平方和+误差平方和，即SSTSSASSE.二、单因素方差分析1.效应检验一般地，设因素A有个I处理，单因素方差分析要检验的假设为：0:0(1,2,,)iHiI（没有处理效应）1:iH至少有一个不等于0（有处理效应）2.单因素方差分析表统计学公式11误差来源平方和()SS自由度()df均方()MS检验统计量()F处理效应21()IiiiSSAnyy1I1SSAMSAIMSAMSE误差211()inIiijiijSSEnyynI1SSEMSEn总效应211()inIiijijSSTnyy1n3.多重比较Fisher最小显著差异方法（LSD）第一步：提出假设：01:;:ijijHH.第二步：计算检验统计量：ijyy.第三步：计算LSD，其公式为：/211(1)()ijLSDtnMSEnn，式中，/2t是自由度为nI时t分布的临界值；in和jn分别是第i个样本和第j个样本的样本量.第四步：作出决