1统计学各章计算题公式及解题方法第四章数据的概括性度量1.组距式数值型数据众数的计算:确定众数组后代入公式计算:下限公式:𝑀0=̇𝐿+∆1∆1+∆2×𝑑;上限公式:𝑀0=̇𝑈−∆2∆1+∆2×𝑑,其中,L为众数所在组下限,U为众数所在组上限,∆1为众数所在组次数与前一组次数之差,∆2为众数所在组次数与后一组次数之差,d为众数所在组组距2.中位数位置的确定:未分组数据为𝑛+12;组距分组数据为𝑛23.未分组数据中位数计算公式:4.单变量数列的中位数:先计算各组的累积次数(或累积频率)—根据位置公式确定中位数所在的组—对照累积次数(或累积频率)确定中位数(该公式假定中位数组的频数在该组内均匀分布)5.组距式数列的中位数计算公式:下限公式:𝑀𝑒=𝐿+𝑛2−𝑆𝑚−1𝑓𝑚×𝑑;上限公式:𝑀𝑒=𝑈−𝑛2+𝑆𝑚+1𝑓𝑚×𝑑,其中,𝑓𝑚为中位数所在组的频数,𝑠𝑚−1为中位数所在组前一组的累积频数,𝑠𝑚+1为中位数所在组后一组的累积频数6.四分位数位置的确定:未分组数据:{下四分位数:𝑄𝐿=𝑛+14上四分位数:𝑄𝑈=3(𝑛+1)4;组距分组数据:{下四分位数:𝑄𝐿=𝑛4上四分位数:𝑄𝑈=3𝑛47.简单均值:𝑥̅=𝑥1+𝑥2+⋯+𝑥𝑛𝑛=∑𝑥𝑖𝑛𝑖=1𝑛8.加权均值:𝑥̅=𝑀1𝑓1+𝑀2𝑓2+⋯+𝑀𝑘𝑓𝑘𝑓1+𝑓2+⋯+𝑓𝑘=∑𝑀𝑖𝑓𝑖𝑘𝑖=1𝑛=∑𝑀𝑖𝑘𝑖=1𝑓𝑖𝑛,其中,𝑀1,𝑀2…𝑀𝑘为各组组中值9.几何均值(用于计算平均发展速度):𝑥̅=√𝑥1×𝑥2×…×𝑥𝑛𝑛=√∏𝑥𝑖𝑛𝑖=1𝑛10.四分位差(用于衡量中位数的代表性):𝑄𝐷=𝑄𝑈−𝑄𝐿11.异众比率(用于衡量众数的代表性):𝑉𝑟=∑𝑓𝑖−𝑓𝑚∑𝑓𝑖=1−𝑓𝑚∑𝑓𝑖12.极差:未分组数据:R=𝑚𝑎𝑥(𝑥𝑖)−𝑚𝑖𝑛(𝑥𝑖);组距分组数据:R=̇最高组上限−最低组下限13.平均差(离散程度):未分组数据:𝑀𝑑=∑|𝑥𝑖−𝑥̅|𝑛𝑖=1𝑛;组距分组数据:𝑀𝑑=̇∑|𝑀𝑖−𝑥̅|𝑘𝑖=1∙𝑓𝑖𝑛14.总体方差:未分组数据:σ2=∑(𝑥𝑖−𝜇)2𝑁𝑖=1𝑁;分组数据:σ2=∑(𝑀𝑖−𝜇)2𝑘𝑖=1∙𝑓𝑖𝑁15.总体标准差:未分组数据:σ=√∑(𝑥𝑖−𝜇)2𝑁𝑖=1𝑁;分组数据:σ=√∑(𝑀𝑖−𝜇)2𝑘𝑖=1∙𝑓𝑖𝑁16.样本方差:未分组数据:𝑠𝑛−12=∑(𝑥−𝑥̅)2𝑛𝑖=1𝑛−1;分组数据:𝑠𝑛−12=∑(𝑀𝑖−𝑥̅)2∙𝑓𝑖𝑘𝑖=1𝑛−117.样本标准差:未分组数据:𝑠𝑛−1=√∑(𝑥−𝑥̅)2𝑛𝑖=1𝑛−1;分组数据:𝑠𝑛−1=√∑(𝑀𝑖−𝑥̅)2∙𝑓𝑖𝑘𝑖=1𝑛−1统计学各章计算题公式及解题方法218.标准分数:𝑧𝑖=𝑥𝑖−𝑥̅𝑠19.离散系数:𝑣𝑠=𝑠𝑥̅第七章参数估计1.𝑍𝛼2的估计值:置信水平α𝛼2𝑍𝛼290%0.10.051.65495%0.050.0251.9699%0.010.0052.582.不同情况下总体均值的区间估计:总体分布样本量σ已知σ未知正态分布大样本(n≥30)𝑥̅±𝑧𝛼2𝜎√𝑛𝑥̅±𝑧𝛼2𝑠√𝑛小样本(n30)𝑥̅±𝑧𝛼2𝜎√𝑛𝑥̅±𝑡𝛼2𝑠√𝑛非正态分布大样本(n≥30)𝑥̅±𝑧𝛼2𝜎√𝑛𝑥̅±𝑧𝛼2𝑠√𝑛其中,𝑡𝛼2查p448,查找时需查n-1的数值3.大样本总体比例的区间估计:𝑝±𝑧𝛼2√𝑝(1−𝑝)𝑛4.总体方差𝜎2在1−α置信水平下的置信区间为:(𝑛−1)𝑠2𝜒𝛼/22≤𝜎2≤(𝑛−1)𝑠2𝜒1−𝛼/225.估计总体均值的样本量:n=(𝑍𝛼/2)2𝜎2𝐸2,其中,E为估计误差6.重复抽样或无限总体抽样条件下的样本量:n=(𝑍𝛼/2)2𝜋(1−𝜋)𝐸2,其中π为总体比例第八章假设检验1.总体均值的检验(𝜎2已知或𝜎2未知的大样本)[总体服从正态分布,不服从正态分布的用正态分布近似]假设双侧检验左侧检验右侧检验假设形式𝐻0:μ=𝜇0𝐻1:μ≠𝜇0𝐻0:μ≥𝜇0𝐻1:μ𝜇0𝐻0:μ≤𝜇0𝐻1:μ𝜇0统计量σ已知z=𝑥̅−𝜇0𝜎√𝑛⁄σ未知z=𝑥̅−𝜇0𝑠√𝑛⁄拒绝域|𝑧|𝑧𝛼2⁄z−𝑧𝛼z𝑧𝛼P值决策Pα,拒绝𝐻02.总体均值检验(𝜎2未知,小样本,总体正态分布)假设双侧检验左侧检验右侧检验统计学各章计算题公式及解题方法3假设形式𝐻0:μ=𝜇0𝐻1:μ≠𝜇0𝐻0:μ≥𝜇0𝐻1:μ𝜇0𝐻0:μ≤𝜇0𝐻1:μ𝜇0统计量σ已知z=𝑥̅−𝜇0𝜎√𝑛⁄σ未知t=𝑥̅−𝜇0𝑠√𝑛⁄拒绝域|𝑡|𝑡𝛼2⁄(𝑛−1)t−𝑡𝛼(𝑛−1)t𝑡𝛼(𝑛−1)P值决策Pα,拒绝𝐻0注:σ已知的拒绝域同大样本3.一个总体比例的检验(两类结果,总体服从二项分布,可用正态分布近似)(其中𝜋0为假设的总体比例)假设双侧检验左侧检验右侧检验假设形式𝐻0:π=𝜋0𝐻1:π≠π0𝐻0:π≥𝜋0𝐻1:ππ0𝐻0:π≤𝜋0𝐻1:ππ0统计量z=𝑝−𝜋0√𝜋0(1−𝜋0)𝑛拒绝域|𝑧|𝑧𝛼2⁄z−𝑧𝛼z𝑧𝛼P值决策Pα,拒绝𝐻04.总体方差的检验(𝜒2检验)假设双侧检验左侧检验右侧检验假设形式𝐻0:σ2=σ02𝐻0:σ2≠σ02𝐻0:σ2≥σ02𝐻0:σ2σ02𝐻0:σ2≤σ02𝐻0:σ2σ02统计量χ2=(𝑛−1)𝑠2𝜎02拒绝域χ2𝜒𝛼2⁄2(𝑛−1)χ2𝜒1−𝛼2⁄2(𝑛−1)χ2𝜒1−𝛼2⁄2(𝑛−1)χ2𝜒𝛼2⁄2(𝑛−1)P值决策Pα,拒绝𝐻05.z统计量的参考数值α0.10.050.01双侧检验±1.65±1.96±2.58单侧检验±1.28±2.65±2.33第九章列联分析1.期望频数的分布(假定行变量和列变量是独立的)一个实际频数f𝑖𝑗的期望频数e𝑖𝑗,是总频数的个数𝑛乘以该实际频数f𝑖𝑗落入第𝑖行和第j列的概率,即:𝑒𝑖𝑗=𝑛·(𝑟𝑖𝑛)∙(𝑒𝑗𝑛)=𝑟𝑖𝑐𝑗𝑛2.𝜒2统计量(用于检验列联表中变量间拟合优度和独立性;用于测定两个分类变量之间的相关程度χ2=∑∑(𝑓𝑖𝑗−𝑒𝑖𝑗)2𝑒𝑖𝑗𝑐𝑗=1𝑟𝑖=1,自由度为(𝑟−1)(𝑐−1),𝑓𝑖𝑗为列联表中第i行第j列的实际频数,𝑒𝑖𝑗为列联表中第i行第j列的期望频数1)检验多个比例是否相等检验的步骤提出假设H0:1=2=…=j;H1:1,2,…,j不全相等;计算检验统计学各章计算题公式及解题方法4的统计量;进行决策:根据显著性水平和自由度(r-1)(c-1)查出临界值2,若22,拒绝H0;若22,不拒绝H02)利用样本数据检验总体比例是否等于某个数值检验的步骤提出假设H0:1=,2=,…;H1:原假设的等式中至少有一个不成立;计算检验的统计量;进行决:根据显著性水平和自由度(r-1)(c-1)查出临界值2;若22,拒绝H0;若22,不拒绝H03)检验列联表中的行变量与列变量之间是否独立检验的步骤提出假设H0:行变量与列变量独立;H1:行变量与列变量不独立;计算检验的统计量;进行决策:根据显著性水平和自由度(r-1)(c-1)查出临界值2,若22,拒绝H0;若22,不拒绝H03.相关系数:测度22列联表中数据相关程度;对于22列联表,系数的值在0~1之间φ=√𝜒2𝑛,其中,n为实际频数总个数,即样本容量4.列联相关系数(C系数)用于测度大于22列联表中数据的相关程度𝐶=√𝜒2𝜒2+𝑛,其中,C的取值范围是0≤C1;C=0表明列联表中的两个变量独立;C的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大;根据不同行和列的列联表计算的列联系数不便于比较5.V相关系数V=√𝜒2𝑛𝑚𝑖𝑛[(𝑟−1),(𝑐−1)],其中,V的取值范围是0≤V≤1;V=0表明列联表中的两个变量独立;V=1表明列联表中的两个变量完全相关;不同行和列的列联表计算的列联系数不便于比较;当列联表中有一维为2,min[(r-1),(c-1)]=1,此时V=φ第十章方差分析1.单因素方差分析的要点:1)建立假设的表述方法:𝐻0:𝜇1=𝜇2=⋯=𝜇𝑘,自变量对因变量没有显著影响𝐻1:𝜇1,𝜇2,…,𝜇𝑘不全相等,自变量对因变量有显著影响2)决策:i.根据给定的显著性水平α,在F分布表中查找与第一自由度df1=k−1、第二自由df2=n−k相应的临界值F𝛼ii.若FF𝛼,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响iii.若FF𝛼,则不拒绝原假设H0,不能认为所检验的因素对观察值有显著影响3)单因素方差分析表的结构:统计学各章计算题公式及解题方法52.方差分析中的多重比较(步骤):采用Fisher提出的最小显著差异方法,简写为LSD1)提出假设:𝐻0:𝜇𝑖=𝜇𝑗(第𝒾个总体的均值等于第𝒿个总体的均值)𝐻0:𝜇𝑖≠𝜇𝑗(第𝒾个总体的均值不等于第𝒿个总体的均值)2)计算检验统计量:𝑥̅𝑖−𝑥̅𝑗3)计算LSD:LSD=𝑡𝛼2√𝑀𝑆𝐸(1𝑛𝑖+1𝑛𝑗)4)决策:若|𝑥̅𝑖−𝑥̅𝑗|𝐿𝑆𝐷,则拒绝𝐻0;若|𝑥̅𝑖−𝑥̅𝑗|𝐿𝑆𝐷,则不拒绝𝐻03.双因素方差分析:1)无交互作用的双因素方差分析表结构:2)有交互作用的双因素方差分析表结构:4.关系强度测量:变量间关系的强度用自变量平方和(SSA)及残差平方和(SSE)占总平方和(SST)的比例大小来反映,根据𝑅2平方根R进行判断𝑅2=𝑆𝑆𝐴(组间平方和)𝑆𝑆𝑇(总平方和)统计学各章计算题公式及解题方法6第十一章一元线性回归1.样本的相关系数:r=∑(𝑥−𝑥̅)(𝑦−𝑦̅)√∑(𝑥−𝑥̅)2∙∑(𝑦−𝑦̅)2=𝑛∑𝑥𝑦−∑𝑥∑𝑦√𝑛∑𝑥2−(∑𝑥)2∙√𝑛∑𝑦2−(∑𝑦)22.相关系数的显著性检验步骤:1)提出假设:𝐻0:ρ=0;𝐻1:ρ≠02)计算检验统计量:t=|𝑟|√𝑛−21−𝑟2~𝑡(𝑛−2)3)确定α并决策:|𝑡|𝑡𝛼2,拒绝𝐻0;|𝑡|𝑡𝛼2,不拒绝𝐻03.一元回归模型:y=𝛽0+𝛽1𝑥+𝜖4.一元线性回归方程形式:𝐸(𝑦)=𝛽0+𝛽1𝑥,其中𝛽0是直线方程在y轴上的截距,是当𝑥=0时,y的期望值;𝛽1是直线的斜率,称为回归系数,表示当𝑥每变动一个单位时y的平均变动值5.一元线性回归中,估计的回归方程:𝑦̂=𝛽̂0+𝛽̂1𝑥,其中𝛽̂0是估计的回归直线在y轴上的截距,𝛽̂1是直线的斜率,它表示对于一个给定的𝑥的值,𝑦̂是y的估计值,表示当𝑥每变动一个单位时y的平均变动值6.根据最小二乘法求𝛽̂0以及𝛽̂1的公式:{𝛽̂1=𝑛∑𝑥𝑖𝑦𝑖−(∑𝑥𝑖𝑛𝑖=1)(∑𝑦𝑖𝑛𝑖=1)𝑛𝑖=1𝑛∑𝑥𝑖2𝑛𝑖=1−(∑𝑥𝑖𝑛𝑖=1)2𝛽̂0=𝑦̅−𝛽1𝑥̅7.误差平方和之间的关系:∑(𝑦𝑖−𝑦̅)2=𝑛𝑖=1∑(𝑦̂𝑖−𝑦̅)2+∑(𝑦𝑖−𝑦̂𝑖)