研究对象的某种特性值的全体叫总体;从总体中随机取出的一组数据叫样本;样本所含测量值的数目叫样本容量。例如,对某矿石中Fe的含量作了无限次测定,所得无限多个数据的集合就是总体,其中每个数据就是个体,从中随机取出一组数据(例如8个数据)就是样本,样本容量为8。§2.1几个概念(P241)设样本容量为n,则其平均值为当测量次数无限多时,所得平均值即为总体平均值μ:(2-1)若没有系统误差,则总体平均值µ就是真实值在分析化学中,广泛采用标准偏差来衡量数据的分散程度x1xxn1limnxnTx①总体标准偏差当测量次数为无限多次时,各测量值对总体平均值µ的偏离,用总体标准偏差σ表示:(2-2)②样本标准偏差当测量值不多,总体平均值又不知道时,用样本的标准偏差s来衡量该组数据的分散程度。2()xn2()1xxsn当测量次数非常多时,测量次数n与自由度(n-1)的区别就很小了,此时即同时s③平均值的标准偏差单次测定值的标准差S反映的是单次测定值之间的离散性平均值的标准差反映的是若干组平行测定,各平均值之间的离散性x22()()lim1nxxxnn123nxxxx,,12,....nXXX若对某试样作若干批测定,每批又作n个平行测定则(2-4)由此可见:①平均值的精密度比单次测定的精密度更好,;平均值的标准偏差与测定次数的平方根成反比.②增加测定次数,可使平均值的标准偏差减小。作关系图如P244图7-1所示。SnXS=XSSnxss开始时,随减少很快,n5变化较慢,而当n10时,变化很小,进一步增加测定次数,徒劳无益,对提高分析结果可靠性,并无更多好处。实际中,一般的分析作3~5次平行测定即可,而标样、物理常数、原子量的测定则次数较多xssn随机误差是由一些偶然因素造成的误差,其大小、方向都不固定,难以预计,不能测量也无法消除。它的出现似乎很不规律,但实质上,它的出现和分布服从统计规律§2.2随机误差的正态分布(P245)它在概率统计中占有特别重要的地位,因为许多随机变量都服从或近似服从正态分布,分析测定中的随机误差也是这样的,P246图7-3即为正态分布曲线,它的数学表达式为:(2-5)式中y-为概率密度x-为测量值2x-1yfx)e22()-2=(=1.正态分布(高斯GAUSS分布)µ-为总体平均值,即无限次测定数据的平均值,相应于曲线最高点的横坐标值,在没有系统误差时,它即为真值,它反映无限个测量数据分布的集中趋势σ-总体标准偏差,是µ到曲线两拐点之一的距离,它表征数据的分散程度,σ小,数据集中,曲线瘦高;σ大,数据分散,曲线矮胖。X-µ表示随机误差,若以X-µ为横坐标,则曲线最高点横坐标为0,这时表示的即为随机误差的正态分布曲线xT由图可看到随机误差有以下规律性:1)偏差大小相等、符号相反的测定值出现的概率大致相等2)偏差小的测定值比偏差较大的测定值出现的概率大,偏差很大的测定值出现的概率极小,趋近于03)大多数测定值集中在µ的附近,所以为最可信赖值或最佳值正态分布曲线随µ、σ值不同而不同,应用起来不方便,为此,采用变量转换的方法,将其化为同一分布-标准正态分布即令代入(2-5)式得又所以x-u=221fxe2u-()=dx=d221fxdxed()2d-()=即将式(2-5)转化为只有变量µ的方程(2-6)因此曲线的形状与σ大小无关,即不同σ曲线皆合为一条标准正态分布曲线见P247图7-4,221ye2u-=它以µ总体平均值为原点,以σ为横坐标正态分布曲线与横坐标-∞到+∞之间所夹的面积代表全部数据出现概率的总和,显然应当是100%,即为1P=(2-7)随机误差或测量值在某一区间出现的概率可取不同µ值对式(2-7)进行定积分,求得面积(即为概率),并制得标准正态分布概率积分表。由于积分上下限不同,表的形式有很多种,为了区别,在表上方一般绘图说明表中所列值是什么区间的概率,表中列出的面积与图中阴影部分相对应(P248表7-2),表示随机误差在此区间的概率,若是求区间的概率,利用正态分布的对称性,必须乘以2221()12udeduu2.随机误差的区间概率随机误差出现的区间测量值出现的区间概率P2×0.3413=68.3%2×0.4773=95.5%2×0.4953=99.1%2×0.4987=99.7%1u2u2.6u3u1x2x2.6x3x从计算结果可知,95%以上的测量值都会落在范围内,随机误差x-μ超过的大误差(或测量值)出现的概率0.3%,一般化学分析是作几次测定,所以可以认为实际上是不可能出现的,如一旦出现,可认为其不是由于随机因素引起的,应弃去。例:P248例3、例43对无限次测量而言,总体平均值µ衡量数据的集中趋势,总体标准差σ反映了数据的离散程度,但是,分析化学中常常只作有限次测定。下面将讨论如何通过有限次测定结果对µ和σ进行估计,从而合理地推断总体的特性§2.3少量数据的统计处理正态分布是无限次测量数据的分布规律,而实际测定只能是有限次,其分布规律不可能完全相同。英国的统计学家兼化学家戈塞特(W.S.GOSSET)提出了t分布规律(2-8)(书P249公式7-15有误)平均值的标准偏差xxxtnssxssn一.有限次测量时的随机误差µ-总体平均值,无系统误差时就是真值,t分布曲线如图2-2(P249图7-6)所示,纵坐标仍为概率密度,横坐标为t,t分布曲线与正态分布曲线相似,只是①t分布曲线随自由度f(f=n-1)而改变,当时,,t分布曲线即正态分布曲线。nf②与正态分布曲线一样,t分布曲线下面一定范围内的面积,即是该范围内测定值出现的概率,但应注意,对于正态分布曲线,只要µ值一定,相应的概率也就一定;但对于t分布曲线,当t一定时,由于f不同,相应曲线所包括的面积,即概率也就不同。为此引入置信度的概念,置信度P-人们对所作判断的把握程度,其实质为某事件出现的概率,在此表示某一t值时,平均值落在()区间内的概率。落在此范围之外的概率为(1-P)称为显著性水平,用α表示。xts③不同概率P与f值所对应的t值,表示为tα,f。如t0.05,10代表置信度95%,自由度为10时的t值。t值表见书P250表7-3,概率P都是指双边值,即虽然表中所列的t值均为正值,实际上每个t值对应的概率p是指直线t=-t表和t=t表之间所夹曲线下的面积,例如:当f=3,p=0.95时,t0.05,3=3.18,是指在自由度f=3的那条t分布曲线下,直线t=-3.18与直线t=3.18之间所夹的面积为0.95。④理论上当时,各置信度对应的t值才与u值一致,但实际当f=20时,t与u已很接近。多次重复测定得到一系列测定值,在报告分析结果时,要反映出数据的集中趋势和分散性,一般采用下列三项值,①-是总体μ的最佳估计值,反映数据的集中趋势。②S-是的估计值,反映数据的离散程度。③测定次数n-用于求自由度f,反映数据的可靠程度二.一般分析结果的统计表示法例测某铁矿样中Fe的含量,得:37.45%,37.30%,37.20%,37.50%,37.25%,报告分析结果解:=37.34%di(i=1,2…..5)分别为:+0.11,-0.04,-0.14,+0.16,-0.09(%)所以分析结果报告如下:=37.34%,s=0.13%,n=5x5210.13%51iidsx注意:1)S结果保留几位,要根据值而定,如=0.9987,则s可为0.0015,也可写为0.002,最多与可疑位(7)相齐。2)如无%,则s不带%,如=20.36%,s可写为0.04%,此时才用“%”xxxx在一定置信度上,根据(样本)估计µ(总体平均值)可能存在的区间,只有当,,显然做不到,少数测量得到的总带有一定的不确定性,所以只能在一定置信度上,根据对µ可能存在的区间作出估计由t分布(2-8)式(2-9)这表示在一定置信度下,以平均值为中心,包括总体平均值µ范围,就叫平均值的置信区间(P251)。xnxxxxststnxx三.平均值的置信区间(P251)例1:已知=35.21%,S=0.06%,n=4,求P=0.95,0.99时,平均值的置信区间解:P=0.95,t0.05,3=3.18理解为:在区间中包括总体平均值µ的把握(概率)有95%。P=0.99t0.01,3=5.84µ例2:P251例535.210.18%()0.063.18%35.210.10%4(35.21)()35.210.10%()置信度越高,t曲线下面积越大,置信区间就越大,即所估计的区间包括真值的可能性也就越大。但P=100%,则意味着区间无限大,肯定会包括,这样的区间毫无意义;分析中通常将P定在95%或90%(一)显著性检验在分析工作中常遇到这样的情况,某人对标样进行分析,得到的平均值()与标准值(µ)不一致;或采用两种不同的分析方法分析同一试样,得到的两组测定数据的平均值不一致;或两个不同分析人员对同一试样进行分析时,两组数据的平均值不一致。如这种差异是由随机误差引起,则是不可避免的(正常的),可以认为差异不显著;如这种差异是由系统误差引起,则认为它们之间存在“显著性”差异x12xx与12xx与四测定数据的评价1.平均值()与标准值(µ)的显著性检验-t检验为检查某一新分析方法或某操作过程是否存在系统误差,可用标样或基准物质作几次测定,然后用t检验法检验与µ之间是否存在显著性差异将、µ代入(2-8)式得(2-10)xxxnSx计算-t=步骤:1)计算2)选定P(一般取95%),查表3),处于以µ为中心的95%概率区间之外,这种数据出现的机会是极少的,则与µ存在显著性差异,说明有系统误差存在;,则无显著性差异,与µ的差异是由随机误差引起的计算tf,tf,计算ttxxf,计算ttx例(P252例6)采用某种新方法测定基准明矾中Al2O3的含量,得:=10.79%,S=0.04%,n=9,已知明矾中ω(Al2O3)的理论值为10.77%,问该新方法是否有系统误差?解:=1.5t0.05,8=2.314,所以与µ无显著性差异x10.7910.77n9s0.04x计算--t=0.058,计算ttx2.两组平均值的显著性检验-F检验+t检验不同分析人员或同一分析人员采用不同方法分析同一试样所得两组数据平均值和往往是不一致的,要判断这两组数据之间是否存在系统误差(显著性差异),通常按如下步骤进行:设两组数据为:111222xxnsns、、;、、(1).F检验-检验两组数据的精密度s1、s2有无显著差异(s1,s2是否来自同一总体)a.S2-方差(2-11)因(方差较大,标准偏差较大)作分子,所以1b.然后查F表(P253表7-4)c.若,说明s1与s2差异不显著,进而用t检验法检验两组数据之间是否存在系统误差,即是否有显著性差异。若,说明s1与s2差异显著。22SS大计算小F=2S大计算F表计算FF12xx与表计算FF2)t检验-检验两组数据平均值有无显著性差异(是否来自同一总体)a.其中S称为合并标准偏差S=总自由度f=n1+n2-2为了简化起见,有时不计算合并标准偏差S,若S1=S2,则S=S1=S2;若S1≠S2,则S=S小12xx与12xx、121212nnSnnxx计算-t=+22112212(n1(n1nn2ss-)+-)+-b.然后在选定的P下,根据f=n1+n2-2,查t表(t.f),若t计算t表.则说明两组平均值有显著差异(可认为µ1≠µ2,而两组数据不属于同一总体)例:P254例7,例8