2.4有限量测量数据的统计处理基本概念如何得到随机事件的概率分布密度图?偶然误差的正态分布频率分布198nL/g01.16x频率直方图学生对海水中的卤素进行测定,得到…x1x2…xnabma-bh)13m(m]b,a[组距等分。将No分组频数(ni)频率(ni/n)频率密度(ni/nh)115.8410.0050.17215.8710.0050.17315.9030.0150.51415.9380.0401.35515.96180.0913.03615.99340.1725.72716.02550.2789.26816.06400.2026.73916.09200.1013.371016.12110.0561.851116.1550.0250.841216.1820.0100.341316.2100.0000.00频率密度直方图0.002.004.006.008.0010.0015.8315.9015.9616.0216.0916.1516.21测量值频率密度底高海水中卤素测定值频率密度直方图海水中卤素测定值频率密度分布图频率密度分布图0.002.004.006.008.0010.0015.815.916.016.116.216.3测量值频率密度取点连线A2exp(B/C2)0.05.010.015.020.025.015.8015.8515.9015.9516.0016.0516.1016.1516.20概率密度当n值足够大时,就得到平滑的测量值的正态分布概率密度图测量值与随机误差的正态分布222)x(e21)x(fyyμ总体平均值,表示无限次测量值集中的趋势。总体标准偏差,表示无限次测量分散的程度。y概率密度x个别测量值x-随机误差x1x2xx~N(μ,σ2)曲线对于无限多次平行测量值的偶然误差分布服从正态分布正态分布的特点x~N(μ,σ2)x=μ时,y最大→大部分测量值集中在算术平均值附近曲线以x=μ的直线为对称→正负误差出现的概率相等当x→﹣∞或﹢∞时,曲线渐进x轴,小误差出现的几率大,大误差出现的几率小,极大误差出现的几率极小σ↑,y↓,数据分散,曲线平坦σ↓,y↑,数据集中,曲线尖锐曲线之间的面积段与=横坐标]ba[dx)x(fPba1dx)x(fP分布曲线形状不同。不同,正态不同,标准正态分布将正态分布方程做变量代换222xe21)x(fyxu2u21e21)u(y令则此时得标准正态分布曲线u~N(0,1)曲线uxuu是以总体标准偏差σ为单位x–μ值布曲线是一致的。对应的标准正态分化,如何变、特点:无论u偶然误差的区间概率0.000.100.200.300.40-3-2-10123yu标准正态分布区间概率%1x,1u%26.6864.1,64.1xu%9096.1,96.1xu%952,2xu%5.953,3xu%7.9999.7%95.5%68.3%121)(22ueduu每一个u值都对应有一个区间概率,具体可查正态分布概率积分表t分布对于有限次数测量的统计要用t分布。在有限次测量中,可以得到样本标准差S,而不是总体标准偏差σ。Sxtt:是以样本标准差S为单位的x-μ值•t:是以样本标准差S为单位的值•当f=n-1趋于∞时,t=u,s=σ•f=n-1,称自由度f=n-1,称自由度当n趋于∞时,(即f趋于∞),s趋于σ,t趋于u。∞P22表2-2,例出了不同f值及不同概率所相应的t值t分布:t一定,区间概率P还与f有关注意t值与概率之间的关系立的变量个数。为自由度,表示相互独称为显著性水平;表示,),用-(落在此范围外的概率为)内的概率。值时,测定值落在(一在某值称为置信水平,表示中的表fP1tStP222.4.2平均值的精密度和置信区间平均值的精密度nSSx但当n>5,随n增加而减小得很慢。实际工作中,一般平行测定3~4次。平均值的置信区间x点估计~x~90%%95P或0P(置信水平)1-P:即α,显著性水平置信区间:指在一定置信水平下以测定结果为中心,包括总体平均值在内的可信范围。(1)由多次测量(n20)的样本平均值估计μ的置信区间xunuxuxxxXn/=(2)由少量测定(n20)结果均值估计μ的置信区间nStxStxxnStxStxf,xf,SxtxXSn/S=•平均值的置信区间:•上限值为XU:•下限值为XL:•置信限为:nStxf,nStf,nStxf,nStxf,注意含义双侧置信区间:一定置信水平下,同时存在大于和小于总体平均值的置信区间单侧置信区间:是指的范围。ULXXLUXX或除特别指明外,一般求双侧置信区间。例:用8-羟基喹啉法测定Al质量分数。已知:n=9,S=0.042%,=10.79%求置信水平为95%时的置信区间。解:P=0.95;α=1-P=0.05;f=9-1=8查表2-2得t0.05,8=2.306(双侧)根据nStx8,05.0x(%)04.079.109042.0306.279.1090%t0.10,8=1.860例:问Al含量总体平均值大于何值或小于何值的概率为95%时的置信区间?解:查表2-2单侧检验α=0.05;f=9-1=8时t0.05,8=1.860(%)76.109042.0860.179.10/ntSxXL(%)82.109042.0860.179.10n/tSxXU注意:计算置信区间时(1)S要多保留一位有效数字(2位)来计算。(2)置信限的小数位数要与平均值的小数位数对齐。修约时都进位。例如:nStx8,05.0(%)04.079.10(%)032.079.109042.0306.279.102.4.3显著性检验分析工作常遇到这种情况,分析标准试样时得到的平均值和标准值不完全一样;用两种方法分析同一试样,得到的平均值不一致。这些差异是由偶然误差引起的,还是存在系统误差?精密度差别的检验——F检验法系统误差的检验———t检验法F检验检验两组数据的精密度是否存在显著性差别步骤:先构造一个F统计量1、计算两组数据的S1,S22、计算3、查表2-4(Fα,f1,f2),f1=n1-1f2=n2-1若FF表,说明两组数据的精密度无显著性差别若FF表,说明两组数据的精密度有显著性差别212221SSSSF例:两种方法测同一试样中某组分方法一:方法二:解:f1=6-1=5,f2=4-1=3,查表2-4得F0.05,5,3=9.01FF0.05,5,3,,因此,S1与S2无显著性差别,即两方法的精密度相当。6n14n2055.0S1022.0S225.6022.0055.0SSF222221t检验(系统误差的检验)是检验两个分析结果是否存在显著的系统误差。(1)样本平均值与标准值的比较与基准物,标准试剂或已知理论值来比较,评价分析结果t检验步骤:1、计算2、查t值表(表2-2)3、比较t与若tt表,与μ之间不存在显著性差别若tt表,与μ之间存在显著性差别nSxt双侧)),表((tfxx例:测Cu2+标准试样:1.17×10-3%新方法:n=5,解:%107,%1008.153Sx9.251071017.11008.1nSxt533查表2-2得,tt0.05,4说明平均值与标准值之间有显著性的差异。新方法可能存在某种系统误差78.2t4,05.0例:一批含铁制剂产品五次化验结果4.744,4.790,4.790,4.798,4.822(%)要求:含铁量为4.800%解:(%)789.4x1nxxS51i2i15789.4822.4789.4798.4789.4790.42789.4744.42222S15033.0009.0001.02045.02222(%)0277.0%800.4已知888.050277.0800.4789.4nSxt查表2-2得,因为tt0.05,4,所以含铁量平均值与要求值无显者差别776.2t4,05.0(2)两个样本平均值之间的t检验检验两个分析结果之间是否存在显著性系统误差步骤:1、计算两组数据的S1n1S2n22、计算合并标准差(或组合标准差)2nnS1nS1nS21222211R1x2x3、计算4、比较t与t表,此时,f=n1+n2-2若tt表,无差异,两方法可互相替换,若tt表,有差异,不可替换。2121R21nnnnSxxt例:测定样品1含Mg1.23%1.25%1.26%样品2含Mg1.31%1.34%1.35%2nnS1nS1nS21222211R1x2x解:=1.25%S1=0.015(%)n1=3=1.33%S2=0.021(%)n2=3233021.013013.013S22R%018.04.53333018.033.125.1t2121R21nnnnSxxtf=n1+n2-2=3+3-2=4,查表2-2,置信度为95%时,因为t=5.4t0.05,4,所以,两样品含Mg量有显者性差异。78.2t4,05.01、两组数据显著性检验的顺序是先进行F检验,确认两组数据的精密度(即偶然误差)无显著性差别后,才能进行t检验显著性检验注意事项2、单侧和双侧检验检验某结果的精密度是否大于或小于某值用单侧检验[F检验常用]检验两结果是否存在显著性差异时用双侧检验[t检验常用]3、置信水平的选择分析化学一般用:P=95%或90%即α=1-P=0.05或0.1置信水平过高——以假为真置信水平过低——以真为假2.4.4可疑数据的取舍可疑值:在同一组测量数据中,个别数据过高或过低,这种数据称可疑数据。它们通常是最大值或最小值。例如:22.30,20.25,20.30,20.32可疑值的取舍:1、检查是否有过失,能找到原因,可舍弃可疑值。2、用统计检验的方法确定是否可取舍。可疑值的取舍:舍弃商法(Q检验法)(n=3~10)最小最大紧邻可疑XXXXQ1、排序X1,X2,…,Xn,确定可疑值为X1或Xn,2、计算Q值3、查Q临界值表(表2-4)(P常取95%)若QQ表,舍弃X可疑值若QQ表,保留X可疑值例:标定标准溶液的浓度,结果为:0.1014,0.1012,0.1019,0.1026和0.1016mol/L。问0.1026是否可舍弃?解:查表2-5Q90%,5=0.64,QQ90%,5所以数据0.1026不能舍弃最小最大紧邻可疑XXXXQ5.01012.01026.01019.01026.0Q可疑值的取舍:G检验法(Grubbs检验)SXXG可疑1、计算包括可疑值在内的标准偏差S2、计算G值3、查G检验临界值表(表2-5)若GG表,舍弃X可疑值若GG表,保留X可疑值在实际应用中:a、当计算的Q与G值与表中的临界值相接近时,应当再多做几个数据后,再进行检验。b、当Q检验与G检验的结果相矛盾时,以G检验的结果为准。c、用Q或G检验检出异常值,应舍掉异常值,重新计算平均值和S,报出结果。小结1、比较:F检验——检验方法的偶然误差t检验——检验方法的系统误差G检验——异常值的取舍2、检验顺序:G检验→F检验→t检验异常值的取舍精密度显著性检验准确度或系统误差显著性检验例:测定微量水分KarlFischer法:0.754,0.746,0.742,0.743,0.748,0.748(%)GC法:0.749,0.730,0.74