1第二章误差和分析数据的统计处理一、误差误差是衡量一个测量值不准确的尺度,误差越小,测量的准确度越高。1.误差的分类按计算方法,分为绝对误差和相对误差。绝对误差:测定值与真值之差。δ=x–µ相对误差:绝对误差与真值的比值。相对误差=按来源分类,分为系统误差和偶然误差。系统误差:由某种确定的原因引起的误差,有固定的大小和方向,重复测定时重复出现,又称为可定误差。系统误差可分为方法误差,仪器误差、试剂误差和操作误差等。偶然误差:由偶然因素引起的误差。又成为随机误差或不可定误差。2.误差的传递(1)系统误差的传递加减运算:和、差的绝对误差等于个测量值绝对误差的和、差。若则积、商的相对误差等于各测量值相对误差的和、差。若则(2)偶然误差标准偏差法:和、差结果的标准偏差的平方,等于各个测量值标准偏差的平方和。如滴定时消耗滴定液的体积V=25.25-0.10(ml)积、商结果的相对标准偏差的平方,等于各个测量值相对标准偏差的平方和。%100xcKbKaKKycbackbkakycbac/kabyccbbaayy222)k()k()k(ccbbaay(ml)028002002022...V2(3)极值误差法:加减运算:和、差结果的绝对误差等于各测量值最大绝对误差的加和。若则积、商结果的相对误差等于各测量值最大相对误差的加和。若则3.提高分析准确度的方法(1)选择适当的方法;(2)减小测量误差;(3)增加平行测定的次数;(4)消除测定中的系统误差,如对仪器进行校正,做空白试验等。二、有效数字1.有效数字是分析工作中实际测量到的数字。记录测量数字时,只允许保留一位可疑数据,即数字的末位欠准,其误差是末位数的±1个单位。常量分析一般有4位有效数字,误差为0.1%。2.运算法则(1)加、减运算结果的有效数字以小数位数最少的为准。(2)乘、除运算结果的有效数字以有效数位最少的为准。第一位是8或9的可少保留1位。3.修约%...C%.:W%.:C%.:A%.:AWACACCRRXRRX242102012102001022222,,,,各测量值得误差:如:cKbKaKKycbacbayc/kabyccbbaayy3(1)四舍六入五成双;(2)中间运算时可多保留1位;(3)修约标准差时,应使标准差变得更差一些。三、分析数据的统计处理(一)均值的置信限1.均值和偏差测量值比较的判据主要有2个:均值和偏差。均值:=()/n标准偏差:用于数据离散程度的度量S=2.数据的分布若对一个样品进行无限多次测定,所得的全部数据称为总体。总体的均值用μ表示,若进行了n次测定,样本均值为,是μ的估计。总体的标准差用σ表示,若n次测定的标准偏差为S,则S为σ的估计。(1)正态分布分析测试的数据一般符合正态分布y=式中y为概率密度函数,x为随机变量(测定数据)。正态分布具有以下重要性质:数据关于µ为对称分布σ越大,离散程度越大。分布在的范围内的概率为68%;在的范围为95.5%;在的范围为99.7%。(2)t分布对正态分布的随机变量,当总体标准差未知时,用样本标准差S代替,随机变量服从t分布。xniix1112n)xx(niixx22221)x(e234t=f=n-1当n无限增大时,t分布趋向于正态分布。3.均值的置信限均值的置信限:在一定的置信度下,总体均值所在的范围。(1`)均值的分布:对于一个样本,进行了m次采样,mi为(i=1,2,…,M)第i次采样,有nj个测定值,均值为,的分布称为均值的分布。可以推导,均值的分布仍符合正态分布,的均值与总体均值相同,均值的标准偏差为总体标准差除以测定次数n的平方根从上式可以看出,n次测定平均值的标准偏差是1次测定的,测定次数越多,平均值的标准偏差越小,越可靠。但测定次数增加到一定程度,继续增加测定次数,标准偏差的减小越不显著,一般测定5~9次。(2)当总体标准差σ已知时对于N(µ,σ2),可按下式化为标准正态分布N(0,1):u=对平均值的分布,u=u为一定置信水平下标准正态分布随机变量的取值。已知:范围概率范围概率168.3%295.5%64.190.0%58.299.0%96.195.0%399.7%所以,当总体标准差σ已知时,均值的置信限:置信度均值的置信区间90%nx/64.1SxixixixnSxn1xn/xn/ux595%nx/96.199%nx/58.2(2)当总体方差σ未知时当总体标准差σ未知时,用样本的标准差S代替σ,随机变量符合t分布:t=Sxf=n-1对均值的分布:t=nSx/ntsx/t是一定置信度下t的临界值。如t0.05,5=2.57,(显著性水平α=0.05,f=5,双侧)n/s.x572例如,用HPLC法测定某药物的含量,分别为99.0%,99.3%,98.5%,求置信度为95%和99%时的置信区间。计算得x为98.9%,S为0.40(%),查t0.05,2=4.30,t0.01,2=9.92,置信度为95%的置信区间:ntsx/=98.9±4.30×0.40/3=98.9±1.0置信度为99%的置信区间:µ=98.9±9.92×0.40/3=98.9±2.3测定结果的表示:用平均值和标准偏差表示:x±S=98.9±0.40(%)用平均值和相对标准偏差表示:x=98.9%,RSD=0.41%98.9±1.0(%):在未指明时表示均值和均值的置信区间。(二)显著性检验1.t检验(1)样本均值与标准值的比较用来评价样本的平均值与真值、基准式样的测定值6是否有差异。t分布:Sxtx的t分布:nSxn/Sxt假设x与µ无显著差异,则有nSxt计算t值,并查t分布的百分数表中tα,f的值,如t0.05,5=2.57,如果ttα,f,则假设不成立,有显著性差异;t〈tα,f,则假设成立,无显著性差异。(1)两个样本均值的比较可用于判断两个人、两种方法或两台仪器分析的结果是否有差异,或两个样品的测定结果是否有差异。假设两个均值无显著差异,212121nnnnSxxtR式中,SR为合并标准偏差,222121nSnSSR,自由度f=n1+n2-2如果ttα,f,则假设不成立,有显著性差异;t〈tα,f,则假设成立,无显著性差异。药物分析中t检验一般为双侧的检验。2.F检验用以检验两个样本的标准偏差是否有显著差异。假设,21S和22S无显著差异,F=21S/22S(21S22S)f1=n1-1f1=n2-1如果FFα,f1,f2,两个方差有显著性差异;F〈Fα,f1,f2,两个方差没有显著性差异。一般为单侧检验,结论为21S明显大于22S。7(三)回归分析1.最小二乘法如果有n个实验点,(xi,yi)(i=1,2,…,n),两个变量之间有线性关系,可表示为:yi=a+bxi令iyˆ为yi的估计值,iyˆ=a+bxiyi–iyˆ=ei最小二乘法的基本思想是直线方程的a,b应使残差的平方和最小。即nininiiiiii)bxa(y)yˆy(eQ111222应最小。以Q对a,b偏微分,并令其等于0,可解得:211)xx()yy)(xx(bniiiniixbya2.相关系数相关系数用来表征变量x与y之间的相关关系。平方相关系数可用下式表示:niiniii)yy()yˆy(r122121niniiiniii)yy()xx()yy)(xx(r11221当个点在同一条直线上时,r=1。相关系数的显著性检验:判断两个变量之间是否确有线性关系。F检验:假设ρ(r为ρ的估计值)=0,82212r)n(rF符合F分布,计算F值,如果FFα,n-2,则拒绝接受假设ρ=0,两个变量之间有相关性。也可以直接查r的临界值表。3.斜率(b)和截距(a)的区间估计令2212nQn)yˆy(Sniiy/x根据Sx/y可计算b和a的标准差。niiy/xb)xx(SS12niiniiy/xa)xx(nxSS1212斜率b的置信区间:b±tSx/y截距a的置信区间:a±tSx/yt为自由度n-2,一定显著性水平的t的临界值。如果截距a的置信区间包括0,则直线过原点。4.用t检验判断直线是否过原点假定直线过原点,则aaSaSaSxt0计算t值,若t〉tα,n-2,则否定假设,直线不过原点;若t〈tα,n-2,则直线过原点。参考文献1.许禄.化学计量学方法,科学出版社2.孙毓庆,等.分析化学(上册),人民文生出版社