科学研究中的误差概念随机误差的正态分布有限数据的统计处理有效数字及其运算规则第四章误差与分析数据处理1准确度和误差2精密度和偏差3准确度和精密度的关系4误差的来源第一节科学研究中的误差概念1、真值T(Truevalue)某一物理量本身具有的客观存在的真实值。真值是未知的、客观存在的量。在特定情况下认为是已知的:1)理论真值(如化合物的理论组成)2)计量学约定真值(如国际计量大会确定的长度、质量、物质的量单位等)3)相对真值(如高一级精度的测量值相对于低一级精度的测量值)一、误差的基本概念2、平均值-Meanvaluen次测量值的算术平均值虽不是真值,但比单次测量结果更接近真值,表示一组测定数据的集中趋势。3、中位数(XM)-Medianvalue一组测量数据按大小顺序排列,中间一个数据即为中位数XM,当测量值的个数位偶数时,中位数为中间相临两个测量值的平均值。河水平均深度1.6M,士兵平均身高1.7M数据分析中,平均值的分析比较非常重要,但如果不能正确的运用,仅仅应用平均值会让我们犯错!兄弟别害我妈呀,淹死人2、误差的来源及解决办法过失误差系统误差偶然误差1、误差定义观察值(实际值)与真实值(理论值)之差称之为误差(error)。二、误差来源及解决办法(1)过失误差(Grosserror)由于观察者的错误造成的误差。比如观察者有意或无意的记录错误,计算错误,加错溶剂,溅失溶液,甚至故意修改数据导致的错误。过失误差重做!(2)系统误差(Systematicerror)定义:是由于某些已知的或未知的因素造成,而且具有一定变化规律的误差称为系统误差,又称偏倚(bias)。系统误差的来源:a.方法误差:方法不恰当产生b.仪器与试剂误差:仪器不精确和试剂中含被测组分或不纯组分产生c.操作误差:操作方法不当引起特点:具单向性(大小、正负一定)可消除(原因固定)重复测定重复出现系统误差处理方法系统误差对研究结果的影响很大。系统误差的性质决定了它不可能通过增加平行测定次数来消除,所以可以通过严格、科学的实验设计将其减小或控制在最小范围之内(选择较好的分析方法、校正仪器、提纯试剂、提高操作水平等)。但不能通过统计分析方法来加以控制。(3)随机误差(Randomerror)定义:是由于实验对象个体的变异及一些无法控制的因素波动而产生的误差。是排除过失误差、系统误差之后尚存在的误差。特点:1)不具单向性(大小、正负不定)2)不可消除(原因不定)但可减小(测定次数↑)3)分布服从统计学规律(正态分布)随机误差多次测量取平均值准确度与误差精密度与偏差准确度和精密度的关系三、误差的表示方法1、准确度与误差准确度(Accuracy):指测量结果与真值的接近程度误差(Error)(1)绝对误差:测量值与真实值之差(2)相对误差:绝对误差占真实值的百分比xREx%100%100%%100%xRE注:μ未知,δ已知,可用χ代替μ2、精密度与偏差精密度(Precision):平行测量的各测量值间的相互接近程度偏差(Deviation)(1)绝对偏差:单次测量值与平均值之差(2)相对偏差:绝对偏差占平均值的百分比xxdidxxxxi100%100%(3)平均偏差:各测量值绝对偏差的算术平均值(4)相对平均偏差:平均偏差占平均值的百分比nxxdi(5)标准偏差:(6)相对标准偏差(变异系数)nxniix12)(1)(12nxxSniixμ未知μ已知%100xSRSDx例如:求下列三组数据的d和S•第一组10.02,10.02,9.98,9.98•平均值=10.00,平均d=,S=•第二组10.01,10.01,10.02,9.96•平均值=10.00平均d=S=•第三组10.02,10.02,9.98,9.98,10.02,10.02,9.98,9.98•平均值=10.00,平均d=,S=平均偏差和标准偏差关系0.020.0230.020.0270.020.021准确度与精密度的关系1x2x3x4x①精密度是保证准确度的先决条件;②精密度好,不一定准确度高.精密度(a)、正确度(b)、准确度(c)的示意图到第二章准确度和精密度3、提高测定准确度1)选择合适分析方法:根据待测组分含量、性质、试样的组成及对准确度的要求选方法;2)减小测量误差:取样量、滴定剂体积等;3)平行测定4~6次,使平均值更接近真值;4)消除系统误差:(1)显著性检验确定有无系统误差存在.(2)找出原因,对症解决.(1)根据试样中待测组分的含量选择分析方法。高含量组分用滴定分析或重量分析法;低含量用仪器分析法。(2)充分考虑试样中共存组分对测定的干扰,采用适当的掩蔽或分离方法。(3)对于痕量组分,分析方法的灵敏度不能满足分析的要求,可先定量富集后再进行测定.选择合适的分析方法→称量:分析天平的称量误差为±0.0002g,为了使测量时的相对误差在0.1%以下,试样质量必须在0.2g以上。→滴定管读数常有±0.0lmL的误差,在一次滴定中,读数两次,可能造成±0.02mL的误差。为使测量时的相对误差小于0.1%,消耗滴定剂的体积必须在20mL以上,最好使体积在25mL左右,一般在20至30mL之间。→微量组分的光度测定中,可将称量的准确度提高约一个数量级。减小测量误差在消除系统误差的前提下,平行测定次数愈多,平均值愈接近真实值。因此,增加测定次数,可以提高平均值精密度。在化学分析中,对于同一试样,通常要求平行测定(paralleldetermination)2~4次。减小随机误差由于系统误差是由某种固定的原因造成的,因而找出这一原因,就可以消除系统误差的来源。有下列几种方法。(1)对照试验-Contrasttest(2)空白试验-Blanktest(3)校准仪器-Calibrationinstrument(4)分析结果的校正-Correctionresult消除系统误差→与标准试样的标准结果进行对照;标准试样、管理样、合成样、加入回收法。→与其它成熟的分析方法进行对照;国家标准分析方法或公认的经典分析方法。→由不同分析人员,不同实验室来进行对照试验。内检、外检。(1)对照试验在不加待测组分的情况下,按照试样分析同样的操作手续和条件进行实验,所测定的结果为空白值,从试样测定结果中扣除空白值,来校正分析结果。•消除由试剂、蒸馏水、实验器皿和环境带入的杂质引起的系统误差,但空白值不可太大。(2)空白试验(3)校准仪器仪器不准确引起的系统误差,通过校准仪器来减小其影响。例如砝码、移液管和滴定管等,在精确的分析中,必须进行校准,并在计算结果时用校正值。(4)分析结果的校正校正分析过程的方法误差,例用重量法测定试样中高含量的SiO2,因硅酸盐沉淀不完全而使测定结果偏低,可用光度法测定滤液中少量的硅,而后将分析结果相加。第二节、随机误差与数据处理一、随机误差的正态分布二、平均值的区间概率三、显著性检验四、异常值的取舍一、随机误差的正态分布1、随机误差的分布曲线–---以随机误差值为横坐标,误差出现的概率大小为纵坐标作图,当测定次数无限多时,则得随机误差的分布曲线无限次测量,得到xu有限次测量,得到xsnsxsxtxt分布曲线0.000.100.200.300.40-3-2-10123uyu分布曲线2、随机误差的规律定性:1)小误差出现的概率大,大误差出现的概率小,特大误差概率极小;2)正、负误差出现的概率相等。定量:某段曲线下的面积则为概率。对称性;单峰性;有界性;抵偿性;→自由度(f)—degreeoffreedom(f=n-1)t分布曲线与正态分布曲线相似,只是t分布曲线随自由度f而改变。当f趋近∞时,t分布就趋近正态分布。→置信度(a/P)—confidencedegree在某一t值时,测定值落在(μ+ts)范围内的概率。→ta,f:t值与置信度P及自由度f关系。例:t0·05,10表示置信度为95%,自由度为10时的t值。t0·01,5表示置信度为99%,自由度为5时的t值。→当n趋近∞时:单次测量结果以样本平均值来估计总体平均值可能存在的区间:→对于少量测量数据,即当n有限时,必须根据t分布进行统计处理:表示在一定置信度下,以平均值为中心,包括总体平均值的范围。这就叫平均值的置信区间。uxnuxntsx②平均值的置信区间(Confidenceinterval)例题分析铁矿中的铁的质量分数,得到如下数据:37.45,37.20,37.50,37.30,37.25(%)。(1)计算此结果的平均值、平均偏差、标准偏差(2)求置信度分别为95%和99%的置信区间。解(1)%34.37,5xn%13.015)09.0()16.0()04.0()14.0()11.0(1)12222222nxxndsii(%11.0)%09.016.004.014.011.0(5111xxndndii2)求置信度分别为95%和99%的置信区间置信度为95%,t=2.78的95%置信区间:),(),(%50.37%18.375%13.078.2%34.375%13.078.2%34.37),(nstxnstx%13.0%,34.37,5sxn(1)的结果置信度为99%,t=4.60的99%置信区间),((,%61.37%07.37),,nstxnstxfafa③显著性检验1.测定值与标准值比较a.u检验法(已知)(1)提出假设:μ=μ0(2)给定显著水平α(3)计算0xun计(4)查u表,若u计u,否定假设,即μ与μ0有显著差异,测定存在系统误差.例已知铁水中w(C)=4.55%(μ0),σ=0.08%.现又测5炉铁水,w(C)分别为(%):4.28,4.40,4.42,4.35,4.37.试问均值有无变化?(α=0.05)解假设μ=μ0=4.55%,=4.36%x04.36%4.55%3.90.08%/5xun计查表知u0.05=1.96,u计=3.91.96拒绝假设,即平均含碳量比原来的降低了.b.t检验法(未知)(1)提出假设:μ=μ0(2)给定显著水平α(3)计算0xtsn计(4)查t表,若拒绝假设.()ttf计例已知w(CaO)=30.43%,测得结果为:n=6,=30.51%,s=0.05%.问此测定有无系统误差?(α=0.05)x解假设μ=μ0=30.43%030.51%30.43%3.90.05%/6xtsn计查t表,t0.05(5)=2.57,t计t表拒绝假设,此测定存在系统误差.2.两组测量结果比较第一步:F检验—比较两组的精密度(1)假设:σ1=σ222(2)sFs大计算小/212(,)FFff12计算(3)如则0.050.05F1F2拒绝域接受域拒绝域F12121222112212(2)(1)(1):2ppxxnntsnnnsnssnn计算合并标准差第二步:t检验—比较与1x1212:(2),ttnn计(3)如则检验表明σ1=σ2后,(1)假设μ1=μ22x121212=5=4=42.34%=42.44%,=0.10%=0121.%nnxxss方法方法2例用两种方法测定w(Na2CO3)22=0.122/0.102=1.44sFs大计算小F计F0.05(3,4)=6.59,σ1和σ2无显著差异;12120.05121.36(7)2.37pxxnnttsnn计算2.t检验(给定=0.05)两种方法不存在系统误差。1.F检验(给定=0.10)解:④异常值(Cutlier)的取舍在实验中得到一组数据,个别数据离群较远,这一数据称为异常值、可疑值或极端值。若是过失造成的,则这一数据必须舍去。否则异常值不能随意取舍,特别是当测量数据较少时。处理方法:4d法、格鲁布斯