成都理工大学马英杰核数据处理第二章数据的预处理成都理工大学核自学院成都理工大学马英杰数据的预处理目的对数据进行检验;并选择、构造一个合适的数学模型,以便进一步成图成像等处理。但原始数据常常不能满足数学模型的要求,所以必须考虑从原始数据中产生适合数学模型的数据,即原始数据→数学模型数据y=f(x),(x为原始数据,y为数学模型数据)。成都理工大学马英杰数据的预处理内容核数据的检验可疑值舍取探测下限的确定变量的选择变量的变换网格变换与边部扩充成都理工大学马英杰数据的预处理—核数据的检验目的:(有两个)帮助检查测量系统的工作和测量条件是否正常和稳定,判断测量除统计误差外是否存在其它的随机误差或系统误差;确定测量数据之间的差异是统计涨落引起的,还是测量对象或条件确实发生了变化引起的。成都理工大学马英杰数据的预处理—核数据的检验两次测量值差异的检验在同一条件下,对放射性样品先后进行两次测量,得计数N1和N2,检验其差异是否值得怀疑数据的可靠性。N1和N2服从同一正态分布,则N1-N2也服从正态分布,其期望值为0,方差约为:N1+N2=σ2。因此:1)设:2)查正态概率积分表,找出给定显著水平α时的值kα3)用kα与实测计算的值k相比,若kkα,认为差异不显著,数据可靠;若kkα,认为差异显著,数据不可靠。21212121NNNNkNNNN则:成都理工大学马英杰数据的预处理—核数据的检验例1:两次测量的计数是1128和1040,检验数据的可靠性。(取显著水平α=0.05,查表得:kα=1.96)解:88.16.4688,6.4610401128,8810401128k2.41459,141019.106,5910101069:2211ktntn计数率2.4144590,14410101069,5901010010690:k计数kkα,所以差异不显著,数据可靠例2:分别测量10分钟得两个计数率1010cpm和1069cpm,问计数设备工作是否正常?(取显著水平α=0.05,查表得:kα=1.96)解:kkα,所以差异显著,存在虚假数据成都理工大学马英杰数据的预处理—核数据的检验对一组计数值的检验设在同一条件下测得一组数据ni,i=1,2,…k方法一:用两种方法估算方差:均方差(标准误差)σn:(1)标准偏差S:(2)若σn≈S,数据正常。若Sσn,则存在系统误差或其它大的随机误差;也存在一些不正常因素,使Sσn。nn1)(12nnnSnii成都理工大学马英杰数据的预处理—核数据的检验例:测量30次得如下数据:29,37,27,33,35,32,36,35,24,30,30,23,19,29,32,27,27,27,26,30,21,28,28,33,24,34,14,30,24,24,数据是否正常?解:94.272.2822SnnS2≈σn2,很接近,所以数据可靠。成都理工大学马英杰数据的预处理—核数据的检验对一组计数值的检验方法二:χ2检验:数据应服从自由度为(k-1)的χ2分布。1)计算χ22)查表,一定显著水平α1(0.05),α2(0.95)下的χ2值χ0.052,χ0.9523)做双边检查。若χ20.95≤χ2≤χ20.05,数据可靠;若χ2»χ20.05(过于分散)数据不正常或χ2«χ20.95(过于重复)数据不正常。kiinnn122)(成都理工大学马英杰数据的预处理—核数据的检验例:测得6个数据:241,242,249,246,236,250,数据是否可靠?解:,145.1,58.0,244295.02查表计算nχ2«χ20.95,太过重复,数据不可靠。成都理工大学马英杰数据的预处理内容核数据的检验可疑值舍取探测下限的确定变量的选择变量的变换网格变换与边部扩充成都理工大学马英杰数据的预处理—可疑值舍取可疑测量值的舍取在原始数据中,个别观测值与其余的大多数观测值相差很大时,它们对平均值或方差等统计量影响就较大肖文特(Chauvenct)数值舍取标准化方法若某观测值与平均值之差Δ大于某一个差值Δ(k),则此观测值应舍弃,否则保留。Δ(k)为标准偏差,k个数据中,偏差Δ大于标准偏差Δ(k)的数据个数不得超过半个(即1/2k)。即在k个数据中,某一个数据与平均值的偏差Δ出现的概率小于1/2k时应舍弃。标准偏差Δ(k)由高斯分布来求,与k有关。kdxekFx211)(12221成都理工大学马英杰数据的预处理—可疑值舍取可疑测量值的舍取肖文特(Chauvenct)数值舍取标准化方法k与Δ(k)/σ、Δ(k)/γ的关系kΔ(k)/σΔ(k)/γkΔ(k)/σΔ(k)/γ5678910121416181.681.731.791.861.921.962.032.102.162.202.442.572.682.762.842.913.023.123.203.26202224263040501002005002.242.282.312.352.392.502.582.803.023.293.323.383.433.473.553.703.824.164.484.88成都理工大学马英杰数据的预处理—可疑值舍取可疑测量值的舍取肖文特(Chauvenct)数值舍取标准化方法1)计算:2)对可疑数据计算以σ为单位的偏差Δi,3)按k从表中查出对应之Δ(k)/σ4)检验:若Δi/σ≥Δ(k)/σ,则此数应舍弃xxkxkii11||xxii成都理工大学马英杰数据的预处理—可疑值舍取可疑测量值的舍取肖文特(Chauvenct)数值舍取标准化方法例:测本底,得每分计数:39,37,27,33,35,32,36,35,24,30,30,23,19,29,32,27,27,27,26,30,21,28,25,33,24,34,14,30,24,24解:平均值:28.2cpm,均方差:5.31,Δ(k)/σ=2.391)|14-28.2|/5.31=2.67大于2.39,则14应舍弃2)|19-28.2|/5.31=1.73小于2.39,则19应保留3)|37-28.2|/5.31=1.66小于2.39,则37应保留4)|39-28.2|/5.31=2.03小于2.39,则39应保留成都理工大学马英杰数据的预处理内容核数据的检验可疑值舍取探测下限的确定变量的选择变量的变换网格变换与边部扩充成都理工大学马英杰数据的预处理—探测下限的确定概述本底计数Nb+3σb的概率是0.135%,所以,当时,认为是样品贡献。但,由于计数的统计涨落,当样品引起的净计数期望值真的为时,就有50%的概率使测得的净计数小于,即半数得不到肯定结果。bbsNNN3bN3bN3成都理工大学马英杰数据的预处理—探测下限的确定判断限L1—可认为样品里有放射性待测样品的放射性是通过所测的净计数N0来确定的,而净计数又是通过本底计数Nb和样品计数Ns(包括本底)得到。通常测量时间相同,则有:N0=Ns-Nb。μ0和σ0分别是净计数N0的期望值和标准误差,则:判断中会有两种错误发生α错误:样品中实无放射性,却测N0L1,误判为有放射性β错误:样品中实有放射性,却测N0L1,误判为无放射性判断限由第一种错误的概率α决定。bbsNNNNNbs20220成都理工大学马英杰数据的预处理—探测下限的确定判断限L1—可认为样品里有放射性设判断限L1,若N0≤L1,可认为测不到放射性;若N0L1,可认为有放射性。判断限L1由第一种错误的概率α决定。无放射性时,μ0=0,则:由正态概率积分表,可查出Ka值若本底通过多次测量准确求出,即σNb2=0,则,即判断限L1减小了倍。有时为了安全,允许把”清洁”误判为”污染”babaaNKNKKL22011bN202bN1baNKL1282.1645.11.005.0kk成都理工大学马英杰数据的预处理—探测下限的确定探测下限L2—有把握测出样品有放射性究竟样品中要有多少放射性,方能保证其净计数值N0不会低于L1,从而不至于漏测?(β)要考虑β错误的概率β:这就是说,当样品净计数的期望值L2满足上关系式时,就能较有把握的保证测得的净计数大于L1,使犯β错误的概率不大于β。(由正态概率积分表,可查出Kβ值)若Nb较准确,baNKKkLL2)(212bbNNLL22,2220baNKKL)(2成都理工大学马英杰数据的预处理—探测下限的确定定量下限L3—可给出定量结果对于活性在判断限附近的样品,虽然可以被探测出来,但其误差较大,无定量意义。在探测下限情况下,误差:若要求测量结果的相对误差不超过某个预定的值εr,那么样品的净计数期望值必须超过某个最低值,叫定量下限。用L3表示。则:223333328112rrbrbNLLNLL%30122kkL成都理工大学马英杰数据的预处理—探测下限的确定判断限L1、探测下限L2、定量下限L3三者之间的位置、关系L1:当N0≥L1,可认为样品是有放射性;L2:当N0≥L2,可有把握地测出样品是有放射性的;L3:当N0≥L3,测量误差可满足要求,即可给出定量结果。N0L3L2L10不可靠探测区可靠探测区定量分析区成都理工大学马英杰数据的预处理—探测下限的确定例1:某表面污染监测仪的本底计数约为1cpm,本底和样品测量时间各30分钟,试确定判断限L1和探测下限L2和定量下限L3(相对误差小于10%),要求α、β≤0.05。解:在30分钟内,本底计数约为30,对于α=β=0.05,Ka=Kβ=1.645,则:13302645.121baNKL26302645.122)(2baNKKL1421.021.030811281122223rrbNL成都理工大学马英杰数据的预处理—探测下限的确定例2:某污水放射性连续测量装置的本底计数率约为30cpm,对3.7Bq/L的污水,净计数率N0为168cpm,用等时间测量,每次测27分钟,试确定L1、L2、L3(要求α,β≤0.05,εr10%)解:Nb=27*30=810,Ka=Kβ=1.645,则:lBqLCL/054.07.316827,668102645.1111lBqLCL/107.07.316827,1328102645.12222lBqLCL/37.07.316827,4551.021.081081133223成都理工大学马英杰数据的预处理—探测下限的确定意义若N净66(C净0.054Bq/l)可认为水是污染的若N净66(C净0.054Bq/l)可认为水未受污染若N净132(C净0.107Bq/l)基本可判定有污染(β的概率为5%)若N净455(C净0.37Bq/l)测量的相对误差10%lBqLCL/054.07.316827,668102645.1111lBqLCL/107.07.316827,1328102645.12222lBqLCL/37.07.316827,4551.021.081081133223成都理工大学马英杰数据的预处理—习题1.两次测量的计数是1010和1069,检验数据的可靠性。(取显著水平α=0.05,查表得:kα=1.96)2.分别测量10分钟得两个计数率1128cpm和1040cpm,问计数设备工作是否正常?(取显著水平α=0.05,查表得:kα=1