1数理统计在工艺验证中的应用一、常用数理统计方法工艺试验:优选法、正交试验等工艺验证:统计检验----t、µ、F、CV、符号等;统计工具----控制图、直方图、相关与回归、方差分析等。2二、基本概念(一)基本点1、数理统计是以概率论为基础建立的应用数学;2、产品质量的波动遵循一定的统计规律;3、质量控制的重点是控制系统原因所造成的波动。(二)特点1、由局部推断总体;2、以概率的大小作出推断。3(三)基本内容1、统计观察方法的设计;2、统计资料的分析;3、统计规律的实际应用。(四)含义数理统计就是通过对样本的分析来估计和推断总体。4(五)名词解释1、名词:(1)总体----指所要研究对象的全体;(2)个体----指组成总体的每一个基本单位;(3)样本----从总体中随机抽出的一部分样品。样本中所含个体的个数为样本的大小。2、抽样要求:随机性、独立性、代表性。3、抽样方法:单纯、系统、分层、整群等随机抽样方法。54、分布:常见的概率分布有----正态分布、t分布、x²分布、F分布、二项分布、泊松分布等。(1)正态分布的性质:1)正态分布的平均值µ、曲线达最大值;2)曲线与横坐标围成的区域总面积为1;3)对µ的正、负偏差绝对值相等时的概率相等;4)近µ的X概率越大,远离µ的X概率越小;6(2)正态分布(三要领)1)正态分布的位置由平均值µ决定;2)标准偏差决定正态分布形状;3)特性值落在µ±3的概率为99.7%。三、统计量1、表示中心趋向的统计量;(1)平均值(X)---各个测量值之和除以测量次数的商;1nX=Xi(样本的平均值)=1=27(2)中位数(X)数据大小顺序排列的中间数。2、表示离散程度的统计量;(1)极差(R)一组数值中最大测量值与最小测量值之差。R=Xmax—Xmin(2)标准偏差(s)所有数据对平均值的平均偏离程度。(Xi-X)²n-1(样本的标准偏差)S=8标准偏差来源1)偏差(Xi-X)2)偏差和正负偏差相加和为03)偏差平方和S=(Xi-X)24)方差S2=S/n5)标准偏差S=S29标准偏差的性质《1》标准偏差的大小,与坐标原点的位置无关;《2》标准偏差不取负值,数值大小,可衡量数据的离散程度;《3》标准偏差的单位与数据测量单位一致;《4》曲线在1处的几何意义,上部曲线向下凹,下部曲线向上凹;《5》越大,数据越分散,越小,数据越集中;《6》标准偏差比极差反映离散程度更精确,它利用了全部数据提供的信息。δ=1δ=1.510四、常用统计方法(一)统计检验1、基本概念:(1)误差随机误差---受偶然因素影响或测试不准造成;条件误差---工艺条件改变造成。统计检验是区分这两类误差的一种科学方法。11(2)自由度(forn´)指对平均值独立的数据个数。f=n-1(3)置信度()概率判断的可靠性程度,也称显著性水平,一般取值0.05~0.01。2、变异系数(CV)或称相对标准偏差(RSD)反映数据的相对波动大小。SXCV=12示例《1》对气相层析的实验人员进行技术考核,进样10次,每次0.5µl,得色谱峰高为:142.1147.0146.2145.2143.8146.2147.3150.3149.9151.8(mm)X=146.98S=3.00CV=2.04%有经验的色谱工作人员很容易将CV控制在1%以内,可认为该实验人员的技术还不够稳定,操作不够熟练.133、假设检验(1)基本概念:假设总体具有某种特性,抽取样本,统计分析,依据“小概率事件”原理进行检验判断。小概率事件---在一次观察中可以认为基本上不会发生,通常指概率不超过0.05~0.01的事件。(2)步骤1)设H0,2)选统计量,3)确定统计量的分布,4)由样本值计算出统计量值,5)给定显著性水平,6)作出统计推断(接受或拒绝)14(3)t检验:常用于平均值的检验|t|值、P值与差别的意义|t|值P值差别的意义t0.05(n´)P0.05无显著意义t0.05(n´)P0.05有显著意义t0.01(n´)P0.01有非常显著意义15示例《2》样本均数与总体均数比较某药片标准重为100毫克,抽25片分别称重,检查压片机工作是否正常?计算得样本均数为98.4毫克,标准偏差为4.5毫克。X=98.4S=4.5µ0=100n=251)检验假设:µ=µ02)计算统计量:|X-µ0|S3)确定概率:Pn´=25-1=24查t值表,t0.05(24)=2.046,1.7782.046,P0.054)判断结果:样本均数98.4毫克与总体均数100毫克没有显著性差别,压片机工作正常。t=n=1.77816示例《3》两个样本均数的比较同一品种,不同产地的药材提取出膏率的比较。在规定的相对密度条件下测得两组数据:A464038484860463658464844(kg)----(1组)B544650525258645654545836(kg)----(2组)1)检验假设:µ1=µ22)计算:|X1–X2|S1²S2²t=2.20n2n1(X1=46.5X2=52.8S1=7.09S2=6.95n1=12n2=12)3)确定概率:Pn´=n1+n2–2=22t0.05(22)=2.07t=2.20t0.05(22)=2.07,P0.054)判断结果:两地药材出膏率有显著性差别,应指定产地。+t=17(二)相关与回归1、相关分析(1)变量关系:1)完全确定性关系---一个变量的取值完全由另一个变量的取值确定;(函数关系)2)非确定性关系---两变量间有密切关系(相关关系)(2)相关分析的目的1)确定两变量间是否存在相关关系;2)确定相关关系的性质,即相关的正负;3)确定两变量间的相关程度;4)确定具有相关关系变量间定量关系。18(3)相关系数性质r=Lxy/LxxLyy1)-1r1相关系数在-1~1之间;2)0r0r0为负相关0r为正相关;3)r=0两变量间完全不相关;4)|r|=1两变量间完全相关,函数关系;5)|r|大小,反映相关的强弱19(4)相关系数的检验示例《4》分析中药材水提浸膏与醇转溶浸膏间的关系(控制相对密度在规定范围内)1)确定研究对象;2)收集数据填表;号水提浸膏醇转溶浸膏号水提浸膏醇转溶浸膏129.019.4928.118.5222.815.91026.218.6328.920.11130.720.8426.818.71226.618.1523.916.51325.017.0625.619.31424.817.1728.118.91527.718.9826.017.4x=400.2y=275.2203)计算:x=26.68y=18.35r=0.91a=2.76b=0.584)检验:n´=n-2=15-2=13取=0.01,则r0.01(13)=0.6415)判断:|r|r相关,r为正值,正相关。水提浸膏与醇转溶浸膏间有非常显著的正相关关系。2、回归分析(1)回归的性质:研究两变量间的函数关系称回归分析。21(2)回归方程的确定:ŷ=a+bx直线与全部观测值yi的偏差平方和最小的一条。(3)回归线意义:回归线是所有点子的中心线;直线上方各点离线的距离之和与直线下方各点离线的距离之和相等;直线必定通过x、y;ŷ=a+bxa=0时,直线通过原点;b=0时,ŷ=a;b=1b=1时,ŷ=a+xx、y增加量相等,直线斜率45°45°22(4)《示例4》分析1)配制回归方程直线ŷ=2.76+0.58x该直线为y对x的ŷ=2.76+0.58x回归线2)作图选任意两个x值,按上式计算,得相应的y值,两点连线,即得回归直线。(见附图)*平均值222324252627282930水提浸膏kg201918171615·········*·····23当醇转溶浸膏量内控标准定在18kg±1kg时,即控制在y=17~19kg/批,需控制水提浸膏量可由回归方程计算得ŷ=2.76+0.58x设:ŷ=17kg为yaŷ=19kg为yb则:ya=2.76+0.58xa,xa=24.6kgyb=2.76+0.58xb,xb=28.0kg即水提浸膏量应控制在24.6kg~28.0kg范围内,以此可定出药材的内控标准,控制药材出膏量投料,保证制剂的质量。当得到任一x值,即可在直线上查到相应的y值。243)检验①直线通数x、y值。(x=26.68、y=18.35)见附图*点。②回归线精度可以用ŷ±2s即95.5%的概率来控制。则回归线精度为:ŷ'=ŷ±2sS为剩余标准偏差S=(1–r²)Lyy/n-2Lyy=∑y2-ny2=5074.66-5049.00=25.66S=(1–0.91²)×25.66/15-2=0.5825ya'=ya+2s=17+2×0.58=18.16ya=y–2s=17-2×0.58=15.84yb'=yb+2s=19+2×0.58=20.16yb=yb–2s=19-2×0.58=17.84以xa=24.6和ya'=18.16、xb=28.0和yb'=20.16两点连出上控制线xa=24.6和ya=15.84、xb=28.0和yb=17.84两点连出下控制线见(124)附图两条虚线,从图上可以看出本例95%点子在两条虚线范围内26(三)控制图1、作用科学的反映产品的质量动态和趋势;对历史生产情况的系统了解;提前发现异常隐患,体现预防为主的原则;可进行现场质量的动态监控。272、来源:TLTU-3+3µ正态分布图X+3sX-3sxCLTUUCLLCLTLⅠⅠⅡⅢⅠⅡⅢ控制图283、控制图特点样本的平均值x为中心线CLX+3s为上控制线UCLX-3s为下控制线LCLX±3s范围为Ⅰ区,是安全区,区间概率为99.73%x±3s<Ⅱ区<x±4s是警戒区,区间概率为0.27%Ⅲ区>x±4s是废品区294、原理正常波动产品质量的波动性异常波动±3δ原则3‰小概率事件原则样本分布的动态性质量的动态过程时间的动态性30(1)按用途分类①分析用控制图②控制用控制图(2)按所需控制的系统因素分类①休哈特控制图②选控图(3)按质量特性值进行分类①计量值控制图②计数值控制图5、控制图分类一般按以下三种方法分:31数值控制图名称控制图单值控制图X图计单值移动极差控制图X—Rs图量平均值极差控制图X—R图平均值标准差控制图X—S图值中位数极差控制图X—R图单值平均值极差控制图X—X—R图计计数不良品率(频率)控制图Pn图数不良品数(频数)控制图P图值计点单位缺陷数控制图U图缺陷数控制图C图(按质量特性值分类表)32常用以下两种控制图:名称符号控制图与控制线均值—极差控制图χ-Rχ图CL=χUCL=χ+A2RLCL=χ-A2RR图CL=RUCL=D4RLCL=D3R单值—移动极差控制图χ-RSχ图CL=χUCL=χ+E2RSLCL=χ-E2RSRs图CL=RSUCL=D4RSLCL=D3RS33适用条件:(1)X—Rs一般用于在一定时间内,每次只能取得一个数据,即数据不能成组。优点是能较快判断工序情况,缺点是因为没有组内极差,精度较差。(2)X—R图X—R图是由平均值和极差两图组成,适用于批量较大,生产较稳定的工序。在X—R图中,X图主要观察和分析数据分布的平均值的变化,R图是观察和分析散差的变化,在作图时,数据经合理的分组,所以反映问题的代表性强,精度高,检出力好。346、作图步骤(1)内容:1)数据表记入必要事项与数据。2)控制图纵坐标为样本质量特性,横坐标为样本号;平均值为中心线,正负三倍标准偏差处为上下控制线;注明相关内容和数据。35(2)步骤:示例《5》颗粒剂产品装量规格标准为5.0g/袋±7%,灌装岗位中间产品内控标准为5.0g/袋±6%,分析其工序稳定情况。经查灌装岗位中间产品质量检测数据齐全,符合回顾性验证条件,随机取样后作控制图分析。361)控制对象质量特性值为装量,测试后计算单位g,最小测量值0.05g,2)收集数据填表χ-RS图数据表(见下表)取样方法:随机取样某月共生产25批,产品质量测