智能检测第四章内容回顾一、状态估计和辨识概述二、基于状态估计的智能检测三、基于参数辨识的智能检测智能检测5.1模式识别概述第五章基于模式识别的智能检测模式识别随机事件是普遍存在的,在对这种事件的研究过程中常把被观察的对象称为样本。每个样本可能会有很多个观察数据,这些观察数据的综合便称为模式。获得观察数据的过程称为模式采集,所有样本的观察数据的集合构成模式空间。模式空间的维数由观测过程中所选择的观察变量的个数所决定。智能检测5.1模式识别概述第五章基于模式识别的智能检测模式识别被选择的观察变量可能有多个,常选择其中最能揭示样本本质属性的若干观察量作为主要特征,从而构成观察样本的特征空间。这种由模式空间到特征空间的变换过程称为特征提取。众多观测样本根据特征进行分类,进而把特征空间转变为类型空间。某一观察样本经历模式采集、特征提取而被判别属于具体类型空间的过程称为模式识别。模式识别是一种常用的智能检测方法,广泛应用于工业、农业、气象、医疗等各领域。智能检测5.1模式识别概述第五章基于模式识别的智能检测模式识别:判别分析和聚类分析判别分析和聚类分析是两种不同目的的分类方法,它们所起的作用是不同的。判别分析方法假定组(或类)已事先分好,判别新样品应归属哪一组,对组的事先划分有时也可以通过聚类分析得到。聚类分析方法是按样品(或变量)的数据特征,把相似的样品(或变量)倾向于分在同一类中,把不相似的样品(或变量)倾向于分在不同类中。智能检测5.2判别分析法第五章基于模式识别的智能检测判别分析的基本概念判别分析是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法,它需要已知一系列反映事物特性的数值变量及其变量值。判别分析就是在已知研究对象分为若干类型(组别)并已经取得各种类型的一批已知样品的观测数据基础上,根据某些准则,建立起尽可能把属于不同类型的数据区分开来的判别函数,然后用它们来判别未知类型的样品应该属于哪一类。智能检测5.2判别分析法第五章基于模式识别的智能检测判别分析的基本概念判断分析按判别的总体数来区分,有两个总体判别分析和多总体判别分析;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等。判别分析的关键一步是定义合适的判别函数,判别函数有线性和非线性之分,而非线性判别函数一般可通过变量替换转变成线性判别函数。智能检测5.2判别分析法第五章基于模式识别的智能检测判别分析的一般步骤判别分析方法建立判别准则判别函数考核已知分类的训练样本未知样品判别归类智能检测5.2判别分析法第五章基于模式识别的智能检测判别分析的一般步骤判别分析通常都要建立一个判别函数,然后利用此判别函数来进行判别。为了建立判别函数就必须有一个训练样本。判别分析的任务就是向这份样本学习,学出判断类别的规则,并作多方考核。训练样本的质量与数量至为重要。每一个体所属类别必须用“金标准”予以确认;解释变量(简称为变量或指标)X1,X2,…,Xp必须确实与分类有关;个体的观察值必须准确;个体的数目必须足够多。智能检测5.2判别分析法第五章基于模式识别的智能检测判别分析的一般步骤训练样本的数据内容与符号───────────────────────────────────解释变量个体号───────────────────────类别变量(Y)X1X2…Xj…XP───────────────────────────────────1X11X12…X1j…X1Py12X22X22…X2j…X2Py2……………………iXi1Xi2…Xij…XiPy3……………………nXn1Xn2…Xnj…XnPyP────────────────────────────────────智能检测5.2判别分析法第五章基于模式识别的智能检测判别分析常用方法最大似然法该法是建立在概率论中独立事件乘法定律的基础上,适用于各指标是定性的或半定量的情况。Fisher判别分析用于两类或两类以上间判别,但常用于两类间判别。Bayes判别分析用于两类或两类以上间判别,要求各类内指标服从多元正态分布。智能检测5.2判别分析法第五章基于模式识别的智能检测判别分析常用方法逐步判别分析建立在Bayes判别分析基础上,它象多元逐步回归分析一样,可以在众多指标中挑选一些有显著作用的指标来建立一个判别函数,使方程内的指标都有显著的判别作用而方程外的指标作用都不显著。logistic判别常用于两类间判别,它不要求多元正态分布的假设,故可用于各指标为两值变量或半定量的情况。智能检测5.2判别分析法第五章基于模式识别的智能检测Fisher判别分析Fisher判别法是1936年提出来的,该方法的主要思想是通过将多维数据投影到某个方向上,投影的原则是将总体与总体之间尽可能的放开,然后再选择合适的判别规则,将新的样品进行分类判别。智能检测5.2判别分析法第五章基于模式识别的智能检测Fisher判别分析从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数1122()ppUuXuXuXXuX其中系数),,,(21puuuu确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。有了线性判别函数后,对于一个新的样品,将它的p个指标值代入上式线性判别函数中求出()UX值,然后根据一定的判别规则,就可以判别新的样品属于哪个总体。智能检测5.2判别分析法第五章基于模式识别的智能检测Bayes判别分析:最大后验概率准则设有k个组,且组的概率密度为,样品来自组的先验概率为,满足。则x属于的后验概率为最大后验概率准则是采用如下的判别规则:1,|max|lliikPPxxx若1|,1,2,,iiikiiipfPikpfxxx12,,,kiifxi,1,2,,ipik121kpppi智能检测5.2判别分析法第五章基于模式识别的智能检测影响判别函数判决效果的因素判别分析效果的好坏取决于判别函数的判决能力,针对同一判别分析问题可以定义多个判别函数,但它们的判别效果是不同的,最优的判别函数能根据被判对象的观察值最大限度地把它的所属类与其他类区别开。各种工业过程中存在许多可观察变量,很难准确确定选择哪些变量作为特征变量;一般应从过程机理分析入手,选择对被判对象具有显著影响的变量作为观察量,以取得较好的判别分析效果。智能检测5.2判别分析法第五章基于模式识别的智能检测工业过程测量数据中过失误差的侦破工业过程的控制和优化依赖于测量数据的质量。而由于测量过程中仪表失灵、系统偏差以及不完全或是不正确的过程模型等均会引起过失误差。这些过失误差的存在会严重破坏测量数据的统计特性,导致过程辨识、控制和优化的失败。侦破过失误差具有相当重要的意义。智能检测5.2判别分析法第五章基于模式识别的智能检测工业过程测量数据中过失误差的侦破有两种常用方法侦破过失误差,一种是测量检验法,另一种方法为节点检验法。1975年,Almasy和Sztano提出了测量检验法,该法利用测量值与其校正值之间的相对大小来判断是否存在显著误差。该方法可直接检测各个测量变量,因而可直接定位显著误差,但是由于该方法在使用最小二乘法计算校正值时会把失误误差传播到所有的数据上,因而可能出现“虚警”错误,将不存在显著误差的测量数据判断成含有显著误差。智能检测5.2判别分析法第五章基于模式识别的智能检测工业过程测量数据中过失误差的侦破有两种常用方法侦破过失误差,一种是测量检验法,另一种方法为节点检验法。1963年,Reilly提出了节点检验法,该法是针对每一个约束方程的残差构建一个检验统计量,并将其与临界值进行比较。如果该统计量大于临界值,则说明该约束方程中涉及的变量含有显著误差。但是由于每个节点中含有多个测量数据,因而无法准确判断出那个测量数据含有显著误差。智能检测5.2判别分析法第五章基于模式识别的智能检测工业过程测量数据中过失误差的侦破有两种方法侦破过失误差,一种是测量检验法,另一种方法为节点检验法,单独使用这两种方法均存在不足之处,为克服缺陷,发挥两者的优点,常将这两种方法组合使用。首先用测量检验法来找出含有过失误差的测量数据,然后使用节点检验法进一步证实其中确实含有过失误差的数据,恢复被误判含有过失误差数据的本来面目。反复进行上述过程,直到侦破所有过失误差的测量数据为止。智能检测5.2判别分析法第五章基于模式识别的智能检测算法侦破蒸汽系统流量数据中存在的过失误差智能检测5.2判别分析法第五章基于模式识别的智能检测算法侦破蒸汽系统流量数据中存在的过失误差最终校正结果:智能检测5.2判别分析法第五章基于模式识别的智能检测间歇精馏塔塔板效率的在线软测量塔板效率是反应精馏塔传质效率的一个重要指标,由于受塔的结构参数、板上流体的力学特性以及负荷变化等因素的影响,很难准确估计精馏塔的塔板效率。将塔板的平均效率看作为一个服从正态分布的随机变量,建立塔板效率的软测量模型,对塔板效率进行在线测量。软测量过程中,根据Bayes公式,采用相邻区域的似然比作为判别函数。智能检测5.3聚类分析法第五章基于模式识别的智能检测聚类分析定义聚类分析(Clusteranalysis)又称集群分析,它是研究“物以类聚”的一种数理统计方法。聚类分析可将一些观察对象依据某些特征加以归类。聚类分析时总体中各类别的划分是不清楚的,甚至到底应分成几类也不知道,用于聚类分析的原始数据中没有类别变量,所以是无师可循的统计分析方法。智能检测5.3聚类分析法第五章基于模式识别的智能检测聚类分析定义聚类分析是对观察对象进行分类的一种方法,它依据于各观察样本间的相似性,按着一定的聚类准则判别各个样本的类别,达到对众多样本进行分类的目的。主要介绍样本的相似性度量、聚类准则、聚类算法及聚类分析的应用。智能检测5.3聚类分析法第五章基于模式识别的智能检测样本间的相似性度量和聚类准则函数经常采用两个样本在特征空间中的距离来度量两个样本间的相似性,这种距离有多种计算算法,常用的有:契比雪夫距离绝对值距离欧氏距离jkikpkijxxd1maxT21]......[ipiiixxxx特征向量pkjkikijxxd12112pkjkikijxxd智能检测5.3聚类分析法第五章基于模式识别的智能检测特征量纲对聚类结果的影响财富(万)510年龄6030财富(十万)年龄6030510智能检测5.3聚类分析法第五章基于模式识别的智能检测距离测度对聚类结果的影响数据的粗聚类是2类,细聚类为4类智能检测5.3聚类分析法第五章基于模式识别的智能检测样本间的相似性度量和聚类准则函数各特征变量的单位并不一致,致使所计算距离的量纲没有意义。度量单位的变化会严重影响各特征变量在距离计算中所起的作用,以致影响聚类效果。所以在计算距离前有必要对各变量的数据进行归一化。大多数聚类准则为寻求一个函数的极大或是极小,这个函数用来描述各类样本的特征,所以聚类过程一般是按着聚类准则进行寻优的一个迭代过程,聚类结果的各个类使得聚类准则函数取极值。智能检测5.3聚类分析法第五章基于模式识别的智能检测两种主要的聚类准则函数简介误差平方和准则JC采用个各类内样本的总误差平方和JC来衡量聚类的质量。总误差平方和JC定义为:采用JC达到最小作为聚类合理与否的准则,控制聚类迭代过程,也称为最小方差聚类。11jnjiijmxnijx1cjjnncjnkjkcjmxJ112智能检测5.3聚类分析法第五章基于模式识别的智能检测两种主要的聚类准则函数简介加权平均平方距离