第1页(共13页)乳房癌的诊断【摘要】针对本题的实际,综合应用DKLT、最小误判准则、最小风险准则、分支定界次优算法l-r法求解本题。不断结合对已知类别样本的检验结果分析所用方法的不足,然后改进,正确率达到95%以上。其中提出”拒判”的概念以进一步减小判决带来的风险。69个未知类别样本的分类结果见正文表一和表二。为节省费用,只用此30个特征数据中的部分特征来区分乳房肿瘤是良性还是恶性。通过l-r法作的特征选择,选取了细胞核凹陷点数的平均值、断裂度的平均值、质地的标准差、光滑度的标准差、断裂度的最坏值这5个特征就能得到用30个特征分类一样的结果,大大的减少了费用。【关键词】H-K算法离散K-L变换最小误判概率准则最小风险准则l-r法1.问题重述乳房肿瘤通过穿刺采样进行分析可以确定其为良性的或为恶性的。医学研究发现乳房肿瘤病灶组织的细胞核显微图像的10个量化特征:细胞核直径,质地,周长,面积,光滑度,紧密度,凹陷度,凹陷点数,对称度,断裂度与该肿瘤的性质有密切的关系。现试图根据已获得的实验数据建立起一种诊断乳房肿瘤是良性还是恶性的方法。数据来自已经确诊的500个病例,每个病例的一组数据包括采样组织中各细胞核的这10个特征量的平均值,标准差和“最坏值”(各特征的三个最大数据的平均值)共30个数据。并将你的方法用于另外69名已做穿刺采样分析的患者。其中B为良性M为恶性,X为待定。若为节省费用,还想发展一种只用此30个特征数据中的部分特征来区分乳房肿瘤是良性还是恶性的方法,你是否可找到一个特征数少而区分又很好的方法?2.模型假设1.所给数据基本没有误差,各样本病例的诊断结果完全正确。2.30个特征能提供充分的分类信息。3.名词解释与符号说明模式:对分类识别对象进行科学的抽象,建立它的数学模型,用以描述和替代识别对象,称这种对象的描述为模式(Pattern)。对一类对象的抽象也称为该类的模式。特征矢量:以量化特征为分量组成的矢量,记为X特征空间:所有特征矢量所组成的空间分类器:解决某一实际问题的具体的分类识别算法c:分类类别数,这里为2第2页(共13页)N:样本总数N1:训练样本总数N2:测试样本总数n:特征空间的维数err:分类器对检验样本分类的错分总数Ω1:所有恶性乳房肿瘤细胞样本组成的一类,下面称为第一类Ω2:所有良性乳房肿瘤细胞样本组成的一类,下面称为第二类X1:来自Ω1的样本的特征矢量X2:来自Ω2的样本的特征矢量P(e):分类器的误判概率Sw:总的类内离差阵SB:类间离差阵4.问题分析本题需要根据题设给出的分类信息设计一个分类器,它能很好的区分两类样本。然后用这个分类器对未知类别的69例病例分类判别。为节约费用,只用此30个特征数据中的部分特征来区分,这就需要进行特征选择(featureselection),以最小的代价获得要求的分类效果。在比较不同的分类器的优劣时可先简单取N1=N2=N=500,用对检验样本的错分样本数(err)占样本总数(N)的比(err/N)来衡量,比值越大,效果越差。然后对最后推荐的分类器采用分组轮换法即取N1=400个样本训练,剩下的N2=100个样本测试,更精确地估计出误判概率。在求解的过程中,以err/N为标准衡量所用的分类器的优劣,分析其不足,逐步改善分类规则。首先从最简单的方法着手,考虑30个特征可否线性可分。之所以选取了H-K算法,是因为它克服了一些算法(如感知器算法)当模式是线性不可分时不收敛;而不收敛出现后却无法判断是模式线性不可分还是所用算法的问题。H-K算法采用的是最小均法误差准则,它的优点就是对线性可分模式能正确分类;对线性不可分模式能说明它是线性不可分的。用此算法求解本题,发现直接利用30个特征是线性不可分的,于是需要对30个特征作变换,使得变换后维数变少,分量之间不相关,能量更趋集中,这样使变换后新模式的分类更加容易。接下来选取了基于总的类内离差阵Sw和类间离差阵SB的离散K-L变换(DKLT)。因为本题要求分成两类,故发挥了DKLT的最大优势,从30维特征空间降到1维变换特征空间并且不损失任何分类信息。变换后的1维量包含了原30维特征矢量的全部分类信息,降低了分类难度。最后对变换得到的1维量作了正态分布的检验后,利用统计判决中的最小误判概率准则和最小风险准则作分类。它们都是基于最大似然的思想,只是后者更细致的讨论了不同决策所带来的风险的差异,从而引入“拒判”的概念。可以说最小误判概率准则是最小风险准则在认为不同决策的风险一样时的特例。在用此30个特征数据中的部分特征来区分乳房肿瘤是良性还是恶性时,选用的增l减r法(l-r法),既能克服运算量过大又能避免一旦某特征选入或剔除就不能在剔除或选入的缺点。最后选取了5个特征细胞核凹陷点数的平均第3页(共13页)值、断裂度的平均值、质地的标准差、光滑度的标准差、断裂度的最坏值。只用此5个特征对未知类别的69个样本分类的结果与用30个特征的分类结果相同。5.模型的建立与求解5.1H—K算法H-K算法是一种利用二次准则函数的算法。一次准则函数及其解法只适用于线性可分的情况,如果训量模式集是非线性可分的,分类过程将不会收敛,迭代运算永远进行下去。然而在实际问题中,往往无法事先知道模式集能否线性可分。利用H-K算法如果训练模式集是线性可分时,对所有模式都能正确分类;如果是非现象可分的,使得错分的模式数目最少。在n维特征空间中,特征向量X=),,,(x21nxx,线性判别函数的一般形式是d(X)=w1x1+w2x2+…+wnxn+wn+1x1,为简洁起见上式还可写成d(X)=WX。这里X=)1,,,,(x21nxx,其中X被称为增广特征矢量,W称为增广权矢量。为表述和处理简洁方便,将已知类别的训练模式符号规范化:当X属于Ω1类时,不改变其符号;当X属于Ω2类时,改变其各分量的符号。设n+1维增广训练模式X1,X2,…,XN,已符号规范化。如果训练模式是线性可分的,则存在权矢量W使不等式组W·Xi0(i=1,2,…,N)成立,即不等式是一致的,有解。若训练模式是非线性可分的,表明不存在权矢量W使所有训练模式都能被正确分类。在这种情况下,就要使最少的训练模式被错分。将上面的不等式写成矩阵方程形式,为使解可靠,引入N维余量矢量b,于是不等式方程组变为:AW≥bФ式中A是N╳(n+1)维矩阵,A=(X1,X2,…,XN)。使用平方误差标准函数:min),(122)(NiiiibWJbxwbAWH—K算法将准则函数J(·)视作W和b的函数,在迭代过程中修正W的同时,也对矢量b进行调整,运用最优化技术求得准则函数J关于W和b的极小值点。在迭代调整过程中,应满足b的各分量均为正值的约束,同时也为J使{W}更趋向解区的中心。b(k)的各分量只能向增大的方向调整。H—K算法对已符号化的500个增广特征矢量运算求解得,W=(-0.078,0.033,-0.022,0.037,-0.007,-0.040,0.104,0.185,-0.035,-0.063,0.096,-0.025,0.016,-0.098,-0.001,0.024,0.039,-0.049,0.026,0.056,-0.559)。误判总数为102,err/N=0.204。效果不太好。H—K算法讨论:H—K算法采用的是二次准则函数及其解法,如果是非线性可分的,所求的解矢量使错分的模式数目最少。并且证明了H—K算法的收敛性[1]。通第4页(共13页)过上面所得到的结果,认为原模式集是线性不可分的,因此需要做特征变换(featuregeneration)。5.2特征变换既然直接利用原30个特征是线性不可分的,就需要作特征变换。从直观上可知,在特征空间中如果同类模式分布比较密聚,不同类模式相距较远,分类识别就比较容易正确,因此我们在特征变换时要求变换后的特征对不同类的对象差别很大而同类对象差别较小,则将给后继分类识别环节带来很大的便益。为实现以上目的,首先需要制定特征变换的准则来刻划特征对分类识别的贡献或者有效性。5.2.1基于Sw和Sb准则函数J我们可以依据某种准则进行特征变换,为此应当首先构造这样的准则—类别可分性判据,它能反映各类在特征空间中的分布情况,能刻划各特征分量在分类识别中的重要性或贡献。我们选用了基于总的类内离差阵Sw和类间离差阵Sb准则函数J=Tr[Sw-1SB]。下面具体介绍一下Sw和Sb:总的类内离差阵:cjjjSNnS1)(这里c=2表示有两类。nj为第j类的样本数,Sw(j)为第j类的类内离差阵。定义为:jnijjijjijjcjmxmxnS1)()()(,,2,1)')((1式中jm为Ωj类的模式均值矢量:),,2,1(11)(cjxnmjnijijj类间离差阵定义为:cijijijBmxmxNnS1)()()')((式中m为所有分类模式均值矢量NiixNm11为便于分类,希望类内距离越小越好,类间距离越大越好,故定义准则函数J=Tr[Sw-1SB],应使它尽量大。5.2.2最优变换矩阵W设有n个原始特征构成的特征矢量X=),,,(21nxxx,W对X作线性变换,产生d维矢量Y=(y1,y2,…,yn)’,d≤n。即Y=WX式中,W=Wnxd,称为变换距阵。设SW和SB分别为原始特征空间中类内和类间离差矩阵,SW*和SB*分别为变换特征空间中类内和类间离差距阵,可知:第5页(共13页)SW*=W’SWWSB*=W’SBW经变换后,J*(W)=Tr[(SW*)-1SB*]=Tr[(W’SWW)-1(W’SBW)]若W为非奇异矩阵,可得Tr[(SW*)-1SB*]=Tr[SW-1SB]。这表明作非奇异变换,J是不变的。一个方阵的迹等于它的所有特征值之和,对矩阵作相似变换特征值不变。设We为正交阵,用We对对称阵Sw-1SB作相似变换使其成为对角阵:),,(00n1211/11diagWSSWWSSWneBweeBwe其中i(i=1,…,n)为SW-1SB的特征值,We的列矢量Wi为BwSS1相应于的特征矢量。可得:J*(W)=Tr[SW-1SB]=Tr[We’SW-1SBWe]niniiwiSW11iB1WS设此处We的列矢量排列已做适当调整,使BwSS1的特征值λ1≥λ2≥…≥λn。由此可解出,当d给定后,取前d个较大特征值所对应的特征矢量Wi构造变换矩阵W。即W=(W1,W2,…,Wd)对X作Y=WX变换,对于给定d所得到的J达最大值。5.2.3运用DKLT变换后再分类已经定义了变换的准则函数J,接下来就是基于J作变换了。离散K-L变换(DKLT)是一种基于目标统计特性的最佳正交变换。因为它具有:使变换后产生的新的分量正交或不相关;以部分新的分量表示原矢量均方误差最小;使变换矢量更趋确定,能量更趋集中。变换过程如下:设和U是对称正定矩阵Sw的特征对角阵和特征矢量矩阵。作如下白化变换:LSwUU21'21易知,存在正交阵U~可使:~~~21'21'UUSUUB其中~是白化变换后总的类间离差阵2121'~USUSBB的特征对角阵。由于SB的秩不大于c-1,此处为2-1=1,所有BS~最多有1个非零特征值。可以证明,变换得到的y对x估计的均方误差ndii12,即为舍去的特征值的和[1]。由于这里舍去的特征值全为0,故用这个非零特征值对应的特征向量Ui作交换矩阵,所得到的y含有原来n维模式的全部信息。计算得非零特征值为0.7628,其余特征值与0.7628差十几个数量级,可认为是零(理论上是精确为0)。则不损失信息而又达到最小维数的变换矩阵为:xUUyUUW'21'1'21'1~'第6页(共13页)根据题目数据求得:W=(-0.0104,0.0003,0.0005,0.0000,0.0261,-0.0283,0.0377