统计决策理论-bayes定理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1统计决策理论2关于统计学的一个笑话:有一个从没带过小孩的统计学家,因为妻子出门勉强答应照看三个年幼好动的孩子。妻子回家时,他交出一张纸条,写的是:“擦眼泪11次;系鞋带15次;给每个孩子吹玩具气球各5次,累计15次;每个气球的平均寿命10秒钟;警告孩子不要横穿马路26次;孩子坚持要穿马路26次;我还要再过这样的星期六0次”。•统计学真的这样呆板吗?仅仅收集数据,整理分析,累加平均…3•统计学以数据为研究内容,但仅仅收集数据,决不构成统计学研究的全部。•下面介绍几种最常用、也是最基本的统计决策方法。这些方法是以后各种模式识别方法的基础。4贝叶斯决策理论方法是统计模式识别中的一个基本方法,用这种方法进行分类时要求满足以下两个条件:(1)各类别总体的概率分布是已知的;(2)要决策的类别数是一定的。在连续的条件下,假设要识别的对象有d种特征测量值,每一种特征都是一个随机变量,因此组成d维随机向量,d种特征的所有的取值范围构成了d维特征空间。12,,...dxxx12(,,...)Tdxxxx2.1Bayes定理5贝叶斯决策理论方法所讨论的问题是:已知总共有c个类别及各类别ωi=1,2,…,c的先验概率P(ωi)及类条件概率密度函数p(x|ωi)已知的条件下,如何对某一样本按其特征向量分类的问题。由于属于不同类的待识别对象存在着呈现相同观察值的可能,即所观察到的某一样本的特征向量为X,而在c类中又有不止一类可能呈现这一X值,这种可能性可用P(ωi|X)表示。如何作出合理的判决就是贝叶斯决策理论所要讨论的问题。6先验概率预先已知的或者可以估计的模式识别系统位于某种类型的概率,即根据大量统计确定某类事物出现的比例。如我国理工科大学男女生比例大约为8:2,则在这类学校一个学生是男生的先验概率为0.8,而为女生的概率是0.2,两个概率之和为1。7类条件概率密度函数系统位于某种类型条件下模式样本出现的概率密度分布函数。男女生比例是男生与女生这两类事物之间的关系,而男生高度的分布则与女生的分布无关。为了强调是同一类事物内部,因此这种分布密度函数往往表示成条件概率的形式。例如X表示某一个学生的特征向量,则男生的类条件概率密度表示成P(X|男生),女生的表示成P(X|女生),这两者之间没有任何关系,可为从0~1之间的任意值。8后验概率一个具体样本属于某种类别的概率。例如一个学生用特征向量X表示,它是男性或女性的概率表示成P(男生|X)和P(女生|X),这就是后验概率。由于一个学生只可能为两个性别之一,因此有P(男生|X)+P(女生|X)=1,这一点是与类分布密度函数不同的。后验概率与先验概率也不同,后验概率涉及一个具体事物,而先验概率是泛指一类事物,因此P(男生|X)和P(男生)是两个不同的概念。9贝叶斯公式两个事物X与w联合出现的概率称为联合概率,可写成P(X,w),它们又可与条件概率联系起来,即P(X,w)=P(X|w)P(w)=P(w|X)P(X),这就是贝叶斯公式。如果将上式中各个项与先验概率,类条件概率密度函数以及后验概率联合起来,可以找到利用先验概率,类条件概率分布密度函数计算后验概率的方法。102.1Bayes定理•假设每个要识别的细胞已作过预处理,并抽取出了d个特征描述量,用一个d维的特征向量X表示,识别的目的是要依据该X向量将细胞划分为正常细胞或者异常细胞。这里我们用ω1表示是正常细胞,而ω2则属于异常细胞。下面我们从一个两类情况的例子——癌细胞识别出发来讨论,然后推广到一般情况。112.1Bayes定理根据医院细胞病理检查的大量统计资料可以对某一地区正常细胞和异常细胞出现的比例作出估计,即已知先验概率P(ω1)和P(ω2),P(ω1)+P(ω2)=1。显然一般情况下P(ω1)P(ω2),因此如果不仔细观察具体的细胞化验值,该细胞是正常细胞的判决,在统计的意义上来说,错判可能性比判为异常细胞时小。但仅按先验概率来决策,就会把所有细胞都划归为正常细胞,并没有达到将正常细胞与异常细胞区分开的目的。这表明由先验概率所提供的信息太少。12为此必须利用抽取到的d维观测向量。为简单起见,假定d=1,并已知两类的类条件概率密度函数分布,如图所示,其中P(x|ω1)是正常细胞的属性分布,P(x|ω2)是异常细胞的属性分布。类条件概率密度图13由Bayes公式得到:式中于是由先验概率转化为后验概率P(ωj|x)。如果对待分类模式的特征我们得到一个观察值x,经上式计算出结果,则判决X属于,反之,属于。()()()()jjjpxPPxpx1()()()cjjipxpxP()jP12()()PxPx12142.2Bayes决策15例1:在细胞的化验中,要区分正常和异常的两种类型,分别用w1和w2表示,已知p(w1)=0.85,p(w2)=0.15,现有一待测细胞,其观测值为X,从类条件概率密度分析曲线上查得p(x/w1)=0.15,p(x/w2)=0.45,试对该细胞进行分类。2.2Bayes决策16所以这次化验的细胞被判断为正常类型细胞。172.2Bayes决策2.2.2最小风险Bayes决策最小风险Bayes决策是考虑各种错误造成损失不同而提出的一种决策规则。例如,通过化验判断细胞是不是癌细胞,可能做出两种错误判决:一是把癌细胞错判为正常细胞;一种是把正常细胞错判为癌细胞。这两种错误判决带来的风险显然是不同的。1819一般决策表202122例2:在细胞化验中要区分正常的和异常的两种类型,分别是分别用w1和w2表示,要得到的判决也是两种,分别为a1和a2,需要汇集专家们的知识和经验,针对具体问题进行深入的分析,了解各种判决可能造成的风险或损失。细胞识别中的风险矩阵23解:根据风险矩阵表所以这次化验的细胞被判断为异常类型细胞。242.3分类器的设计252.3分类器的设计按最小错误率作决策时,决策规则的形式为则相应的判别函数为:gi(X)=P(ωi|X),i=1,2而决策面方程则可写成g1(X)=g2(X)决策规则也可以写成用判别函数表示的形式如果gi(X)>gj(X)i,j=1,2且i≠j则X∈ωi,否则X∈ωj26•至于多类别情况,则对应于一种决策规则要定义一组判别函数:gi(X),i=1,2,…,c而决策规则可表示成如果则将X归于ωi类272.3分类器的设计两类别问题分类器的结构框图2、分类器的设计28多类别分类器的结构框图

1 / 28
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功