模式识别PatternClassification第四章:参数估计统计决策法模式识别,第四章3参数估计•原理•对于绝大多数的识别问题,类概率密度函数已知的条件并不成立,而通常只知类概率密度的函数形式,其参数未知。•参数估计法即是利用学习样本来估计类概率密度参数的方法。模式识别,第四章4参数估计参数估计法最大似然估计法Bayes估计法两种方法原理不同,但结果是一致的!模式识别,第四章5参数估计•原理•最大似然估计法:将待估参数视为确定的未知量进行估计•Bayes估计法:将待估参数视为随机变量进行估计模式识别,第四章6最大似然估计法(ML)•已知条件拥有一批已知类别的学习样本,并知第j类的类概率密度的函数形式,参数未知。•问题由学习样本估计最佳参数。},,,{21)(njXXXX)/(jXp)(jX模式识别,第四章7最大似然估计法•解决方案模式识别,第四章8最大似然估计法•解决方案模式识别,第四章9最大似然估计法•设有6个学习样本如下图所示,样本分布满足正态分布,且方差已知,现需估计最佳的均值μ•可以看出,μ取A和B对似然函数的影响61)/(kkXp由于μ取B是似然函数更大,参数B优于AP(x/μ)xABμ=Bμ=A模式识别,第四章10最大似然估计法P(x/θ)模式识别,第四章11最大似然估计法•设有6个学习样本如下图所示,样本分布满足正态分布,且均值已知,现需估计最佳的方差σ•可以看出,σ的变化对似然函数的影响P(x/σ)xσ1σ261)/(kkXp参数σ1优于σ2模式识别,第四章12最大似然估计法•如何寻求最优参数?模式识别,第四章13•解决方案•用求极值的方法求最佳θ值为计算方便,对似然函数求自然对数:最大似然估计法nkknkkXpXp11)/(ln)/(ln模式识别,第四章14最大似然估计法•解决方案定义梯度算子▽为:r21模式识别,第四章15最大似然估计法•解决方案则令:0])/(ln[1nkkXp模式识别,第四章16最大似然估计法•解决方案即:可得到r个关于参数θ的方程组,求解方程组,即可求得最佳估计值。0)/(ln121nkkrXp模式识别,第四章17最大似然估计法•例一:设样本满足一维正态分布,现已知n个学习样本,试用最大似然估计法估计其均值μ和方差σ2。解:对于一维正态分布待估参数为其中22)(21exp21)/(xxpj},{21221,模式识别,第四章18最大似然估计法可记为:则似然函数为:2212)(21exp21)/(xxpnkknkkxxp11221)(212ln21)/(ln模式识别,第四章19最大似然估计法令:即:0)/(ln1nkkxp0)/(ln0)/(ln1211nkknkkxpxp模式识别,第四章20最大似然估计法得:解得:02)(210)(12221212kkxxnkkxn1112122)(1nkkxn模式识别,第四章21最大似然估计法•例二:设样本满足d维正态分布,其中协方差矩阵Σ已知,且已知n个学习样本,试用最大似然估计法估计均值向量μ。模式识别,第四章22最大似然估计法•解:样本满足正态分布,则似然函数)()(21exp)2(1)/(1212XXXpTdinkkTknkkXXdXp111)()(21ln212ln2)/(ln模式识别,第四章23最大似然估计法协方差矩阵已知,仅有一个待参数均值向量,即θ=μ令得:0)/(ln1nkkXp0)(11nkkX模式识别,第四章24最大似然估计法即:可得θ=μ的最佳估计值为:即最佳均值向量是n个学习样本的重心(算数平均)。0)(1nkkXnkkXn11最佳估计值模式识别,第四章25最大似然估计法•例三:设为多维正态分布,现已知n个学习样本,试用最大似然估计法估计和。解:与前述方法相同,即:),()/(NXpj)()(21exp)2(1)/(1212XXXpTd模式识别,第四章26最大似然估计法似然函数令:nkkTknkkXXdXp111)()(21ln212ln2)/(ln0)/(ln1nkkXp模式识别,第四章27最大似然估计法得:nkkXn11nkTkkXXn1))((1模式识别,第四章28最大似然估计法•基于最大似然估计法的分类器设计•确定样本类概率密度函数形式•确定待估参数•根据学习样本,用最大似然估计法估计概率密度函数的参数•估计样本先验概率•用Bayes方法设计分类器)/(Xp)(jp模式识别,第四章29Bayes估计•原理:将待估参数视为具有某种先验分布的随机变量,通过学习样本的观察,将先验分布转换为后验概率,并以此来修正参数的估计值。模式识别,第四章30Bayes估计•实现过程•将待估参数视为随机变量,并由先验只是得到粗略分布)(pP(θ)θ模式识别,第四章31Bayes估计•为已知函数形式的类概率密度,待估,且知n个学习样本,记为,j为类别。•由Bayes公式有:其中为的后验概率,表示在观察了n个学习样本后对的修正分布。)/(Xp},,,{21)(njXXXX)()()/()/()()()(jjjXppXpXp)/()(jXp)(jX)(p模式识别,第四章32Bayes估计则表示在参数为的条件下,n个样本出现的概率。为待估随机参数的先验概率分布。与无关,可用系数代替即:)/()(jXp)(jX)(pdpXpXpjj)()/()()()()()/()/()()(pXPXpjj模式识别,第四章33Bayes估计显然,由于n个学习样本是独立抽取的,则可得:nkkjXPXp1)()/()/()()/()/(1)(pXPXpnkkj观察了n个样本后θ的修正分布模式识别,第四章34Bayes估计•合理的估计方法是:在修正的分布中,使得取值最大的值即是的最佳估计值。)/()(jXp)/()(jXp模式识别,第四章35Bayes估计P(θ/X(j))θθ0P(θ)θn模式识别,第四章36Bayes估计•例:已知类概率密度为一维正态分布,其中方差已知,均值参数待估。试用Bayes估计法估计均值2模式识别,第四章37Bayes估计•解:对一维正态分布22)(21exp21)/()/(xxpxpP(x/μ)xμ模式识别,第四章38Bayes估计首先,将待估参数μ视为随机变量,并具有一定的初始分布。假设其具有正态分布:),()(21exp21)(20020200Np模式识别,第四章39Bayes估计P(μ)μμ0模式识别,第四章40Bayes估计观察了n个学习样本后,μ的后验概率(修正分布)为:22120200221)()(21exp21)(21exp21)(21exp21)()/()/(nnnnkknkkjxpxPXp模式识别,第四章41Bayes估计可见:修正后μ的分布仍为正态分布!其均值为μn,方差为σn2其中:0220222020nmnnnnnkknXnm11模式识别,第四章42Bayes估计即:μn表示在观察了一组样本后,对μ的最好的推断,而σn2则反映了这个推断的不确定性!2202202022021220201nnXnnnnnkkn模式识别,第四章43Bayes估计P(μ/X(j))μμ0P(μ)μn模式识别,第四章44Bayes估计•待估的最佳均值μ=?•答案:μ=μn模式识别,第四章45Bayes估计•考虑样本数对估计值的影响当时,,Bayes估计与最大似然估计的结果相同!2202202022021220201nnXnnnnnkknnkknXn11n模式识别,第四章46Bayes估计此时,为δ函数。即随着样本数的增加,μ的初始分布p(μ)对μ的估计影响越来越小。反映了对参数μ估计的不确定性,当时,)/()(jXp2nn02n模式识别,第四章47Bayes估计