密度估计算法大体分为三类:参数方法,半参数方法和非参数方法。核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt(1955)和EmanuelParzen(1962)提出,又名Parzen窗(Parzenwindow)。由于在众多的实际问题当中,我们对于未知概率密度函数的信息一无所知,所以,有参估计方法以及半参估计方法不适用于这些问题的求解。因此核密度估计算法是当前最有效和应用最广泛的一种非参数密度估计算法。在使用核方法进行概率密度函数估计时,关键的问题在于核函数以及窗口宽度的确定。设X1,X2,…,Xn为单元变量X的独立同分布的一个样本,则X所服从分布的密度函数f(X)的核密度估计为:f(X)=1𝑛1ℎ𝐾(𝑋−𝑋𝑖ℎ)𝑛𝑗=1其中,K(u)为核函数,h为窗口宽度。在一维核密度的基础上,可推出二维核密度估计计算公式。数据data=(x,y),令h=(ℎ𝑥,ℎ𝑦)为一个窗宽向量。则核密度函数为:𝑓𝑁𝑥=1𝑁𝐾ℎ𝑁𝑖=1𝑥,𝑥𝑖𝐾ℎ𝑥,𝑦=1ℎ𝑥ℎ𝑦𝐾𝑥−𝑥𝑖ℎ𝑥𝐾𝑦−𝑦𝑖ℎ𝑦选取的核密度必须满足三条性质:(1)非负性:K(x)≥0,x∈R;(2)对称性:K(x)=K(−x),x∈R;(3)归一性:即K(x)在区间[−∞,+∞]上的积分为1,𝐾𝑥𝑑𝑥=1+∞−∞。在该程序中选取的核密度函数为高斯核函数:𝐾𝑥=12𝜋𝑒−𝑥22均方积分误差是衡量估计所得的概率密度函数𝑓ℎ𝑥与真实概率密度函数f(x)之间的差异,英文表示为MeanIntegratedSquareError,简称MISE。表达式为:𝑀𝐼𝑆𝐸ℎ=𝐸𝑓ℎ𝑥−𝑓(𝑥)2𝑑𝑥选择的窗宽为MISE取值最小的情况𝐻𝑀𝐼𝑆𝐸=𝑎𝑟𝑔𝑚𝑖𝑛𝑀𝐼𝑆𝐸𝐻采用渐进近似:AMISE(H)=𝑛−1(4𝜋)−𝑑2|𝐻|−12+14(𝑣𝑒𝑐ℎ𝑇𝐻)𝜑4(vechH)即最佳窗宽选择为:𝐻𝑀𝐼𝑆𝐸=argmin𝑀𝐼𝑆𝐸(𝐻),𝐻𝑀𝐼𝑆𝐸=𝑎𝑟𝑔𝑚𝑖𝑛𝐴𝑀𝐼𝑆𝐸(𝐻)由此可以在x方向和y方向上分别计算出窗宽:ℎ𝑥,ℎ𝑦。