龙源期刊网基于最大信息系数和最大相关最小冗余的特征选择算法研究作者:曹丹李雨婷聂轰来源:《数码设计》2018年第14期摘要:基于Reshef提出的具有普适性与公平性的测度函数MIC,并结合最大相关最小冗余的理念,发展一种“最大相关最小冗余可比”的特征选择算法MIC-mRMR。以5个UCI数据为例,采用SVM预测模型进行验证,得到优于传统最小相关最大冗余算法的结果。关键词:最大信息系数;最大相关最小冗余;特征选择中图分类号:TP311.13文献标识码:A;;;;文章编号:1672-9129(2018)14-0026-021引言特征选择是指从原始特征集中选择使某种评估标准最优的特征子集的过程,其目的是使选出的特征子集最能反映数据的特征,并且由特征子集所构建的分类或回归模型能达到和特征选择前近似甚至更好的预测精度。特征选择是机器学习中的关键环节,特征选择算法的好坏直接影响着分类器的预测精度、计算复杂度及其繁化能力等。2研究方法2.1最大相关最小冗余法。Pengetal.提出最大相关最小冗余法(maximalrelevanceminimalredundancy,mRMR)在对特征排序时,既考虑特征X与因变量Y的相关性,又考虑特征间的冗余性,其对相关性及冗余性的度量均基于互信息(MutualInformation,MI)。其中~I(X,Y)=H(X)’+H(Y)+H(XY)为X与Y的互信息。H(X)、H(Y)和H(XY)为X,Y的信息熵以及X和Y的联合信息熵。2.2MIC-mRMR。相关性统计量t、X2、F、MI等能衡量两变量的关联程度,但其值均∈[0,∞),使得不同系统间的关联性无法比较。因此,发展了种相关性可比的度量指标至关重要。Reshef基于MI提出最大信息系数(MaximumInformationCoefficient,MIC)。式中I(X;Y)表示X与Y的互信息,nx与ny为变量X与Y被划分的段数,B=n0.6为最大网格数限制,n为样本数。MIC对MI作最大化和归一化改进,使MIC兼具普适性(适于任意形式的非线性函数)与公平性(等噪音的不同函数得分接近)。MIC通过对连续变量进行网格寻优,计算在B限制下所有可能划分对应的I(X,Y),并由log2min{nx,ny}校正使MIC(X;Y)∈[0,1]。若两龙源期刊网变量为函数关系,则MIC=1;若为相关关系,则MIC∈(0,1),该值越大,则相关关系越强;当两变量完全独立时,MIC=0。基于MIC的如上优点,本研究将其与最大相关最小冗余的思想结合,提出算法MIC-mRMR,该算法描述如下:输人:Y={Y1,Y2,...Yn},特征集Ω={X1,X2,...,Xn},待选取特征集合S,初始S=Ω;特征选取数K。输出:特征子集Ωs,初始为φ。算法:(1)计算所有Xi与Y的MIC(Y,Xi);(2)计算两两特征间的MIC(Xi,Xj);(3)选取max{MIC(Y,Xi)}为Ωs中的第一个特征;(4)记|Ωs|=k,当k(5)由式(3)选出下一个分类特征,并更新Ωs和S;(6)最终获得特征子集Ωs。2.3支持向量机。基于小样本统计学习理论的支持向量分类(SupportVectorClassification,SVC)较好地解决了非线性、过拟合、维数灾等问题且泛化推广能力优异。因此,将此分类算法应用到本文中。3头验结果将MIC-mRMR算法与现有的mRMR算法应用于5个UCI数据集,结合SVC预测,结果展示如下。表1为数据集概况,表2展示了MIC-mRMR与mRMR选取的特征子集结合SVC预测的五折交叉测试精度(均选取特征总数的10%为特征子集)。4讨论结果显示MIC-mRMR获得的特征子集结合SVC的预测精度相比mRMR有明显提升。MIC-mRMR结合MIC与mRMR能选取出与Y线性相关外的其他关联的特征,且由于MIC的可比性,有效提高了数据的分析能力。[1]毛勇,etal.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218.龙源期刊网[2]张晶,etal.基于mRMR的多关系朴素贝叶斯分类[J].计算机应用与软件,2016,33(8):57-61.[3]范雪莉,etal.基于互信息的主成分分析特征选择算法[J].控制与决策,2013,28(6):915-919.