特征选择从候选特征集中选出或提取与任务最相关的特征集特征选择的基本框架子集生成子集评价停止准则对子集的衡量结果原始特征集候选特征子集结果验证满足不满足特征选择的两大种类•特征提取(FeatureExtraction):选出的特征集不要求是原特征集的子集,新特征一般是原特征集的组合或变换。如主成分分析,核主成分分析,线性判别分析等。面向有监督和无监督学习问题。•特征选择(FeatureSelection):选出的特征集必须是原特征集的子集。如SVM-RFE,等。主要面向有监督学习问题。特征提取—主成分分析(数据集不需类标记)•2x1x1F2F•••••••••••••••••••••••••••••••••••••特征提取—线性判别分析(数据集需有类标记)•更进一步地,很多分类算法都可以看成是特征提取方法,比如SVM2/||||w0lllw11()sgn()sgn()Tnnfxwxbwxwxb特征提取的优缺点•优点–可得到小特征集,乃至只有一个特征的特征集–不需类标记的特征提取方法的时间代价小•缺点–新特征的解释能力差特征选择•n个特征里可能的特征子集个数1221nnnnnCCC•当n不大时,可以采用枚举法(即全局搜索策略),用给定的特征子集评价指标,评价每个特征子集,从中选出最优特征子集。•当n较大时,全局搜索行不通,必须采用启发式搜索策略、概率搜索策略(如遗传算法)等选择次优的特征子集特征选择方法的分类—从子集评价有无与分类算法绑定的角度•过滤法(Filter):特征选择过程独立于分类算法。优点—速度快,鲁棒性强。缺点—选出特征子集的分类性能一般弱于封装法•封装法(Wrapper):特征选择过程与分类算法绑定。优点—选出特征子集的分类性能一般较小,且好于过滤法。缺点—速度慢,鲁棒性不如过滤法。子集评价指标•总体而言,应根据具体问题进行设计•结构风险最小化原则仍适用–经验风险和置信风险–特征子集的大小•特征的独立性SVM-RFE•Featurerankingwithcorrelationcoefficients•SVMRecursiveFeatureElimination(SVMRFE)•Datasets•ExperimentalresultsRankingcriteriaSNR(i)=(mi(+)–mi(-))/(si(+)+si(-))(Golub,1999)mi(+):meanofclass(+)mi(-):meanofclass(-)si(+):standarddeviationofclass(+)si(-):standarddeviationofclass(-)Rankingcriteria(Golub,1999)equalnumberofgenesin+,-class(Furey,2000)absolutevalueofwi(Pavlidis,2000)(mi(+)–mi(-))/(si(+)+si(-))similartoFisher’sdiscriminantcriterionSVM-RFE:wi(wi-分类超平面法向向量中对应于第i个特征的分量)2222SVM-RFE•1)TrainaSVMclassifierwithLinearkernelfunction.•2)Computetherankingcriterionwiforallfeatures.•3)Removethefeaturewithsmallestrankingcriterion.•4)IFstopcriterionissatisfied,stop;otherwisegoto1).Datasets•Leukemia7129×72•Colon2000×62DatasetsForexample:sp.GeneSample1(Cancer)Sample2(Normal)……SamplekGene12919……16Gene2517……40…………………………Genen138……2Experimentalresults•Leukemia(SVM-RFE)NumberofgenesTrainaccuracyTestaccuracy10010099.315010098.2763410099.312010098.6211010098.621810096.552510095.172310092.759192.09378.966Experimentalresults•Colon(SVM-RFE)NumberofgenesTrainaccuracyTestaccuracy10010080.45010080.833100822010079.21010078.8810077.6599.18975.6395.40577.618071.6RFE的拓展•非线性可分时的SVM-RFE?•半监督时的SVM-RFE?•监督学习时的RF-RFE•半监督学习时的RF-RFE?RFE的优缺点•优点:稳健,选出的特征子集分类性能较好•缺点:耗时(要获得一个小的特征子集要进行很多迭代)RecursiveFeatureSelection(RFS)•RFE的反面:递归特征选择(RecursiveFeatureSelection,RFS),即每次选择“与已选特征子集组合时能达到最优评价指标”的特征SVM-RFS•1)设原始特征集为S,初始化选出的特征子集为空集,即R=[].•2)从S中选出一个特征r,使得R+{r}获得最优的子集评价指数•3)令R=R+{r},S=S-{r}.•4)如停止准则满足,则算法停止;否则,转2).•SVM-RFS的关键点:子集评价指标,既要能准确反映特征子集的好坏,又要快速特征选择文献•T.R.Golubetal.Molecularclassificationofcancer:classdiscoveryandclasspredictionbygeneexpressionmonitoring.Science,286(1999):531-537.•I.Guyonetal.Geneselectionforcancerclassificationusingsupportvectormachines.MachineLearning,46(1-3):389-422,2002.•I.Guyonetal.AnIntroductiontoVariableandFeatureSelection.JournalofmachineLearningResearch3(2003):1157-1182•S.Niijimaetal.Recursivegeneselectionbasedonmaximummargincriterion:acomparisonwithSVM-RFE.BMCBioinformatics7:543,2006.•M.Yousefetal.RecursiveClusterElimination(RCE)forClassificationandFeatureSelectionfromGeneExpressionData.BMCBioinformatics,8:144,2007.