分类号______________________________密级______________________________UDC______________________________编号______________________________全日制专业学位硕士论文面向疾病智能诊断的机器学习方法研究学位申请人:王冉冉学科领域:软件工程校内导师:刘立月副教授答辩日期:华东交通大学2012届全日制专业学位硕士论文面向疾病智能诊断的机器学习方法研究软件学院王冉冉书脊独创性声明本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表和撰写的研究成果,也不包含为获得华东交通大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人签名_______________日期____________关于论文使用授权的说明本人完全了解华东交通大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅。学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。保密的论文在解密后遵守此规定,本论文无保密内容。学生本人签名日期校内导师签名日期摘要I面向疾病智能诊断的机器学习方法研究摘要研究疾病智能诊断模型,对提高疾病诊断的正确性、实时性,减轻医务人员的劳动强度,具有十分重要的意义。机器学习方法不仅可以对医疗检测出的数值结果进行主动学习,而且能在繁杂模型中快速的做出智能决策。近年来,机器学习方法被广泛应用于各种医疗诊断系统。然而,并非单一的机器学习方法在对未知数据进行预测时就能达到较高的泛化能力,在机器学习算法应用中,还需要综合考虑多种技术的融合和优化。论文在研究机器学习和疾病诊断方法的基础上,重点研究了以支持向量机(SVM)为基础的疾病诊断模型及其优化方法,主要研究内容和工作成果如下:1、对传统的机器学习诊断系统进行了深入分析,考虑到疾病数据具有不平衡、冗余和高维特性,研究了数据预处理,降维及不平衡数据处理方法,以典型分类方法为基础,分别建立了基于决策树与SVM的乳腺癌诊断模型,试验结果表明,SVM诊断方法表现了更好的预测性能。2、针对SVM的性能易受其超参数(如惩罚因子C和RBF核的核宽γ)影响,将网格参数寻优算法引入到SVM的诊断模型。考虑到网格参数寻优的低效性和敏感性,利用智能计算技术,分别设计了基于遗传算法(GA)和粒子群优化算法(PSO)的SVM诊断模型。实验结果表明该类模型可以有效地筛选出最重要的致病特征,准确地对乳腺癌病情做出诊断。3、集成学习因其能显著提高一个学习系统的泛化能力而得到了机器学习界的广泛关注。利用Adaboost方法改变样本分布,获得一组具有差异性的基分类器,从而建立基于Adaboost的SVM集成诊断模型,并设计了实验验证。另外,在分析集成学习及选择性集成方法缺陷的基础上,尝试从准确性与多样性二者均衡的角度,对集成系统质量评价问题展开研究,提出了一种新的评价策略FDA(F-MeasurebasedonDiversityandAccuracy,FDA),该策略源于信息检索F值均衡思想,为有效提高集成系统泛化能力提供了参考。本文所提出的三种智能疾病诊断模型,都分别在UCI数据资源库中的疾病数据集上得到了验证。关键词:智能诊断,机器学习,SVM,集成选择,FDAAbstractIIRESEARCHONMACHINELEARNINGMETHODSFORDISEASEINTELLIGENTDIAGNOSISABSTRACTResearchonthemodelofintelligentdiseasediagnosis,hasveryimportantsignificance.Becauseitcanimprovetheaccuracyofdiagnosis,reducelaborintensityofmedicalstaff.Machinelearningmethodsnotonlycanactivelearnthenumericalresultsofmedicaldetection,butalsocanquicklymakeintelligentclassificationinthecomplexmodel.Inrecentyears,machinelearningmethodshavebeenwidelyusedinvariousmedicaldiagnosissystem.However,notasinglemachinelearningmethodscanachievehighgeneralizationabilityinforecastingunknowndata,inthecourseoftheapplicationofmachinelearningmethods,alsoneedstheintegrationandoptimizationofmultipletechnologies.Aftertheintensivelystudyonthetheoriesofmachinelearningalgorithmsanddiseasediagnosismethods,weimportantlyresearchedontheoptimizationalgorithmofintelligentdiagnosticmodelbasedontheSVM,themainresearchcontentsandachievementsareasfollows:(1)Analyzedthetraditionalmachinelearningdiagnosissystem.Consideringthatthemedicaldatahasthecharacteristicsofnotbalanced,dataredundancyandhighdimensionalitywehavetoresearchthedatapreprocessing,dimensionreductionandunbalanceddataprocessingmethod.ThenwerespectivelyestablishedthebreastcancerdiagnosismodelswithdecisiontreeandSVMbasedontypicalclassificationmethods.ThetestresultsshowthatdiagnosissystembasedonSVMhasbatterpredictionperformance.(2)AccordingtotheperformanceofSVMiseasilyaffectedbyitshyperparameters(suchasthepenaltyfactorCandRBFnucleuswidegamma)effect,thegridparameteroptimizationalgorithmisintroducedtothediagnosismodelofSVM.Consideringthegridparameteroptimizationhaslowefficiencyandsensitivitycharacteristics,sousedtheintelligentcomputingtechnology,wereestablishedSVMdiagnosticmodelbasedonthegeneticalgorithm(GA)andparticleswarmoptimizationalgorithm(PSO).Theexperimentalresultsshowthatthesemodelcaneffectivelyfilteroutthemostimportantpathogeniccharacteristics,andcanaccuratelyclassifybreastcancerdata.(3)Ensemblelearninghasreceivedwideattentionfromthemachinelearningcommunitybecauseitcansignificantlyimprovethegeneralizationabilityofalearningsystem.ByusingtheAdaboostmethodtochangethedistributionofsample,obtainasetofbaseclassifiershavedifferences,soastoestablishtheSVMintegrateddiagnosismodelbasedonAdaboost.Inaddition,becauseofensemblelearningandensembleselectionmethodhavebadcharacteristics,sowecarryouttheresearchonthequalityevaluationofensemblesystembasedonbalancebetweenaccuracyanddiversity.ThenweputforwardanewevaluationAbstractIIIstrategyFDA(F-MeasurebasedonDiversityandAccuracy,FDA),thisstrategyderivedfrominformationretrievalFvaluebalancedthought,provideareferenceforeffectivelyimprovingthegeneralizationabilityofensemblesystem.Threeintelligentdiagnosisofdiseasesoftheproposedmodel,haverespectivelybeenverifiedontheUCIdatarepositorydatasetsdiseaseKeyWords:Intelligentdiagnosis,Machinelearning,SVM,Ensembleselection,FDA目录Ⅳ目录第一章绪论..........................................................................................................................11.1研究背景及意义......................................................................................................11.2国内外研究概况......................................................................................................21.2.1SVM智能诊断模型研究现状.........................................................................21.2.2集成学习诊断模型研究现状........................................................................31.3论文的主要工作及组织结构..................................................................................51.3.1论文的主要工作..........................