上海交通大学硕士学位论文结合属性筛选的决策树分析及其在中医诊断中的应用姓名:廖晓威申请学位级别:硕士专业:计算机科学与技术指导教师:马利庄20081201上海交通大学硕士学位论文摘要第I页结合属性筛选的决策树分析及其在中医诊断中的应用 摘要传统中医学作为世界医学的一个宝库,两千多年来为中国及世界人民健康做出了不可磨灭的贡献,但是由于传统中医诊断学体系具有很多的不确定性、模糊性的内容,严重阻碍了中医的普及、推广和发展,如何将充满模糊性的中医辨证过程进行规范化和客观化是本文研究的主要问题。本课题通过应用基于属性筛选的决策树分析技术,从中医肝硬化病例数据中发现症状与证候之间的规律并提取出相应的辨证规则,作为一种辅助工具供给医务工作者参考,为实现中医诊断的数字化和客观化提供了一条途径。属性筛选作为一项重要的数据预处理技术,主要目的是识别和消除样本的属性集中与预测结果不相关的或冗余的属性。对于中医病例数据样本,由于采集数据代价较高,因此中医数据分类是典型的小样本分类问题。而且中医病例数据的维数相对来说较大,导致数据中的冗余和无关部分也会相应的增多。为得到更准确的辨证结果和辨证规则,在辨证前对数据进行属性筛选十分必要。中医辨证的本质是证候分类。现有的分类方法很多,其中决策树算法是一种以实例为基础的归纳学习算法。它具有易于提取显式规则、适合处理非数值型数据、可以显示重要的决策属性和较高的分类准确率等优点,从而成为辨证模型构建及辨证规则提取的有效工具。本文将围绕特征属性筛选算法和决策树分类模型进行研究,通过学习和总结前人的研究成果,提出一种结合属性筛选的决策树分析方上海交通大学硕士学位论文摘要第II页法,并应用于中医肝硬化的辨证,旨在提供一种中医客观化诊断的新途径。本文主要工作包括以下方面:首先,对属性筛选算法进行研究,分析了属性筛选的主要目的和过程,以及基于相关度信息为评价依据的属性搜索方式和属性组合评价策略,提出了一种自适应属性筛选算法A-FCBF(AdaptiveFastCorrelation-BasedFilter),该算法通过对不同筛选阀值所对应的筛选结果进行属性组合优劣性评定,能够自适应的找出昀优筛选阀值与特征属性子集,降低了由于人为干预所可能引入的误差,提升了数据约简过程的操作性和准确性。其次,对常用决策树算法的优缺点进行了总结,并从数据约简、决策属性选择和预剪枝策略等方面对传统算法进行了改进,提出了E-ID3(EnhancedIterativeDichotomiser3)决策树算法。以该算法进行决策树建模,首先将对原始训练数据进行特征属性约简;其次以相关信息增益度CIG(CorrelatedInformationGain)作为评估标准选定决策树各节点的分裂属性;在决策树的构建过程中,一旦树节点满足预剪枝标准,则停止对该节点继续分裂,并令该节点成为叶子节点。与传统算法相比,新算法提高了执行效率、预测精度,以及分类规则可理解性。昀后,将本文提出的分析算法应用到中医肝硬化证候辨证问题上,通过总结清晰的辨证规则为中医客观化诊断提供参考依据,同时为中医智能化辨证提供了一条可行性途径。关键词:中医辨证、特征属性筛选、决策树、A-FCBF、E-ID3上海交通大学硕士学位论文ABSTRACT第III页DECISIONTREEANALYSISWITHFEATURESELECTIONANDITSAPPLICATIONINDIAGNOSISOFTRADITIONALCHINESEMEDICINEABSTRACTAsapartofthemedicinetreasuryintheworld,thetraditionalChinesemedicinesciencehasbeenremarkablycontributingtothehealthofpeopleinChinaandaroundtheworldthroughoutabouttwothousandyears.However,italsohasbeenbadlyhinderedfrombeingpopularizedandfurtherdevelopingduetotheunquantifiableandobscurefeaturesofitsdiagnostics.Therefore,itistheissuetobestudiedinthisarticleonhowtostandardizeandobjectifythesyndromedifferentiationoftraditionalChinesemedicinescience,whichisfullofobscurity.WiththeapplicationofDecisionTreeanalysis,whichiscombinedwithFeatureSelectiontechnique,thispaperistryingtofindoutthecorrespondencebetweensymptomsandsyndromebystudyingthedataofahepatocirrhosiscase.Theobjectiveistofindoutaruleinthesyndromedifferentiation,whichwillprobablyprovidereferencetomedicalworkersandmakeitpossibleforthedigitalizationandobjectificationofthediagnosisintraditionalChinesemedicinescience.FeatureSelectionisanimportanttechniqueofdatapre-processing,whichisaimedtorecognizesoastoeliminatethefeatures,inalldataattributes,whichareredundantorirrelevanttotheissuebeingstudied.DuetothehighcostofdatacollectioninthecaseofChinesemedicaltreatment,thedataclassificationinChinesemedicinescienceisatypicalsmallsampleproblem.Furthermore,foraChinesemedicinecase,therearerelatively上海交通大学硕士学位论文ABSTRACT第IV页moredimensionsindata,thustherearemoreredundantandirrelevantpartsandtherefore,FeatureSelectionofdatabecomesreallyimportantifamoreaccurateresultandruleofsyndromedifferentiationistobeworkedout.ClassificationistheessenceofsyndromedifferentiationinChinesemedicinescience.Therearealotofmethodsforclassification,amongwhichDecisionTreealgorithm,asanexample-basedinductivelearningalgorithm,standsouttobecomeaneffectivetoolfortheconstructionofsyndromedifferentiationmodelandruleextraction,owingtoitsadvantagesofbeingabletoextractrulesmoreclearly,betterprocessnon-numericaldata,showimportantdecisionattributesandclassifymoreaccurately,etc.GroundedonpreviousresearchesandbyfocusingonFeatureSelectiontechniqueandDecisionTreeclassificationmodel,thispaperputsforwardadecisiontreeanalyticalmethodcombinedwithfeatureselection,whichisappliedinsyndromedifferentiationinthecaseofChinesemedicaltreatmentforhepatocirrhosis,thusprovidinganewapproachtotheobjectificationofChinesemedicaldiagnosis.Theworkinvolvedinthispaperincludes:Firstofall,itstudiesFeatureSelectionalgorithmsandanalyzesthemainpurposeandprocessofFeatureSelection,aswellasthecorrelation-basedfeatureattributesearchmethodandfeaturescombinationevaluationstrategy.ItbringsforwardA-FCBF,aFeatureSelectionalgorithmwithadaptingcapacity,thussimplifyingtheprocessingofdatareductionanditsaccuracyaswell.Secondly,itsummarizestheadvantagesanddisadvantagesofcommonlyusedDecisionTreealgorithmsandproposesE-ID3DecisionTreealgorithm,whichisabletoimprovedatareduction,decisionfeatureselectionandpre-pruningstrategy.Comparedtotheoriginalalgorithm,thenewoneenhancestheefficiencyofprocessing,precisionofpredictingandunderstandabilityoftherules.上海交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□,在_____年解密后适用本授权书。本学位论文属于不保密□。(请在以上方框内打“√”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日上海交通大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日上海交通大学硕士学位论文第一章引言第1页第一章引言1.1论文研究背景传统中医学是从东方传统哲学、古代科技文化、医学实践中发展起来的,两千多年来为中国及世界人民健康做出了不可磨灭的贡献,形成了完整的系统理论,也积累了丰富的临床经验,是世界医学的一个宝库。如何发掘这个医学宝库,为世界卫生健康事业做出新贡献,当今在中国以及世界都被广泛地应用,已经成为中西医学和现代科技领域共同关注和