真实世界中医诊疗数据挖掘分析的探索与实践张小平中国中医科学院2012.07.5一、数据挖掘概述二、真实世界中医诊疗数据挖掘的研究现状三、数据挖掘对真实世界中医诊疗数据的要求四、数据挖掘常用工具五、真实世界中医诊疗数据挖掘的思考主要内容一、数据挖掘概述数据挖掘(DataMining,DM)是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。分类或预测聚类关联规则序列模式等根据任务数据挖掘作为知识发现(KDD)的一个步骤[10]二、真实世界中医诊疗数据挖掘的研究现状•几千年来,中医临床实践积累了海量的真实世界中医诊疗数据;•东汉末年,医圣张仲景钻研和分析已有文献典籍(《素问》、《九卷》、《八十一难》、《阴阳大论》、《胎胪药录》等),并结合临床诊疗经验,利用古代数学等相关知识,得出了六经辨证模式,撰写出被后人称为辨证论治典范的著作《伤寒杂病论》,体现了现代数据挖掘技术的朴素思想[19];•当今,利用先进的数据挖掘技术,在海量的真实世界中医数据中,发现启发性或可验证性的中医诊疗规律,将会对疾病的防御和治疗,对人们更好地了解中医的内涵以及促进中医的发展具有重要的现实意义。从上世纪90年代以来,随着数据挖掘技术的成熟和广泛应用,利用数据挖掘等先进的信息技术手段,总结名老中医诊疗经验、探索中医辨证论治规律已逐渐成为国内中医领域的研究热点。利用聚类[46-55]、关联规则[56-65]、贝叶斯网络与贝叶斯分类[66-70]、SVM[71-73]、回归分析和判别分析[74-77]、神经网络[78-81]、Rough集[82-85]、文本挖掘[86-89]、复杂网络[90-91]、因子分析和主成份分析[92-94]、隐结构模型[95-102]、隐马尔科夫模型[106-108]、主体模型[109-114]等多种数据挖掘技术,广泛探索中医“辨证论治”的诊疗规律。二、真实世界中医诊疗数据挖掘的研究现状聚类分析189个案例中半夏泻心汤7味中药聚成四类,各类药物的平均用量(g)[53]聚类结果示例[10]二、真实世界中医诊疗数据挖掘的研究现状聚类分析35个肾虚辨证因子聚类分析树状图[49]二、真实世界中医诊疗数据挖掘的研究现状聚类分析3238例糖尿病数据中50个症状的部分分层聚类结果二、真实世界中医诊疗数据挖掘的研究现状3238例糖尿病数据中50个症状聚类分析利用SPSS,对Breastcancer数据中的1207例数据进行K-means聚5类的结果二、真实世界中医诊疗数据挖掘的研究现状应用聚类分析存在的问题二、真实世界中医诊疗数据挖掘的研究现状参数选择问题聚类都涉参数选择问题。如,聚类数与距离函数(或密度函数)都需要人为设定,不同的参数设置通常会得到不同的聚类结果,尤其是面对高维稀疏数据时,聚类结果受距离函数(或密度函数)的影响更为突出。中医在症状、证候和复方药物的描述中具有高维性和稀疏性特征。据我们对3000多例糖尿病数据统计得知,常用的症状或中药名称约500种,证候描述约1000多种。而每个患者描述的症状、中药与证候诊断约20种左右。应用聚类分析存在的问题二、真实世界中医诊疗数据挖掘的研究现状v1v2v3……p110100p211000…中医临床数据特点v1v2v3……t150010000t21101120…451120文本数据特点参数选择问题特点:变量值稀疏且单一应用聚类分析存在的问题二、真实世界中医诊疗数据挖掘的研究现状聚类的单分配性聚类结果示例[10]在“辨证”时,一种症状可表现在不同的证候中,一个患者可以表现出不同的证候;在利用复方“论治”时,一种中药可以出现在不同的复方里。所以在分析这些中医问题时,都不适合单纯使用聚类方法。应用聚类分析存在的问题二、真实世界中医诊疗数据挖掘的研究现状中医药术语的语义复杂性随着几千年语言文化的演变,中医术语普遍存在一词多义(Polysemy)和多词一义(Synonymy)的现象。如:“喘”与“气喘”,“纳呆”与“厌食”以及“食欲不振”,“不寐”与“失眠”等在症状中的不同描述,在中草药中如“瓜蒌”与“瓜壳”,“姜”与“生姜”等的描述,在证候中如“伤寒”一词,可以是外感病的统称,也可以指外感风寒的感冒。在聚类挖掘中距离(或密度)的计算时,难以顾及特证词的语义问题。解决办法二、真实世界中医诊疗数据挖掘的研究现状参数选择问题聚类的单分配性中医药术语的语义复杂性专家指导、算法反复尝试采用模糊聚类算法或其它算法建立、完善中医临床术语系统,构建中医本体(Ontology)[125]??关联规则舌苔薄(白)=中虚气滞(50%);舌质红=中虚气滞(66%);胃脘痞胀∧舌苔薄(白)∧吞酸或泛酸∧舌质红=中虚气滞(100%)基于辨证“中虚气滞”关联规则[57]四诊信息与证候的关联[59]四诊信息与用药的关联[59]二、真实世界中医诊疗数据挖掘的研究现状应用关联规则存在的问题二、真实世界中医诊疗数据挖掘的研究现状参数设置最小支持度(support)和置信度(confidence)这两个主要参数的设置。当参数设置较大时,学习出的规则会很少,不具有代表性,而当参数设置较小时,由于规则是考察变量之间的组合而产生,将会得出比变量多得多的规则,导致研究人员或领域专家又被淹没在大量的规则里。临床专家对规则的解释隐结构模型利用隐结构模型分析2600例肾虚患者的35个症状的部分图解[96]二、真实世界中医诊疗数据挖掘的研究现状应用隐结构模型存在的问题二、真实世界中医诊疗数据挖掘的研究现状与聚类算法具有相同的问题运行速度较慢由于学习的目的是建立一个分层树状的贝叶斯网络,学习算法是使用在一次迭代中只能在分层树上进行一个局部变动的贪心方法(例如,引入一个隐变量或者删除一条边),有较高的计算复杂度,导致学习效率比较低。例如,文献[96]对2600个肾虚病例中67个症状的35个症状建立了HLC模型,使用2.4GHz的奔腾IV计算机,花费了98.5小时,而对于分析全部的67个症状就较难处理。主题模型3238例糖尿病中药数据中提取的8个主题中的3个主题3238例糖尿病症状数据中提取的20个主题中的若干个主题(矩形框左上角之间的距离代表主题间的距离)二、真实世界中医诊疗数据挖掘的研究现状主题模型TOPIC13(0.01463)症状分布概率中药分布概率平均剂量(g)诊断分布概率下肢浮肿0.37800车前子0.2646018.98701糖尿病肾病0.23539浮肿0.20962猪苓0.1374616.18750低蛋白血症0.06185颜面浮肿0.06014白术0.1305812.50000冠心病0.06014尿量少0.05670泽兰0.0721613.00000慢性肾功能不全0.05670大便不调0.03436大腹皮0.0721614.78571高血压0.03952肢体浮肿0.03265山茱萸0.0635712.54054糖尿病肾病iv期0.03608面部浮肿0.02577法半夏0.0429510.08000慢性心功能不全0.03265皮肤苍白0.02234浙贝0.0429512.48000心功能Ⅲ级0.02405面色晦暗0.02062阿胶0.0326513.68421血脂代谢紊乱0.02234视物模糊0.01718芡实0.0274912.00000白内障0.022343238例糖尿病数据的的症状-中药-诊断主题模型的其中一个主题的概率分布[115]二、真实世界中医诊疗数据挖掘的研究现状应用主题模型存在的问题二、真实世界中医诊疗数据挖掘的研究现状参数选择问题没有考虑症状的轻重程度、中药的剂量、以及诊断的轻重程度没有考虑变量间的父子关系,如肢体麻木下肢麻木解决办法无参算法设计对变量合理量化症状:轻(1)、中(2)、重(3);对中药剂量进行合理归一化结合中医本体研究有效的主题模型算法部分可观察马尔可夫决策过程模型给出患者的处方治疗方案[112]二、真实世界中医诊疗数据挖掘的研究现状应用部分可观察马尔可夫决策过程存在的问题二、真实世界中医诊疗数据挖掘的研究现状对同一病例跟踪记录的诊次数据较少对症状的变化值记录不全复杂网络药物配伍网络示意图[124]二、真实世界中医诊疗数据挖掘的研究现状应用复杂网络存在的问题二、真实世界中医诊疗数据挖掘的研究现状目前还没有考虑中药的剂量OLPA数据立方体、上卷、下钻的例子[10]二、真实世界中医诊疗数据挖掘的研究现状OLPA信息所snomed数据的临床所见分层部分结构四诊所见及中医诊察仪器所见望诊所见闻诊所见问诊所见切(按)诊所见切(按)诊所见……望神所见望形体、姿态所见望形体所见……浮肿脱形半身不遂…………二、真实世界中医诊疗数据挖掘的研究现状真实世界中医诊疗数据的术语是否准确、术语变量对应的值是否准确、采集数据是否便于结构化、都会影响数据挖掘的最终结果。数据的完整性、语义关联性等,也影响数据挖掘的最终结果。三、数据挖掘对真实世界中医诊疗数据的要求三、数据挖掘对真实世界中医诊疗数据的要求临床术语变量间应有同义关系、父子关系等标志主要症状变量描述[112]头部耳眼部…对光的反射对光的反射??….….术语分层三、数据挖掘对临床术语的要求临床术语变量有对应的值,且能够转化为适合分析的结构化数据类风湿病诊断信息表[82]四、数据挖掘常用工具软件(一)WekaWeka包括分类、聚类和关联规则、属性选择等功能。它是开源软件。(二)SPSS著名的统计分析软件之一,包含假设检验、统计推断、预测、制图等多种数据分析方法。(三)SASSAS是一种功能强大的数据分析工具。包括数据获取工具、数据取样工具、数据筛选工具、数据变量转换工具、数据挖掘数据库、数据挖掘过程、多种形式的回归工具、为建立决策树的数据剖分工具、决策树浏览工具、人工神经元网络数据挖掘的评价工具。五、真实世界中医诊疗数据挖掘的思考1、术语、临床数据的规范性•仔细研究临床术语的特征与分类规则,开发临床术语系统与中医本体,对其进行有效维护,便于在电子病历中与数据挖掘中的应用;•电子病历设计人员与数据挖掘人员间有效沟通,设计合理、有效的临床数据存储格式,采集便于分析的完整的、准确的数据。2、各医疗病种提出可行的数据挖掘目标•中医临床人员与数据挖掘人员的有效沟通,设计数据挖掘目标,并且对分析挖掘获得的结果进行反复分析研究。3、挖掘方法的可行性、可解释性、便捷性。•开发有效的、适合中医临床数据的集成多种数据挖掘方法的分析挖掘系统,便于被医疗人员和管理人员便捷使用。参考文献[1]刘保延,张志斌.古代辨证方法的研究思路探讨.中国中医基础医学杂志.2004,10(5):325-331.[2]邓铁涛.辨证论治是中医临床医学的灵魂.中医药学刊.2002,20(4):394-395.[3]胡镜清,刘保延,王永炎.中医临床个体化诊疗信息特征与数据挖掘技术应用分析.世界科学技术—中医药现代化.2004,6(1):14-16.[4]刘保延,周雪忠.中医临床研究方法的思考与实践—系统生物学湿干研究模式与中医临床研究.世界科学技术-中医药现代化.2007,9(1):85-89.[5]周雪忠.中医临床数据仓库构建及临床数据挖掘方法研究.博士后出站报告.中国中医科学院.2007.[6]刘明武.是告别,还是积极传承?中国中医基础医学杂志.2007,13(3):161-166.[7]袁占国.十大问题困扰巾医药的生存与发展.甘肃中医.2008,21:11-13.[8]朱杭溢.中医的生存与发展是历史的必然.中华中医药学刊.2007,25(11):2377-2379.[9]T.Mitchell.Machinelearninganddatamining.CommunicationsoftheACM.1999,42(11):31-36.[10]J.Han,M.Kamber.Datamining:Conceptsandtechniques.MorganKau