山西省中医药研究院医药数据挖掘Datamininginmedicine季海霞1山西省中医药研究院,030012,2533360723@qq.com1简介.......................................................................12过程.......................................................................13常用算法...................................................................23.1关联分析.............................................................33.2分类分析.............................................................33.3聚类分析.............................................................43.4时间序列分析.........................................................43.5决策树方法...........................................................43.6神经元网络技术.......................................................43.7粗糙集理论...........................................................54在中医药领域的应用情况.....................................................54.1关联分析法...........................................................54.2典型的分类分析.......................................................54.3聚类方法.............................................................54.4时间序列分析.........................................................64.5决策树...............................................................64.6神经网络.............................................................65结论与展望.................................................................66参考文献...................................................................61季海霞,女(汉族),山西朔州人,硕士在读,主要研究方向为中药和分子生物基因表达.山西省中医药研究院1【中文摘要】数据挖掘是世纪末逐步形成的一个多种学科交叉的领域,至今已经普遍地应用在零售、医药、通讯、金融、航空、电子工程、旅馆等具有众多数据和需要数据深度分析的领域.本文从四个方面具体地介绍了数据挖掘的定义,过程,常见的数据挖掘算法和在中医药领域的应用情况。【关键词】医药、数据挖掘、算法、应用【Abstract】Dataminingisamulti-disciplinaryfieldgraduallyformedatendofthecentury,hasbeenwidelyappliedinthefieldsthathaveanumberofdataandneedin-depthanalysisofdataincludingretail,pharmaceutical,telecommunications,finance,aviation,electronicengineering,hotels,etc.Inthispaper,fromfourspecificaspects,introducesdefinitionsofdatamining,process,commondataminingalgorithmsandapplicationsinthefieldofmedicine.【Keywords】medicine;datamining;algorithms;using1简介近来,数据挖掘逐渐地引起了医药领域的极大关注,其原因是医药数据的数量十分庞大,且急需将这些数据快速而准确的转变成有用的医药知识和可以利用的信息,从而可将获取的知识和信息广泛适宜的应用于各类医学应用实践中。并且数据挖掘作为数据库与人工智能交叉融合的高端信息处理技术,其在一定程度上可以帮助人们借助现代信息处理技术,获得隐藏在数据中反映事物的本质特点和预测事态发展趋向的有用知识,并且以这些知识为基础可以用来辅助科学决策。数据挖掘最新的描述性定义是由UsamaM.Fayyyad等[1]给出的:数据挖掘即数据库中的知识发现、描述、统计、分析与利用[2],就是从大量的数据库中提取人们感兴趣的相关知识,这些知识是人们一开始未知的、隐藏的、密集的、模糊的、看起来似乎随机的信息,其表现为规则、概念、模式、规律等形式[3]。也是从数据集中识别出有效的、新颖的、有潜在价值的,以及最终可被理解的模式的非平凡过程。数据挖掘是一个多种应用学科有机交叉形成的广泛的领域,其包括知识库系统、人工智能、数据库技术、机器学习、信息检索、统计学、神经网络、模式识别、高性能计算、知识获取、和可视化等相关内容[4]。其任务大体上可分为描述和分析预测数据的进一步发展对事物的有效影响。2过程从医药技术的多重角度来看,数据挖掘的基本过程如下图1。山西省中医药研究院2图1数据挖掘的基本过程并且在采集数据之后,抽样和清理之类的工作还需再进行。其清理的结果就是人们想要得到的数据样本集。此外数据仓库的数据应用形式[5]也是一种数据存储的有效形式,对数据挖掘应用方面极大的有利。然后,就可以应用各种算法来挖掘数据。但有的时候,还有需要返回到上一阶段的情况出现,重新将上述过程经历一遍或数遍。3常用算法数据挖掘的采用基本算法根据其挖掘方式的不同可以分为有教师型和无教师型两种形式,也就是所谓的监督学习和非监督学习。首先在有监督学习算法中,先会给与一个教师信号,对训练的样本集中的每个输入样本能获得分类代价和类别标记,并且寻找能够降低总成本价值的方向。其次在无监督学习算法中却没有显式的教师。数据挖掘包括很多算法,主要包括组合或关联、聚类、分类、估计、预测等等,如图2所示。这些方法在实际应用时具有各自的特色和适用条件,具体使用哪种数据挖掘算法,还是要根据具体的情况和应用要求来选择。其中一种算法有可能在一种情况下适用,但是在另一种情况下却不太适用。山西省中医药研究院3图2数据挖掘算法3.1关联分析关联分析即是从大量的数据中来发现不同项或项集之间隐含的联系或相互关联。如果两个或多个数据项之间的取值多次出现并且重复概率较高时,那基本上可以确定它们之间就存在着某种隐秘而必然的关联,利用此特点就可以建立这些数据项之间的关联规则。通常有用的关联规则一般需要满足设定的支持度和置信度这两个条件,前者是一组项集记作关联需要所要达到的最低联系程度方可,而后者则是一个关联规则的最低可靠程度。另外还可以加入相关性、应用性、兴趣度等有效参数来增加规则的潜在准确性和精确度。关联分析的目的则是查出数据库中隐蔽的交叉联系的网络,用来描述分析利用一组数据项目的关系和密切度。3.2分类分析分类分析即是在已有数据的基础上制造出一个分类函数或分类模型。该函数或模型能够把数据库中的记录映射到一个给定的类别中,再进行类别预测。例如,在临床的研究中,依据患者的不同体征和症状可把疾病分为三种:早期、中期和晚期。因此在进行类别分类分析时,首先从数据中选出已经分好类的数据集,再采用该数据集运用的数据挖掘分类技术来建立分类模型,最后对未分类的数据进行分类。山西省中医药研究院43.3聚类分析聚类分析即是将数据集分为若干研究对象,并且使一组内的对象有着比较高的相似度,而不同组内中的数据对象则没有明显的相似性。聚类分析的基本思想就是最大程度地出现组中数据对象相似度最大,同时组间数据对象相似度最小。其和分类分析的最大区别则是聚类分析并不依据类,也不需要训练集。在这些类事先并不知道的情况下,将并没有标识的数据对象自动划分为不同的类。3.4时间序列分析时间序列分析即是指通过时间序列来搜索出重复发生率较高的模式,强调时间序列的影响。例如在临床的研究过程中,在既往病史记录中分析并发现疾病的某种趋势规律,揭示其预测因子的回顾性研究。在时序的模式中,我们需要寻找出在某个最小时间内出现的比率一直高于某一最小阈值的规则。而这种规则会因为形势的变化而自主调整。时间序列分析则有三个基本功能:一是模式挖掘,通过分析时间序列的往来形态来研究事态的行为特点;二是趋势分析,利用历史时间序列来预测数据的未来数值;三是相似性搜索,应用距离度量来确定不同时间序列的相似性。3.5决策树方法决策树是一种简单的知识表示方法,将事例逐步分类成不同的类别。因为分类规则是比较直观明白的,所以易于人们理解。其基本思想是以最能区分不同类别的样本属性作为树根,把训练集分为相应的节点,然后依次在每一块样本集中挑选出具有区别度的属性,作为树的第二层节点。依此类推,等到所有的叶节点都只包含某一类样本时停止。构建的树就叫做决策树。决策树从功能上主要区分为两种类型:分类树和回归树。分类树通常用于对离散变量做决策树,而回归树则用于对连续变量做决策树。3.6神经元网络技术神经元网络技术是属于软计算领域里的一种重要方法,它是相关研究人员一直以来坚持不懈进行的对人脑神经学习机能模拟所研究的明显有效成果,目前已广泛成功地应用于各相关工业部门的数据统计、描述分析利用中,极大地提高了各部门的工作效率。人工神经网络是模仿生物神经网络的特点,以人工神经元为基本运算单元的一种分布式山西省中医药研究院5存贮信息的智能信息处理系统。通常人工神经网络的应用分为网络构建、规则提取等几个阶段。在构建网络阶段,神经网络通过调整权重来达到能正确预测输入的样本数据的类别归属,网络修剪则是通过设定权值向量对神经网络进行简化,而规则提取是针对设定的属性通过一定的算法从结果集中提取符合要求、易于理解的规则。3.7粗糙集理论粗糙集理论是一种数学工具,用来刻画不确定性和不完整性的,能有效地分析不精确、不完整、不一致等各种不完备的信息,还可以对数据进行推理和分析,继而从中发现隐藏的相关知识,揭示其潜在的规律。粗糙集理论是在分类机制的基础上的建立的.将分类规定为在特定空间上的等价关系,而等价关系却构成了对该空间的划分。4在中医药领域的应用情况目前医药信息数据库资源已比较丰富,数据挖掘技术以逐渐成为医药信息管理现代化重要组成的部分,各种算法更是在中医药领域中都有着重大的应用。4.1关联分析法其最常用的算法为Apfiofi算法。例如,姚美村等[8]以相关的文献中已经收录的106例治疗消渴病(糖尿病)的中药复方为研究对象,以关联规则分析为研究工具进行仔细的研究,先在单味药层次上进行了消渴病复方组成药味之间的关联模式研究,成功得挖掘出药物与上中下之间的紧密关联,以及药物彼此之间的有效关联,结果与中医专家对消渴病的治疗方面的主要药物的配伍情况基本一致。4.2典型的分类分析此种分析模型有决策树模型、贝叶斯分类模型、神经网络模型和线性回归模型等。例如,谭红娜等[10]