临床数据仓库与数据挖掘进展

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

@opzoon.com2012中华医院信息网络大会暨第五届中美医院信息化论坛会议周雪忠xzzhou@bjtu.edu.cnlzxzhou@gmail.com北京交通大学计算机与信息技术学院中国中医科学院中医临床数据挖掘联合实验室2012中华医院信息网络大会暨第五届中美医院信息化论坛会议提纲数据挖掘与数据仓库技术简介研究背景概念与相关技术临床数据仓库与数据挖掘研究进展临床数据仓库研究进展临床数据挖掘研究进展中医临床数据仓库平台及其挖掘分析应用研究中医临床数据仓库平台中医临床数据挖掘分析方法与示范应用2北京交通大学周雪忠2012/6/52012中华医院信息网络大会暨第五届中美医院信息化论坛会议研究背景:为什么出现数据挖掘和数据仓库?大规模数据的积累与知识缺乏数据的指数级增长:各行业领域的数据积累从TB到PB数量级但在计算机领域出现所谓的“数据极度丰富,而知识缺乏”的困境应用系统出现信息孤岛或信息烟囱信息孤岛:各系统独立开发,相互之间的功能和数据无法高效交互信息烟囱:且随着需求的不断累加,应用系统之间的隔阂日益严重3北京交通大学周雪忠2012/6/52012中华医院信息网络大会暨第五届中美医院信息化论坛会议人类产生数据的能力大大加强,如何利用数据成为急迫需求数据驱动的科学发现与研究已经成为巨大需求4北京交通大学周雪忠2012/6/52012中华医院信息网络大会暨第五届中美医院信息化论坛会议大数据(BigData)时代:如何应对数据洪流5北京交通大学周雪忠2012/6/52012中华医院信息网络大会暨第五届中美医院信息化论坛会议利用Web和社会网络形成的新兴IT公司Google市值(2010Jan1):$189billionFacebook市值:$50billion北京交通大学周雪忠2012/6/5信息烟囱1信息烟囱2信息烟囱n2012中华医院信息网络大会暨第五届中美医院信息化论坛会议信息孤岛与信息烟囱-数据仓库实现数据集成应用信息系统独立研发,数据和系统功能无法有效交互。随着需求的累加,系统之间的隔阂日益严重,成为封闭且独立的烟囱结构。7北京交通大学周雪忠2012/6/582012中华医院信息网络大会暨第五届中美医院信息化论坛会议数据挖掘的概念及方法简介数据挖掘概念及方法数据挖掘与统计分析的差异数据挖掘与专家系统的不同北京交通大学周雪忠2012/6/592012中华医院信息网络大会暨第五届中美医院信息化论坛会议数据挖掘概念及方法数据挖掘(也称为数据库知识发现)是从大数据集中发现有效、创新、潜在有用和最终可理解的模式的非平凡过程。按照Fayyad对数据挖掘步骤的理解,一般数据挖掘过程可分为:(1)数据预处理;(2)数据挖掘分析;(3)结果验证和解释等步骤。相关术语:Datamining,KDD(KnowledgeDiscoveryinDatabases)北京交通大学周雪忠2012/6/5102012中华医院信息网络大会暨第五届中美医院信息化论坛会议从数据到知识的一般KDD过程数据清理数据仓库数据整合数据库数据筛选数据挖掘评价数据挖掘是数据库知识发现的核心分析步骤。数据预处理需要大量工作数据建模北京交通大学周雪忠2012/6/52012中华医院信息网络大会暨第五届中美医院信息化论坛会议数据挖掘的几个关键步骤理解与学习应用领域知识相关的先验知识和应用分析目标创建目标数据集:数据筛选数据清理和数据预处理(可能需要花费60%-70%的工作量!)数据约简与转换发现有用特征,维度与变量约简,特征表示选择数据挖掘功能摘要(summarization),分类(classification),回归(regression),关联(association)和聚类(clustering)等选择数据挖掘算法挖掘分析:得到感兴趣的知识或模式模式评价与知识表示可视化,转换,删除冗余模式等知识应用11北京交通大学周雪忠2012/6/512商业分析员数据分析员DBA2012中华医院信息网络大会暨第五届中美医院信息化论坛会议数据挖掘与商务智能,以及数据仓库的关系支持商业决策的潜在能力终端用户决策数据表示与表达可视化技术数据挖掘信息发现技术数据探查统计摘要,查询和报告数据预处理/集成,数据仓库数据源文献,文件,Web网页,科学实验数据,数据库系统数据等北京交通大学周雪忠2012/6/5132012中华医院信息网络大会暨第五届中美医院信息化论坛会议数据挖掘:多学科交叉方向数据库技术统计机器学习模式识别数据挖掘算法可视化其他学科北京交通大学周雪忠2012/6/52012中华医院信息网络大会暨第五届中美医院信息化论坛会议数据挖掘的主要方法聚类分析利用数据之间的相似性找类群结构多种不同方法如基于划分的方法,层次方法和基于密度的方法等分类分析找自变量与离散型反应(因)变量之间的线性或非线性关系多种不同方法如支持向量机,贝叶斯方法、决策树和神经网络等预测分析找自变量与数值型反应(因)变量之间的线性或非线性关系如线性回归分析等关联规则分析超市购物篮分析14北京交通大学周雪忠2012/6/52012中华医院信息网络大会暨第五届中美医院信息化论坛会议关联规则分析:频繁模式与关联规则项集(Itemset)X={x1,…,xk}发现所有形式为:XY的具有最小支持度(minimumsupport)和自信度(confidence)的规则。support,s,是样本中包含X∪Y的概率(probability)confidence,c,是样本中包含X,则同时包含Y的条件概率(conditionalprobability)设supmin=50%,confmin=50%频繁模式:{A:3,B:3,D:4,E:3,AD:3}关联规则:AD(60%,100%)DA(60%,75%)事务记录id1020304050客户购买两者客户购买啤酒购买的物品A,B,DA,C,DA,D,EB,E,FB,C,D,E,F客户购买尿布2012/6/515北京交通大学周雪忠2012中华医院信息网络大会暨第五届中美医院信息化论坛会议频繁模式与关联规则算法问题一个长的组合模式的数量是指数增长的,如{a1,…,a100}包含(1001)+(1002)+…+(110000)=2100–1=1.27*1030个子组合模式!如何研究算法分析得到相应结果。利用频繁模式的下闭包特性(downwardclosure).如{beer,diaper,nuts}是频繁的,则{beer,diaper}必然是频繁的。有三大类性能良好的分析方法:Apriori(Agrawal&Srikant@VLDB’94)Freq.patterngrowth(FPgrowth—Han,Pei&Yin@SIGMOD’00)Verticaldataformatapproach(Charm—Zaki&Hsiao@SDM’02)2012/6/516北京交通大学周雪忠2012中华医院信息网络大会暨第五届中美医院信息化论坛会议Apriori:一种候选项集产生与测试方法Apriori剪枝原则:如果任何项集是非频繁的,则包含项集的超集不需要产生/测试!(Agrawal&Srikant@VLDB’94,Mannila,etal.@KDD’94)方法:初始,扫描1次数据库获得频繁的1元项集(1-itemset)以k元频繁项集(kfrequentitemsets)为基础产生长度为(k+1)的候选项集(candidateitemsets)扫描一次DB测试候选项集的频度当没有频繁项集或者候选项集的时候终止2012/6/517北京交通大学周雪忠2012中华医院信息网络大会暨第五届中美医院信息化论坛会议Apriori算法—例子L1L2C2C22ndscanL3DatabaseTDBTidItems10A,C,D20B,C,E30A,B,C,E40B,EItemset{A}{B}{C}{D}{E}sup23313Itemset{A}{B}{C}{E}sup2333Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}sup121232Itemset{A,C}{B,C}{B,E}{C,E}sup2232Itemset{B,C,E}Itemset{B,C,E}Supmin=2C11stscanC32012/6/5183rdscan北京交通大学sup2周雪忠2012中华医院信息网络大会暨第五届中美医院信息化论坛会议Apriori算法伪代码:Ck:CandidateitemsetofsizekLk:frequentitemsetofsizekL1={frequentitems};for(k=1;Lk!=∅;k++)dobeginCk+1=candidatesgeneratedfromLk;foreachtransactiontindatabasedoincrementthecountofallcandidatesinCk+1thatarecontainedintLk+1=candidatesinCk+1withmin_supportendreturn∪kLk;2012/6/519北京交通大学周雪忠2012中华医院信息网络大会暨第五届中美医院信息化论坛会议针对不同数据内容或格式的数据挖掘研究任务分类文本挖掘(TextMining)时间序列分析(TimeSeriesMining)Web挖掘(WebMining)图形与图像挖掘(GraphorImageMining)多媒体挖掘(MultimediaMining)空间挖掘(SpatialDataMining)等等2012/6/5北京交通大学周雪忠201401201008060402002012中华医院信息网络大会暨第五届中美医院信息化论坛会议数据挖掘主流工具(商业、免费软件与编程语言)160开源软件编程语言商业软件KDnuggets网站的最新调查结果21北京交通大学周雪忠2012/6/5222012中华医院信息网络大会暨第五届中美医院信息化论坛会议专家系统与数据挖掘的不同专家系统是模拟专家进行专业问题回答的软件是人工智能的传统应用,由专家知识库和知识获取等组成。研究瓶颈专家知识获取困难存在知识冲突和常识表示等问题北京交通大学周雪忠2012/6/5232012中华医院信息网络大会暨第五届中美医院信息化论坛会议统计分析与数据挖掘的差异统计分析与数据挖掘在方法上有交叉又有差异。统计分析重点是验证性处理,而数据挖掘是从大规模数据中发现新的知识。统计分析对样本量进行估计,试图从代表样本获得对总体的估计,数据量往往较少;而数据挖掘希望能获得反映实际总体的大规模数据。统计分析强调方法的有效性;而数据挖掘分析强调算法的性能。北京交通大学周雪忠2012/6/52012中华医院信息网络大会暨第五届中美医院信息化论坛会议数据挖掘的简要发展历史1989IJCAIWorkshoponKnowledgeDiscoveryinDatabasesKnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994WorkshopsonKnowledgeDiscoveryinDatabasesAdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998Internat

1 / 101
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功