06-医学图形图像处理识别技术与医学信息分析.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

医学图形图像处理识别技术与医学信息分析刘燕E-Mail:lyan@mail.sysu.edu.cnPhoneNo.87331856-811目录内容序医学信息学简述第一讲医学信号处理概述第二讲医学图形信号的采集、存储与处理第三讲Mathlab与图形信号的处理识别第四讲医学图像信号的采集、存储格式、处理方法第五讲Mathlab、Vtk、Mtk与医学图像的处理第六讲医学信息挖掘第七讲用于教学的医学图片处理技术作业第六讲医学信息挖掘数据挖掘的基本概念常用数据挖掘技术数据挖掘技术在医学中的应用案例应用Excel2010外接数据挖掘工具医学信息挖掘_目录数据挖掘的基本概念数据挖掘的定义数据挖掘的一个简单例子数据挖掘和知识发现过程数据挖掘的内容和本质数据挖掘的功能数据库与数据仓库数据挖掘技术在医学领域中的应用特点、现状医学信息挖掘_目录常用数据挖掘技术决策树SQL2005AnalysisService的使用关联规则关联规则案例1、案例2聚类分析附录使用SQLServer2000实现决策树分析在SQLServer2000中观察事物的关联性使用SQLServer2000实现聚类分析另一案例医学信息挖掘_目录数据挖掘在医学中的应用案例HIS从事务管理向辅助决策的发展医院数据决策支持案例临床医学知识的提取医学辅助诊疗系统的应用研究另一案例一、数据挖掘的基本概念数据挖掘的定义商业企业角度的定义按企业既定业务目标、对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的、先进有效的方法。两个要点:数据源是商业企业运作产生的;分析目的是为企业获取最大利润,进行最佳运作决策提供真正有价值的信息。技术角度的定义数据挖掘(DM:DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。在这个定义中,数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识。数据挖掘的基本概念_续1什么是知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。数据挖掘与传统分析方法的区别数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有预先未知、有效和可实用三个特征。传统数据分析——查询、报表、联机应用分析。数据挖掘的基本概念_续2数据挖掘的一个简单例子一个假想的疾病诊断数据集:有上呼吸道症状病人的门诊记录。从表的第二行开始,每一行都是一个数据实例,每一行显示一个人的临床症状。例如,ID=1的病人嗓子疼、发烧、淋巴肿、充血并且头疼,这个人被诊断为患了链球菌感染咽炎。数据挖掘的基本概念_续3通过对这个数据集的分类分析,可以得到一个用决策树表示的数据模型,如下图疾病诊断决策树。决策树是一种简单结构,其端点表示决策结果,非端点节点表示若干属性检测。决策树概化了数据,并总结出哪些属性,例如:淋巴肿和发热,以及哪些属性关系是在诊断时是至关重要的,还有哪些属性对诊断结果仅起参考作用。数据挖掘的基本概念_续4将决策树写成分类规则如下:1.IF淋巴肿=“是”THEN诊断=”链球菌感染咽炎”2.IF淋巴肿=“不是”and发烧=“是”THEN诊断=”感冒”3.IF淋巴肿=“不是”and发烧=“不是”THEN诊断=”过敏”通过以上的规则,我们可以方便的构造出自然语言的知识描述和计算机分析程序。数据挖掘的基本概念_续56.1.3数据挖掘和知识发现过程数据挖掘基本过程如如图所示:1、熟悉研究本专业业务运作,理解和分析数据应用状况。2、数据准备预处理和清洗等,然后进行自动或半自动系统建模3、建立模型后要对模型进行评估,如果没有得到理想的模型就要返回去研究业务数据,这个过程有时会进行多次。4、在得到较为满意的模型后,才可以开始模型应用或结果发布数据挖掘的基本概念_续6数据挖掘的流程可以简单的概括为如下5步:1、定义问题:清晰地定义出业务问题,包括业务理解和数据理解,要确定数据挖掘的目的。2、数据准备:数据准备包括:(1)选择数据--在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;(2)数据预处理--进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。3、数据挖掘和建模:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。4、结果分析和模型评估:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。5、模型的运用:将分析所得到的模型集成到业务信息系统的组织结构中去。数据挖掘的基本概念_续7数据挖掘的内容和本质数据库、人工智能和数理统计已经形成数据挖掘和知识发现的三根强大的技术支柱。数据挖掘所发现的知识最常见的有5类。1.广义知识(Generalization)2.关联知识(Association)3.分类知识(Classification&Clustering)4.预测型知识(Prediction)5.偏差型知识(Deviation)数据挖掘的基本概念_续8数据挖掘的功能数据挖掘的目标是从数据库中发现隐含的、有意义的知识,根据前面对数据挖掘的内容和本质的描述,可以将数据挖掘的功能归纳为以下五类。1.自动预测趋势和行为2.关联分析4.概念描述3.聚类5.偏差检测数据挖掘的基本概念_续9数据库与数据仓库数据库系统的概念数据库系统数据库系统是一个实际可操作的存储、维护并向应用系统提供数据的软件系统;是存储介质、处理对象和管理系统的集合体。数据库系统通常由软件、数据库和数据管理员组成。软件主要包括操作系统、各种宿主语言,实用程序以及数据库管理系统。数据库是依照某种数据模型组织起来并存放二级存储器中的数据集合。数据库由数据库管理系统统一管理,数据的插入、修改和检索均要通过数据库管理系统进行。数据库管理系统是一种系统软件,它的主要功能是维护数据库并有效地访问数据库中任意部分数据。对数据库的维护包括保持数据的完整性、一致性和安全性。如ACCESS数据库工具、Oracle、SQLServer、dBASEⅡ数据管理员负责创建、监控和维护整个数据库,使数据能被任何有权使用的人有效使用。数据挖掘的基本概念_续10数据仓库数据仓库是面向主题的、一致的、不同时间的、稳定的数据集合,从历史的角度组织和存储数据,并能集成地进行数据分析,用于支持经营管理和临床的决策支持过程。数据仓库的多维特征满足以多维数据为核心的多维数据分析;在数据仓库基础上挖掘的知识可以方便地以图表、可视化、类自然语言等形式表示。数据仓库的常用工具:SQL2005面向数据仓库的工具建立数据仓库和应用的流程创建数据准备区、创建数据仓库、从业务系统提取数据、清理和转换数据、加载数据、发布数据集市、SQL查询、OLAP应用、数据挖掘、Web访问、数据更新。数据挖掘的基本概念_续11数据挖掘技术在医学领域中的应用特点、现状医学数据的特点以及医学数据挖掘的独特性特点:具有模式的多态性(纯数据、图像、信号、文字记录等);不完整性(疾病信息的客观不完整和描述疾病的主观不完整);较强的时间性;复杂并且冗余性大;低数学特征;非规范形式;医患信息不对称;医学资料涉及较多伦理法律问题;信息来源广泛、容量庞大。数据挖掘的基本概念_续11医学数据挖掘的独特性数据挖掘前,必须采用一些特有的技术进行数据预处理,清理过滤数据,以确保数据的确定性;采用信息融合技术,使不同模式数据在属性上趋同或一致,从而进行综合。在挖掘算法的选取时,必须要求所选算法具有一定的容错性和鲁棒性。数据挖掘在医学领域中的应用现状基础医学领域疾病的临床诊断和治疗流行病学研究和医学统计方法学医院和卫生事业管理方面二、常用数据挖掘技术决策树定义与组成决策树是一种用来表示人们为了作出某一决策而进行一系列判断过程的树形图,它由决策结点、分支和叶子组成。举例:一位老妇人的出行决策。决策树中最上面的结点称为根结点,每个分支是一个新的决策结点或者是树的叶子;每一个决策结点代表一个问题或决策,通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。通常将内部结点的属性称为测试属性。内部结点属性代表测试属性在沿着决策树从上到下遍历的过程中,在每个结点都会遇到一个测试,对每个结点上问题的不同的测试结果导致不同的分支,最后到达一个叶子结点。这就是利用决策树进行分类的过程。决策树_续1应用使用决策树对实例进行分类时,从树根开始对该对象的属性逐渐测试其值,并且顺着分支向下走,直至到达某个叶子结点,此叶子结点代表的类即为测试对象的类。决策树算法主要用于分类和预测。当经过一批训练集的训练产生一棵决策树后,就可以根据测试实例的属性与所生成的决策树中的测试属性值的比较来对一个未知实例集进行分类。老妇人出行决策树例子分析右表是老妇人出行记录的数据集,反映她在不同天气情况下是否从家里去镇上。每条记录有六个字段:记录号,天气,温度,湿度,刮风和出行。出行结果为两类:“是”与“否”,分别表示“出行”与“在家”。将数据集构造决策树进行分类,可以得出老妇人的出行规律,该决策树是老妇人对天气因素的行动反映。决策树中最上面的节点称为根节点,是整个决策树的开始。本例中根节点是“天气”,因为“天气”对“出行”最有影响力。对此问题的不同回答产生了“晴天”、“阴天”和“下雨”三个分支,在阴天和下雨的二级节点下面,还可以分出不同的分支。每个分支要么是一个新的决策节点(测试属性),要么是树的结尾,称为叶子。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个问题)来判断所属的类别,最后每个叶子会对应一个结果。决策树_续2选择眼睛决策举例_续3在一个眼睛店,假如眼镜店的职员利用下面这棵决策树来决定卖给客户什么样的隐型眼镜镜片,那么他就可以用客户眼睛基本情况调查表来构造这棵决策树,用决策树来判断隐型眼镜镜片的类型1、戴了隐型眼镜镜片后泪流量减少,眼睛干涩,这类人不适宜使用隐型眼镜镜片。2、戴了隐型眼镜镜片后泪流量正常,对于眼睛不散光的客户,建议他使用软性隐型眼镜镜片。3、戴了隐型眼镜镜片后泪流量正常,对于眼睛散光的客户,建议他使用硬性隐型眼镜镜片。总结:决策树可以用于数据分类:如区分不同的需求隐型眼镜客户。可以用来作预测。如老妇人出行的例子,利用决策树可以预测在一个下雨并且刮大风的日子里,老妇人是不会出行的。常用的决策树算法工具简介基于MicrosoftSQL2005AnalysisServer的决策树算法用于对离散和连续进行预测性建模.对于离散属性,该算法根据数据集中输入列之间的关系进行预测。它使用这些列的值或状态预测指定的可预测列的状态。对于连续属性,该算法使用线性回归确定决策树的拆分位置。如果有多个列设置为可预测列,或输入数据包含设置为可预测的嵌套表,则该算法将为每个可预测列分别生成一棵决策树。常用数据挖掘技术_续1澳大利亚悉尼大学的RossQuinlan提出的ID3算法是使用初始数据集技术进行增量式学习,从而逐步形成完整的决策树。ID3的算法步骤如下:(1)随机选择若干训练样本构成初始数据集;(2)根据最大信息增量的原则(用数学的方法选择对结果最有影响力的属性)选择测试属性,生成基于初始数据集内训练样本的决策树;(3)在初始数据集外的训练样本中寻找决策树的反例;(4)若反例存在,则将其从初始数据集外的训练集移入初始数据集内,并转(2),否则训练结束

1 / 121
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功