2020/3/25生物信息学数据挖掘1生物信息学数据挖掘2020/3/25生物信息学数据挖掘2主要内容数据挖掘的相关概念数据挖掘的经典案例生物信息学数据挖掘领域的现状、方向课题的前景2020/3/25生物信息学数据挖掘3生物信息数据库(1)综合数据库如EMBL(欧洲)、GenBank(美国)、DDBJ(日本)、TIGRDatabase)(2)DNA序列和结构数据库(BioSino(中国)、CUTG、EPD、SCPD等)(4)RNA序列和核糖体数据库(SCOR、NCIR、ncRNA等)(5)基因图谱数据库(RHdb、MouseRH、GDB)(6)人类基因组相关数据库(Ensembl、RefSeq、I.M.A.G.E等)(7)其他物种基因组数据库(包括病毒、原核生物、真菌、昆虫、鱼类及其它高等动物的基因组数据库)(8)蛋白质序列数据库(SWISS-PROT、TrEMBL、PIR等)(9)蛋白质结构、分类和相互作用数据库(PDB、CSD、3Dee等)此外,还有比较基因组学和蛋白质组学数据库,基因表达数据库,基因突变、病理和免疫数据库,代谢途径和细胞调控数据库,农林牧相关数据库,医学药学数据库,生物多样性和分类学数据库等等。2020/3/25生物信息学数据挖掘4专门数据库目录网站《核酸研究》2000年开始创建了生物信息学数据库目录。DBCat:法国生物信息中心于1997年建立的数据库目录。到目前为止收录500多个数据库。目前,绝大部分核酸和蛋白质数据库由美国、欧洲和日本的3家数据库系统产生。它们共同组成国际核酸序列数据库,每天交换数据,同步更新大部分数据库是可以免费下载的公用数据库。2020/3/25生物信息学数据挖掘5生物信息学中心1.NCBI:美国国立生物技术信息中心(TheNationalCenterBiotechnologyInformation),设立了公共数据库,开发软件工具分析核酸序列、基因组序列、基因表达序列、蛋白序列等提供了大量与基因、蛋白序列有关的信息与文献资料。2.EBI:欧洲生物信息研究(TheEuropeanBioinformationIntitute),提供与生物学有关的各种信息、数据库、软件工具等3.ExPASy:(ExpertProteinAnalysisSystem)日内瓦大学分子生物学服务站,提供与蛋白有关的各种在线工具。提供数据库中的链接,同时提供许多用于该方面查询的文件,并与本站点相链接。4.BioSino:上海生命科学院生物信息中心,提供了有关生物信息学方面的新闻、论文、相关数据库、软件等。5.CBI:北京大学生物信息中心,介绍了丰富的生物信息学基本知识,国内外生物信息学网站,常用的生物信息学数据库的介绍和相关的软件等。2020/3/25生物信息学数据挖掘6KDD(KnowledgeDiscoveryinDatabase)KDD(KnowledgeDiscoveryinDatabase),是指从存放在数据库、数据仓库或者其他信息库中的大量数据中挖掘出隐藏的有用信息(知识)的技术。它被广泛的应用到各个领域,挖掘数据之间潜在的模式,找出有价值的信息。KDD的基本过程如图1所示,由以下部分组成:(1)数据预处理(包括数据清理、数据集成、数据变换、数据归纳,为数据挖掘做准备(2)数据挖掘(核心步骤,使用智能方法提取数据模式)(3)模式评估(根据某种度量,识别表示知识的真正模式)(4)知识表示(使用可视化知识表示技术,向用户提供挖掘的结果———知识)可以看出,数据挖掘是KDD的核心部分,是采用机器学习、运筹学、统计方法等进行知识发现的阶段。但是从广义上讲,数据挖掘的定义就是从海量数据中提取知识的过程,也就等同于KDD2020/3/25生物信息学数据挖掘7KDD的基本过程2020/3/25生物信息学数据挖掘8数据挖掘(datamining)数据挖掘(Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Associationrulelearning)的信息的过程。2020/3/25生物信息学数据挖掘9数据中搜索、发现知识(KDD)2020/3/25生物信息学数据挖掘10数据挖掘的功能1.分类(classification)按照分析个体的属性状态分别加以区分,并建立类组(class)。例如,将信用申请者的风险等级分为高风险、中风险和低风险三类。使用的方法有决策树(decisiontree)、判别分析(discriminantanalysis)、类神经网络(artificialneuralnetwork),以及记忆基础推理(memory-basedreasoning)等。2.估计(estimation)根据已有的数值型变量和相关的分类变量,以获得某一属性的估计值或预测值。例如,根据信用卡申请者的教育程度和从事职业来设定其信用额度。使用的方法有相关分析、Logistic回归及类神经网络等。3.预测(prediction)根据个体属性的已有观测值来估计该个体在某一属性上的预测值。例如,由顾客过去刷卡消费额预测其未来的刷卡消费额。使用的方法有回归分析、时间序列分析及类神经网络等。4.关联分组(affinitygrouping)从所有对象决定哪些相关对象应该放在一起。例如,超市中相关的洗漱用品(牙刷、牙膏、牙线)放在同一货架上。在客户营销系统上,这类分析可以用来发现潜在的交叉销售(cross-selling)商品聚类,进而设计出有价值的组合商品集合。5.同质分组(clustering)将异质总体分成为同质性的类别(clusters),即聚类。其目的是识别出总体中所包含的混合类别的组间差异,并根据每个类别的特征对所有个体进行归类。同质分组相当于营销术语中的细分(segmentation)。应该注意的是:聚类分析根据数据自动产生各个类别,事先是不知道或无须知道总体中潜在的类别信息。使用的方法有k-means等动态聚类法及agglomeration等层次聚类法。2020/3/25生物信息学数据挖掘11CRISP-DM是Cross-IndustryStandardProcessforDataMining的简称,中文翻译为“数据挖掘的跨行业标准过程”CRISP-DM分为六个阶段(phase)和四个层次(level)2020/3/25生物信息学数据挖掘12数据挖掘的经典案例啤酒和尿布的案例英国超级市场中的啤酒和尿布的摆放位置,管理人员从每天商品销售的记录中发现来超市购买婴儿尿布的年轻父亲约有一会顺便买几瓶啤酒。根据这一发现,超市即调整了商品的摆放位置将以上商品尽可能摆放得近一些,并扩大范围,将男士的日常用品也靠近婴儿尿布处摆放此安排使这类商品的销售量成倍增长。其他数据挖掘的案例顾客信誉卡:使用信誉卡将顾客的购买序列记录下来,顾客在不同时期购买的商品可以分组为序列,序列模式的挖掘可以分析顾客的消费或忠诚的变化,据此对价格和商品花样进行调整以便留住老顾客,吸引新顾客。卡夫(Kraft)食品公司建立了一个拥有3000万客户资料的数据库,数据库是通过收集对公司发出的优惠券等其他促销手段作出积极反应的客户和销售记录而建立起来的,卡夫公司通过数据挖掘了解特定客户的兴趣和口味,并以此为基础向他们发送特定产品的优惠券,并为他们推荐符合客户口味和健康状况的卡夫产品食谱。2020/3/25生物信息学数据挖掘13在电信行业加拿大BC省电话公司要求加拿大SimonFraser大学KDD研究组根据其拥有的十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。竞技运动中的数据挖掘美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场决定替换队员。电子商务的关联销售、客户类别销售分析数据挖掘的经典案例14①理解数据和数据的来源(understanding)。②获取相关知识与技术(acquisition)。③整合与检查数据(integrationandchecking)。④去除错误或不一致的数据(datacleaning)。⑤建立模型和假设(modelandhypothesisdevelopment)。⑥实际数据挖掘工作(datamining)。⑦测试和验证挖掘结果(testingandverification)。⑧解释和应用(interpretationanduse)。数据挖掘的过程2020/3/25生物信息学数据挖掘15典型的数据挖掘系统结构2020/3/25生物信息学数据挖掘16进行数据挖掘常用技术算法1神经网络此方法是模拟人脑的神经元,具有并行地处理信息、分布式存储信息、可变结构、高度容错、非线性运算、自组织学习等特点,在分类、聚类、模式识别等领域已被普遍采用.2统计分析方法这种方法利用成熟的数理统计原理对关系表中的属性进行分析,找到它们之间存在的关系.方法有多元回归分析、聚类分析、因子分析、相关分析等.3遗传算法这是一种搜索算法,具有计算简单、优化效果好的特点,主要用于分类,关联规则采掘等方面.2020/3/25生物信息学数据挖掘17进行数据挖掘常用技术算法4聚类分析聚类分析根据在数据中发现的对象关系,将数据对象分组.同一个组内的对象是相似的,不同组中的对象是不同的.5决策树决策树是一种由结点和有向边组成的层次结构.它利用信息论中信息增益来寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据测试结果选择分支,对于每个子女结点重复建立下层结点和分支,便可构造一棵决策树.最具有影响的决策树算法首推J.R.Quinlan的ID3算法.ID3是在1979年提出的,它是基于信息熵的一种自顶向下构造决策树的归纳学习方法,过程可以归结为2个步骤,即属性确定和集合划分.6关联规则关联规则是R.Agrawal等人在SIGMOD93上第一次提出来的,它描述了数据记录集中数据项之间存在的隐藏关系.关联规则的强度可以用支持度和置信度度量.2020/3/25生物信息学数据挖掘18Apriori算法该算法是由Agrawal等在1993年提出的,是最经典的产生关联规则频繁项目集的算法,是一种宽度优先的多趟扫描算法.在Apriori算法中,项目是按字典排序,Lk记为频繁k-项目集构成的集合,Ck记为候选k-项目集构成的集合.下面是Apriori算法的伪代码:输入:事务数据库D,最小支持度minsup;输出:D中的频繁项目集L;(1)L1={Frequent1-itemsets};(2)for(k=2;Lk-1≠;k++)dobegin(3)Ck=apriori-gen(Lk-1);//从Lk-1产生新的候选k-项目集//(4)foralltransactionat∈Ddobegin(5)Ct=subset(Ck,t);//产生t中的候选子集//(6)forallcandidatesc∈Ctdo(7)c.count++;(8)end(9)Lk={c∈Ck│c.count≥minsup};(10)end(11)L=∪kLk;2020/3/25生物信息学数据挖掘19Apriori-gen是以频繁(k-1)-项目集Lk-1为自变量的后选生成函数.该函数返回所有频繁k-项目集的超集,分连接和剪枝2步执行:函数Apriori-gen(Lk-1):(1)insertintoCk;(2)selectp[1],p[2],…p[k-1],q[k-1];(3)fromLk-1p,Lk-1q;(4)wherep[1]=q[1],p[2]=q[2]2,…,p[k-2]=q[k-2],p[k-1]<q[k-1];//连接(join)//(5)Forallitemsetsc∈C