生物信息学第九章生物分子网络与通路哈尔滨医科大学李霞、李永生生物信息学学习提纲重点生物分子网络和通路的基本概念和表示方法生物分子网络的拓扑属性概念和计算方法生物分子网络的重构方法学习提纲难点生物分子通路的重构与分析生物分子网络和通路相关数据库熟悉第一节引言Introduction网络是复杂系统存在的普遍形式公路交通网互联网社会网络示意图发展历史-14000多年前,中国的黄帝和岐伯撰写了中华医学经典《黄帝内经》阐述了经络理论和针炙。该理论认为经络遍布人本各个部位,有运送全身气血、沟通身体上下、内外之功能。现在看来,经络系统就是利用网络观点观察复杂的人体系统并抽象而成的一种生物网络模型。人体经络网络思考:如果说经脉图就是一个网络的话,那么网络的节点应该是什么?网络的边又应该是什么?人体穴位就是该网络的节点,其医疗功能不同且相互联系。经络理论和针炙是网络科学初创时期有文字记载的最早的人体生物网络模型及成功的医学应用。发展历史-2生命活动本身的复杂性和迅速增加的海量数据资源要求生命现象必须要在成千上万个生物分子组成的复杂系统层面上予以认识。为揭示数量巨大的生物大分子及其间的相互作用如何在复杂的生存环境中行使生物学功能,需要研究者采用不同于传统生物学研究手段的新技术。网络是复杂系统存在的普遍形式。本章将介绍网络分析在系统生物学中的应用。网络生物学目前,网络生物学研究的主要目标是分子和在一个活细胞中的分子之间的相互作用,了解这些分子和在他们之间的相互作用如何决定这些功能非常复杂的机制。网络生物学研究表明细胞网络服从网络科学的普遍规律,它提供了一个新的重要框架,在21世纪可能引起生物学和医学的革命性变化。分子生物网络分子生物网络:是指生命系统中形态与功能上特化的细胞集团之间,以及各种生物大分子在组合上相互关联的结构形式。分子生物网络相互联系并跨越生命系统各层次,使生命运动呈现组织性、确定性、稳定性、协调性的功能;分子生物网络是生命系统细胞与细胞内、外环境之间进行物质、能量、信息转换的渠道。第二节生物分子网络和通路概述OverviewofBiomolecularNetworkandPathway分子生物网络分析分子生物网络分析:•基于复杂网络的技术研究分子生物网络的结构形式,分析各组分之间的调控关系、以及物质、能力、信息转换的渠道等。分子生物网络构建、分析方法,以及网络功能注释是掌握的重点。网络的基本概念网络定义有向网络与无向网络加权网络与等权网络二分网络网络中的路径与距离网络定义网络定义:通常可以用图G=(V,E)表示网络。其中,V是网络的节点集合,每个节点代表一个生物分子,或者一个环境刺激;E是边的集合,每条边代表节点之间的相互关系。当V中的两个节点v1与v2之间存在一条属于E的边e1时,称边e1连接v1与v2,或者称v1连接于v2,也称作v2是v1的邻居。有向网络与无向网络根据网络中的边是否具有方向性或者说连接一条边的两个节点是否存在顺序,网络可以分为有向网络与无向网络,边存在方向性,为有向网络,否则为无向网络。生物分子网络的方向性取决于其所代表的关系。如调控关系中转录因子与被调控基因之间是存在顺序关系的,因此转录调控网络是有向网络,而基因表达相关网络中的边代表的是两个基因在多个实验条件下的表达高相关性,因此是无向的。A.无向网络;B.有向网络加权网络与等权网络网络中的边在网络中具有不同意义或在某个属性上有不同的价值是网络中普遍存在的一种现象。比如交通网中,连接两个城市(节点)的道路(边)一般具有不同的长度,而在互联网中两台直接相连的计算设备间通讯的速度也不尽相同。如果网络中的每条边都赋予相应的数字,这个网络就称为加权网络,赋予的数字称为边的权重。如果网络中各边之间没有区别,可以认为各边的权重相等,称为等权网络或无权网络。权重可以用来描述节点间的距离、相关程度、稳定程度、容量等等各种信息,具体所代表的意义依赖于网络和边本身所代表的意义。加权网络等权网络二分网络如果网络中的节点可分为两个互不相交的集合,而所有的边都建立在来自不同集合的节点之间,则称这样的网络为二分网络(bipartitenetwork)。二分网络生物学通路生物学通路(Biologicalpathway)是指由生物体内一系列生物化学分子(包括基因,基因产物以及化合物等)通过各种生化级联反应来完成某一具体的生物学过程。生物体内最主要的生物学通路包括代谢通路和信号传导通路。同样可以用图的形式来表示生物分子通路,其中节点代表参与生化级联反应的底物、产物或者酶,而网络的边表示节点之间的联系。大部分的生物分子通路网络是有向网络。分子生物网络的分类分子生物网络的分类标准基于分子生物学的分类标准。分子生物网络分类转录调控网络信号转导网络表观遗传调控网络蛋白互作网络代谢网络转录后调控网络转录调控网络转录调控是基因表达调控中最重要、最复杂的一个环节,也是当前研究的重点。转录因子可以结合在基因上游特异的核苷酸序列上,以此调控基因的表达。通过基因转录调控数据构建基因转录调控网络。转录调控网络-1基因转录调控网络(transcriptionalregulatorynetwork)描述转录因子及其调控的基因之间的关系。有向图其中点表示转录因子或者被调控的基因,边表示转录因子对基因的调控关系,箭头指向被调控的基因。正调控负调控转录调控网络-2转录调控网络-检测技术ChIP是一项比较流行的研究转录因子与启动子相互结合的实验技术。CHIP与基因芯片相结合建立的CHIP-on-chip方法已广泛用于特定反式因子靶基因的高通量筛选;CHIP-SEQ新一代测序技术。基本流程转录调控数据库TRANSFAC数据库——MATCH软件TRRD数据库ChIPBase数据库ChIPBase生物分子网络分类分子生物网络分类转录调控网络信号转导网络表观遗传调控网络蛋白互作网络代谢网络转录后调控网络转录后调控网络miRNAmiRNAprocessingPri-miRNA(miRNA初级转录产物)Drosha(1)pre-miRNA(miRNA前体)Dicer(2)miRNAExportin5(Exp5)transportspre-miRNAtothecytoplasmmiRNA是基因调控网络中的主要组分,在人类细胞中有~1200miRNA,miRNA可以在转录后和翻译水平上调控多于30%的编码基因的表达。miRNA和靶基因间不是简单的一对一的关系,而是复杂的多对多的关系,形成了复杂的转录后调控网络。其中网络中包含两种类型的节点,miRNA和靶基因,网络的边代表miRNA对于靶基因具有调控作用。miRNA-靶基因的转录后调控网络是一种典型的二分网络,网络的边只存在于miRNA集合和靶基因集合之间,而miRNA集合和靶基因集合内部并不存在调控关系。转录后调控网络资源miRNA靶基因数据库生物分子网络分类分子生物网络分类转录调控网络信号转导网络表观遗传调控网络蛋白互作网络代谢网络转录后调控网络蛋白质互作网络单独蛋白通过彼此之间的相互作用构成蛋白质相互作用网络来参与生物信号传递、基因表达调节、能量和物质代谢及细胞周期调控等生命过程的各个环节。系统分析大量蛋白在生物系统中的相互作用关系,对于了解生物系统中蛋白质的工作原理,了解疾病等特殊生理状态下生物信号和能量物质代谢的反应机制,以及了解蛋白间的功能联系都有重要意义。蛋白质互作通常可以分为物理互作和遗传互作。蛋白质互作网络(Proteininteractionnetwork)是系统显示蛋白质互作信息的基本方法。蛋白作为节点,相互作用关系作为边。蛋白质互作数据库HPRD数据库BIND数据库DIP数据库IntAct数据库BioGRID数据库HPRD数据库下载BioGRID:蛋白互相作用数据库BioGRID:是一个开放的用于储存基因和蛋白质相互作用的数据库,这些基因和蛋白质来源于最初有关主要生物物种的生物医学文献。http//thebiogrid.org直至2012年9月,BioGRID储存了来自30多种模式生物的500000多个手动注释相互作用。BioGRIDBioGRIDDatabaseStatistics下载生物分子网络分类分子生物网络分类转录调控网络信号转导网络表观遗传调控网络蛋白互作网络代谢网络转录后调控网络代谢网络代谢通路(Metabolicpathway)是指细胞中代谢物在酶的作用下转化为新的代谢物过程中所发生的一系列生物化学反应。代谢网络则是指由代谢反应以及调节这些反应的调控机制所组成的描述细胞内代谢和生理过程的网络。完全网络最完整的保存代谢通路中各个反应,以及每个反应中的底物、产物和酶。多反应物网络代谢物只由一个节点表示,边由底物指向产物,酶与底物、产物之间的边则可以由双向边来表示。主要反应物网络只包含主要代谢底物指向主要产物的网络。代谢网络生物分子网络分类分子生物网络分类转录调控网络信号转导网络表观遗传调控网络蛋白互作网络代谢网络转录后调控网络信号传导网络生物中的信号传导(Signaltransduction)则是指细胞将一种类型的生物信号或刺激转换为其他生物信号最终激活细胞反应的过程。同代谢通路一样,信号传导的过程中多个生物分子在酶作用下按照一定顺序发生一系列生理化学反应,由此得到了信号传导通路。信号传导网络即是指参与信号传导通路的分子和酶以及其间所发生的生化反应所构成的网络。信号传导网络代谢和信号传导网络资源KEGG数据库其他类型的分子网络组合调控网络协同调控网络二分网络生物分子网络分析对于一个复杂网络,我们如何来分析网络?第三节生物分子网络分析AnalysisofBiomolecularNetwork网络的拓扑属性连通度聚类系数介数紧密度拓扑系数直径平均距离分布函数和连通度函数连通度连通度(degree)是描述单一节点的最基本的拓扑性质。节点v的连通度是指网络中直接与v相连的边的数目。例如在图A中节点A的连通度为3。对于有向网络往往还要区分边的方向,由节点v发出的边的数目称为节点v的出度,指向节点v的边数则称为节点v的入度。我们用符号k来表示连通度,kout表示出度,kin表示入度。在图B中节点A的入度为1,出度为2。连通度描述了网络中某个节点的连接数量,整个网络的连通性可以使用其平均值来表示。对于由N个节点和L条边组成的无向网络其平均连通度为Knet=2L/N。连通度较大的节点称为中心节点(hub)必需基因或其翻译产物的比例在中心节点中出现的频率显著高于一般节点。练习计算图A和B中A点的连通度,以及图A的网络的连通度。K=5Kout=3Kin=2Knet=16/7=2.29聚类系数在很多网络中,如果节点v1连接于节点v2,节点v2连接于节点v3,那么节点v3很可能与v1相连接。这种现象体现了部分节点间存在的密集连接性质,可以用聚类系数(clusteringcoefficient)CC来表示,在无向网络中,聚类系数定义为:)k(knCnCCk122vv1v2vnv4v3公式中,K表示节点V的邻居数目,n表示节点V的K个邻居两两之间连接的边数,Ck2表示K个邻居两两相连的最多边数。)k(knCnCCk122v请同学们给出CCv的取值范围,并说明原因。因为n表示在节点v的所有的k个邻居间边的数目,则在无向网络中,n的最大数目可以由邻居节点的两两组合数k(k-1)/2来确定,所以CC值位于[0,1]区间。当节点v的所有邻居都彼此连接时,v的聚类系数CC=1;当v的邻居间不存在任何连接时,CC=0。从几何上看,聚类系数的等价定义:与节点i相连的三元组是指包括节点i的三个节点,并且至少存在从节点i到其他两个节点的两条边。三角形以节点i为顶点之一的三元组的两种可能形式ii三元组与点i相连的三元