第十二章生物分子网络BiomolecularNetwork第一节引言(Introduction)网络是复杂系统存在的普遍形式公路交通网来源:中华人民共和国交通部网站互联网来源:维基百科社会网络示意图来源:维基百科生命活动本身的复杂性和迅速增加的海量数据资源要求生命现象必须要在成千上万个生物分子组成的复杂系统层面上予以认识。为揭示数量巨大的生物大分子及其间的相互作用如何在复杂的生存环境中行使生物学功能,需要研究者采用不同于传统生物学研究手段的新技术。本章将介绍网络分析在系统生物学中的应用。第二节生物分子网络概述(DescriptionofBiomolecularNetwork)一、生物分子网络的基本概念(一)网络的定义以图G=(V,E)表示网络,其中:V是网络的节点集合,每个节点代表一个生物分子,或者一个环境刺激;E是边的集合,每条边代表节点之间的相互关系。(二)有向网络与无向网络无向网络有向网络(三)加权网络与等权网络如果网络中的每条边都被赋予相应的数字,这个网络就称为加权网络,所赋予的数字称为边的权重。如果网络中各边之间没有区别,可以认为各边的权重相等,称为等权网络或无权网络。加权网络来源:维基百科(四)二分网络如果网络中的节点可分为两个互不相交的集合,而所有的边都建立在来自不同集合的节点之间,则称这样的网络为二分网络二分网络来源:维基百科(五)网络中的路径与距离网络中节点G到节点C的路径有:l1={G,A,B,C}l2={G,A,D,C}l3={G,F,A,B,C}l4={G,F,A,D,C}从节点G到节点C的路径中,l1和l2的长度为3,l3和l4的长度为4。长度最短的路径称为最短路径,最短路径的长度称为从起点到终点的距离,上图中从节点G到节点C的距离为3二、基因调控网络(一)基因调控检测技术2.ChIP-chip芯片技术1.染色质免疫沉淀技术(ChromatinImmunoprecipitation,ChIP)ChIP-chip示意图来源:维基百科(二)基因转录调控数据库1.TRANSFAC数据库数据库是关于转录因子、它们在基因组上的结合位点的数据库。2.TRRD数据库数据库是在不断积累的真核生物基因调控区结构-功能特性信息基础上构建的。每一个TRRD的条目里包含特定基因各种结构-功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。3.RegulonDB数据库数据库是一个提供转录起始和调控网络信息的数据库。4.其他数据库COMPEL数据库()复合转录元件的数据库SCPD数据库()酵母启动子数据库JASPAR数据库()人工收集的转录因子及结合位点数据库DBD数据库()转录因子预测数据库(三)基因转录调控网络基因转录调控网络是以转录因子和受调控基因作为节点,以调控关系作为边的有向网络。三、蛋白质互作网络(一)蛋白质互作检测技术1.免疫共沉淀技术(co-immunoprecipitation)免疫共沉淀示意图来源:酵母双杂交(YeastTwoHybrid,Y2H)酵母双杂交示意图来源:维基百科3.串联亲和纯化-质谱分析(TandemAffinityPurification-MassSpectrometry,TAP-MS)串联亲和纯化示意图来源:BauerA,KusterB.Affinitypurification-massspectrometry.Powerfultoolsforthecharacterizationofproteincomplexes..EurJBiochem.2003Feb;270(4):570-8.4.白质互作预测技术基于同源性的预测技术•利用进化的保守性,检测一对蛋白是否有同源序列参与已知的互作结构•通过检查一对蛋白的系统发生距离来推断其间存在的互作关系•通过与已知的蛋白质结构模式进行比对,预测分别包含互作结构域的一对蛋白质的互作关系。基于多重数据源和机器学习算法的蛋白质互作预测技术不同于同源性预测技术。5.遗传互作检测技术剂量增长补足(DosageGrowthDefect)、其中剂量增长补足是指如果一个基因突变或者被敲除时另一个基因的表达量明显增加。联合致死(SyntheticLethality)则是表示在基因敲除实验中,只敲除任何一个都不会造成细胞死亡,而两个基因一同被敲除时细胞就会死亡。(二)基因转录调控数据库1.BIND数据库数据库是生物分子对象网络数据库(BOND)中最重要的组成部分之一。主要记录蛋白质互作在内的生物分子间的相互作用信息,并将其中的信息分为经过人工检查的可信信息和高通量数据信息。2.DIP数据库数据库是专门存储蛋白质相互作用信息的数据库。该数据库中也包含人工检查的可靠信息和自动计算方法所获取的高通量数据。3.MIPS数据库数据库是一个跨物种的综合性数据库,包含多种数据库信息。其中的CYGD数据库提供了比较完整酵母蛋白质互作信息。而MIPS哺乳动物数据库MPPI则提供了经过人工检查的哺乳动物蛋白质互作信息。4.BioGrid数据库数据库是一个包含多物种蛋白质互作信息的数据库。数据库中包含来自多个物种的互作信息,其中即包括物理互作信息也包括遗传互作信息。(三)蛋白质互作网络蛋白质互作网络是系统显示蛋白质互作信息的基本方法。将蛋白作为节点,相互作用关系作为边,将蛋白质组整体连接到一个系统网络当中。四、代谢网络和信号传导网络代谢通路是指细胞中代谢物在酶的作用下转化为新的代谢物过程中所发生的一系列生物化学反应。代谢网络是指由代谢反应以及调节这些反应的调控机制所组成的描述细胞内代谢和生理过程的网络。信号传导是指细胞将一种类型的生物信号或刺激转换为其它生物信号最终激活细胞反应的过程。信号传导网络即是指参与信号传导通路的分子和酶以及其间所发生的生化反应所构成的网络。(一)通路数据库1.KEGG数据库数据库是关于基因、蛋白、生化反应以及通路的综合生物信息数据库。2.ERGO数据库数据库是关于多个物种基因组信息的综合数据库。其中包含有关于代谢通路和非代谢通路的综合信息。3.BioCyc数据库数据库是为不同物种单独构建的代谢通路数据库的合集。4.GeneDB数据库是关于多物种基因信息的综合数据库。(二)代谢网络和信号传导网络完全网络多反应物网络主要反应物网络来源:BarabasiA.L.,OltvaiZ.N.Networkbiology:understandingthecell'sfunctionalorganization.NatRevGenet,2004,5(2):101-13KEGG代谢通路来源:KEGG数据库信号传导通路来源:维基百科(三)细胞间通讯网络生物信号的传递不仅发生在细胞内部,同样也出现在不同细胞之间。细胞间通讯是生物体调节细胞基本活性、协调细胞活动的信息传递机制。根据细胞间的距离可以分为:直接接触(邻分泌通讯)近距离通讯(旁分泌通讯)远距离通讯(内分泌通讯)自分泌通讯邻分泌通讯(notch信号)来源:维基百科第三节生物分子网络分析(AnalysisofBiologyMoleculeNetwork)一、网络的拓扑属性(一)连通度(degree)节点v的连通度是指网络中直接与v相连的边的数目。对于有向网络往往还要区分边的方向,由节点v发出的边的数目称为节点v的出度,指向节点v的边数则称为节点v的入度。(二)聚类系数(clusteringcoefficient)节点A的连通度为3节点A的入度为1,出度为2无向网络中有向网络中(三)介数(betweenness)介数定义为:也可以用标准化至[0,1]区间的形式表示:有{B,A,D},{C,A,D},{D,A,C,E}以及它们的逆序路径共6条最短路径通过节点A,节点A的介数为6。真正连通的路径只有{C,B},{D,A,B},{D,A,C},{D,A,C,B},{E,C},{E,C,B}。其中经过节点A的路径有2条,则节点A的介数为2。(四)紧密度(closeness)定义:(五)拓扑系数(topologycoefficient)节点A到B、C、D、E的距离分别为1、1、1、2。节点A的紧密度为1.25。与A节点共享邻居的节点共有3个,则MA={B,C,E}则节点A的拓扑系数(六)直径(diameter)直径(diameter)是描述网络总体性质的一个属性。网络的直径是指网络中任意两个连通节点间距离的最大值。(七)网络的平均距离(averagedistance)D与E间的距离最远,则网络直径为3网络的平均距离(averagedistance)也是描述网络总体性质的一个属性。网络的平均距离是指网络中任意两个连通节点距离的平均值。图A中网络的平均距离是多少?(八)连通度的分布函数和聚类系数函数通过统计不同连通度的节点占全部节点的比例,能够得到一种重要的描述网络连通性的属性:连通度的分布函数P(k),k=1,2,...。聚类系数函数C(k)当函数自变量等于k时,C(k)即为所有连通度为k节点的聚类系数的平均值。二、无标度网络(一)无标度网络定义无标度网络,是指网络中连通度的分布符合幂率分布,即P(k)~k-r的网络这种分布说明,在无标度网络中大部分节点的连通度较低,但存在少数连通度非常高的节点使网络连接在一起。无标度网络的直径相对较小,一般来说无标度网络直径的大小正比于网络中节点数目的对数值的对数值即l~log(log(N))。由此可以发现无标度网络比一般小世界网络直径更小,联系更紧密。A为随机网络,其联通度分布符合泊松分布,在大尺度情况下近似服从正态分布。B为无标度网络,其连通度分布符合幂率分布,平均聚类系数函数曲线水平C为层次网络,其连通度分布与符合幂率分布,平均聚类系数与连通度的倒数成正比(二)无标度网络形成的生物模型Barabási–Albert模型来源:BarabasiA.L.,OltvaiZ.N.Networkbiology:understandingthecell'sfunctionalorganization.NatRevGenet,2004,5(2):101-13•在细胞分裂过程中复制产生的基因的产物会与相同的蛋白发生相互作用。•与发生复制的蛋白连接的蛋白节点将会获得新的连接。•高度连接的节点更有可能与发生复制的基因产物发生互作,从而获得额外的连接。•因此在生物进化的过程中,就出现了蛋白网络的无标度特性。三、生物分子网络的模块性网络中由许多分子相互结合形成的,有着稳定结构和功能的复合体,称为网络“模块”(module)。网络的模块性指网络间的节点存在着内部彼此高度连接的子节点集合。由此,模块化的网络连通更为紧密。与同样规模的随机网络相比,虽然拥有相同的节点数与边数,模块化网络的连接却更为密集,这一现象可以由聚类系数CC的提