生物信息学第十二章非编码RNA与复杂疾病北京大学崔庆华哈尔滨医科大学李霞、徐娟生物信息学人类基因组的蛋白质编码区的总和占总基因组长度为1%~2%,那么其他98%的基因组有什么功能呢(junkdna)?(1)42%的基因组是插入编码序列的内含子序列;人类基因平均每个基因有7个内含子。但这么冗长的内含子序列有什么生物学功能呢?(2)其他55%的基因组的功能是什么?【注:90%以上的基因组都是转录的!】人类基因组草图带给科学家们的困惑人类基因组绝大部分都被转录成RNA,细胞内非编码RNA的数量是编码RNA的上百倍。这促使许多科学家认为生物体复杂性被隐藏在它们所输出的非编码RNA内,而非编码序列内。non-codingRNA,ncRNA不能翻译成蛋白的功能性RNA分子Housekeepingnon-codingRNA•tRNAs、rRNAs、snRNAsetc.Regulatorynon-codingRNA•smallnon-codingRNAsiRNA、miRNA、piRNAetc.•Longnon-codingRNA(lncRNA,200nt)第一节引言Section1Introduction随着ncRNA在复杂疾病中的研究深入,研究者发现其在疾病的发生发展过程中起着巨大的作用,其功能异常能够导致各种人类复杂疾病的发生。这将使ncRNA可能成为疾病诊断、预后的新的生物学标记(biomark),并为更进一步理解复杂疾病的发病机理提供了新的手段。第二节非编码RNA与其靶基因Section2Non-codingRNAsandTargets(一)miRNA的发现一、miRNA概述miRNAwasfirstdiscoveredin1993byVictorAmbrosatHarvard(lin-4)ThesecondmiRNALet-7wasdiscoveredin2000byFrankSlackasapostdocatHarvard(GaryRuvkunlab)ThediscoveryofmiRNAsVictorAmbrosGaryRuvkunmicroRNAshadbeenneglectedforsomanyyearsbecauseoftheirsmallsize.Theunderlyingreasonis:peopleneverdreamthatsmallRNAswillhaveimportantbiologicalroles.ThenumberoftheidentifiedmiRNAsisgrowingrapidlyinrecentyears.Release21(July2014)ofthemiRBasedatabasehaveadded4196newhairpinsequencesand5441newmatureproductsRelease20contains24521entriesrepresentinghairpinprecursormiRNAs,expressing30424maturemiRNAproducts,in206species.ThesemiRNAsarefromprimates,rodents啮齿类,birds,fish,worms,flies,plantsandviruses.ThedataarefreelyavailabletoallthroughthewebinterfaceatSincearound2007,theoverwhelmingmajorityofmicroRNAsdepositedinmiRBasehavebeenpredictedfromsmallRNAdeepsequencingexperiments.miRNA的生物合成过程maturemiRNAPrecursormiRNAPrimarymiRNAmiRNAgene转录剪切剪切miRNA(二)miRNA的生物合成RNApolyII/IIIDroshaDicer几百~几千碱基约70~90碱基约22碱基miRNA例子ThemiRNAgenesandStructureofpri-miRNAsPri-miRNAsbearthe5’capand3’poly(A)tails(三)miRNA的特点、作用机制及分类microRNA命名规则hsa-miR-181a-2*hsa人,mus小鼠,rat大鼠let,lin,mir,miR,181:编号,按注册顺序a:与已注册的miRNA序列高度同源2:由不同染色体上的DNA序列转录加工而成的具有相同成熟体序列的miRNA,则在后面加上阿拉伯数字以区分*:如果一个前体的2个臂分别产生miRNA,则根据克隆实验,在表达水平较低的miRNA后加“*”;或进行如下命名hsa-miR-188-5p(或hsa-miR-188-3p)•5p:表示从5‘端的臂加工而来;3p:表示从3‘端的臂加工而来hsa-mir-188二级结构hsa-miR-188-5phsa-miR-188-3p5’3’miRNA/miRNA-starVS-5p/-3pthedominantstrandcouldchangeindifferentbiologicalsettingsleadingtodifferentnamesdescribingthesamemolecule5parm(placenta)tothe3parm(heart,liver,andkidney)物理位置特点•miRNA基因以单拷贝、多拷贝和基因簇等多种形式存在于基因组中。•miRNA簇(miRNAclusters)是指在染色体上彼此紧密相邻的两个或者多个miRNA构成的miRNA群•miRNA倾向于成簇出现在染色体上;通常定义50kb的距离为一簇•同一簇中的miRNA倾向是共表达的miRNA一般特点—miRNA家族/簇序列(特别是种子序列)高度同源的miRNA被归为一个miRNA家族同一家族中的miRNA并不一定是成簇的。seedmiRNA的一般特点序列特点•非编码性•成熟的miRNA5′端为单一磷酸基团,3′端为羟基,这一特点使它与大多数寡核苷酸和功能RNA的降解片段区别开来;表达特点•miRNA具有时序性以及组织特异性在特定的时间,组织中才会表达保守性特点•在物种间高度保守miRNA的作用机制•通过和靶基因3′UTR(3′非翻译区)结合•导致RNA诱导的沉默复合体(RNA-inducedsilencingcomplex,简称RISC)降解其靶mRNA或阻碍其靶的翻译。RISC转录后层面调控基因表达二、基于序列的miRNA靶基因预测方法miRNA靶基因预测遵循的基本原则miRandaTargetScanThreeClassesofmiRNATargetSites(Brenneckeetal.PlosBiology2005)(一)miRNA靶基因预测遵循的原则和基本步骤miRNA的“种子区”与mRNA的3′UTR序列碱基互补靶点在多物种间的序列保守性miRNA与mRNA形成双链结构的热力学稳定性靶基因二级结构和靶点外的序列对靶基因预测的影响遵循的原则miRNA靶位点预测的难点:•miRNA与靶位点的不完全互不配对基本步骤在3′UTR上探寻和miRNA“种子区”完全互补的序列;计算miRNA和这些序列结合产生的自由能下降值,对靶点进行筛选;对靶点进行物种间序列比对,利用物种保守性进一步筛选。(三)TargetScan•TargetScan主要考虑物种间保守的miRNA靶基因,并且在TargetScan中首次提出了“种子匹配”(seedmatch)的概念。算法的基本步骤•在TargetScan算法中,“种子匹配”被定义为miRNA5′端的第2~8位碱基与mRNA3′UTR上的一段7nt(nucleotide)序列完全互补,miRNA上的这7个核苷酸被称为miRNA“种子区”。•从种子区开始向miRNA两侧寻找互补碱基,允许G-U配对,直到出现碱基错配为止。在物种保守方面,TargetScan算法发现随着物种数目的增多,预测的靶基因数目逐渐减少,但预测结果的准确率得到提高。三、基于表达信息预测miRNA靶基因Huang等人利用在88个组织中同时检测了miRNA和mRNA表达的数据,并结合贝叶斯方法开发了靶基因预测算法GenMiR++,得到了104个人类miRNA的高精度靶基因,并通过实验证实了预测的let-7b靶基因,结果表明,与基于序列的方法相比,利用相同样本中同时检测miRNA和mRNA的表达谱可以更准确的预测miRNA靶基因。(Huang,UsingexpressionprofilingdatatoidentifyhumanmicroRNAtargets.Nat.Methods.)四、基于高通量测序结果预测miRNA靶基因ArgonauteCLIP-SeqRIP-CLIPpSILACDegradome-Seq•Agobindsinaternary三元的complextobothmiRNAandmRNA,withsufficientlyclosecontactstoallowUV-crosslinkingtoeitherRNA;mRNAtagswillbeintheimmediatevicinityofmiRNAbindingsites.ArgonauteCLIP-SeqArgonauteCLIP-SeqArgonauteCLIP-Seq,又称为HITS-CLIP(ultravioletcross-linkingandimmune-precipitationandandhigh-throughputsequencing),即紫外交联免疫共沉淀与高通量测序偶联技术。•CLIP技术是研究RNA结合蛋白(或者RNA)体内结合靶标的新技术。•通过紫外交联将RNA结合蛋白与体内结合的RNA分子进行固定,用Ago蛋白的抗体免疫共沉淀之后酶解未受蛋白保护的RNA,可以获得Ago蛋白直接结合的RNA序列。针对AGO蛋白的CLIP-seq技术能够在全基因组范围内鉴定与AGO蛋白结合的小RNA及其mRNA靶标。•Chi,SW,Zang,JB,Mele,A,Darnell,RB.2009.ArgonauteHITS-CLIPdecodesmicroRNA-mRNAinteractionmaps.Nature.460:479-86。FurthermoreHITS-CLIPreadsdonotpreciselypinpointthepositionofcrosslinkingbetweentheRNAandprotein,andthuscanonlyidentifyatargetedregion(~100-nt)asopposedtoaspecifictargetsite.2010年,GeneW.Yeo采用AGO-CLIPseq技术在线虫中鉴定了Argonaute的结合位点,发现其不仅结合mRNA的3’UTR区域,也会结合编码外显子区域,还发现Argonaute大量结合的区域对于miRNA的功能非常重要,揭示了其新的自我调控的功能。要想获得检测区域被哪个miRNA调控,还需结合预测算法五、整合已有知识预测miRNA靶基因在当前的miRNA靶基因预测研究中,研究人员逐渐意识到单一依靠序列信息或表达信息已不能继续提高miRNA靶基因预测效能。整合功能信息、蛋白质互作信息、表达信息、序列信息以及当前实验证实的miRNA靶基因等已有资源预测miRNA靶基因十分必要。miRNA靶点优化算法六、lncRNA概述及靶基因识别lncRNA定义lncRNA特点lncRNA作用机制DefinitionoflncRNALongnon-codingRNAs(longncRNAs,ln