生物信息学第八章转录调控的信息学分析汕头大学医学院许丽艳生物信息学学习提纲重点转录因子结合位点的识别及其定位的基本概念和表示方法转录因子结合位点识别的操作步骤和相关算法的使用转录因子结合位点定位预测软件的使用学习提纲难点转录因子结合位点识别的操作步骤和相关算法的使用转录调控相关数据库熟悉第一节引言(Introduction)transcriptionfactorcis-regulatoryelementtranscriptionfactorcis-regulatoryelement一、基因转录调节的基本模式基因转录调节模式图二、基因转录调节机制的研究方法实验方法荧光素酶报告基因(luciferasereportgene)凝胶迁移(electrophoreticmobilityshiftassays)染色质免疫沉淀(ChIP)DNase足迹法(DNasefootprinting)信息学分析第二节转录因子结合位点的信息学预测方法(PredictionofTranscriptionalFactorBindingsites)一、转录因子结合位点的表示方法(一)共有序列(consensussequence)consensus→logo→frequencymatrix→consensus→logo→frequencymatrix→consensus→logo→frequencymatrix→consensus→logo→frequencymatrix→将能与同一个转录因子结合的所有DNA片段按照对应位置进行排列,在每个位置上选择最可能出现的碱基,就组成了该转录因子结合位点的共有序列。共有序列中用A、C、G、T之外的字母来表示结合位点中各个位置上可能出现的碱基组合,这些字母称为IUPAC简并码。共有序列的表示方法简明易懂,却不能够反映每个位置上不同碱基出现的概率。IUPAC简并码IUPACcodeNucleotideIUPACcodeNucleotideWAorTBC,GorTRAorGDA,GorTKGorTHA,CorTSCorGVA,CorGYCorTNA,C,GorTMAorC(二)位置频率矩阵(positionfrequencymatrix)consensus→logo→frequencymatrix→consensus→logo→frequencymatrix→consensus→logo→frequencymatrix→consensus→logo→frequencymatrix→位置频率矩阵可以反映出每个位置上不同碱基出现的概率。该模型的一个前提假设是各个位置上碱基出现的概率相互独立。矩阵每一列表示模体相应位置上四种碱基出现的概率。对于长度为n的模体,碱基i(i={A,C,G,T})在模体第j个位置上出现的频率为qi,j,则整个模体用矩阵M表示如下:(三)序列标识图(sequencelogo)序列标识图依次绘出模体中各个位置上出现的碱基,每个位置上所有碱基的高度和反映了该位置上碱基的一致性,每个碱基字母的大小与碱基在该位置上出现的频率成正比。这种表示方法直观地给出模体各个位置上碱基出现的倾向性和整个模体的序列的一致性。consensus→logo→frequencymatrix→consensus→logo→frequencymatrix→转录因子结合位点的三种表示方法总结二、转录因子结合位点的定位基本概念根据若干已知的转录因子结合位点(TFBS)的模体(motif),在所感兴趣基因的启动子区域内搜索相应转录因子可能的结合位点,称之为转录因子结合位点的定位。对任一长度为n的已知motif位置频率矩阵M,转录因子结合位点定位就是判断某一长度为n的序列片段与M的匹配程度。考虑到DNA序列本身有可能存在碱基组成上的偏向性,通常把位置频率矩阵转换为位置权重矩阵。用位置权重矩阵的打分来衡量motif与任意给定序列的匹配程度。(一)转录因子结合位点定位的计算方法位置权重矩阵在位置权重矩阵中,引入碱基i(i={A,C,G,T})在背景序列中出现的频率(记为bi)来消除DNA序列本身碱基组成偏向性的影响。位置权重矩阵的每一项记为Si,j:则M被转换为的位置权重矩阵S为:对于长度为n的DNA序列片段,它作为模体M对应的转录因子结合位点的打分为:tj表示相应序列第j个位置上出现的碱基。给定阈值T,如果序列片段由上式给出的打分S≥T,则认为它有可能是相应转录因子的结合位点。应用位置权重矩阵预测潜在结合位点(二)转录因子结合位点定位的预测TRANSFACAliBabaP-MatchPatchMatrixCatchAliBaba2.1程序运行流程图1.粘贴序列2.选择参数3.开始搜索4.分析结果4.分析结果P-Match-1.0Public1.粘贴序列2.选择参数3.提交序列P-Match-1.0Public程序运行流程图4.分析结果Patch1.0程序运行流程图1.粘贴序列3.开始分析2.选择参数4.分析结果MatrixCatch2.7程序运行流程图3.开始搜索1.粘贴序列2.选择参数4.分析结果三、转录因子结合位点的识别基本概念通过收集可能被同一转录因子调控的基因启动子序列,在其中寻找具有统计显著性的短片段,作为转录因子可能的结合位点,称之为转录因子结合位点的识别。基本流程收集可能被同一转录因子调控的多基因序列。通过多种计算方法从不同角度或不同层面去进行计算、评估和分析,尽可能地屏蔽掉冗余序列和噪音序列,寻找出具有统计显著性的短片段,作为转录因子可能的结合位点。查询相关转录因子数据库,以确定转录因子。(一)获得靶向序列1.从基因差异表达谱芯片数据出发获得启动子序列。2.从差异表达蛋白质数据出发获得启动子序列。3.从ChIP-chip和ChIP-seq数据出发获得结合位点序列。DAVID操作界面①②③④⑤基因ID转换流程⑥基因ID转换流程①UCSC操作界面及获取基因启动子区序列流程②③④⑤⑥(二)转录因子结合位点识别的预测1.单个motif预测算法基于共有序列的识别方法:MobyDick和YMF算法。基于位置频率矩阵的识别方法:MEME和GibbsMotifSampler算法。MEME操作界面及输出结果举例结果展示位置打分模块图解位点特异概率矩阵共有序列位点特异打分矩阵模块2.比较基因组学先利用传统的方法进行motif识别,然后再检测得到的motif在不同物种中的保守性,筛除不保守的motif。以候选启动子区及其在不同物种中的直系同源序列为输入序列,在识别过程中考虑不同物种间的保守性和motif的信号强度这两种因素。CORE-TF运行流程图打钩,确认是非盈利性,进入下一页参数设定页面,可直接输入序列,或EnsemblGeneID;设定P-值等参数,提交进行分析3.bootstrapping算法(自助抽样法)芬兰赫尔辛基大学的Kankainen,M.和Holm,L.建立。用自助抽样法(bootstrapping),结合方差F-值(ANOVAF-statistics)和Tukey’s检验及P-值分析,建立了POCO程序。分析两组不同表达模式基因群的差异TF。POCO运行界面及部分输出结果展示第三节转录调控相关数据库TranscriptionalRegulationDatabases一、TRANSFAC数据库二、JASPAR数据库高质量,非冗余的转录因子数据库,收录了656个序列模式,用于寻找特异转录因子模型或其结构类型JASPARFAM包含11种转录因子结构类型的模型。用于搜索未知基因组序列某一转录因子家族的共有模式和鉴定新模式的分类JASPARPHYLOFACTS由174种系统发育中保守的基因上游调控元件组成。用于分析启动子的组织特异性JASPARPOLII保存了13种与RNA聚合酶II核心启动子连接的DNA模型。用于分析潜在的核心启动子JASPAR数据库的特点数据库名称特点JASPARCNE收集了233个人类保守的非编码元件,但是其生化和生物学功能尚不清楚。用于分析潜在的增强子。JASPARSPLICE包含有6种人类高度可靠的经典和非经典剪切位点的矩阵模式。用于分析剪切位点和选择性剪切JASPARPBM保存有104种小鼠转录因子矩阵模式JASPARPBMHOMEO保存有176种小鼠同源结构域矩阵模式JASPARPBMHLH保存有19种线虫碱性螺旋环螺旋(bHLH)转录因子模型利用选定的转录因子搜索特定的核苷酸序列利用选定的转录因子搜索特定的核苷酸序列利用选定的转录因子搜索特定的核苷酸序列三、TRED数据库数据库统计表相关数据人类小鼠大鼠版本hg15:UCSCHumanGoldenPathApr.03mm3:UCSCMouseGoldenPathFeb.03rn2:UCSCRatGoldenPathJan.03基因数309813168326064启动子数582295076430386转录因子有效靶点3409个基因,9085个启动子,1249个结合模体1126个基因,3089个启动子,366个结合模体461个基因,1132个启动子,150个结合模体同源组数(两种或三种)23471与肿瘤相关的36个转录因子家族成员所靶向的启动子/基因数转录因子家族人类小鼠大鼠AP1(ActivatorProtein1)432/383217/190157/143AP2(ActivatorProtein2)338/318123/12390/86AR(AndrogenReceptor)69/4919/1924/15ATF(ActivatingTranscriptionFactor)189/17359/5926/26BCL(B-cellCLL/lymphoma)21/1915/150/0BRCA(breastcancersusceptibilityprotein)20/204/40/0与肿瘤相关的36个转录因子家族成员所靶向的启动子/基因数转录因子家族人类小鼠大鼠CEBP(CCAAT/enhancerbindingprotein335/325152/134241/179CREB(cAMPresponsiveelementbindingprotein)224/220138/13395/93E2F(E2Ftranscriptionfactor)1593/1329141/12711/11EGR(earlygrowthresponseprotein)120/11167/5533/26ELK(memberofETSoncogenefamily)47/4115/136/6ER(EstrogenReceptor)169/15240/3932/31与肿瘤相关的36个转录因子家族成员所靶向的启动子/基因数转录因子家族人类小鼠大鼠ERG(ets-relatedgene)21/215/50/0ETS(ETS-domaintranscriptionfactor)445/412207/19651/51FLI1(friendleukemiaintegrationsite1)41/4117/160/0GLI(glioma-associatedoncogenehomolog)16/168/80/0HIF(Hypoxia-induciblefactor)119/11263/6029/29HLF(hepaticleukemiafactor)10/105/5