生物信息学第十章计算表观遗传学哈尔滨医科大学张岩生物信息学长颈鹿的来源第一节引言Section1Introduction一、表观遗传学(epigenetics)表观遗传学是研究不涉及DNA序列改变的情况下,DNA甲基化谱、染色质结构状态和基因表达谱在细胞代间传递的遗传现象的一门科学。遗传现象:生物界普遍存在的现象表观遗传现象:生物界普遍存在的另一现象二、计算表观遗传学•应用及开发生物信息学方法(统计分析,模式识别等)解决生物医学相关的表观遗传学问题。生物信息学构架了基因组学与表观基因组学的桥梁计算表观遗传学表观遗传学领域全球发表的论文计算表观遗传学的发展三、计算表观遗传学研究方向预测的角度研究表观遗传现象。应用生物信息学工具建立遗传与表观遗传调控网络。表观遗传数据库。建立在表观遗传机制基础的功能基因组及比较基因组研究。四、计算表观遗传学研究内容(一)数据层面分子水平的表观遗传修饰(二)数据分类(三)算法层面开发新方法和工具处理及分析表观遗传数据挖掘表观遗传现象常用的算法统计学方法回归分析相关分析及判别分析聚类分析主成分分析因子分析模式识别方法支持向量机决策树贝叶斯网络最小二乘法最近邻算法(四)功能层面目的有效利用当前已有的高通量表观基因组数据单核苷酸多态、DNA甲基化与基因表达之间的关系,挖掘调控基因表达的关键因子。举例:利用DNA甲基化数据预测新的癌症相关基因Prioritizingcancer-relatedgeneswithaberrantmethylationbasedonaweightedprotein-proteininteractionnetwork.人类蛋白质互作网络癌症相关的子网肿瘤神经退行性疾病心血管疾病精神性疾病代谢性疾病(一)计算表观遗传学与疾病五、计算表观遗传学的应用内源性逆转录表达肿瘤抑制基因表达染色质结构异常肿瘤表观遗传的特征精神性疾病DNA甲基化的特征(二)计算表观遗传学与发育发育中DNA甲基化的特征早期胚胎DNA甲基化的特征(三)计算表观遗传学与进化DNA甲基化的进化分析DNA甲基化的进化分析DNA甲基化的进化分析DNA甲基化和组蛋白修饰有潜在的临床用途附加的诊断工具预后因子治疗反应预测用于普遍临床实践抑癌基因高甲基化和DNA高甲基化谱可用于癌症病人预后指示器特定基因的高甲基化可对治疗反应进行预测第二节基因组的DNA甲基化Section2Genome-wideDNAMethylation一、CpG岛的DNA甲基化调控基因表达(一)DNA甲基化与CpG岛DNA甲基化是一种发生在DNA序列上的化学修饰,可以在转录及细胞分裂前后被稳定地遗传。DNA甲基化是重要的表观遗传代码。DNA甲基化的发生机制(二)DNA甲基化对转录的调控1.DNA甲基化阻碍转录因子的结合2.DNA甲基化识别染色质标记3.DNA甲基化募集其他蛋白引起染色质沉默4.DNA甲基化影响核小体定位CpG岛甲基化和转录的关系(三)DNA甲基化的意义CpG二核苷酸的甲基化与重复元件沉默CpG二核苷酸的甲基化与染色体的选择性沉默DNA甲基化与基因的组织特异表达二、基因组CpG岛识别方法(一)CpG岛识别准则Gardiner-Garden和Frommer•长度最短200bp•GC含量至少50%•CpGO/E最小0.6许多启动子缺乏严格定义的CpG岛,但是有组织特异的甲基化模式和转录活性有密切联系。1.最初的CpG岛定义2.改进的CpG岛定义Takai和Jones增加最短长度、CpGO/E值GC含量分别到500bp,0.65%和55%对预测精度的影响。通过使阈值更加严格,Alu重复元件得到最大程度的排除,但此时却排除了原来数量10%的CpG岛,这表明一些真正的CpG岛可能也被排除。常见的CpG岛预测算法预测方法长度(bp)GC含量(%)CpGO/E重复元件屏蔽备注ENSEMBL≥400≥50%≥0.6否严格的参数限制NCBI宽松≥200≥50%≥0.6否总CpG岛数目307193NCBI严格≥500≥50%≥0.6否总CpG岛数目24163UCSC>200≥50%>0.6是总CpG岛数目28226常见的CpG岛预测算法预测方法长度(bp)GC含量(%)CpGO/E重复元件屏蔽备注EMBOSS指定指定指定否参数可调CpGProD>500>50%>0.6是总CpG岛数目76793CpGcluster无限制无限制无限制否总CpG岛数目197727CpG_MI≥50无限制无限制否总CpG岛数目40926差异取决于以下因素(1)任意阈值的应用;(2)没有考虑到CpG岛的异质性;(3)基于DNA序列的预测方法忽略了DNA甲基化状态。举例:窗口法Analyzeawindow.DoesitmeetCpGislandcriteria?Ifnot,slidetotherightonenucleotideAndanalyzeagain.Andagain.UntilitmeetsthecriteriaThenjumpaheadandcheckthewindowadjacenttotheislandonthe3’side.Repeatasneeded,untilthenewwindowdoesnotmeettheCpGislandcriteriaThenslidethewindowbacktowardtheisland.KeepslidinguntilthewindowmeetsCpGislandcriteria.Ifitdoesn’tmeetthecriteria,trytrimmingabasepairoffeachendandanalyzingagain.削减削减削减OnceitmeetsCpGislandcriteria,moveontothenextadjacentwindowandanalyzethat.(二)实验方法寻找CpG岛Illingworth等人最近开发了一项CXXC亲和纯化技术(CAP,CXXCaffinitypurification)以富集非甲基化的CpG富集的DNA片段(CpG岛)。该技术使用了半胱氨酸富集的对非甲基化的CpG位点有高亲和性的CXXC3结构域。CXXC结构域对只包含甲基化的CpG位点或缺乏CpG位点的DNA片段几乎没有亲和性。从小鼠Mbd1中得到的重组的CXXC结构域对非甲基化的CpG位点有高的结合特异性,并被用于从全基因组DNA中提取CpG岛。他们从人类血液中提取了超过17000个CpG岛。实验方法确定的基因组范围CpG岛图谱(三)CpG岛定位有助于发现新基因CpG岛是重要的调控元件,可用于新基因的发现。CpG岛通常是不被甲基化的,作为管家基因的重要标志之一。UCSC数据库的截图展示了三个CpG岛三、实验检测技术测定DNA甲基化状态(一)DNA甲基化的检测方法目前常用的DNA甲基化检测方法是将待检序列中甲基化的胞嘧啶转化为其他碱基组成的变化。最新的检测方法还用到了基因微阵列(microarray)。1.限制性内切酶法2.亲和纯化3.重亚硫酸钠法1.限制性内切酶法使用甲基化敏感的酶检测DNA甲基化2.亲和纯化3.重亚硫酸钠法(二)基因组范围高通量的DNA甲基化检测方法高通量测序是最新发展起来的但却是最有前途的全基因组DNA甲基化分析方法。高通量测序技术的出现,使得产生大量序列信息的时间和成本均要低于桑格法。目前,两种高通量的测序平台最为流行:一种是454生命科学公司开发的焦磷酸测序方法,另外一种是Illumina前身的Solexa开发的基于荧光核苷酸的系统。技术应用优势局限Illumina磁珠阵列甲基化多态性发现和分析定量,多达96个样品的同时快速分析需要设计引物文库,同时只能分析1536个位点Affymetrix芯片全基因组甲基化测定探针密度大,支持物种多,可定制,价格合理短寡核苷酸噪声大,单通道杂交,定制芯片昂贵NimbleGen微阵列全基因组甲基化测定长寡核苷酸探针产生更纯净的数据,双通道杂交,定制芯片不昂贵,价格合理较Affymetrix芯片的探针密度小DNA甲基化大规模分析可用平台一览表技术应用优势局限Agilent微阵列大规模甲基化测定长寡核苷酸探针产生更纯净的数据,双通道杂交较Affymetrix和NimbleGen芯片的探针密度小得多Solexa测序全基因组甲基化测定,分析印记位点定量化,无需杂交,并行的基因型信息下一代技术,需要购买昂贵的仪器或服务DNA甲基化大规模分析可用平台一览表四、异常DNA甲基化特征识别(一)癌症基因组整体低甲基化(二)癌基因的印记丢失(三)基因超甲基化是癌症的标志不同癌症之间存在差异MeInfoText和PubMeth数据库汇总了癌症特异的异常甲基化信息。使用生物信息学方法有助于进一步扩充已知的异常甲基化基因列表的信息。第三节组蛋白修饰的表观基因组Section3EpigenomeofHistoneModifications一、组蛋白密码是重要表观遗传标记之一(一)核小体与组蛋白修饰1.核小体与组蛋白组蛋白修饰位点2.组蛋白修饰与转录关于组蛋白修饰在转录中的作用,已经有许多模型如电中性模型、组蛋白密码以及信号通路模型被提出来。不同的组蛋白修饰类型的作用不尽相同。组蛋白乙酰化主要促使基因表达和DNA复制,使组蛋白乙酰化定位的基因得到动态的调控。组蛋白去乙酰化则使基因沉默。组蛋白的磷酸化可以改变组蛋白的电荷,对基因转录、DNA修复和染色质凝聚等过程起调控作用。组蛋白的泛素化可以降解组蛋白的泛素标记,启动基因表达。3.组蛋白修饰的命名法一个组蛋白修饰的精确表示由三部分组成:组蛋白名称+组蛋白尾巴上的位点+修饰类型和个数。•例如基因转录起始位点富集普遍存在H3K4me3修饰,它是组蛋白H3上,具体的位置为第四个位置即赖氨酸(lysine,K),该位置存在三个甲基基团。•又如H3K9me,则表示组蛋白H3上的第九位置上的甲基化修饰,但并没有指定甲基集团的数目,则泛指组蛋白甲基化修饰,这些模糊记法已被广泛地使用。(二)激活性和抑制性的组蛋白修饰根据对基因起到激活还是抑制作用,组蛋白修饰可以大致分为两类:激活性的组蛋白修饰和抑制性的组蛋白修饰。激活性的组蛋白修饰中最常见的是H3K4me。抑制性的组蛋白修饰中最常见的是H3K27me。(三)组蛋白密码1.动态而又稳定的组蛋白密码组蛋白的氨基酸残基可以接受许多种化学修饰,包括甲基化和乙酰化等修饰。质谱分析检测到组蛋白H2A有13个可以接受修饰的位点,H2B、H3和H4则分别有12个,21个和14个可以接受修饰的位点。每个氨基酸残基位点可以发生至少一种化学修饰。2.细胞分化过程中的组蛋白密码组蛋白修饰的调控在许多生理过程中起到重要作用,这其中就包括细胞分化。研究发现组蛋白乙酰化对维持细胞的未分化和多能状态十分重要。使用组蛋白去乙酰酶抑制剂有助于维持干细胞的多能性(pluripotency)。相反,用去乙酰酶抑制剂刺激人类成熟细胞或癌症细胞会诱导分化的进行。因此,表观遗传调控对于细胞成熟至关重要。到底是什么类型组蛋白修饰或组蛋白修饰组合控制分化呢?如前所述,组蛋白乙酰化有助于保持细胞的多能性。细胞分化过程中的组蛋白修饰变化(一)测定组蛋白修饰的高通量技术二、组蛋白修饰的高通量测定及分析技术检测技术ChIP-chipChIP-SAGEChIP-Seq定量性受杂交效率影响定量定量分辨率的影响因素染色质长度及探针密度酶切效率染色质长度,测序深度全基因组范围实验花销多多少实验对于测定区域的局限性局限于预设的基因组区域受酶切位点的限制可覆盖大部分基因组区域ChIP–chip来自Genome-wideapproachestostudyingchromatinmodificationsChIP–SAGEChIP–Seq(二)分析基因组范围的组蛋白修饰数据1.高通量组蛋白修饰分析工具TilingArray•TileMap•基于模型的瓦式芯片分析算法(mod