IlluminaInfiniumHumanMethylation450BeadChip•关键字:Illumina甲基化CpG岛芯片简介•IlluminaIllumina是由DavidWalt博士、CW集团的LarryBock、兽医学博士JohnStuelpnagel、AnthonyCzarnik博士及MarkChee博士于1998年4月共同组建。Illumina于2001年开始提供SNP基因分型服务,并于一年后利用GoldenGate基因分型技术推出首个IlluminaBeadLab系统。目前,Illumina针对日益成熟的基因序列分析市场,提供基于微阵列技术的产品和服务。包括:SNP基因分型、基因表达和蛋白质分析等。Illumina的技术可广范应用于全球相关领域内的科研院所、政府部门、医药、生物技术公司等,我们主要分析InfiniumHumanMethylation450BeadChip的数据甲基化•原理•在甲基转移酶的催化下,DNA的CG两个核苷酸的胞嘧啶被选择性地添加甲基,形成5-甲基胞嘧啶,这常见于基因的5'-CG-3'序列。主要集中在基因5'端的非编码区,并成簇存在。•结构基因含有很多CPG结构,2CPG和2GPC中两个胞嘧啶的5位碳原子通常被甲基化。基因组中60%~90%的CPG都被甲基化,未甲基化的CPG成簇地组成CPG岛,位于结构基因启动子的核心序列和转录起始点。生物体甲基化的方式是稳定的,可遗传的。甲基化•影响DNA甲基化能引起染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式的改变,从而控制基因表达。•基因C→T突变•影响基因错配修复•基因沉默CpG•CpG双核苷酸在人类基因组中的分布很不均一,而在基因组的某些区段,CpG保持或高于正常概率,这些区段被称作CpG岛,它富含非甲基化的CpG双倍体。CpG岛主要位于基因的启动子和第一外显子区域,约有60%以上基因的启动子含有CpG岛。GC含量大于50%,长度超过200bp。•健康人基因组中,CpG岛中的CpG位点通常是处于非甲基化状态,而在CpG岛外的CpG位点则通常是甲基化的。这种甲基化的形式在细胞分裂的过程中能够稳定的保留。当肿瘤发生时,抑癌基因CpG岛以外的CpG序列非甲基化程度增加,而CpG岛中的CpG则呈高度甲基化状态,以致于染色体螺旋程度增加及抑癌基因表达的丢失。芯片介绍•新型高密度微阵列芯片,是用两种不同的化学测定中,Infinium1和的InfiniumII测定法,评估超过48万的胞嘧啶在整个基因组的甲基化状态的分布•每张芯片可平行进行12个样本的检测•包含的基因:包含了RefGENE数据库中99%的基因的annotatedpromoter,5'UTR,1stexon,genebody,3'UTR。•包含的CpG数:96%的CpG岛的annotatedCpGIslands,shores,shelves•CpG岛以外的CpG位点人类干细胞非CpG甲基化位点正常组织与肿瘤(多种癌症)组织差异甲基化位点编码区以外的CpG岛miRNA启动子区域和已通过GWAS的疾病相关区域的位点•探针介绍:有两种探针•Infinium1•InfiniumII•两种探针都记录了序列的甲基化以及非甲基化信号强度芯片的值•A探针(非甲基化)的数目U•B探针(甲基化)的数目M•β值或者m值β=m=log•检测的P值)(100UMM)ββ(-1•β值反映了能够和给定被甲基化的序列匹配的寡核苷酸的比率,序列中的甲基化率•“检测P-值”:它反映了每一个的CpG位点的检测时的信号强度,类似于判断是否在芯片上存在这个点。一般情况下,如果CpG位点的检测P-值(0.05),视为缺失值•M值可以消除探针不同而造成的影响靶的位置•基因:TSS200:转录起始位点上游200bpTSS15005'UTR、3'UTR、genebody、1stexon•CpG:IslandN_ShoreS_ShoreN_ShelfS_Shelf(2kb)芯片数据的记录•原始数据•注释信息:靶ID,探针序列,探针类型,靶ID,染色体号,SNP位点信息,RefGene数据库中对应的基因名(多个),在基因上的位置,相对于CpG岛的位置,index数据处理•数据提取数据过滤•根据检测的P值过滤掉75%的位点均大于0.05的样本•根据P值过滤点在样本中75%的样本均大于0.05的位点•过滤点含有空值、SNP位点以及在XY染色体上的位点划分区域•根据注释信息中的位置信息划分计算各位置的β值差异分析(根据分组)线性模型(与连续变量之间的关系)分析CPG位点和表型的关系