WGS原理目录分子标记与DNA变异全基因组重测序—实验全基因组重测序—分析全基因组重测序—应用遗传标记遗传标记是指在遗传分析上用作标记的基因,也称为标记基因。形态学标记细胞学标记生物化学标记免疫学标记分子标记遗传标记(geneticmarker)概念:指可追踪染色体、染色体某一节段、某个基因座在家系中传递的任何一种遗传特性。两个基本特征:可遗传性和可识别性某种生物的任何有差异表型的基因突变型均可作为遗传标记。•株高、穗形、粒色或芒毛等外部形态特征的相对差异。形态标记•染色体核型(染色体数目、结构、随体有无、着丝粒位置等)和带型(C带、N带、G带等)的变化。细胞学标记•基因表达产物——同工酶、等位酶等的差异。生化标记•核苷酸序列的差异分子标记多态性(Polymorphism)——-群体内同一DNA序列的两种或多种变异形式,统计表明:群体内任何两个生物个体平均每1000~10000个碱基对有一对有差别,这种差别就是多态性。突变(Mutation)——指DNA水平的可遗传的变异,不管这种DNA变异能不能导致可检测的表型或生化改变。突变产生的变异是自然选择的基础。可遗传的突变在群体中扩散从而产生多态性。以个体间核苷酸序列变异为基础的遗传标记是DNA水平遗传多态性的直接反映能直接反映生物个体或种群间基因组DNA间的差异1.直接以DNA的形式表现,不受组织、发育阶段、季节、环境等因素的限制,不存在表达与否等问题,表现稳定2.数量极多,遍布整个基因组3.多态性高,自然界存在许多等位变异4.许多标记表现为共显性的特点,能区别显性纯合体和杂合体,对隐性农艺性状的选择十分便利5.表现为中性,不影响目标性状的表达,与不良性状无连锁6.检测手段简单、迅速7.差异发生于同源染色单体之间构建遗传连锁图谱分子标记辅助选择育种基因定位基因克隆植物遗传多样性分析品种和品质纯度鉴定及遗传纯度的测定疾病检测•RFLP•RAPD、ISSR、SSR、SCAR、SRAP•AFLP、CAPS•SNPDNA变异基本类型SNP•单核苷酸多态性INDEL•小片段的插入缺失SV•大片段的基因组结构变异CNV•基因组片段的拷贝数变异目录分子标记全基因组重测序—实验全基因组重测序—分析全基因组重测序—应用基因组重测序1.什么是基因组重测序•基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。2.重测序原理•基于测序序列与参考基因组间的比对,发现样品与参考基因组间的变异位点,如SNP、InDel、SV等3.重测序必要条件•已知物种基因组•待测物种与参考序列物种足够接近实验部分随机打断加入接头片段选择桥式PCR上机测序关键参数PE测序,测序读长151bp插入片段大小:360bp下机数据格式:Fastq格式测序深度:对基因组每个碱基的次数测序覆盖度:基因组上深度不为0的碱基比例测序深度与覆盖度根据1988年提出的Lander-Waterman模型:测序深度达到5X即可达到99%以上的覆盖度。碱基平均测序深度基因组未覆盖率基因组覆盖率13.68E-0163.21%21.35E-0186.47%34.98E-0295.02%41.83E-0298.17%56.74E-0399.33%104.54E-05100%153.06E-07100%双端测序对于一个DNA片段的两侧同时进行测序,完成测序reads的测序优点:双端信息:能够跨越一段序列插入片段信息:无法预知具体序列信息,可以预知长度大小read1read2全基因组重测序——分析序列比对SNP检测INDEL检测SV检测CNV检测功能注释序列比对根据reads与参考基因组的相似性将reads定位到染色体上的过程比对软件比对特点:短序列局部比对,遇到重复比对随机输出一个位置比对情况:双端序列比对到一条染色体上双端序列比对到不同染色体上单端序列比对上,另一端未比对上双端序列均未比对上软件发表年代PMIDSOAP200818227114Maq200818714091BWA200919451168Bowtie200919261174NovoAlign2009Subread201323558742比对原理将基因组拆分为若干个具有互相overlap的片段—indexReads与已经拆分好的片段进行比对,找到最优的比对位置DNA使用BWARNA或chip-seq使用Bowtie比对效率:比对到基因组上的reads/所有参与比对分析的reads变异检测SNPINDELSVCNVSNP由于单个核苷酸变异导致的序列碱基差异两种类型:转换:同型碱基的置换(嘌呤↔嘌呤、嘧啶↔嘧啶)(A↔G、T↔C);颠换:异型碱基的置换(嘌呤↔嘧啶)(AT↔TA/CG,GC↔CG/TA)SNP检测结合基因组同一碱基位置的A/T/G/C的出现次数和测序错误率,判断单一位点是为纯合/杂合Step1:reads比对到基因组上Step2:统计每个碱基上reads的ATGC出现的次数Step3:结合突变率和测序错误率对纯和和杂合进行判断Step4:确定高质量的SNP位点同义/非同义突变同义突变(synonymousmutation):由于生物的遗传密码子存在简并现象,密码子的核苷酸发生改变后,所编码的氨基酸种类保持不变。非同义突变(nonsynonymousmutation):密码子的核苷酸发生改变后导致编码的氨基酸改变。SNP功能INTERGENIC基因间区INTRAGENIC基因内(无转录本信息)INTRON内含子UPSTREAM基因上游区域(5K以内)DOWNSTREAM基因下游区域(5K以内)UTR_5_PRIME基因的5’UTR内UTR_3_PRIME基因的3’UTR内SPLICE_SITE_ACCEPTOR剪切受体突变(exon前2bp内)SPLICE_SITE_DONOR剪切供体突变(exon后2bp内)START_GAINED起始密码子获得(非编码区)START_LOST起始密码子丢失NON_SYNONYMOUS_START非同义的起始密码子突变SYNONYMOUS_CODING同义编码突变NON_SYNONYMOUS_CODING非同义编码突变SYNONYMOUS_STOP同义终止密码子突变STOP_GAINED终止密码子获得STOP_LOST终止密码子丢失样品间差异SNP概念:若某一SNP位点在样品间存在不一致的基因型,则认为是样品间差异的SNP。检测原理:比较同一SNP位点上各样品基因型是否完全一致。检测结果:#ChrPosRefR01R02chr0473CGCchr0801GTGchr0892GCGchr0963GRGchr01013CCYchr01231CYCchr02387GTGSmallINDEL指的是在基因组的某个位置上所发生的小片段序列的插入或者删除,其长度通常在50bp以下单端reads能够跨越,而不影响序列比对的InDelIndel功能INTERGENIC基因间区INTRAGENIC基因内(无转录本信息)INTRON内含子UPSTREAM基因上游区域(5K以内)DOWNSTREAM基因下游区域(5K以内)UTR_5_PRIME基因的5’UTR内UTR_3_PRIME基因的3’UTR内SPLICE_SITE_ACCEPTOR剪切受体突变(exon前2bp内)SPLICE_SITE_DONOR剪切供体突变(exon后2bp内)START_LOST起始密码子丢失FRAME_SHIFT移码突变(非3的整数倍插入或删除)CODON_DELETION密码子删除(3的整数倍)EXON_DELETED整个外显子被删除CODON_INSERTION密码子插入(3的整数倍)CODON_CHANGE_PLUS_CODON_DELETION非密码子边界上的3的整数倍的删除CODON_CHANGE_PLUS_CODON_INSERTION非密码子边界上的3的整数倍的插入STOP_GAINED终止密码子获得STOP_LOST终止密码子丢失Other由于gff文件中基因信息不完整/错误而无法得到准确的判断移码突变:在外显子区域非3的整数倍插入和缺失SmallINDEL检测step1:将reads不允许indel的方式比对到参考基因组上Step2:对于比对过程产生大量mismatch的比对序列进行重新进行允许indel比对Step3:确定其中能够确定的Indel位点,并根据测序reads的深度进行判定纯和和杂合Step4:对SNP位点和Indel位点进行筛选和过滤SV检测概念:基因组上发生的大片段插入、缺失、倒位、易位等类型的变异。软件:breakdancer检测原理:利用reads的pair-end关系进行检测SV检测将reads比对到参考基因组上,获得在基因组上的插入片段大小根据建库时理论的插入片段大小与pairend大小之间的差值,确定可能的SV位点依据SV在reads中的支持率,确定最终的SV大小和深度筛选其中高质量,高深度的SV作为最终的SVCNV由于基因组上拷贝数的变异所导致的差异位点拷贝数变异:基因组家族的扩张和收缩/转座子的复制/基因组复制类型:Duplicate:材料拷贝数多而基因组拷贝数少Deleltion:基因组拷贝数少而材料拷贝数多生信分析流程SNPINDELSVCNVCNVnator重复Breakdancer插入/缺失/倒位/异位SNPINDEL检测多个mismatchreads重新比对,降低比对错误率序列比对不允许Indel变异功能注释CNVcallingSVcallingSNP/INDELcallingIndelRealign原始数据比对思考题影响比对效率的因素有哪些影响SNP和INDEL检测准确度的因素有哪些影响SV检测准确度的影响因素有哪些