1第五章、生物信息学与基因芯片2生物信息学和基因芯片是生命科学研究领域中的两种新方法和新技术,生物信息学与基因芯片密切相关,生物信息学促进了基因芯片的研究与应用,而基因芯片则丰富了生物信息学的研究内容。3第一节概述1、基因芯片简介4(1)基因芯片的基本原理及生物信息学的作用基因芯片(genechip),又称DNA微阵列(microarray),把大量已知DNA或寡核苷酸探针密集排列形成的探针阵列,并将经过标记的若干靶核酸序列(样品)通过与芯片特定位置上的探针杂交,便可根据碱基互补匹配的原理确定样本的基因序列、基因表达信息等。5基因芯片荧光标记的样品共聚焦显微镜获取荧光图象杂交结果分析探针设计杂交6基因芯片技术流程图芯片制作样品的制备显微光蚀刻压电打印分子打印原位合成芯片探针设计与制备支持物预处理探针打印探针固化DNA微集阵列样品核酸的提取与纯化扩增与标记标记样品的纯化杂交及杂交后清洗扫描与分析7根据探针的类型和长度,基因芯片可分为两类。其中一类是较长的DNA探针(100mer)芯片–这类芯片的探针往往是PCR的产物,通过点样方法将探针固定在芯片上,主要用于RNA的表达分析。另一类是短的寡核苷酸探针芯片–其探针长度为25mer左右,一般通过在片(原位)合成方法得到,这类芯片既可用于RNA的表达监控,也可以用于核酸序列分析。89载体材料要求:①载体表面必须具有可以进行化学反应的活性基团,以便与生物分子进行偶联。②使单位载体上结合的生物分子达到最佳容量。③载体应当是惰性的和有足够的稳定性,包括机械的、物理的和化学的稳定性。惰性:是指载体的其他性能或特异性吸附都不应该干扰生物分子的功能。稳定性:是指在进行分子杂交或结合时,可能遭受一定的压力或酸、碱条件而不发生变化。(2)基因芯片制备10实性材料硅芯片、玻片和瓷片等。膜性材料聚丙烯膜、尼龙膜、硝酸纤维素膜等。11支持物(载体)的预处理原因:支持物表面上要有一种合适的功能基团以连接探针,并使探针稳定地固定于支持物表面,以防止杂交后清洗时被洗脱。经处理后其表面衍生出氨基、醛基、异硫氰酸基及环氧基团。这些活性基团可与DNA分子中的磷酸基、氨基、羟基等基团形成离子键或共价结合而使打印在上面的DNA牢固地固定在支持物表面。支持物表面经处理后,可减少亲水性探针在其表面的扩散,因而提高了点阵密度。12一是玻片来源方便,经表面处理后可结合多种分子;二是适合光学检测要求。此外玻片还具有其它材料所不能比拟的优点:①玻片是一种耐用的材料,可在高温及用高离子强度溶液清洗;②玻片是非孔性材料,因此杂交体积可以减至最小,从而加快了探针与靶基因片段之间杂交和退火的动力学过程;③玻片的荧光信号本底低,背景干扰小13基因芯片的制备主要有两种基本方法:一是在片合成法:–在片合成法是基于组合化学的合成原理,它通过一组定位模板来决定基片表面上不同化学单体的偶联位点和次序。在片合成法制备DNA芯片的关键是高空间分辨率的模板定位技术和固相合成化学技术的精巧结合。14美国Affymetrix公司开发的寡聚核苷酸原位光刻DNA合成技术:采用的技术原理是在合成碱基单体的5’羟基末端连上一个光敏保护基,利用光照射使羟基端脱保护,然后逐个将5’端保护的核苷酸单体连接上去,这个过程反复进行直至合成完毕。此方法的优点是合成循环中探针数目呈指数增长。1516另一种方法是点样法:–基因芯片点样法首先按常规方法制备cDNA(或寡核苷酸)探针库,然后通过特殊的针头和微喷头,分别把不同的探针溶液,逐点分配在玻璃、尼龙或者其它固相基底表面上不同位点,并通过物理和化学的结合使探针被固定于芯片的相应位点。17(3)靶基因样品的制备及芯片杂交样品的准备过程包括从组织、细胞中分离纯化核酸样品,以及对待测样品中的靶基因进行特异性扩增。在扩增过程中,将耦联了荧光染料(Cy3、Cy5等)的核苷酸掺入到扩增产物中,对靶基因进行标记。18(4)杂交信号检测经荧光样品杂交后的芯片,荧光信号可经过荧光显微镜、激光共聚焦显微镜或激光扫描仪等进行信号的收集。收集后的信号,经过计算机处理,并与探针阵列的位点进行比较,可得出杂交的检测结果。19基因芯片的特点①微型化和自动化现已出现的芯片面积最大不过525cm2,最小仅有1cm2;每个阵列中阵点样品DNA的用量仅为0.5μg/μL左右;同时杂交和洗片等过程都可实现自动化,工作效率大幅度提高。②高度平行性基因芯片技术是将待研究的基因制作成芯片,并在同一张芯片上同时对实验组和对照组材料进行杂交分析,从而使实验结果具有可比性。③巨大的信息产出率在一张芯片上不仅可以获得组织、细胞、血液等基因表达信号的定性、定量分析,还可实现全局检测静态到动态、时间与空间上的差异及遗传信息。20④高度敏感性和专一性能可靠并准确检测出10pg/μL的DNA样品。⑤高度重复性一张由尼龙膜制作的微阵列,可以重复杂交使用多达20次。⑥强大的类比性使得以往需多次处理的遗传分析在同一时间和条件下快速完成。⑦哺育新的实验方法此技术易与其它常规生物技术相融合交叉。基因芯片这些独一无二的特点也代表了后基因组时代技术的发展方向。212、基因芯片对于生物分子信息检测的作用和意义在生命科学领域中,基因芯片为分子生物学、生物医学等研究提供了强有力的手段。利用基因芯片技术,可研究生命体系中不同部位、不同生长发育阶段的基因表达,比较不同个体或物种之间的基因表达,比较正常和疾病状态下基因及其表达的差异。基因芯片技术也有助于研究不同层次的多基因协同作用的生命过程,发现新的基因功能,研究生物体在进化、发育、遗传过程中的规律。223、基因芯片研究和应用中所涉及到的生物信息学问题提取什么信息如何提取信息如何处理和利用信息确定芯片检测目标芯片设计数据管理与分析23(2)生物信息学在基因芯片中的应用生物信息学在基因芯片中的应用主要体现在三个方面:–确定芯片检测目标–芯片设计–实验数据管理与分析24(3)基因芯片研究与应用中所要解决的信息学问题在基因芯片信息学方面要解决以下几个关键的问题:–第一是芯片设计问题–第二是可靠性分析问题–第三是数据挖掘问题25第二节基因芯片设计及优化1、基因芯片设计的一般性原则基因芯片设计主要包括两个方面:(1)探针的设计–指如何选择芯片上的探针(2)探针在芯片上的布局–指如何将探针排布在芯片上。26确定芯片所要检测的目标对象–查询生物分子数据库取得相应的DNA序列数据–序列对比分析找出特征序列,作为芯片设计的参照序列。27在进行探针设计和布局时必须考虑以下几个方面:(1)互补性(2)敏感性和特异性(3)容错性(4)可靠性(5)可控性(6)可读性282、DNA变异检测型芯片与基因表达型芯片的设计对于DNA序列变异分析,最基本的要求是能够检测出发生变异的位置,进一步的要求是能够发现发生了什么样的变化。从杂交的单碱基错配辨别能力来看,当错配出现在探针中心时,辨别能力强,而当错配出现在探针两端时,辨别能力非常弱。所以,在设计检测DNA序列变异的探针时,检测变化点应该对应于探针的中心,以得到最大的分辨率。293、cDNA芯片与寡核苷酸芯片的设计cDNA芯片设计的关键在于数据库的建立和数据库信息的利用以及各种文库的建立。cDNA芯片制备方法一般采用点样法,多用于基因表达的监控和分析。寡核苷酸芯片制备一般采用在片合成方法。优化是寡核苷酸芯片设计的一个重要环节,包括探针的优化和整个芯片设计结果的优化。304、基因芯片优化高密度寡核苷酸芯片设计的结果是形成芯片合成方案和步骤,产生制作掩膜板的CAD文件。高密度基因芯片制备的一个关键是掩膜板技术,利用掩膜板进行定位并控制探针的在片合成,从而得到很高的探针密度。但是制作掩膜板的代价较高,为了尽可能地提高基因芯片制备效率,需要对设计好的基因芯片进行优化,以减少制备芯片所需要的掩膜板个数,同时也减少芯片探针循环合成次数,这对于基因芯片应用有着重要的意义。31323334第三节基于芯片的序列分析1、测定未知序列早期基于芯片杂交的序列分析实验中,芯片上的探针是长度为k(一般为8)的所有寡核苷酸的组合。这是一种完备的探针集合,根据互补关系,通过各个探针的杂交结果确定DNA靶序列中存在的所有k长度片段,形成靶序列的k长度片段谱,然后根据这些片段重构靶序列。35362、直接检测目标序列在同一块芯片上设计多组探针,每一组探针分别检测一条目标序列,探针的长度在20到30之间。一般要求同一组探针之间相互独立,尽可能不重叠或少重叠,以提高探针的敏感性和特异性。373、DNA序列突变检测分析有两种方法可以进行已知突变点的分析:一种方法是对于目标序列上已知的突变点,以该点为中心,从目标序列选取一个片段,作为设计探针的参考序列。根据参考序列,分别设计四个高度特异的探针,这四个探针除中心位置外均相同并与参考序列互补另一种方法是对于目标序列上已知的突变点,分别设计四组探针,其中每一组探针分别检测一种核苷酸替换。同一组中的各个探针长度相同,相互之间交叠,并且每个探针均覆盖对应的突变点。3839为了进行SNPs研究,发现目标序列上可能出现的变化,最直接的方法就是根据已知的目标序列设计一系列寡核苷酸探针,其中每一个探针用于检测目标序列特定位置上的核苷酸是否发生变化,探察位置位于探针的中心。这种方法又称等长等覆盖移位法4、SNP分析40第二种方法为单核苷酸分析法。针对目标序列每个位置上所有可能出现的变化设计相应的探针。41第四节基于芯片的基因功能分析1、基因表达分析基因表达是根据基因的DNA模板进行mRNA和蛋白质合成的过程,各种基因的表达存在差异,一种组织中基因表达水平的差异可达1万倍。功能基因研究的一种重要的方法就是采用高通量基因表达检测技术,全面分析基因的表达水平,了解基因的功能。422、基因表达图谱基于芯片的表达监控实验产生大量的数据,在这些数据背后隐藏着丰富的基因相互作用、基因功能信息,需要通过细致的数据分析揭示这些信息,得到有益的结果这种根据基因芯片获得的新的表达图谱有别于以前的物理图和功能图,它能够更为直接地揭示基因组中各基因相互关系。433、寻找基因功能DeRisi等应用酵母cDNA基因芯片研究在有丝分裂和孢子状态下基因转录和表达水平的差异。Affymetrix公司制备的酵母基因表达型芯片,包括酵母基因组开放读码框中的260000个25mer探针阵列。Wodicka等采用这种基因芯片对不同生活状态下酵母细胞的基因表达进行了研究。44第五节基因芯片检测结果的分析1、荧光检测图像处理基因芯片与样本杂交以后,用图像扫描仪器捕获芯片上的荧光图像。在计算机中,一幅图像由二维象素点所组成,通常用一个8-bit的整数存贮象素点的灰度值,取值范围为[0,255],其中0代表“黑”,255代表“白”。45一个理想的基因芯片图像具有以下几个性质:(1)芯片单元的形状和尺寸相同;(2)每个单元的中心位于象素点上;(3)无灰尘等引起的噪声信号;(4)最小和均匀的图像背景强度。46网格定位结果472、检测结果分析如果芯片检测的目的是测定样本序列,则需要根据芯片上每个探针的杂交结果判断样本中是否含有对应的互补序列片段,并利用生物信息学中的片段组装算法连接各个片段,形成更长的目标序列。48如果芯片检测的目的是进行序列变异分析,则要根据全匹配探针以及错配探针在基因芯片对应位置上的荧光信号强度,给出序列变化的位点,并指明发生什么变化。49如果芯片检测的目的是进行基因表达分析,则需要给出芯片上各个基因的表达图谱,定量描述基因的表达水平,进一步的分析还包括根据基因表达模式进行聚类,寻找基因之间的相关性,发现协同工作的基因503、检测结果可靠性分析可靠性分析可以从两个方面进行:一是根据实验统计误差(如探针合成的错误率、全匹配探针与错配探针的误识率等),计算出基因芯片最终实验结果的可靠性。二是对基因芯片与样本序列杂交过程进行分子动力学研究,建立芯