1.生物信息学:生物信息学是一门交叉学科。它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。研究内容:以基因组DNA序列信息为源头,识别基因组序列中代表蛋白质和RNA基因的编码区,阐明非编码区的信息特征,破译隐藏在DNA序列中的遗传语言规律;同时,归纳、整理与基因组遗传语言信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。研究方向:生物学数据的收集、存储、管理与提供(GenBank1.06*1011bps)基因组序列信息的提取和分析(非编码区)功能基因组相关信息分析生物大分子结构模拟和药物设计生物信息分析的技术与方法研究分子进化与比较基因组学研究方法:基于数据挖掘的方法,如:统计方法、机器学习、神经网络等。基于模拟分析的方法,如:发展前景:生物信息学将会揭示人类及重要动植物种类的基因的信息,为生物大分子结构模拟和药物设计提供巨大的帮助。生物信息学不仅对认识生物体和生物信息的起源、遗传、发育与进化的本质有重要意义,而且将为人类疾患的诊治开辟新的途径,还可为动植物的育种改良提供坚实的理论基础。生物信息学的发展已经超越了它最初的目标。现在可以说生物信息学的重要目标在于理解生物数据和揭示生命本质,但是它的前景仍然是不可估量的。可以肯定,在不远的将来,生物信息学的研究成果不仅被应用于生物、医学等相关领域,同时它将对其它学科,包括信息科学、数学、计算机科学物理学等的研究产生巨大的影响。认识:。。。。。。2.基因组:包含细胞或生物体的全套遗传信息的全部遗传物质3.Encodeproject:EncyclopediaofDNAElements(DNA元件百科全书)目的:该项目旨在解析人类基因组中的所有功能性元件4.1遗传图谱:又称为连锁图((linkagemap),是指基因或DNA标志在染色体上的相对位置与遗传距离,后者通常以基因或DNA片段在染色体交换过程中的分离频率厘摩(cM)来表示,cM值越大,两者之间距离越远。一般可由遗传重组测检结果推算。4.2物理图谱:是指标明一些界标(例如,限制酶的切点、基因等)在DNA上的位置,图距物理长度为单位,例如染色体的带区、核苷酸对数目等。5*.生物复杂性:复杂生物系统可以出现在生物界的各个层面上,包括分子水平、细胞水平、组织器官水平、个体水平、群体水平和生态系统水平。(可以逐个展开阐述:单分子层次遗传信息的表达:由DNA到RNA再到蛋白质,即序列决定结构,结构决定功能。分子网络层次遗传信息的表达:分子与分子的相互作用决定分子相互作用网络,然后又决定相应的功能。基因种类多、核酸种类多、调控机理复杂、复杂的基因调控网络、代谢网络;细胞间信号转导过程;生物个体全部基因表达变化、生物中的复杂网络、复杂过程、复杂现象……、)数据库6.1EBI的主要资源:ENA(核酸序列数据库),Ensembl(基因组),ArrayExpress(基因表达数据),UniProtKB蛋白质序列,InterPro(蛋白质家族/域/蛋白指纹等)PDBe(大分子结构)6.2NCBI的主要资源:书上P197.LAMP架构LAMP架构:L—Linux操作系统A—Apache网站服务器M—MySQL数据库P—PHP/Perl脚本语言8.1核酸数据库8.2蛋白质结构数据库8.3代谢途径数据库9动态规划把多阶段过程转化为一系列单阶段问题,利用各阶段之间的关系,逐个求解,从而对问题进行优化。适用动态规划的问题必须满足最优化原理和无后效性。1.最优化原理(最优子结构性质)最优化原理可这样阐述:一个最优化策略具有这样的性质,不论过去状态和决策如何,对前面的决策所形成的状态而言,余下的诸决策必须构成最优策略。简而言之,一个最优化策略的子策略总是最优的。一个问题满足最优化原理又称其具有最优子结构性质。2.无后效性将各阶段按照一定的次序排列好之后,对于某个给定的阶段状态,它以前各阶段的状态无法直接影响它未来的决策,而只能通过当前的这个状态。换句话说,每个状态都是过去历史的一个完整总结。这就是无后向性,又称为无后效性。3.子问题的重叠性动态规划将原来具有指数级时间复杂度的搜索算法改进成了具有多项式时间复杂度的算法。其中的关键在于解决冗余,这是动态规划算法的根本目的。动态规划实质上是一种以空间换时间的技术,它在实现的过程中,不得不存储产生过程中的各种状态,所以它的空间复杂度要大于其它的算法。10.蛋白质预测方法:蛋白质二级结构预测就是从蛋白质的一级序列出发,预测序列中各分子所属的二级结构类型。抽象出来看,就是从20种氨基酸组成的序列到3种二级结构类型(3类预测)或8种类型(8类预测)组成的序列的一个映射。预测结果的好坏就是看,谁构造的映射精确,并且泛化能力强。迄今,蛋白质二级结构预测算法共经历了三代。第一代是指上世纪六七十年代的工作,这些算法几乎全部都是基于单个氨基酸倾向性的。第二代算法大体是指上世纪九十年代之前的算法,此阶段的算法主要考虑的是3-5个相邻残基片段的倾向性,三类预测的准确率在60%多,此时已开始使用机器学习类算法。第三代预测算法是指上世纪九十年代之后的算法,此时蛋白质二级结构预测领域已经是机器学习类算法特别是人工神经网络的天下。这一代算法除了考虑残基片段的局部信息以外,还把从序列比对得到的进化信息(全局信息)结合进来,把3类预测的准确率提高到70%以上。这些算法通常的做法是,把待预测的序列拿去和蛋白质序列的无冗余库(nr)作比对,并以比对结果所给出的概貌(Profile)作为神经网络的输入,再由多层神经网络预测二级结构。11.人工神经网络:ANN(人工神经网络)是对BNN(生物神经网络)的结构及功能大大简化后保留主要特性的某种抽象与模拟,是BNN的数学模型,而非物理模型。人工神经网络具有四个基本特征:(1)非线性非线性关系是自然界的普遍特性。(2)非局限性一个神经网络通常由多个神经元广泛连接而成。一个系统的整体行为不仅取决于单个神经元的特征,而且可能主要由单元之间的相互作用、相互连接所决定。通过单元之间的大量连接模拟大脑的非局限性。(3)非常定性人工神经网络具有自适应、自组织、自学习能力。(4)非凸性一个系统的演化方向,在一定条件下将取决于某个特定的状态函数。人工神经网络中,神经元处理单元可表示不同的对象,例如特征、字母、概念,或者一些有意义的抽象模式。网络中处理单元的类型分为三类:输入单元、输出单元和隐单元。输入单元接受外部世界的信号与数据;输出单元实现系统处理结果的输出;隐单元是处在输入和输出单元之间,不能由系统外部观察的单元。神经元间的连接权值反映了单元间的连接强度,信息的表示和处理体现在网络处理单元的连接关系中。12.基因组分析:真核基因结构:真核基因的编码区是不连续的,又分为外显子和内含子,外显子能够转录出mRNA,编码出蛋白质,而内含子则不可以。真核基因的非编码序列包括非编码区的所有序列以及编码区里面的内含子。它们的非编码区虽然不能转录出mRNA,但是对基因的转录有调控作用,最重要的一个就是位于基因首端非编码区的启动子和尾端非编码区的终止子,分别起到驱动和终止转录的作用。原核基因结构:原核生物基因分为编码区与非编码区。非编码区上的基因决定某些性状是否表达,表达多少次以及何时开始表达。多元统计:研究多元变量的统计规律性,是一元统计学的推广,同时又有多元随机变量特有的问题1、降维问题(简化数据结构)(1)将某些较复杂的数据结构通过变量变换等方法使相互依赖的变量变成互不相关的变量(2)把高维空间的数据投影到低维空间,使问题得到简化的同时损失的信息不太多。【主成分分析、因子分析、对应分析】2、归类问题:对所考察的观测样本(或变量)按照相似程度进行分类、归类【聚类分析、判别分析】3、变量间的相互联系(1)相互依赖关系:分析一个或几个变量的变化是否依赖于另一些变量的变化。建立变量间的定量关系,并用于预测或控制【回归分析】(2)变量间的相互关系:分析两组变量间的相互关系【典型相关性分析】判别分析:判别分析是用于判别个体所属群体的一种统计方法。它的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新样本时,只要根据总结出来的判别公式和判别准则,就能判别该样本所属的类别。只依赖于样本信息的基本判别方法为距离判别法(马氏距离、欧氏距离等)。若还依赖于先验信息,则有贝叶斯判别方法。判别分析作为一个强有力的统计模式识别方法在DNA序列的模体寻找中得到应用。依据样本类边界的形状,判别分析简单地分为线性判别和非线性判别。线性判别如Fisher判别,应用最多,而在非线性判别中,二次判别曾被用来识别人类基因组中的编码区。关于判别分析在DNA序列分析中的应用,可以参看张奇伟的综述。Fisher判别:基本思想:将m组n维的数据投影到某一个方向,使得投影后的组与组之间尽可能地分开。局限:可能陷入局部最优的判别结果;对数据属性各变量的要求较为苛刻,如正态性、相互独立性等;对于类别数目太多的判别问题,采用逐级判别比较麻烦。距离判别:基本思想:样品与哪一类总体的距离最近,就判别它属于哪一类总体。距离的定义:绝对距离相对距离马氏距离:21(,)()()dXGXXSXX欧式距离:2(,)()()dXGXXXX聚类分析的定义:在不清楚研究对象总体的类别数目未知,也不知总体样本的具体分类情况下,通过分析,选定描述个体相似程度的统计量、确定总体分类数目、建立分类方法,对研究对象给出合理的分类。建立合适的分类方法:(1).将一批样本按照亲疏程度进行分类(Q型聚类)(2).将样本的多个变量按照相似程度进行分类(R型聚类)系统聚类:动态聚类:有序样本聚类:模糊聚类:图论聚类:隐马尔科夫模型(基于概率的方法)隐马尔科夫模型,是在马尔科夫模型的基础上,增加了输出概率,即在某一特定状态下,以一定的概率输出一个值。输出的值也称为观察值,相对地,把产生观察值的状态,称作隐含状态(hiddenstates)。在生物序列分析中,观察值的集合也是离散的。隐含状态到输出值的概率用输出概率矩阵(confusematrix)来表示。若隐含状态数为n,观察值的数目为m,则输出概率矩阵的大小为n×m。隐马尔科夫模型有三个基本问题,即评估问题、解码问题和学习问题,分别用向前算法、韦特比(Viterbi)算法和向前向后算法来解决。在基因识别中,一般选取编码、非编码、编码之补等状态作为隐含状态,而观察值就是四种核苷酸A、C、G、T。而从DNA序列中识别出编码区的问题,就是一个解码问题,用韦特比算法求解。因为,韦特比算法也是基于动态规划的,因此,运算量为O(n2)。隐马尔科夫要解决的三个基本问题:评估问题、解码问题、学习问题具体应用看书P232看一下向前算法、viterbi算法、HMM的优缺点基因组:Genome,一般的定义是单倍体细胞中的全套染色体为一个基因组,或是单倍体细胞中的全部基因为一个基因组。转录组:转录组(transcriptome)广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。蛋白质的二级结构:蛋白质的二级结构包含局部残基之间由氢键所调节的相互作用。最普遍的二级结构就是α-螺旋及β-折叠,此外还有β-转角和无规卷曲。蛋白质的结构域:结构域(StructuralDomain)是介于二级和三级结构之间的另一种结构层次。通常都是几个超二级结构单元的组合,是蛋白质多肽链在二级结构的基础上进一步卷曲折叠成几个相对独立的近似球形的组装体。HGP:人类基因组计划多元统计在生物信息中的应用参数统计量选择的标准:1.无偏性2.有效性3.相合性4.充分性和完备性基因组图谱:将基因在染色体上的分布状态、排列顺序等综合一起而绘成的图谱。假基因:(pseudogene)具有与功能基因相似的序列,但由于有许多突