医学生物信息学与生物医学工程BioinformaticsformedicineandBiomedicalEngineering王炜博士博导、教授生物医学工程研究所兰州大学课程介绍参考书:《生物信息学札记》樊龙江Bioinformatics.DavidW.mountBioinformaticsforGeneticists.MichaelR.Barnes,IanC.Gray课程主要内容:1.医学生物信息学(主要考试内容)2.生物医学工程介绍(次要考试内容)信息学基础FundamentofInformatics绪论常见的信息形式1)文字、数字、图表0102030405060708090第一季度第三季度东部西部北部一季度二季度三季度200027830124320013094324332002455477234FormofInformation2)图形与图像根据采集的生理信号计算机模拟的心电图形GraphandImages根据数学公式计算机画出的平面图形根据信号数据计算绘出的曲线图根据数学公式计算机画出的3D图形根据X线的吸收数据计算机画出的CT影像Images显微照相得到的细胞图像记录的含有噪音的数字语音信号和除去噪音的信号信息的来源通过人的认知功能,直接或思维感知记录信息。如:各种绘制的图形图像、数字,描述等。在认知的基础上通过仪器直接获取信息。如:照片、图像各种所测到的原始信号。通过人的智慧创作出信息。如:分析后的数据、文字、数字合成图像、信息融合图像、各种从原始信号变换而来的信号。SourceofInformation采集信息所需要的设备计算机各种传感器扫描仪摄像机数码相机信号采集器软件系统数据库系统网络系统信息采集常用信息技术InformationTechnology信息技术的内容ContentsofInformationTechnology计算机与网络技术数字化及数字信号处理技术人工智能与模式识别技术、信息融合。多媒体技术、计算机视觉技术光学技术、传感器技术数据库技术、软件技术ComputerandApplication计算机的应用(10)脑科学研究与学习辅助教育:ComputerandApplication计算机的应用(9)数字化与数字信号处理(2)一维信号:DigitalTechnology二维信号处理:去噪DigitalTechnology图像分割DigitalTechnology直方图分析DigitalTechnology人工智能、模式识别及信息融合(1)人工智能:ArtificialIntelligenceAndModelIdentification人工智能、模式识别及信息融合(2)ArtificialIntelligenceAndModelIdentification智能识别神经网络模型传感器计算机系统驱动设备专家系统操作对象状态指令模式识别:利用人的知识库,通过数学模型让计算机识别一定的事务。如:文字识别,指纹识别,语音识别,细胞记数,基因蛋白质序列、智能控制与信息处理等其它各种电脑自动分析系统。人工智能、模式识别及信息融合(2)ArtificialIntelligenceAndModelIdentification信息融合:脑功能图与形态图形融合ArtificialIntelligenceAndModelIdentification人工智能、模式识别及信息融合(3)医学信息学DigitalTechnology-医学信息学信息融合与模式识别脑科学中的应用脑电信息融合的认知动力学Bioinformatics基因序列分析-生物信息学Bioinformatics基因位点分析-生物信息学Bioinformatics质粒位点分析-生物信息学信息融合与模式识别领域典型应用生物信息学产生的背景1、人类基因组计划的完成第一个人类染色体全序列--第22号染色体的测序工作已经在1999年12月完成,人类基因组计划工作草图已完成。给基因组组织结构和信息结构的研究工作提供了大量的第一手材料,同时为基因组研究取得突破性进展提供了可能。目前在数据库中模式生物全基因组序列越来越多。人类对基因的认识,将从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置、结构和功能上的相互关系。绪论--生物信息学产生的背景人基因组测序完成后,基因组研究已进入全面信息提取和数据分析阶段,即生物信息学发挥重要作用的阶段-后基因时代。功能基因组和蛋白质组的大量数据已开始涌现。如何分析这些数据,从中获得生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。很多模式生物基因组,如果蝇基因组1.2亿碱基对的编码区于2000年2月测序并组装完成。绪论--生物信息学产生的背景GenBank中的DNA碱基数目呈指数增加。1999年12月其数目已达30亿,它们来自47000种生物。2001年初这一数目已达110亿。UniGene的数目约达7万个。1999年初单核苷酸多态性数据库出现以来,已超过600万。自全长1.8Mb的嗜血流感杆菌基因组序列于1995年发表以来,已有54个模型生物的完整基因组完成了测序,有9个古细菌、31个原核真细菌、14个真核生物的完整基因组或它们的完整染色体,其中包括酿酒酵母和线虫。还有另外的70余个微生物基因组正在测试当中。2、基因测序数据高速积累绪论3、大量未知基因需要破解其功能人类基因组从第22号染色体已鉴定出679个基因,其中有35种疾病与该染色体突变相关,如免疫系统疾病、先天性心脏病和精神分裂症,但是其中55%的基因是未知的。信息量随计算机运算速度增长计算机运算速度:18个月增长一倍;DNA序列数据:14个月增长一倍3、生物信息的文献增长迅速根据PubMed数据整理,分子生物学和遗传学的文献积累从60年代中期的接近10万篇迅速增长至60年代末期的20多万篇,即在3-4年间就可以翻一番。到现在年,则增长至约150万篇4、生物信息数据库涌现美国的核酸数据库从1979年开始建设,1982年正式运行。欧洲分子生物学实验室的EMBL数据库也于1982年开始服务。日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的500亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。绪论—概念与定义生物信息学的内涵生物信息学是在基因组计划背景下发展起来的综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解释。它的拓展为蛋白质组信息学。绪论—概念与定义基因组信息学的定义Genomeinformaticsisascientificdisciplinethatencompassesallaspectsofgenomeinformationacquisition,processing,storage,distribution,analysis,andinterpretation,whichisessentialpartofbioinformatics.它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。是生物信息学的重要组成部分。绪论—概念与定义生物信息学产生与技术融合:1.生物学对生命现象认识的迅速发展2.信息技术与计算机技术的高速发展3.生物数学研究的深入4.生物学与信息科学方法交叉融合5.*神经信息学与脑科学的发展生物信息学绪论—广义生物信息学研究范畴生物遗传信息:DNA-RNA-PROTEIN,遗传信息的转录-翻译遗传信息与遗传生物信息学生物电磁学与电磁生物学:生命活动反映出的电磁信息电磁辐射对生命体产生的各种影响人体生物信号的检测与调制视觉与光信息处理:视觉神经元回路信息的处理与视觉编码视觉的认知与图像的智能模式识别,成像机制人体体免疫信息学:与免疫相关的人体免疫球蛋白,表达基因等相关的信息学绪论—广义生物信息学研究范畴脑与神经信息学:脑感知信息提取与应用脑认知系统的信息提取与信息处理新方法思维、逻辑、记忆、学习、形象思维模型的研究机器学习方法与神经网络算法的研究生物体结构与微光机电仿真研究:DNA驱动的微型机器人大分子—细胞结构组装信息的组织工程学研究分子聚集化学的研究生物芯片的研究:基因芯片、蛋白质芯片、组织芯片研究绪论—现代生物信息学研究范畴基因层次的生物信息学产生背景:1.生物学+物理学+信息科学+计算机2.快速序列测定、基因重组、多维核磁3.同步辐射、光电子学、纳米与机器人技术4.网络与海量存储设备的发展5.基因组DNA序列信息分析6.蛋白质空间结构模拟和预测7.蛋白质功能信息分析与药物设计核心内容:基因组信息的获取、处理、存储、分配和分析解释。关键任务:解读基因组的核算序列,确定基因在染色体上的确切位置,解释功能,用新基因进行蛋白质空间结构的模拟和预测,设计新药物。疾病层次的生物信息学1.研究基因表达与调控机制2.根据调控分子作用描述人类疾病诊断与治疗规律研究目标:基因组信息的复杂结构与遗传信息规律解释生命遗传规律关键:解释生物体基因组序列的组织结构和信息结构绪论—现代生物信息学研究范畴关键是读懂编码,破译功能CCGGTCTCCCCGCCCGCGCGCGAAGTAAAGGCCCAGCGCAGCCCGCGCTCCTGCCCTGGGGCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACAGACCCCTGTCGCCTTCGCCCCCCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATACGAACAAGGAAGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGGGGGCGGAGTCAACGGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCGAAATGAAAGCCCGGGAACGCCGAAGAAGCACGGGTGTAAGATTTCCCTTTTCAAAGGCGGGAGAATAAGAAATCAGCCCGAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACAGAGGGAATGGGGCAAGGAGCGAGGCTGGGGCTCTCACCGCGACTTGAATGTGGATGAGAGTGGGACGGTGACGGCGGGCGCGAAGGCGAGCGCATCGCTTCTCGGCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATATTAAATGGATTGATCAATCCGCTTCAGCCTCCCGAGTAGCTGGGACTACAGACGGTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCCCCTTGGTAGAGACGGGATTCCGCTATATTGCCTGGGCTGGTGTCGAACTCATAGAACAAAGGATCCTCCCTCCTGGGCCTGGGCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCGGGCGCACCACACCAGGAGCAAACACTTCCGGTTTTAAAAATTCAGTTTGTGATTGGCTGTCATTCAGTATTATGCTAATTAAGCATGCCCGGTTTTAAACCTCTTAAAACAACTTTTAAAATTACCTTTCCACCTAAAACGTTAAAATTTGTCAAGTGATAATATTCGACAAGCTGTTATTGCCAAACTATTTTCCTATTTGTTTCCTAATGGCATCGGAACTAGCGAAAGTTTCTCGCCATCAGTTAAAAGTTTGCGGCAGATGTAGACCTAGCAGAGGTGTGCGAGGAGGCCGTTAAGACTATACTTTCAGGGATCATTTCTATAGTG