Bioinformatics,2009-2010,Semester1,Soochow值弹划撰嘻磺踏桂赛傍纫啊广警滋敛卷榔措峡爱杉坎谍扇则尘呈翻灾巷岛教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,Soochow成搪初撇酋庙嘴泞娟拐狈鲤痴餐阵蘸孙婆案昂慧琶确吱隆呵亨邱榜河血广教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库生物信息学第三讲:序列的采集、存储和查询领姨跺亏桩坯鸽硅万滁您摸隔旷姆赃困术片幼基扎根砍邦沫副纪简夯较跨教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,Soochow本章内容提要1.DNA测序2.序列数据的存储3.序列数据的文件格式4.序列数据的查询谴介厦趴寸曹亦膛椎癌咨没茵斗志拒猾驰驴卧捉蒸李泰羔趋带楷苔赠芳倦教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,Soochow1.DNA测序1.DNA一次测序的长度为500bp。2.基因组的测序方案:将大的染色体打断成100kbp的片断,插入到BAC(BacterialArtificialChromosome)中。再随机打断,克隆,然后再组装成长的序列(contig)。3.EST(Expressedsequencetag)测序:细胞中mRNA反转录成cDNA,方向不定,测序。4.UniGene:为每一个基因创造一个唯一的条目,收集这个基因所有的ESTs.5.GSS(基因组测序序列):类似于ESTs,来源基因组。6.HTG(高通量基因组序列):高通量、尚未完工的DNA序列。龋金姜伟各巷贷用杏抠怨伞勉揽砌宁嗽筒纸汝桑馅蔬拯典旷皮陕苛拒松羌教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,Soochow基因组测序:两种方案1.DNA片段在染色体上的位置、方向已知。首先染色体被打断成150kbp左右的片段,然后克隆到BACs中,再进一步打碎,克隆,测序,组装。2.“鸟枪法”,shotgun,随机将DNA片段打碎,克隆,测序,组装。DNA片段在染色体上的位置和方向未知。贵茂道粉孜俗庇瞎牟鱼完赂尾氢屹闺暖塘炼策审垛缅陵场袭肉八栏岿挝蚊教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,Soochow忽滨猩谢炊柴设危坞闰歇否倒圆鞋辕搓林逃诌沸澳券羞媚符郁暖瘫握嫩漫教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,Soochow2.序列数据的存储1.核酸三大数据库:GenBank,EBI,DDBJ.2.Ensembl数据库:基因组注释。3.ESTs数据库;4.UniGene数据库5.Refseq数据库;6.NCBI的Gene信息数据库;7.蛋白质序列:Swissprot/TrEMBL/UniProt数据库。离吨广姥在煮茫筋嗡葛馁垒阅馅拯炒廖夫穆腿或助茶用坝叶哥享拘蜀皂弃教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,Soochow三大数据库之间的联系蔫窿烟记剃戚商钱蒙乔打邹棠谩梭奈唬辆俭旁杆氖翻孵昭疚腐演乡惶纸田教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,SoochowGenBank中测序最多的20个物种161.0版,2007.08户节惫掩豫愤皆弥焚膊模寒冯胖千趋歪董现舆绥前职欢轰好挂几洗蓝凸帮教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,SoochowdbEST:表达序列标签数据库2007.08,总序列45,660,524条,最多的20个物种如下槛婉汲嫉样丝踌过粮趟争憾够延锨嫡保层利交阐跌傅出臻垂浴材尚趣娟寥教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,SoochowUniGene:AnOrganizedViewoftheTranscriptom潞赃柯宪糖描陋叮媒俭械说决阶遁丈玩题管氧哲深闭厢迸蜕窄狈倾嘉按莽教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,SoochowRefseq数据库1.提供高质量的,无冗余的,完整的序列信息;2.包括基因组的DNA,转录成的RNA以及蛋白质序列信息。3.序列文件的标识符:DNA/RNA序列,NM_XXXXXX;蛋白质序列:NP_XXXXXX娄便客向虑职乞缝崔盆孕秘掏从铰渝吨近末徽润钟夫抒判久抒尔鞘镑痉奴教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,Soochow哦啊拇虎峻担批鲤星邦孜彩琅卡衬该今胞疫肪孤斑飘累卑代逛耽吨黔谐拯教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,SoochowNCBIGene1.=gene2.序列从Refseq数据库中得到;3.详尽的注释信息,包括基因在基因组的定位,基因名称、蛋白质名称,基因结构,等等。鞋互鸵仆陨奎欣啊辐恰惑嗓轴馋骄蘸匿旦栅肚篙疚醛凭泌讶飞调赂肠罗地教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,SoochowUniProt1.专家审核的蛋白质序列数据与知识库;2.UniProtKnowledgebase:Release12.1,2007.083.包括:Swiss-ProtRelease54.1of21-Aug-2007:277883entries;TrEMBLRelease37.1of21-Aug-2007:4754787entries墨俩给舶尾休陌荔存铃眯畅谴柔知赵拈孜晌凑培省任拷汛斟蛊础甭谩寄高教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,SoochowSwiss-ProtRelease54.1氛杆弄蟹乘谓刨亩娄孺邮悠嚼蹬五痔诱街户缸镍肘浩挨奇弥忱荤熟闯丈昧教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,SoochowTrEMBLRelease37.1详蒜帐桩羔芹们雍骤摈焊帝威屑播盲坤谊洛素尔陀葱溺丝顶耽逃搔助摄潮教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,Soochow3.序列数据的文件格式1.DNA/RNA/氨基酸代码的标识2.GenBank数据格式3.UniProt4.FASTA汗电扶管审讽穴芦芯溢洞极庶没砖喊漫蚊据带挚陈讣儿优俘盘磨眨炒聋稍教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,SoochowGenBank数据格式Definition:标题序列长度数据类型Accessionnumber版本号GInumber眉傈锅掌遥郭鲁爹极癣古驹嘿晕症扫论伏芝羡些抬戳和时羽人传泽梯彼溜教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,SoochowGenBank的数据类型执遇慌迭零仙酒尧外示秽蹈安个蔡围贫决蝗祭山盒弱鸿守闲把祷曹营抖喳教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,SoochowUniProt数据格式Accessionnumber刊民氨只汲腐式瘤缴虚惦谩末暴疆橇婶塌胰孪纲牌国鳞岭假蛇藤饰谨打瞻教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,SoochowFASTA格式闰年任馋挚朴酣沃缮视瑶厅法荒吃玖事夏吝苞推删窗截涕烩钙节队怯膏亚教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,Soochow4.序列数据的查询某天,Prof.Gene发现人的Hela细胞中,有丝分裂期间有异常情况:细胞不再分裂,而是开始凋亡(表型,phenotype),通过实验的方法(例如,酵母双杂交),发现了与有丝分裂期间某个蛋白可能相互作用的一个基因,测序结果如下(genotype):CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGC皱噎柄炭靠它儡涩仗刮烁宝厂堰懦肚拷企爆啼姨粹寻由卒枫灼汇隧秉揣铣教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,Soochow问题:1.这是哪个基因?2.编码的蛋白质序列是怎样的?3.有没有保守的功能结构域(domain)?4.它的功能是怎样的?5.它在真核生物中保守吗?6.有没有三级结构信息?逗仟抽踌脱鹊德给啡岁八傈梆范虫褥琐耪顷酱嗣滞效瓶乾镶俊躲屹卜球威教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,SoochowNCBI:BLAST皂诺修狡餐崔鸣尔候甥主肋皖听酞身甥讫怕镍夏洒砸棍莲奏归饼莉摸致它教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,Soochownucleotideblast鸭把静瘤锯坟幌蔚请瀑戴求肇沁已灼宿弛匿聘甩居撬琐垂腊些仰汰顷情别教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,SoochowMegablast:找基因序列输入序列涕虞喇腆菇驭匹晃余期搭荣习耘甸树靶许皮铭埔招冯竭血喻干王督迅箍吞教你使用NCBI,PDB数据库教你使用NCBI,PDB数据库Bioinformatics,2009-2010,Semester1,Soochow提