如何命名人类基因和蛋白朱丽芳一、命名法中包括的基因的种类和定义范围:共13种。(1)被确定为以单基因孟德尔性状遗传的表型,如BBS1(Bardet.Biedl综合征1,Bardet.BiedlSyndrome1)。(2)通过与已知标记连锁或相关分析所显示的贡献于复杂性状的未鉴定基因,如IDDM6(胰岛素依赖性糖尿病6,insulin.Dependentdiabetesmellitus6)。(3)具有足够的结构、功能和表达数据的克隆DNA片段,如COX8(细胞色素C氧化酶亚单位Ⅷ,cytochromeCoxidasesubunitⅧ)(4)假基因(即无功能基因拷贝),如IL9RP1(白介素9受体假基因1,interleukin9receptorpseudogene1)(5)由与一个已知基因重叠的反义链编码的基因,如IGF2AS(胰岛素样生长因子2,反义;insulin—likegrowthfactor2,Antisense):(6)转录但不翻译的功能DNA片段,如XIST(X(失活)一特异性转录本,X(inactive)-specifictranscript)。(7)与细胞表型相关的一个基因或若干基因,如LOH18CR(杂合性丢失,18,染色体区域1;lossofheterozygosity,18,chromosomalregion1)。(8)表明一个推测基因的EST簇,如C1ORF1(染色体1开放读框1,chromosome1openreadingframe1)。(9)表达序列片段,按基因组数据库的序数编号,如DXYS155E(附录1)。(10)由单个mRNA产生的多顺反子基因,但是它们具有独立的编码序列和各自的物理性质,以及不与其他编码序列重叠,如SNURF(SNRPN上游读框,SNRPNupstreamreadingframe)和SNRPN(小的核内核糖核蛋白多肽N,smallnuclearibonucleoproteinpolypeptideN):(11)享有高度相似序列的未知功能基因,如FAM7A1(序列相似性7家族,成员A1;familywithsequencesimilarity7,memberA1)。(12)与已知基因具有高度同源性的被预测基因(insilico),在已知基因符号后加L,如TCP10L[t-复合物10(小鼠)样基因,t-complex10(mouse)-like]。(13)在同一DNA链上发现的内部转录物:要注明所对应的基因和内部转录物,如COPG21T1(外被体蛋白复合物,亚基γ2,内含子转录物1;coatomerproteincomplex,subunitgamma-2,intronictranscript1)。二、基因全称命名规则(1)名字的开始应该应用小写字母,但有三个例外,即用人名表示疾病、表型或者是首字母的缩写(红色部分为全称的表示法)。标准的表示有:chromosome1openreadingframe1(染色体1开放读框1)特殊的情况:AHDS“Allan-Herndon-Dudley综合征,Allan-Herndon-Dudleysyndrome”,ABCA1“ATP-结合盒,亚家族A(ABC1),1号成员,ATPbindingcassette,sub-familyA(ABC1),member1”。(2)描述性的内容紧接在名字主干的后面,用逗号分开。如ACO1“顺乌头酸酶,可溶性的,应该写为aconitase1,soluble”(3)如果存在一个别名,也应该包括在这个名字里面,加上括号即可如,IDS“艾杜糖醛酸2-硫酸酯酶(Hunter综合征),应该表示为iduronate2-sulfatase(Huntersyndrome)”(4)其他种属的名称必须在最后写在括号内。如LFNG“边缘性精神错乱同源基因(果蝇),就应该写为lunaticfringehomolog(Drosophila)”ANLN“anillin,肌动蛋白结合蛋白(小片段同源,果蝇),anillin,actinbindingProtein(scrapshomolog,Drosophila)”。第三、基因符号命名规则1、普遍基因(1)人类基因符号为大写拉丁字母或其与阿拉伯数字的组合(除C#、ORF#符号外)。不用罗马数字(过去用的罗马数字要改为对等的阿拉伯数字).(2)理想的符号不超过6个字符。基因符号在书写时应用斜体或加下划线。但在目录中例外。(3)希腊字母不用作基因符号。所有过去用的希腊字母应转换为拉丁字母(见表1)。(4)前缀为希腊字母的基因名称应转换为对等的拉丁字母并放在基因符号的末端,具有类似性质的基因可按字母顺序排列,如GLA(半乳糖苷酶,α;galactosidase,alpha);GLB(半乳糖苷酶,β;galactosidase,beta)。(5)不使用标点符号(除HIJA免疫球蛋白和T细胞受体基因符号可用分字号外)(6)基因符号通常不表示选择性转录物,但当一组具有多个小编码序列形成多种不同的大的基因产物时,这些小的编码序列可用不同符号表示,如UGT1A1-UGT1A13(UDP糖基转移酶1家族,多肽A1至A13;UDPglycosyltransferase1family,polypeptideA1toA13),分别代表13个不同的基因符号。(7)应避免表示组织特异性或分子量。(8)应避免某些字母或字母组合作为基因符号的前、后缀而试图给出特定意义:(9)癌基因的符号是对应于逆转录病毒同源癌基因,但基因符号不加“v-”或“c-”前缀,全称要加如JUN“v-Jun肉瘤病毒17癌基因同源物(禽类),v—JunSarcomaVirus17oncogenehomolog(avian1)”,SRC“v-src肉瘤(Schmidt-RuppinA-2)病毒癌基因同源物(禽类);v-sresarcoma(Schmidt-RuppinA-2)viraloncogenehomolog(avian)”。2、同源基因(1)在不同脊椎动物中的同源基因应有相同的命名。(2)如果与非脊椎动物或原核生物同源,人类基因可用这些同源基因的名字,并可在后面加L表示类似的(like)和加上数字编号(如果在人中有多个同源基因)。(3)为了区分来自不同物种的同源基因,可在基因符号前加三字母代码。如HSA代表人类(Homosapiens),MMU代表家鼠(Musmusculus)。使用这些物种符号的基因符号的例子如(HSA)G6PD、(HSA)HBB、(MMU)A1b。(4)一些具有特殊用途的保留字一些字母或字母的组合放在基因符号的最后一个字母的后面表示特定的意义,如P代表假基因(但要注意BP代表结合蛋白),L代表类似的;R代表受体或调节因子,N或NH代表抑制子。3、DNA片段的命名DNA片段的命名一般由四部分组成。第一部分用D表示DNA;第二部分用0、1、2、...22、X、Y、XY表示DNA片段所在的染色体位置,其中0代表还不知染色体位置,而XY表示片段在X和Y染色体上都有该片段;第三部分表示用探针检测到的DNA片段的复杂程度,S代表这是一条独一无二的DNA片段,Z代表在染色体一个单一位置重复出现的DNA片段,F代表在多条染色体上都存在同源序列但还没有定义家族的DNA片段;第四部分为区分不同的DNA片段加上一个数字编号,比如微卫星DNA标签(microsatelliteDNAmarker)DXS990表示在X染色体上独一无二的编号990的DNA片段。4、染色体片段命名与人类C#orf#基因的同源基因来说,建议在小鼠身上使用相同的命名规则来分配人类D#片段的序号通过与人类DNA片段杂交得到的小鼠DNA片段可以在人类的符号前加上小鼠染色体序号做为前缀,并用H表示人类。如,人类D21S56基因在小鼠身上就叫D16H21S56同样,如果人类的C6orf19基因在鸡的16号染色体上,鸡的名称就应该是:C16H6orf19“16号染色体开放读码框,人类C6orf19,chromosome16openreadingflame.humanC6orf19”5、有些基因家族和超家族有自己专门的命名小组例如,细胞色素P450基因超家族用“CYP”为头命名所有超家族成员,以数字区分家族成员,再用字母加数字表示亚家族成员,如CYP2C38等。其它一些有自己专门命名规则的还有HLA、CD抗原及磷酸二酯酶等。