遗传密码
遗传密码[1][2](Genetic code)又称遗传编码,是遗传信息的传递规则,将DNA或mRNA序列以三个核苷酸为一组的“密码子(codon)”转译为蛋白质的氨基酸序列,以用于蛋白质合成。几乎所有的生物都使用同样的遗传密码,称为“标准遗传密码”;即使是非细胞结构的病毒,它们也是使用标准遗传密码。有些具感染性的致病因子,使用一些稍微不同的遗传密码,如朊毒体以蛋白质为遗传密码。密码子简并性是遗传密码的突出特征。[3]
破解历史
自从发现了DNA的结构,科学家便开始致力研究有关制造蛋白质的秘密。伽莫夫通过计算指出需要以三个核酸一组才能为20个氨基酸编码[4]。1961年,弗朗西斯·克里克对T4噬菌体的某个基因中增加或删除碱基对。以该基因最终合成蛋白的情况。证明“以三个碱基对编码一个氨基酸”,以及遗传密码有固定起点,且以非重叠无分隔符形式阅读的特点。美国国家卫生院的J·海因里希·马特伊与马歇尔·沃伦·尼伦伯格在无细胞系统环境下,把一条只由尿嘧啶(U)组成的RNA转释成一条只有苯丙氨酸(Phe)的多肽,由此破解了首个密码子(UUU -> Phe)[5]。随后哈尔·葛宾·科拉纳破解了其它密码子,接著罗伯特·W·霍利发现了负责转录过程的tRNA。1968年,科拉纳、霍利和尼伦伯格分享了诺贝尔生理学或医学奖。
基因组的表达
一个生物体携带的遗传信息-即基因组-被记录在DNA或RNA分子中,分子中每个有功能的单位被称作基因。每个基因均是由一连串单核苷酸组成。每个单核苷酸均由碱基,戊糖(即五碳糖,DNA中为脱氧核糖,RNA中为核糖)和磷酸三部分组成。碱基不同构成了不同的单核苷酸。组成DNA的碱基有腺嘌呤(A),鸟嘌呤(G),胞嘧啶(C)及胸腺嘧啶(T)。组成RNA的碱基以尿嘧啶(U)代替了胸腺嘧啶(T)。三个单核苷酸形成一组密码子,而每个密码子代表一个氨基酸或停止讯号。
制造蛋白质的过程中,基因先被从DNA转录为对应的RNA范本,即信使RNA(mRNA)。接下来在核糖体和转移RNA(tRNA)以及一些酶的作用下,由该RNA范本转译成为氨基酸组成的链(多肽),然后经过转译后修饰形成蛋白质。详情参阅转译。
因为密码子由三个核苷酸组成,故一共有43=64种密码子。例如,RNA序列UAGCAAUCC包含了三个密码子:UAG,CAA和UCC。这段RNA编码代表了长度为3个氨基酸的一段蛋白质序列。(DNA也有类似的序列,但是以T代替了U)。
标准遗传密码如下表所示:由3个碱基对应到氨基酸的密码子表以及由氨基酸对应到3个碱基的反密码子表。
密码子表
RNA密码子表
氨基酸生化性质 | 非极性 | 极性 | 碱性 | 酸性 | 终止密码子 |
碱基1 | 碱基2 | 碱基3 | |||||||
---|---|---|---|---|---|---|---|---|---|
U | C | A | G | ||||||
U | UUU | (Phe/F) |
UCU | (Ser/S) |
UAU | (Tyr/Y) |
UGU | (Cys/C) |
U |
UUC | UCC | UAC | UGC | C | |||||
UUA | (Leu/L) |
UCA | UAA[B] | 终止(赭石) | UGA[B] | 终止(蛋白石) | A | ||
UUG | UCG | UAG[B] | 终止(琥珀) | UGG | (Trp/W)色氨酸 | G | |||
C | CUU | CCU | (Pro/P) |
CAU | (His/H) |
CGU | (Arg/R) |
U | |
CUC | CCC | CAC | CGC | C | |||||
CUA | CCA | CAA | (Gln/Q) |
CGA | A | ||||
CUG | CCG | CAG | CGG | G | |||||
A | AUU | (Ile/I) |
ACU | (Thr/T) |
AAU | (Asn/N) |
AGU | (Ser/S) |
U |
AUC | ACC | AAC | AGC | C | |||||
AUA | ACA | AAA | (Lys/K) |
AGA | (Arg/R) |
A | |||
AUG[A] | (Met/M) |
ACG | AAG | AGG | G | ||||
G | GUU | (Val/V) |
GCU | (Ala/A) |
GAU | (Asp/D) |
GGU | (Gly/G) |
U |
GUC | GCC | GAC | GGC | C | |||||
GUA | GCA | GAA | (Glu/E) |
GGA | A | ||||
GUG | GCG | GAG | GGG | G |
- A 密码子AUG同时编码甲硫氨酸并作为起始点:在信使RNA的编码区里,首个ATG的出现标志着蛋白质翻译的开始。[6]
- B ^ ^ ^ 标示终止密码子为琥珀、赭石和蛋白石的历史原因可在悉尼·布伦纳(Sydney Brenner)的自传[7]和鲍勃·埃德加(Bob Edgar)的一篇历史性文章中找到。[8]
氨基酸 | 密码子 | 缩写 | 氨基酸 | 密码子 | 缩写 |
---|---|---|---|---|---|
Ala/A | GCU、GCC、GCA、GCG | GCN | Leu/L | UUA、UUG、CUU、CUC、CUA、CUG | YUR、CUN |
Arg/R | CGU、CGC、CGA、CGG、AGA、AGG | CGN、MGR | Lys/K | AAA、AAG | AAR |
Asn/N | AAU、AAC | AAY | Met/M | AUG | |
Asp/D | GAU、GAC | GAY | Phe/F | UUU、UUC | UUY |
Cys/C | UGU、UGC | UGY | Pro/P | CCU、CCC、CCA、CCG | CCN |
Gln/Q | CAA、CAG | CAR | Ser/S | UCU、UCC、UCA、UCG、AGU、AGC | UCN、AGY |
Glu/E | GAA、GAG | GAR | Thr/T | ACU、ACC、ACA、ACG | ACN |
Gly/G | GGU、GGC、GGA、GGG | GGN | Trp/W | UGG | |
His/H | CAU、CAC | CAY | Tyr/Y | UAU、UAC | UAY |
Ile/I | AUU、AUC、AUA | AUH | Val/V | GUU、GUC、GUA、GUG | GUN |
起始 | AUG | 终止 | UAA、UGA、UAG | UAR、URA |
DNA密码子表
技术细节
起始和终止密码子
蛋白质的转译从初始化密码子(起始密码子)开始,但亦需要适当的初始化序列和起始因子才能使mRNA和核糖体结合。最常见的起始密码子为AUG,其同时编码的氨基酸在细菌为甲酰甲硫氨酸,在真核生物为甲硫氨酸,但在个别情况其它一些密码子也具有起始的功能。
在经典遗传学中,终止密码子各有名称:UAG为琥珀(amber),UGA为蛋白石(opal),UAA为赭石(ochre)。这些名称来源于最初发现到这些终止密码子的基因的名称。终止密码子使核糖体和释放因子结合,使多肽从核糖体分离而结束转译的程式。另外,在哺乳动物的线粒体中,AGA和AGG也充当终止密码子。
密码子简并性
大部分密码子具有简并性,即两个或者多个密码子编码同一氨基酸。简并的密码子通常只有第三位元碱基不同,例如,GAA和GAG都编码谷氨酰胺。如果密码子前两位相同,而且不管密码子的第三位为哪种核苷酸,都编码同一种氨基酸,则称之为四重简并密码子(fourfold degenerate codons);如果三位中的某一位有两种核苷酸使该密码子编码同一种氨基酸,则称之为二重简并密码子(twofold degenerate codons),一般第三位上两种等价的核苷酸同为嘌呤(A/G,或R)或者嘧啶(C/T,或Y)。只有两种氨基酸仅由一个密码子编码,一个是甲硫氨酸,由AUG编码,同时也是起始密码子;另一个是色氨酸,由UGG编码。
遗传密码的这些性质可使基因更加耐受点突变。例如,四重简并密码子可以容忍密码子第三位元的任何变异;二重简并密码子使三分之一可能的第三位的变异不影响蛋白质序列。由于转换变异(嘌呤变为嘌呤或者嘧啶变为嘧啶)比颠换变异(嘌呤变为嘧啶或者嘧啶变为嘌呤)的可能性更大,因此二重简并密码子也具有很强的对抗突变的能力。不影响氨基酸序列的突变称为沉默突变 。
简并性的出现是由于tRNA反密码子的第一位碱基可以和mRNA构成摆动碱基对,常见的情况为反密码子上的次黄嘌呤(I),以及和密码子形成非标准的U-G配对。
另一种有助对抗点突变的情况,是NUN(N代表任何核苷酸)倾向于代表疏水性氨基酸,故此即使出现突变,仍有较大机会维持蛋白质的亲水度,减低致命破坏的可能。
阅读框
“密码子”是由阅读的起始位点决定的。例如,一段序列GGGAAACCC,如果由第一个位置开始读,包括3个密码子GGG,AAA和CCC。如果从第二位开始读,包括GGA和AAC(忽略不完整的密码子)。如果从第三位开始读,则为GAA和ACC。故此每段序列都包括多个阅读框,每个都能产生不同的氨基酸序列(在上例中,相应为Gly-Lys-Pro,Gly-Asp,和Glu-Thr)。而因为DNA的双螺旋结构,每段DNA实际上有六个阅读框。 实际的框架是由起始密码子确定,通常是mRNA序列上第一个出现的AUG。
破坏阅读框架的变异(例如,插入或删除1个或2个核苷酸)称为阅读框变异,通常会严重影响到蛋白质的功能,故此并不常见,因为它们通常不能在演化中存活下来。
非标准的遗传密码
虽然遗传密码在不同生命之间有很强的一致性,但亦存在非标准的遗传密码。在有“细胞能量工厂”之称的线粒体中,便有和标准遗传密码数个相异的之处,甚至不同生物的线粒体有不同的遗传密码。支原体会把UGA转译为色氨酸。纤毛虫则把UAG(有时候还有UAA)转译为谷氨酰胺(一些绿藻也有同样现象),或把UGA转译为半胱氨酸。一些酵母会把GUG转译为丝氨酸。在一些罕见情况,一些蛋白质会有AUG以外的起始密码子。
真菌、原生生物和人以及其它动物的粒线体中的遗传密码与标准遗传密码的差异,主要变化如下:
密码子 | 通常的作用 | 例外的作用 | 所属的生物 |
---|---|---|---|
UGA | 中止编码 | 色氨酸编码 | 人、牛、酵母线粒体,支原体(Mycoplasma)基因组,如Capricolum |
UGA | 中止编码 | 半胱氨酸编码 | 一些纤毛虫(ciliate)细胞核基因组,如游纤虫属(Euplotes) |
UGA | 中止编码 | 硒半胱氨酸编码 | 人,大鼠,小鼠等哺乳体系 |
AGR | 精氨酸编码 | 中止编码 | 大部分动物线粒体,脊椎动物线粒体 |
AGA | 精氨酸编码 | 丝氨酸编码 | 果蝇线粒体 |
AUA | 异亮氨酸编码 | 蛋氨酸编码 | 一些动物和酵母线粒体 |
UAA | 中止编码 | 谷氨酰胺编码 | 草履虫、一些纤毛虫(ciliate)细胞核基因组,如嗜热四膜虫(ThermophAilus tetrahymena) |
UAG | 中止编码 | 谷氨酸编码 | 草履虫核细胞核基因组 |
UAG | 中止编码 | 吡咯赖氨酸编码 | 甲烷八叠球菌(Methanosarcina barkeri)核基因组,表达转甲基酶(methyltransferase) |
GUG | 缬氨酸编码 | 丝氨酸编码 | 假丝酵母核基因组 |
AAA | 赖氨酸编码 | 天冬氨酸编码 | 一些动物的线粒体,果蝇线粒体 |
CUG | 亮氨酸编码 | 丝氨酸编码 | 白色念珠菌(Candida albicans)等酵母的细胞核基因组 |
CUN | 亮氨酸编码 | 苏氨酸编码 | 酵母线粒体 |
按信使RNA的序列,在一些蛋白质里停止密码子会被翻译成非标准的氨基酸,例如UGA转译为硒半胱氨酸和UAG转译为吡咯赖氨酸,随著对基因组序列加深了解,科学家可能还会发现其它非标准的转译方式,以及其它未知氨基酸在生物中的应用。
遗传密码的起源
除了少数的不同之外,地球上已知生物的遗传密码均非常接近;这显示遗传密码应在生命演化的历史中很早期就出现,并且证明了所有生物都源自共同祖先。
现有的证据表明遗传密码的设定并非是随机的结果,对此有以下的可能解释1:
- 最近一项研究显示,一些氨基酸与它们相对应的密码子有选择性的化学结合力2,这显示现在复杂的蛋白质制造过程可能并非一早存在,最初的蛋白质可能是直接在核酸上形成。
摇摆特性
1966年,弗朗西斯·克里克提出了摆动假说(英文:wobble hypothesis)。即一组密码子可对应多个反密码子。因为第三对碱基对有时不遵守配对原则,称为摇摆碱基对。[5]
摇摆特性的碱基配对如下:
密码子第三对碱基 | 反密码子第一对碱基 |
G | C |
U | A |
A、G | U |
C、U | G |
摆动假说现已被多方实验证明。[5]
参考资料
- ^ 注解1: Knight, R.D.; Freeland S. J. and Landweber, L.F. (1999) The 3 Faces of the Genetic Code. Trends in the Biochemical Sciences 24(6), 241-247.
- ^ 注解2: Knight, R.D. and Landweber, L.F. (1998). Rhyme or reason: RNA-arginine interactions and the genetic code. (页面存档备份,存于互联网档案馆) Chemistry & Biology 5(9), R215-R220. PDF version of manuscript
- ^ 注解3: Brooks, Dawn J.; Fresco, Jacques R.; Lesk, Arthur M.; and Singh, Mona. (2002). Evolution of Amino Acid Frequencies in Proteins Over Deep Time: Inferred Order of Introduction of Amino Acids into the Genetic Code. Molecular Biology and Evolution 19, 1645-1655.
- ^ 注解4: Amirnovin R. (1997) An analysis of the metabolic theory of the origin of the genetic code. Journal of Molecular Evolution 44(5), 473-6.
- ^ 注解5: Ronneberg T.A.; Landweber L.F. and Freeland S.J. (2000) Testing a biosynthetic theory of the genetic code: Fact or artifact? (页面存档备份,存于互联网档案馆) Proceedings of the National Academy of Sciences, USA 97(25), 13690-13695.
- ^ 注解6: Freeland S.J.; Wu T. and Keulmann N. (2003) The Case for an Error Minimizing Genetic Code. (页面存档备份,存于互联网档案馆) Orig Life Evol Biosph. 33(4-5), 457-77.
其它参考资料
网路上有很多有关本题目的资料,由美国国家卫生院提供NCBI Bookshelf。
- Griffiths, Anthony J.F.; Miller, Jeffrey H.; Suzuki, David T.; Lewontin, Richard C.; Gelbart, William M. (1999). Introduction to Genetic Analysis (7th ed.). New York: W. H. Freeman & Co. ISBN 0-7167-3771-X
- Alberts, Bruce; Johnson, Alexander; Lewis, Julian; Raff, Martin; Roberts, Keith; Walter, Peter. (2002). Molecular Biology of the Cell (4th ed.). New York: Garland Publishing. ISBN 0-8153-3218-1
- Lodish, Harvey; Berk, Arnold; Zipursky, S. Lawrence; Matsudaira, Paul; Baltimore, David; Darnell, James E. (1999). Molecular Cell Biology (4th ed.). New York: W. H. Freeman & Co. ISBN 0-7167-3706-X
- 有关遗传密码演化的wiki (页面存档备份,存于互联网档案馆)
- NCBI网页,有关遗传密码的详细的说明 (页面存档备份,存于互联网档案馆)
参考文献
- ^ 存档副本. [2021-10-07]. (原始内容存档于2021-10-07).
- ^ 存档副本. [2021-10-07]. (原始内容存档于2021-10-07).
- ^ Shu, Jian-Jun. A new integrated symmetrical table for genetic codes. BioSystems. January 2017, 151: 21–26. Bibcode:2017arXiv170303787S. PMID 27887904. arXiv:1703.03787 . doi:10.1016/j.biosystems.2016.11.004.
- ^ Wang, Liming,; 王立铭,. Shang di de shou shu dao : ji yin bian ji jian shi = Human gene editing. 上帝的手术刀——基因编辑简史 Di 1 ban. Hangzhou. ISBN 978-7-213-07975-7. OCLC 1000575553.
- ^ 5.0 5.1 5.2 Paolella, Peter. 分子生物学导论. 分子生物学导论. Qing hua ta xue chu ban she. 2002. ISBN 7-302-05095-3. OCLC 298594848.
- ^ Nakamoto T. Evolution and the universality of the mechanism of initiation of protein synthesis. Gene. March 2009, 432 (1–2): 1–6. PMID 19056476. doi:10.1016/j.gene.2008.11.001.
- ^ Brenner S. A Life in Science (2001) Published by Biomed Central Limited ISBN 0-9540278-0-9 see pages 101-104
- ^ The genome of bacteriophage T4: an archeological dig. Genetics. 2004, 168 (2): 575–82. PMC 1448817 . PMID 15514035.