基因
基因(英語:gene),在生物學中是指「攜帶遺傳信息的基本物質單位」(基本遺傳單位)。而自從確定遺傳信息的分子載體為核酸後,基因即指能夠遺傳且具功能性的一段DNA或RNA序列,詳細來說,其為DNA或RNA大分子內一段編碼基因產物(RNA或蛋白質)的合成的核苷酸序列。
弄清其序列本身的過程叫基因測序。基因的結構由增強子、啟動子及蛋白編碼序列等組成,即基因產物可以是蛋白質(蛋白質編碼基因)及RNA,從而控制生物個體的性狀(差異)表現。在一個個體當中所有的基因總和叫基因組。在一個物種中所有等位基因的總合叫基因庫。在大多數真核生物中,基因分為細胞核基因及線粒體基因,綠色植物的葉綠體也含有獨立於細胞核的葉綠體基因組。人類約有兩萬至兩萬五千個基因。[1]
在真核生物中,染色體在體細胞中是成對存在的。每條染色體上都帶有一定數量的基因。一個基因在細胞有絲分裂時有兩個對列的位點,稱為等位基因,分別來自父與母。依所攜帶性狀的表現,又可分為顯性基因和隱性基因。
一般來說,同一生物體中的每個細胞體都含有相同的基因(除了已經分化的免疫細胞),但並不是每個細胞中的所有基因攜帶的遺傳信息都會被表現出來。控制基因表達的因素分為傳統的遺傳學(增強子,啟動子序列相關)因素及表觀遺傳學(DNA甲基化,組蛋白乙酰化和脫乙酰化及RNA干擾相關)因素。職司不同功能的細胞或不同的細胞類型中,活化而表現的基因也不同。在某一細胞類型當中所有被表達的基因叫轉錄組,所有編碼蛋白質的基因叫蛋白質組。通過即時聚合酶鏈式反應或染色質免疫沉澱-測序可得到轉錄組及蛋白質組的信息。用電腦處理基因序列的學科叫生物信息學。
人類基因組計劃(human genome project, HGP)是一項規模宏大,跨國跨學科的生物信息學項目。其宗旨在於測定組成人類染色體(指單倍體)的30億個鹼基對形成的核苷酸序列,從而繪製人類基因組圖譜,並且辨識其載有的基因,達到破譯人類遺傳信息的最終目的。該計劃起始於西元1990年,並於西元2000年完成。
「基因(gene)」一詞由丹麥植物學家、植物生理學家和遺傳學家威廉·約翰森於1909年提出。[2]它的靈感來自古希臘語:γόνος(gonos),意味著後代和繁殖。
歷史
早期對於遺傳物質的臆測
關於遺傳的物質基礎,科學家早就有所臆測,但在18世紀之前人們對基因遺傳只有非常有限的知識。1830年左右,基因遺傳「genetic」這個單詞才在英語中出現。當時農業已經非常發達,通過遺傳知識對牲畜育種已經開始出現,英國有個叫羅伯特·貝克韋爾綿羊育種專家培育出了一種叫萊斯特綿羊新的品種,萊賈斯特羊比以前的品種生長更快,同時可以產更多的肉。由於科學家很少,人們對遺傳的很多知識是來自於牲畜育種。
1864年,英國哲學家赫伯特·史賓賽曾提出「生理單位」說。1868年,達爾文將其稱為「微芽」,1884年瑞士植物學家馮內格列稱之為「異胞質」,1889年荷蘭學者雨果·德弗里斯稱為「泛生子」。1883年德國魏斯曼稱之為「種質」,並指明生殖細胞中的染色體便是種質,認為種質是遺傳的,體質則不遺傳,種質影響體質,而體質不影響種質。這在理論上為重新發現和廣為人們接受的孟德爾遺傳定律鋪平了道路。
概念的提出
遺傳學的奠基人奧地利人孟德爾,在布爾諾(今屬捷克)的奧古斯丁教派修道院的後院裡工作8年,於1865年2月的奧地利自然科學學會會議上報告了自己進行的植物雜交研究結果,第二年在奧地利自然科學學會年刊上發表了著名的《植物雜交試驗》論文,闡述了遺傳學的兩項基本規律——基因的分離定律和基因的自由組合定律。文中指出,生物的所有性狀都是通過遺傳因子來傳遞的,遺傳因子是一些獨立的遺傳單位。此理論把可觀察的遺傳性狀和控制它的內在的遺傳因子區分開來,遺傳因子於是作為基因的雛形名詞誕生了。基因的存在最早是由他在19世紀推論出來的,而不具有分子生物學的觀察基礎。在達爾文發表進化論後不久,孟德爾試圖通過對豌豆進行試驗來解釋該理論。但是直到19世紀末他的研究才被人們所重視。雖然孟德爾還不知道遺傳因子是以怎樣的方式存在,也不了解它的結構,但確實為現代基因概念的產生奠定了基礎。
可以說,遺傳因子實際上是孟德爾根據其實驗結果所假想的資訊載體,從那時起遺傳學家便踏上了尋找基因實體的艱難歷程。1903年沃爾特·薩頓和鮑維里兩人注意到在雜交試驗中遺傳因子的行為與減數分裂和受精中染色體的行為非常吻合,他們於是作出「遺傳因子位於染色體上」的「薩頓—鮑維里假想」:他們根據各自的研究,認為孟德爾的「遺傳因子」與配子形成和受精過程中的染色體的傳遞行為具有平行性,並提出了遺傳的染色體學說,認為孟德爾所假想的遺傳因子就位於染色體上,即染色體是遺傳物質的載體,第一次把遺傳物質和染色體聯繫起來。這種假想可以圓滿地解釋孟德爾的兩大遺傳規律,在日後的科學實驗中也得到了證實。1909年丹麥遺傳學家威廉·約翰森(1859~1927)在《精密遺傳學原理》一書中提出「基因」概念,以此來替代孟德爾假定的「遺傳因子」。從此,「基因」一詞一直在遺傳學中被沿用至今。約翰遜還提出了「基因型」與「表現型」這兩個含義不同的術語,初步闡明了基因與性狀的關係。不過此時的基因仍然是一個未經觀察佐證的,僅靠邏輯推理得出的概念。
「gene」的中文譯名「基因」同時是音譯和意譯,翻譯之巧妙十分難得,應該是優生學家潘光旦於1930年代翻譯的[3][4][5]。
結構和功能的探索
自1900年孟德爾定律重新發現後,「基因如何控制性狀」的問題引起了許多遺傳學家的濃厚興趣。經過他們的努力,又產出了一連串重要成果。
美國實驗胚胎學家、遺傳學家托馬斯·亨特·摩爾根和他的學生們於1908年前後開始利用果蠅作了許多實驗。他在1910年通過果蠅眼球顏色突變性狀的遺傳實驗發現了伴性遺傳現象,第一次揭示出一種或多種遺傳特性與某一特定染色體的明確聯繫;他和他的同事們進一步透過多次的果蠅雜交實驗發現了遺傳學的第三個基本規律——連鎖互換規律,從而繼承並發展了孟德爾的遺傳學說。他們為遺傳染色體學說提供了更充分、直接、可靠的證據,並認為染色體是盂德爾式遺傳性狀傳遞機制的物質基礎。1926年托馬斯的鉅著《基因論》出版,建立了著名的基因學說,他並繪製了果蠅的基因位置圖,首次完成當時最新的基因概念的描述,即基因以直線形式排列,它決定着一個對應的性狀,而且能發生突變並隨着染色體同源節段的互換而交換。
摩爾根等人還認為,基因是遺傳的功能單位,它能產生特定的表型效應;基因又是一個獨立的結構單位。在同源染色體之間可以發生基因的互換,但交換隻能發生在基因之間而不是發生在基因之內;基因可以發生突變,由一個等位形式變為另一等位形式,因而基因又是突變單位。這就是20世紀40年代以前流行的所謂「功能、交換、突變」三位一體的基因概念。這種認識把基因與染色體聯繫起來,說明了基因的物質性,基因存在的場所及排列方式,基因從此不再是一個抽象的概念。當然這時人們仍然不了解基因的化學本質以及基因是如何控制生物性狀的。
從20世紀40年代起,人們開始注意基因與性狀的關係,即開始研究基因如何控制性狀的問題,1941年,比德爾和塔特姆以紅色鏈抱霉為材料進行生化遺傳研究。他們通過誘變獲得了多種氨基酸和維生素的營養缺陷突變體。這些突變基因不能產生某種酶,或只產生有缺陷的酶。(例如,有一株突變體不能合成色氨酸是由於它不能產生色氨酸合成酶。)於是,研究者提出了「一個基因一種酶」的假說,認為基因對性狀的控制是通過控制酶的合成來實現的。這一假說在20世紀50年代得到充分驗證,後來發現有些蛋白質不只由一種肽鏈組成,如血紅蛋白和胰島素,不同肽鏈由不同基因編碼,因而在1941年比德爾和塔特姆提出一個基因一個酶的理論,證明基因通過它所控制的酶,決定着代謝中的生化反應步驟,進而決定生物性狀。又提出了「一個基因一條多肽鏈」的假設。「一個基因一種酶」和「一個基因一條多肽鏈」理論的提出,大大促進了分子遺傳學的發展,人們迫切期望能釐清基因的化學結構。1949年鮑林與合作者在研究鐮刀型細胞貧血症時推論基因決定着多肽鏈的氨基酸順序,如此這般,20世紀40年代末至50年代初,基因是通過控制蛋白質的合成以控制代謝,並決定性狀的原理,變得清晰起來。
雖然DNA在細胞核中很早就被發現,但證明其為遺傳物質的決定性實驗是1944年艾弗里的肺炎雙球菌轉化實驗。他和麥卡蒂等人發表了關於「轉化因子」的重要論文,首次用實驗明確證實:DNA是遺傳信息的載體。1952年赫希和蔡斯進一步證明遺傳物質是DNA而不是蛋白質。
這一實驗不僅證明了DNA是遺傳物質,揭示了遺傳物質的化學本質,也大大推動了對核酸的研究。1953年,美國分子生物學家詹姆斯·沃森和英國物理學家佛朗西斯·克里克根據威爾金斯和富蘭克林所進行的X射線衍射分析,提出了著名的DNA雙螺旋結構模型,進一步說明基因載體就是DNA。進一步的研究證明,基因就是DNA分子的一個區段。每個基因由成百上千個脫氧核苷酸組成,一個DNA分子可以包含幾個乃至幾千個基因。基因的化學本質和分子結構的確定具有劃時代的意義,它為基因的複製、轉錄、表達和調控等方面的研究奠定了基礎,開創了分子遺傳學的新紀元。
基因本質的確定為分子遺傳學發展拉開了序幕。1955年,美國分子生物學家本澤對大腸桿菌T4噬菌體作了深入研究,揭示了基因內部的精細結構,提出了基因的順反子(Cistron)概念。本澤把通過順反實驗而發現的,遺傳的功能單位稱為順反子,1個順反子決定一條多肽鏈,順反子即是基因。1個順反子內存在着很多突變位點——突變子,突變子就是改變後可以產生突變型表現型的最小單位。1個順反子內部存在着很多重組子。重組子就是不能由重組分開的基本單位。理論上每一核苷酸對的改變,就可導致一個突變的產生,每兩個核苷酸對之間都可發生交換。這樣看來,一個基因有多少核苷酸對就有多少突變子及重組子,突變子就等於重組子。這個學說打破了過去關於基因是突變、重組、決定遺傳性狀的「三位一體」概念及基因是最小的不可分割的遺傳單位的觀點,從而認為基因為DNA分子上一段核苷酸順序,負責着遺傳信息傳遞,一個基因內部仍可劃分出若干個起作用的小單位,即可區分成順反子、突變子和重組子。一個作用子通常決定一種多肽鏈合成,一個基因包含一個或幾個作用子。突變子指基因內突變的最小單位,而重組子為最小的重組合單位,只包含一對核苷酸。以上這些均是基因概念的偉大突破。
關於基因的本質確定後,人們又把研究視線轉移到基因傳遞遺傳信息的過程上。在20世紀50年代初人們已懂得基因與蛋白質間似乎存在着相應的聯繫,但基因中信息怎樣傳遞到蛋白質上這一基因功能的關鍵課題在20世紀60年代至20世紀70年代才得以解決。從1961年開始,尼倫伯格和科拉納等人逐步搞清了基因以核苷酸三聯體為一組編碼氨基酸,並在1967年破譯了全部64個遺傳密碼,這樣把核酸密碼和蛋白質合成聯繫起來。然後,沃森和克里克等人提出的「中心法則」更加明確地揭示了生命活動的基本過程。1970年霍華德·馬丁·特明以在勞斯肉瘤病毒內發現逆轉錄酶這一成就進一步發展和完善了「中心法則」,至此,遺傳信息傳遞的過程已較清晰地展示在人們的眼前。過去人們對基因的功能理解是單一的即作為蛋白質合成的模板。但是1961年法國弗朗索瓦·雅各布和雅克·莫諾的研究成果,又大大擴大了人們關於基因功能的視野。他們在研究大腸桿菌乳糖代謝的調節機制中發現了有些基因不起合成蛋白質模板作用,只起調節或操縱作用,提出了操縱子學說。從此根據基因功能把基因分為結構基因、調節基因和操縱基因。
結構基因和調控基因:根據操縱子學說,並不是所有的基因都能為肽鏈進行編碼。於是便把能為多肽鏈編碼的基因稱為結構基因,包括編碼結構蛋白和酶蛋白的基因,也包括編碼阻遏蛋白或激活蛋白的調節基因。有些基因只能轉錄而不能轉譯,如tRNA基因和rRNA基因。還有些DNA區段,其本身並不進行轉錄,但對其鄰近的結構基因的轉錄起控制作用,被稱為啟動基因和操縱基因。啟動基因、操縱基因與其控制下的一系列結構基因組成一個功能單位叫做操縱子(operon)。就其功能而言,調節基因、操縱基因和啟動基因都屬於調控基因。這些基因的發現,大大拓寬了人們對基因功能及相互關係的認識。
斷裂基因:20世紀70年代中期,法國生物化學家查姆幫(Chamobon)和波蓋特(Berget)在研究雞卵清蛋白基因的表達中發現,細胞內的結構基因並非全部由編碼序列組成,而是在編碼序列中間插入無編碼作用的鹼基序列,這類基因被稱為間隔或斷裂基因。這一發現於1977年被英國的查弗里斯和荷蘭的弗蘭威爾在研究兔β-球蛋白結構時所證實。1978年,生化學家沃特·吉爾伯特提出基因是一個轉錄單位的設想,他認為基因是一個DNA序列的嵌合體,同時包含兩個區段:一個區段將被表達並存在於成熟的mRNA中,稱為「外顯子」;一個區段由雖然也同時被表達,但將在成熟mRNA中被刪除,稱為「內含子」。近年來的研究發現,原核生物的基因序列一般是連續的,在一個基因的內部幾乎不含「內含子」,而真核生物中絕大多數基因都是由不連續DNA序列組成的斷裂基因。斷裂基因的表達過程是:整個基因先由DNA轉錄成前信使RNA,其中的內含序列會被一種稱為「剪接體」的RNA/蛋白質複合物所切除,兩端再相互連接成一條連續的核酸順序,以形成成熟的mRNA。DNA分子斷裂基因的存在為基因功能的展現賦予了更大的潛力。
重疊基因:長期以來,人們一直認為在同一段DNA序列內是不可能存在重疊的讀碼結構的。1978年,弗雷德里克·桑格在研究分析φX174噬菌體的核苷酸序列時,也發現由5375個核苷酸組成的單鏈DNA所包含的10個基因中有幾個基因具有不同程度的重疊,但是這些重疊的基因具有不同的讀碼框架。以後在噬菌體G4、MS2和SV40中都發現了重疊基因。基因的重疊性使有限的DNA序列包含了更多的遺傳信息,是生物對它的遺傳物質經濟而合理的利用。
假基因(偽基因):1977年,G·Jacp在對非洲爪贍5SrRNA基因簇的研究後提出了假基因的概念,這是一種核苷酸序列同其相應的正常功能基因基本相同,但卻不能合成出功能蛋白質的失活基因。假基因的發現是真核生物應用重組DNA技術和序列分析的結果。現已在大多數真核生物中發現了假基因,如Hb的假基因、干擾素、組蛋白、α球蛋白和β球蛋白、肌動蛋白及人的rRNA和tRNA基因均含有假基因。由於假基因不工作或無效工作,故有人認為假基因,相當人的痕跡器官,或作為後補基因。
移動基因:1950年,美國遺傳學家麥克林托卡在玉米染色體組中首先發現移動基因。她發現玉米染色體上有一種稱為Ds的控制基因會改變位置,同時引起染色體斷裂,使其離開或插入部位鄰近的基因失活或恢復恬性,從而導致玉米籽粒性狀改變。這一研究當時並沒有引起重視。20世紀60年代未,英國生物化學家夏皮羅和前西德生物化學家西特爾分別在細菌中發現一類稱為插入順序的可移動位置的遺傳因子,20世紀70年代早期又發現細菌質粒的某些抗藥性可移動的基因,到20世紀80年代已發現這類基因至少有20種。20世紀90年代之前,科學家終於用實驗證明了麥克林托卡的觀點,移動基因不僅能在個體的染色體組內移動,並能在個體間甚至種間移動。現已了解到真核細胞中普遍存在移動基因。基因移動性的發現不僅打破了遺傳的DNA恆定論,而且對於認識腫瘤基因的形成和表達,以及生物演化中信息量的擴大等研究工作也將提供新的啟示和線索。
概念的進一步發展
70年代後,基因的概念隨着多學科滲透和實驗手段日新月異又有突飛猛進的發展,主要有以下幾個方面:
- 基因具重疊性。1977年桑格領導的研究小組,根據大量研究事實繪製了共含有5375個核苷酸的ΦX174噬菌體DNA鹼基順序圖,第一次揭示了遺傳的一種經濟而巧妙的編排——B和E基因核苷酸順序分別與A和D基因的核苷酸順序的一部分互相重疊。當然它們各有一套讀碼結構,且基因末端密碼也有重疊現象(A基因終止密碼子TGA和C基因起始密碼子ATG重疊2個核苷酸;D基因的終止密碼子TAA與J基因起始密碼子ATG互相重疊1個核苷酸,順序為TAATG)。
- 內含子和外顯子。人們在研究小雞卵清蛋白基因時發現其轉錄形成的mRNA只有該基因長度的1/4,其原因是基因中一些間隔序列的轉錄物在RNA成熟過程中被切除了。這些間隔序列叫內含子,基因中另一些被轉錄形成RNA的序列叫外顯子。小雞的卵清蛋白基因中至少含7個內含子。因而從基因轉錄效果看,基因由外顯子和內含子構成。
- 管家基因和奢侈基因。具有相同遺傳信息的同一個體細胞間其所利用的基因並不相同,有的基因活動是維持細胞基本代謝所必須的,而有的基因則在一些分化細胞中活動,這正是細胞分化、生物發育的基礎。前者稱為管家基因,而後者被稱為奢侈基因。
- 基因的游動性。早在20世紀40年代美國遺傳學家麥克林托克在玉米研究中發現「轉座子」,直至1980年夏皮羅等人證實了可移位的遺傳基因存在,說明某些基因具有游動性。為此,這位「玉米夫人」榮獲了1983年度諾貝爾生理學或醫學獎。
突變
基因突變和許多疾病的發生有涉,如與腫瘤發生有涉的癌基因和腫瘤抑制基因。
從染色體的角度來看有:
|
以功能分類 :
|
以突變原理分類:
|
與脫氧核苷酸的牽連
- 基因的基本組成單位是脫氧核苷酸。
- 基因中脫氧核苷酸的排列順序稱為遺傳信息。
- 基因中脫氧核苷酸的排列順序的多樣性決定了基因的多樣性。
與DNA的牽連
- 基因是有遺傳效應的DNA片段,每個DNA分子有許多個基因。一個DNA分子上的鹼基總數大於該DNA分子上所有基因上的鹼基數之和。
- 基因具有遺傳效應是指其能控制生物的性狀。基因是控制生物性狀的結構和功能的基本單位,特定的基因控制特定的性狀。
與染色體的牽連
- 基因在染色體上呈線性排列。
- 染色體是基因的主要載體,但不是唯一載體,如粒線體,葉綠體中也有少量的DNA,也是基因的載體。
註釋
- ^ Eukaryotic Genome Complexity. Nature. [2021-07-21]. (原始內容存檔於2021-08-14).
- ^ Johannsen, W. (1905). Arvelighedslærens elementer ("The Elements of Heredity". Copenhagen). Rewritten, enlarged and translated into German as Elemente der exakten Erblichkeitslehre (Jena: Gustav Fischer, 1909; Scanned full text. (頁面存檔備份,存於網際網路檔案館)
- ^ 存档副本 (PDF). [2023-05-23]. (原始內容存檔 (PDF)於2019-07-12).
- ^ 存档副本. [2023-05-23]. (原始內容存檔於2022-10-07).
- ^ https://www.shobserver.com/sgh/detail?id=1018235
參考文獻
- 主要書籍
- Alberts B, Johnson A, Lewis J, Raff M, Roberts K, Walter P. Molecular Biology of the Cell Fourth. New York: Garland Science. 2002 [2020-02-12]. ISBN 978-0-8153-3218-3. (原始內容存檔於2017-09-27). – A molecular biology textbook available free online through NCBI Bookshelf.
延伸閲讀
- Watson JD, Baker TA, Bell SP, Gann A, Levine M, Losick R. Molecular Biology of the Gene 7th. Benjamin Cummings. 2013. ISBN 978-0-321-90537-6.
- Dawkins R. The Selfish Gene. Oxford University Press. 1990. ISBN 978-0-19-286092-7. Google Book Search; first published 1976.
- Ridley M. Genome: The Autobiography of a Species in 23 Chapters. Fourth Estate. 1999. ISBN 978-0-00-763573-3.
- Brown, T. Genomes 2nd. New York: Wiley-Liss. 2002 [2020-02-12]. ISBN 978-0-471-25046-3. (原始內容存檔於2020-11-06).
參見
外部連結
- Comparative Toxicogenomics Database(頁面存檔備份,存於網際網路檔案館)
- DNA From The Beginning – a primer on genes and DNA(頁面存檔備份,存於網際網路檔案館)
- Entrez Gene – a searchable database of genes (頁面存檔備份,存於網際網路檔案館)
- IDconverter – converts gene IDs between public databases (頁面存檔備份,存於網際網路檔案館)
- iHOP – Information Hyperlinked over Proteins
- TranscriptomeBrowser – Gene expression profile analysis
- The Protein Naming Utility, a database to identify and correct deficient gene names
- Genes (頁面存檔備份,存於網際網路檔案館) – an Open Access journal
- IMPC (International Mouse Phenotyping Consortium) (頁面存檔備份,存於網際網路檔案館) – Encyclopedia of mammalian gene function
- Global Genes Project美國國會圖書館的存檔,存檔日期2013-09-20 – Leading non-profit organization supporting people living with genetic diseases
- ENCODE threads Explorer(頁面存檔備份,存於網際網路檔案館) Characterization of intergenic regions and gene definition. Nature