保守序列

保守序列(英語:conserved sequences)在生物學中是指在核酸序列(如RNA及DNA序列)、蛋白質序列、蛋白質結構多聚糖序列內相似或相同的序列,這種情況可以發生在各物種間(種間同源序列)或由相同生物產生的不同分子(種內同源序列)間。對於物種間保守的情況,這意味着儘管物種形成一些特定的序列仍在進化過程中被保留了下來。也就是說系統樹越向上推,特定序列越保守。因為序列信息在通常情況下通過基因自雙親傳向子代,那麼一條保守序列即意味着存在着一條保守基因

用ClustalO生成出的哺乳動物組蛋白序列比對
這些序列是蛋白質中氨基酸120-180殘基。灰色高亮的殘基在所有序列中高度保守。在蛋白質序列下方標註為 保守序列 (*),保守突變(:),半保守突變 (.),或者非保守突變( )。[1]
保守殘基
保守序列殘基示例圖:小鼠體內不同G蛋白偶聯受體的序列比對。圖中紅色所示為高度保守的序列殘基。

人們普遍認為「高度保守」區域的突變會引發不能生存或無法延續的生命形式(例如血球生產、性成熟的重要基因失效),或是在自然選擇中消亡的生命形式(例如控制免疫表達的基因)。環境決定着基因的保守或非保守。例如,在有抗生素存在的環境下,微生物中的抗生素抗藥性基因將高度保守。如果環境中沒有抗生素的存在,這種基因將變成非保守基因。

核酸和蛋白質序列

高度保守的DNA序列被認為有功能型價值。人們對許多高度保守的非編碼DNA序列的功能還不甚理解。Bejerano和同事們在2004年第一次提出人類、小鼠和大鼠中的極端保守元素或序列(UCEs或者UCRs,高度保守區域)有100%的一致性。[2] 最近的一項研究顯示,缺少四個高度保守非編碼基因的序列的小鼠可以存活,而且和正常小鼠相比並沒有顯著的表型差異。作者將他們的發現描述為「意料之外」。[3]許多DNA區域,包括高度保守的DNA序列,由重複序列元素組成。一個可能的解釋是,如果假設在在維持基本的生命過程中,一個序列已經足夠,重複的序列都是多餘的,那麼只刪除一個或一個子集的重複序列理論上可以維持表型功能。但是在這篇文章中並沒有特別說明被移除的序列是不是重複序列。雖然許多保守序列的生物功能還是未知的,對少數保守序列轉錄表達的研究顯示,在人類的癌症組織中,它們的表達是反常的。[4]

 

種系甲基化可以被用於關閉基因表達。基因中的胞嘧啶(C)鳥嘌呤(G)二核苷酸序列是潛在的甲基化位點,一旦甲基化,將會部分影響基因的正常表達。甲基化的胞嘧啶(C)(5-甲基-胞嘧啶)脫甲基之後,將會轉變為胸腺嘧啶(T),然後錯誤的與鳥嘌呤(G)配對。之後,鳥嘌呤(G)會被腺嘌呤(A)取代,造成基因序列的改變。長久下來,5-甲基-胞嘧啶(C)很容易發生脫氨基反應,然後降低基因甲基化區域中的胞嘧啶鳥嘌呤(CG)頻率。然而,基因中的某些區域會有高密度的胞嘧啶鳥嘌呤二核苷酸(CG)序列存在,因為它們沒有被甲基化。沒有甲基化的過程允許了基因的正常表達。這些區域,通常被稱為CG島,據說是高度保守的序列。CG島被認為是高度保守的序列因為序列中的任何改變,例如甲基化,對生物體都是有害的。因此,CG島是在選擇壓力下存在的。相似的CG島可以在不同物種中的基因組中存在,表示這些序列已經存在了很長一段時間。

 
一種CpG島形成的假說圖解:通過未被甲基化,從而在漫長的進化史上保留下來

生物作用

基本的細胞功能、穩定或繁殖通常需要高度保守序列。序列的相似性可以用作結構、功能保守和序列中的演化關係的證據。因此,常常通過搜尋基因組中的保守序列來確定功能元素。 蛋白質編碼序列的保守導致蛋白質結構中相同氨基酸殘基在類似的區域中表達,因此也擁有相同的功能。保守突變把氨基酸改變為相似的化學殘基,所以可能並不影響蛋白質的功能。最高度保守的序列為活性位點和蛋白質受體的結合位點。

非編碼保守序列不編譯蛋白質,但是通常包含順式作用元件。高度保守序列在人類中有一些缺失 (hCONDELs)。普遍的觀點認為這一點是人類和其他哺乳動物存在解剖和行為差異的潛在原因。[5][6]TATA啟動子序列可以作為真核生物DNA序列高度保守的例子。

 
核心啟動子元素(圖中粉色部分為TATA盒

高分子碳水化合物序列

糖胺聚糖肝素的單糖序列在大量物種中保守。

應用

保守序列的研究對科學界是極其有利的。不同物種間的相似基因組序列的檢測可以提供關於這些物種的進化歷史的有用信息。此外,保守序列的檢測還有助於醫學研究。通過識別在保守序列中罕見的等位基因,信息可以用於編譯和評估人類疾病的風險。全基因組關聯研究項目(GWAS) 比較人類基因組中不同的等位基因在及其與特定疾病風險的關係。

分析方法

 
對CCDC132進行BLAST分析的結果
 
一個TMEM66蛋白的多序列比對的摘錄
使用ClustalW和從公共NCBI蛋白質數據庫得到的TMEM66蛋白序列所創建。

算法

分析軟件

MEGA(分子進化遺傳學分析)

MEGA軟件的目標一直是為了從進化學角度對脫氧核糖核酸(DNA)和蛋白質的探索,發現,和分析提供工具。1990年,MEGA的第一個版本——MEGA1就已經問世。最新的版本為MEGA7。可於MEGA官網免費下載。[7]

GERP(基因組進化速率評測)

GERP(基因組進化速率評測)是一種使用最大似然進化速率估計法對具體位點的進化限制進行估算的方法。這個評測只給出位點特異性得分,而不對元素進行預測。 [8]GERP分數用于衡量進化中跨物種基因序列的保守情況。序列的GERP分數和序列中等位基因突變的比例是有聯繫的。序列的GERP分數增加,意味着序列中的突變減少。高GERP分數意味着序列高度保守,因為改變是有害的,所以,不利的突變會損害機體的健康,從而會被選擇性針對。

GEPR++

GERP++是一款快速有效的利用深層多序列比對來提供核苷酸和元素雙級別的限制性分數的工具。它利用最大似然進化速率估算來對位點特異性進行評分的軟件。跟以往自下而上的分析方法不同,它採用一種新穎的動態編程方法隨後定義約束元素。 GERP++ 評估一個豐富的候選元素斷點集合,並基於統計學意義對其進行排名,從而不需要有偏擴展啟發式技術。[9]

GERP++軟件可在此網頁找到:http://mendel.stanford.edu/SidowLab/downloads/gerp/(英文)頁面存檔備份,存於網際網路檔案館[8]

數據庫

NCBI(美國國家生物技術信息中心)
Ensembl

參見

外部連結

參考文獻

  1. ^ Clustal FAQ #Symbols. Clustal. [8 December 2014]. (原始內容存檔於2016-10-24). 
  2. ^ Bejerano, G; Pheasant, M; Makunin, I; Stephen, S; Kent, WJ; Mattick, JS; Haussler, D. Ultraconserved elements in the human genome.. Science. 2004-05-28, 304 (5675): 1321–5. PMID 15131266. doi:10.1126/science.1098119. 
  3. ^ Ahituv N, Zhu Y, Visel A, et al. Deletion of ultraconserved elements yields viable mice. PLoS Biol. 2007, 5 (9): e234. PMC 1964772 . PMID 17803355. doi:10.1371/journal.pbio.0050234. 
  4. ^ Calin, GA; Liu, CG; Ferracin, M; Hyslop, T; Spizzo, R; Sevignani, C; Fabbri, M; Cimmino, A; Lee, EJ; Wojcik, SE; Shimizu, M; Tili, E; Rossi, S; Taccioli, C; Pichiorri, F; Liu, X; Zupo, S; Herlea, V; Gramantieri, L; Lanza, G; Alder, H; Rassenti, L; Volinia, S; Schmittgen, TD; Kipps, TJ; Negrini, M; Croce, CM. Ultraconserved regions encoding ncRNAs are altered in human leukemias and carcinomas.. Cancer Cell. September 2007, 12 (3): 215–29. PMID 17785203. doi:10.1016/j.ccr.2007.07.027. 
  5. ^ McLean, Cory Y.; et al. Human-specific loss of regulatory DNA and the evolution of human-specific traits. Nature. 10 March 2011, 471 (7337): 216–219 [2016-10-21]. PMC 3071156 . PMID 21390129. doi:10.1038/nature09774. (原始內容存檔於2011-09-02). 
  6. ^ Gross, Liza. Are "Ultraconserved" Genetic Elements Really Indispensable?. PLOS Biology. September 2007, 5 (9): e253 [2016-10-21]. PMC 1964769 . PMID 20076686. doi:10.1371/journal.pbio.0050253. (原始內容存檔於2014-05-02). 
  7. ^ Molecular Evolutionary Genetic Analysis Homepage. [2016-11-27]. (原始內容存檔於2016-11-27). 
  8. ^ 8.0 8.1 Genomic Evolutionary Rate Profiling at Sidow Lab. [2016-10-21]. (原始內容存檔於2017-01-14). 
  9. ^ Davydov, EV; Goode, DL; Sirota, M; Cooper, GM; Sidow, A; Batzoglou,. Identifying a High Fraction of the Human Genome to be under Selective Constraint Using GERP++. PLoS Comput Biol. December 2, 2010, 6 (12): e1001025. doi:10.1371/journal.pcbi.1001025. 

延伸閱讀