優(yōu)勝從選擇開始,我們是您最好的選擇!—— 中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)
0373-5939925
2851259250@qq.com
我要檢測 我要投稿 合法期刊查詢

深度學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)預(yù)測中的應(yīng)用及啟示

作者:王天堯 李劍鋒 來源:《高分子學(xué)報(bào)》日期:2022-06-15人氣:3801

天然蛋白質(zhì)通過調(diào)節(jié)一維氨基酸序列信息,能夠精準(zhǔn)地制備具有特殊的三維空間結(jié)構(gòu)的蛋白質(zhì)分子,實(shí)現(xiàn)特定的生理功能. 而蛋白質(zhì)結(jié)構(gòu)預(yù)測希望代替大自然通過各種方法從一維序列信息推斷其三維空間結(jié)構(gòu). 蛋白質(zhì)結(jié)構(gòu)預(yù)測問題提出至今已困擾我們五十多年[1~3].

自然條件下,蛋白質(zhì)總能在生物學(xué)相關(guān)時(shí)間尺度內(nèi)迅速而準(zhǔn)確地折疊到有限的幾種(大多數(shù)情形僅一種)三維空間結(jié)構(gòu)[1~5]. 這是一種在分子的隨機(jī)熱運(yùn)動(dòng)下蛋白質(zhì)大分子發(fā)生構(gòu)象變化折疊到自由能較低的結(jié)構(gòu),而這種穩(wěn)定的空間結(jié)構(gòu)被稱作為蛋白質(zhì)天然狀態(tài)(native state).

通常認(rèn)為蛋白質(zhì)折疊的驅(qū)動(dòng)力包括以下幾種[2~5]:氫鍵作用、分子間的范德華相互作用、殘基骨架扭轉(zhuǎn)角的選擇性、靜電作用、非極性基團(tuán)的厭水相互作用和構(gòu)象熵. 上述驅(qū)動(dòng)力可被統(tǒng)一地描述為“力場”或勢能函數(shù). 此勢能函數(shù)也被稱為蛋白質(zhì)折疊能量全景圖(protein-folding energy landscape). 而統(tǒng)計(jì)熱力學(xué)研究表明,此全景圖呈漏斗形[2,6~10]. 大部分未折疊構(gòu)象形成了高能量地勢較緩的平原;而少數(shù)折疊構(gòu)象形成能量低且地勢陡峭的漏斗底部.

Anfinsen熱力學(xué)假設(shè)[3]提出:折疊結(jié)構(gòu)信息蘊(yùn)含于能量景觀地形中,且天然態(tài)對(duì)應(yīng)于自由能全局最小值. 基于此假設(shè)的算法構(gòu)成了計(jì)算模擬利用勢能函數(shù)進(jìn)行蛋白質(zhì)折疊預(yù)測的基礎(chǔ). 現(xiàn)實(shí)中蛋白質(zhì)構(gòu)象能量景觀是復(fù)雜高維曲面,存在大量局部極小值,以前人們?cè)J(rèn)為這些極小值會(huì)使得最終折疊成天然狀態(tài)所需時(shí)間遠(yuǎn)長于目前觀測時(shí)長.

因而產(chǎn)生了著名的Levinthal佯謬[8,11]. 一方面,若假定蛋白質(zhì)在各個(gè)構(gòu)象停留時(shí)長相等,則會(huì)發(fā)現(xiàn)其通過隨機(jī)搜索方式折疊到天然態(tài)所需時(shí)間會(huì)隨序列長度指數(shù)增長;而另一方面,生命體系中蛋白質(zhì)總能非??斓卣业侥芰孔畹偷奶烊粦B(tài). 因此,存在矛盾. 事實(shí)上,人們發(fā)現(xiàn)蛋白質(zhì)會(huì)先近程地折疊成若干穩(wěn)定的二級(jí)結(jié)構(gòu),然后再進(jìn)一步折疊成全局結(jié)構(gòu),此分而治之(Divide and Conquer)的方法極大地縮短了搜索時(shí)長[2]. 另外在解決Levinthal佯謬過程中,簡化的HP蛋白質(zhì)格子模型起到了重要的作用[2,6,8,9].

理解了快速折疊的原理不代表解決了蛋白質(zhì)預(yù)測問題.

在傳統(tǒng)的蛋白質(zhì)折疊預(yù)測中,人們通常經(jīng)過構(gòu)造或選擇力場,從某非天然態(tài)出發(fā),用各種動(dòng)力學(xué)計(jì)算或模擬方法(例如分子動(dòng)力學(xué)模擬)演化其構(gòu)象,直至能量達(dá)到全局最小[1~3]. 但傳統(tǒng)預(yù)測方法會(huì)隨著殘基數(shù)目增加計(jì)算量迅速上升,事實(shí)上傳統(tǒng)方法對(duì)大多蛋白質(zhì)結(jié)構(gòu)預(yù)測都無能為力[12].

此困境一度讓蛋白質(zhì)折疊預(yù)測領(lǐng)域的人們絕望. 因此,人們不再依賴基于純粹物理機(jī)制的方法,而是采用結(jié)合數(shù)據(jù)驅(qū)動(dòng)的方式[13,14]. 最近十多年,這種結(jié)合數(shù)據(jù)驅(qū)動(dòng)的方法隨著深度學(xué)習(xí)在2012年的興起而愈受重視. 直至近3年,AlphaFold[12,15]的突然崛起,特別是AlphaFold 2預(yù)測蛋白質(zhì)的高準(zhǔn)確性甚至讓許多人相信蛋白質(zhì)折疊預(yù)測難題將被解決[14].

本文主要給非生命科學(xué)領(lǐng)域讀者介紹深度學(xué)習(xí)方法在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的應(yīng)用. 將選講幾個(gè)主要進(jìn)展,特別將重點(diǎn)介紹AlphaFold[12,15]. 根據(jù)受眾特點(diǎn),本文將在下一節(jié)列舉蛋白質(zhì)結(jié)構(gòu)預(yù)測的必要知識(shí). 然后,介紹一些深度學(xué)習(xí)相關(guān)的知識(shí). 緊接著介紹幾種主要的預(yù)測方法,最后介紹AlphaFold[12,15]的基本思路,以及本文作者在此方向的貢獻(xiàn)[16].

1 蛋白質(zhì)結(jié)構(gòu)預(yù)測的基礎(chǔ)知識(shí)

1.1 位置特異性打分矩陣PSSM

位置特異性打分矩陣(position-specific scoring matrix, PSSM)或位置權(quán)重矩陣(position weight matrix, PWM)[17]是蛋白質(zhì)及生物信息學(xué)里非常重要的統(tǒng)計(jì)量. 它主要衡量了不同氨基酸(或核酸)在蛋白質(zhì)(或DNA)上某個(gè)特定序列位置上出現(xiàn)的概率. 在一些機(jī)器學(xué)習(xí)預(yù)測蛋白質(zhì)的二級(jí)結(jié)構(gòu)類型時(shí)[18~25],常會(huì)將PSSM作為網(wǎng)絡(luò)的輸入. 但注意PSSM只包含殘基絕對(duì)位置屬性的信息,不包含不同殘基配對(duì)關(guān)聯(lián)信息.

圖1(a)以DNA為例,給出了統(tǒng)計(jì)PSSM矩陣的示意流程. 首先給定一個(gè)序列庫(例如針對(duì)基因庫的所有DNA數(shù)據(jù),或蛋白質(zhì)庫里所有可能的序列),圖中給出了由10個(gè)假想DNA序列組成的DNA庫;然后統(tǒng)計(jì)不同的核酸在特定位置出現(xiàn)的頻次矩陣(position frequency matrix, PFM);再根據(jù)PFM得到位置概率矩陣(position probability matrix, PPM);最后根據(jù)圖中公式算出位置權(quán)重矩陣PWM.

  

Fig. 1  Illustration of (a) position-specific scoring matrix (PSSM) and (b) multiple sequence alignment (MSA). (a) In this illustrative example, PSSM is computed using the formula given in the top right corner based on a DNA database consisting of ten DNA sequences. (b) Sequence alignment (SA) is trying to match the fragment pairs from the two given sequences as much as possible. In the alignment, inserting gaps "-" is allowed. Multiple sequence alignment (MSA) is SA on multiple sequences.


1.2 多重序列比對(duì)MSA

目前大多蛋白質(zhì)結(jié)構(gòu)預(yù)測的深度學(xué)習(xí)算法的輸入中都有多重序列比對(duì)信息(multiple sequence alignment, MSA)[12,15,26~39].

序列比對(duì)(sequence alignment)主要任務(wù)是針對(duì)查詢序列(query sequence)從數(shù)據(jù)庫中,用基因信息學(xué)的方法找到進(jìn)化樹上盡可能同源的序列,然后根據(jù)變異的氨基酸的相似程度,按照特定規(guī)則來給該序列與查詢序列的相似度打分.

某個(gè)序列的變異包括對(duì)序列中特定片段的插入、刪除和替換. 相對(duì)于查詢序列,當(dāng)庫里的蛋白質(zhì)序列變異很少時(shí),則兩者相似度高.

當(dāng)變異多時(shí),還需根據(jù)進(jìn)化同源的特點(diǎn)分類對(duì)變異片段進(jìn)行進(jìn)一步分析. 變異的氨基酸片段可分為保守片段(功能及化學(xué)特性相同)、半保守片段(功能及化學(xué)特性相近)和非保守片段(化學(xué)特性相差甚遠(yuǎn)). 顯然,若保守片段越多,表明與查詢序列越接近.

比對(duì)的目標(biāo)是通過恰當(dāng)?shù)夭迦肟掌?gap),使得插入空片段后的2個(gè)序列盡量相似(如圖1(b)左圖所示). 比對(duì)的方法有許多[27],例如動(dòng)態(tài)規(guī)劃(dynamic programming)和點(diǎn)陣法(dot-matrix method).

用上述比對(duì)方法對(duì)若干個(gè)給定的序列與查詢序列進(jìn)行比對(duì)就稱為多重序列比對(duì)(multiple sequence alignment, MSA). 通常可用軟件ClustalW, MAFFT, ClustalOmega以及MUSCLE等算法程序?qū)Χ鄠€(gè)序列進(jìn)行MSA比對(duì)[40~52].

而在蛋白質(zhì)預(yù)測中,通常會(huì)針對(duì)輸入的蛋白質(zhì)序列,從蛋白質(zhì)數(shù)據(jù)庫中找到與給定序列相近的若干個(gè)序列,然后再將這些MSA作為神經(jīng)網(wǎng)絡(luò)的輸入. 此信息相比于PSSM包含了更為豐富的信息. 可從MSA中看出目標(biāo)序列大致從哪些序列變異而來. 在深度學(xué)習(xí)中,MSA數(shù)據(jù)維度為(NseqNres, 21),其中Nseq為MSA包含序列的數(shù)目,Nres為目標(biāo)序列的長度,21用于分辨20種氨基酸和gap“-”的熱點(diǎn)表征(有時(shí)可能為22或23).

1.3 接觸圖與距離圖

圖2所示,圖2(b)與2(c)是一個(gè)HP蛋白質(zhì)模型結(jié)構(gòu)[39]的接觸圖(Contact Map)與距離圖(Distogram). 其中接觸圖中只有2個(gè)殘基接觸時(shí),才有值(黑);而Distogram灰度值對(duì)應(yīng)于兩殘基的距離,當(dāng)距離大于截?cái)嚅撝禃r(shí),灰度為0(白色).

  

Fig. 2  Illustration of contact map and distogram. (a) A typical structure of a given HP protein. (b) The contact of the (c) structure where the black square indicates the matrix element corresponding to two contact residues. (c) The distogram of the (a) structure where the greyness indicates the distance between two residues.


同一序列中不同殘基間的接觸與否或距離是非常重要的信息,它基本蘊(yùn)含了蛋白質(zhì)骨架的三維結(jié)構(gòu)所有的信息. 而且這個(gè)信息相比于純粹的結(jié)構(gòu)三維坐標(biāo)信息有2個(gè)優(yōu)勢:(1) 具有旋轉(zhuǎn)平移不變性,而三維坐標(biāo)會(huì)隨著蛋白質(zhì)的旋轉(zhuǎn)或平移而改變;(2) 表達(dá)更簡潔及更易標(biāo)準(zhǔn)化. 因?yàn)榇嬖陉P(guān)聯(lián)變異(correlated mutation)現(xiàn)象,有些接觸的兩氨基酸會(huì)同時(shí)變異以保證變異后仍接觸,故接觸圖或距離圖信息就顯得相當(dāng)重要[35,36,39].

基于上述原因,在最近的深度學(xué)習(xí)預(yù)測蛋白質(zhì)結(jié)構(gòu)的實(shí)踐中[12,15,53~62],大多都會(huì)采用此信息去提高預(yù)測準(zhǔn)確性或預(yù)測給定蛋白質(zhì)的Contact Map或Distogram.

1.4 蛋白質(zhì)數(shù)據(jù)庫PDB

目前最著名的蛋白質(zhì)數(shù)據(jù)庫為PDB[63],即Protein Data Bank,收藏了約1×105多條蛋白質(zhì)的三維結(jié)構(gòu)數(shù)據(jù). 這些結(jié)構(gòu)由X射線、NMR或電子顯微鏡等方法獲得.

1.5 CASP競賽

Critical Assessment of Protein Structure Prediction (CASP)[64,65]是蛋白質(zhì)結(jié)構(gòu)預(yù)測科學(xué)共同體舉辦的兩年一次的競賽,每次競賽優(yōu)勝者的水平基本代表了當(dāng)前世界結(jié)構(gòu)預(yù)測的最高水準(zhǔn)(benchmark progress). 在每次競賽中,舉辦方會(huì)給出若干個(gè)已知結(jié)構(gòu)但未曾公開的蛋白質(zhì)序列,參賽團(tuán)隊(duì)在規(guī)定時(shí)間內(nèi)提交各自的結(jié)構(gòu)預(yù)測結(jié)果,同時(shí)不限制預(yù)測方法. CASP自1994年以來共舉辦了14屆,其中最近2屆的第一名皆來自deepmind的AlphaFold算法.

1.6 模版建模得分TM Score

之前,人們通常用距離均方差root mean squared deviation (RMSD)衡量2個(gè)分子構(gòu)象的接近程度. 但現(xiàn)在模版建模得分template modelling score被認(rèn)為是更準(zhǔn)確的衡量方式[66]. 其表達(dá)式如下:



其中







式中n為蛋白質(zhì)的殘基數(shù),M為旋轉(zhuǎn)平移矩陣. 上式表達(dá)的含義是將預(yù)測得到的結(jié)構(gòu)與各種旋轉(zhuǎn)平移操作后的真實(shí)結(jié)構(gòu)進(jìn)行比較,取最相近(極大)的那個(gè)作為最后的分值.

顯然TM score在0~1之間,分?jǐn)?shù)越高表明越準(zhǔn)確. 通常認(rèn)為當(dāng)TM>0.5時(shí),預(yù)測與真實(shí)之間的折疊基本一致[56];而對(duì)同一蛋白質(zhì),NMR與X射線測出結(jié)構(gòu)之間的TM分?jǐn)?shù)為0.807 ± 0.107左右. 所以,可認(rèn)為當(dāng)TM分?jǐn)?shù)>0.8時(shí),預(yù)測的結(jié)果已經(jīng)完全正確.

而AlphaFold2(AF2)近2/3的預(yù)測結(jié)果達(dá)到中低分辨率的實(shí)驗(yàn)精度[12]. 也即AF2幾乎解決了單域蛋白質(zhì)折疊預(yù)測問題[14].

由于多域蛋白質(zhì)各功能域之間可以相對(duì)獨(dú)立地移動(dòng)旋轉(zhuǎn),在評(píng)估多域蛋白質(zhì)結(jié)構(gòu)相似性上,局域距離差異性測試(local distance difference test)是一個(gè)比TM分?jǐn)?shù)更佳的評(píng)分方式. lDDT不同于TM,不依賴于骨架α碳原子的重疊,能夠不受功能域間位移的影響,更加有效地評(píng)估結(jié)構(gòu)之間的局域相似性[67].

1.7 深度學(xué)習(xí)原理與常用神經(jīng)網(wǎng)絡(luò)模型

本小節(jié)僅羅列結(jié)構(gòu)預(yù)測涉及到的深度學(xué)習(xí)技術(shù)及原理, 具體請(qǐng)參考相關(guān)文獻(xiàn)[68].

神經(jīng)網(wǎng)絡(luò)(neural network)可抽象成一個(gè)函數(shù),它關(guān)聯(lián)了2組信息數(shù)據(jù)xy(比如蛋白質(zhì)的序列x及其結(jié)構(gòu)y),分別稱為網(wǎng)絡(luò)輸入與輸出;w為網(wǎng)絡(luò)的參數(shù). 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標(biāo)是為了找到恰當(dāng)?shù)?em data-v-838f3892="" class="italic" style="padding: 0px 0.14em 0px 0px; margin: 0px;">w使得網(wǎng)絡(luò)能夠根據(jù)x準(zhǔn)確地預(yù)測y.

普適近似原理(universal approximation theorem)[69]表明單隱藏層的神經(jīng)網(wǎng)絡(luò),只要其激活函數(shù)為非線性且神經(jīng)元數(shù)目足夠多,便可無限精確近似任意非線性映射. 普適近似原理表明NN可用于擬合任意未知關(guān)聯(lián).

神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)要點(diǎn):考察待預(yù)測的量y與哪些量有關(guān)聯(lián),即找出哪些信息可足夠推導(dǎo)出y,然后將這些信息與y之間架接合適的神經(jīng)網(wǎng)絡(luò)便可. 信息間的關(guān)聯(lián)如果能用現(xiàn)有知識(shí)進(jìn)行關(guān)聯(lián)就用現(xiàn)有知識(shí)將其關(guān)聯(lián);未知關(guān)聯(lián)用神經(jīng)網(wǎng)絡(luò)代替.

神經(jīng)網(wǎng)絡(luò)選擇需要考慮輸入輸出信息數(shù)據(jù)特點(diǎn),目前結(jié)構(gòu)預(yù)測中常用的網(wǎng)絡(luò)結(jié)構(gòu)主要有下面幾種.

殘差網(wǎng)絡(luò)(resnet)[70]的基本思想是不斷地將未處理過的信息直接復(fù)制并疊加到下面幾層由網(wǎng)絡(luò)抽取出的特征上去. 殘差網(wǎng)絡(luò)于2015年提出,后來被廣泛運(yùn)用于圖像處理中.

基于自注意力機(jī)制的transformer[28]近幾年備受人工智能領(lǐng)域喜愛,它幾乎完全取代循環(huán)神經(jīng)網(wǎng)絡(luò)[68],其基本思想是從不同位置對(duì)之間提取信息,適合處理文本類、時(shí)序性的信息,不過近年也常用于圖像處理. AlphaFold2[12]中大量使用了自注意力機(jī)制.

2 傳統(tǒng)蛋白質(zhì)結(jié)構(gòu)預(yù)測

傳統(tǒng)的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法[14]主要基于以下2種模型:基于模板的方法(template-based method, TBM)[29~38]和無模板方法(template-free method, TFM)[72~77];當(dāng)然,有些方法介于這2種方法之間. 通常全局模板是指直接從PDB數(shù)據(jù)庫[63]獲取的實(shí)驗(yàn)測定的蛋白質(zhì)三維(骨架)結(jié)構(gòu),而無模板方法是指沒有采用全局模板的方法.

2.1 基于模板的方法TBM

TBM方法[14,29~38]大致步驟如圖3所示,通??煞譃橐韵聨撞? 第一步,通過數(shù)據(jù)庫檢索,得到目標(biāo)蛋白質(zhì)的一組同源性序列(MSA),并根據(jù)MSA獲得1個(gè)或多個(gè)折疊結(jié)構(gòu)模板. 第二步,比對(duì)目標(biāo)序列和模板對(duì)應(yīng)序列,兩序列一致的片段直接使用模板的對(duì)應(yīng)折疊結(jié)構(gòu). 第三步,對(duì)于目標(biāo)序列與模板對(duì)應(yīng)序列不一致的區(qū)域,采用碎片組裝、優(yōu)化算法或是數(shù)據(jù)庫方法等單獨(dú)預(yù)測. 當(dāng)然通常最后還會(huì)用諸如分子動(dòng)力學(xué)的優(yōu)化方法進(jìn)行模型的精細(xì)化(model refinement),以優(yōu)化全局結(jié)構(gòu)[13,14]. 歷史上,TBM方法[14]可以細(xì)分成comparative modelling (CM)和threading 2種方法[29~38]. 其中在CM中,模板與目標(biāo)序列的同源性較近.

  

Fig. 3  Illustration of basic strategies of template-based method (TBM) and template-free method (FM).


2.2 無模板方法FM

無模板方法[72~77]的流程見圖3右半側(cè),F(xiàn)M從蛋白質(zhì)數(shù)據(jù)庫中依MSA比對(duì)結(jié)果找到一些片段的結(jié)構(gòu)并將其放入片段庫中,然后找到評(píng)分較高的片段結(jié)構(gòu)拼成初始結(jié)構(gòu)[72~74],接著采用FM里非常重要的片段組裝(fragment assembly)方法[72],大致凍結(jié)片段的結(jié)構(gòu)并以片段結(jié)構(gòu)為單元來演化全局結(jié)構(gòu),比如可根據(jù)粗?;膭菽芎瘮?shù)用梯度下降化進(jìn)行能量優(yōu)化.

3 深度學(xué)習(xí)方法

3.1 殘基接觸對(duì)的預(yù)測

人們發(fā)現(xiàn)在蛋白質(zhì)變異過程中經(jīng)常出現(xiàn)關(guān)聯(lián)變異(correlated mutation)的現(xiàn)象:一條蛋白質(zhì)鏈內(nèi)若發(fā)生變異,總是2個(gè)氨基酸成對(duì)地變異;因?yàn)檠莼瘔毫?huì)迫使蛋白質(zhì)維持一致構(gòu)型,原本接觸的氨基酸對(duì)在變異過程中繼續(xù)保持接觸,可以避免其形狀發(fā)生劇烈變化. 因此,這就使得殘基接觸對(duì)(inter-residue contact map)的信息極為重要[56~61].

早期有許多傳統(tǒng)方法致力于預(yù)測殘基接觸對(duì). 處理該問題的早期算法,傾向于以一次一對(duì)的形式、孤立地預(yù)測每個(gè)接觸對(duì)是否可能. 由于忽視了蛋白質(zhì)包含的全局信息:一個(gè)殘基對(duì)是否接觸受到序列中其他殘基的影響,早期算法陷入了困境,預(yù)測效果糟糕. 而之后研究者提出了充分利用全局信息的預(yù)測方法,例如基于Markov隨機(jī)場模型MRF的direct coupling method (DCA)[58~61],在殘基接觸預(yù)測上獲得了突破性的成就.

深度神經(jīng)網(wǎng)絡(luò)在預(yù)測殘基接觸對(duì)問題上,也表現(xiàn)出了異常優(yōu)異的性能,有時(shí)甚至還直接被用于預(yù)測鍵角等信息. 這些預(yù)測特征均可作為約束,輔助指導(dǎo)無模板方法.

比如,Raptor X-Contact深度學(xué)習(xí)模型[39]將Contact Map的預(yù)測當(dāng)成圖片分割任務(wù)來對(duì)待,Raptor X-Contact所采用的方法也被其他方法,如ResPRE[54]所采納. ResPRE[54]采用了圖片識(shí)別領(lǐng)域非常著名的殘差網(wǎng)絡(luò)(Resnet)模塊[70],殘差網(wǎng)絡(luò)的重要思想是不斷地將網(wǎng)絡(luò)前面的信息直接復(fù)制到網(wǎng)絡(luò)后面.

而AlphaFold1[15]又將Contact Map拓展成距離直方圖(distogram)預(yù)測,基于此,它在2018年CASP13的比賽中獲得了巨大成功.

3.2 AlphaFold

2020年的CASP14的比賽中,AlphaFold2 (AF2)[12]取得了驕人的成績. 對(duì)來自89個(gè)域(domain)實(shí)驗(yàn)測得的蛋白質(zhì)結(jié)構(gòu),AlphFold2在88個(gè)域TM分?jǐn)?shù)>0.5,59個(gè)域分?jǐn)?shù)>0.914. 前者意味著預(yù)測結(jié)果與答案之間折疊基本一致. NMR、X射線晶體學(xué)測出的一組112個(gè)單域蛋白質(zhì),序列相同率大于95%. NMR與X射線測出的結(jié)構(gòu)之間的TM值為0.807±0.107. 這說明AlphFold2的近60%的預(yù)測達(dá)到中低分辨率的實(shí)驗(yàn)精度. 也就是說AlphFold2幾乎解決了單域蛋白質(zhì)折疊預(yù)測問題[14].

AlphaFold2深度學(xué)習(xí)模型的結(jié)構(gòu)簡圖如圖4所示,具體參考文獻(xiàn)[12]. 它分別借助了基因同源信息和蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫模板信息. 如圖所示,根據(jù)同源信息,可得到序列比對(duì)信息MSA,通過同源搜索得到與輸入序列同源相近的(s-1)條序列和輸入序列一起放到MSA數(shù)組里,再通過線性神經(jīng)網(wǎng)絡(luò)變換得到MSA表征,此表征的維度為(s,rc),其中r為蛋白質(zhì)的序列長度,c為表征的特征數(shù)(通道數(shù)). MSA表征包含了輸入序列與其他同源序列間的關(guān)系.

  

Fig. 4  Sketch of the AlphaFold2 model. Detailed description is referred to Ref.[12].


而另一輸入通道中,主要輸入與MSA相對(duì)應(yīng)的序列的結(jié)構(gòu)殘基對(duì)距離信息以及扭轉(zhuǎn)角的信息. 在具體輸入時(shí),AF2將距離對(duì)長度劃分成64個(gè)離散塊(64 bins),并將其轉(zhuǎn)化為概率的形式,故對(duì)應(yīng)數(shù)組形狀為(s,rr,64),取值為0~1. 注意配對(duì)表征中,只包含了MSA除輸入序列之外的某個(gè)序列自己結(jié)構(gòu)信息,不同序列之間并沒有進(jìn)行信息的關(guān)聯(lián).

然后再將MSA表征與配對(duì)表征輸入一個(gè)稱為Evoformer的模塊,此模塊主要將MSA的信息(同源性差異)與結(jié)構(gòu)信息整合起來,最后得到輸入序列的MSA表征與輸入序列的配對(duì)表征. 此時(shí),輸入序列的配對(duì)表征同時(shí)將演化信息與其他模板結(jié)構(gòu)信息有機(jī)地融合在了一起. Evoformer主要利用了自注意力機(jī)制來實(shí)現(xiàn)上述信息整合.

而下一個(gè)結(jié)構(gòu)模塊structure module主要的功能是將Evoformer預(yù)測的配對(duì)表征展開成三維空間結(jié)構(gòu),同時(shí)亦承擔(dān)一定的預(yù)測調(diào)整功能. 此模塊的結(jié)構(gòu)大致如圖5所示. 一條蛋白質(zhì)骨架結(jié)構(gòu)可想象成一系列三角形的疊加,三角形的中心相當(dāng)各個(gè)殘基α碳的坐標(biāo),三角形平面本身代表N-α-C-C構(gòu)成的三角形. 這樣,此骨架可由2個(gè)數(shù)組表示,數(shù)組形狀分別為(r,3×3)和(r,3),分別表示每個(gè)三角形取向與位置.

  

Fig. 5  Illustration of how the pairing information is transformed into the 3D structure using neural networks in AlphaFold2[12].


初始時(shí),假設(shè)所有氨基酸都在原點(diǎn),然后將此初始骨架與配對(duì)表征輸入結(jié)構(gòu)模塊,由于配對(duì)表征存有距離對(duì)及取向信息,故可通過一個(gè)稱為不變點(diǎn)注意力神經(jīng)網(wǎng)絡(luò)模塊將其初步還原成展開的骨架結(jié)構(gòu),緊接著再加入側(cè)鏈原子從而得到全原子的三維結(jié)構(gòu).

圖4所示,最后再將中間輸出的MSA信息、配對(duì)信息和3D結(jié)構(gòu)信息重新疊加輸入到Evoformer,如此反復(fù)迭代3次,最終到預(yù)測結(jié)果.

因?yàn)镻DB中只有大約1×105多個(gè)的序列有對(duì)應(yīng)的三維結(jié)構(gòu)數(shù)據(jù). 而在big fantastic database (BFD)蛋白質(zhì)序列數(shù)據(jù)有多達(dá)2,204,359,010個(gè)序列,雖然這些序列并不一定有對(duì)應(yīng)的三維結(jié)構(gòu)信息(無標(biāo)簽),但self-distillation dataset的訓(xùn)練技巧可以將這些無答案的題目作為作業(yè)進(jìn)行訓(xùn)練,自己提高預(yù)測準(zhǔn)確度,AlphaFold2用此擴(kuò)大訓(xùn)練集并進(jìn)一步提高了預(yù)測準(zhǔn)確度.

后來有諸多研究團(tuán)隊(duì)對(duì)AlphaFold2進(jìn)行了拓展與提升. 例如:Baker團(tuán)隊(duì)[78]的RoseTTAFold發(fā)展了三通路神經(jīng)網(wǎng)絡(luò)(three-track neural network),對(duì)AlphaFold2只包括1D序列信息和2D距離圖信息的兩通路神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了拓展,引入了3D結(jié)構(gòu)通路道網(wǎng)絡(luò)模塊;高毅勤團(tuán)隊(duì)的MindSpore算法[79]對(duì)AlphaFold2的計(jì)算速度進(jìn)行了較大的提升.

3.3 最簡單的蛋白質(zhì)模型的預(yù)測

真實(shí)蛋白質(zhì)結(jié)構(gòu)預(yù)測無論從訓(xùn)練數(shù)據(jù)準(zhǔn)備還是模型構(gòu)建及訓(xùn)練都極其復(fù)雜. 因此,人們希望找一個(gè)簡單的蛋白質(zhì)模型,以便能快速地試驗(yàn)他們的想法. 就如手寫數(shù)字識(shí)別(對(duì)應(yīng)數(shù)據(jù)集為MNIST)[80]對(duì)于圖像識(shí)別一樣,所有的方法都會(huì)用MNIST數(shù)據(jù)集先來檢驗(yàn)其有效性.

而HP蛋白質(zhì)模型就是這樣的模型[2,6,8,9]. 它僅有2類氨基酸H和P,其中H代表厭水型氨基酸,P代表親水型.

我們基于此HP模型,提出了一個(gè)強(qiáng)關(guān)聯(lián)神經(jīng)網(wǎng)絡(luò)[16],如圖6所示,此神經(jīng)網(wǎng)絡(luò)有2個(gè)核心要素,一是不同于傳統(tǒng)的向量表征,它采用一個(gè)小的神經(jīng)網(wǎng)絡(luò)來代表每個(gè)氨基酸,每種氨基酸都用一個(gè)神經(jīng)網(wǎng)絡(luò)來表征,不同氨基酸對(duì)應(yīng)的網(wǎng)絡(luò)的權(quán)重亦不同,而相同的氨基酸共享網(wǎng)絡(luò)權(quán)重;二是它有一個(gè)自洽循環(huán)通路,這樣可使得輸出的信息(環(huán)境)與氨基酸的屬性發(fā)生強(qiáng)關(guān)聯(lián).

  

Fig. 6  Architecture of the strongly-correlated neural network (SCN) where r indicates number of residues and c indicates number of features or channels.


該研究發(fā)現(xiàn)與傳統(tǒng)向量表征方法相比,強(qiáng)關(guān)聯(lián)網(wǎng)絡(luò)極大提升了預(yù)測準(zhǔn)確性,提高了約20個(gè)百分點(diǎn).

4 展望與啟示

最近十多年深度學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)預(yù)測中取得了巨大了成就,它的杰出代表AlphaFold2[12]幾乎解決半個(gè)世紀(jì)前提出的蛋白質(zhì)結(jié)構(gòu)預(yù)測難題[12];由于其預(yù)測結(jié)果達(dá)到了中低分辨率的實(shí)驗(yàn)精度,幾乎等于說AlphaFold2的預(yù)測可以直接代替有些蛋白質(zhì)結(jié)構(gòu)分析實(shí)驗(yàn),而對(duì)于通常200多個(gè)氨基酸組成的蛋白質(zhì),AlphaFold2通常在普通GPU上只需幾分鐘便能得到其結(jié)構(gòu),這對(duì)于以后的生物制藥等領(lǐng)域?qū)⒂芯薮笥绊?

而另一方面,高分子材料基因組計(jì)劃仍然在進(jìn)行中. 因?yàn)槠胀ǜ叻肿拥慕M成不像蛋白質(zhì)序列那樣,有確定的組成單元以及較為單一明確的目標(biāo),因此難度更大. 但深度學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)預(yù)測中的成功經(jīng)驗(yàn)仍然對(duì)高分子材料基因組計(jì)劃有一定的啟發(fā):

首先,它有一個(gè)標(biāo)準(zhǔn)化的結(jié)構(gòu)數(shù)據(jù)庫PDB. 高分子材料基因組計(jì)劃或許也需要構(gòu)建類似的數(shù)據(jù)庫,難點(diǎn)在于制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn). 即如何準(zhǔn)確、完整、簡潔地表征高分子鏈,加工條件及性能.

其次,蛋白質(zhì)結(jié)構(gòu)預(yù)測有一個(gè)權(quán)威的CASP競賽,CASP極大地推進(jìn)了結(jié)構(gòu)預(yù)測算法的演進(jìn). 在材料基因組計(jì)劃中可參照CASP,建立相應(yīng)的標(biāo)準(zhǔn)化競賽.

再次,AlphaFold2充分利用了當(dāng)前深度學(xué)習(xí)領(lǐng)域的各種先進(jìn)算法,并不拘泥于某種特定算法. 這啟發(fā)我們解決問題時(shí)需要以問題為導(dǎo)向,而非以方法為導(dǎo)向.

最后,AlphaFold2中將Distogram信息用神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化成分子結(jié)構(gòu)坐標(biāo)的方法可推廣至其他結(jié)構(gòu)預(yù)測的問題中,當(dāng)然也可用于高分子的結(jié)構(gòu)預(yù)測.


關(guān)鍵字:優(yōu)秀論文

網(wǎng)絡(luò)客服QQ: 沈編輯

投訴建議:0373-5939925????投訴建議QQ:

招聘合作:2851259250@qq.com (如您是期刊主編、文章高手,可通過郵件合作)

地址:河南省新鄉(xiāng)市金穗大道東段266號(hào)中州期刊聯(lián)盟 ICP備案號(hào):豫ICP備2020036848

【免責(zé)聲明】:中州期刊聯(lián)盟所提供的信息資源如有侵權(quán)、違規(guī),請(qǐng)及時(shí)告知。

版權(quán)所有:中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)

關(guān)注”中州期刊聯(lián)盟”公眾號(hào)
了解論文寫作全系列課程

核心期刊為何難發(fā)?

論文發(fā)表總嫌貴?

職院單位發(fā)核心?

掃描關(guān)注公眾號(hào)

論文發(fā)表不再有疑惑

論文寫作全系列課程

掃碼了解更多

輕松寫核心期刊論文

在線留言