深度學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)預(yù)測中的應(yīng)用及啟示
天然蛋白質(zhì)通過調(diào)節(jié)一維氨基酸序列信息,能夠精準(zhǔn)地制備具有特殊的三維空間結(jié)構(gòu)的蛋白質(zhì)分子,實(shí)現(xiàn)特定的生理功能. 而蛋白質(zhì)結(jié)構(gòu)預(yù)測希望代替大自然通過各種方法從一維序列信息推斷其三維空間結(jié)構(gòu). 蛋白質(zhì)結(jié)構(gòu)預(yù)測問題提出至今已困擾我們五十多年[
自然條件下,蛋白質(zhì)總能在生物學(xué)相關(guān)時(shí)間尺度內(nèi)迅速而準(zhǔn)確地折疊到有限的幾種(大多數(shù)情形僅一種)三維空間結(jié)構(gòu)[
通常認(rèn)為蛋白質(zhì)折疊的驅(qū)動(dòng)力包括以下幾種[
Anfinsen熱力學(xué)假設(shè)[
因而產(chǎn)生了著名的Levinthal佯謬[
理解了快速折疊的原理不代表解決了蛋白質(zhì)預(yù)測問題.
在傳統(tǒng)的蛋白質(zhì)折疊預(yù)測中,人們通常經(jīng)過構(gòu)造或選擇力場,從某非天然態(tài)出發(fā),用各種動(dòng)力學(xué)計(jì)算或模擬方法(例如分子動(dòng)力學(xué)模擬)演化其構(gòu)象,直至能量達(dá)到全局最小[
此困境一度讓蛋白質(zhì)折疊預(yù)測領(lǐng)域的人們絕望. 因此,人們不再依賴基于純粹物理機(jī)制的方法,而是采用結(jié)合數(shù)據(jù)驅(qū)動(dòng)的方式[
本文主要給非生命科學(xué)領(lǐng)域讀者介紹深度學(xué)習(xí)方法在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的應(yīng)用. 將選講幾個(gè)主要進(jìn)展,特別將重點(diǎn)介紹AlphaFold[
1 蛋白質(zhì)結(jié)構(gòu)預(yù)測的基礎(chǔ)知識(shí)
1.1 位置特異性打分矩陣PSSM
位置特異性打分矩陣(position-specific scoring matrix, PSSM)或位置權(quán)重矩陣(position weight matrix, PWM)[
Fig. 1 Illustration of (a) position-specific scoring matrix (PSSM) and (b) multiple sequence alignment (MSA). (a) In this illustrative example, PSSM is computed using the formula given in the top right corner based on a DNA database consisting of ten DNA sequences. (b) Sequence alignment (SA) is trying to match the fragment pairs from the two given sequences as much as possible. In the alignment, inserting gaps "-" is allowed. Multiple sequence alignment (MSA) is SA on multiple sequences.
1.2 多重序列比對(duì)MSA
目前大多蛋白質(zhì)結(jié)構(gòu)預(yù)測的深度學(xué)習(xí)算法的輸入中都有多重序列比對(duì)信息(multiple sequence alignment, MSA)[
序列比對(duì)(sequence alignment)主要任務(wù)是針對(duì)查詢序列(query sequence)從數(shù)據(jù)庫中,用基因信息學(xué)的方法找到進(jìn)化樹上盡可能同源的序列,然后根據(jù)變異的氨基酸的相似程度,按照特定規(guī)則來給該序列與查詢序列的相似度打分.
某個(gè)序列的變異包括對(duì)序列中特定片段的插入、刪除和替換. 相對(duì)于查詢序列,當(dāng)庫里的蛋白質(zhì)序列變異很少時(shí),則兩者相似度高.
當(dāng)變異多時(shí),還需根據(jù)進(jìn)化同源的特點(diǎn)分類對(duì)變異片段進(jìn)行進(jìn)一步分析. 變異的氨基酸片段可分為保守片段(功能及化學(xué)特性相同)、半保守片段(功能及化學(xué)特性相近)和非保守片段(化學(xué)特性相差甚遠(yuǎn)). 顯然,若保守片段越多,表明與查詢序列越接近.
比對(duì)的目標(biāo)是通過恰當(dāng)?shù)夭迦肟掌?gap),使得插入空片段后的2個(gè)序列盡量相似(如
用上述比對(duì)方法對(duì)若干個(gè)給定的序列與查詢序列進(jìn)行比對(duì)就稱為多重序列比對(duì)(multiple sequence alignment, MSA). 通常可用軟件ClustalW, MAFFT, ClustalOmega以及MUSCLE等算法程序?qū)Χ鄠€(gè)序列進(jìn)行MSA比對(duì)[
而在蛋白質(zhì)預(yù)測中,通常會(huì)針對(duì)輸入的蛋白質(zhì)序列,從蛋白質(zhì)數(shù)據(jù)庫中找到與給定序列相近的若干個(gè)序列,然后再將這些MSA作為神經(jīng)網(wǎng)絡(luò)的輸入. 此信息相比于PSSM包含了更為豐富的信息. 可從MSA中看出目標(biāo)序列大致從哪些序列變異而來. 在深度學(xué)習(xí)中,MSA數(shù)據(jù)維度為(Nseq, Nres, 21),其中Nseq為MSA包含序列的數(shù)目,Nres為目標(biāo)序列的長度,21用于分辨20種氨基酸和gap“-”的熱點(diǎn)表征(有時(shí)可能為22或23).
1.3 接觸圖與距離圖
如
Fig. 2 Illustration of contact map and distogram. (a) A typical structure of a given HP protein. (b) The contact of the (c) structure where the black square indicates the matrix element corresponding to two contact residues. (c) The distogram of the (a) structure where the greyness indicates the distance between two residues.
同一序列中不同殘基間的接觸與否或距離是非常重要的信息,它基本蘊(yùn)含了蛋白質(zhì)骨架的三維結(jié)構(gòu)所有的信息. 而且這個(gè)信息相比于純粹的結(jié)構(gòu)三維坐標(biāo)信息有2個(gè)優(yōu)勢:(1) 具有旋轉(zhuǎn)平移不變性,而三維坐標(biāo)會(huì)隨著蛋白質(zhì)的旋轉(zhuǎn)或平移而改變;(2) 表達(dá)更簡潔及更易標(biāo)準(zhǔn)化. 因?yàn)榇嬖陉P(guān)聯(lián)變異(correlated mutation)現(xiàn)象,有些接觸的兩氨基酸會(huì)同時(shí)變異以保證變異后仍接觸,故接觸圖或距離圖信息就顯得相當(dāng)重要[
基于上述原因,在最近的深度學(xué)習(xí)預(yù)測蛋白質(zhì)結(jié)構(gòu)的實(shí)踐中[
1.4 蛋白質(zhì)數(shù)據(jù)庫PDB
目前最著名的蛋白質(zhì)數(shù)據(jù)庫為PDB[
1.5 CASP競賽
Critical Assessment of Protein Structure Prediction (CASP)[
1.6 模版建模得分TM Score
之前,人們通常用距離均方差root mean squared deviation (RMSD)衡量2個(gè)分子構(gòu)象的接近程度. 但現(xiàn)在模版建模得分template modelling score被認(rèn)為是更準(zhǔn)確的衡量方式[
其中
式中n為蛋白質(zhì)的殘基數(shù),M為旋轉(zhuǎn)平移矩陣. 上式表達(dá)的含義是將預(yù)測得到的結(jié)構(gòu)與各種旋轉(zhuǎn)平移操作后的真實(shí)結(jié)構(gòu)進(jìn)行比較,取最相近(極大)的那個(gè)作為最后的分值.
顯然TM score在0~1之間,分?jǐn)?shù)越高表明越準(zhǔn)確. 通常認(rèn)為當(dāng)TM>0.5時(shí),預(yù)測與真實(shí)之間的折疊基本一致[
而AlphaFold2(AF2)近2/3的預(yù)測結(jié)果達(dá)到中低分辨率的實(shí)驗(yàn)精度[
由于多域蛋白質(zhì)各功能域之間可以相對(duì)獨(dú)立地移動(dòng)旋轉(zhuǎn),在評(píng)估多域蛋白質(zhì)結(jié)構(gòu)相似性上,局域距離差異性測試(local distance difference test)是一個(gè)比TM分?jǐn)?shù)更佳的評(píng)分方式. lDDT不同于TM,不依賴于骨架α碳原子的重疊,能夠不受功能域間位移的影響,更加有效地評(píng)估結(jié)構(gòu)之間的局域相似性[
1.7 深度學(xué)習(xí)原理與常用神經(jīng)網(wǎng)絡(luò)模型
本小節(jié)僅羅列結(jié)構(gòu)預(yù)測涉及到的深度學(xué)習(xí)技術(shù)及原理, 具體請(qǐng)參考相關(guān)文獻(xiàn)[
神經(jīng)網(wǎng)絡(luò)(neural network)可抽象成一個(gè)函數(shù),它關(guān)聯(lián)了2組信息數(shù)據(jù)x與y(比如蛋白質(zhì)的序列x及其結(jié)構(gòu)y),分別稱為網(wǎng)絡(luò)輸入與輸出;w為網(wǎng)絡(luò)的參數(shù). 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標(biāo)是為了找到恰當(dāng)?shù)?em data-v-838f3892="" class="italic" style="padding: 0px 0.14em 0px 0px; margin: 0px;">w使得網(wǎng)絡(luò)能夠根據(jù)x準(zhǔn)確地預(yù)測y.
普適近似原理(universal approximation theorem)[
神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)要點(diǎn):考察待預(yù)測的量y與哪些量有關(guān)聯(lián),即找出哪些信息可足夠推導(dǎo)出y,然后將這些信息與y之間架接合適的神經(jīng)網(wǎng)絡(luò)便可. 信息間的關(guān)聯(lián)如果能用現(xiàn)有知識(shí)進(jìn)行關(guān)聯(lián)就用現(xiàn)有知識(shí)將其關(guān)聯(lián);未知關(guān)聯(lián)用神經(jīng)網(wǎng)絡(luò)代替.
神經(jīng)網(wǎng)絡(luò)選擇需要考慮輸入輸出信息數(shù)據(jù)特點(diǎn),目前結(jié)構(gòu)預(yù)測中常用的網(wǎng)絡(luò)結(jié)構(gòu)主要有下面幾種.
殘差網(wǎng)絡(luò)(resnet)[
基于自注意力機(jī)制的transformer[
2 傳統(tǒng)蛋白質(zhì)結(jié)構(gòu)預(yù)測
傳統(tǒng)的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法[
2.1 基于模板的方法TBM
TBM方法[
Fig. 3 Illustration of basic strategies of template-based method (TBM) and template-free method (FM).
2.2 無模板方法FM
無模板方法[
3 深度學(xué)習(xí)方法
3.1 殘基接觸對(duì)的預(yù)測
人們發(fā)現(xiàn)在蛋白質(zhì)變異過程中經(jīng)常出現(xiàn)關(guān)聯(lián)變異(correlated mutation)的現(xiàn)象:一條蛋白質(zhì)鏈內(nèi)若發(fā)生變異,總是2個(gè)氨基酸成對(duì)地變異;因?yàn)檠莼瘔毫?huì)迫使蛋白質(zhì)維持一致構(gòu)型,原本接觸的氨基酸對(duì)在變異過程中繼續(xù)保持接觸,可以避免其形狀發(fā)生劇烈變化. 因此,這就使得殘基接觸對(duì)(inter-residue contact map)的信息極為重要[
早期有許多傳統(tǒng)方法致力于預(yù)測殘基接觸對(duì). 處理該問題的早期算法,傾向于以一次一對(duì)的形式、孤立地預(yù)測每個(gè)接觸對(duì)是否可能. 由于忽視了蛋白質(zhì)包含的全局信息:一個(gè)殘基對(duì)是否接觸受到序列中其他殘基的影響,早期算法陷入了困境,預(yù)測效果糟糕. 而之后研究者提出了充分利用全局信息的預(yù)測方法,例如基于Markov隨機(jī)場模型MRF的direct coupling method (DCA)[
深度神經(jīng)網(wǎng)絡(luò)在預(yù)測殘基接觸對(duì)問題上,也表現(xiàn)出了異常優(yōu)異的性能,有時(shí)甚至還直接被用于預(yù)測鍵角等信息. 這些預(yù)測特征均可作為約束,輔助指導(dǎo)無模板方法.
比如,Raptor X-Contact深度學(xué)習(xí)模型[
而AlphaFold1[
3.2 AlphaFold
2020年的CASP14的比賽中,AlphaFold2 (AF2)[
AlphaFold2深度學(xué)習(xí)模型的結(jié)構(gòu)簡圖如
Fig. 4 Sketch of the AlphaFold2 model. Detailed description is referred to Ref.[
而另一輸入通道中,主要輸入與MSA相對(duì)應(yīng)的序列的結(jié)構(gòu)殘基對(duì)距離信息以及扭轉(zhuǎn)角的信息. 在具體輸入時(shí),AF2將距離對(duì)長度劃分成64個(gè)離散塊(64 bins),并將其轉(zhuǎn)化為概率的形式,故對(duì)應(yīng)數(shù)組形狀為(s,r,r,64),取值為0~1. 注意配對(duì)表征中,只包含了MSA除輸入序列之外的某個(gè)序列自己結(jié)構(gòu)信息,不同序列之間并沒有進(jìn)行信息的關(guān)聯(lián).
然后再將MSA表征與配對(duì)表征輸入一個(gè)稱為Evoformer的模塊,此模塊主要將MSA的信息(同源性差異)與結(jié)構(gòu)信息整合起來,最后得到輸入序列的MSA表征與輸入序列的配對(duì)表征. 此時(shí),輸入序列的配對(duì)表征同時(shí)將演化信息與其他模板結(jié)構(gòu)信息有機(jī)地融合在了一起. Evoformer主要利用了自注意力機(jī)制來實(shí)現(xiàn)上述信息整合.
而下一個(gè)結(jié)構(gòu)模塊structure module主要的功能是將Evoformer預(yù)測的配對(duì)表征展開成三維空間結(jié)構(gòu),同時(shí)亦承擔(dān)一定的預(yù)測調(diào)整功能. 此模塊的結(jié)構(gòu)大致如
Fig. 5 Illustration of how the pairing information is transformed into the 3D structure using neural networks in AlphaFold2[
初始時(shí),假設(shè)所有氨基酸都在原點(diǎn),然后將此初始骨架與配對(duì)表征輸入結(jié)構(gòu)模塊,由于配對(duì)表征存有距離對(duì)及取向信息,故可通過一個(gè)稱為不變點(diǎn)注意力神經(jīng)網(wǎng)絡(luò)模塊將其初步還原成展開的骨架結(jié)構(gòu),緊接著再加入側(cè)鏈原子從而得到全原子的三維結(jié)構(gòu).
如
因?yàn)镻DB中只有大約1×105多個(gè)的序列有對(duì)應(yīng)的三維結(jié)構(gòu)數(shù)據(jù). 而在big fantastic database (BFD)蛋白質(zhì)序列數(shù)據(jù)有多達(dá)2,204,359,010個(gè)序列,雖然這些序列并不一定有對(duì)應(yīng)的三維結(jié)構(gòu)信息(無標(biāo)簽),但self-distillation dataset的訓(xùn)練技巧可以將這些無答案的題目作為作業(yè)進(jìn)行訓(xùn)練,自己提高預(yù)測準(zhǔn)確度,AlphaFold2用此擴(kuò)大訓(xùn)練集并進(jìn)一步提高了預(yù)測準(zhǔn)確度.
后來有諸多研究團(tuán)隊(duì)對(duì)AlphaFold2進(jìn)行了拓展與提升. 例如:Baker團(tuán)隊(duì)[
3.3 最簡單的蛋白質(zhì)模型的預(yù)測
真實(shí)蛋白質(zhì)結(jié)構(gòu)預(yù)測無論從訓(xùn)練數(shù)據(jù)準(zhǔn)備還是模型構(gòu)建及訓(xùn)練都極其復(fù)雜. 因此,人們希望找一個(gè)簡單的蛋白質(zhì)模型,以便能快速地試驗(yàn)他們的想法. 就如手寫數(shù)字識(shí)別(對(duì)應(yīng)數(shù)據(jù)集為MNIST)[
而HP蛋白質(zhì)模型就是這樣的模型[
我們基于此HP模型,提出了一個(gè)強(qiáng)關(guān)聯(lián)神經(jīng)網(wǎng)絡(luò)[
Fig. 6 Architecture of the strongly-correlated neural network (SCN) where r indicates number of residues and c indicates number of features or channels.
該研究發(fā)現(xiàn)與傳統(tǒng)向量表征方法相比,強(qiáng)關(guān)聯(lián)網(wǎng)絡(luò)極大提升了預(yù)測準(zhǔn)確性,提高了約20個(gè)百分點(diǎn).
4 展望與啟示
最近十多年深度學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)預(yù)測中取得了巨大了成就,它的杰出代表AlphaFold2[
而另一方面,高分子材料基因組計(jì)劃仍然在進(jìn)行中. 因?yàn)槠胀ǜ叻肿拥慕M成不像蛋白質(zhì)序列那樣,有確定的組成單元以及較為單一明確的目標(biāo),因此難度更大. 但深度學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)預(yù)測中的成功經(jīng)驗(yàn)仍然對(duì)高分子材料基因組計(jì)劃有一定的啟發(fā):
首先,它有一個(gè)標(biāo)準(zhǔn)化的結(jié)構(gòu)數(shù)據(jù)庫PDB. 高分子材料基因組計(jì)劃或許也需要構(gòu)建類似的數(shù)據(jù)庫,難點(diǎn)在于制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn). 即如何準(zhǔn)確、完整、簡潔地表征高分子鏈,加工條件及性能.
其次,蛋白質(zhì)結(jié)構(gòu)預(yù)測有一個(gè)權(quán)威的CASP競賽,CASP極大地推進(jìn)了結(jié)構(gòu)預(yù)測算法的演進(jìn). 在材料基因組計(jì)劃中可參照CASP,建立相應(yīng)的標(biāo)準(zhǔn)化競賽.
再次,AlphaFold2充分利用了當(dāng)前深度學(xué)習(xí)領(lǐng)域的各種先進(jìn)算法,并不拘泥于某種特定算法. 這啟發(fā)我們解決問題時(shí)需要以問題為導(dǎo)向,而非以方法為導(dǎo)向.
最后,AlphaFold2中將Distogram信息用神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化成分子結(jié)構(gòu)坐標(biāo)的方法可推廣至其他結(jié)構(gòu)預(yù)測的問題中,當(dāng)然也可用于高分子的結(jié)構(gòu)預(yù)測.
欄目分類
- 1網(wǎng)絡(luò)直播現(xiàn)狀及前景探究
- 2淺析電影《我的父親母親》視聽語言特色——影視文學(xué)
- 3中美貿(mào)易戰(zhàn)的發(fā)展和應(yīng)對(duì)
- 4論微信傳播的特點(diǎn)
- 5企業(yè)如何進(jìn)行危機(jī)公關(guān)——以三星Galaxy note7爆炸門事件為例
- 6淺析網(wǎng)絡(luò)暴力的社會(huì)危害及防治對(duì)策
- 7聚酮類化合物研究進(jìn)展
- 8淺析《極限挑戰(zhàn)》的節(jié)目特色及啟示
- 9《楚門的世界》的多重隱喻解讀
- 10體育產(chǎn)業(yè)發(fā)展中存在的問題及建議
- 游戲教學(xué)法在網(wǎng)球教學(xué)中的應(yīng)用
- 心理素質(zhì)在網(wǎng)球比賽中的作用
- 綠色科技視角下企業(yè)環(huán)境績效指標(biāo)體系構(gòu)建
- 節(jié)約型基礎(chǔ)上的綠色財(cái)政稅收政策研究
- 財(cái)政投資項(xiàng)目竣工決算存在的問題及對(duì)策
- 基于精細(xì)化管理視域探析公立醫(yī)院成本管控優(yōu)化策略
- 農(nóng)村信用社在金融市場中的營銷技巧探究
- 實(shí)現(xiàn)我國糧食增產(chǎn)增收的財(cái)稅政策分析
- 離子色譜法同時(shí)測定卷煙紙中幾種金屬離子的含量
- IC厭氧反應(yīng)器處理造紙廢水效率的時(shí)間分布特征研究
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級(jí)情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評(píng)職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級(jí)黨報(bào)?是否有什么說據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報(bào)?
- 《農(nóng)業(yè)經(jīng)濟(jì)》論文投稿解析,難度指數(shù)四顆星,附好發(fā)選題!