<b id="rtthv"><span id="rtthv"><mark id="rtthv"></mark></span></b>

    <del id="rtthv"></del>

        <menuitem id="rtthv"><em id="rtthv"></em></menuitem>

            <font id="rtthv"></font>
            <b id="rtthv"></b>

            <menuitem id="rtthv"></menuitem>

            <del id="rtthv"></del>

            材料前沿

            當前位置: 首頁 > 新聞動態 > 材料前沿
            中科大江俊JACS:可遷移的機器學習模型預測蛋白質紅外光譜
            發布時間:2020-11-11 來源:機數科技 瀏覽:1209次



            研究背景

            A.如何獲得蛋白質動態過程的結構信息,以建立蛋白質分子精準的構效關系是一個重大的挑戰


            蛋白質分子是生命的基石。生物系統的各種功能,依賴于各種蛋白質分子不同形式和程度的表達。認識蛋白質的功能,建立在對其結構精準認識的基礎上。特別是,蛋白質分子動態過程中結構的實時變化,對揭示具體環境中的蛋白質性質、發展現代生命科學和醫學藥物研究具有至關重要的意義。因此,《SCIENCE》期刊提出的現代科學125個前沿重要問題中就有三個重大科學問題與測定蛋白質結構相關。如何獲得蛋白質動態過程的結構信息,以建立蛋白質分子精準的構效關系,是蛋白質結構研究的核心問題。


            B.發展快速響應并實時探測蛋白質動態結構的分子光譜技術是一個重要的科學問題


            分子光譜技術,可以通過測量蛋白質對光照的響應信號,利用不同蛋白質的光學特征不同來測定蛋白質結構。比如,X射線光譜,紅外吸收光譜,拉曼光譜,圓二色光譜,都可以指認出蛋白質的光學指紋特別是紅外光譜,因其對二級結構變化的高敏感成為測定蛋白質結構的一種重要手段 (Nature 2020, 577, 52-59Science 2016, 353,1040-1044Chem. Rev. 2017,117, 10623-10664)

            利用紅外光譜光學指紋信息預測結構信息,離不開理論模擬的對比和確認。然而,蛋白質分子光譜的理論模擬面臨嚴重的計算瓶頸問題。蛋白質在溶液中的結構是溶質分子與周圍環境相互作用的整體效果的反映,由于原子數多,自由度極大,給精確的光譜計算帶來了相當大的挑戰,因此限制了實驗光譜的解讀和原位譜學探測技術的發展。因此,光譜模擬如何幫助實現快速響應和實時探測蛋白質動態結構的分子光譜技術,是一個重要的科學問題。



            研究出發點

            A.蛋白質模型哈密頓量的構建:

            蛋白質在紅外光譜中有很多特征吸收帶,其中酰胺 I (1600-1700cm-1),包含了蛋白質豐富的二級結構信息,α-螺旋、β-折疊、β-轉角、卷曲等 因此測量酰胺 I 紅外光譜可獲得蛋白質的光學指紋信息。然而蛋白質分子中的原子數成百上千,結構自由度相當大,如果用整個分子的結構信息去預測單一的譜學信號,變量太多且不可控,構建機器學習模型相當難而且效果不好。可行的機器學習模型,必須建立在對蛋白質分子結構的合理劃分和對片段的性質進行學習和預測的基礎上,即分而治之的策略。


            Figure 1. Model Hamiltonian for amide I vibrations in a protein.

            以酰胺I紅外譜為例,我們構建了這樣一個哈密頓矩陣,如圖1所示。在上述描述酰胺I振動的哈密頓矩陣中,對角元為每個肽鍵的振動頻率(ωi),由N-甲基乙酰胺分子(NMA)的神經網絡模型預測得到,兩側的非對角元為相鄰兩個肽鍵的振動耦合系數(Jij),由甘氨酸二肽(GLDP)分子的神經網絡模型預測得到,其他非對角元元素為非相鄰肽


            B.機器學習數據產生以及描述符的選取:


            為了充分采樣結構差異大的NMA分子,我們使用不同的初始構象運行了七組一共241.5 ps時長的從頭算分子動力學模擬 (ab initio molecular dynamics, AIMD),每隔50步進行采樣以避免結構之間的相關性。為了充分考慮溶劑效應對肽鍵振動頻率的影響,我們提取了動力學軌跡中NMA分子以及其周圍5 Å以內的水分子一共9660組數據進行量化計算。對于二肽GLDP分子,為了節省計算資源,我們采用對Ramachandran (-180°≤ϕ≤180°, -180°≤ψ≤180°)每隔進行系統式掃描方式產生初始構象,一共產生了5128組二肽數據用于量化計算產生近鄰振動耦合數據。

            我們使用NMA以及GLDP分子的庫倫矩陣作為機器學習訓練的描述符,采用深度神經網絡模型對(ωi,Jij)進行學習和預測。所有模擬均在TensorFlow程序上進行。由于庫倫矩陣描述符自身的旋轉不變性,為了消除 () 訓練過程中的方向依賴性,我們對每個NMA分子進行了旋轉矩陣操作,將羰基C原子設置為xyz坐標系中的零點,將C-O鍵轉至y軸正方向,將OCN置于x-y平面,然后,對于新的NMA分子的()預測通過乘以旋轉矩陣的逆矩陣來獲得其原來坐標系下的值。



            結果與討論

            A.機器學習模型評估:



            Figure 2. (a) Correlation between the DFT-computed (ω_DFT) (black lines/dots) and NN-predicted (ω_NN) (red lines/dots) amide I vibrational frequencies after cross-validation. (b-d) Comparison of the DFT-computed amide I vibrational transition dipole moment in the x, y, z direction (μx,y,z_DFT) (black lines/dots) and NN-predicted (μx,y,z_NN) (red lines/dots) after cross-validation. (e) Amide I vibrational normal modes (a, b) and local modes (c, d) of GLDP with DFT B3LYP/cc-pVDZ. (f) Comparison of DFT-computed (J_DFT) (black lines/dots) and NN-predicted (J_NN) (red lines/dots) coupling constants of nearest neighboring amide I modes after cross-validation.

            我們采用交叉檢驗的方式來衡量神經網絡模型的預測效果,從圖2中可以直觀的看到,神經網絡對于頻率以及振動耦合常數的預測效果很好,這是因為它們主要取決于基態結構。但是,由于躍遷態(例如,振動躍遷偶極矩)涉及兩個不同的振動態,它對結構的變化更加敏感,而我們的描述符只包含基態信息,因此會看到更多的異常值。總體來說,我們對(ωi,, Jij)的預測有著高的皮爾遜系數(r>0.9)以及極低的誤差保證了我們后續構建振動激子哈密頓量的準確性。


            Figure 3. Machine learning protocol for predicting protein IR spectroscopy.

            使用機器學習預測蛋白質紅外光譜的整個流程如圖3所示,首先我們將蛋白質拆分為單獨的肽鍵和二肽,由NMA分子NN模型預測的(ωi)以及()用于生成哈密頓量的對角元元素和由非相鄰肽鍵之間的耦合產生的非對角元素(通過偶極近似計算)。從GLDP分子NN模型預測的Jij值作為鄰近二肽的振動耦合用于生成非對角線元素。最后,我們對整個模型哈密頓量進行對角化求解得到蛋白質的紅外光譜。同時,我們也將這個ML工具發布到了網上,提供實時的蛋白質光譜預測(http://dcaiku.com:12880/platform/first)



            B. ML protocol對蛋白質二級結構的分辨


            為了測試我們開發的機器學習方案預測光譜的準確性,我們測試了12中不同類型的蛋白質,即不同比例的α-螺旋和β-折疊,使用機器學習預測了它們的紅外光譜并與實驗光譜進行了比較。


            Figure 4. Good agreement (the quantitative agreement between the predicted and experimental spectra were measured by Spearman rank correlation coefficients, see Table 1) is obtained between the experimental spectra of the proteins measured in D2O (black lines) and the ML predictions based on 1000 MD configurations (red lines). Intensity is scaled to have the same maximum intensity for each panel.

            Table 1. ML predicts IR protein spectra with the root mean square error (RMSE) and high Spearman rank correlation (ρ) indicates the quantitative agreement with experiment. Structures of 12 proteins with different sizes were taken from the Protein Data Bank, representing a diverse range of secondary structure contents, i.e., different fractions of α-helix and β-sheet. The IR spectrum of each protein was computed based on 1000 MD configurations. All reported calculation times refer to calculations on eight cores of an Intel(R) Xeon(R) CPU (E5-2683v4 @ 2.1GHz).


            我們從Spearman rank correlation(ρ)來衡量理論模擬光譜與實驗測量光譜之間的相似度。從4和表1中可知,理論預測與實驗測量吻合較好(11個蛋白ρ> 0.80,僅有1DHRρ0.71)。得益于機器學習對光譜模擬巨大的速度提升,我們可以模擬1000個蛋白質動力學快照(這對直接的量子化學計算會非常昂貴)來預測紅外光譜,從而捕獲每種蛋白質的動態特征。總體來說,機器學習模型預測的光譜成功地再現了實驗光譜的基本特征(主峰和線形)


            Figure 5. (a) From left to right : Simulated (red line) and Experimental (black line) IR spectra of Ubiquitin at four different temperatures (1.6 ° C ~ 82.6 ° C) and the temperature variation of the dominant peak position. (b) The ML-predicted IR spectra of the Trp-cage protein along its folding path (S1the original unfolded strand structure; S25: slightly folded but retaining the coil structure; S50: folding rapidly with the emergence of helix elements; S75-S100: stably folded protein with helix structures forming a cage.) All spectra are averaged over 100 (1000) MD snapshots for each state of Trp-cage (Ubiquitin).

            為了進一步測試我們機器學習模型的魯棒性和遷移性,我們模擬了不同溫度下(1.6℃, 28.6℃, 55.6℃, 82.6℃)Ubiquitin蛋白的紅外光譜,從圖中我們可以看到,隨著溫度的逐漸升高,Ubiquitin蛋白的紅外光譜逐漸藍移,機器學習模擬的結果與實驗光譜很好的吻合。這說明我們的機器學習模型對于變化的外部環境因素(溫度變化)具有良好的遷移性。隨后,我們使用開發的機器學模型去跟蹤Trp-Cage蛋白質折疊過程,從圖中可以看到,隨著折疊過程的進行,紅外光譜有著10cm-1(S1:1652 cm-1, S25:1650 cm-1, S50:1646 cm-1, S75:1644 cm-1, S100:1642 cm-1)紅移,機器模擬的結果與之前實驗以及理論模擬的結果一致,這同樣說明了我們的機器模型能準確的分辨蛋白質二級結構的變化,可以用于實時跟蹤蛋白質的折疊過程。



            總結與展望


            我們報道一種基于第一性原理數據的機器學習流程,該流程可以根據蛋白質的基態結構信息準確的預測蛋白質的酰胺I帶紅外光譜。與傳統的量子化學計算方法相比,它大大提高了蛋白質紅外光譜的理論模擬速度。更重要的是,所建立的機器學習模型具有優秀的可遷移性,可以預測訓練集范圍以外的蛋白質光譜響應,模擬不同狀態下的信號變化,從而分辨蛋白質的二級結構、考察溫度影響、跟蹤蛋白質折疊等。目前我們正在通過增加訓練數據集并且考慮顯性的溶劑效應來提高我們機器學習模型的準確性,并探索將該模型擴展到其他光譜性質研究,包括紫外吸收(UV)、拉曼(Raman)、和頻光譜 (SFG)、多維光譜(Multidimensional Spectroscopies)


            文獻來源


            論文標題:A Machine Learning Protocol for Predicting Protein Infrared Spectra.

            論文鏈接:http://dx.doi.org/10.1021/jacs.0c06530.


            science編輯推薦我們的機器學習-量子化學技術







            人妻蜜肉动漫中文_全程露脸东北老女_青青草国产97免费观看_人人妻澡澡澡人人