語(yǔ)音播報
6月6日,中國科學(xué)院上海藥物研究所鄭明月課題組在《自然-機器智能》(Nature Machine Intelligence)上發(fā)表了題為Generic protein–ligand interaction scoring by integrating physical prior knowledge and data augmentation modelling的研究論文。該團隊利用等變圖神經(jīng)網(wǎng)絡(luò )來(lái)整合蛋白質(zhì)-配體相互作用相關(guān)的物理先驗知識,并使用多種數據增強、數據去冗余策略來(lái)避免模型過(guò)擬合潛在的數據分布偏差,構建了通用蛋白質(zhì)-配體相互作用評分方法——EquiScore。在藥物虛擬篩選場(chǎng)景和先導化合物優(yōu)化場(chǎng)景中,EquiScore對訓練未見(jiàn)的新靶標表現出良好的泛化性能。此外,EquiScore的可解釋性分析為基于結構的藥物設計提供了有價(jià)值的線(xiàn)索。?
精準評估蛋白質(zhì)-配體相互作用對藥物發(fā)現至關(guān)重要。然而,開(kāi)發(fā)可靠的評估方法是學(xué)術(shù)界和工業(yè)界的挑戰。近年來(lái),人工智能技術(shù)在這一領(lǐng)域已取得進(jìn)展。以AlphaFold為代表的深度學(xué)習方法在蛋白質(zhì)三維結構、蛋白質(zhì)-配體復合物結構預測方面表現優(yōu)異。然而,在新靶標的藥物虛擬篩選場(chǎng)景中,高精度的活性預測評分方法仍然匱乏。研究表明,深度學(xué)習模型傾向學(xué)習數據中的分布偏差,對分布內的數據可以給出較好的性能指標。而在實(shí)際應用中,尤其面對訓練集未見(jiàn)的新靶標和化學(xué)多樣性空間,深度學(xué)習模型卻無(wú)法展現出良好的泛化效果。
該研究從兩方面來(lái)提高深度學(xué)習評分函數對新蛋白的預測能力??蒲腥藛T收集更多的陽(yáng)性樣本,并使用重對接來(lái)生成更多樣的陽(yáng)性樣本。同時(shí),該研究使用交叉蛋白對接、分子生成模型來(lái)生成更多具有欺騙性和多樣性的誘餌分子,以減少構建訓練數據集時(shí)可能出現的類(lèi)似物偏差、數據分布偏差及人工富集偏差。該團隊提出了異質(zhì)圖構建流程,可以通過(guò)引入新的節點(diǎn)和邊來(lái)整合分子間相互作用的物理先驗信息。該團隊提出了信息感知注意力機制,用于整合不同信息中的相互作用。這些信息包括等變幾何信息、化學(xué)結構信息、經(jīng)驗相互作用信息。該研究通過(guò)使用新構建的數據集和等變異質(zhì)圖網(wǎng)絡(luò )來(lái)訓練最終的評分模型EquiScore。
在訓練集中未見(jiàn)過(guò)的蛋白質(zhì)上的虛擬篩選能力能夠更好地反映評分方法在實(shí)際應用中的泛化性能。為了進(jìn)行充分比較,科研人員選擇了21種不同的評分方法作為基準。近來(lái)報道的所有方法均是基于PDBbind數據集訓練得到的,而該數據集與外部測試集具有高度的“軟重疊”,即很多蛋白均是在訓練過(guò)程中模型已見(jiàn)過(guò)的。為了進(jìn)一步檢查這種數據泄漏是否導致性能高估,該研究將外部測試集涉及“軟重疊”的數據進(jìn)行去重,并對所有方法的結果進(jìn)行重新評估。DEKOIS2.0測試集上的分析結果顯示,EquiScore的排序能力和富集能力均位于第一位或者第二位。當只考慮訓練過(guò)程中未見(jiàn)過(guò)的蛋白時(shí),EquiScore在所有結果上均位于第一位。上述研究表明,在嚴格的測試下,EquiScore的綜合排序能力超過(guò)了現有方法。此外,EquiScore對新蛋白的富集能力超過(guò)了傳統評分方法和深度學(xué)習方法。
進(jìn)一步,科研人員在外部的先導化合物優(yōu)化數據集上比較了EquiScore與其他方法對結構類(lèi)似物的活性排序能力;使用不同的對接方法生成蛋白-配體復合物結合構象,評價(jià)了EquiScore作為評分方法的魯棒性。此外,研究人員分析了模型的可解釋性。
研究工作得到國家自然科學(xué)基金、國家重點(diǎn)研發(fā)計劃、中國科學(xué)院青年創(chuàng )新促進(jìn)會(huì )會(huì )員項目、上海市科技重大專(zhuān)項、上海藥物所與上海中醫藥大學(xué)中醫藥創(chuàng )新團隊聯(lián)合研究項目的支持。
EquiScore架構圖
© 1996 - 中國科學(xué)院 版權所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標識碼bm48000002
地址:北京市西城區三里河路52號 郵編:100864
電話(huà): 86 10 68597114(總機) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學(xué)院 版權所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標識碼bm48000002
地址:北京市西城區三里河路52號 郵編:100864
電話(huà): 86 10 68597114(總機) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學(xué)院 版權所有
京ICP備05002857號-1
京公網(wǎng)安備110402500047號
網(wǎng)站標識碼bm48000002
地址:北京市西城區三里河路52號 郵編:100864
電話(huà):86 10 68597114(總機)
86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn