11月17日,騰訊公布了一項(xiàng)人工智能助力藥物發(fā)現(xiàn)的新進(jìn)展。
通過騰訊自研的提升蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)精度的新方法,聯(lián)合研究團(tuán)隊(duì)首次解析了II型5a還原酶(SRD5A2)的三維結(jié)構(gòu),揭示了治療脫發(fā)和前列腺增生的藥物分子“非那雄胺”對(duì)于該酶的抑制機(jī)制,這將有助于深化研究相關(guān)疾病的病理學(xué)機(jī)制及藥物優(yōu)化。
此次,騰訊AI Lab采用“從頭折疊”的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法幫助解析了SRD5A2晶體結(jié)構(gòu),并通過自研AI工具“ tFold”有效提升了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)精度,在科研突破中發(fā)揮了核心作用。除了在SRD5A2結(jié)構(gòu)中的應(yīng)用,這套方法還可以拓展應(yīng)用于蛋白質(zhì)分子和病理學(xué)機(jī)制的相關(guān)研究中。
該項(xiàng)聯(lián)合研究成果于近日登上了國(guó)際頂級(jí)期刊Nature子刊《 Nature Communications》。論文題為《人體類固醇II型5a還原酶與抗雄激素藥物非那雄胺的結(jié)構(gòu)研究》,由南科大生物系魏志毅副教授課題組與匹茲堡大學(xué)張誠(chéng)教授、新加坡A*STAR研究所范昊研究員、騰訊AI Lab黃俊洲博士帶領(lǐng)的研究小組合作完成。本次得到權(quán)威學(xué)術(shù)期刊發(fā)表及評(píng)審的高度評(píng)價(jià),也驗(yàn)證了該成果對(duì)藥物研發(fā)的創(chuàng)新價(jià)值。
據(jù)了解,tFold工具還在CAMEO(全球唯一的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)自動(dòng)評(píng)估平臺(tái))的國(guó)際測(cè)評(píng)中連續(xù)半年保持周度冠軍。目前,tFold公測(cè)版本已通過騰訊“云深智藥(iDrug)”平臺(tái)官網(wǎng)對(duì)外開放。
“從頭折疊”新方法破解晶體學(xué)難題
在人體內(nèi),性激素有促進(jìn)性器官成熟、副性征發(fā)育及維持性功能等作用。
二氫睪酮是人體中已知最強(qiáng)的雄激素,對(duì)于人體的發(fā)育和生理活動(dòng)至關(guān)重要,但同時(shí)也需要保持合理的平衡。一方面,二氫睪酮控制著男性性器官的發(fā)育,水平過低將導(dǎo)致男性性征缺陷。另一方面,水平過高又是導(dǎo)致前列腺增生和脫發(fā)的罪魁禍?zhǔn)住?/p>
合成性激素依賴類固醇還原酶,二氫睪酮即由SRD5A2催化合成。因此,當(dāng)患者因?yàn)槎䴕洳G酮水平過高而出現(xiàn)前列腺增生和脫發(fā)問題時(shí),可以通過抑制SRD5A2來(lái)降低患者二氫睪酮水平。作為SRD5A2的高效抑制劑,非那雄胺(finasteride)被廣泛用于治療這類疾病。
盡管SRD5A2具有重要生理作用,其高分辨率結(jié)構(gòu)信息卻十分缺乏,導(dǎo)致SRD5A2催化二氫睪酮合成的機(jī)理以及非那雄胺抑制SRD5A2酶活的機(jī)制并不清晰。
這是由于SRD5A2具有獨(dú)特的七次跨膜結(jié)構(gòu),其與人類全部已知結(jié)構(gòu)的蛋白在結(jié)構(gòu)上存在較大差異,難以通過“模板建模”(template-based modeling)方法獲得初始構(gòu)型來(lái)解析晶體數(shù)據(jù)。同時(shí)又因?yàn)镾RD5A2是一類多次跨膜蛋白,使得傳統(tǒng)的用于獲取蛋白質(zhì)晶體相位信息的“重原子替代”(Heavy-atom derivatization)方法亦難以奏效。
為了解決這一難題,騰訊AI Lab科研團(tuán)隊(duì)采用了難度更高的“從頭折疊”(de novo folding)方法來(lái)預(yù)測(cè)SRD5A2蛋白的三維結(jié)構(gòu),并將其用于“分子置換”(molecular replacement, MR)的初始構(gòu)型來(lái)解析晶體數(shù)據(jù)。
所謂“從頭折疊”,是相對(duì)于“模板建模”的一種蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法。“模板建模”是目前最普遍的蛋白結(jié)構(gòu)預(yù)測(cè)手段,但有一個(gè)使用前提——人類已知的蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù)(即PDB)當(dāng)中,必須存在和預(yù)測(cè)的蛋白相似的結(jié)構(gòu),否則就無(wú)法使用。而騰訊AI Lab采用的“從頭折疊”方法則跳出了這個(gè)限制,可以不依賴于模板來(lái)預(yù)測(cè)蛋白結(jié)構(gòu)。
但此前,通過“從頭折疊”方法預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)精度不高,難以滿足晶體數(shù)據(jù)解析的精度需要。而在騰訊tFold工具加持下得到的高精度“從頭折疊”的結(jié)構(gòu)模型,為分子置換方法提供相位,繼而解析確定2.8? 原子級(jí)別精度的SRD5A2晶體結(jié)構(gòu)。
這一結(jié)果能直接推進(jìn)我們對(duì)體內(nèi)SRD5A2活性失調(diào)引發(fā)的各類疾病的理解,進(jìn)而為基于SRD5A2結(jié)構(gòu)的藥物開發(fā)提供更多有價(jià)值的參考信息。
《Nature Communications》的一位評(píng)審對(duì)此創(chuàng)新方法給予了高度評(píng)價(jià):“作者能用預(yù)測(cè)的分子置換(MR)模型來(lái)確定晶體結(jié)構(gòu),這一點(diǎn)非常有趣。本評(píng)審認(rèn)為該技術(shù)確實(shí)非常出色,整個(gè)X射線晶體學(xué)界將從該方法中受益匪淺。”
《Nature Communications》期刊評(píng)審評(píng)論原文節(jié)選
自研冠軍級(jí)tFold工具突破蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)精度
騰訊AI Lab自研的tFold工具正是破解 SRD5A2蛋白結(jié)構(gòu)這一重要難題的關(guān)鍵。為了提升“從頭折疊”方法(又稱“自由建模”)的精度,tFold工具通過三項(xiàng)技術(shù)創(chuàng)新,實(shí)現(xiàn)了蛋白結(jié)構(gòu)預(yù)測(cè)精度的大幅提升。
首先,實(shí)驗(yàn)室研發(fā)了“多數(shù)據(jù)來(lái)源融合”(multi-source fusion)技術(shù),來(lái)挖掘多組多序列聯(lián)配(multiplesequence alignment, MSA)中的共進(jìn)化信息。
然后,借助 “深度交叉注意力殘差網(wǎng)絡(luò)” (deep cross-attention residual network,DCARN),能極大提高一些重要的蛋白2D結(jié)構(gòu)信息(如:殘基對(duì)距離矩陣)的預(yù)測(cè)精度。
最后,通過一種新穎的“模板輔助自由建模“(Template-based Free Modeling, TBFM)方法,將自由建模(Free Modeling, FM)和模板建模(Template-based Modeling, TBM)生成的3D模型中的結(jié)構(gòu)信息加以有效融合,從而大大提高了最終3D建模的準(zhǔn)確性。
在研究方面,tFold平臺(tái)已在國(guó)際公認(rèn)最權(quán)威的測(cè)試平臺(tái)CAMEO上證明其創(chuàng)新價(jià)值及有效性。騰訊AI Lab于2020年初在CAMEO平臺(tái)注冊(cè)了自動(dòng)化蛋白結(jié)構(gòu)預(yù)測(cè)服務(wù)器tFold server,并自2020年6月起至今一直保持周度(圖1)、月度、季度、半年度冠軍。tFold server在一般案例上領(lǐng)先業(yè)內(nèi)權(quán)威方法6%以上,在困難案例上則領(lǐng)先12%以上。
在應(yīng)用方面,tFold server的公測(cè)版也已經(jīng)在騰訊“云深智藥”平臺(tái)發(fā)布。用戶可以手動(dòng)輸入待預(yù)測(cè)的氨基酸序列或從本地上傳FASTA格式的序列文件。在經(jīng)過一定時(shí)間的計(jì)算之后,用戶即可得到使用“從頭折疊”方法預(yù)測(cè)得到高精確度蛋白結(jié)構(gòu)(下圖)。
tFold server的3D Modeling輸出頁(yè)面。左邊部分為從頭折疊得到的3D蛋白模型;右邊部分是該3D模型在給定的預(yù)測(cè)殘基對(duì)距離矩陣下的偏差。
騰訊“云深智藥”用AI持續(xù)助力藥物發(fā)現(xiàn)
依托大數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等先進(jìn)技術(shù)優(yōu)勢(shì),騰訊正致力于推動(dòng)AI與醫(yī)療產(chǎn)業(yè)的深度結(jié)合,助力社會(huì)整體醫(yī)療水平提升。
據(jù)了解,“云深智藥”是騰訊發(fā)布的首個(gè)AI驅(qū)動(dòng)的藥物發(fā)現(xiàn)平臺(tái),整合了騰訊AI Lab和騰訊云在前沿算法、優(yōu)化數(shù)據(jù)庫(kù)以及計(jì)算資源上的優(yōu)勢(shì),致力于幫助用戶大幅度減少尋找潛在活性化合物的時(shí)間和成本。
騰訊「云深智藥」平臺(tái)主要功能
“云深智藥”的五大模塊覆蓋臨床前新藥發(fā)現(xiàn)全流程,目前各功能模塊正持續(xù)完善與升級(jí)。除蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)外,平臺(tái)還上線了分子生成模塊。AI驅(qū)動(dòng)的分子生成模型是輔助小分子藥物設(shè)計(jì)的重要工具之一,不僅能加速藥物發(fā)現(xiàn)流程,還能啟發(fā)藥化專家跳出現(xiàn)有的分子庫(kù),探索更大的化合物空間。該模塊還整合了ADMET屬性預(yù)測(cè)功能,可對(duì)生成的新分子實(shí)時(shí)進(jìn)行屬性篩選。
此外,平臺(tái)的逆合成算法也已取得了一定進(jìn)展,計(jì)劃于明年上線。其它小分子和大分子藥物發(fā)現(xiàn)功能模塊也將逐步上線。
除藥物研發(fā)以外,騰訊AI Lab也在影像篩查、病理診斷等多個(gè)醫(yī)療領(lǐng)域持續(xù)探索,不斷拓展和深化研究與應(yīng)用。
在AI助力醫(yī)療技術(shù)方面,實(shí)驗(yàn)室聯(lián)合多家合作單位研發(fā)了中國(guó)首款智能顯微鏡,幫助醫(yī)生提高工作效率。2020年10月,在免疫組化樣本(IHC)分析的基礎(chǔ)上,智能顯微鏡新增了針對(duì)宮頸液基細(xì)胞(TCT)標(biāo)本進(jìn)行臨床樣本的顯微圖像進(jìn)行觀察、篩選、標(biāo)記功能,并已獲得國(guó)家藥監(jiān)局審批證書。
在病理研究領(lǐng)域,騰訊AI Lab也研發(fā)出了世界領(lǐng)先的前沿算法,比如斬獲MICCAI 2020 CPM-RadPath挑戰(zhàn)賽第一名的算法,能夠準(zhǔn)確區(qū)分神經(jīng)膠質(zhì)瘤(大腦最常見腫瘤)的不同亞型并進(jìn)行分級(jí),有望彌補(bǔ)人工診斷效率低、主觀因素影響較大等問題。
此外,騰訊AI Lab在今年早些時(shí)候與南方醫(yī)院合作發(fā)表了名為《基于病理圖片的結(jié)直腸癌微衛(wèi)星不穩(wěn)定性預(yù)測(cè)模型的開發(fā)和解釋》的文章,利用算法模型可輔助病理醫(yī)生篩查結(jié)直腸癌中微衛(wèi)星不穩(wěn)定亞型,降低微衛(wèi)星不穩(wěn)定篩查的條件要求,幫助更多的地方醫(yī)院也有能力執(zhí)行這樣的篩查。