10月9日,中山大學(xué)醫(yī)學(xué)院施莽教授團(tuán)隊(duì)與阿里云李兆融團(tuán)隊(duì)在《細(xì)胞》(Cell)雜志上發(fā)表論文,報(bào)告了180個(gè)超群、超過16萬種全球RNA病毒的發(fā)現(xiàn)。這是迄今為止規(guī)模最大的RNA病毒研究,大幅擴(kuò)展了全球RNA病毒的多樣性。該研究將人工智能技術(shù)應(yīng)用于病毒鑒定,發(fā)現(xiàn)了傳統(tǒng)方法未能發(fā)現(xiàn)的病毒“暗物質(zhì)”,探索了病毒學(xué)研究的新路徑。
傳統(tǒng)病毒發(fā)現(xiàn)方法遇瓶頸人工智能突破“已知”探“未知”
病毒是地球生態(tài)系統(tǒng)的重要組成部分,也與人類的健康密切相關(guān)。但是,目前已知的病毒種類仍十分有限,用更高效、更精準(zhǔn)的方法發(fā)現(xiàn)和鑒定新病毒,一直是病毒學(xué)研究的基礎(chǔ)工作。
最早,人們通過分離培養(yǎng)病毒,在顯微鏡下觀察確認(rèn)病毒的存在。隨著生命組學(xué)的發(fā)展,科學(xué)家們能夠利用測序技術(shù),比較未知病毒和已知病毒核酸序列的相似性,識(shí)別和鑒定新病毒。這種方法十分依賴對(duì)病毒的既有認(rèn)知。
然而,RNA病毒是一種高度分化、種類繁多且容易變異的病毒,尤其在面對(duì)缺乏同源性或同源性極低的“暗物質(zhì)病毒”時(shí),這種序列同源性比對(duì)的方法很容易失靈。
使用人工智能對(duì)全球病毒圈深度挖掘并分類
人工智能技術(shù)的引入使突破“已知”尋找“未知”成為可能。研究中,團(tuán)隊(duì)采用的核心算法LucaProt是一種能夠深度學(xué)習(xí)的Transformer模型,在大量學(xué)習(xí)病毒和非病毒基因組序列后,可以自主形成一套關(guān)于病毒的判斷標(biāo)準(zhǔn),從而在大量的RNA測序數(shù)據(jù)集中挖掘出病毒序列。在測試中,LucaProt表現(xiàn)出極高的準(zhǔn)確性和特異性,假陽性率為0.014%,假陰性率為1.72%。在與其他病毒挖掘工具的對(duì)比中,它也在處理較長序列的方面展現(xiàn)出優(yōu)勢。
“人工智能的算法模型能夠挖掘出我們之前忽略或根本不知道的病毒,這種能力在疾病防控和新病原的快速識(shí)別中尤為重要。特別是在疫情暴發(fā)時(shí),人工智能的速度和精度可以幫助科學(xué)家更快地鎖定潛在病原體?!笔┟дf。
發(fā)現(xiàn)大量全新RNA病毒刷新全球病毒圈認(rèn)知
利用LucaProt,研究團(tuán)隊(duì)對(duì)來自全球生物環(huán)境樣本的10,487份RNA測序數(shù)據(jù)進(jìn)行病毒挖掘,發(fā)現(xiàn)了超過51萬條病毒基因組,代表超過16萬個(gè)潛在病毒種及180個(gè)RNA病毒超群(相當(dāng)于門或綱的分類級(jí)別),使RNA病毒超群數(shù)量擴(kuò)容約9倍。其中23個(gè)超群無法通過序列同源方法識(shí)別,被稱為病毒圈的“暗物質(zhì)”。
“這些病毒不僅指感染人類的病原體,還包括廣泛存在于環(huán)境中的、感染各類生物的病毒。各種動(dòng)物、植物、單細(xì)胞原生生物、真菌、細(xì)菌和古菌都可能感染病毒。深入了解環(huán)境中的病毒,有助于我們更好地理解整個(gè)生態(tài)系統(tǒng)的運(yùn)作機(jī)制?!闭撐牡谝蛔髡吆钚虏┦拷榻B,“此外,我們還可以利用這種方法發(fā)現(xiàn)與人類疾病密切相關(guān)的病毒,用于新發(fā)傳染病的監(jiān)測和預(yù)警。”
依靠數(shù)據(jù)挖掘出來的新病毒,是否會(huì)停留在數(shù)字層面?通過對(duì)新發(fā)現(xiàn)病毒的分析,科學(xué)家們對(duì)病毒圈的認(rèn)知也在不斷深化。
新發(fā)現(xiàn)病毒的遺傳多樣性(黃色部分)
在這項(xiàng)研究中,團(tuán)隊(duì)報(bào)告了迄今最長的RNA病毒基因組,長度達(dá)到47,250個(gè)核苷酸;發(fā)現(xiàn)了超出以往認(rèn)知的基因組結(jié)構(gòu),展現(xiàn)出RNA病毒基因組進(jìn)化的靈活性;識(shí)別到多種病毒功能蛋白,特別是與細(xì)菌相關(guān)的功能蛋白,進(jìn)一步表明還有更多類型的RNA噬菌體亟待探索。
研究指出,新發(fā)現(xiàn)的病毒分布在地球的各類生態(tài)環(huán)境中??傮w上,落葉層、濕地、淡水和廢水環(huán)境的病毒多樣性最高。然而,在南極底泥、深海熱泉、活性污泥和鹽堿灘等極端環(huán)境中,RNA病毒的多樣性和豐度并不低,甚至在深海熱泉的高溫環(huán)境中,仍有RNA病毒在活躍復(fù)制。
“這項(xiàng)研究中,病毒的發(fā)現(xiàn)運(yùn)用了人工智能的技術(shù),但分類仍基于現(xiàn)有的體系進(jìn)行。面對(duì)遠(yuǎn)源的新病毒,現(xiàn)有的分類體系已經(jīng)顯得力不從心。未來,這一體系在門、綱等更深層次的分類上,可能會(huì)有大規(guī)模的調(diào)整。”施莽說,“我們的研究展示了病毒多樣性的深度,但廣度仍有待更多樣本的補(bǔ)充。病毒的多樣性遠(yuǎn)超人類想象,我們目前所看到的仍是冰山一角?!?/p>
人工智能技術(shù)廣泛應(yīng)用或助力破解更多科研難題
LucaProt雖然是一個(gè)專門為RNA病毒發(fā)現(xiàn)設(shè)計(jì)的模型,但它同時(shí)融合了對(duì)蛋白質(zhì)序列和隱含結(jié)構(gòu)信息識(shí)別的功能,也可用于蛋白質(zhì)功能的鑒定。在論文中,研究團(tuán)隊(duì)開源了LucaProt模型,并通過在線網(wǎng)站分享給全球科學(xué)家。
“這個(gè)框架正在逐步成為該領(lǐng)域的前沿工具,也開始被應(yīng)用到其他類型的蛋白質(zhì)鑒定和功能發(fā)現(xiàn)任務(wù)上?!卑⒗镌粕镉?jì)算總監(jiān)李兆融表示,人工智能正在逐步改變科學(xué)家解決包括病毒學(xué)在內(nèi)的各類科學(xué)問題的方式。
中國工程院院士、中國疾控中心傳染病溯源預(yù)警與智能決策全國重點(diǎn)實(shí)驗(yàn)室主任徐建國院士表示,LucaProt的成功標(biāo)志著人工智能算法在病毒發(fā)現(xiàn)方面的重大突破。未來,人工智能方法有望成為微生物學(xué)領(lǐng)域的主要工具,并可應(yīng)用于病毒對(duì)人類致病性的預(yù)測。
上海生物信息技術(shù)研究中心主任、廣州國家實(shí)驗(yàn)室李亦學(xué)研究員認(rèn)為,LucaProt能夠從序列和空間結(jié)構(gòu)兩個(gè)水平上,融合提取RNA病毒基因組序列的長程相關(guān)信息和組成特征,能夠先驗(yàn)地識(shí)別數(shù)據(jù)中RNA病毒組成的模式和特征,這是傳統(tǒng)的基于同源分析的進(jìn)化分析方法難以企及的。因此可以看到,人工智能在解決生物學(xué)科學(xué)問題中具有更廣泛的應(yīng)用潛力。
施莽介紹,這項(xiàng)研究與阿里云飛天實(shí)驗(yàn)室的AI4S-生物計(jì)算團(tuán)隊(duì)合作開展,他們專注于生物序列的基礎(chǔ)模型研究。中山大學(xué)團(tuán)隊(duì)負(fù)責(zé)病毒學(xué)方面的問題,而阿里云團(tuán)隊(duì)則專注于人工智能模型的開發(fā)和計(jì)算?!半p方經(jīng)?;ハ喟菰L,一起坐下來討論問題,幫助彼此理解對(duì)方不熟悉的領(lǐng)域?!笔┟дf,“我們希望繼續(xù)通過跨領(lǐng)域、緊密的科研合作,充分利用云計(jì)算和人工智能的優(yōu)勢,解決生命科學(xué)領(lǐng)域的重要問題?!?/p>
① 凡本站注明“稿件來源:中國教育在線”的所有文字、圖片和音視頻稿件,版權(quán)均屬本網(wǎng)所有,任何媒體、網(wǎng)站或個(gè)人未經(jīng)本網(wǎng)協(xié)議授權(quán)不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復(fù)制發(fā)表。已經(jīng)本站協(xié)議授權(quán)的媒體、網(wǎng)站,在下載使用時(shí)必須注明“稿件來源:中國教育在線”,違者本站將依法追究責(zé)任。
② 本站注明稿件來源為其他媒體的文/圖等稿件均為轉(zhuǎn)載稿,本站轉(zhuǎn)載出于非商業(yè)性的教育和科研之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如轉(zhuǎn)載稿涉及版權(quán)等問題,請(qǐng)作者在兩周內(nèi)速來電或來函聯(lián)系。