(來(lái)源:麻省理工科技評(píng)論)
【資料圖】
工業(yè)酵母是蛋白質(zhì)生產(chǎn)領(lǐng)域的主力軍,廣泛用于疫苗、生物制藥及其他有用化合物的制造。在一項(xiàng)新研究中,MIT 化學(xué)工程師借助 AI 優(yōu)化了新型蛋白質(zhì)生產(chǎn)工藝的開(kāi)發(fā)流程,有望降低這類(lèi)藥物的整體開(kāi)發(fā)和生產(chǎn)成本。
研究團(tuán)隊(duì)利用大語(yǔ)言模型(LLM)分析了工業(yè)酵母卡氏酵母(Komagataella phaffii)的遺傳密碼,重點(diǎn)考察了其所使用的密碼子。密碼子是由三個(gè)堿基組成的 DNA 序列,用于編碼特定氨基酸,每種氨基酸可由多種密碼子編碼,且不同生物體的密碼子使用規(guī)律各不相同。
MIT 團(tuán)隊(duì)開(kāi)發(fā)的新模型學(xué)習(xí)了卡氏酵母的密碼子使用規(guī)律,并據(jù)此預(yù)測(cè)哪些密碼子最適合生產(chǎn)特定蛋白質(zhì)。研究人員借助這一方法,成功提升了酵母生產(chǎn)六種不同蛋白質(zhì)的效率,包括人類(lèi)生長(zhǎng)激素和一種用于治療癌癥的單克隆抗體。
“擁有能夠持續(xù)表現(xiàn)穩(wěn)定的預(yù)測(cè)工具,對(duì)于縮短從創(chuàng)意到投產(chǎn)的時(shí)間至關(guān)重要。消除不確定性,歸根結(jié)底就是節(jié)省時(shí)間和金錢(qián),”MIT 化學(xué)工程系雷蒙德·A.與海倫·E.圣-洛朗講席教授、科赫綜合癌癥研究所成員、MIT 新制造業(yè)計(jì)劃(MIT INM)聯(lián)合學(xué)術(shù)主任 J.克里斯托弗·洛夫(J.Christopher Love)說(shuō)。
洛夫是這項(xiàng)新研究的通訊作者,論文本周發(fā)表于《美國(guó)國(guó)家科學(xué)院院刊》。MIT 前博士后哈里尼·納拉亞南(Harini Narayanan)為論文第一作者。
卡氏酵母和釀酒酵母(Saccharomyces cerevisiae,即面包酵母)是生物制藥行業(yè)的核心生產(chǎn)平臺(tái),每年生產(chǎn)數(shù)十億美元規(guī)模的蛋白質(zhì)藥物和疫苗。
研究人員在對(duì)酵母進(jìn)行工業(yè)蛋白質(zhì)生產(chǎn)改造時(shí),需從其他生物體中提取目標(biāo)基因(如胰島素基因),并對(duì)其進(jìn)行改造,使酵母能夠大量表達(dá)該蛋白質(zhì)。這一過(guò)程涉及為酵母細(xì)胞設(shè)計(jì)最優(yōu) DNA 序列、將其整合到酵母基因組、制定有利的培養(yǎng)條件,最終純化目標(biāo)產(chǎn)物等多個(gè)環(huán)節(jié)。
對(duì)于新型生物制品藥物而言,這類(lèi)大型復(fù)雜藥物由活體生物產(chǎn)生,上述開(kāi)發(fā)流程可能占藥物商業(yè)化總成本的 15% 至 20%。
“目前,這些步驟全部依賴(lài)繁瑣的實(shí)驗(yàn)操作,”洛夫說(shuō),“我們一直在思考:能否將機(jī)器學(xué)習(xí)領(lǐng)域涌現(xiàn)的新理念引入進(jìn)來(lái),使這一流程的各個(gè)環(huán)節(jié)更加可靠、更易預(yù)測(cè)。”
在這項(xiàng)研究中,研究人員嘗試優(yōu)化目標(biāo)蛋白質(zhì)基因的 DNA 密碼子序列。自然界中存在 20 種氨基酸,但密碼子序列多達(dá) 64 種,因此大多數(shù)氨基酸可由不止一種密碼子編碼。每個(gè)密碼子對(duì)應(yīng)一種特定的轉(zhuǎn)運(yùn) RNA(tRNA)分子,負(fù)責(zé)將相應(yīng)氨基酸攜帶至核糖體,氨基酸在那里被串聯(lián)合成蛋白質(zhì)。
不同生物體使用各類(lèi)密碼子的頻率不同。工程蛋白質(zhì)的設(shè)計(jì)者通常會(huì)選擇宿主生物體中出現(xiàn)頻率最高的密碼子,以優(yōu)化目標(biāo)蛋白質(zhì)的生產(chǎn)效率。然而,這種做法未必能獲得最佳結(jié)果。例如,如果始終使用同一種密碼子編碼精氨酸,細(xì)胞內(nèi)對(duì)應(yīng)的 tRNA 分子可能會(huì)出現(xiàn)供應(yīng)不足。
為采取更精細(xì)化的優(yōu)化策略,MIT 團(tuán)隊(duì)引入了一種編碼器-解碼器架構(gòu)的大語(yǔ)言模型。研究人員用該模型分析 DNA 序列,學(xué)習(xí)特定基因中密碼子的使用規(guī)律,而非分析文本。
訓(xùn)練數(shù)據(jù)來(lái)自美國(guó)國(guó)家生物技術(shù)信息中心的公開(kāi)數(shù)據(jù)集,涵蓋卡氏酵母天然產(chǎn)生的約 5000 種蛋白質(zhì)的氨基酸序列及對(duì)應(yīng) DNA 序列。
“模型學(xué)習(xí)的是這些密碼子使用方式的語(yǔ)法或語(yǔ)言規(guī)則,”洛夫說(shuō),“它不僅考慮了相鄰密碼子之間的關(guān)系,還捕捉了密碼子之間的長(zhǎng)程關(guān)聯(lián)。”
完成訓(xùn)練后,研究人員讓模型對(duì)六種蛋白質(zhì)的密碼子序列進(jìn)行優(yōu)化,包括人類(lèi)生長(zhǎng)激素、人血清白蛋白,以及用于治療癌癥的單克隆抗體曲妥珠單抗。
研究團(tuán)隊(duì)還使用四種市售密碼子優(yōu)化工具生成了上述蛋白質(zhì)的優(yōu)化序列,并將所有序列分別導(dǎo)入卡氏酵母細(xì)胞,測(cè)量各序列對(duì)目標(biāo)蛋白質(zhì)的產(chǎn)量貢獻(xiàn)。結(jié)果顯示,六種蛋白質(zhì)中有五種的最優(yōu)序列來(lái)自 MIT 新模型,另一種中 MIT 模型排名第二。
“我們確保涵蓋了密碼子優(yōu)化的多種不同方法論,并與我們的方案進(jìn)行了基準(zhǔn)比較,”納拉亞南說(shuō),“通過(guò)實(shí)驗(yàn)對(duì)比,我們證明了我們的方法優(yōu)于其他方案。”
卡氏酵母原名畢赤酵母(Pichia pastoris),用于生產(chǎn)數(shù)十種商業(yè)產(chǎn)品,包括胰島素、乙型肝炎疫苗,以及一種用于治療慢性偏頭痛的單克隆抗體,還被用于生產(chǎn)添加至食品中的營(yíng)養(yǎng)物質(zhì),如血紅蛋白。
洛夫?qū)嶒?yàn)室的研究人員已開(kāi)始使用這一新模型優(yōu)化卡氏酵母的目標(biāo)蛋白質(zhì),并已將代碼公開(kāi),供其他研究人員用于卡氏酵母或其他生物體的相關(guān)研究。
研究團(tuán)隊(duì)還在包括人類(lèi)和牛在內(nèi)的不同物種數(shù)據(jù)集上測(cè)試了這一方法。各物種模型生成的預(yù)測(cè)結(jié)果各不相同,表明需要針對(duì)不同物種建立專(zhuān)屬模型,才能有效優(yōu)化目標(biāo)蛋白質(zhì)的密碼子。
通過(guò)深入分析模型的內(nèi)部工作機(jī)制,研究人員發(fā)現(xiàn),模型似乎自主習(xí)得了基因組運(yùn)作的部分生物學(xué)原理,包括一些研究人員并未主動(dòng)教授的內(nèi)容。例如,模型學(xué)會(huì)了避免引入負(fù)性重復(fù)元件,即可能抑制附近基因表達(dá)的 DNA 序列;同時(shí)還學(xué)會(huì)了根據(jù)疏水性和親水性等特征對(duì)氨基酸進(jìn)行歸類(lèi)。
“它不僅學(xué)習(xí)了這種語(yǔ)言,還通過(guò)生物物理和生物化學(xué)特征對(duì)其進(jìn)行了情境化理解。這讓我們更加確信,模型學(xué)到的是真正有意義的內(nèi)容,而非僅僅在優(yōu)化我們交給它的任務(wù),”洛夫說(shuō)。
https://news.mit.edu/2026/new-ai-model-could-cut-costs-developing-protein-drugs-0216
版權(quán)與免責(zé)聲明:
1 本網(wǎng)注明“來(lái)源:×××”(非商業(yè)周刊網(wǎng))的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),本網(wǎng)不承擔(dān)此類(lèi)稿件侵權(quán)行為的連帶責(zé)任。
2 在本網(wǎng)的新聞頁(yè)面或BBS上進(jìn)行跟帖或發(fā)表言論者,文責(zé)自負(fù)。
3 相關(guān)信息并未經(jīng)過(guò)本網(wǎng)站證實(shí),不對(duì)您構(gòu)成任何投資建議,據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
4 如涉及作品內(nèi)容、版權(quán)等其它問(wèn)題,請(qǐng)?jiān)?0日內(nèi)同本網(wǎng)聯(lián)系。