蛋白質(zhì)藥物生產(chǎn)成本有望大幅降低！MIT用大模型優(yōu)化酵母密碼子快消息

來(lái)源： DeepTech深科技2026-03-03 13:26:24

（來(lái)源：麻省理工科技評(píng)論）

【資料圖】

工業(yè)酵母是蛋白質(zhì)生產(chǎn)領(lǐng)域的主力軍，廣泛用于疫苗、生物制藥及其他有用化合物的制造。在一項(xiàng)新研究中，MIT 化學(xué)工程師借助 AI 優(yōu)化了新型蛋白質(zhì)生產(chǎn)工藝的開(kāi)發(fā)流程，有望降低這類(lèi)藥物的整體開(kāi)發(fā)和生產(chǎn)成本。

研究團(tuán)隊(duì)利用大語(yǔ)言模型（LLM）分析了工業(yè)酵母卡氏酵母（Komagataella phaffii）的遺傳密碼，重點(diǎn)考察了其所使用的密碼子。密碼子是由三個(gè)堿基組成的 DNA 序列，用于編碼特定氨基酸，每種氨基酸可由多種密碼子編碼，且不同生物體的密碼子使用規(guī)律各不相同。

MIT 團(tuán)隊(duì)開(kāi)發(fā)的新模型學(xué)習(xí)了卡氏酵母的密碼子使用規(guī)律，并據(jù)此預(yù)測(cè)哪些密碼子最適合生產(chǎn)特定蛋白質(zhì)。研究人員借助這一方法，成功提升了酵母生產(chǎn)六種不同蛋白質(zhì)的效率，包括人類(lèi)生長(zhǎng)激素和一種用于治療癌癥的單克隆抗體。

“擁有能夠持續(xù)表現(xiàn)穩(wěn)定的預(yù)測(cè)工具，對(duì)于縮短從創(chuàng)意到投產(chǎn)的時(shí)間至關(guān)重要。消除不確定性，歸根結(jié)底就是節(jié)省時(shí)間和金錢(qián)，”MIT 化學(xué)工程系雷蒙德·A．與海倫·E．圣－洛朗講席教授、科赫綜合癌癥研究所成員、MIT 新制造業(yè)計(jì)劃（MIT INM）聯(lián)合學(xué)術(shù)主任 J．克里斯托弗·洛夫（J．Christopher Love）說(shuō)。

洛夫是這項(xiàng)新研究的通訊作者，論文本周發(fā)表于《美國(guó)國(guó)家科學(xué)院院刊》。MIT 前博士后哈里尼·納拉亞南（Harini Narayanan）為論文第一作者。

卡氏酵母和釀酒酵母（Saccharomyces cerevisiae，即面包酵母）是生物制藥行業(yè)的核心生產(chǎn)平臺(tái)，每年生產(chǎn)數(shù)十億美元規(guī)模的蛋白質(zhì)藥物和疫苗。

研究人員在對(duì)酵母進(jìn)行工業(yè)蛋白質(zhì)生產(chǎn)改造時(shí)，需從其他生物體中提取目標(biāo)基因（如胰島素基因），并對(duì)其進(jìn)行改造，使酵母能夠大量表達(dá)該蛋白質(zhì)。這一過(guò)程涉及為酵母細(xì)胞設(shè)計(jì)最優(yōu) DNA 序列、將其整合到酵母基因組、制定有利的培養(yǎng)條件，最終純化目標(biāo)產(chǎn)物等多個(gè)環(huán)節(jié)。

對(duì)于新型生物制品藥物而言，這類(lèi)大型復(fù)雜藥物由活體生物產(chǎn)生，上述開(kāi)發(fā)流程可能占藥物商業(yè)化總成本的 15％至 20％。

“目前，這些步驟全部依賴(lài)繁瑣的實(shí)驗(yàn)操作，”洛夫說(shuō)，“我們一直在思考：能否將機(jī)器學(xué)習(xí)領(lǐng)域涌現(xiàn)的新理念引入進(jìn)來(lái)，使這一流程的各個(gè)環(huán)節(jié)更加可靠、更易預(yù)測(cè)。”

在這項(xiàng)研究中，研究人員嘗試優(yōu)化目標(biāo)蛋白質(zhì)基因的 DNA 密碼子序列。自然界中存在 20 種氨基酸，但密碼子序列多達(dá) 64 種，因此大多數(shù)氨基酸可由不止一種密碼子編碼。每個(gè)密碼子對(duì)應(yīng)一種特定的轉(zhuǎn)運(yùn) RNA（tRNA）分子，負(fù)責(zé)將相應(yīng)氨基酸攜帶至核糖體，氨基酸在那里被串聯(lián)合成蛋白質(zhì)。

不同生物體使用各類(lèi)密碼子的頻率不同。工程蛋白質(zhì)的設(shè)計(jì)者通常會(huì)選擇宿主生物體中出現(xiàn)頻率最高的密碼子，以優(yōu)化目標(biāo)蛋白質(zhì)的生產(chǎn)效率。然而，這種做法未必能獲得最佳結(jié)果。例如，如果始終使用同一種密碼子編碼精氨酸，細(xì)胞內(nèi)對(duì)應(yīng)的 tRNA 分子可能會(huì)出現(xiàn)供應(yīng)不足。

為采取更精細(xì)化的優(yōu)化策略，MIT 團(tuán)隊(duì)引入了一種編碼器－解碼器架構(gòu)的大語(yǔ)言模型。研究人員用該模型分析 DNA 序列，學(xué)習(xí)特定基因中密碼子的使用規(guī)律，而非分析文本。

訓(xùn)練數(shù)據(jù)來(lái)自美國(guó)國(guó)家生物技術(shù)信息中心的公開(kāi)數(shù)據(jù)集，涵蓋卡氏酵母天然產(chǎn)生的約 5000 種蛋白質(zhì)的氨基酸序列及對(duì)應(yīng) DNA 序列。

“模型學(xué)習(xí)的是這些密碼子使用方式的語(yǔ)法或語(yǔ)言規(guī)則，”洛夫說(shuō)，“它不僅考慮了相鄰密碼子之間的關(guān)系，還捕捉了密碼子之間的長(zhǎng)程關(guān)聯(lián)。”

完成訓(xùn)練后，研究人員讓模型對(duì)六種蛋白質(zhì)的密碼子序列進(jìn)行優(yōu)化，包括人類(lèi)生長(zhǎng)激素、人血清白蛋白，以及用于治療癌癥的單克隆抗體曲妥珠單抗。

研究團(tuán)隊(duì)還使用四種市售密碼子優(yōu)化工具生成了上述蛋白質(zhì)的優(yōu)化序列，并將所有序列分別導(dǎo)入卡氏酵母細(xì)胞，測(cè)量各序列對(duì)目標(biāo)蛋白質(zhì)的產(chǎn)量貢獻(xiàn)。結(jié)果顯示，六種蛋白質(zhì)中有五種的最優(yōu)序列來(lái)自 MIT 新模型，另一種中 MIT 模型排名第二。

“我們確保涵蓋了密碼子優(yōu)化的多種不同方法論，并與我們的方案進(jìn)行了基準(zhǔn)比較，”納拉亞南說(shuō)，“通過(guò)實(shí)驗(yàn)對(duì)比，我們證明了我們的方法優(yōu)于其他方案。”

卡氏酵母原名畢赤酵母（Pichia pastoris），用于生產(chǎn)數(shù)十種商業(yè)產(chǎn)品，包括胰島素、乙型肝炎疫苗，以及一種用于治療慢性偏頭痛的單克隆抗體，還被用于生產(chǎn)添加至食品中的營(yíng)養(yǎng)物質(zhì)，如血紅蛋白。

洛夫?qū)嶒?yàn)室的研究人員已開(kāi)始使用這一新模型優(yōu)化卡氏酵母的目標(biāo)蛋白質(zhì)，并已將代碼公開(kāi)，供其他研究人員用于卡氏酵母或其他生物體的相關(guān)研究。

研究團(tuán)隊(duì)還在包括人類(lèi)和牛在內(nèi)的不同物種數(shù)據(jù)集上測(cè)試了這一方法。各物種模型生成的預(yù)測(cè)結(jié)果各不相同，表明需要針對(duì)不同物種建立專(zhuān)屬模型，才能有效優(yōu)化目標(biāo)蛋白質(zhì)的密碼子。

通過(guò)深入分析模型的內(nèi)部工作機(jī)制，研究人員發(fā)現(xiàn)，模型似乎自主習(xí)得了基因組運(yùn)作的部分生物學(xué)原理，包括一些研究人員并未主動(dòng)教授的內(nèi)容。例如，模型學(xué)會(huì)了避免引入負(fù)性重復(fù)元件，即可能抑制附近基因表達(dá)的 DNA 序列；同時(shí)還學(xué)會(huì)了根據(jù)疏水性和親水性等特征對(duì)氨基酸進(jìn)行歸類(lèi)。

“它不僅學(xué)習(xí)了這種語(yǔ)言，還通過(guò)生物物理和生物化學(xué)特征對(duì)其進(jìn)行了情境化理解。這讓我們更加確信，模型學(xué)到的是真正有意義的內(nèi)容，而非僅僅在優(yōu)化我們交給它的任務(wù)，”洛夫說(shuō)。

https://news.mit.edu/2026/new-ai-model-could-cut-costs-developing-protein-drugs-0216

關(guān)鍵詞：卡氏酵母密碼子 mit 蛋白質(zhì) 氨基酸 d

責(zé)任編輯：sdnew003

返回首頁(yè) 返回綜合首頁(yè)