OpenAI 近期推出了針對生命科學領域深度優化的模型系列 GPT-Rosalind。對於習慣於通用 LLM(大型語言模型)的工程師來說,這不僅僅是增加了一些生物學術語的訓練,而是一個將 AI 從單純的聊天機器人,轉化為能處理真實科學工作流(Scientific Workflows)的代理人(Agent)的嘗試。
生命科學研究的複雜之處在於數據的高度異質性,研究者需要同時處理分子結構、基因序列、代謝路徑以及活體系統等不同維度的資訊。GPT-Rosalind 的核心目標,就是將 GPT-5.5 的強大編碼能力與工具調用能力,與深厚的藥物研發、基因組學等專業知識結合,讓 AI 能真正參與到藥物設計與實驗分析中。
為了量化這種專業能力,OpenAI 建立了一個名為 LifeSciBench 的評測基準。這與一般的問答測試不同,它採取端到端的視角,模擬真實科研中的六大關鍵環節:證據處理、數據分析、設計與優化、科學推理、驗證與操作,以及翻譯與溝通。
在實務應用中,GPT-Rosalind 展現了極強的科學審核能力。舉例來說,在面對複雜的基因治療臨床數據包時,它能像一名資深審查員一樣,指出實驗設計中的漏洞。例如,它能辨識出抗體檢測是否能區分轉基因蛋白與內源性蛋白,或分析臨床對照組的選擇是否足以排除年齡成長帶來的干擾。這種能力對於生物醫藥公司在提交 FDA 審核前進行壓力測試(Pressure-test)具有極高價值。
在具體的技術領域,GPT-Rosalind 在三個維度有顯著提升。首先是藥物化學(Medicinal Chemistry),它能更精準地處理結構活性關係(SAR,研究分子結構如何影響生物活性的關鍵),並預測藥物的毒性與代謝(ADME)。其次是基因組學與定量生物學,它在處理長週期、端到端的分析任務時,不僅準確率提升,且 token 消耗量降低,意味著推理效率更高。最後是實驗室實務(Wet Lab),它能協助科學家對真實的濕實驗協議進行故障排除與優化。
然而,強大的模型如果只停留在對話框中,對科學家的幫助有限。因此,OpenAI 推出了 Life Sciences Research 與 Life Sciences NGS Analysis 兩個插件,將模型能力延伸至執行層。
其中 NGS Analysis 插件(NGS 指次世代定序,是一種高通量分析 DNA/RNA 的技術)能將複雜的基因定序數據轉化為可交互的筆記本,自動執行品質控制(QC)、過濾數據並生成 UMAP 等可視化圖表。配合 Codex 平台中的原生生物文件檢視器(如序列、比對與結構查看器),研究員可以直接在 AI 推理的過程中,即時檢查突變殘基的保存情況或抑制劑的結合口袋,將證據檢索、生物學解釋與生物資訊執行整合在同一個工作區。
目前 GPT-Rosalind 採取受控訪問(Trusted-access)部署模式,優先提供給具有強大治理能力且從事公益科研的組織,例如 Novo Nordisk 等藥企,旨在加速藥物研發並確保生物安全。
總結來說,GPT-Rosalind 的演進路徑是從 知道生物知識 到 能夠執行生物科研工作流。它將 AI 的角色從助手提升為合作研究員,透過將深度推理與專業工具鏈結合,縮短從提出假設到獲得實驗證據的週期。
來源:openai.com
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。