作者 | ZeR0
編輯 | 漠影
智東西9月21日報道,今日凌晨,NVIDIA(英偉達)在GTC大會上宣布推出NVIDIA BioNeMo LLM服務和框架,以便制藥公司、生物技術初創企業和前沿生物研究人員加速開發用于生成、預測和理解生物分子數據的AI應用。
NVIDIA BioNeMo框架用于訓練和部署超算規模的大型生物分子語言模型,幫助科學家更好地了解疾病,并為患者找到治療方法。該大型語言模型(LLM)框架將支持化學、蛋白質、DNA和RNA數據格式。除語言模型框架之外,NVIDIA BioNeMo還提供一項云API服務,該服務將支持越來越多的預訓練AI模型。
NVIDIA今日還宣布與麻省理工學院和哈佛大學旗下的博德研究所(The Broad Institute)合作,為Terra云平臺提供快速分析海量醫療數據所需的AI和加速工具。這將惠及該平臺的25000多名用戶,這些用戶包括來自學術界、初創企業和大型制藥公司的生物醫學研究人員。
一、將大型語言模型擴展到生物學領域,提速分子、蛋白質結構研究
以前,使用自然語言處理模型來處理生物數據的科學家一般會訓練相對較小、需要自定義預處理的神經網絡。而通過BioNeMo,科學家可將其擴展為具有數十億參數的LLM,捕捉分子結構、蛋白質溶解度等信息。
NVIDIA BioNeMo是NVIDIA Clara Discovery藥物研發框架、應用和AI模型集的一部分,可實現大規模自監督語言模型的GPU加速訓練。這一針對特定領域的框架支持以SMILES化學結構標記表征的分子數據、以及以FASTA氨基酸和核酸序列字符串表征的分子數據,使基于生物分子數據的大規模神經網絡訓練更為輕松。

借助該框架,科學家能夠使用更大的數據集來訓練大規模語言模型,打造出性能更強大的神經網絡。
NVIDIA BioNeMo LLM服務將為開發者提供4個預訓練語言模型:
1、ESM-1:這一最初由Meta AI Labs發布的蛋白質LLM能夠處理氨基酸序列,最終生成用于預測各種蛋白質特性和功能的表征。它還提高了科學家理解蛋白質結構的能力。
2、OpenFold:這是由學術界和產業界共同成立的Openfold聯盟創建的sota蛋白質建模工具,它將可以通過BioNeMo服務提供其開源AI工作流程。
3、MegaMolBART:這一基于14億分子訓練而成的生成式化學模型可用于反應預測、分子優化和新分子的生成。
4、ProtT5:該模型是在慕尼黑工業大學RostLab的帶領下合作開發的,NVIDIA也是該項目的參與者之一。PortT5將ESM-1b等蛋白質LLM的功能擴展到序列生成。
這些模型針對推理進行了優化,并將通過NVIDIA DGX Foundry上運行的云端API提供搶先體驗。
未來,使用BioNeMo LLM服務的研究人員將能通過fine-tuning以及p-tuning等新技術,在幾小時內完成LLM模型的自定義,提高應用的準確性。相比原來動輒數百萬個樣本的數據集,p-tuning訓練方法只需包含幾百個樣本的數據集。
OpenFold聯盟創始成員、哥倫比亞大學系統生物學系助理教授Mohammed AlQuraishi如此評價NVIDIA BioNeMo框架:“該框架使整個醫療和生命科學行業的研究人員都能利用快速增長的生物和化學數據集。這樣就能更輕松地發現和設計出精準針對疾病分子特征的治療方法。”
二、與博德研究所合作,為 Terra 云平臺提供 AI 和加速工具
NVIDIA宣布與麻省理工學院和哈佛大學旗下的博德研究所(The Broad Institute)合作,為Terra云平臺提供快速分析海量醫療數據所需的AI和加速工具。
博德研究所希望通過提供一個開放的云平臺,將研究人員相互聯系起來,并將研究人員與其實現科學突破所需的數據集和工具連接起來,從而實現新一代生物醫學合作研究。
此次合作旨在將NVIDIA在AI領域的專長和醫療計算平臺與博德研究所的全球知名研究人員、科學家和開放平臺建立連接,重點關注3大關鍵領域:
1、在Terra平臺上提供NVIDIA ClaraParabricks:Parabricks是一款用于測序數據二級分析的GPU加速軟件套件,現可用于6個新的Terra工作流程。NVIDIA Parabricks GPU加速的工作流程為研究人員提供更快的周轉時間和更低的成本,以進行廣泛的基因組數據分析。
用戶現可使用Clara Parabricks,在1個多小時內完成全基因組的分析,而在基于CPU的環境中這項工作需要24個小時才能完成,并且,使用Parabricks計算成本降低一半以上。
2、構建大型語言模型(LLM):為深入探究人類生物學,研究人員將使用今日發布的用于生物學LLM模型的AI應用框架NVIDIA BioNeMo,來開發DNA和RNA的基礎模型。雙方團隊還將基于此次合作,共同創建新的模型,將其添加至BioNeMo集合中,并在Terra平臺上提供。
3、為基因組分析工具包(GATK)帶來更加強大的深度學習:NVIDIA正致力于為10多萬名研究人員所使用的行業標準工具——博德研究所的GATK工具包打造新的深度學習模型,幫助研究人員識別與疾病相關的基因變異。這將助力新藥研發人員研究新的療法。
博德研究所的研究人員還能夠訪問用于醫學影像AI的開源深度學習框架MONAI以及用于加快數據準備工作的GPU加速數據科學工具包NVIDIA RAPIDS。后者可用于基因組單細胞分析。
“生命科學領域正處于一場數據革命之中,研究人員迫切需要一種將機器學習引入生物醫學的新方法。”博德研究所首席數據官Anthony Philippakis說,“我們希望通過此次合作,進一步踐行「數據共享與合作流程」的使命,進而擴展基因組學研究。”
結語:醫療生態系統需要更先進的計算工具
“整個醫療生態系統都需要更先進的計算工具,以便我們在理解疾病、發展診斷學和提供治療方案的方面取得突破。”NVIDIA醫療業務副總裁Kimberly Powell談道。
可以看到,無論是推出NVIDIA BioNeMo LLM服務,還是擴大與博德研究所的合作,NVIDIA都在通過大型語言模型與先進計算工具的結合,為生命科學研究引入更高效的方法,最終為人類消除疾病、促進健康做出貢獻。

