編者按:本文來自微信公眾號 紀(jì)源資本(ID:JiyuanCap),創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
「生老病死」是人類社會永恒且無法逃避的話題。醫(yī)生在手術(shù)臺上與病痛短兵相接,而科學(xué)家多年來則在繁復(fù)的實(shí)驗(yàn)中耐心尋找疾病的源頭和解決辦法;從「藥」被記錄進(jìn)史料的第一刻,人類就開始了漫長而艱辛的對疾病的探索。
1918年開始的全球流感大爆發(fā)是人類醫(yī)學(xué)史中最值得銘記的一筆,但也由此成了全球臨床醫(yī)學(xué)進(jìn)步、傳統(tǒng)醫(yī)學(xué)向現(xiàn)代醫(yī)學(xué)轉(zhuǎn)型的契機(jī);二戰(zhàn)時(shí)研究出的青霉素是人類醫(yī)藥史上最重大的發(fā)現(xiàn)之一,它從軍用轉(zhuǎn)民用后的很多年中,拯救了無數(shù)人的生命;上世紀(jì)90年代早期,器官移植出現(xiàn)了突破性進(jìn)展,讓數(shù)以萬計(jì)的病人重新得以生存。
但生命科學(xué)行業(yè)的演進(jìn)還遠(yuǎn)遠(yuǎn)沒有停止。在過去的很多年中,蛋白質(zhì)結(jié)構(gòu)一直是藥物研發(fā)中的關(guān)鍵一環(huán),對蛋白質(zhì)結(jié)構(gòu)的認(rèn)知能讓科學(xué)家更深入地了解蛋白質(zhì)的分子機(jī)制和工作原理,從而了解可能導(dǎo)致的疾病、以及治療方式。
早期的藥物研發(fā)靠的是大量的實(shí)驗(yàn)室中的盲篩,在不斷試錯(cuò)中找到最優(yōu)解。由此,在醫(yī)藥行業(yè)一直有“反摩爾定律”的說法——盡管制藥公司一直在增加投資,但投資10億美元得到的上市新藥數(shù)目,每9年就會減少一半。藥物研發(fā)一直以來存在研發(fā)成本高、研發(fā)周期長的問題,而科學(xué)家能否從數(shù)萬個(gè)小分子測試?yán)锖Y選出對的結(jié)果、并推進(jìn)到臨床階段,存在很大的不確定性。
最近幾十年,得益于生物計(jì)算的發(fā)展,我們制藥的進(jìn)程被大大加速,打破“反摩爾定律”成為可能——基因測序讓蛋白質(zhì)結(jié)構(gòu)預(yù)測成為現(xiàn)實(shí),而技術(shù)與硬件的進(jìn)步則讓科學(xué)家能夠在廣闊的蛋白質(zhì)序列和結(jié)構(gòu)中,去創(chuàng)造一些之前并不存在的蛋白,更好地確定蛋白質(zhì)靶點(diǎn)的可制藥性以及蛋白設(shè)計(jì)。
劉維
我們希望預(yù)測一種圍繞新靶點(diǎn)的藥物,通過尋找與其匹配的新蛋白質(zhì)。這些靶點(diǎn)可能是以前藥物搜索中未涉及的領(lǐng)域,也可能是人類或自然界中原本不存在的蛋白質(zhì)組合。然而,疾病背后的細(xì)胞間互作關(guān)系、細(xì)胞內(nèi)部的蛋白質(zhì)網(wǎng)絡(luò)互作關(guān)系,以及不同氨基酸如何組成蛋白質(zhì),不同蛋白質(zhì)的形狀和功能等,所有這些信息在歷史數(shù)據(jù)中都有一些碎片化的線索。通過學(xué)習(xí)這些碎片化的線索,比如我們今天所做的大模型,它從多個(gè)物種的蛋白質(zhì)中學(xué)習(xí),最終能夠提煉出一些弱關(guān)聯(lián)的知識,幫助我們預(yù)測特定問題。
這是生命科學(xué)研發(fā)平臺百圖生科的聯(lián)合創(chuàng)始人兼CEO劉維。他們推出的生命科學(xué)大模型xTrimo,是全球首個(gè)、也是目前最大的生命科學(xué)領(lǐng)域的超大規(guī)模多模態(tài)模型體系,這一體系旨在加速人工設(shè)計(jì)蛋白進(jìn)化的速度,從而解決生命科學(xué)行業(yè)的痛點(diǎn)問題。
那么,生物計(jì)算到底是如何改變制藥行業(yè)的?如果我們將生物計(jì)算放在人類醫(yī)藥史的浩瀚長河中看,它帶來的關(guān)鍵變革是什么、而未來還有哪些顛覆性的可能?
劉維
最早的時(shí)候,無論是中藥還是像阿司匹林這樣的藥物,大家都知道是從樹皮中找到的。那時(shí)更多的是像神農(nóng)嘗百草一樣,把這些草藥和目標(biāo)細(xì)胞做一些實(shí)驗(yàn)就可以了。今天的很多設(shè)計(jì)并不依賴于在自然界中觀測和發(fā)現(xiàn)的基礎(chǔ),而是更多地來源于人類從整個(gè)進(jìn)化樹或者蛋白質(zhì)的可能空間中做出的預(yù)測。
正如劉維所說,傳統(tǒng)制藥是“神農(nóng)嘗百草”的過程。
以分子化學(xué)藥物舉例,新藥研發(fā)通常要經(jīng)過藥物發(fā)現(xiàn)、臨床前研究和臨床試驗(yàn)這三大流程。候選藥物的發(fā)現(xiàn),首先需要選擇和確定藥物的作用靶標(biāo),而靶標(biāo)是一種與某個(gè)疾病密切相關(guān)的生物分子,蛋白質(zhì)就是其中的一種;如果能對這類生物分子進(jìn)行干預(yù),就有機(jī)會治愈或緩解與它們相關(guān)的疾病。藥物作用的靶標(biāo)確定了以后,科學(xué)家們需要根據(jù)靶標(biāo)的空間結(jié)構(gòu),來設(shè)計(jì)或者合成先導(dǎo)化合物——這類化合物可以是全新結(jié)構(gòu)的化合物,也可以來自大自然;在此之后,還需要經(jīng)過大量的活性篩選等流程,篩選出最優(yōu)化合物,作為候選藥物,進(jìn)入臨床前的開發(fā)階段。
這也多少解釋了為什么「理解蛋白質(zhì)結(jié)構(gòu)」這件事,對生物制藥而言如此重要。
在傳統(tǒng)制藥的流程中,科學(xué)家想要弄清楚未知蛋白質(zhì)的結(jié)構(gòu)、并且理解它對應(yīng)的在細(xì)胞中的作用,要耗費(fèi)數(shù)年的時(shí)間、投入大量的人力、物力、財(cái)力才有可能實(shí)現(xiàn);很多時(shí)候這個(gè)過程甚至需要靠一點(diǎn)運(yùn)氣——有時(shí)候哪怕做了上千次實(shí)驗(yàn),投入了數(shù)百萬人民幣,都有可能出不來結(jié)果。
劉維
我們剛才提到的精準(zhǔn)靶向藥物,人類現(xiàn)在常用的工具,比如在大分子抗體藥物中,有些是從人的血液中查看那些病情好轉(zhuǎn)的病人,看看他們血液中有什么不同的東西,然后把這些提取出來當(dāng)藥?;蛘?,我們給小鼠注射一些目標(biāo)靶點(diǎn)的蛋白,觀察那些存活下來或抗體發(fā)展較好的小鼠,相當(dāng)于用動(dòng)物模型進(jìn)行篩選。在生物計(jì)算出現(xiàn)之前,我覺得主要還是依賴于動(dòng)物模型或人類的真實(shí)物理世界篩選。通過這樣的篩選得到一些種子,再對這些種子進(jìn)行一定的改造。
如今,依托于生物計(jì)算的制藥行業(yè),能夠?qū)⒋罅康娜肆膶?shí)驗(yàn)室和重復(fù)實(shí)驗(yàn)中解脫出來;在藥物發(fā)現(xiàn)階段,探索并預(yù)測蛋白質(zhì)結(jié)構(gòu)——或者說,「解密蛋白質(zhì)宇宙」的過程,可以交給計(jì)算機(jī)來做。
劉維
我們回想一下當(dāng)年的化療藥物,那真的是殺敵一千,自損八百甚至一千二,實(shí)際上是全身殺傷。后來出現(xiàn)了一些精細(xì)化的小分子藥物,它們實(shí)際上是針對某一類蛋白有結(jié)合能力。再到靶向藥物,它們能夠比較精準(zhǔn)地靶向具體的某一個(gè)蛋白。再到今天我們所做的這些,或者行業(yè)里很多在做的下一代精準(zhǔn)藥物,比如我們做的免疫機(jī)器人這類藥物,它不僅是在看到一個(gè)靶點(diǎn)蛋白時(shí)才會觸發(fā),還可能會看這個(gè)靶點(diǎn)蛋白所處的微環(huán)境中是否有對應(yīng)的合適酶。甚至它可以判斷在一個(gè)細(xì)胞上是否同時(shí)有a、b、c三個(gè)目標(biāo)蛋白,只有當(dāng)三個(gè)都有時(shí)才會觸發(fā),只有a、b或c都不觸發(fā)。這樣的話,精準(zhǔn)度其實(shí)越來越高。
從早期“無差別攻擊”的化療藥物,到科學(xué)家們逐步探索的靶向藥和下一代的精準(zhǔn)藥物,制藥行業(yè)內(nèi)的整體趨勢都在往更精細(xì)化的方向演進(jìn)。
具體來說就是,在人體復(fù)雜的免疫系統(tǒng)中,有多達(dá)數(shù)十類、在不同組織器官環(huán)境中有不同特征的免疫細(xì)胞族群,每個(gè)細(xì)胞上又有數(shù)以萬計(jì)的蛋白質(zhì),而科學(xué)家們探索的,是如何在不殺死人體正常需要分裂的細(xì)胞的同時(shí),精準(zhǔn)找到藥物所針對的靶點(diǎn)蛋白,“對基因下藥”。
劉維
這是兩個(gè)最大的趨勢:一個(gè)是精細(xì)化程度越來越高,另一個(gè)是篩選和發(fā)現(xiàn)的手段越來越依靠理性的建模,而不是自然的觀測。我們?nèi)祟惖乃幬锇l(fā)現(xiàn),正在從天然篩選和以天然篩選為主,逐步走向理性設(shè)計(jì),再到現(xiàn)在我們所做的由生物計(jì)算大模型驅(qū)動(dòng)的設(shè)計(jì),應(yīng)該稱為“De novo設(shè)計(jì)”,即創(chuàng)新的、從頭開始的設(shè)計(jì)。因?yàn)槲覀儗?shí)際上并不依賴于在所見即所得的環(huán)境中看到一個(gè)東西,而是可以從理性設(shè)計(jì)的角度出發(fā),設(shè)計(jì)出新的藥物,然后再通過高通量的驗(yàn)證實(shí)驗(yàn)來判斷它是否對目標(biāo)的精細(xì)化問題起到良好作用。
正如劉維所說,生物醫(yī)藥行業(yè)的另一大變革就是:從天然篩選走向更為理性的設(shè)計(jì)。他所提到的De novo設(shè)計(jì)指的是基于計(jì)算機(jī)的全新藥物設(shè)計(jì),在上世紀(jì)90年代曾經(jīng)出現(xiàn)相關(guān)的文獻(xiàn)報(bào)道,不過當(dāng)時(shí)受限于技術(shù)與計(jì)算資源等問題,De novo能直接成功的案例并不多。
近幾年,深度學(xué)習(xí)與算法算力的不斷進(jìn)步與完善,為全新藥物設(shè)計(jì)的基礎(chǔ)設(shè)施打下更為牢固的地基;如果我們放眼全球,會發(fā)現(xiàn)各大科技巨頭與新勢力都在持續(xù)投入相關(guān)研發(fā),推動(dòng)這場由生物計(jì)算驅(qū)動(dòng)的醫(yī)學(xué)革命——
譬如在2016年,DeepMind開始研究蛋白質(zhì)折疊問題,2年后推出的AlphaFold成功預(yù)測出了43種蛋白質(zhì)中25種蛋白質(zhì)的最精確結(jié)構(gòu),到了2022年,AlphaFold向公眾免費(fèi)開放了蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫,已經(jīng)實(shí)現(xiàn)了對98.5%的人類蛋白質(zhì)的準(zhǔn)確預(yù)測,他們的結(jié)構(gòu)預(yù)測精度可以對基于結(jié)構(gòu)的藥物設(shè)計(jì)產(chǎn)生潛在影響,特別是那些還沒有解析結(jié)構(gòu)的新靶點(diǎn)。而谷歌母公司Alphabet也在2021年成立了Isomorphic Labs,利用DeepMind的技術(shù)加速藥物研發(fā)。法國制藥巨頭賽諾菲與Exscientia建立戰(zhàn)略合作,開發(fā)AI驅(qū)動(dòng)的精準(zhǔn)工程藥物管線,而后者是英國的AI制藥領(lǐng)頭羊。
無論是更為精準(zhǔn)的藥物設(shè)計(jì),還是愈發(fā)走向生物計(jì)算驅(qū)動(dòng),行業(yè)中這些站在前人肩膀上不斷提升的努力,讓藥物研發(fā)的效率越來越高,也為人類攻克那些暫時(shí)無解的醫(yī)學(xué)難題提供了新思路。
劉維
在我們進(jìn)行生物計(jì)算之后,我們對行業(yè)中已經(jīng)通過傳統(tǒng)發(fā)現(xiàn)手段確定的靶點(diǎn)進(jìn)行了新一輪的生物計(jì)算預(yù)測。通過生物計(jì)算能力,從與小鼠和人類不同的蛋白質(zhì)空間中,尋找可能的新發(fā)現(xiàn)。這樣的預(yù)測帶來了親和力的提升,親和力是一個(gè)典型的指標(biāo)。
大家都知道,我們?nèi)梭w的免疫系統(tǒng)的進(jìn)化邏輯是,當(dāng)它發(fā)現(xiàn)需要糾正的人體內(nèi)的蛋白質(zhì)時(shí),它如何生成一個(gè)天然的蛋白質(zhì),與人體內(nèi)的蛋白質(zhì)相互作用,達(dá)到所需的親和力和精準(zhǔn)結(jié)合的位置,從而產(chǎn)生所需的功能。
自然界中有些蛋白之間的親和力非常緊密,但在動(dòng)物體內(nèi)往往不會進(jìn)化到過于緊密,因?yàn)檫^于緊密可能引發(fā)各種副作用。因此,從動(dòng)物體內(nèi)篩選出來的親和力可能只是中等水平。但是,如果我們的生物計(jì)算大模型能夠從更多的天然和非天然產(chǎn)物中學(xué)習(xí),它可能會找到如何進(jìn)一步增強(qiáng)親和力的方法。因此,親和力是一個(gè)關(guān)鍵指標(biāo)。
我們在設(shè)計(jì)藥物蛋白時(shí),往往希望它與目標(biāo)蛋白之間的親和力較高。這種親和力的提高,可能在已經(jīng)被充分研究過的靶點(diǎn)上,再提高1-2個(gè)數(shù)量級。這其實(shí)只是一個(gè)開始,我們認(rèn)為未來還能夠不斷提高。
除了親和力的提升,在劉維的觀點(diǎn)中,生物計(jì)算對藥物研發(fā)帶來的另一個(gè)指標(biāo)性的變化是「特異性」。回歸提升這些指標(biāo)的本質(zhì),試圖解決的都是靶點(diǎn)的精細(xì)化研究、與藥物的精細(xì)化設(shè)計(jì)的問題。
劉維
人體內(nèi)常見的蛋白質(zhì)可能有幾萬種。當(dāng)我們設(shè)計(jì)出一個(gè)藥物后,傳統(tǒng)的生物篩選法更多關(guān)注的是藥物與目標(biāo)靶點(diǎn)的結(jié)合是否良好,但無法窮舉它與其他人體內(nèi)蛋白質(zhì)的結(jié)合。有時(shí)會出現(xiàn)一個(gè)悖論:藥物與目標(biāo)靶點(diǎn)的結(jié)合確實(shí)最好,但副作用率也最大。生物計(jì)算的好處在于,可以同時(shí)計(jì)算任何一個(gè)蛋白質(zhì)與所有靶點(diǎn)的結(jié)合,找到Delta值最高的。因此,特異性的提高是生物計(jì)算帶來的一個(gè)顯著變化。
我們現(xiàn)在研發(fā)的藥物,希望帶來什么樣的變化?傳統(tǒng)基于生物篩選法的藥物,更多是單一靶點(diǎn),或簡單地把幾個(gè)靶點(diǎn)拼在一起。簡單拼在一起的藥物,可以同時(shí)結(jié)合a靶點(diǎn)和b靶點(diǎn),在體內(nèi)提高一些有效性,因?yàn)榕龅絘靶點(diǎn)或b靶點(diǎn)都能起作用。但這并沒有提高安全性,有時(shí)甚至降低安全性。因?yàn)楫?dāng)藥物同時(shí)針對a、b、c、d多個(gè)不同靶點(diǎn)時(shí),安全性有限,濃度不敢給太高,有效性反而不高,這還是不精準(zhǔn)的問題。
我們今天努力的方向是:首先,希望每一個(gè)藥物彈頭更加精準(zhǔn),親和力更高,結(jié)合的表位更加精準(zhǔn)。因?yàn)橛行┧幬锊灰欢ㄊ怯H和力越高越好,而是越精準(zhǔn)越好。其次,能否在每一個(gè)彈頭上加上類似傳感器的創(chuàng)新蛋白質(zhì),使其在特定環(huán)境下才觸發(fā),通過可編程蛋白質(zhì)的設(shè)計(jì)實(shí)現(xiàn)藥物的作用機(jī)理(MOA)。例如,當(dāng)a靶點(diǎn)出現(xiàn)且b靶點(diǎn)被激活時(shí),經(jīng)過比如5毫秒,c靶點(diǎn)才釋放。因?yàn)槿梭w細(xì)胞有其運(yùn)作規(guī)律,同樣是a和b兩個(gè)靶點(diǎn),先打a再打b是正向作用。如果先打b再打a,a激活后發(fā)現(xiàn)沒有b,可能反而對人體有害。
落實(shí)到我們?nèi)粘?梢愿兄呐R床收益層面——正如前面劉維舉例提到的,化療藥物能夠從最早的“全身殺傷”變得更為精準(zhǔn),生物計(jì)算研發(fā)藥物,對于疾病認(rèn)知、預(yù)防與治療,帶來的改變是顛覆性的。
劉維
我認(rèn)為,更多的病人將受益于藥物安全性的顯著提高。首先,藥物的安全性是限制藥物有效性和長期使用的主要問題。很多病人其實(shí)是因?yàn)樗幬锏腻e(cuò)誤使用而受到傷害。其次,藥物的有效性和長期效果也會提高?,F(xiàn)在大量的免疫藥物很快就會產(chǎn)生耐藥性。第三,藥物的適用范圍和能夠解決的疾病領(lǐng)域?qū)⒋蟠髷U(kuò)展。比如,很多實(shí)體瘤的問題在于藥物沒有足夠的濃度,無法穿透到腫瘤部位,或者在穿透過程中藥物已經(jīng)被損耗掉了。通過條件觸發(fā)機(jī)制,以及使用具有獨(dú)特穿透能力的De novo蛋白質(zhì)等獨(dú)特構(gòu)件,可以擴(kuò)展藥物的實(shí)用性。
但是目前,生物制藥行業(yè)依然有諸多難點(diǎn)亟待解決,行業(yè)效率不高就是其中之一。當(dāng)下的很多藥物研發(fā)企業(yè)所做的是針對單點(diǎn)問題的發(fā)現(xiàn),他們耗費(fèi)的大量的研發(fā)成本,也許能解決一個(gè)靶點(diǎn)的問題,但并不一定能快速應(yīng)用到其他靶點(diǎn);對于行業(yè)中的同行者而言,他們也很難將這些積累下來的技術(shù)發(fā)現(xiàn)應(yīng)用到自己的領(lǐng)域。
行業(yè)效率的整體提升,需要依賴那些關(guān)鍵部件的平臺級公司,而這也是百圖生科正在嘗試做的。
劉維
我認(rèn)為,隨著產(chǎn)品復(fù)雜度的提高,情況會發(fā)生變化。比如,早期制造汽車很簡單,大家都是手工制作。當(dāng)汽車的復(fù)雜度提高后,必然會出現(xiàn)幾家專門生產(chǎn)變速箱的廠商。一線車廠不會自己生產(chǎn)變速箱,只有幾家專業(yè)廠商負(fù)責(zé)這一部分。飛機(jī)發(fā)動(dòng)機(jī)也是類似的情況。
今天的藥物研發(fā),很多藥企花10年的時(shí)間,用動(dòng)物模型圍繞一個(gè)靶點(diǎn)開發(fā)一種藥物。如果成功了,當(dāng)然皆大歡喜。但其他藥企可能也在做類似的藥物,使用類似的技術(shù)路徑,最終大家在分市場,效率不高。在這個(gè)過程中,很多東西沒有積累下來,即使成功了,也無法將這個(gè)靶點(diǎn)快速遷移到另一個(gè)靶點(diǎn)。因此,發(fā)現(xiàn)效率都是針對單點(diǎn)問題的。
理想情況下,就像我們剛才提到的,如果這些算法模型達(dá)到一定水平,比如人類細(xì)胞常見的7000個(gè)目標(biāo)蛋白質(zhì),我們能否把這7000個(gè)目標(biāo)蛋白質(zhì)對應(yīng)的藥物彈頭都做出來,并且提前做好?不僅是做一種選擇,而是做100種、1000種選擇。因?yàn)樵谔摂M空間內(nèi)做設(shè)計(jì),做100種、1000種與做一種的本質(zhì)難度差別不大。
這100種、1000種彈頭有不同的親和力水平、不同的結(jié)合表位、不同的功能,甚至不同的專利多樣性,從而可以為許多藥物開發(fā)企業(yè)提供現(xiàn)成的選擇。如果某個(gè)藥企想針對某個(gè)靶點(diǎn),可以直接選擇預(yù)制的1000個(gè)彈頭中的第957號。雖然一次性制作這些東西有一定成本,但我認(rèn)為這樣可以避免行業(yè)內(nèi)重復(fù)發(fā)明輪子。
另一方面,人類在生命科學(xué)領(lǐng)域的研究持續(xù)演進(jìn),但是它的實(shí)際落地能力受限于傳統(tǒng)的動(dòng)物發(fā)現(xiàn)等因素,存在一定的滯后性。
劉維
人們對機(jī)理已經(jīng)有了初步的判斷。比如,大量的疾病,包括一半以上的人類疾病,如腫瘤、自身免疫性疾病、感染,甚至衰老,都與免疫有關(guān)?,F(xiàn)在人類對免疫的機(jī)理已經(jīng)相對清楚,就是因?yàn)槊庖呒?xì)胞過度激活或未被激活。如何激活它們,就是在這些免疫細(xì)胞的蛋白質(zhì)靶點(diǎn)上,找到合適的蛋白質(zhì),像開關(guān)一樣,把a(bǔ)、b、c推開,把d、e、f降下來。
但問題在于,首先,我們設(shè)計(jì)不出更好的藥物來調(diào)節(jié)這些開關(guān)。其次,這些開關(guān)在不同場景和不同人群中的規(guī)律并不完全相同,雖然大體邏輯是一樣的。在實(shí)驗(yàn)中會發(fā)現(xiàn),有些人群是這樣,而另一些人群正好相反。這些不盡相同的規(guī)律和與之相關(guān)的藥物設(shè)計(jì)如何實(shí)現(xiàn)?我認(rèn)為,科學(xué)已經(jīng)相對清楚,但需要我們這些企業(yè)去做出實(shí)際的努力。
這也是百圖生科推出生物計(jì)算大模型的出發(fā)點(diǎn)之一——他們試圖搭建的是一個(gè)生命科學(xué)大模型的平臺,這個(gè)平臺更傾向于「平臺工具」屬性,而不是僅為某個(gè)企業(yè)服務(wù)、或只是解決某個(gè)疾病。這個(gè)大模型能夠建模和表征蛋白質(zhì)細(xì)胞生命系統(tǒng),從而對人體的很多問題進(jìn)行預(yù)測、并且能夠生成各種新的蛋白質(zhì),用這些蛋白質(zhì)來做藥物,解決疾病治療、或者更廣泛意義上的,與「生命」有關(guān)的問題。
劉維
生命科學(xué)領(lǐng)域真正的圣杯是那些難以成藥的靶點(diǎn),是那些從未被制藥的靶點(diǎn),以及那些尚未發(fā)現(xiàn)的疾病問題。我們現(xiàn)在稱自己為AIGP,即AI生成蛋白。這是因?yàn)檎Z言是人類的語言,而蛋白質(zhì)有點(diǎn)像是造物主的語言,或者說是整個(gè)自然界的語言。
我們兩年前創(chuàng)辦這家公司,也是基于對這一趨勢的分析。我們認(rèn)為有幾個(gè)因素正在達(dá)到臨界點(diǎn)。第一個(gè)因素是數(shù)據(jù)。任何大模型都離不開數(shù)據(jù),而且這些數(shù)據(jù)必須在一個(gè)合適的范圍內(nèi)。當(dāng)數(shù)據(jù)量非常大時(shí),可能不需要復(fù)雜的模型,就像今天的GPT,它能夠整合許多弱相關(guān)的數(shù)據(jù),給出一個(gè)答案。如果數(shù)據(jù)多到所有問題的答案都已經(jīng)存在,那只需檢索即可,不需要更強(qiáng)大的AI。同樣,如果數(shù)據(jù)太少,大模型也沒有用武之地。如果數(shù)據(jù)與目標(biāo)問題高度相關(guān),也不需要復(fù)雜的AI技術(shù);如果關(guān)聯(lián)性太弱,大模型也無法提取有用信息。
因此,我們兩年前進(jìn)入這個(gè)領(lǐng)域的一個(gè)重要契機(jī)是單細(xì)胞組學(xué)、單細(xì)胞CRISPR擾動(dòng)及其觀測等技術(shù)在過去五年內(nèi)的快速成熟,達(dá)到了類似于智能手機(jī)和互聯(lián)網(wǎng)的臨界點(diǎn)。
單細(xì)胞組學(xué)帶來的數(shù)據(jù)量是以前的幾千萬倍,這些數(shù)據(jù)可以映射到蛋白質(zhì)。單細(xì)胞組學(xué)實(shí)際上測量的是每個(gè)細(xì)胞的基因組和轉(zhuǎn)錄組,這些可以翻譯為細(xì)胞內(nèi)的蛋白質(zhì)表達(dá)。這意味著我們現(xiàn)在能夠快速掌握大量的人體組織或動(dòng)物組織中蛋白質(zhì)在細(xì)胞內(nèi)的組合方式,以及細(xì)胞間蛋白質(zhì)的相互作用。但這些信息用傳統(tǒng)的生物信息學(xué)和傳統(tǒng)的任務(wù)模型是無法分析的,因?yàn)樵胍籼摺?/p>
第二個(gè)點(diǎn)是是否有好的大模型框架來表征這個(gè)問題。我認(rèn)為這也是AI,或者說AI與各行業(yè)領(lǐng)域知識相結(jié)合,經(jīng)過多年研究和準(zhǔn)備,逐漸進(jìn)入臨界點(diǎn)的原因。就像我們今天的自然語言大模型,也是依靠人類對字詞句章的理解,包括GPT-4,它實(shí)際上整合了很多跨模態(tài)的內(nèi)容,比如圖片和視頻,如何映射到語言描述中,如何打通這些模態(tài)。我覺得我們今天面臨的機(jī)遇也是類似的。在過去兩年內(nèi),我們致力于將蛋白質(zhì)、細(xì)胞、基因、免疫系統(tǒng)等整合成一套表征體系,找到如何通過蛋白質(zhì)的開關(guān)來調(diào)控細(xì)胞功能的邏輯。這種邏輯既需要底層的AI設(shè)計(jì),也需要很多生物學(xué)領(lǐng)域前沿的科學(xué)假設(shè)。我認(rèn)為這是第二個(gè)成立的條件,否則再強(qiáng)大的大模型也無法應(yīng)用于生命科學(xué)領(lǐng)域。
第三個(gè)條件是算力的快速發(fā)展。特別是在生物計(jì)算領(lǐng)域的大模型中,算力有一些獨(dú)特的要求。因?yàn)闊o論是模型還是數(shù)據(jù),這些都是不一樣的。而且,生物計(jì)算的大模型往往會與物理模型有更多的融合,因?yàn)樯镱I(lǐng)域涉及很多物理問題。這些問題需要高算力的AI for Science或CAD for Science等模擬計(jì)算軟件來解決。這些工具對算力的需求非常高,如何與大模型進(jìn)行融合也是過去幾年快速成熟的一個(gè)領(lǐng)域。我們依靠像百度這樣的資源,能夠很好地利用這些優(yōu)勢。
第四個(gè)條件是高通量的驗(yàn)證體系,這在生物領(lǐng)域非常重要。雖然從計(jì)算側(cè)的視角看似乎沒那么重要,但在生物領(lǐng)域卻至關(guān)重要。GPT大模型的第一代解決的問題往往依賴互聯(lián)網(wǎng),通過互聯(lián)網(wǎng)的快速閉環(huán)反饋來解決驗(yàn)證問題,所以壓力不大。但是,在自動(dòng)駕駛等領(lǐng)域,大模型的應(yīng)用已經(jīng)向這個(gè)方向發(fā)展。
很明顯,如果沒有自動(dòng)駕駛的閉環(huán)驗(yàn)證體系,大模型預(yù)測出的各種結(jié)果,特別是支持的一些任務(wù)模型的預(yù)測,是很難閉環(huán)的。現(xiàn)在有大量新興的實(shí)驗(yàn)技術(shù),我們可以從最優(yōu)秀的實(shí)驗(yàn)室和科學(xué)家那里整合這些技術(shù),但系統(tǒng)整合是我們的核心優(yōu)勢。如何將其變成一個(gè)能夠高速閉環(huán)驗(yàn)證的系統(tǒng),這樣大模型和任務(wù)模型才能實(shí)現(xiàn)快速收斂。
技術(shù)側(cè)的條件趨于成熟,那么下一個(gè)問題則自然浮現(xiàn)了,從應(yīng)用側(cè),要如何負(fù)擔(dān)這樣一個(gè)生命科學(xué)大模型的成本?
劉維
有時(shí)候問題不在于錢。就像GPT,如果沒有大量用戶使用它,或者AlphaGo如果沒有很多圍棋手與它對弈,這些技術(shù)也無法進(jìn)一步提高。因此,回到生命科學(xué)的大模型,有沒有實(shí)際的高價(jià)值藥物研發(fā)項(xiàng)目作為測試任務(wù)和啟動(dòng)任務(wù)也是至關(guān)重要的。
我們認(rèn)為,這種創(chuàng)新蛋白正好為大模型提供了難得的測試需求。由于這些項(xiàng)目具有高價(jià)值,無論是我們自己投入,還是我們的合作伙伴愿意投入,都可以共同推動(dòng)大模型的發(fā)展。
百圖生科的商業(yè)模式是AIGP驅(qū)動(dòng)的co-development合作——具體來說可以分為兩大塊,一塊是自己研發(fā)藥物,此后轉(zhuǎn)成共同開發(fā),另一塊則是從頭就與合作伙伴共同開發(fā)。
百圖生科目前有100個(gè)左右的藥物進(jìn)入了上市或臨床后期的階段,從這個(gè)角度看他們是一家藥企;而換個(gè)角度看,百圖生科的優(yōu)勢是發(fā)現(xiàn)創(chuàng)新分子、研發(fā)前沿藥物,這也讓他們得到不少大型藥企的青睞,與其一起合作研發(fā)藥物,提高行業(yè)效率。
劉維
我們有能力自己進(jìn)行藥物或資產(chǎn)項(xiàng)目的開發(fā),但我們利用這種能力與其他強(qiáng)者聯(lián)合開發(fā),然后在合適的時(shí)機(jī),轉(zhuǎn)讓我們的一部分份額。我們自己做藥物,尤其是前沿藥物,一般只做到IND階段,即獲得臨床批件,甚至更早的階段。我們不在后續(xù)的臨床階段進(jìn)行更大的投入,因?yàn)槲覀兊膬?yōu)勢在于發(fā)現(xiàn)非常創(chuàng)新的分子。這些創(chuàng)新分子在行業(yè)內(nèi)能夠吸引大型藥企的青睞,通常在比較早期時(shí),他們會購買或部分轉(zhuǎn)讓這些分子,或者投入他們的重要資源。
比如,一個(gè)藥物可能由多個(gè)不同的構(gòu)件拼接而成。我們可能開發(fā)了幾個(gè)新的關(guān)鍵構(gòu)件,如新的免疫細(xì)胞調(diào)控能力。而大型藥企可能在其他靶點(diǎn)上已經(jīng)開發(fā)出上市藥物。通過強(qiáng)強(qiáng)聯(lián)合,可以大大加速藥物的研發(fā)進(jìn)程,同時(shí)避免重復(fù)發(fā)明輪子。
這種與大型藥企強(qiáng)強(qiáng)聯(lián)合的模式,與傳統(tǒng)制藥行業(yè)內(nèi)的CRO模式并不相同。CRO模式指的是醫(yī)藥研發(fā)合同外包,指的是通過合同形式,為藥企的藥物研發(fā)提供專業(yè)外包服務(wù);對于制藥企業(yè)而言,找到專業(yè)的CRO,在一定程度上能降低他們的研發(fā)成本和試錯(cuò)概率。但百圖生科選擇了一條不同的商業(yè)路徑。
劉維
這種模式我們稱之為“規(guī)?;l(fā)現(xiàn)”模式。這是一種批量研發(fā)的模式,比起單獨(dú)開發(fā)一兩個(gè)藥物,它的平臺屬性更強(qiáng)。相比于提供一些簡單的CRO服務(wù),盡管CRO領(lǐng)域有許多巨頭,他們是通過多年積累起來的。有些小型CRO可能提供簡單的服務(wù)或軟件,能夠介入很多項(xiàng)目,但每個(gè)項(xiàng)目的收益較低。
我們的聯(lián)合開發(fā)模式,希望每個(gè)項(xiàng)目都能帶來可觀的收益,少則可能1億美元,多則10億美元甚至更多。如果項(xiàng)目成功,這就能支持我們的規(guī)?;l(fā)現(xiàn),打造一個(gè)幾十億甚至未來上百億的資產(chǎn)組合,從而讓大模型的投入變得更有價(jià)值。
當(dāng)然,生物醫(yī)藥達(dá)到如今的成就,并非是一家公司的力量可以推動(dòng)的。正如我們開頭提到的那些人類醫(yī)藥歷程中的關(guān)鍵節(jié)點(diǎn),這些發(fā)現(xiàn)并不只是個(gè)人成就,而是那些肩負(fù)使命的學(xué)者、公司、行業(yè)的推動(dòng)。
劉維
我覺得生命科學(xué)領(lǐng)域最大的魅力在于它是真正的全球化。與許多行業(yè)不同,生命科學(xué)不像“零和游戲”那樣大家競爭搶市場。生命科學(xué)行業(yè)本質(zhì)上是大家共同與疾病作斗爭。誰能攻克一個(gè)難題,或者通過合作取得突破,人類就能從中受益,新的市場也會因此出現(xiàn)。所以,從這個(gè)角度看,我覺得大家都在做一些非常有使命感和責(zé)任感的事情。
每個(gè)地區(qū)都有其獨(dú)特的優(yōu)勢。美國市場在底層技術(shù)和原生態(tài)技術(shù)上非常強(qiáng)大,而且有很多大藥廠和豐富的臨床資源。歐洲也有很多優(yōu)秀的藥企,在疾病科學(xué)研究和前沿生物技術(shù)方面有深厚的積累。雖然歐洲本土市場不夠大,但它往往通過與美國、日本等國家的藥企進(jìn)行全球化合作。
在中國,我們在蘇州有一個(gè)大型高通量實(shí)驗(yàn)室,是我們的蛋白質(zhì)研究中心,也是目前世界上最大的生物計(jì)算行業(yè)的蛋白質(zhì)生產(chǎn)設(shè)施之一。在北京,我們的實(shí)驗(yàn)室依托北大、清華、北生所等機(jī)構(gòu),具備非常強(qiáng)的前沿研究能力。中東地區(qū)現(xiàn)在也在快速崛起。
「使命」是這個(gè)行業(yè)的關(guān)鍵詞。無論技術(shù)如何更迭、熱錢涌進(jìn)了哪些賽道,又有哪些創(chuàng)業(yè)者看到希望、決定投身于生物醫(yī)藥創(chuàng)業(yè),但這個(gè)行業(yè)一以貫之地堅(jiān)持的,永遠(yuǎn)是那些困擾人類健康的、或是能讓人類活得更好的生命科學(xué)難題——而這與商業(yè)競爭無關(guān)。
劉維
我們與去年未來科學(xué)大獎(jiǎng)得主李文輝教授的合作非常值得一提。李教授不僅是未來科學(xué)大獎(jiǎng)的得主,也是華人科學(xué)家中發(fā)現(xiàn)最有前景靶點(diǎn)的人之一。然而,這個(gè)靶點(diǎn)非常難以攻克,因?yàn)樗旧矸浅?fù)雜,并且在人體內(nèi)有重要功能,不能簡單地阻斷。
對于這種難以成藥的靶點(diǎn),我們正在使用計(jì)算生物學(xué)的方法進(jìn)行多輪迭代嘗試,雖然不敢保證一定能成功,但這些問題本身就非常困難。因此,我們并不指望一次性成功,而是通過迭代快速找到方向,加速藥物研發(fā)。如果我們能夠在未來一段時(shí)間內(nèi)證明我們能攻克這個(gè)靶點(diǎn),對患者群體的收益將是巨大的。
在當(dāng)前的國際形勢下,我認(rèn)為大家有更多合作的責(zé)任,共同為了人類的發(fā)展和生命安全而奮斗。大家都是這樣的心態(tài),希望整合全球不同的技術(shù)優(yōu)勢,來解決人類疾病的問題。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。