編者按:本文來自微信公眾號 紀(jì)源資本(ID:JiyuanCap),創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
「生老病死」是人類社會永恒且無法逃避的話題。醫(yī)生在手術(shù)臺上與病痛短兵相接,而科學(xué)家多年來則在繁復(fù)的實驗中耐心尋找疾病的源頭和解決辦法;從「藥」被記錄進史料的第一刻,人類就開始了漫長而艱辛的對疾病的探索。
1918年開始的全球流感大爆發(fā)是人類醫(yī)學(xué)史中最值得銘記的一筆,但也由此成了全球臨床醫(yī)學(xué)進步、傳統(tǒng)醫(yī)學(xué)向現(xiàn)代醫(yī)學(xué)轉(zhuǎn)型的契機;二戰(zhàn)時研究出的青霉素是人類醫(yī)藥史上最重大的發(fā)現(xiàn)之一,它從軍用轉(zhuǎn)民用后的很多年中,拯救了無數(shù)人的生命;上世紀(jì)90年代早期,器官移植出現(xiàn)了突破性進展,讓數(shù)以萬計的病人重新得以生存。
但生命科學(xué)行業(yè)的演進還遠遠沒有停止。在過去的很多年中,蛋白質(zhì)結(jié)構(gòu)一直是藥物研發(fā)中的關(guān)鍵一環(huán),對蛋白質(zhì)結(jié)構(gòu)的認知能讓科學(xué)家更深入地了解蛋白質(zhì)的分子機制和工作原理,從而了解可能導(dǎo)致的疾病、以及治療方式。
早期的藥物研發(fā)靠的是大量的實驗室中的盲篩,在不斷試錯中找到最優(yōu)解。由此,在醫(yī)藥行業(yè)一直有“反摩爾定律”的說法——盡管制藥公司一直在增加投資,但投資10億美元得到的上市新藥數(shù)目,每9年就會減少一半。藥物研發(fā)一直以來存在研發(fā)成本高、研發(fā)周期長的問題,而科學(xué)家能否從數(shù)萬個小分子測試?yán)锖Y選出對的結(jié)果、并推進到臨床階段,存在很大的不確定性。
最近幾十年,得益于生物計算的發(fā)展,我們制藥的進程被大大加速,打破“反摩爾定律”成為可能——基因測序讓蛋白質(zhì)結(jié)構(gòu)預(yù)測成為現(xiàn)實,而技術(shù)與硬件的進步則讓科學(xué)家能夠在廣闊的蛋白質(zhì)序列和結(jié)構(gòu)中,去創(chuàng)造一些之前并不存在的蛋白,更好地確定蛋白質(zhì)靶點的可制藥性以及蛋白設(shè)計。
劉維
我們希望預(yù)測一種圍繞新靶點的藥物,通過尋找與其匹配的新蛋白質(zhì)。這些靶點可能是以前藥物搜索中未涉及的領(lǐng)域,也可能是人類或自然界中原本不存在的蛋白質(zhì)組合。然而,疾病背后的細胞間互作關(guān)系、細胞內(nèi)部的蛋白質(zhì)網(wǎng)絡(luò)互作關(guān)系,以及不同氨基酸如何組成蛋白質(zhì),不同蛋白質(zhì)的形狀和功能等,所有這些信息在歷史數(shù)據(jù)中都有一些碎片化的線索。通過學(xué)習(xí)這些碎片化的線索,比如我們今天所做的大模型,它從多個物種的蛋白質(zhì)中學(xué)習(xí),最終能夠提煉出一些弱關(guān)聯(lián)的知識,幫助我們預(yù)測特定問題。
這是生命科學(xué)研發(fā)平臺百圖生科的聯(lián)合創(chuàng)始人兼CEO劉維。他們推出的生命科學(xué)大模型xTrimo,是全球首個、也是目前最大的生命科學(xué)領(lǐng)域的超大規(guī)模多模態(tài)模型體系,這一體系旨在加速人工設(shè)計蛋白進化的速度,從而解決生命科學(xué)行業(yè)的痛點問題。
那么,生物計算到底是如何改變制藥行業(yè)的?如果我們將生物計算放在人類醫(yī)藥史的浩瀚長河中看,它帶來的關(guān)鍵變革是什么、而未來還有哪些顛覆性的可能?
劉維
最早的時候,無論是中藥還是像阿司匹林這樣的藥物,大家都知道是從樹皮中找到的。那時更多的是像神農(nóng)嘗百草一樣,把這些草藥和目標(biāo)細胞做一些實驗就可以了。今天的很多設(shè)計并不依賴于在自然界中觀測和發(fā)現(xiàn)的基礎(chǔ),而是更多地來源于人類從整個進化樹或者蛋白質(zhì)的可能空間中做出的預(yù)測。
正如劉維所說,傳統(tǒng)制藥是“神農(nóng)嘗百草”的過程。
以分子化學(xué)藥物舉例,新藥研發(fā)通常要經(jīng)過藥物發(fā)現(xiàn)、臨床前研究和臨床試驗這三大流程。候選藥物的發(fā)現(xiàn),首先需要選擇和確定藥物的作用靶標(biāo),而靶標(biāo)是一種與某個疾病密切相關(guān)的生物分子,蛋白質(zhì)就是其中的一種;如果能對這類生物分子進行干預(yù),就有機會治愈或緩解與它們相關(guān)的疾病。藥物作用的靶標(biāo)確定了以后,科學(xué)家們需要根據(jù)靶標(biāo)的空間結(jié)構(gòu),來設(shè)計或者合成先導(dǎo)化合物——這類化合物可以是全新結(jié)構(gòu)的化合物,也可以來自大自然;在此之后,還需要經(jīng)過大量的活性篩選等流程,篩選出最優(yōu)化合物,作為候選藥物,進入臨床前的開發(fā)階段。
這也多少解釋了為什么「理解蛋白質(zhì)結(jié)構(gòu)」這件事,對生物制藥而言如此重要。
在傳統(tǒng)制藥的流程中,科學(xué)家想要弄清楚未知蛋白質(zhì)的結(jié)構(gòu)、并且理解它對應(yīng)的在細胞中的作用,要耗費數(shù)年的時間、投入大量的人力、物力、財力才有可能實現(xiàn);很多時候這個過程甚至需要靠一點運氣——有時候哪怕做了上千次實驗,投入了數(shù)百萬人民幣,都有可能出不來結(jié)果。
劉維
我們剛才提到的精準(zhǔn)靶向藥物,人類現(xiàn)在常用的工具,比如在大分子抗體藥物中,有些是從人的血液中查看那些病情好轉(zhuǎn)的病人,看看他們血液中有什么不同的東西,然后把這些提取出來當(dāng)藥?;蛘?,我們給小鼠注射一些目標(biāo)靶點的蛋白,觀察那些存活下來或抗體發(fā)展較好的小鼠,相當(dāng)于用動物模型進行篩選。在生物計算出現(xiàn)之前,我覺得主要還是依賴于動物模型或人類的真實物理世界篩選。通過這樣的篩選得到一些種子,再對這些種子進行一定的改造。
如今,依托于生物計算的制藥行業(yè),能夠?qū)⒋罅康娜肆膶嶒炇液椭貜?fù)實驗中解脫出來;在藥物發(fā)現(xiàn)階段,探索并預(yù)測蛋白質(zhì)結(jié)構(gòu)——或者說,「解密蛋白質(zhì)宇宙」的過程,可以交給計算機來做。
劉維
我們回想一下當(dāng)年的化療藥物,那真的是殺敵一千,自損八百甚至一千二,實際上是全身殺傷。后來出現(xiàn)了一些精細化的小分子藥物,它們實際上是針對某一類蛋白有結(jié)合能力。再到靶向藥物,它們能夠比較精準(zhǔn)地靶向具體的某一個蛋白。再到今天我們所做的這些,或者行業(yè)里很多在做的下一代精準(zhǔn)藥物,比如我們做的免疫機器人這類藥物,它不僅是在看到一個靶點蛋白時才會觸發(fā),還可能會看這個靶點蛋白所處的微環(huán)境中是否有對應(yīng)的合適酶。甚至它可以判斷在一個細胞上是否同時有a、b、c三個目標(biāo)蛋白,只有當(dāng)三個都有時才會觸發(fā),只有a、b或c都不觸發(fā)。這樣的話,精準(zhǔn)度其實越來越高。
從早期“無差別攻擊”的化療藥物,到科學(xué)家們逐步探索的靶向藥和下一代的精準(zhǔn)藥物,制藥行業(yè)內(nèi)的整體趨勢都在往更精細化的方向演進。
具體來說就是,在人體復(fù)雜的免疫系統(tǒng)中,有多達數(shù)十類、在不同組織器官環(huán)境中有不同特征的免疫細胞族群,每個細胞上又有數(shù)以萬計的蛋白質(zhì),而科學(xué)家們探索的,是如何在不殺死人體正常需要分裂的細胞的同時,精準(zhǔn)找到藥物所針對的靶點蛋白,“對基因下藥”。
劉維
這是兩個最大的趨勢:一個是精細化程度越來越高,另一個是篩選和發(fā)現(xiàn)的手段越來越依靠理性的建模,而不是自然的觀測。我們?nèi)祟惖乃幬锇l(fā)現(xiàn),正在從天然篩選和以天然篩選為主,逐步走向理性設(shè)計,再到現(xiàn)在我們所做的由生物計算大模型驅(qū)動的設(shè)計,應(yīng)該稱為“De novo設(shè)計”,即創(chuàng)新的、從頭開始的設(shè)計。因為我們實際上并不依賴于在所見即所得的環(huán)境中看到一個東西,而是可以從理性設(shè)計的角度出發(fā),設(shè)計出新的藥物,然后再通過高通量的驗證實驗來判斷它是否對目標(biāo)的精細化問題起到良好作用。
正如劉維所說,生物醫(yī)藥行業(yè)的另一大變革就是:從天然篩選走向更為理性的設(shè)計。他所提到的De novo設(shè)計指的是基于計算機的全新藥物設(shè)計,在上世紀(jì)90年代曾經(jīng)出現(xiàn)相關(guān)的文獻報道,不過當(dāng)時受限于技術(shù)與計算資源等問題,De novo能直接成功的案例并不多。
近幾年,深度學(xué)習(xí)與算法算力的不斷進步與完善,為全新藥物設(shè)計的基礎(chǔ)設(shè)施打下更為牢固的地基;如果我們放眼全球,會發(fā)現(xiàn)各大科技巨頭與新勢力都在持續(xù)投入相關(guān)研發(fā),推動這場由生物計算驅(qū)動的醫(yī)學(xué)革命——
譬如在2016年,DeepMind開始研究蛋白質(zhì)折疊問題,2年后推出的AlphaFold成功預(yù)測出了43種蛋白質(zhì)中25種蛋白質(zhì)的最精確結(jié)構(gòu),到了2022年,AlphaFold向公眾免費開放了蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫,已經(jīng)實現(xiàn)了對98.5%的人類蛋白質(zhì)的準(zhǔn)確預(yù)測,他們的結(jié)構(gòu)預(yù)測精度可以對基于結(jié)構(gòu)的藥物設(shè)計產(chǎn)生潛在影響,特別是那些還沒有解析結(jié)構(gòu)的新靶點。而谷歌母公司Alphabet也在2021年成立了Isomorphic Labs,利用DeepMind的技術(shù)加速藥物研發(fā)。法國制藥巨頭賽諾菲與Exscientia建立戰(zhàn)略合作,開發(fā)AI驅(qū)動的精準(zhǔn)工程藥物管線,而后者是英國的AI制藥領(lǐng)頭羊。
無論是更為精準(zhǔn)的藥物設(shè)計,還是愈發(fā)走向生物計算驅(qū)動,行業(yè)中這些站在前人肩膀上不斷提升的努力,讓藥物研發(fā)的效率越來越高,也為人類攻克那些暫時無解的醫(yī)學(xué)難題提供了新思路。
劉維
在我們進行生物計算之后,我們對行業(yè)中已經(jīng)通過傳統(tǒng)發(fā)現(xiàn)手段確定的靶點進行了新一輪的生物計算預(yù)測。通過生物計算能力,從與小鼠和人類不同的蛋白質(zhì)空間中,尋找可能的新發(fā)現(xiàn)。這樣的預(yù)測帶來了親和力的提升,親和力是一個典型的指標(biāo)。
大家都知道,我們?nèi)梭w的免疫系統(tǒng)的進化邏輯是,當(dāng)它發(fā)現(xiàn)需要糾正的人體內(nèi)的蛋白質(zhì)時,它如何生成一個天然的蛋白質(zhì),與人體內(nèi)的蛋白質(zhì)相互作用,達到所需的親和力和精準(zhǔn)結(jié)合的位置,從而產(chǎn)生所需的功能。
自然界中有些蛋白之間的親和力非常緊密,但在動物體內(nèi)往往不會進化到過于緊密,因為過于緊密可能引發(fā)各種副作用。因此,從動物體內(nèi)篩選出來的親和力可能只是中等水平。但是,如果我們的生物計算大模型能夠從更多的天然和非天然產(chǎn)物中學(xué)習(xí),它可能會找到如何進一步增強親和力的方法。因此,親和力是一個關(guān)鍵指標(biāo)。
我們在設(shè)計藥物蛋白時,往往希望它與目標(biāo)蛋白之間的親和力較高。這種親和力的提高,可能在已經(jīng)被充分研究過的靶點上,再提高1-2個數(shù)量級。這其實只是一個開始,我們認為未來還能夠不斷提高。
除了親和力的提升,在劉維的觀點中,生物計算對藥物研發(fā)帶來的另一個指標(biāo)性的變化是「特異性」?;貧w提升這些指標(biāo)的本質(zhì),試圖解決的都是靶點的精細化研究、與藥物的精細化設(shè)計的問題。
劉維
人體內(nèi)常見的蛋白質(zhì)可能有幾萬種。當(dāng)我們設(shè)計出一個藥物后,傳統(tǒng)的生物篩選法更多關(guān)注的是藥物與目標(biāo)靶點的結(jié)合是否良好,但無法窮舉它與其他人體內(nèi)蛋白質(zhì)的結(jié)合。有時會出現(xiàn)一個悖論:藥物與目標(biāo)靶點的結(jié)合確實最好,但副作用率也最大。生物計算的好處在于,可以同時計算任何一個蛋白質(zhì)與所有靶點的結(jié)合,找到Delta值最高的。因此,特異性的提高是生物計算帶來的一個顯著變化。
我們現(xiàn)在研發(fā)的藥物,希望帶來什么樣的變化?傳統(tǒng)基于生物篩選法的藥物,更多是單一靶點,或簡單地把幾個靶點拼在一起。簡單拼在一起的藥物,可以同時結(jié)合a靶點和b靶點,在體內(nèi)提高一些有效性,因為碰到a靶點或b靶點都能起作用。但這并沒有提高安全性,有時甚至降低安全性。因為當(dāng)藥物同時針對a、b、c、d多個不同靶點時,安全性有限,濃度不敢給太高,有效性反而不高,這還是不精準(zhǔn)的問題。
我們今天努力的方向是:首先,希望每一個藥物彈頭更加精準(zhǔn),親和力更高,結(jié)合的表位更加精準(zhǔn)。因為有些藥物不一定是親和力越高越好,而是越精準(zhǔn)越好。其次,能否在每一個彈頭上加上類似傳感器的創(chuàng)新蛋白質(zhì),使其在特定環(huán)境下才觸發(fā),通過可編程蛋白質(zhì)的設(shè)計實現(xiàn)藥物的作用機理(MOA)。例如,當(dāng)a靶點出現(xiàn)且b靶點被激活時,經(jīng)過比如5毫秒,c靶點才釋放。因為人體細胞有其運作規(guī)律,同樣是a和b兩個靶點,先打a再打b是正向作用。如果先打b再打a,a激活后發(fā)現(xiàn)沒有b,可能反而對人體有害。
落實到我們?nèi)粘?梢愿兄呐R床收益層面——正如前面劉維舉例提到的,化療藥物能夠從最早的“全身殺傷”變得更為精準(zhǔn),生物計算研發(fā)藥物,對于疾病認知、預(yù)防與治療,帶來的改變是顛覆性的。
劉維
我認為,更多的病人將受益于藥物安全性的顯著提高。首先,藥物的安全性是限制藥物有效性和長期使用的主要問題。很多病人其實是因為藥物的錯誤使用而受到傷害。其次,藥物的有效性和長期效果也會提高。現(xiàn)在大量的免疫藥物很快就會產(chǎn)生耐藥性。第三,藥物的適用范圍和能夠解決的疾病領(lǐng)域?qū)⒋蟠髷U展。比如,很多實體瘤的問題在于藥物沒有足夠的濃度,無法穿透到腫瘤部位,或者在穿透過程中藥物已經(jīng)被損耗掉了。通過條件觸發(fā)機制,以及使用具有獨特穿透能力的De novo蛋白質(zhì)等獨特構(gòu)件,可以擴展藥物的實用性。
但是目前,生物制藥行業(yè)依然有諸多難點亟待解決,行業(yè)效率不高就是其中之一。當(dāng)下的很多藥物研發(fā)企業(yè)所做的是針對單點問題的發(fā)現(xiàn),他們耗費的大量的研發(fā)成本,也許能解決一個靶點的問題,但并不一定能快速應(yīng)用到其他靶點;對于行業(yè)中的同行者而言,他們也很難將這些積累下來的技術(shù)發(fā)現(xiàn)應(yīng)用到自己的領(lǐng)域。
行業(yè)效率的整體提升,需要依賴那些關(guān)鍵部件的平臺級公司,而這也是百圖生科正在嘗試做的。
劉維
我認為,隨著產(chǎn)品復(fù)雜度的提高,情況會發(fā)生變化。比如,早期制造汽車很簡單,大家都是手工制作。當(dāng)汽車的復(fù)雜度提高后,必然會出現(xiàn)幾家專門生產(chǎn)變速箱的廠商。一線車廠不會自己生產(chǎn)變速箱,只有幾家專業(yè)廠商負責(zé)這一部分。飛機發(fā)動機也是類似的情況。
今天的藥物研發(fā),很多藥企花10年的時間,用動物模型圍繞一個靶點開發(fā)一種藥物。如果成功了,當(dāng)然皆大歡喜。但其他藥企可能也在做類似的藥物,使用類似的技術(shù)路徑,最終大家在分市場,效率不高。在這個過程中,很多東西沒有積累下來,即使成功了,也無法將這個靶點快速遷移到另一個靶點。因此,發(fā)現(xiàn)效率都是針對單點問題的。
理想情況下,就像我們剛才提到的,如果這些算法模型達到一定水平,比如人類細胞常見的7000個目標(biāo)蛋白質(zhì),我們能否把這7000個目標(biāo)蛋白質(zhì)對應(yīng)的藥物彈頭都做出來,并且提前做好?不僅是做一種選擇,而是做100種、1000種選擇。因為在虛擬空間內(nèi)做設(shè)計,做100種、1000種與做一種的本質(zhì)難度差別不大。
這100種、1000種彈頭有不同的親和力水平、不同的結(jié)合表位、不同的功能,甚至不同的專利多樣性,從而可以為許多藥物開發(fā)企業(yè)提供現(xiàn)成的選擇。如果某個藥企想針對某個靶點,可以直接選擇預(yù)制的1000個彈頭中的第957號。雖然一次性制作這些東西有一定成本,但我認為這樣可以避免行業(yè)內(nèi)重復(fù)發(fā)明輪子。
另一方面,人類在生命科學(xué)領(lǐng)域的研究持續(xù)演進,但是它的實際落地能力受限于傳統(tǒng)的動物發(fā)現(xiàn)等因素,存在一定的滯后性。
劉維
人們對機理已經(jīng)有了初步的判斷。比如,大量的疾病,包括一半以上的人類疾病,如腫瘤、自身免疫性疾病、感染,甚至衰老,都與免疫有關(guān)。現(xiàn)在人類對免疫的機理已經(jīng)相對清楚,就是因為免疫細胞過度激活或未被激活。如何激活它們,就是在這些免疫細胞的蛋白質(zhì)靶點上,找到合適的蛋白質(zhì),像開關(guān)一樣,把a、b、c推開,把d、e、f降下來。
但問題在于,首先,我們設(shè)計不出更好的藥物來調(diào)節(jié)這些開關(guān)。其次,這些開關(guān)在不同場景和不同人群中的規(guī)律并不完全相同,雖然大體邏輯是一樣的。在實驗中會發(fā)現(xiàn),有些人群是這樣,而另一些人群正好相反。這些不盡相同的規(guī)律和與之相關(guān)的藥物設(shè)計如何實現(xiàn)?我認為,科學(xué)已經(jīng)相對清楚,但需要我們這些企業(yè)去做出實際的努力。
這也是百圖生科推出生物計算大模型的出發(fā)點之一——他們試圖搭建的是一個生命科學(xué)大模型的平臺,這個平臺更傾向于「平臺工具」屬性,而不是僅為某個企業(yè)服務(wù)、或只是解決某個疾病。這個大模型能夠建模和表征蛋白質(zhì)細胞生命系統(tǒng),從而對人體的很多問題進行預(yù)測、并且能夠生成各種新的蛋白質(zhì),用這些蛋白質(zhì)來做藥物,解決疾病治療、或者更廣泛意義上的,與「生命」有關(guān)的問題。
劉維
生命科學(xué)領(lǐng)域真正的圣杯是那些難以成藥的靶點,是那些從未被制藥的靶點,以及那些尚未發(fā)現(xiàn)的疾病問題。我們現(xiàn)在稱自己為AIGP,即AI生成蛋白。這是因為語言是人類的語言,而蛋白質(zhì)有點像是造物主的語言,或者說是整個自然界的語言。
我們兩年前創(chuàng)辦這家公司,也是基于對這一趨勢的分析。我們認為有幾個因素正在達到臨界點。第一個因素是數(shù)據(jù)。任何大模型都離不開數(shù)據(jù),而且這些數(shù)據(jù)必須在一個合適的范圍內(nèi)。當(dāng)數(shù)據(jù)量非常大時,可能不需要復(fù)雜的模型,就像今天的GPT,它能夠整合許多弱相關(guān)的數(shù)據(jù),給出一個答案。如果數(shù)據(jù)多到所有問題的答案都已經(jīng)存在,那只需檢索即可,不需要更強大的AI。同樣,如果數(shù)據(jù)太少,大模型也沒有用武之地。如果數(shù)據(jù)與目標(biāo)問題高度相關(guān),也不需要復(fù)雜的AI技術(shù);如果關(guān)聯(lián)性太弱,大模型也無法提取有用信息。
因此,我們兩年前進入這個領(lǐng)域的一個重要契機是單細胞組學(xué)、單細胞CRISPR擾動及其觀測等技術(shù)在過去五年內(nèi)的快速成熟,達到了類似于智能手機和互聯(lián)網(wǎng)的臨界點。
單細胞組學(xué)帶來的數(shù)據(jù)量是以前的幾千萬倍,這些數(shù)據(jù)可以映射到蛋白質(zhì)。單細胞組學(xué)實際上測量的是每個細胞的基因組和轉(zhuǎn)錄組,這些可以翻譯為細胞內(nèi)的蛋白質(zhì)表達。這意味著我們現(xiàn)在能夠快速掌握大量的人體組織或動物組織中蛋白質(zhì)在細胞內(nèi)的組合方式,以及細胞間蛋白質(zhì)的相互作用。但這些信息用傳統(tǒng)的生物信息學(xué)和傳統(tǒng)的任務(wù)模型是無法分析的,因為噪音太高。
第二個點是是否有好的大模型框架來表征這個問題。我認為這也是AI,或者說AI與各行業(yè)領(lǐng)域知識相結(jié)合,經(jīng)過多年研究和準(zhǔn)備,逐漸進入臨界點的原因。就像我們今天的自然語言大模型,也是依靠人類對字詞句章的理解,包括GPT-4,它實際上整合了很多跨模態(tài)的內(nèi)容,比如圖片和視頻,如何映射到語言描述中,如何打通這些模態(tài)。我覺得我們今天面臨的機遇也是類似的。在過去兩年內(nèi),我們致力于將蛋白質(zhì)、細胞、基因、免疫系統(tǒng)等整合成一套表征體系,找到如何通過蛋白質(zhì)的開關(guān)來調(diào)控細胞功能的邏輯。這種邏輯既需要底層的AI設(shè)計,也需要很多生物學(xué)領(lǐng)域前沿的科學(xué)假設(shè)。我認為這是第二個成立的條件,否則再強大的大模型也無法應(yīng)用于生命科學(xué)領(lǐng)域。
第三個條件是算力的快速發(fā)展。特別是在生物計算領(lǐng)域的大模型中,算力有一些獨特的要求。因為無論是模型還是數(shù)據(jù),這些都是不一樣的。而且,生物計算的大模型往往會與物理模型有更多的融合,因為生物領(lǐng)域涉及很多物理問題。這些問題需要高算力的AI for Science或CAD for Science等模擬計算軟件來解決。這些工具對算力的需求非常高,如何與大模型進行融合也是過去幾年快速成熟的一個領(lǐng)域。我們依靠像百度這樣的資源,能夠很好地利用這些優(yōu)勢。
第四個條件是高通量的驗證體系,這在生物領(lǐng)域非常重要。雖然從計算側(cè)的視角看似乎沒那么重要,但在生物領(lǐng)域卻至關(guān)重要。GPT大模型的第一代解決的問題往往依賴互聯(lián)網(wǎng),通過互聯(lián)網(wǎng)的快速閉環(huán)反饋來解決驗證問題,所以壓力不大。但是,在自動駕駛等領(lǐng)域,大模型的應(yīng)用已經(jīng)向這個方向發(fā)展。
很明顯,如果沒有自動駕駛的閉環(huán)驗證體系,大模型預(yù)測出的各種結(jié)果,特別是支持的一些任務(wù)模型的預(yù)測,是很難閉環(huán)的。現(xiàn)在有大量新興的實驗技術(shù),我們可以從最優(yōu)秀的實驗室和科學(xué)家那里整合這些技術(shù),但系統(tǒng)整合是我們的核心優(yōu)勢。如何將其變成一個能夠高速閉環(huán)驗證的系統(tǒng),這樣大模型和任務(wù)模型才能實現(xiàn)快速收斂。
技術(shù)側(cè)的條件趨于成熟,那么下一個問題則自然浮現(xiàn)了,從應(yīng)用側(cè),要如何負擔(dān)這樣一個生命科學(xué)大模型的成本?
劉維
有時候問題不在于錢。就像GPT,如果沒有大量用戶使用它,或者AlphaGo如果沒有很多圍棋手與它對弈,這些技術(shù)也無法進一步提高。因此,回到生命科學(xué)的大模型,有沒有實際的高價值藥物研發(fā)項目作為測試任務(wù)和啟動任務(wù)也是至關(guān)重要的。
我們認為,這種創(chuàng)新蛋白正好為大模型提供了難得的測試需求。由于這些項目具有高價值,無論是我們自己投入,還是我們的合作伙伴愿意投入,都可以共同推動大模型的發(fā)展。
百圖生科的商業(yè)模式是AIGP驅(qū)動的co-development合作——具體來說可以分為兩大塊,一塊是自己研發(fā)藥物,此后轉(zhuǎn)成共同開發(fā),另一塊則是從頭就與合作伙伴共同開發(fā)。
百圖生科目前有100個左右的藥物進入了上市或臨床后期的階段,從這個角度看他們是一家藥企;而換個角度看,百圖生科的優(yōu)勢是發(fā)現(xiàn)創(chuàng)新分子、研發(fā)前沿藥物,這也讓他們得到不少大型藥企的青睞,與其一起合作研發(fā)藥物,提高行業(yè)效率。
劉維
我們有能力自己進行藥物或資產(chǎn)項目的開發(fā),但我們利用這種能力與其他強者聯(lián)合開發(fā),然后在合適的時機,轉(zhuǎn)讓我們的一部分份額。我們自己做藥物,尤其是前沿藥物,一般只做到IND階段,即獲得臨床批件,甚至更早的階段。我們不在后續(xù)的臨床階段進行更大的投入,因為我們的優(yōu)勢在于發(fā)現(xiàn)非常創(chuàng)新的分子。這些創(chuàng)新分子在行業(yè)內(nèi)能夠吸引大型藥企的青睞,通常在比較早期時,他們會購買或部分轉(zhuǎn)讓這些分子,或者投入他們的重要資源。
比如,一個藥物可能由多個不同的構(gòu)件拼接而成。我們可能開發(fā)了幾個新的關(guān)鍵構(gòu)件,如新的免疫細胞調(diào)控能力。而大型藥企可能在其他靶點上已經(jīng)開發(fā)出上市藥物。通過強強聯(lián)合,可以大大加速藥物的研發(fā)進程,同時避免重復(fù)發(fā)明輪子。
這種與大型藥企強強聯(lián)合的模式,與傳統(tǒng)制藥行業(yè)內(nèi)的CRO模式并不相同。CRO模式指的是醫(yī)藥研發(fā)合同外包,指的是通過合同形式,為藥企的藥物研發(fā)提供專業(yè)外包服務(wù);對于制藥企業(yè)而言,找到專業(yè)的CRO,在一定程度上能降低他們的研發(fā)成本和試錯概率。但百圖生科選擇了一條不同的商業(yè)路徑。
劉維
這種模式我們稱之為“規(guī)模化發(fā)現(xiàn)”模式。這是一種批量研發(fā)的模式,比起單獨開發(fā)一兩個藥物,它的平臺屬性更強。相比于提供一些簡單的CRO服務(wù),盡管CRO領(lǐng)域有許多巨頭,他們是通過多年積累起來的。有些小型CRO可能提供簡單的服務(wù)或軟件,能夠介入很多項目,但每個項目的收益較低。
我們的聯(lián)合開發(fā)模式,希望每個項目都能帶來可觀的收益,少則可能1億美元,多則10億美元甚至更多。如果項目成功,這就能支持我們的規(guī)?;l(fā)現(xiàn),打造一個幾十億甚至未來上百億的資產(chǎn)組合,從而讓大模型的投入變得更有價值。
當(dāng)然,生物醫(yī)藥達到如今的成就,并非是一家公司的力量可以推動的。正如我們開頭提到的那些人類醫(yī)藥歷程中的關(guān)鍵節(jié)點,這些發(fā)現(xiàn)并不只是個人成就,而是那些肩負使命的學(xué)者、公司、行業(yè)的推動。
劉維
我覺得生命科學(xué)領(lǐng)域最大的魅力在于它是真正的全球化。與許多行業(yè)不同,生命科學(xué)不像“零和游戲”那樣大家競爭搶市場。生命科學(xué)行業(yè)本質(zhì)上是大家共同與疾病作斗爭。誰能攻克一個難題,或者通過合作取得突破,人類就能從中受益,新的市場也會因此出現(xiàn)。所以,從這個角度看,我覺得大家都在做一些非常有使命感和責(zé)任感的事情。
每個地區(qū)都有其獨特的優(yōu)勢。美國市場在底層技術(shù)和原生態(tài)技術(shù)上非常強大,而且有很多大藥廠和豐富的臨床資源。歐洲也有很多優(yōu)秀的藥企,在疾病科學(xué)研究和前沿生物技術(shù)方面有深厚的積累。雖然歐洲本土市場不夠大,但它往往通過與美國、日本等國家的藥企進行全球化合作。
在中國,我們在蘇州有一個大型高通量實驗室,是我們的蛋白質(zhì)研究中心,也是目前世界上最大的生物計算行業(yè)的蛋白質(zhì)生產(chǎn)設(shè)施之一。在北京,我們的實驗室依托北大、清華、北生所等機構(gòu),具備非常強的前沿研究能力。中東地區(qū)現(xiàn)在也在快速崛起。
「使命」是這個行業(yè)的關(guān)鍵詞。無論技術(shù)如何更迭、熱錢涌進了哪些賽道,又有哪些創(chuàng)業(yè)者看到希望、決定投身于生物醫(yī)藥創(chuàng)業(yè),但這個行業(yè)一以貫之地堅持的,永遠是那些困擾人類健康的、或是能讓人類活得更好的生命科學(xué)難題——而這與商業(yè)競爭無關(guān)。
劉維
我們與去年未來科學(xué)大獎得主李文輝教授的合作非常值得一提。李教授不僅是未來科學(xué)大獎的得主,也是華人科學(xué)家中發(fā)現(xiàn)最有前景靶點的人之一。然而,這個靶點非常難以攻克,因為它本身非常復(fù)雜,并且在人體內(nèi)有重要功能,不能簡單地阻斷。
對于這種難以成藥的靶點,我們正在使用計算生物學(xué)的方法進行多輪迭代嘗試,雖然不敢保證一定能成功,但這些問題本身就非常困難。因此,我們并不指望一次性成功,而是通過迭代快速找到方向,加速藥物研發(fā)。如果我們能夠在未來一段時間內(nèi)證明我們能攻克這個靶點,對患者群體的收益將是巨大的。
在當(dāng)前的國際形勢下,我認為大家有更多合作的責(zé)任,共同為了人類的發(fā)展和生命安全而奮斗。大家都是這樣的心態(tài),希望整合全球不同的技術(shù)優(yōu)勢,來解決人類疾病的問題。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。