打破“反摩爾定律”成為可能，生物計(jì)算未來會有哪些顛覆性變革？

紀(jì)源資本·2024-06-24

生物計(jì)算到底是如何改變制藥行業(yè)的？

編者按：本文來自微信公眾號紀(jì)源資本（ID：JiyuanCap），創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

「生老病死」是人類社會永恒且無法逃避的話題。醫(yī)生在手術(shù)臺上與病痛短兵相接，而科學(xué)家多年來則在繁復(fù)的實(shí)驗(yàn)中耐心尋找疾病的源頭和解決辦法；從「藥」被記錄進(jìn)史料的第一刻，人類就開始了漫長而艱辛的對疾病的探索。

1918年開始的全球流感大爆發(fā)是人類醫(yī)學(xué)史中最值得銘記的一筆，但也由此成了全球臨床醫(yī)學(xué)進(jìn)步、傳統(tǒng)醫(yī)學(xué)向現(xiàn)代醫(yī)學(xué)轉(zhuǎn)型的契機(jī)；二戰(zhàn)時(shí)研究出的青霉素是人類醫(yī)藥史上最重大的發(fā)現(xiàn)之一，它從軍用轉(zhuǎn)民用后的很多年中，拯救了無數(shù)人的生命；上世紀(jì)90年代早期，器官移植出現(xiàn)了突破性進(jìn)展，讓數(shù)以萬計(jì)的病人重新得以生存。

但生命科學(xué)行業(yè)的演進(jìn)還遠(yuǎn)遠(yuǎn)沒有停止。在過去的很多年中，蛋白質(zhì)結(jié)構(gòu)一直是藥物研發(fā)中的關(guān)鍵一環(huán)，對蛋白質(zhì)結(jié)構(gòu)的認(rèn)知能讓科學(xué)家更深入地了解蛋白質(zhì)的分子機(jī)制和工作原理，從而了解可能導(dǎo)致的疾病、以及治療方式。

早期的藥物研發(fā)靠的是大量的實(shí)驗(yàn)室中的盲篩，在不斷試錯(cuò)中找到最優(yōu)解。由此，在醫(yī)藥行業(yè)一直有“反摩爾定律”的說法——盡管制藥公司一直在增加投資，但投資10億美元得到的上市新藥數(shù)目，每9年就會減少一半。藥物研發(fā)一直以來存在研發(fā)成本高、研發(fā)周期長的問題，而科學(xué)家能否從數(shù)萬個(gè)小分子測試?yán)锖Y選出對的結(jié)果、并推進(jìn)到臨床階段，存在很大的不確定性。

最近幾十年，得益于生物計(jì)算的發(fā)展，我們制藥的進(jìn)程被大大加速，打破“反摩爾定律”成為可能——基因測序讓蛋白質(zhì)結(jié)構(gòu)預(yù)測成為現(xiàn)實(shí)，而技術(shù)與硬件的進(jìn)步則讓科學(xué)家能夠在廣闊的蛋白質(zhì)序列和結(jié)構(gòu)中，去創(chuàng)造一些之前并不存在的蛋白，更好地確定蛋白質(zhì)靶點(diǎn)的可制藥性以及蛋白設(shè)計(jì)。

劉維

我們希望預(yù)測一種圍繞新靶點(diǎn)的藥物，通過尋找與其匹配的新蛋白質(zhì)。這些靶點(diǎn)可能是以前藥物搜索中未涉及的領(lǐng)域，也可能是人類或自然界中原本不存在的蛋白質(zhì)組合。然而，疾病背后的細(xì)胞間互作關(guān)系、細(xì)胞內(nèi)部的蛋白質(zhì)網(wǎng)絡(luò)互作關(guān)系，以及不同氨基酸如何組成蛋白質(zhì)，不同蛋白質(zhì)的形狀和功能等，所有這些信息在歷史數(shù)據(jù)中都有一些碎片化的線索。通過學(xué)習(xí)這些碎片化的線索，比如我們今天所做的大模型，它從多個(gè)物種的蛋白質(zhì)中學(xué)習(xí)，最終能夠提煉出一些弱關(guān)聯(lián)的知識，幫助我們預(yù)測特定問題。

這是生命科學(xué)研發(fā)平臺百圖生科的聯(lián)合創(chuàng)始人兼CEO劉維。他們推出的生命科學(xué)大模型xTrimo，是全球首個(gè)、也是目前最大的生命科學(xué)領(lǐng)域的超大規(guī)模多模態(tài)模型體系，這一體系旨在加速人工設(shè)計(jì)蛋白進(jìn)化的速度，從而解決生命科學(xué)行業(yè)的痛點(diǎn)問題。

那么，生物計(jì)算到底是如何改變制藥行業(yè)的？如果我們將生物計(jì)算放在人類醫(yī)藥史的浩瀚長河中看，它帶來的關(guān)鍵變革是什么、而未來還有哪些顛覆性的可能？

劉維
最早的時(shí)候，無論是中藥還是像阿司匹林這樣的藥物，大家都知道是從樹皮中找到的。那時(shí)更多的是像神農(nóng)嘗百草一樣，把這些草藥和目標(biāo)細(xì)胞做一些實(shí)驗(yàn)就可以了。今天的很多設(shè)計(jì)并不依賴于在自然界中觀測和發(fā)現(xiàn)的基礎(chǔ)，而是更多地來源于人類從整個(gè)進(jìn)化樹或者蛋白質(zhì)的可能空間中做出的預(yù)測。

正如劉維所說，傳統(tǒng)制藥是“神農(nóng)嘗百草”的過程。

以分子化學(xué)藥物舉例，新藥研發(fā)通常要經(jīng)過藥物發(fā)現(xiàn)、臨床前研究和臨床試驗(yàn)這三大流程。候選藥物的發(fā)現(xiàn)，首先需要選擇和確定藥物的作用靶標(biāo)，而靶標(biāo)是一種與某個(gè)疾病密切相關(guān)的生物分子，蛋白質(zhì)就是其中的一種；如果能對這類生物分子進(jìn)行干預(yù)，就有機(jī)會治愈或緩解與它們相關(guān)的疾病。藥物作用的靶標(biāo)確定了以后，科學(xué)家們需要根據(jù)靶標(biāo)的空間結(jié)構(gòu)，來設(shè)計(jì)或者合成先導(dǎo)化合物——這類化合物可以是全新結(jié)構(gòu)的化合物，也可以來自大自然；在此之后，還需要經(jīng)過大量的活性篩選等流程，篩選出最優(yōu)化合物，作為候選藥物，進(jìn)入臨床前的開發(fā)階段。

這也多少解釋了為什么「理解蛋白質(zhì)結(jié)構(gòu)」這件事，對生物制藥而言如此重要。

在傳統(tǒng)制藥的流程中，科學(xué)家想要弄清楚未知蛋白質(zhì)的結(jié)構(gòu)、并且理解它對應(yīng)的在細(xì)胞中的作用，要耗費(fèi)數(shù)年的時(shí)間、投入大量的人力、物力、財(cái)力才有可能實(shí)現(xiàn)；很多時(shí)候這個(gè)過程甚至需要靠一點(diǎn)運(yùn)氣——有時(shí)候哪怕做了上千次實(shí)驗(yàn)，投入了數(shù)百萬人民幣，都有可能出不來結(jié)果。

劉維
我們剛才提到的精準(zhǔn)靶向藥物，人類現(xiàn)在常用的工具，比如在大分子抗體藥物中，有些是從人的血液中查看那些病情好轉(zhuǎn)的病人，看看他們血液中有什么不同的東西，然后把這些提取出來當(dāng)藥?；蛘?，我們給小鼠注射一些目標(biāo)靶點(diǎn)的蛋白，觀察那些存活下來或抗體發(fā)展較好的小鼠，相當(dāng)于用動(dòng)物模型進(jìn)行篩選。在生物計(jì)算出現(xiàn)之前，我覺得主要還是依賴于動(dòng)物模型或人類的真實(shí)物理世界篩選。通過這樣的篩選得到一些種子，再對這些種子進(jìn)行一定的改造。
如今，依托于生物計(jì)算的制藥行業(yè)，能夠?qū)⒋罅康娜肆膶?shí)驗(yàn)室和重復(fù)實(shí)驗(yàn)中解脫出來；在藥物發(fā)現(xiàn)階段，探索并預(yù)測蛋白質(zhì)結(jié)構(gòu)——或者說，「解密蛋白質(zhì)宇宙」的過程，可以交給計(jì)算機(jī)來做。

劉維
我們回想一下當(dāng)年的化療藥物，那真的是殺敵一千，自損八百甚至一千二，實(shí)際上是全身殺傷。后來出現(xiàn)了一些精細(xì)化的小分子藥物，它們實(shí)際上是針對某一類蛋白有結(jié)合能力。再到靶向藥物，它們能夠比較精準(zhǔn)地靶向具體的某一個(gè)蛋白。再到今天我們所做的這些，或者行業(yè)里很多在做的下一代精準(zhǔn)藥物，比如我們做的免疫機(jī)器人這類藥物，它不僅是在看到一個(gè)靶點(diǎn)蛋白時(shí)才會觸發(fā)，還可能會看這個(gè)靶點(diǎn)蛋白所處的微環(huán)境中是否有對應(yīng)的合適酶。甚至它可以判斷在一個(gè)細(xì)胞上是否同時(shí)有a、b、c三個(gè)目標(biāo)蛋白，只有當(dāng)三個(gè)都有時(shí)才會觸發(fā)，只有a、b或c都不觸發(fā)。這樣的話，精準(zhǔn)度其實(shí)越來越高。

從早期“無差別攻擊”的化療藥物，到科學(xué)家們逐步探索的靶向藥和下一代的精準(zhǔn)藥物，制藥行業(yè)內(nèi)的整體趨勢都在往更精細(xì)化的方向演進(jìn)。

具體來說就是，在人體復(fù)雜的免疫系統(tǒng)中，有多達(dá)數(shù)十類、在不同組織器官環(huán)境中有不同特征的免疫細(xì)胞族群，每個(gè)細(xì)胞上又有數(shù)以萬計(jì)的蛋白質(zhì)，而科學(xué)家們探索的，是如何在不殺死人體正常需要分裂的細(xì)胞的同時(shí)，精準(zhǔn)找到藥物所針對的靶點(diǎn)蛋白，“對基因下藥”。

劉維
這是兩個(gè)最大的趨勢：一個(gè)是精細(xì)化程度越來越高，另一個(gè)是篩選和發(fā)現(xiàn)的手段越來越依靠理性的建模，而不是自然的觀測。我們?nèi)祟惖乃幬锇l(fā)現(xiàn)，正在從天然篩選和以天然篩選為主，逐步走向理性設(shè)計(jì)，再到現(xiàn)在我們所做的由生物計(jì)算大模型驅(qū)動(dòng)的設(shè)計(jì)，應(yīng)該稱為“De novo設(shè)計(jì)”，即創(chuàng)新的、從頭開始的設(shè)計(jì)。因?yàn)槲覀儗?shí)際上并不依賴于在所見即所得的環(huán)境中看到一個(gè)東西，而是可以從理性設(shè)計(jì)的角度出發(fā)，設(shè)計(jì)出新的藥物，然后再通過高通量的驗(yàn)證實(shí)驗(yàn)來判斷它是否對目標(biāo)的精細(xì)化問題起到良好作用。

正如劉維所說，生物醫(yī)藥行業(yè)的另一大變革就是：從天然篩選走向更為理性的設(shè)計(jì)。他所提到的De novo設(shè)計(jì)指的是基于計(jì)算機(jī)的全新藥物設(shè)計(jì)，在上世紀(jì)90年代曾經(jīng)出現(xiàn)相關(guān)的文獻(xiàn)報(bào)道，不過當(dāng)時(shí)受限于技術(shù)與計(jì)算資源等問題，De novo能直接成功的案例并不多。

近幾年，深度學(xué)習(xí)與算法算力的不斷進(jìn)步與完善，為全新藥物設(shè)計(jì)的基礎(chǔ)設(shè)施打下更為牢固的地基；如果我們放眼全球，會發(fā)現(xiàn)各大科技巨頭與新勢力都在持續(xù)投入相關(guān)研發(fā)，推動(dòng)這場由生物計(jì)算驅(qū)動(dòng)的醫(yī)學(xué)革命——

譬如在2016年，DeepMind開始研究蛋白質(zhì)折疊問題，2年后推出的AlphaFold成功預(yù)測出了43種蛋白質(zhì)中25種蛋白質(zhì)的最精確結(jié)構(gòu)，到了2022年，AlphaFold向公眾免費(fèi)開放了蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫，已經(jīng)實(shí)現(xiàn)了對98.5%的人類蛋白質(zhì)的準(zhǔn)確預(yù)測，他們的結(jié)構(gòu)預(yù)測精度可以對基于結(jié)構(gòu)的藥物設(shè)計(jì)產(chǎn)生潛在影響，特別是那些還沒有解析結(jié)構(gòu)的新靶點(diǎn)。而谷歌母公司Alphabet也在2021年成立了Isomorphic Labs，利用DeepMind的技術(shù)加速藥物研發(fā)。法國制藥巨頭賽諾菲與Exscientia建立戰(zhàn)略合作，開發(fā)AI驅(qū)動(dòng)的精準(zhǔn)工程藥物管線，而后者是英國的AI制藥領(lǐng)頭羊。

無論是更為精準(zhǔn)的藥物設(shè)計(jì)，還是愈發(fā)走向生物計(jì)算驅(qū)動(dòng)，行業(yè)中這些站在前人肩膀上不斷提升的努力，讓藥物研發(fā)的效率越來越高，也為人類攻克那些暫時(shí)無解的醫(yī)學(xué)難題提供了新思路。

劉維
在我們進(jìn)行生物計(jì)算之后，我們對行業(yè)中已經(jīng)通過傳統(tǒng)發(fā)現(xiàn)手段確定的靶點(diǎn)進(jìn)行了新一輪的生物計(jì)算預(yù)測。通過生物計(jì)算能力，從與小鼠和人類不同的蛋白質(zhì)空間中，尋找可能的新發(fā)現(xiàn)。這樣的預(yù)測帶來了親和力的提升，親和力是一個(gè)典型的指標(biāo)。
大家都知道，我們?nèi)梭w的免疫系統(tǒng)的進(jìn)化邏輯是，當(dāng)它發(fā)現(xiàn)需要糾正的人體內(nèi)的蛋白質(zhì)時(shí)，它如何生成一個(gè)天然的蛋白質(zhì)，與人體內(nèi)的蛋白質(zhì)相互作用，達(dá)到所需的親和力和精準(zhǔn)結(jié)合的位置，從而產(chǎn)生所需的功能。

自然界中有些蛋白之間的親和力非常緊密，但在動(dòng)物體內(nèi)往往不會進(jìn)化到過于緊密，因?yàn)檫^于緊密可能引發(fā)各種副作用。因此，從動(dòng)物體內(nèi)篩選出來的親和力可能只是中等水平。但是，如果我們的生物計(jì)算大模型能夠從更多的天然和非天然產(chǎn)物中學(xué)習(xí)，它可能會找到如何進(jìn)一步增強(qiáng)親和力的方法。因此，親和力是一個(gè)關(guān)鍵指標(biāo)。

我們在設(shè)計(jì)藥物蛋白時(shí)，往往希望它與目標(biāo)蛋白之間的親和力較高。這種親和力的提高，可能在已經(jīng)被充分研究過的靶點(diǎn)上，再提高1-2個(gè)數(shù)量級。這其實(shí)只是一個(gè)開始，我們認(rèn)為未來還能夠不斷提高。

除了親和力的提升，在劉維的觀點(diǎn)中，生物計(jì)算對藥物研發(fā)帶來的另一個(gè)指標(biāo)性的變化是「特異性」。回歸提升這些指標(biāo)的本質(zhì)，試圖解決的都是靶點(diǎn)的精細(xì)化研究、與藥物的精細(xì)化設(shè)計(jì)的問題。

劉維
人體內(nèi)常見的蛋白質(zhì)可能有幾萬種。當(dāng)我們設(shè)計(jì)出一個(gè)藥物后，傳統(tǒng)的生物篩選法更多關(guān)注的是藥物與目標(biāo)靶點(diǎn)的結(jié)合是否良好，但無法窮舉它與其他人體內(nèi)蛋白質(zhì)的結(jié)合。有時(shí)會出現(xiàn)一個(gè)悖論：藥物與目標(biāo)靶點(diǎn)的結(jié)合確實(shí)最好，但副作用率也最大。生物計(jì)算的好處在于，可以同時(shí)計(jì)算任何一個(gè)蛋白質(zhì)與所有靶點(diǎn)的結(jié)合，找到Delta值最高的。因此，特異性的提高是生物計(jì)算帶來的一個(gè)顯著變化。
我們現(xiàn)在研發(fā)的藥物，希望帶來什么樣的變化？傳統(tǒng)基于生物篩選法的藥物，更多是單一靶點(diǎn)，或簡單地把幾個(gè)靶點(diǎn)拼在一起。簡單拼在一起的藥物，可以同時(shí)結(jié)合a靶點(diǎn)和b靶點(diǎn)，在體內(nèi)提高一些有效性，因?yàn)榕龅絘靶點(diǎn)或b靶點(diǎn)都能起作用。但這并沒有提高安全性，有時(shí)甚至降低安全性。因?yàn)楫?dāng)藥物同時(shí)針對a、b、c、d多個(gè)不同靶點(diǎn)時(shí)，安全性有限，濃度不敢給太高，有效性反而不高，這還是不精準(zhǔn)的問題。
我們今天努力的方向是：首先，希望每一個(gè)藥物彈頭更加精準(zhǔn)，親和力更高，結(jié)合的表位更加精準(zhǔn)。因?yàn)橛行┧幬锊灰欢ㄊ怯H和力越高越好，而是越精準(zhǔn)越好。其次，能否在每一個(gè)彈頭上加上類似傳感器的創(chuàng)新蛋白質(zhì)，使其在特定環(huán)境下才觸發(fā)，通過可編程蛋白質(zhì)的設(shè)計(jì)實(shí)現(xiàn)藥物的作用機(jī)理（MOA）。例如，當(dāng)a靶點(diǎn)出現(xiàn)且b靶點(diǎn)被激活時(shí)，經(jīng)過比如5毫秒，c靶點(diǎn)才釋放。因?yàn)槿梭w細(xì)胞有其運(yùn)作規(guī)律，同樣是a和b兩個(gè)靶點(diǎn)，先打a再打b是正向作用。如果先打b再打a，a激活后發(fā)現(xiàn)沒有b，可能反而對人體有害。

落實(shí)到我們?nèi)粘？梢愿兄呐R床收益層面——正如前面劉維舉例提到的，化療藥物能夠從最早的“全身殺傷”變得更為精準(zhǔn)，生物計(jì)算研發(fā)藥物，對于疾病認(rèn)知、預(yù)防與治療，帶來的改變是顛覆性的。

劉維
我認(rèn)為，更多的病人將受益于藥物安全性的顯著提高。首先，藥物的安全性是限制藥物有效性和長期使用的主要問題。很多病人其實(shí)是因?yàn)樗幬锏腻e(cuò)誤使用而受到傷害。其次，藥物的有效性和長期效果也會提高?，F(xiàn)在大量的免疫藥物很快就會產(chǎn)生耐藥性。第三，藥物的適用范圍和能夠解決的疾病領(lǐng)域?qū)⒋蟠髷U(kuò)展。比如，很多實(shí)體瘤的問題在于藥物沒有足夠的濃度，無法穿透到腫瘤部位，或者在穿透過程中藥物已經(jīng)被損耗掉了。通過條件觸發(fā)機(jī)制，以及使用具有獨(dú)特穿透能力的De novo蛋白質(zhì)等獨(dú)特構(gòu)件，可以擴(kuò)展藥物的實(shí)用性。

但是目前，生物制藥行業(yè)依然有諸多難點(diǎn)亟待解決，行業(yè)效率不高就是其中之一。當(dāng)下的很多藥物研發(fā)企業(yè)所做的是針對單點(diǎn)問題的發(fā)現(xiàn)，他們耗費(fèi)的大量的研發(fā)成本，也許能解決一個(gè)靶點(diǎn)的問題，但并不一定能快速應(yīng)用到其他靶點(diǎn)；對于行業(yè)中的同行者而言，他們也很難將這些積累下來的技術(shù)發(fā)現(xiàn)應(yīng)用到自己的領(lǐng)域。

行業(yè)效率的整體提升，需要依賴那些關(guān)鍵部件的平臺級公司，而這也是百圖生科正在嘗試做的。

劉維
我認(rèn)為，隨著產(chǎn)品復(fù)雜度的提高，情況會發(fā)生變化。比如，早期制造汽車很簡單，大家都是手工制作。當(dāng)汽車的復(fù)雜度提高后，必然會出現(xiàn)幾家專門生產(chǎn)變速箱的廠商。一線車廠不會自己生產(chǎn)變速箱，只有幾家專業(yè)廠商負(fù)責(zé)這一部分。飛機(jī)發(fā)動(dòng)機(jī)也是類似的情況。
今天的藥物研發(fā)，很多藥企花10年的時(shí)間，用動(dòng)物模型圍繞一個(gè)靶點(diǎn)開發(fā)一種藥物。如果成功了，當(dāng)然皆大歡喜。但其他藥企可能也在做類似的藥物，使用類似的技術(shù)路徑，最終大家在分市場，效率不高。在這個(gè)過程中，很多東西沒有積累下來，即使成功了，也無法將這個(gè)靶點(diǎn)快速遷移到另一個(gè)靶點(diǎn)。因此，發(fā)現(xiàn)效率都是針對單點(diǎn)問題的。
理想情況下，就像我們剛才提到的，如果這些算法模型達(dá)到一定水平，比如人類細(xì)胞常見的7000個(gè)目標(biāo)蛋白質(zhì)，我們能否把這7000個(gè)目標(biāo)蛋白質(zhì)對應(yīng)的藥物彈頭都做出來，并且提前做好？不僅是做一種選擇，而是做100種、1000種選擇。因?yàn)樵谔摂M空間內(nèi)做設(shè)計(jì)，做100種、1000種與做一種的本質(zhì)難度差別不大。
這100種、1000種彈頭有不同的親和力水平、不同的結(jié)合表位、不同的功能，甚至不同的專利多樣性，從而可以為許多藥物開發(fā)企業(yè)提供現(xiàn)成的選擇。如果某個(gè)藥企想針對某個(gè)靶點(diǎn)，可以直接選擇預(yù)制的1000個(gè)彈頭中的第957號。雖然一次性制作這些東西有一定成本，但我認(rèn)為這樣可以避免行業(yè)內(nèi)重復(fù)發(fā)明輪子。

另一方面，人類在生命科學(xué)領(lǐng)域的研究持續(xù)演進(jìn)，但是它的實(shí)際落地能力受限于傳統(tǒng)的動(dòng)物發(fā)現(xiàn)等因素，存在一定的滯后性。

劉維
人們對機(jī)理已經(jīng)有了初步的判斷。比如，大量的疾病，包括一半以上的人類疾病，如腫瘤、自身免疫性疾病、感染，甚至衰老，都與免疫有關(guān)?，F(xiàn)在人類對免疫的機(jī)理已經(jīng)相對清楚，就是因?yàn)槊庖呒?xì)胞過度激活或未被激活。如何激活它們，就是在這些免疫細(xì)胞的蛋白質(zhì)靶點(diǎn)上，找到合適的蛋白質(zhì)，像開關(guān)一樣，把a(bǔ)、b、c推開，把d、e、f降下來。
但問題在于，首先，我們設(shè)計(jì)不出更好的藥物來調(diào)節(jié)這些開關(guān)。其次，這些開關(guān)在不同場景和不同人群中的規(guī)律并不完全相同，雖然大體邏輯是一樣的。在實(shí)驗(yàn)中會發(fā)現(xiàn)，有些人群是這樣，而另一些人群正好相反。這些不盡相同的規(guī)律和與之相關(guān)的藥物設(shè)計(jì)如何實(shí)現(xiàn)？我認(rèn)為，科學(xué)已經(jīng)相對清楚，但需要我們這些企業(yè)去做出實(shí)際的努力。

這也是百圖生科推出生物計(jì)算大模型的出發(fā)點(diǎn)之一——他們試圖搭建的是一個(gè)生命科學(xué)大模型的平臺，這個(gè)平臺更傾向于「平臺工具」屬性，而不是僅為某個(gè)企業(yè)服務(wù)、或只是解決某個(gè)疾病。這個(gè)大模型能夠建模和表征蛋白質(zhì)細(xì)胞生命系統(tǒng)，從而對人體的很多問題進(jìn)行預(yù)測、并且能夠生成各種新的蛋白質(zhì)，用這些蛋白質(zhì)來做藥物，解決疾病治療、或者更廣泛意義上的，與「生命」有關(guān)的問題。

劉維
生命科學(xué)領(lǐng)域真正的圣杯是那些難以成藥的靶點(diǎn)，是那些從未被制藥的靶點(diǎn)，以及那些尚未發(fā)現(xiàn)的疾病問題。我們現(xiàn)在稱自己為AIGP，即AI生成蛋白。這是因?yàn)檎Z言是人類的語言，而蛋白質(zhì)有點(diǎn)像是造物主的語言，或者說是整個(gè)自然界的語言。
我們兩年前創(chuàng)辦這家公司，也是基于對這一趨勢的分析。我們認(rèn)為有幾個(gè)因素正在達(dá)到臨界點(diǎn)。第一個(gè)因素是數(shù)據(jù)。任何大模型都離不開數(shù)據(jù)，而且這些數(shù)據(jù)必須在一個(gè)合適的范圍內(nèi)。當(dāng)數(shù)據(jù)量非常大時(shí)，可能不需要復(fù)雜的模型，就像今天的GPT，它能夠整合許多弱相關(guān)的數(shù)據(jù)，給出一個(gè)答案。如果數(shù)據(jù)多到所有問題的答案都已經(jīng)存在，那只需檢索即可，不需要更強(qiáng)大的AI。同樣，如果數(shù)據(jù)太少，大模型也沒有用武之地。如果數(shù)據(jù)與目標(biāo)問題高度相關(guān)，也不需要復(fù)雜的AI技術(shù)；如果關(guān)聯(lián)性太弱，大模型也無法提取有用信息。
因此，我們兩年前進(jìn)入這個(gè)領(lǐng)域的一個(gè)重要契機(jī)是單細(xì)胞組學(xué)、單細(xì)胞CRISPR擾動(dòng)及其觀測等技術(shù)在過去五年內(nèi)的快速成熟，達(dá)到了類似于智能手機(jī)和互聯(lián)網(wǎng)的臨界點(diǎn)。
單細(xì)胞組學(xué)帶來的數(shù)據(jù)量是以前的幾千萬倍，這些數(shù)據(jù)可以映射到蛋白質(zhì)。單細(xì)胞組學(xué)實(shí)際上測量的是每個(gè)細(xì)胞的基因組和轉(zhuǎn)錄組，這些可以翻譯為細(xì)胞內(nèi)的蛋白質(zhì)表達(dá)。這意味著我們現(xiàn)在能夠快速掌握大量的人體組織或動(dòng)物組織中蛋白質(zhì)在細(xì)胞內(nèi)的組合方式，以及細(xì)胞間蛋白質(zhì)的相互作用。但這些信息用傳統(tǒng)的生物信息學(xué)和傳統(tǒng)的任務(wù)模型是無法分析的，因?yàn)樵胍籼摺?/p>
第二個(gè)點(diǎn)是是否有好的大模型框架來表征這個(gè)問題。我認(rèn)為這也是AI，或者說AI與各行業(yè)領(lǐng)域知識相結(jié)合，經(jīng)過多年研究和準(zhǔn)備，逐漸進(jìn)入臨界點(diǎn)的原因。就像我們今天的自然語言大模型，也是依靠人類對字詞句章的理解，包括GPT-4，它實(shí)際上整合了很多跨模態(tài)的內(nèi)容，比如圖片和視頻，如何映射到語言描述中，如何打通這些模態(tài)。我覺得我們今天面臨的機(jī)遇也是類似的。在過去兩年內(nèi)，我們致力于將蛋白質(zhì)、細(xì)胞、基因、免疫系統(tǒng)等整合成一套表征體系，找到如何通過蛋白質(zhì)的開關(guān)來調(diào)控細(xì)胞功能的邏輯。這種邏輯既需要底層的AI設(shè)計(jì)，也需要很多生物學(xué)領(lǐng)域前沿的科學(xué)假設(shè)。我認(rèn)為這是第二個(gè)成立的條件，否則再強(qiáng)大的大模型也無法應(yīng)用于生命科學(xué)領(lǐng)域。
第三個(gè)條件是算力的快速發(fā)展。特別是在生物計(jì)算領(lǐng)域的大模型中，算力有一些獨(dú)特的要求。因?yàn)闊o論是模型還是數(shù)據(jù)，這些都是不一樣的。而且，生物計(jì)算的大模型往往會與物理模型有更多的融合，因?yàn)樯镱I(lǐng)域涉及很多物理問題。這些問題需要高算力的AI for Science或CAD for Science等模擬計(jì)算軟件來解決。這些工具對算力的需求非常高，如何與大模型進(jìn)行融合也是過去幾年快速成熟的一個(gè)領(lǐng)域。我們依靠像百度這樣的資源，能夠很好地利用這些優(yōu)勢。
第四個(gè)條件是高通量的驗(yàn)證體系，這在生物領(lǐng)域非常重要。雖然從計(jì)算側(cè)的視角看似乎沒那么重要，但在生物領(lǐng)域卻至關(guān)重要。GPT大模型的第一代解決的問題往往依賴互聯(lián)網(wǎng)，通過互聯(lián)網(wǎng)的快速閉環(huán)反饋來解決驗(yàn)證問題，所以壓力不大。但是，在自動(dòng)駕駛等領(lǐng)域，大模型的應(yīng)用已經(jīng)向這個(gè)方向發(fā)展。
很明顯，如果沒有自動(dòng)駕駛的閉環(huán)驗(yàn)證體系，大模型預(yù)測出的各種結(jié)果，特別是支持的一些任務(wù)模型的預(yù)測，是很難閉環(huán)的。現(xiàn)在有大量新興的實(shí)驗(yàn)技術(shù)，我們可以從最優(yōu)秀的實(shí)驗(yàn)室和科學(xué)家那里整合這些技術(shù)，但系統(tǒng)整合是我們的核心優(yōu)勢。如何將其變成一個(gè)能夠高速閉環(huán)驗(yàn)證的系統(tǒng)，這樣大模型和任務(wù)模型才能實(shí)現(xiàn)快速收斂。

技術(shù)側(cè)的條件趨于成熟，那么下一個(gè)問題則自然浮現(xiàn)了，從應(yīng)用側(cè)，要如何負(fù)擔(dān)這樣一個(gè)生命科學(xué)大模型的成本？

劉維
有時(shí)候問題不在于錢。就像GPT，如果沒有大量用戶使用它，或者AlphaGo如果沒有很多圍棋手與它對弈，這些技術(shù)也無法進(jìn)一步提高。因此，回到生命科學(xué)的大模型，有沒有實(shí)際的高價(jià)值藥物研發(fā)項(xiàng)目作為測試任務(wù)和啟動(dòng)任務(wù)也是至關(guān)重要的。
我們認(rèn)為，這種創(chuàng)新蛋白正好為大模型提供了難得的測試需求。由于這些項(xiàng)目具有高價(jià)值，無論是我們自己投入，還是我們的合作伙伴愿意投入，都可以共同推動(dòng)大模型的發(fā)展。

百圖生科的商業(yè)模式是AIGP驅(qū)動(dòng)的co-development合作——具體來說可以分為兩大塊，一塊是自己研發(fā)藥物，此后轉(zhuǎn)成共同開發(fā)，另一塊則是從頭就與合作伙伴共同開發(fā)。

百圖生科目前有100個(gè)左右的藥物進(jìn)入了上市或臨床后期的階段，從這個(gè)角度看他們是一家藥企；而換個(gè)角度看，百圖生科的優(yōu)勢是發(fā)現(xiàn)創(chuàng)新分子、研發(fā)前沿藥物，這也讓他們得到不少大型藥企的青睞，與其一起合作研發(fā)藥物，提高行業(yè)效率。

劉維
我們有能力自己進(jìn)行藥物或資產(chǎn)項(xiàng)目的開發(fā)，但我們利用這種能力與其他強(qiáng)者聯(lián)合開發(fā)，然后在合適的時(shí)機(jī)，轉(zhuǎn)讓我們的一部分份額。我們自己做藥物，尤其是前沿藥物，一般只做到IND階段，即獲得臨床批件，甚至更早的階段。我們不在后續(xù)的臨床階段進(jìn)行更大的投入，因?yàn)槲覀兊膬?yōu)勢在于發(fā)現(xiàn)非常創(chuàng)新的分子。這些創(chuàng)新分子在行業(yè)內(nèi)能夠吸引大型藥企的青睞，通常在比較早期時(shí)，他們會購買或部分轉(zhuǎn)讓這些分子，或者投入他們的重要資源。
比如，一個(gè)藥物可能由多個(gè)不同的構(gòu)件拼接而成。我們可能開發(fā)了幾個(gè)新的關(guān)鍵構(gòu)件，如新的免疫細(xì)胞調(diào)控能力。而大型藥企可能在其他靶點(diǎn)上已經(jīng)開發(fā)出上市藥物。通過強(qiáng)強(qiáng)聯(lián)合，可以大大加速藥物的研發(fā)進(jìn)程，同時(shí)避免重復(fù)發(fā)明輪子。

這種與大型藥企強(qiáng)強(qiáng)聯(lián)合的模式，與傳統(tǒng)制藥行業(yè)內(nèi)的CRO模式并不相同。CRO模式指的是醫(yī)藥研發(fā)合同外包，指的是通過合同形式，為藥企的藥物研發(fā)提供專業(yè)外包服務(wù)；對于制藥企業(yè)而言，找到專業(yè)的CRO，在一定程度上能降低他們的研發(fā)成本和試錯(cuò)概率。但百圖生科選擇了一條不同的商業(yè)路徑。

劉維
這種模式我們稱之為“規(guī)?；l(fā)現(xiàn)”模式。這是一種批量研發(fā)的模式，比起單獨(dú)開發(fā)一兩個(gè)藥物，它的平臺屬性更強(qiáng)。相比于提供一些簡單的CRO服務(wù)，盡管CRO領(lǐng)域有許多巨頭，他們是通過多年積累起來的。有些小型CRO可能提供簡單的服務(wù)或軟件，能夠介入很多項(xiàng)目，但每個(gè)項(xiàng)目的收益較低。
我們的聯(lián)合開發(fā)模式，希望每個(gè)項(xiàng)目都能帶來可觀的收益，少則可能1億美元，多則10億美元甚至更多。如果項(xiàng)目成功，這就能支持我們的規(guī)?；l(fā)現(xiàn)，打造一個(gè)幾十億甚至未來上百億的資產(chǎn)組合，從而讓大模型的投入變得更有價(jià)值。

當(dāng)然，生物醫(yī)藥達(dá)到如今的成就，并非是一家公司的力量可以推動(dòng)的。正如我們開頭提到的那些人類醫(yī)藥歷程中的關(guān)鍵節(jié)點(diǎn)，這些發(fā)現(xiàn)并不只是個(gè)人成就，而是那些肩負(fù)使命的學(xué)者、公司、行業(yè)的推動(dòng)。

劉維
我覺得生命科學(xué)領(lǐng)域最大的魅力在于它是真正的全球化。與許多行業(yè)不同，生命科學(xué)不像“零和游戲”那樣大家競爭搶市場。生命科學(xué)行業(yè)本質(zhì)上是大家共同與疾病作斗爭。誰能攻克一個(gè)難題，或者通過合作取得突破，人類就能從中受益，新的市場也會因此出現(xiàn)。所以，從這個(gè)角度看，我覺得大家都在做一些非常有使命感和責(zé)任感的事情。
每個(gè)地區(qū)都有其獨(dú)特的優(yōu)勢。美國市場在底層技術(shù)和原生態(tài)技術(shù)上非常強(qiáng)大，而且有很多大藥廠和豐富的臨床資源。歐洲也有很多優(yōu)秀的藥企，在疾病科學(xué)研究和前沿生物技術(shù)方面有深厚的積累。雖然歐洲本土市場不夠大，但它往往通過與美國、日本等國家的藥企進(jìn)行全球化合作。
在中國，我們在蘇州有一個(gè)大型高通量實(shí)驗(yàn)室，是我們的蛋白質(zhì)研究中心，也是目前世界上最大的生物計(jì)算行業(yè)的蛋白質(zhì)生產(chǎn)設(shè)施之一。在北京，我們的實(shí)驗(yàn)室依托北大、清華、北生所等機(jī)構(gòu)，具備非常強(qiáng)的前沿研究能力。中東地區(qū)現(xiàn)在也在快速崛起。

「使命」是這個(gè)行業(yè)的關(guān)鍵詞。無論技術(shù)如何更迭、熱錢涌進(jìn)了哪些賽道，又有哪些創(chuàng)業(yè)者看到希望、決定投身于生物醫(yī)藥創(chuàng)業(yè)，但這個(gè)行業(yè)一以貫之地堅(jiān)持的，永遠(yuǎn)是那些困擾人類健康的、或是能讓人類活得更好的生命科學(xué)難題——而這與商業(yè)競爭無關(guān)。

劉維
我們與去年未來科學(xué)大獎(jiǎng)得主李文輝教授的合作非常值得一提。李教授不僅是未來科學(xué)大獎(jiǎng)的得主，也是華人科學(xué)家中發(fā)現(xiàn)最有前景靶點(diǎn)的人之一。然而，這個(gè)靶點(diǎn)非常難以攻克，因?yàn)樗旧矸浅?fù)雜，并且在人體內(nèi)有重要功能，不能簡單地阻斷。
對于這種難以成藥的靶點(diǎn)，我們正在使用計(jì)算生物學(xué)的方法進(jìn)行多輪迭代嘗試，雖然不敢保證一定能成功，但這些問題本身就非常困難。因此，我們并不指望一次性成功，而是通過迭代快速找到方向，加速藥物研發(fā)。如果我們能夠在未來一段時(shí)間內(nèi)證明我們能攻克這個(gè)靶點(diǎn)，對患者群體的收益將是巨大的。
在當(dāng)前的國際形勢下，我認(rèn)為大家有更多合作的責(zé)任，共同為了人類的發(fā)展和生命安全而奮斗。大家都是這樣的心態(tài)，希望整合全球不同的技術(shù)優(yōu)勢，來解決人類疾病的問題。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn)，不代表創(chuàng)業(yè)邦立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。