斯坦福伯克利重磅發(fā)現(xiàn)DNA Scaling Law，Evo榮登Science封面，AI設(shè)計(jì)DNA/RNA/蛋白質(zhì)再突破

城市進(jìn)化論·2024-11-16

AI模型Evo設(shè)計(jì)基因組序列，實(shí)現(xiàn)CRISPR生成。

編者按：本文來自微信公眾號新智元，編輯：編輯部 HYZ，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

【導(dǎo)讀】就在剛剛，AI設(shè)計(jì)DNA、RNA和蛋白質(zhì)序列的能力再獲得顛覆性突破，研究登上Science封面。Evo模型能以無與倫比的準(zhǔn)確性，解碼和設(shè)計(jì)從分子到基因組規(guī)模的對象了，合成生物學(xué)的工作方式，從此或?qū)氐最嵏病?/p>

Is DNA all you need？

AI可以實(shí)現(xiàn)從分子到基因組尺度的預(yù)測和生成任務(wù)了！

就在剛剛，這項(xiàng)研究登上了Science封面。

來自斯坦福和UC伯克利的研究人員，提出了一種全新的基因組基礎(chǔ)大模型——Evo。

利用基于深度信號處理進(jìn)展的架構(gòu)，Evo擴(kuò)展到了70億參數(shù)，并在單核苷酸分辨率下實(shí)現(xiàn)了131千堿基的上下文長度。

目前，項(xiàng)目已經(jīng)在GitHub上開源。

論文地址：https://www.science.org/doi/10.1126/science.ado9336

開源項(xiàng)目：https://github.com/evo-design/evo

值得一提的是，研究人員重磅發(fā)現(xiàn)了DNA的Scaling Law！

經(jīng)過270萬個(gè)原核生物和噬菌體基因組的訓(xùn)練后，Evo在DNA、RNA和蛋白質(zhì)模態(tài)上展現(xiàn)出的零樣本功能預(yù)測能力，可以與特定領(lǐng)域的語言模型相媲美，甚至直接超越。

生成合成CRISPR-Cas分子復(fù)合物和轉(zhuǎn)座子系統(tǒng)的結(jié)果表明，Evo在多模態(tài)生成任務(wù)上的表現(xiàn)也很出色。

此外，研究人員還首次使用語言模型，進(jìn)行了蛋白質(zhì)-RNA和蛋白質(zhì)-DNA協(xié)同設(shè)計(jì)，驗(yàn)證了Evo生成的CRISPR-Cas分子復(fù)合物以及IS200和IS605轉(zhuǎn)座子系統(tǒng)的功能活性。

利用從整個(gè)基因組中學(xué)習(xí)到的信息，Evo掌握了核苷酸序列的微小變化如何影響整個(gè)生物體的適應(yīng)度，并能生成長度超過1兆堿基的具有合理基因組架構(gòu)的DNA序列。

有人表示，這項(xiàng)研究或許能使人們逆轉(zhuǎn)衰老。

世界首個(gè)AI生成CRISPR-Cas系統(tǒng)誕生

要知道，所有生物體的DNA序列中，都編碼著生命的基本指令，但理解它們卻很復(fù)雜。

即使是最簡單的微生物基因組也是如此，數(shù)百萬個(gè)堿基對，編碼出DNA、RNA和蛋白質(zhì)之間的相互作用。

這種復(fù)雜性存在于從單個(gè)分子到整個(gè)基因組的多個(gè)尺度上，代表著在進(jìn)化時(shí)間中經(jīng)過功能性選擇的龐大遺傳信息景觀。

如果能有一個(gè)模型，能在保持單核苷酸分辨率的同時(shí)，還能處理大型基因組序列，就可以幫助科學(xué)家提取出自然進(jìn)化變異模式中蘊(yùn)含的復(fù)雜分子相互作用功能信息了。

而今Evo的出現(xiàn)，讓這一切都可以實(shí)現(xiàn)了。

Evo是一個(gè)包含70億參數(shù)的基因組基礎(chǔ)模型，可以學(xué)習(xí)從單個(gè)核苷酸到整個(gè)基因組的生物復(fù)雜性

它預(yù)測、生成和設(shè)計(jì)整個(gè)基因組序列的能力，可能會改變合成生物學(xué)的工作方式！

因?yàn)镋vo了解跨模式的共同進(jìn)化模式，所以研究人員決定證明它可以生成蛋白質(zhì)和非編碼 RNA的大分子復(fù)合物。

至此，世界上第一個(gè)AI生成的CRISPR-Cas系統(tǒng)誕生了！

Evo還具有生成整個(gè)基因組規(guī)模的序列的潛力。

在單個(gè)GPU上，研究人員生成了超過650 KB的DNA序列。使用Evo對這個(gè)長度的序列進(jìn)行采樣時(shí)可以發(fā)現(xiàn)，基因組包含數(shù)千個(gè)潛在的蛋白質(zhì)編碼序列。

未來，研究人員還將把Evo擴(kuò)展到真核和人類序列。

研究人員表示，Evo有極大潛力幫助或取代濕實(shí)驗(yàn)室實(shí)驗(yàn)，他對此感到非常興奮。

很多團(tuán)隊(duì)都不得不對必需基因進(jìn)行費(fèi)力的CRISPR篩選，但他們直接用神經(jīng)網(wǎng)絡(luò)的前向傳播將之取代了！

Evo模型架構(gòu)

如前所述，Evo是一個(gè)基因組基礎(chǔ)模型，共有70億參數(shù)。

它通過使用單核苷酸（single-nucleotide）、字節(jié)級分詞方法，在高到131072個(gè)token的上下文進(jìn)行了訓(xùn)練。

為了有效地以核苷酸分辨率對長序列進(jìn)行建模，作者利用了基于深度信號處理新興技術(shù)的StripedHyena架構(gòu)。

Evo是29層數(shù)據(jù)控制卷積算子（hyena層）與三層（10%）配備旋轉(zhuǎn)位置嵌入（RoPE）的多頭注意力交織的混合體。

Hyena層使用長短卷積濾波器的組合，依賴輸入的方式處理序列。這使得該層在過濾DNA中，可能出現(xiàn)的噪聲模式，以及將單核苷酸聚集成基序（motifs）方面特別有效。

模型混合最初是為了解決狀態(tài)空間模型的缺點(diǎn)而提出的，最近已經(jīng)證明可以提高獨(dú)立Hyena和Transformer架構(gòu)的語言建模的scaling性能。

與上一代利用Hyena架構(gòu)的DNA模型HyenaDNA相比，Evo基于改進(jìn)的混合設(shè)計(jì)，可擴(kuò)展到1000倍的模型大小和100倍的數(shù)據(jù)。

在訓(xùn)練模型過程中，研究人員編制了一個(gè)OpenGenome的大型基因組數(shù)據(jù)集，其中包含了80000多個(gè)細(xì)菌和古細(xì)菌基因組，以及數(shù)百萬個(gè)預(yù)測的噬菌體和質(zhì)粒序列，涵蓋了3000億個(gè)核苷酸t(yī)oken。

DNA的Scaling Law

為了幫助Evo模型設(shè)計(jì)，作者對DNA序列建模進(jìn)行了scaling law分析，以此確定訓(xùn)練、架構(gòu)細(xì)節(jié)和性能指標(biāo)之間的關(guān)系。

一旦獲得了scaling law，它就作為指導(dǎo)以最佳方式將訓(xùn)練scaling到更大的模型和數(shù)據(jù)集。

具體來說，作者在四個(gè)架構(gòu)中訓(xùn)練了300多個(gè)模型：

Transformer++、Mamba、Hyena、StripedHyena。

Transformer++是最先進(jìn)的Transformer，而Mamba是使用數(shù)據(jù)控制狀態(tài)空間模型的現(xiàn)代架構(gòu)。

結(jié)果發(fā)現(xiàn)，Transformer++在所有計(jì)算預(yù)算下，產(chǎn)生的困惑度明顯更差，字節(jié)分辨率架構(gòu)效率低下的癥狀。

與Transformer++相比，狀態(tài)空間和深度信號處理架構(gòu)的縮放率都有所提高，其中Hyena和StripedHyena的scaling率最佳。

此外，在分析sclaing過程中，作者還觀察到StripedHyena在所有研究的模型大小和學(xué)習(xí)率中的穩(wěn)定訓(xùn)練。

他們還比較了架構(gòu)計(jì)算最優(yōu)邊界之外的性能，即分配的計(jì)算預(yù)算，可能是次優(yōu)的。

與StripedHyena相比，Transformer++和Mamba在訓(xùn)練過程中都經(jīng)歷了數(shù)值不穩(wěn)定性，并且在計(jì)算最佳邊界之外的scaling率性能下降更大。

從以上這些發(fā)現(xiàn)中，才使得研究人員選擇StripedHyena作為Evo的架構(gòu)。

Evo跨DNA、RNA和蛋白質(zhì)模態(tài)學(xué)習(xí)

預(yù)測突變對蛋白質(zhì)功能的影響

除了評估困惑度之外，研究人員接下來研究了Evo在生物相關(guān)下游任務(wù)中零樣本性能。

比如，在蛋白質(zhì)序列或核苷酸編碼序列大型語料庫上，專門訓(xùn)練的語言模型已經(jīng)證明了預(yù)測突變對蛋白質(zhì)功能的影響的能力，無需任何特定任務(wù)的微調(diào)監(jiān)督。

由于Evo的訓(xùn)練數(shù)據(jù)包含了蛋白質(zhì)編碼序列，作者測試其是否也可以進(jìn)行零樣本蛋白質(zhì)功能預(yù)測。

這里，他們利用了深度突變掃描（DMS）研究，將一組詳盡的突變引入蛋白質(zhì)編碼序列，然后通過實(shí)驗(yàn)測量這些突變對各種適應(yīng)度指標(biāo)的影響。

這些指標(biāo)量化了功能活性。

氨基酸序列的語言模型似然或偽似然，被用來預(yù)測實(shí)驗(yàn)適配性得分。

為了使這項(xiàng)任務(wù)適用于核苷酸序列，作者使用了原始DMS研究中報(bào)告的野生型編碼序列（wild-type coding sequence）和核苷酸突變（材料與方法）。

在原核蛋白質(zhì)的DMS數(shù)據(jù)集上，Evo的零樣本性能超過了測試中所有其他核苷酸模型，包括GenSLM。

Evo還達(dá)到了與主要蛋白質(zhì)特異性語言模型相媲美的性能。

先前的研究表明，對于僅使用自監(jiān)督預(yù)訓(xùn)練的蛋白質(zhì)語言模型來說，超出此性能范圍的改進(jìn)是困難的，這表明Evo已經(jīng)與最先進(jìn)的細(xì)菌蛋白質(zhì)語言建模競爭。

在人類蛋白質(zhì)的DMS數(shù)據(jù)集上，Evo無法預(yù)測突變對適應(yīng)度的影響，很可能是因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)集由原核序列組成。

然而，作者還觀察到野生型序列上的語言模型困惑度與適應(yīng)度預(yù)測性能之間存在很強(qiáng)的關(guān)聯(lián)性，這表明對哺乳動物編碼序列進(jìn)行額外的微調(diào)或未來的預(yù)訓(xùn)練可以提高Evo的性能，而不僅僅是細(xì)菌蛋白。

預(yù)測突變對ncRNA功能的影響

接下來，作者測試了相同的預(yù)訓(xùn)練模型是否可以學(xué)習(xí)有關(guān)的ncRNA功能信息，比如tRNA、rRNA、核酶。

對此，他們收集了ncRNA DMS數(shù)據(jù)集并使用實(shí)驗(yàn)性ncRNA DMS研究的結(jié)果作為基礎(chǔ)事實(shí)得分，來評估Evo進(jìn)行零樣本ncRNA適應(yīng)性預(yù)測的能力。

結(jié)果發(fā)現(xiàn)，Evo在這項(xiàng)任務(wù)中再次優(yōu)于所有其他測試的核苷酸語言模型，包括RNA-FM。

另外，在測量5S rRNA突變對大腸桿菌生長速率影響的研究中，作者觀察到特別強(qiáng)的預(yù)測性能。

除了蛋白質(zhì)序列之外，這些結(jié)果還表明Evo可以了解突變對ncRNA功能的影響。

預(yù)測調(diào)控DNA的活性

Evo的訓(xùn)練也包含了原核調(diào)控DNA序列，作者研究了Evo是否已經(jīng)學(xué)習(xí)了對調(diào)控DNA任務(wù)的有用信息。

接下來，他們將專注于啟動子序列預(yù)測基因表達(dá)和從核糖體結(jié)合位點(diǎn)（RBS）序列預(yù)測蛋白質(zhì)表達(dá)。

對于監(jiān)督啟動子活性（promoter activity）預(yù)測，作者使用來自單個(gè)研究的訓(xùn)練和驗(yàn)證分割來開發(fā)自回歸模型，然后在來自其他研究的啟動子數(shù)據(jù)集上測試最終模型，以評估域外泛化能力。

下圖F展示了，四項(xiàng)研究中啟動子活性與零樣本語言模型可能性、序列GC含量或監(jiān)督模型之間的相關(guān)性。

對于蛋白質(zhì)表達(dá)預(yù)測，作者使用了Kosuri此前創(chuàng)建的數(shù)據(jù)集，其中除了啟動子外，還包含了RBS，除mRNA表達(dá)外還測量了蛋白質(zhì)表達(dá)。

Evo的RBS序列零樣本可能性與蛋白質(zhì)表達(dá)，具有弱相關(guān)性。

然而，當(dāng)把啟動子和RBS序列鏈接在一起時(shí)，Evo的零樣本可能性顯著提高，這表明額外的調(diào)控序列，可以提供有用的功能背景。

Evo在啟動子-RBS序列上零樣本相關(guān)性，高于啟動子-RBS序列的GC含量、零樣本GenSLM似然性，以及RBS計(jì)算器——最先進(jìn)的蛋白質(zhì)表達(dá)預(yù)測器。

CRISPR-Cas分子復(fù)合物的生成設(shè)計(jì)

接下來，作者推斷Evo能夠生成涉及不同分子模態(tài)之間，相互作用的功能復(fù)合物。

在原核生物中，功能相關(guān)的基因通常被組織成操縱子，并在基因組序列上彼此相鄰。

因?yàn)镋vo學(xué)習(xí)涉及上下文內(nèi)任何涉及遺傳元素的共變模式，所以模型應(yīng)該理解編碼蛋白質(zhì)和ncRNA分子之間的相互作用。

為了證明這種能力，作者在含有CRISPR-Cas序列的基因組位點(diǎn)數(shù)據(jù)集上微調(diào)了Evo。

值得一提的是，CRISPR-Cas序列是由蛋白質(zhì)和ncRNA組成的分子機(jī)器，共同引導(dǎo)適應(yīng)性免疫對抗病毒感染。

DNA靶向Cas9核酸酶，通常在3000到4800堿基對 (bp) 的編碼序列中編碼，并在基因組中與其同源的CRISPR陣列緊密相連。

CRISPR陣列轉(zhuǎn)錄產(chǎn)生的非編碼CRISPR RNA（crRNA）分子與Cas蛋白結(jié)合，生成序列特異性DNA靶向所需的功能性防御復(fù)合物。

特別是對Cas9來說，第二個(gè)反式激活CRISPR RNA（tracrRNA）與crRNA形成雙鏈，從而產(chǎn)生一個(gè)完整的引導(dǎo)RNA（gRNA）。

在細(xì)菌和古生物中發(fā)現(xiàn)了多種多樣的CRISPR-Cas系統(tǒng)，例如基于Cas12或Cas13的系統(tǒng)，它們分別以DNA和RNA為靶向。

研究人員從公共宏基因組和基因組序列中提取的72831個(gè)CRISPR-Cas基因座上微調(diào)Evo，為Cas9，Cas 12和Cas 13添加特殊的提示token，這些標(biāo)記被預(yù)先添加到每個(gè)訓(xùn)練序列的開頭。

在采樣過程中，這些token通過提示相應(yīng)的特殊token知道特定CRISPR-Cas系統(tǒng)類型的生成。

使用這三種Cas token提示中的每一種對8-kb序列進(jìn)行采樣，會產(chǎn)生包含Cas編碼序列和CRISPR陣列的相干世代。

如果Evo代包含了用MinCED包檢測的CRISPR陣列，以及用Cas9、Cas 12或Cas 13特征隱藏馬爾科夫模型（pHMM）返回的陽性命中開放閱讀框架（ORF），則將其分類為Cas9、Cas 12或Cas 13序列。

與訓(xùn)練數(shù)據(jù)集的序列比對顯示，一些用Cas9 pHMM預(yù)測的ORF與最接近的天然Cas9的蛋白質(zhì)序列同一性也小于40%。

作者還發(fā)現(xiàn)，與僅在CRISPR-Cas序列上訓(xùn)練的模型相比，在CRISPR-Cas基因座上微調(diào)的Evo模型在所有Cas亞型上產(chǎn)生的世代質(zhì)量更高、更多樣化。

下圖E展示的是，通過pHNMR和CRISPR ncRNA預(yù)測算法確定在II型CRISPR系統(tǒng)中，EvoCas9-1基因中發(fā)現(xiàn)的核心蛋白編碼基因和ncRNA組分。

F是在于同源sgRNA和InM DNA靶向10:10:1摩爾比Cas9:sgRNA:target孵育后SpCas 9和EvoCas 9 -1切割反應(yīng)的時(shí)程結(jié)果。

EvoCas 9 -1氨基酸序列與用于模型微調(diào)的Cas蛋白數(shù)據(jù)庫中，最接近的Cas9具有79.9%的同一性，與SpCas 9具有73.1%的同一性。

盡管EvoCas 9 -1的預(yù)測骨架結(jié)構(gòu)類似于SpCas 9骨架結(jié)構(gòu)，但EvoCas 9 -1的預(yù)測結(jié)構(gòu)表現(xiàn)出更正的表面電荷分布。

另外，來自SpCas 9晶體結(jié)構(gòu)分離的sgRNA結(jié)構(gòu)和通過AlphaFold 3模型預(yù)測的EvoCas 9 -1 sgRNA的結(jié)構(gòu)，顯示出RNA二級結(jié)構(gòu)的強(qiáng)烈一致性。

EvoCas 9 -1的AlphaFold 3共折疊結(jié)構(gòu)預(yù)測在其蛋白質(zhì)、RNA和DNA組分中，得到了平均高達(dá)90的pLDDT評分。

轉(zhuǎn)座子系統(tǒng)的生成設(shè)計(jì)

除了分子復(fù)合物，Evo還學(xué)習(xí)多基因系統(tǒng)的基本模式。

可動遺傳因子（MGEs）通常包含多個(gè)基因的生物系統(tǒng)，并且在生命的所有領(lǐng)域中被發(fā)現(xiàn)。

它們的伺機(jī)傳播推動了序列變異，新基因功能、甚至是物種的形成。

MGE的IS200/IS605家族通過同源二聚體轉(zhuǎn)座酶TnpA與元件左端和右端處的末端發(fā)夾相互作用，催化出「剝離-粘貼」轉(zhuǎn)座來傳播。

插入序列（IS）從單鏈DNA（ssDNA）中切除，形成含有RE-LE結(jié)的環(huán)狀產(chǎn)物，作為插入到新的ssDNA目標(biāo)位點(diǎn)的中間產(chǎn)物。

IS605元件還含有RNA引導(dǎo)的TnpB核酸酶和同源的ωRNA，它們偏向于轉(zhuǎn)座元件的自私遺傳。

研究人員基于10720個(gè)IS 605元件和219866個(gè)IS 200元件天然序列背景下微調(diào)Evo。

接下來，他們計(jì)算了自然IS 200/IS 605基因座上每個(gè)位置的條件概率的熵，并觀察到熵的急劇和持續(xù)增加，特別是與元素3'端相對應(yīng)，這表明了Evo學(xué)會了MGE邊界的表示。

使用特殊的提示token，研究人員使用微調(diào)模型來生成IS200或IS605元素。

在這些生成序列內(nèi)檢測到TnpA和TnpB蛋白質(zhì)在訓(xùn)練集中，最接近實(shí)力的距離上變化很大，對于訓(xùn)練集中大于40%至50%同一性的預(yù)測結(jié)構(gòu)具有一致的高ESMFold pLDDT值。

而且，序列長度分布與訓(xùn)練集中蛋白質(zhì)緊密匹配。

為了選擇用于實(shí)驗(yàn)驗(yàn)證的序列，作者通用與天然系統(tǒng)（ISSpn 6、ISStin 10、ISHp 608和ISDge 10）的相似性以及TnpA蛋白水平和DNA序列水平特征進(jìn)行過濾，并在體外實(shí)驗(yàn)測試了24種IS200樣和24種IS605樣的設(shè)計(jì)。

然后，作者通過將體外轉(zhuǎn)錄產(chǎn)生的TnpA蛋白與含有假定左右端的ssDNA孵育，然后用外向引物進(jìn)行聚合酶鏈反應(yīng) (PCR)，以檢測TnpA介導(dǎo)的切除和插入。

如果發(fā)生切除，RE-LE結(jié)的形成會產(chǎn)生一條帶。如果供體含有其他目標(biāo)位點(diǎn)，并且也發(fā)生了插入，則通過相同的PCR反應(yīng)，在兩個(gè)ssDNA底物連接處產(chǎn)生條帶。

研究人員觀察到，24個(gè)Evo生成IS200樣元中有11個(gè)和24個(gè)Evo生成的IS605樣元中，有3個(gè)在體外顯示了切除和插入的證據(jù)。

這種活性還依賴于一個(gè)假定的催化酪氨酸的存在，以及ssDNA底物而不是雙鏈DNA（dsDNA），這與已知的IS200/IS605 TnpA機(jī)制一致。

為了確定每個(gè)元件的精確邊界，研究人員對PCR產(chǎn)物進(jìn)行了納米孔測序。

作為對照，他們還檢測了天然IS200元件ISSpn6和IS605元件ISHp608，在這兩種情況下，都成功地檢測到了ISFinder標(biāo)注的邊界。

在生成的元件中，有三個(gè)似乎也能利用一對以上的左端或右端進(jìn)行移動。含有推定TnpB編碼序列的類IS605功能元件，還含有與已知ωRNAs構(gòu)建的協(xié)方差模型顯著匹配（cmsearch E值小于0.001）的序列。

從整體上看，14個(gè)活性元件使用了一組不同的發(fā)夾，編碼的功能性TnpA蛋白與微調(diào)數(shù)據(jù)庫的序列同一性低至67%。

通過長基因組上下文學(xué)習(xí)基因

在第二階段的預(yù)訓(xùn)練中，Evo處理了具有131,072個(gè)token上下文的序列，其中還包含物種特異性token。

結(jié)果顯示，Evo在其131,072長度的上下文中，保持了單核苷酸分辨率。

這一點(diǎn)很重要，因?yàn)槿绻麊蝹€(gè)核苷酸突變破壞了該基因的表達(dá)或功能，也可能導(dǎo)致生命無法維持。

研究人員在給定生物體基因組中每個(gè)編碼序列的開始處，插入提前終止密碼子，并測量這些變化對Evo似然值相對于野生型序列似然值的影響。

可以觀察到，在66k上下文下，Evo對數(shù)似然值的變化與58個(gè)基因組中的49個(gè)基因必要性顯著相關(guān)。

此外還可觀察到，為模型提供超出基因序列的額外基因組上下文會帶來性能的顯著提升，尤其是從僅基因上下文到8k上下文。

從8k到66k上下文，平均預(yù)測性能相當(dāng)，盡管在較低范圍的樣本上，性能確實(shí)隨著更長的上下文而提高。

對于一些基因組，66k上下文的zero-shot性能特別強(qiáng)，在lambda噬菌體必要性數(shù)據(jù)上AUROC達(dá)到0.90，在銅綠假單胞菌必要性數(shù)據(jù)上AUROC達(dá)到0.84。

在使用不同的計(jì)算機(jī)模擬突變策略時(shí)，如改變插入終止密碼子的數(shù)量或完全刪除基因序列，Evo似然值的變化也能指示基因必要性。

在基因組規(guī)模上生成DNA序列

研究人員使用Evo采樣生成了16個(gè)各約含1 Mb的序列，這是模型131 kb上下文長度的七倍多。相比之下，「最小」的細(xì)菌基因組長度約為580 kb。

使用訓(xùn)練數(shù)據(jù)集中的物種級標(biāo)記來提示模型生成細(xì)菌基因組

結(jié)果顯示，Evo生成的編碼序列密度與自然基因組幾乎相同，且明顯高于隨機(jī)序列。

通過可視化觀察，自然序列和生成序列都顯示出相似的編碼組織模式，鄰近的序列通常具有相同的鏈方向；在細(xì)菌中，這些緊密相連的編碼序列組通常對應(yīng)于功能相關(guān)的基因簇或操縱子。

使用ESMFold對這些編碼序列進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測時(shí)，幾乎所有序列都展現(xiàn)出了二級結(jié)構(gòu)和球狀折疊。而且，很多蛋白質(zhì)還展現(xiàn)出了與天然蛋白相似的結(jié)構(gòu)。

在生成的所有約16 Mb序列中，Evo還能夠生成128個(gè)tRNA序列，其反密碼子對應(yīng)于所有經(jīng)典氨基酸。

進(jìn)一步觀察可以發(fā)現(xiàn)，包括GC含量、雙核苷酸頻率和某些密碼子使用模式在內(nèi)的各種基因組范圍序列模式，與隨機(jī)序列相比都更接近自然基因組。

在準(zhǔn)確性方面，Evo的物種特異性生成序列與其對應(yīng)的自然參考序列之間存在強(qiáng)相關(guān)性，四核苷酸使用偏差（TUDs）的準(zhǔn)確度足以重建生成序列間的自然系統(tǒng)發(fā)育關(guān)系。

此外，TGA和TAA終止密碼子出現(xiàn)頻率最高，而TAG最少見，這與之前在原核生物基因組中觀察到的模式一致。相比之下，隨機(jī)序列顯示出均勻分布的終止密碼子比例。

這些分析共同表明，Evo生成的序列捕捉到了自然原核生物基因組特有的多層基因組特征。

然而，也存在一些不自然的特征。

首先，生成的序列不含有許多通常表明完整基因組的高度保守標(biāo)記基因，在約16 Mb的樣本序列中，Evo僅生成了三個(gè)rRNA。

其次，很多蛋白質(zhì)結(jié)構(gòu)預(yù)測的可信度較低，偏向于進(jìn)化上較簡單的α-螺旋型二級結(jié)構(gòu)，且與自然蛋白質(zhì)代表性數(shù)據(jù)庫中的任何條目的結(jié)構(gòu)匹配度有限。

目前能力有限，未來潛力無限

一個(gè)能在基因組層面設(shè)計(jì)的模型，顯然有潛力推進(jìn)治療發(fā)現(xiàn)，拓寬我們對基礎(chǔ)生物學(xué)的理解。

現(xiàn)在，球基因組與健康聯(lián)盟（GA4GH）已制定了基因工程技術(shù)監(jiān)管原則。

研究人員表示，已開源該模型促進(jìn)透明度，同時(shí)采取措施，將真核病毒排除在了預(yù)訓(xùn)練數(shù)據(jù)集之外。

盡管這個(gè)第一代DNA基礎(chǔ)模型能力顯著，但仍有一些限制。

比如，研究人員僅僅是在3000億個(gè)原核生物token上預(yù)訓(xùn)練了Evo，僅占公開可用基因組數(shù)據(jù)中的極小部分。

另外，由于模型僅在原核生物數(shù)據(jù)上訓(xùn)練，在預(yù)測突變對人類蛋白質(zhì)適應(yīng)度的功能影響時(shí)就能力有限。

而且與自然語言模型類似，Evo在保持長序列的連貫性和多樣性方面也面臨挑戰(zhàn)。

比如許多CRISPR-Cas生成結(jié)果存在明顯問題，如缺失或截?cái)嗟腸as基因。

在基因組層面上，雖然Evo生成的兆堿基長序列展示了對基因組組織的高層次理解，但在包含關(guān)鍵標(biāo)記基因（如完整的rRNA集）方面仍有困難。

LLM也遇到了相似限制，通過增加參數(shù)、標(biāo)記數(shù)據(jù)、prompt工程和人類偏好對齊一一改進(jìn)，因此DNA模型或許也會遵循類似軌跡。

最后研究人員展望：Evo有望成為下一代序列搜索算法的基礎(chǔ)，將生物工程和設(shè)計(jì)的范圍擴(kuò)展到整個(gè)基因組的尺度。

參考資料：

https://www.science.org/doi/10.1126/science.ado9336

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn)，不代表創(chuàng)業(yè)邦立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。

城市進(jìn)化論

3

訂閱服務(wù)

特別推薦

睿獸分析
開店邦
友情合作

法律相關(guān)

版權(quán)聲明
協(xié)議中心

愛奇清科（北京）信息科技有限公司地址：北京市朝陽區(qū)麗澤西街東湖國際中心A座7層 | 網(wǎng)絡(luò)文化經(jīng)營許可證（京網(wǎng)文[2018]2153-213號）

違法和不良信息舉報(bào)電話：010-53391121 舉報(bào)郵箱：db@cyzone.cn

京公網(wǎng)安備 11010502035114號

營業(yè)執(zhí)照出版物經(jīng)營許可證

反饋

聯(lián)系我們

推薦訂閱

五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97