近日,Elevenlabs宣布在最新一輪融資中成功籌集8000萬美元,公司估值飆升至11億美元(約79.31億元人民幣),正式躋身獨角獸行列。
這筆資金由知名風(fēng)投公司AndreessenHorowitz、企業(yè)家Nat Friedman和Daniel Gross領(lǐng)投,紅杉資本(SequoiaCapital)等參投。
從創(chuàng)立到躋身獨角獸,ElevenLabs僅花了兩年時間。根據(jù)官方博客提供的數(shù)據(jù),自產(chǎn)品發(fā)布以來,ElevenLabs 用戶生成的音頻內(nèi)容已經(jīng)超過了過去 100 年生產(chǎn)的音頻,而公司員工也從 5 人增加到了 40 名,41% 的財富 500 強公司的員工都正使用 ElevenLabs 技術(shù)。
不僅是在AI領(lǐng)域,在世界經(jīng)濟(jì)論壇,ElevenLabs也同樣大放光彩:早在幾天前,阿根廷總統(tǒng)米萊在達(dá)沃斯現(xiàn)場的演講刷爆朋友圈,除了內(nèi)容本身,AI 翻譯以及他的克隆語音實時播報,抓住了全世界的眼球。
背后技術(shù)支持,其一便來自ElevenLabs。(畫面支持為HeyGen,前不久剛完成560萬美金的新一輪融資,睿獸分析也做了視頻報道,可關(guān)注【睿獸分析】查看項目詳情)
公布B 輪融資同時,ElevenLabs 還公布了幾項即將推出的新產(chǎn)品開發(fā):
l新的配音工作室(Dubbing Studio)工作流程使用戶能夠為整部電影配音,并生成及編輯劇本、翻譯和時間碼,從而對內(nèi)容生產(chǎn)有更多的控制權(quán)。
l語音庫市場(Voice Library marketplace)將為用戶提供一個安全的平臺,讓他們能夠從自己的 AI 版本聲音中獲得收入。用戶可以創(chuàng)建他們的專業(yè) AI 語音副本,進(jìn)行驗證,并通過語音庫分享。當(dāng)其他用戶使用這些經(jīng)過驗證的聲音時,原始創(chuàng)作者將獲得報酬。用戶始終保留對其語音可用性和報酬條款的控制權(quán)。市場已經(jīng)為一小部分最開始的用戶帶來了收入。
l移動應(yīng)用閱讀器(Mobile App reader)的早期預(yù)覽版可以將文本和 URL 即時轉(zhuǎn)換為音頻,使用戶在移動端更容易獲取內(nèi)容。
一、
ElevenLabs于2022年由前谷歌機器學(xué)習(xí)工程師Piotr Dabkowski和前Palantir部署策略師Mati Staniszewski共同創(chuàng)立,是一個基于瀏覽器的語音生成應(yīng)用,能夠創(chuàng)建逼真的語音,并可調(diào)整語調(diào)、情感、節(jié)奏等關(guān)鍵聲音特征。
Staniszewski和Dabkowski在波蘭長大,受到翻譯不佳的美國電影的啟發(fā),決定創(chuàng)造語音克隆工具,他們認(rèn)為AI可以做得更好。
ElevenLabs主要的AI語音產(chǎn)品包括文本到語音轉(zhuǎn)換的語音合成工具、用于創(chuàng)建定制聲音的聲音設(shè)計和克隆工具、以及將一種聲音轉(zhuǎn)換為另一種聲音的語音到語音工具Speech Synthesis:選擇特定語音將文字轉(zhuǎn)換為音頻。
lVoiceLab:用戶能夠克隆自己的聲音或者從Voice Library庫中下載聲音,它可以從長度超過1分鐘的清晰的樣本錄音中生成某人的聲音。
lProjects需要付費訂閱,可用于編輯和創(chuàng)建長文本內(nèi)容的工作流引擎,可生成對話片段甚至有聲讀物。
lPrime VoicedAI是一款真實、多功能的人工智能語音軟件,背后的人工智能模型能掌握詞語背后的邏輯和情感,它不會逐一生成句子,而是會注意每句話與前后文本的聯(lián)系。這種處理方式能夠使AI有目的地吟誦更長的片段。
ElevenLabs的客戶除了個人使用者,還包括出版、游戲、媒體和對話式垂直領(lǐng)域的公司機構(gòu),如瑞典電子游戲開發(fā)及發(fā)行公司Paradox Interactive、華盛頓郵報、有聲讀物平臺Storytel、數(shù)字媒體出版商TheSoul、對話式 AI FlowGPT等。
二、
盡管ElevenLabs絕大多數(shù)被應(yīng)用于積極用途,但也出現(xiàn)了越來越多的語音克隆濫用案例。這項技術(shù)不僅能允許用戶克隆自己的聲音。還有能力克隆任何公眾人物的聲音,演員、CEO、政客等。你可以讓他們說出你想說的任何話,這構(gòu)成了巨大的風(fēng)險。
對此,ElevenLabs在2023年6月推出ElevenLabsAI語音分類器以提高AI生成的音頻內(nèi)容的安全標(biāo)準(zhǔn)。這種首創(chuàng)的驗證機制可讓用戶上傳任何音頻樣本,以識別它是否包含ElevenLabsAI生成的音頻。視不同情況而定,目前該項技術(shù)的準(zhǔn)確率基本維持在90%以上。
這次發(fā)布的面向社區(qū)的產(chǎn)品Voice Library marketplace,也是Elevenlabs負(fù)責(zé)任地開發(fā)AI而做的努力。以前Voice Library僅限于使用聲音設(shè)計工具創(chuàng)建的人工聲音,現(xiàn)在語音庫允許用戶共享他們使用專業(yè)聲音克隆技術(shù)制作的經(jīng)過驗證的聲音副本,并在語音庫市場中使用這些聲音賺錢。
在共享聲音之前,用戶必須通過閱讀特定時間內(nèi)的文本提示來通過語音驗證碼驗證,以確認(rèn)他們的聲音與訓(xùn)練樣本匹配。這一過程,加上 ElevenLabs 團(tuán)隊的審核和手動批準(zhǔn),確保了真實、經(jīng)用戶驗證的聲音被共享和貨幣化,創(chuàng)造了一個更安全、更值得信賴的環(huán)境。
ElevenLabs在人工智能語音領(lǐng)域面臨著來自O(shè)penAI、亞馬遜、微軟和谷歌等大型科技公司的競爭。還有像Tortoise和Bark這樣的開源TTS模型,但根據(jù)用戶反饋,Tortoise生成速度慢,Bark音質(zhì)參差,目前很難商用。
在快速增長的AI語音市場上,ElevenLabs正在領(lǐng)跑,期待它的新故事。