每個人都想擁有一臺屬于自己的專屬機器人。如果只需要錄制幾段話,你就可以定制一款和自己聲音一樣的機器人,想不想要?
這項技術(shù)來自我兩年前創(chuàng)立的公司——獵戶星空。只需10段話,獵戶星空的TTS技術(shù)就可復(fù)制一個人的聲音。
我的同事用獵戶TTS技術(shù)復(fù)制了一個我的聲音。你們感受一下?(創(chuàng)業(yè)邦注:由于視頻無法播放,請自行搜索觀看)
視頻來自傅盛抖音號@陪你搬磚的傅盛
歡迎搜索抖音號:fstalk關(guān)注喔~
或許,大家對這項技術(shù)還不是很了解,也不了解行業(yè)其他人做的如何?以及獵戶有什么不一樣?下面我分享幾點看法:
1.首先,何謂TTS技術(shù)?
我曾經(jīng)有一個觀點,語音交互將會是繼鍵盤輸入,觸摸屏之后的又一革命性的交互方式。語音交互將成為未來人機交互的主要方式,而TTS就是語音交互時代的產(chǎn)品界面。用戶記住一款產(chǎn)品,除了功能,就是界面,所以獵戶在創(chuàng)立之初,就高度重視TTS技術(shù)的自研和產(chǎn)品創(chuàng)新。
簡單概括,人與機器的語音交互方式分為兩種:一種是機器能聽懂人說什么,即“語音識別”;另一種是機器能開口說話,即“語音合成”(TTS,Text-To-Speech),也就是將文字轉(zhuǎn)為聲音,類似于人類的嘴巴。比如語音助手、智能音箱、服務(wù)機器人等,也就是你生活中會用到的Siri和導(dǎo)航中的志玲姐姐等等。
現(xiàn)在,獵戶星空的TTS采用了業(yè)界最新的深度神經(jīng)網(wǎng)絡(luò)端到端的語音合成技術(shù),在此基礎(chǔ)上,訓(xùn)練了大語料庫的語音庫作為基礎(chǔ)模型,只需錄制10段話,提取出真人發(fā)音的特征后,通過Adapt自適應(yīng)模型,建模發(fā)音人的發(fā)音特征,最后通過world聲碼器合成出與真人的發(fā)音、音色相同的語音。
目前,該技術(shù)只有微軟,科大訊飛官方推出應(yīng)用。不久,我們的官方應(yīng)用也會上線,用戶只需錄制10段話,就可快速復(fù)刻屬于自己的AI聲音。
2.與同行相比,獵戶星空家的TTS技術(shù)有什么不一樣嗎?
其實,當(dāng)下行業(yè)各家公司的TTS產(chǎn)品效果差不多,均可達到在特定場景商用的效果。但,與真人發(fā)音有一定差距,用戶在聽感上還是會有機械感。
如果用戶留心會發(fā)現(xiàn),這些機器人雖然能自然對話,但聽起來,你仍然會覺得它就是一個有點機械的、冰冷的機器人。
也因此,如何給用戶更自然、更舒服、更像人聲的對話體驗?怎樣更好地將TTS技術(shù)產(chǎn)品化?這是我跟獵戶星空的產(chǎn)品技術(shù)同學(xué)一直思考的問題。我不希望——他們因為盲目迷戀技術(shù),而忽略了“用戶體驗才是產(chǎn)品的核心”。我給他們定了一個目標——要讓獵戶的TTS成為這個星球最溫暖的AI聲音。
為此,當(dāng)獵戶TTS第一次以小雅智能音箱里的“小雅”面向用戶時,我們就付出了很多努力,并在獵戶TTS的打磨上花了很多心血。
首先,嚴格把關(guān)聲音訓(xùn)練樣本。我們不僅會考慮聲音本身好聽,錄音中的語氣、語調(diào)、發(fā)音標準上都要嚴格把控,保證極致的完成,達到還原最好的聲音效果。
其次,在技術(shù)的實現(xiàn)上,為了讓小雅的聲音更有情感,我們沒有用最先進省力的技術(shù),而是真正從用戶角度出發(fā),從聲音效果和體驗出發(fā),選擇了拼接法(TTS主流技術(shù)實現(xiàn)主要有兩種:拼接法和參數(shù)法,前者相比后者,需要的數(shù)據(jù)量更大,且消耗的人力物力和周期更長,成本也更高)。
其中,最難的是中英文混合TTS。因為,一般的合成中,中文錄音是一批人,英文錄音又是另一批人。兩種語言結(jié)合起來,再用機器學(xué)習(xí)去學(xué),出來的聲音就會很奇怪。
后來,費盡千辛萬苦,我們終于找到了一個能夠和中文發(fā)音很像的女孩子,錄了很多英語聲音樣本。所有這一切努力,只為了讓用戶在體驗上感受不到差別,始終能給用戶一致的、溫暖的對話體驗。
欣慰的是,獵戶TTS一經(jīng)推出,就在業(yè)界廣受好評。也基于此,我們繼續(xù)打磨了最萌童聲?,F(xiàn)在,除了成人女聲外,獵戶TTS也能提供最溫暖最萌的童聲體驗。
有時,別人老問,你們獵戶星空的TTS聲音為啥能有這樣的效果?技術(shù)本身的積累和突破是非常重要的部分;當(dāng)大家技術(shù)水平都在差不多的量級時,更多的功夫還體現(xiàn)在對用戶和產(chǎn)品的理解,以及對細節(jié)的嚴苛打磨。我們的優(yōu)勢就在于此——團隊多年積累的互聯(lián)網(wǎng)產(chǎn)品基因,以及對用戶體驗的極度重視和極致打磨。
3.最后,秀秀肌肉吧,其實也是我們過去取得的一點點成績:)
兩年時間,獵戶星空的語音技術(shù)已經(jīng)遍地開花,分別接入小米小愛同學(xué)、喜馬拉雅小雅音箱、美的小美AI音箱、獵豹AI音箱等智能AI產(chǎn)品中,累計激活設(shè)備超過3000萬,每天線上語音指令超過2000萬次,擁有上百萬小時遠場語音數(shù)據(jù)積累。
還是可以當(dāng)之無愧地說,獵戶星空的語音交互技術(shù)(包括TTS),支撐起了中國智能音箱市場的大半壁江山:)事實上,獵戶語音OS技術(shù)在中國智能音箱市場上占有的市場份額已經(jīng)超過30%。
不久前,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(AIIA)公布了國內(nèi)智能音箱智能化評級結(jié)果,獵豹的小豹AI音箱與小米、喜馬拉雅、百度和京東的四款智能音箱成為“五強”。五強中,我們占了三強。其中三款音箱分別為——小豹AI音箱、小雅音箱和小米智能音箱,都使用了獵戶星空的TTS技術(shù)。
就在一周前,華為發(fā)布首款智能音箱,這款音箱也采用了獵戶星空的語音合成技術(shù)。
PS:錘子新品發(fā)布會上,羅永浩也將發(fā)布使用獵戶星空TTS技術(shù)的新產(chǎn)品。猜猜會是什么?