獵戶星空用AI技術(shù)克隆了一個“傅盛”

傅盛·2018-11-06

獵戶星空

北京人工智能

語音交互技術(shù)及智能機(jī)器人研發(fā)商

最近融資：C輪|3.69億人民幣|2016-09-19

我要聯(lián)系

獵戶語音OS技術(shù)在中國智能音箱市場上占有的市場份額已經(jīng)超過30%。

每個人都想擁有一臺屬于自己的專屬機(jī)器人。如果只需要錄制幾段話，你就可以定制一款和自己聲音一樣的機(jī)器人，想不想要？

這項技術(shù)來自我兩年前創(chuàng)立的公司——獵戶星空。只需10段話，獵戶星空的TTS技術(shù)就可復(fù)制一個人的聲音。

我的同事用獵戶TTS技術(shù)復(fù)制了一個我的聲音。你們感受一下？（創(chuàng)業(yè)邦注：由于視頻無法播放，請自行搜索觀看）

視頻來自傅盛抖音號@陪你搬磚的傅盛

歡迎搜索抖音號：fstalk關(guān)注喔~

或許，大家對這項技術(shù)還不是很了解，也不了解行業(yè)其他人做的如何？以及獵戶有什么不一樣？下面我分享幾點(diǎn)看法：

1.首先，何謂TTS技術(shù)？

我曾經(jīng)有一個觀點(diǎn)，語音交互將會是繼鍵盤輸入，觸摸屏之后的又一革命性的交互方式。語音交互將成為未來人機(jī)交互的主要方式，而TTS就是語音交互時代的產(chǎn)品界面。用戶記住一款產(chǎn)品，除了功能，就是界面，所以獵戶在創(chuàng)立之初，就高度重視TTS技術(shù)的自研和產(chǎn)品創(chuàng)新。

簡單概括，人與機(jī)器的語音交互方式分為兩種：一種是機(jī)器能聽懂人說什么，即“語音識別”；另一種是機(jī)器能開口說話，即“語音合成”（TTS，Text-To-Speech），也就是將文字轉(zhuǎn)為聲音，類似于人類的嘴巴。比如語音助手、智能音箱、服務(wù)機(jī)器人等，也就是你生活中會用到的Siri和導(dǎo)航中的志玲姐姐等等。

現(xiàn)在，獵戶星空的TTS采用了業(yè)界最新的深度神經(jīng)網(wǎng)絡(luò)端到端的語音合成技術(shù)，在此基礎(chǔ)上，訓(xùn)練了大語料庫的語音庫作為基礎(chǔ)模型，只需錄制10段話，提取出真人發(fā)音的特征后，通過Adapt自適應(yīng)模型，建模發(fā)音人的發(fā)音特征，最后通過world聲碼器合成出與真人的發(fā)音、音色相同的語音。

目前，該技術(shù)只有微軟，科大訊飛官方推出應(yīng)用。不久，我們的官方應(yīng)用也會上線，用戶只需錄制10段話，就可快速復(fù)刻屬于自己的AI聲音。

2.與同行相比，獵戶星空家的TTS技術(shù)有什么不一樣嗎？

其實，當(dāng)下行業(yè)各家公司的TTS產(chǎn)品效果差不多，均可達(dá)到在特定場景商用的效果。但，與真人發(fā)音有一定差距，用戶在聽感上還是會有機(jī)械感。

如果用戶留心會發(fā)現(xiàn)，這些機(jī)器人雖然能自然對話，但聽起來，你仍然會覺得它就是一個有點(diǎn)機(jī)械的、冰冷的機(jī)器人。

也因此，如何給用戶更自然、更舒服、更像人聲的對話體驗？怎樣更好地將TTS技術(shù)產(chǎn)品化？這是我跟獵戶星空的產(chǎn)品技術(shù)同學(xué)一直思考的問題。我不希望——他們因為盲目迷戀技術(shù)，而忽略了“用戶體驗才是產(chǎn)品的核心”。我給他們定了一個目標(biāo)——要讓獵戶的TTS成為這個星球最溫暖的AI聲音。

為此，當(dāng)獵戶TTS第一次以小雅智能音箱里的“小雅”面向用戶時，我們就付出了很多努力，并在獵戶TTS的打磨上花了很多心血。

首先，嚴(yán)格把關(guān)聲音訓(xùn)練樣本。我們不僅會考慮聲音本身好聽，錄音中的語氣、語調(diào)、發(fā)音標(biāo)準(zhǔn)上都要嚴(yán)格把控，保證極致的完成，達(dá)到還原最好的聲音效果。

其次，在技術(shù)的實現(xiàn)上，為了讓小雅的聲音更有情感，我們沒有用最先進(jìn)省力的技術(shù)，而是真正從用戶角度出發(fā)，從聲音效果和體驗出發(fā)，選擇了拼接法（TTS主流技術(shù)實現(xiàn)主要有兩種：拼接法和參數(shù)法，前者相比后者，需要的數(shù)據(jù)量更大，且消耗的人力物力和周期更長，成本也更高）。

其中，最難的是中英文混合TTS。因為，一般的合成中，中文錄音是一批人，英文錄音又是另一批人。兩種語言結(jié)合起來，再用機(jī)器學(xué)習(xí)去學(xué)，出來的聲音就會很奇怪。

后來，費(fèi)盡千辛萬苦，我們終于找到了一個能夠和中文發(fā)音很像的女孩子，錄了很多英語聲音樣本。所有這一切努力，只為了讓用戶在體驗上感受不到差別，始終能給用戶一致的、溫暖的對話體驗。

欣慰的是，獵戶TTS一經(jīng)推出，就在業(yè)界廣受好評。也基于此，我們繼續(xù)打磨了最萌童聲?，F(xiàn)在，除了成人女聲外，獵戶TTS也能提供最溫暖最萌的童聲體驗。

有時，別人老問，你們獵戶星空的TTS聲音為啥能有這樣的效果？技術(shù)本身的積累和突破是非常重要的部分；當(dāng)大家技術(shù)水平都在差不多的量級時，更多的功夫還體現(xiàn)在對用戶和產(chǎn)品的理解，以及對細(xì)節(jié)的嚴(yán)苛打磨。我們的優(yōu)勢就在于此——團(tuán)隊多年積累的互聯(lián)網(wǎng)產(chǎn)品基因，以及對用戶體驗的極度重視和極致打磨。

3.最后，秀秀肌肉吧，其實也是我們過去取得的一點(diǎn)點(diǎn)成績：）

兩年時間，獵戶星空的語音技術(shù)已經(jīng)遍地開花，分別接入小米小愛同學(xué)、喜馬拉雅小雅音箱、美的小美AI音箱、獵豹AI音箱等智能AI產(chǎn)品中，累計激活設(shè)備超過3000萬，每天線上語音指令超過2000萬次，擁有上百萬小時遠(yuǎn)場語音數(shù)據(jù)積累。

還是可以當(dāng)之無愧地說，獵戶星空的語音交互技術(shù)（包括TTS），支撐起了中國智能音箱市場的大半壁江山：）事實上，獵戶語音OS技術(shù)在中國智能音箱市場上占有的市場份額已經(jīng)超過30%。

不久前，中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟（AIIA）公布了國內(nèi)智能音箱智能化評級結(jié)果，獵豹的小豹AI音箱與小米、喜馬拉雅、百度和京東的四款智能音箱成為“五強(qiáng)”。五強(qiáng)中，我們占了三強(qiáng)。其中三款音箱分別為——小豹AI音箱、小雅音箱和小米智能音箱，都使用了獵戶星空的TTS技術(shù)。

就在一周前，華為發(fā)布首款智能音箱，這款音箱也采用了獵戶星空的語音合成技術(shù)。

PS:錘子新品發(fā)布會上，羅永浩也將發(fā)布使用獵戶星空TTS技術(shù)的新產(chǎn)品。猜猜會是什么？