當(dāng)AI對(duì)話系統(tǒng)像自動(dòng)駕駛一樣分級(jí)，誰能率先跑出L5？

中科創(chuàng)星·2022-07-06

ee

北京移動(dòng)互聯(lián)網(wǎng)

面向女生的新一代場(chǎng)景社交

最近融資：|2016-01-06

當(dāng)智能音箱中的“小愛”、“小度”回應(yīng)你時(shí)，它是否理解你說的意思？如何判斷人工智能助手是否聰明、好用？這些聲音背后究竟是什么技術(shù)在支撐？

1950年，英國計(jì)算機(jī)科學(xué)家阿蘭·圖靈提出著名的思想實(shí)驗(yàn)——圖靈測(cè)試，預(yù)言了創(chuàng)造出具有真正智能的機(jī)器的可能性，成為隨后半個(gè)多世紀(jì)科學(xué)家們用來判斷機(jī)器是否能夠思考的重要標(biāo)準(zhǔn)。

圖靈測(cè)試的核心，是考察目標(biāo)的自然語言處理能力，如果說自然語言處理是人工智能“皇冠上的明珠”，那么AI對(duì)話系統(tǒng)則是自然語言處理中最難、最核心的任務(wù)之一，是“明珠中最亮的那顆”，是支撐起無數(shù)的“小愛”、“小度”、Siri等語音助手背后的基礎(chǔ)以及核心。

然而，作為前沿技術(shù)，當(dāng)前學(xué)術(shù)界與產(chǎn)業(yè)界并未對(duì)AI對(duì)話系統(tǒng)形成標(biāo)準(zhǔn)認(rèn)同，這造成其在應(yīng)用中呈現(xiàn)出水平參差不齊、評(píng)價(jià)體系不一的現(xiàn)狀，導(dǎo)致業(yè)界因認(rèn)知不統(tǒng)一而對(duì)人工智能交互水平出現(xiàn)誤解，也引起了社會(huì)上關(guān)于意識(shí)、倫理、道德等方面的廣泛討論。

人工智能專家Sandeep Rajani教授所著《人工智能：人或機(jī)器》一書中，作者將人工智能水平和人類能力進(jìn)行橫向?qū)Ρ?，劃分成四個(gè)不同等級(jí)：巔峰級(jí)（已經(jīng)實(shí)現(xiàn)了人類無法超越的最優(yōu)能力）、超越人類級(jí)（比所有人類的能力都強(qiáng)）、強(qiáng)人類級(jí)（比大多數(shù)人類的能力強(qiáng)）、弱人類級(jí)（比大多數(shù)人類的能力弱）。盡管此標(biāo)準(zhǔn)對(duì)人工智能做出基本分類，但如此劃分面對(duì)不同領(lǐng)域的人工智能現(xiàn)狀卻存在一定難題。

以五子棋為例，在規(guī)則完備、策略空間較小的五子棋游戲中，人工智能已經(jīng)可以窮舉所有可能的對(duì)弈情況，確保與人類在任意對(duì)弈的情況下都能實(shí)現(xiàn)最優(yōu)方案，這種場(chǎng)景下其能力達(dá)到了巔峰級(jí)；但當(dāng)我們將人工智能技術(shù)放在駕駛汽車上，它的能力還不足以滿足所有復(fù)雜的路況和交通問題，呈現(xiàn)出弱人類級(jí)表現(xiàn)。

因此，在科學(xué)家未能實(shí)現(xiàn)通用的巔峰級(jí)人工智能之前，有必要對(duì)細(xì)分領(lǐng)域人工智能進(jìn)行進(jìn)一步分級(jí)定義，例如眾所周知的自動(dòng)駕駛等級(jí)劃分，便是由國際汽車工程師協(xié)會(huì)制定的自動(dòng)駕駛分類標(biāo)準(zhǔn)，但在AI對(duì)話系統(tǒng)領(lǐng)域，其分級(jí)定義始終是一片空白。

6月28日，清華大學(xué)智能技術(shù)系統(tǒng)實(shí)驗(yàn)室副主任黃民烈教授聯(lián)合華為諾亞方舟實(shí)驗(yàn)室、百度、小米、科大訊飛等二十多家企業(yè)、科研機(jī)構(gòu)的科學(xué)家共同制定了全球首個(gè)《AI對(duì)話系統(tǒng)分級(jí)定義》（以下簡(jiǎn)稱《分級(jí)定義》），通過對(duì)AI對(duì)話系統(tǒng)進(jìn)行更加科學(xué)的分類，為業(yè)界衡量AI對(duì)話系統(tǒng)的能力水平，促進(jìn)AI對(duì)話系統(tǒng)的進(jìn)一步研究，同時(shí)為工業(yè)界應(yīng)用提供參考，此次對(duì)AI系統(tǒng)的分級(jí)定義，或?qū)⑦M(jìn)一步助推國內(nèi)人工智能產(chǎn)業(yè)快速發(fā)展，并為技術(shù)發(fā)展明確未來方向。

AI對(duì)話系統(tǒng)分級(jí)定義，行業(yè)發(fā)展“里程碑”

《AI對(duì)話系統(tǒng)分級(jí)定義》首次明確指出，AI對(duì)話系統(tǒng)可以按照?qǐng)鼍?、?duì)話輪次、信息量、擬人化等標(biāo)準(zhǔn)，劃分為L(zhǎng)0-L5六個(gè)等級(jí)：

L0：實(shí)際對(duì)話由人給出，系統(tǒng)完全沒有自動(dòng)對(duì)話能力；或者在任意單一場(chǎng)景中，系統(tǒng)均無法給出較高質(zhì)量的對(duì)話。

L1：能完成單一場(chǎng)景的較高質(zhì)量對(duì)話；或雖能完成多個(gè)單一場(chǎng)景的較高質(zhì)量對(duì)話，但無法處理場(chǎng)景之間的上下文依賴。

L2：在L1的基礎(chǔ)上，能同時(shí)完成多個(gè)場(chǎng)景的較高質(zhì)量對(duì)話，具有處理跨場(chǎng)景的上下文依賴和自然切換能力，無法完成新場(chǎng)景較高質(zhì)量的對(duì)話。

L3：在L2的基礎(chǔ)上，能針對(duì)大量場(chǎng)景開展高質(zhì)量對(duì)話，在新場(chǎng)景上具有較高質(zhì)量對(duì)話能力。

L4：在L3的基礎(chǔ)上，在新場(chǎng)景上具有高質(zhì)量?jī)稉Q能力，在多輪交互中擬人化（指人設(shè)、人格、情感、觀點(diǎn)等多維度的一致性）程度較高。

L5：在L4的基礎(chǔ)上，在多輪交互中擬人化程度高，能在開放場(chǎng)景交互中主動(dòng)學(xué)習(xí)和持續(xù)學(xué)習(xí)，具有多模態(tài)感知和表達(dá)能力。

對(duì)于此《分級(jí)定義》的制定規(guī)則，清華大學(xué)智能技術(shù)系統(tǒng)實(shí)驗(yàn)室副主任黃民烈教授指出，考慮到AI對(duì)話系統(tǒng)任務(wù)繁多、評(píng)價(jià)維度多樣、技術(shù)路線豐富，因此撰寫時(shí)，研究小組在制定《分級(jí)定義》時(shí)僅關(guān)注完全由機(jī)器主導(dǎo)的對(duì)話系統(tǒng)，人機(jī)混合的對(duì)話系統(tǒng)不在考慮范圍內(nèi)。同時(shí)，為了在實(shí)際應(yīng)用中發(fā)揮價(jià)值，《分級(jí)定義》的制定是從用戶可感知，以及可觀察、可測(cè)量、可度量的角度出發(fā)，不考慮系統(tǒng)的具體技術(shù)實(shí)現(xiàn)方式，也不區(qū)分助理類任務(wù)、閑聊、知識(shí)對(duì)話等，均以“場(chǎng)景”進(jìn)行表述。

在上述原則之下，《分級(jí)定義》從自動(dòng)對(duì)話能力、對(duì)話質(zhì)量高低、單一/多個(gè)場(chǎng)景、跨場(chǎng)景的上下文依賴和自然切換能力、擬人化程度、主動(dòng)和持續(xù)學(xué)習(xí)能力、多模態(tài)感知與表達(dá)能力等角度出發(fā)，將AI對(duì)話系統(tǒng)劃分為從L0~L5的六個(gè)等級(jí)，等級(jí)越高，AI對(duì)話系統(tǒng)水平越高。

在此《分級(jí)定義》的標(biāo)準(zhǔn)之下，當(dāng)前AI對(duì)話系統(tǒng)水平最高已發(fā)展至L2~L3之間。小米技術(shù)委員會(huì)主任、AI實(shí)驗(yàn)室主任王斌教授指出，以“小愛同學(xué)”舉例，不但在單一場(chǎng)景可以完成高質(zhì)量，多個(gè)場(chǎng)景對(duì)話也能完成，已具備一定的跨場(chǎng)景的能力，而有了《分級(jí)定義》指導(dǎo)，將繼續(xù)在跨場(chǎng)景對(duì)話技術(shù)上發(fā)力，在新場(chǎng)景里做小樣本的學(xué)習(xí)讓“小愛同學(xué)”適應(yīng)新的場(chǎng)景的工作。在以智能手機(jī)為載體的智能語音助手中，“小愛同學(xué)”、三星Bixby、百度小度、華為小藝等語音助手如今已經(jīng)處于L2~L3等級(jí)定義下，并正在朝L4等級(jí)進(jìn)發(fā)。

圍繞此次共同探索出的AI對(duì)話系統(tǒng)分級(jí)定義，研究小組已制定出標(biāo)準(zhǔn)的數(shù)據(jù)集，并將推動(dòng)其成為行業(yè)認(rèn)可的標(biāo)準(zhǔn)規(guī)范，“就像亞馬遜的大獎(jiǎng)賽一樣，制定一套框架，一套數(shù)據(jù)，一套測(cè)試方法，把這個(gè)標(biāo)準(zhǔn)推進(jìn)下去?！秉S民烈教授提到，此次參與《分級(jí)定義》的二十多個(gè)機(jī)構(gòu)多位科學(xué)家和研究者，將進(jìn)一步撰寫詳細(xì)的白皮書，確定L4、L5等級(jí)之下的技術(shù)細(xì)節(jié)。

AI人機(jī)對(duì)話系統(tǒng)不但伴隨人工智能技術(shù)發(fā)展較長(zhǎng)時(shí)間，技術(shù)積累多，并且已在智能客服、語音助手等行業(yè)進(jìn)入到商用階段，在心理健康服務(wù)等領(lǐng)域也將進(jìn)入商用階段。從行業(yè)發(fā)展方式來看，自動(dòng)駕駛技術(shù)的等級(jí)劃分可以帶來啟發(fā)，由于自動(dòng)駕駛技術(shù)牽涉的廠家眾多，商用前景廣闊，因此由國際汽車工程學(xué)會(huì)確定了不同等級(jí)標(biāo)準(zhǔn)，背后實(shí)際上也是行業(yè)技術(shù)先進(jìn)企業(yè)的聯(lián)合探索和標(biāo)準(zhǔn)共識(shí)，此次《分級(jí)定義》也體現(xiàn)出這一特點(diǎn)，而正如自動(dòng)駕駛技術(shù)等級(jí)劃分助推汽車產(chǎn)業(yè)一般，《分級(jí)定義》對(duì)推動(dòng)AI對(duì)話相關(guān)產(chǎn)業(yè)具有“里程碑”式重要意義。

把握行業(yè)脈搏，助推社會(huì)認(rèn)知AI對(duì)話價(jià)值

近年來，隨著國內(nèi)深度學(xué)習(xí)技術(shù)的不斷發(fā)展，AI對(duì)話系統(tǒng)已經(jīng)從基于規(guī)則的第一代和以傳統(tǒng)機(jī)器學(xué)習(xí)為核心的第二代，發(fā)展到以大數(shù)據(jù)和大模型為顯著特征的第三代，對(duì)話能力產(chǎn)生了革命性變化，因此，對(duì)于《分級(jí)定義》將如何指導(dǎo)人工智能產(chǎn)業(yè)發(fā)展、實(shí)現(xiàn)智能化價(jià)值最大化，也是AI從業(yè)者與研究者最為關(guān)心的話題。

華為諾亞方舟語音語義首席科學(xué)家、ACL Fellow劉群教授指出，盡管AI行業(yè)現(xiàn)在水平已經(jīng)能接近L3階段，但對(duì)話系統(tǒng)依然存在很大的提升空間，《分級(jí)定義》有助于學(xué)界明確研究方向，他提到：“對(duì)話系統(tǒng)最難的是共識(shí)的建模。早期在很小的場(chǎng)景下，比如訂飛機(jī)票，在這個(gè)上面很容易建立共識(shí)，但在開放領(lǐng)域這種共識(shí)就很難，特別是復(fù)雜的業(yè)務(wù)場(chǎng)景中，比如手機(jī)壞了，哪里壞了，哪個(gè)應(yīng)用打不開，界面上有一個(gè)什么元素我點(diǎn)擊它不反應(yīng)，這個(gè)時(shí)候讓機(jī)器完全理解就非常困難。對(duì)于復(fù)雜場(chǎng)景的建模，是難點(diǎn)之一。還有AI人設(shè)前后一致性問題，AI倫理問題等難點(diǎn)問題?！钡蔡岢?，系統(tǒng)需要根據(jù)場(chǎng)景和目的確定自己是否需要達(dá)到更高等級(jí)，并不一定追求級(jí)別越高越好。

北京師范大學(xué)新聞傳播學(xué)院院長(zhǎng)張洪忠教授指出，《分級(jí)定義》有利于行業(yè)形成共識(shí)甚至推動(dòng)相關(guān)標(biāo)準(zhǔn)建立，他表示：“分級(jí)以后，我們能夠明確AI對(duì)話系統(tǒng)相關(guān)領(lǐng)域發(fā)展到了哪一個(gè)層級(jí)和對(duì)社會(huì)的影響，為主管部門提供很好的學(xué)術(shù)參考，更易于把握人工智能技術(shù)發(fā)展現(xiàn)狀。也有助于推動(dòng)社會(huì)對(duì)相關(guān)技術(shù)的倫理和法規(guī)討論?！?/p>

黃民烈教授認(rèn)為，隨著《分級(jí)定義》的發(fā)布，以及未來具有更明確技術(shù)說明的白皮書的推出，AI對(duì)話系統(tǒng)技術(shù)將有更明確的考量準(zhǔn)則，他指出：

“什么叫高質(zhì)量，較高質(zhì)量，什么叫低質(zhì)量，都有明確定義。高質(zhì)量是說相關(guān)性、信息量、自然度分?jǐn)?shù)可以達(dá)到8-10分，滿分是10分，較高質(zhì)量就是6-8分，低質(zhì)量就是小于6分，這是我們的界定。這三個(gè)維度什么意思呢？相關(guān)性是說你回復(fù)的內(nèi)容跟上面的有適度的匹配；信息量是回復(fù)提供足夠必要的信息，要有信息量，不是說‘我不知道’，‘好的’，‘我知道了’，類似這種沒有任何信息量；還有自然度是說跟人相比的自然度，它的語法是不是通順，是否包含常識(shí)錯(cuò)誤。三個(gè)維度怎么去測(cè)？指標(biāo)一定要可觀察、可測(cè)試、可度量，我們希望通過一定數(shù)量的測(cè)試者和這個(gè)對(duì)話系統(tǒng)進(jìn)行充分的對(duì)話交互，測(cè)試之前我們測(cè)試者被告知說這個(gè)系統(tǒng)能力范圍，但怎么實(shí)現(xiàn)不告訴他，這是準(zhǔn)黑箱的操作，也不是純黑箱。最后由這個(gè)測(cè)試者從幾個(gè)維度對(duì)它進(jìn)行主觀打分，最后給出測(cè)試的指標(biāo)，很像AlexaPrize亞馬遜大獎(jiǎng)賽評(píng)價(jià)的方法?！?/p>

實(shí)際上，我們將看到，隨著《分級(jí)定義》的公布，將幫助研發(fā)人員樹立正確的努力方向，從而正視當(dāng)前研發(fā)的對(duì)話水平；同時(shí)，也能為行業(yè)提供相對(duì)統(tǒng)一的評(píng)估規(guī)范，幫助更多企業(yè)做好評(píng)測(cè)標(biāo)準(zhǔn)，助推行業(yè)發(fā)展；而在大眾層面，此次《分級(jí)定義》將讓更多普通用戶了解對(duì)話系統(tǒng)，如同自動(dòng)駕駛技術(shù)分級(jí)定義一樣，當(dāng)更多人關(guān)注和了解AI人機(jī)對(duì)話技術(shù)的發(fā)展，也將推動(dòng)AI人機(jī)對(duì)話走向社會(huì)，增強(qiáng)人們?cè)谙嚓P(guān)領(lǐng)域的認(rèn)知并消除信息差。

AI對(duì)話分級(jí)定義明確，誰將率先跑出L5？

伴隨人工智能技術(shù)的不斷發(fā)展，機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、自然語言處理、語音處理、知識(shí)圖譜等AI核心技術(shù)相關(guān)算法持續(xù)迭代和優(yōu)化，在數(shù)據(jù)、算力等“AI基礎(chǔ)設(shè)施”的持續(xù)增長(zhǎng)下，AI人機(jī)對(duì)話市場(chǎng)規(guī)模持續(xù)擴(kuò)大。根據(jù)Deloitte報(bào)告預(yù)測(cè)，全球人工智能產(chǎn)業(yè)規(guī)模從2017年的6,900億美元增長(zhǎng)至2025年的64,000億美元，2017-2025年復(fù)合增長(zhǎng)率32.10%，呈現(xiàn)較快增長(zhǎng)走勢(shì)。中國人工智能市場(chǎng)規(guī)模從2016年的154億元增長(zhǎng)至2020年的1280億元，預(yù)計(jì)2022年將達(dá)2729億元。

然而，人工智能產(chǎn)業(yè)發(fā)展方向也愈發(fā)多樣化，市場(chǎng)競(jìng)爭(zhēng)中不但存在“技術(shù)水平難以判斷”“AI企業(yè)夸大宣傳”等問題，面向不同領(lǐng)域的AI技術(shù)如何發(fā)展也存在差異。例如在國內(nèi)，智能手機(jī)上的虛擬助手“小愛同學(xué)”、“小度”、“天貓精靈”等不僅要解決天氣、日程、快遞等查詢，還要與IoT設(shè)備融合，為智能家居設(shè)備承擔(dān)語音控制中心的任務(wù)，這就要著重發(fā)展AI對(duì)話系統(tǒng)融合IoT技術(shù)；再比如心理健康領(lǐng)域，無論海外的Woebot還是國內(nèi)的聆心智能情緒聊天機(jī)器人，不僅需要通過對(duì)話確認(rèn)用戶的心理健康狀況，還需要通過共情、引導(dǎo)、心理測(cè)試等方式提供一定的治療效果，實(shí)現(xiàn)“數(shù)字藥”的目標(biāo)，這意味著AI對(duì)話系統(tǒng)需要學(xué)會(huì)和使用CBT（認(rèn)知行為療法）、DBT（辯證行為療法）、IPT（人際關(guān)系療法）、正念等多種治療理念和技術(shù)方法。

但在解決了上述的特定場(chǎng)景與AI對(duì)話系統(tǒng)融合問題之后，如何推動(dòng)國內(nèi)AI企業(yè)走向L4甚至L5？《分級(jí)定義》在明確AI人機(jī)對(duì)話系統(tǒng)現(xiàn)狀、行業(yè)方向的同時(shí)，對(duì)未來也提出了明確的要求，這在一定程度上為行業(yè)去蕪存菁，實(shí)現(xiàn)最終的L5目標(biāo)做出了指導(dǎo)。

黃民烈教授提到：“L4是在L3的基礎(chǔ)上，新場(chǎng)景上具有較高質(zhì)量的對(duì)話能力，并且在多輪交互里面擬人化的程度比較高，這里面的擬人化程度是指我有沒有一個(gè)固定的人設(shè)和人格，有沒有固定的情感的情緒的處理能力，有沒有這種觀點(diǎn)維度的能力，好比我們跟一個(gè)人聊天，不會(huì)一會(huì)是男的，一會(huì)是女的，不可能一會(huì)兒在清華上學(xué)，一會(huì)兒在北大上學(xué)，一定有自己固定的人設(shè)信息，這種人設(shè)信息目前在對(duì)話系統(tǒng)里面處理還是非常之難?！睂?shí)際上，立AI人設(shè)的研究也是行業(yè)研究中的熱點(diǎn)及難點(diǎn)，無論是對(duì)AI語音助手領(lǐng)域的小米“小愛同學(xué)”、百度“小度”、華為“小藝”還是對(duì)AI心理健康領(lǐng)域的聆心智能、Woebot等系統(tǒng)來說，挖掘這一領(lǐng)域的潛在價(jià)值在于讓AI成為更“人格化”的系統(tǒng)，而在這之后，更高級(jí)的L5才有可能實(shí)現(xiàn)。

參與《分級(jí)定義》的劉群教授指出，L4、L5等級(jí)的AI對(duì)話系統(tǒng)“必須具備復(fù)雜場(chǎng)景的深度建模”，黃民烈教授也提到，L5等級(jí)應(yīng)在L4基礎(chǔ)上，有更高的擬人化程度，能夠自動(dòng)、主動(dòng)、持續(xù)學(xué)習(xí)的AI人機(jī)對(duì)話系統(tǒng)，必須具備多模態(tài)的感知和表達(dá)能力。

如何率先跑出這些能力？從目前來看，AI“產(chǎn)研結(jié)合”是必要途徑，來自尚普咨詢《2022年AI 2000全球前20強(qiáng)機(jī)構(gòu)》數(shù)據(jù)顯示，全球前20強(qiáng)AI領(lǐng)域機(jī)構(gòu)中有12家為高校，而在產(chǎn)業(yè)化落地過程中，大量公司結(jié)合不同的應(yīng)用場(chǎng)景推出了自己的智能對(duì)話產(chǎn)品，比如清華大學(xué)孵化的聆心智能、百度、阿里、騰訊、谷歌、Meta、亞馬遜等等。此外，中美之間的AI人機(jī)對(duì)話系統(tǒng)也存在語言系統(tǒng)的差異，由于英文的AI相關(guān)技術(shù)研究在開源文化理念上做的更好，也更容易獲取到高質(zhì)量的數(shù)據(jù)，國內(nèi)要率先跑出更高級(jí)別的AI人機(jī)對(duì)話系統(tǒng)，也離不開業(yè)界的社區(qū)建設(shè)和人才體系的進(jìn)一步完善?？梢?，并非某個(gè)企業(yè)及科研機(jī)構(gòu)能夠獨(dú)立完成的事情，要率先跑出L5，需要集合更多力量，而在此次《AI對(duì)話系統(tǒng)分級(jí)定義》背后，我們能夠看到這種力量正在生長(zhǎng)。

（參與本次《分級(jí)定義》的研究機(jī)構(gòu)和研究者包括（以姓氏拼音排序）,科大訊飛AI研究院副院長(zhǎng)陳志剛，京東集團(tuán)副總裁、IEEE Fellow何曉冬，清華大學(xué)長(zhǎng)聘副教授黃民烈，阿里達(dá)摩院總監(jiān)、資深算法專家李永彬，華為諾亞方舟語音語義首席科學(xué)家、ACL Fellow劉群，華為諾亞方舟實(shí)驗(yàn)室高級(jí)研究員糜飛，百度主任架構(gòu)師牛正雨，騰訊AI Lab總監(jiān)史樹明，中國人民大學(xué)副教授宋睿華，阿里達(dá)摩院總監(jiān)孫健，小米技術(shù)委員會(huì)主席、AI實(shí)驗(yàn)室主任王斌，百度技術(shù)委員會(huì)主席吳華，美團(tuán)自然語言處理中心總監(jiān)武威，中國人民大學(xué)副教授嚴(yán)睿，中國科學(xué)院深圳先進(jìn)技術(shù)研究院副研究員楊敏，OPPO高級(jí)技術(shù)總監(jiān)楊振宇，哥倫比亞大學(xué)助理教授俞舟，北京師范大學(xué)新聞傳播學(xué)院院長(zhǎng)張洪忠，哈爾濱工業(yè)大學(xué)副教授張偉男，北京聆心智能總監(jiān)鄭銀河，三星電子中國研究院語言技術(shù)部技術(shù)總監(jiān)朱璇。）