當(dāng)智能音箱中的“小愛”、“小度”回應(yīng)你時(shí),它是否理解你說的意思?如何判斷人工智能助手是否聰明、好用?這些聲音背后究竟是什么技術(shù)在支撐?
1950年,英國計(jì)算機(jī)科學(xué)家阿蘭·圖靈提出著名的思想實(shí)驗(yàn)——圖靈測(cè)試,預(yù)言了創(chuàng)造出具有真正智能的機(jī)器的可能性,成為隨后半個(gè)多世紀(jì)科學(xué)家們用來判斷機(jī)器是否能夠思考的重要標(biāo)準(zhǔn)。
圖靈測(cè)試的核心,是考察目標(biāo)的自然語言處理能力,如果說自然語言處理是人工智能“皇冠上的明珠”,那么AI對(duì)話系統(tǒng)則是自然語言處理中最難、最核心的任務(wù)之一,是“明珠中最亮的那顆”,是支撐起無數(shù)的“小愛”、“小度”、Siri等語音助手背后的基礎(chǔ)以及核心。
然而,作為前沿技術(shù),當(dāng)前學(xué)術(shù)界與產(chǎn)業(yè)界并未對(duì)AI對(duì)話系統(tǒng)形成標(biāo)準(zhǔn)認(rèn)同,這造成其在應(yīng)用中呈現(xiàn)出水平參差不齊、評(píng)價(jià)體系不一的現(xiàn)狀,導(dǎo)致業(yè)界因認(rèn)知不統(tǒng)一而對(duì)人工智能交互水平出現(xiàn)誤解,也引起了社會(huì)上關(guān)于意識(shí)、倫理、道德等方面的廣泛討論。
人工智能專家Sandeep Rajani教授所著《人工智能:人或機(jī)器》一書中,作者將人工智能水平和人類能力進(jìn)行橫向?qū)Ρ?,劃分成四個(gè)不同等級(jí):巔峰級(jí)(已經(jīng)實(shí)現(xiàn)了人類無法超越的最優(yōu)能力)、超越人類級(jí)(比所有人類的能力都強(qiáng))、強(qiáng)人類級(jí)(比大多數(shù)人類的能力強(qiáng))、弱人類級(jí)(比大多數(shù)人類的能力弱)。盡管此標(biāo)準(zhǔn)對(duì)人工智能做出基本分類,但如此劃分面對(duì)不同領(lǐng)域的人工智能現(xiàn)狀卻存在一定難題。
以五子棋為例,在規(guī)則完備、策略空間較小的五子棋游戲中,人工智能已經(jīng)可以窮舉所有可能的對(duì)弈情況,確保與人類在任意對(duì)弈的情況下都能實(shí)現(xiàn)最優(yōu)方案,這種場(chǎng)景下其能力達(dá)到了巔峰級(jí);但當(dāng)我們將人工智能技術(shù)放在駕駛汽車上,它的能力還不足以滿足所有復(fù)雜的路況和交通問題,呈現(xiàn)出弱人類級(jí)表現(xiàn)。
因此,在科學(xué)家未能實(shí)現(xiàn)通用的巔峰級(jí)人工智能之前,有必要對(duì)細(xì)分領(lǐng)域人工智能進(jìn)行進(jìn)一步分級(jí)定義,例如眾所周知的自動(dòng)駕駛等級(jí)劃分,便是由國際汽車工程師協(xié)會(huì)制定的自動(dòng)駕駛分類標(biāo)準(zhǔn),但在AI對(duì)話系統(tǒng)領(lǐng)域,其分級(jí)定義始終是一片空白。
6月28日,清華大學(xué)智能技術(shù)系統(tǒng)實(shí)驗(yàn)室副主任黃民烈教授聯(lián)合華為諾亞方舟實(shí)驗(yàn)室、百度、小米、科大訊飛等二十多家企業(yè)、科研機(jī)構(gòu)的科學(xué)家共同制定了全球首個(gè)《AI對(duì)話系統(tǒng)分級(jí)定義》(以下簡(jiǎn)稱《分級(jí)定義》),通過對(duì)AI對(duì)話系統(tǒng)進(jìn)行更加科學(xué)的分類,為業(yè)界衡量AI對(duì)話系統(tǒng)的能力水平,促進(jìn)AI對(duì)話系統(tǒng)的進(jìn)一步研究,同時(shí)為工業(yè)界應(yīng)用提供參考,此次對(duì)AI系統(tǒng)的分級(jí)定義,或?qū)⑦M(jìn)一步助推國內(nèi)人工智能產(chǎn)業(yè)快速發(fā)展,并為技術(shù)發(fā)展明確未來方向。
AI對(duì)話系統(tǒng)分級(jí)定義,行業(yè)發(fā)展“里程碑”
《AI對(duì)話系統(tǒng)分級(jí)定義》首次明確指出,AI對(duì)話系統(tǒng)可以按照?qǐng)鼍?、?duì)話輪次、信息量、擬人化等標(biāo)準(zhǔn),劃分為L(zhǎng)0-L5六個(gè)等級(jí):
L0:實(shí)際對(duì)話由人給出,系統(tǒng)完全沒有自動(dòng)對(duì)話能力;或者在任意單一場(chǎng)景中,系統(tǒng)均無法給出較高質(zhì)量的對(duì)話。
L1:能完成單一場(chǎng)景的較高質(zhì)量對(duì)話;或雖能完成多個(gè)單一場(chǎng)景的較高質(zhì)量對(duì)話,但無法處理場(chǎng)景之間的上下文依賴。
L2:在L1的基礎(chǔ)上,能同時(shí)完成多個(gè)場(chǎng)景的較高質(zhì)量對(duì)話,具有處理跨場(chǎng)景的上下文依賴和自然切換能力,無法完成新場(chǎng)景較高質(zhì)量的對(duì)話。
L3:在L2的基礎(chǔ)上,能針對(duì)大量場(chǎng)景開展高質(zhì)量對(duì)話,在新場(chǎng)景上具有較高質(zhì)量對(duì)話能力。
L4:在L3的基礎(chǔ)上,在新場(chǎng)景上具有高質(zhì)量?jī)稉Q能力,在多輪交互中擬人化(指人設(shè)、人格、情感、觀點(diǎn)等多維度的一致性)程度較高。
L5:在L4的基礎(chǔ)上,在多輪交互中擬人化程度高,能在開放場(chǎng)景交互中主動(dòng)學(xué)習(xí)和持續(xù)學(xué)習(xí),具有多模態(tài)感知和表達(dá)能力。
對(duì)于此《分級(jí)定義》的制定規(guī)則,清華大學(xué)智能技術(shù)系統(tǒng)實(shí)驗(yàn)室副主任黃民烈教授指出,考慮到AI對(duì)話系統(tǒng)任務(wù)繁多、評(píng)價(jià)維度多樣、技術(shù)路線豐富,因此撰寫時(shí),研究小組在制定《分級(jí)定義》時(shí)僅關(guān)注完全由機(jī)器主導(dǎo)的對(duì)話系統(tǒng),人機(jī)混合的對(duì)話系統(tǒng)不在考慮范圍內(nèi)。同時(shí),為了在實(shí)際應(yīng)用中發(fā)揮價(jià)值,《分級(jí)定義》的制定是從用戶可感知,以及可觀察、可測(cè)量、可度量的角度出發(fā),不考慮系統(tǒng)的具體技術(shù)實(shí)現(xiàn)方式,也不區(qū)分助理類任務(wù)、閑聊、知識(shí)對(duì)話等,均以“場(chǎng)景”進(jìn)行表述。
在上述原則之下,《分級(jí)定義》從自動(dòng)對(duì)話能力、對(duì)話質(zhì)量高低、單一/多個(gè)場(chǎng)景、跨場(chǎng)景的上下文依賴和自然切換能力、擬人化程度、主動(dòng)和持續(xù)學(xué)習(xí)能力、多模態(tài)感知與表達(dá)能力等角度出發(fā),將AI對(duì)話系統(tǒng)劃分為從L0~L5的六個(gè)等級(jí),等級(jí)越高,AI對(duì)話系統(tǒng)水平越高。
在此《分級(jí)定義》的標(biāo)準(zhǔn)之下,當(dāng)前AI對(duì)話系統(tǒng)水平最高已發(fā)展至L2~L3之間。小米技術(shù)委員會(huì)主任、AI實(shí)驗(yàn)室主任王斌教授指出,以“小愛同學(xué)”舉例,不但在單一場(chǎng)景可以完成高質(zhì)量,多個(gè)場(chǎng)景對(duì)話也能完成,已具備一定的跨場(chǎng)景的能力,而有了《分級(jí)定義》指導(dǎo),將繼續(xù)在跨場(chǎng)景對(duì)話技術(shù)上發(fā)力,在新場(chǎng)景里做小樣本的學(xué)習(xí)讓“小愛同學(xué)”適應(yīng)新的場(chǎng)景的工作。在以智能手機(jī)為載體的智能語音助手中,“小愛同學(xué)”、三星Bixby、百度小度、華為小藝等語音助手如今已經(jīng)處于L2~L3等級(jí)定義下,并正在朝L4等級(jí)進(jìn)發(fā)。
圍繞此次共同探索出的AI對(duì)話系統(tǒng)分級(jí)定義,研究小組已制定出標(biāo)準(zhǔn)的數(shù)據(jù)集,并將推動(dòng)其成為行業(yè)認(rèn)可的標(biāo)準(zhǔn)規(guī)范,“就像亞馬遜的大獎(jiǎng)賽一樣,制定一套框架,一套數(shù)據(jù),一套測(cè)試方法,把這個(gè)標(biāo)準(zhǔn)推進(jìn)下去?!秉S民烈教授提到,此次參與《分級(jí)定義》的二十多個(gè)機(jī)構(gòu)多位科學(xué)家和研究者,將進(jìn)一步撰寫詳細(xì)的白皮書,確定L4、L5等級(jí)之下的技術(shù)細(xì)節(jié)。
AI人機(jī)對(duì)話系統(tǒng)不但伴隨人工智能技術(shù)發(fā)展較長(zhǎng)時(shí)間,技術(shù)積累多,并且已在智能客服、語音助手等行業(yè)進(jìn)入到商用階段,在心理健康服務(wù)等領(lǐng)域也將進(jìn)入商用階段。從行業(yè)發(fā)展方式來看,自動(dòng)駕駛技術(shù)的等級(jí)劃分可以帶來啟發(fā),由于自動(dòng)駕駛技術(shù)牽涉的廠家眾多,商用前景廣闊,因此由國際汽車工程學(xué)會(huì)確定了不同等級(jí)標(biāo)準(zhǔn),背后實(shí)際上也是行業(yè)技術(shù)先進(jìn)企業(yè)的聯(lián)合探索和標(biāo)準(zhǔn)共識(shí),此次《分級(jí)定義》也體現(xiàn)出這一特點(diǎn),而正如自動(dòng)駕駛技術(shù)等級(jí)劃分助推汽車產(chǎn)業(yè)一般,《分級(jí)定義》對(duì)推動(dòng)AI對(duì)話相關(guān)產(chǎn)業(yè)具有“里程碑”式重要意義。
把握行業(yè)脈搏,助推社會(huì)認(rèn)知AI對(duì)話價(jià)值
近年來,隨著國內(nèi)深度學(xué)習(xí)技術(shù)的不斷發(fā)展,AI對(duì)話系統(tǒng)已經(jīng)從基于規(guī)則的第一代和以傳統(tǒng)機(jī)器學(xué)習(xí)為核心的第二代,發(fā)展到以大數(shù)據(jù)和大模型為顯著特征的第三代,對(duì)話能力產(chǎn)生了革命性變化,因此,對(duì)于《分級(jí)定義》將如何指導(dǎo)人工智能產(chǎn)業(yè)發(fā)展、實(shí)現(xiàn)智能化價(jià)值最大化,也是AI從業(yè)者與研究者最為關(guān)心的話題。
華為諾亞方舟語音語義首席科學(xué)家、ACL Fellow劉群教授指出,盡管AI行業(yè)現(xiàn)在水平已經(jīng)能接近L3階段,但對(duì)話系統(tǒng)依然存在很大的提升空間,《分級(jí)定義》有助于學(xué)界明確研究方向,他提到:“對(duì)話系統(tǒng)最難的是共識(shí)的建模。早期在很小的場(chǎng)景下,比如訂飛機(jī)票,在這個(gè)上面很容易建立共識(shí),但在開放領(lǐng)域這種共識(shí)就很難,特別是復(fù)雜的業(yè)務(wù)場(chǎng)景中,比如手機(jī)壞了,哪里壞了,哪個(gè)應(yīng)用打不開,界面上有一個(gè)什么元素我點(diǎn)擊它不反應(yīng),這個(gè)時(shí)候讓機(jī)器完全理解就非常困難。對(duì)于復(fù)雜場(chǎng)景的建模,是難點(diǎn)之一。還有AI人設(shè)前后一致性問題,AI倫理問題等難點(diǎn)問題?!钡蔡岢?,系統(tǒng)需要根據(jù)場(chǎng)景和目的確定自己是否需要達(dá)到更高等級(jí),并不一定追求級(jí)別越高越好。
北京師范大學(xué)新聞傳播學(xué)院院長(zhǎng)張洪忠教授指出,《分級(jí)定義》有利于行業(yè)形成共識(shí)甚至推動(dòng)相關(guān)標(biāo)準(zhǔn)建立,他表示:“分級(jí)以后,我們能夠明確AI對(duì)話系統(tǒng)相關(guān)領(lǐng)域發(fā)展到了哪一個(gè)層級(jí)和對(duì)社會(huì)的影響,為主管部門提供很好的學(xué)術(shù)參考,更易于把握人工智能技術(shù)發(fā)展現(xiàn)狀。也有助于推動(dòng)社會(huì)對(duì)相關(guān)技術(shù)的倫理和法規(guī)討論?!?/p>
黃民烈教授認(rèn)為,隨著《分級(jí)定義》的發(fā)布,以及未來具有更明確技術(shù)說明的白皮書的推出,AI對(duì)話系統(tǒng)技術(shù)將有更明確的考量準(zhǔn)則,他指出:
“什么叫高質(zhì)量,較高質(zhì)量,什么叫低質(zhì)量,都有明確定義。高質(zhì)量是說相關(guān)性、信息量、自然度分?jǐn)?shù)可以達(dá)到8-10分,滿分是10分,較高質(zhì)量就是6-8分,低質(zhì)量就是小于6分,這是我們的界定。這三個(gè)維度什么意思呢?相關(guān)性是說你回復(fù)的內(nèi)容跟上面的有適度的匹配;信息量是回復(fù)提供足夠必要的信息,要有信息量,不是說‘我不知道’,‘好的’,‘我知道了’,類似這種沒有任何信息量;還有自然度是說跟人相比的自然度,它的語法是不是通順,是否包含常識(shí)錯(cuò)誤。三個(gè)維度怎么去測(cè)?指標(biāo)一定要可觀察、可測(cè)試、可度量,我們希望通過一定數(shù)量的測(cè)試者和這個(gè)對(duì)話系統(tǒng)進(jìn)行充分的對(duì)話交互,測(cè)試之前我們測(cè)試者被告知說這個(gè)系統(tǒng)能力范圍,但怎么實(shí)現(xiàn)不告訴他,這是準(zhǔn)黑箱的操作,也不是純黑箱。最后由這個(gè)測(cè)試者從幾個(gè)維度對(duì)它進(jìn)行主觀打分,最后給出測(cè)試的指標(biāo),很像AlexaPrize亞馬遜大獎(jiǎng)賽評(píng)價(jià)的方法?!?/p>
實(shí)際上,我們將看到,隨著《分級(jí)定義》的公布,將幫助研發(fā)人員樹立正確的努力方向,從而正視當(dāng)前研發(fā)的對(duì)話水平;同時(shí),也能為行業(yè)提供相對(duì)統(tǒng)一的評(píng)估規(guī)范,幫助更多企業(yè)做好評(píng)測(cè)標(biāo)準(zhǔn),助推行業(yè)發(fā)展;而在大眾層面,此次《分級(jí)定義》將讓更多普通用戶了解對(duì)話系統(tǒng),如同自動(dòng)駕駛技術(shù)分級(jí)定義一樣,當(dāng)更多人關(guān)注和了解AI人機(jī)對(duì)話技術(shù)的發(fā)展,也將推動(dòng)AI人機(jī)對(duì)話走向社會(huì),增強(qiáng)人們?cè)谙嚓P(guān)領(lǐng)域的認(rèn)知并消除信息差。
AI對(duì)話分級(jí)定義明確,誰將率先跑出L5?
伴隨人工智能技術(shù)的不斷發(fā)展,機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、自然語言處理、語音處理、知識(shí)圖譜等AI核心技術(shù)相關(guān)算法持續(xù)迭代和優(yōu)化,在數(shù)據(jù)、算力等“AI基礎(chǔ)設(shè)施”的持續(xù)增長(zhǎng)下,AI人機(jī)對(duì)話市場(chǎng)規(guī)模持續(xù)擴(kuò)大。根據(jù)Deloitte報(bào)告預(yù)測(cè),全球人工智能產(chǎn)業(yè)規(guī)模從2017年的6,900億美元增長(zhǎng)至2025年的64,000億美元,2017-2025年復(fù)合增長(zhǎng)率32.10%,呈現(xiàn)較快增長(zhǎng)走勢(shì)。中國人工智能市場(chǎng)規(guī)模從2016年的154億元增長(zhǎng)至2020年的1280億元,預(yù)計(jì)2022年將達(dá)2729億元。
然而,人工智能產(chǎn)業(yè)發(fā)展方向也愈發(fā)多樣化,市場(chǎng)競(jìng)爭(zhēng)中不但存在“技術(shù)水平難以判斷”“AI企業(yè)夸大宣傳”等問題,面向不同領(lǐng)域的AI技術(shù)如何發(fā)展也存在差異。例如在國內(nèi),智能手機(jī)上的虛擬助手“小愛同學(xué)”、“小度”、“天貓精靈”等不僅要解決天氣、日程、快遞等查詢,還要與IoT設(shè)備融合,為智能家居設(shè)備承擔(dān)語音控制中心的任務(wù),這就要著重發(fā)展AI對(duì)話系統(tǒng)融合IoT技術(shù);再比如心理健康領(lǐng)域,無論海外的Woebot還是國內(nèi)的聆心智能情緒聊天機(jī)器人,不僅需要通過對(duì)話確認(rèn)用戶的心理健康狀況,還需要通過共情、引導(dǎo)、心理測(cè)試等方式提供一定的治療效果,實(shí)現(xiàn)“數(shù)字藥”的目標(biāo),這意味著AI對(duì)話系統(tǒng)需要學(xué)會(huì)和使用CBT(認(rèn)知行為療法)、DBT(辯證行為療法)、IPT(人際關(guān)系療法)、正念等多種治療理念和技術(shù)方法。
但在解決了上述的特定場(chǎng)景與AI對(duì)話系統(tǒng)融合問題之后,如何推動(dòng)國內(nèi)AI企業(yè)走向L4甚至L5?《分級(jí)定義》在明確AI人機(jī)對(duì)話系統(tǒng)現(xiàn)狀、行業(yè)方向的同時(shí),對(duì)未來也提出了明確的要求,這在一定程度上為行業(yè)去蕪存菁,實(shí)現(xiàn)最終的L5目標(biāo)做出了指導(dǎo)。
黃民烈教授提到:“L4是在L3的基礎(chǔ)上,新場(chǎng)景上具有較高質(zhì)量的對(duì)話能力,并且在多輪交互里面擬人化的程度比較高,這里面的擬人化程度是指我有沒有一個(gè)固定的人設(shè)和人格,有沒有固定的情感的情緒的處理能力,有沒有這種觀點(diǎn)維度的能力,好比我們跟一個(gè)人聊天,不會(huì)一會(huì)是男的,一會(huì)是女的,不可能一會(huì)兒在清華上學(xué),一會(huì)兒在北大上學(xué),一定有自己固定的人設(shè)信息,這種人設(shè)信息目前在對(duì)話系統(tǒng)里面處理還是非常之難?!睂?shí)際上,立AI人設(shè)的研究也是行業(yè)研究中的熱點(diǎn)及難點(diǎn),無論是對(duì)AI語音助手領(lǐng)域的小米“小愛同學(xué)”、百度“小度”、華為“小藝”還是對(duì)AI心理健康領(lǐng)域的聆心智能、Woebot等系統(tǒng)來說,挖掘這一領(lǐng)域的潛在價(jià)值在于讓AI成為更“人格化”的系統(tǒng),而在這之后,更高級(jí)的L5才有可能實(shí)現(xiàn)。
參與《分級(jí)定義》的劉群教授指出,L4、L5等級(jí)的AI對(duì)話系統(tǒng)“必須具備復(fù)雜場(chǎng)景的深度建模”,黃民烈教授也提到,L5等級(jí)應(yīng)在L4基礎(chǔ)上,有更高的擬人化程度,能夠自動(dòng)、主動(dòng)、持續(xù)學(xué)習(xí)的AI人機(jī)對(duì)話系統(tǒng),必須具備多模態(tài)的感知和表達(dá)能力。
如何率先跑出這些能力?從目前來看,AI“產(chǎn)研結(jié)合”是必要途徑,來自尚普咨詢《2022年AI 2000全球前20強(qiáng)機(jī)構(gòu)》數(shù)據(jù)顯示,全球前20強(qiáng)AI領(lǐng)域機(jī)構(gòu)中有12家為高校,而在產(chǎn)業(yè)化落地過程中,大量公司結(jié)合不同的應(yīng)用場(chǎng)景推出了自己的智能對(duì)話產(chǎn)品,比如清華大學(xué)孵化的聆心智能、百度、阿里、騰訊、谷歌、Meta、亞馬遜等等。此外,中美之間的AI人機(jī)對(duì)話系統(tǒng)也存在語言系統(tǒng)的差異,由于英文的AI相關(guān)技術(shù)研究在開源文化理念上做的更好,也更容易獲取到高質(zhì)量的數(shù)據(jù),國內(nèi)要率先跑出更高級(jí)別的AI人機(jī)對(duì)話系統(tǒng),也離不開業(yè)界的社區(qū)建設(shè)和人才體系的進(jìn)一步完善??梢?,并非某個(gè)企業(yè)及科研機(jī)構(gòu)能夠獨(dú)立完成的事情,要率先跑出L5,需要集合更多力量,而在此次《AI對(duì)話系統(tǒng)分級(jí)定義》背后,我們能夠看到這種力量正在生長(zhǎng)。
(參與本次《分級(jí)定義》的研究機(jī)構(gòu)和研究者包括(以姓氏拼音排序),科大訊飛AI研究院副院長(zhǎng)陳志剛,京東集團(tuán)副總裁、IEEE Fellow何曉冬,清華大學(xué)長(zhǎng)聘副教授黃民烈,阿里達(dá)摩院總監(jiān)、資深算法專家李永彬,華為諾亞方舟語音語義首席科學(xué)家、ACL Fellow劉群,華為諾亞方舟實(shí)驗(yàn)室高級(jí)研究員糜飛,百度主任架構(gòu)師牛正雨,騰訊AI Lab總監(jiān)史樹明,中國人民大學(xué)副教授宋睿華,阿里達(dá)摩院總監(jiān)孫健,小米技術(shù)委員會(huì)主席、AI實(shí)驗(yàn)室主任王斌,百度技術(shù)委員會(huì)主席吳華,美團(tuán)自然語言處理中心總監(jiān)武威,中國人民大學(xué)副教授嚴(yán)睿,中國科學(xué)院深圳先進(jìn)技術(shù)研究院副研究員楊敏,OPPO高級(jí)技術(shù)總監(jiān)楊振宇,哥倫比亞大學(xué)助理教授俞舟,北京師范大學(xué)新聞傳播學(xué)院院長(zhǎng)張洪忠,哈爾濱工業(yè)大學(xué)副教授張偉男,北京聆心智能總監(jiān)鄭銀河,三星電子中國研究院語言技術(shù)部技術(shù)總監(jiān)朱璇。)