五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

當AI對話系統(tǒng)像自動駕駛一樣分級,誰能率先跑出L5?

ee
北京移動互聯(lián)網(wǎng)
面向女生的新一代場景社交
最近融資:|2016-01-06
我要聯(lián)系

當智能音箱中的“小愛”、“小度”回應你時,它是否理解你說的意思?如何判斷人工智能助手是否聰明、好用?這些聲音背后究竟是什么技術在支撐?

1950年,英國計算機科學家阿蘭·圖靈提出著名的思想實驗——圖靈測試,預言了創(chuàng)造出具有真正智能的機器的可能性,成為隨后半個多世紀科學家們用來判斷機器是否能夠思考的重要標準。

圖靈測試的核心,是考察目標的自然語言處理能力,如果說自然語言處理是人工智能“皇冠上的明珠”,那么AI對話系統(tǒng)則是自然語言處理中最難、最核心的任務之一,是“明珠中最亮的那顆”,是支撐起無數(shù)的“小愛”、“小度”、Siri等語音助手背后的基礎以及核心。

然而,作為前沿技術,當前學術界與產(chǎn)業(yè)界并未對AI對話系統(tǒng)形成標準認同,這造成其在應用中呈現(xiàn)出水平參差不齊、評價體系不一的現(xiàn)狀,導致業(yè)界因認知不統(tǒng)一而對人工智能交互水平出現(xiàn)誤解,也引起了社會上關于意識、倫理、道德等方面的廣泛討論。

人工智能專家Sandeep Rajani教授所著《人工智能:人或機器》一書中,作者將人工智能水平和人類能力進行橫向對比,劃分成四個不同等級:巔峰級(已經(jīng)實現(xiàn)了人類無法超越的最優(yōu)能力)、超越人類級(比所有人類的能力都強)、強人類級(比大多數(shù)人類的能力強)、弱人類級(比大多數(shù)人類的能力弱)。盡管此標準對人工智能做出基本分類,但如此劃分面對不同領域的人工智能現(xiàn)狀卻存在一定難題。

以五子棋為例,在規(guī)則完備、策略空間較小的五子棋游戲中,人工智能已經(jīng)可以窮舉所有可能的對弈情況,確保與人類在任意對弈的情況下都能實現(xiàn)最優(yōu)方案,這種場景下其能力達到了巔峰級;但當我們將人工智能技術放在駕駛汽車上,它的能力還不足以滿足所有復雜的路況和交通問題,呈現(xiàn)出弱人類級表現(xiàn)。

因此,在科學家未能實現(xiàn)通用的巔峰級人工智能之前,有必要對細分領域人工智能進行進一步分級定義,例如眾所周知的自動駕駛等級劃分,便是由國際汽車工程師協(xié)會制定的自動駕駛分類標準,但在AI對話系統(tǒng)領域,其分級定義始終是一片空白。

6月28日,清華大學智能技術系統(tǒng)實驗室副主任黃民烈教授聯(lián)合華為諾亞方舟實驗室、百度、小米、科大訊飛等二十多家企業(yè)、科研機構的科學家共同制定了全球首個《AI對話系統(tǒng)分級定義》(以下簡稱《分級定義》),通過對AI對話系統(tǒng)進行更加科學的分類,為業(yè)界衡量AI對話系統(tǒng)的能力水平,促進AI對話系統(tǒng)的進一步研究,同時為工業(yè)界應用提供參考,此次對AI系統(tǒng)的分級定義,或將進一步助推國內(nèi)人工智能產(chǎn)業(yè)快速發(fā)展,并為技術發(fā)展明確未來方向。

AI對話系統(tǒng)分級定義,行業(yè)發(fā)展“里程碑”

《AI對話系統(tǒng)分級定義》首次明確指出,AI對話系統(tǒng)可以按照場景、對話輪次、信息量、擬人化等標準,劃分為L0-L5六個等級:

L0:實際對話由人給出,系統(tǒng)完全沒有自動對話能力;或者在任意單一場景中,系統(tǒng)均無法給出較高質(zhì)量的對話。

L1:能完成單一場景的較高質(zhì)量對話;或雖能完成多個單一場景的較高質(zhì)量對話,但無法處理場景之間的上下文依賴。

L2:在L1的基礎上,能同時完成多個場景的較高質(zhì)量對話,具有處理跨場景的上下文依賴和自然切換能力,無法完成新場景較高質(zhì)量的對話。

L3:在L2的基礎上,能針對大量場景開展高質(zhì)量對話,在新場景上具有較高質(zhì)量對話能力。

L4:在L3的基礎上,在新場景上具有高質(zhì)量兌換能力,在多輪交互中擬人化(指人設、人格、情感、觀點等多維度的一致性)程度較高。

L5:在L4的基礎上,在多輪交互中擬人化程度高,能在開放場景交互中主動學習和持續(xù)學習,具有多模態(tài)感知和表達能力。

對于此《分級定義》的制定規(guī)則,清華大學智能技術系統(tǒng)實驗室副主任黃民烈教授指出,考慮到AI對話系統(tǒng)任務繁多、評價維度多樣、技術路線豐富,因此撰寫時,研究小組在制定《分級定義》時僅關注完全由機器主導的對話系統(tǒng),人機混合的對話系統(tǒng)不在考慮范圍內(nèi)。同時,為了在實際應用中發(fā)揮價值,《分級定義》的制定是從用戶可感知,以及可觀察、可測量、可度量的角度出發(fā),不考慮系統(tǒng)的具體技術實現(xiàn)方式,也不區(qū)分助理類任務、閑聊、知識對話等,均以“場景”進行表述。

在上述原則之下,《分級定義》從自動對話能力、對話質(zhì)量高低、單一/多個場景、跨場景的上下文依賴和自然切換能力、擬人化程度、主動和持續(xù)學習能力、多模態(tài)感知與表達能力等角度出發(fā),將AI對話系統(tǒng)劃分為從L0~L5的六個等級,等級越高,AI對話系統(tǒng)水平越高。

在此《分級定義》的標準之下,當前AI對話系統(tǒng)水平最高已發(fā)展至L2~L3之間。小米技術委員會主任、AI實驗室主任王斌教授指出,以“小愛同學”舉例,不但在單一場景可以完成高質(zhì)量,多個場景對話也能完成,已具備一定的跨場景的能力,而有了《分級定義》指導,將繼續(xù)在跨場景對話技術上發(fā)力,在新場景里做小樣本的學習讓“小愛同學”適應新的場景的工作。在以智能手機為載體的智能語音助手中,“小愛同學”、三星Bixby、百度小度、華為小藝等語音助手如今已經(jīng)處于L2~L3等級定義下,并正在朝L4等級進發(fā)。

圍繞此次共同探索出的AI對話系統(tǒng)分級定義,研究小組已制定出標準的數(shù)據(jù)集,并將推動其成為行業(yè)認可的標準規(guī)范,“就像亞馬遜的大獎賽一樣,制定一套框架,一套數(shù)據(jù),一套測試方法,把這個標準推進下去?!秉S民烈教授提到,此次參與《分級定義》的二十多個機構多位科學家和研究者,將進一步撰寫詳細的白皮書,確定L4、L5等級之下的技術細節(jié)。

AI人機對話系統(tǒng)不但伴隨人工智能技術發(fā)展較長時間,技術積累多,并且已在智能客服、語音助手等行業(yè)進入到商用階段,在心理健康服務等領域也將進入商用階段。從行業(yè)發(fā)展方式來看,自動駕駛技術的等級劃分可以帶來啟發(fā),由于自動駕駛技術牽涉的廠家眾多,商用前景廣闊,因此由國際汽車工程學會確定了不同等級標準,背后實際上也是行業(yè)技術先進企業(yè)的聯(lián)合探索和標準共識,此次《分級定義》也體現(xiàn)出這一特點,而正如自動駕駛技術等級劃分助推汽車產(chǎn)業(yè)一般,《分級定義》對推動AI對話相關產(chǎn)業(yè)具有“里程碑”式重要意義。

把握行業(yè)脈搏,助推社會認知AI對話價值

近年來,隨著國內(nèi)深度學習技術的不斷發(fā)展,AI對話系統(tǒng)已經(jīng)從基于規(guī)則的第一代和以傳統(tǒng)機器學習為核心的第二代,發(fā)展到以大數(shù)據(jù)和大模型為顯著特征的第三代,對話能力產(chǎn)生了革命性變化,因此,對于《分級定義》將如何指導人工智能產(chǎn)業(yè)發(fā)展、實現(xiàn)智能化價值最大化,也是AI從業(yè)者與研究者最為關心的話題。

華為諾亞方舟語音語義首席科學家、ACL Fellow劉群教授指出,盡管AI行業(yè)現(xiàn)在水平已經(jīng)能接近L3階段,但對話系統(tǒng)依然存在很大的提升空間,《分級定義》有助于學界明確研究方向,他提到:“對話系統(tǒng)最難的是共識的建模。早期在很小的場景下,比如訂飛機票,在這個上面很容易建立共識,但在開放領域這種共識就很難,特別是復雜的業(yè)務場景中,比如手機壞了,哪里壞了,哪個應用打不開,界面上有一個什么元素我點擊它不反應,這個時候讓機器完全理解就非常困難。對于復雜場景的建模,是難點之一。還有AI人設前后一致性問題,AI倫理問題等難點問題。”但他也提出,系統(tǒng)需要根據(jù)場景和目的確定自己是否需要達到更高等級,并不一定追求級別越高越好。

北京師范大學新聞傳播學院院長張洪忠教授指出,《分級定義》有利于行業(yè)形成共識甚至推動相關標準建立,他表示:“分級以后,我們能夠明確AI對話系統(tǒng)相關領域發(fā)展到了哪一個層級和對社會的影響,為主管部門提供很好的學術參考,更易于把握人工智能技術發(fā)展現(xiàn)狀。也有助于推動社會對相關技術的倫理和法規(guī)討論?!?/p>

黃民烈教授認為,隨著《分級定義》的發(fā)布,以及未來具有更明確技術說明的白皮書的推出,AI對話系統(tǒng)技術將有更明確的考量準則,他指出:

“什么叫高質(zhì)量,較高質(zhì)量,什么叫低質(zhì)量,都有明確定義。高質(zhì)量是說相關性、信息量、自然度分數(shù)可以達到8-10分,滿分是10分,較高質(zhì)量就是6-8分,低質(zhì)量就是小于6分,這是我們的界定。這三個維度什么意思呢?相關性是說你回復的內(nèi)容跟上面的有適度的匹配;信息量是回復提供足夠必要的信息,要有信息量,不是說‘我不知道’,‘好的’,‘我知道了’,類似這種沒有任何信息量;還有自然度是說跟人相比的自然度,它的語法是不是通順,是否包含常識錯誤。三個維度怎么去測?指標一定要可觀察、可測試、可度量,我們希望通過一定數(shù)量的測試者和這個對話系統(tǒng)進行充分的對話交互,測試之前我們測試者被告知說這個系統(tǒng)能力范圍,但怎么實現(xiàn)不告訴他,這是準黑箱的操作,也不是純黑箱。最后由這個測試者從幾個維度對它進行主觀打分,最后給出測試的指標,很像AlexaPrize亞馬遜大獎賽評價的方法?!?/p>

實際上,我們將看到,隨著《分級定義》的公布,將幫助研發(fā)人員樹立正確的努力方向,從而正視當前研發(fā)的對話水平;同時,也能為行業(yè)提供相對統(tǒng)一的評估規(guī)范,幫助更多企業(yè)做好評測標準,助推行業(yè)發(fā)展;而在大眾層面,此次《分級定義》將讓更多普通用戶了解對話系統(tǒng),如同自動駕駛技術分級定義一樣,當更多人關注和了解AI人機對話技術的發(fā)展,也將推動AI人機對話走向社會,增強人們在相關領域的認知并消除信息差。

AI對話分級定義明確,誰將率先跑出L5?

伴隨人工智能技術的不斷發(fā)展,機器學習、計算機視覺、自然語言處理、語音處理、知識圖譜等AI核心技術相關算法持續(xù)迭代和優(yōu)化,在數(shù)據(jù)、算力等“AI基礎設施”的持續(xù)增長下,AI人機對話市場規(guī)模持續(xù)擴大。根據(jù)Deloitte報告預測,全球人工智能產(chǎn)業(yè)規(guī)模從2017年的6,900億美元增長至2025年的64,000億美元,2017-2025年復合增長率32.10%,呈現(xiàn)較快增長走勢。中國人工智能市場規(guī)模從2016年的154億元增長至2020年的1280億元,預計2022年將達2729億元。

然而,人工智能產(chǎn)業(yè)發(fā)展方向也愈發(fā)多樣化,市場競爭中不但存在“技術水平難以判斷”“AI企業(yè)夸大宣傳”等問題,面向不同領域的AI技術如何發(fā)展也存在差異。例如在國內(nèi),智能手機上的虛擬助手“小愛同學”、“小度”、“天貓精靈”等不僅要解決天氣、日程、快遞等查詢,還要與IoT設備融合,為智能家居設備承擔語音控制中心的任務,這就要著重發(fā)展AI對話系統(tǒng)融合IoT技術;再比如心理健康領域,無論海外的Woebot還是國內(nèi)的聆心智能情緒聊天機器人,不僅需要通過對話確認用戶的心理健康狀況,還需要通過共情、引導、心理測試等方式提供一定的治療效果,實現(xiàn)“數(shù)字藥”的目標,這意味著AI對話系統(tǒng)需要學會和使用CBT(認知行為療法)、DBT(辯證行為療法)、IPT(人際關系療法)、正念等多種治療理念和技術方法。

但在解決了上述的特定場景與AI對話系統(tǒng)融合問題之后,如何推動國內(nèi)AI企業(yè)走向L4甚至L5?《分級定義》在明確AI人機對話系統(tǒng)現(xiàn)狀、行業(yè)方向的同時,對未來也提出了明確的要求,這在一定程度上為行業(yè)去蕪存菁,實現(xiàn)最終的L5目標做出了指導。

黃民烈教授提到:“L4是在L3的基礎上,新場景上具有較高質(zhì)量的對話能力,并且在多輪交互里面擬人化的程度比較高,這里面的擬人化程度是指我有沒有一個固定的人設和人格,有沒有固定的情感的情緒的處理能力,有沒有這種觀點維度的能力,好比我們跟一個人聊天,不會一會是男的,一會是女的,不可能一會兒在清華上學,一會兒在北大上學,一定有自己固定的人設信息,這種人設信息目前在對話系統(tǒng)里面處理還是非常之難?!睂嶋H上,立AI人設的研究也是行業(yè)研究中的熱點及難點,無論是對AI語音助手領域的小米“小愛同學”、百度“小度”、華為“小藝”還是對AI心理健康領域的聆心智能、Woebot等系統(tǒng)來說,挖掘這一領域的潛在價值在于讓AI成為更“人格化”的系統(tǒng),而在這之后,更高級的L5才有可能實現(xiàn)。

參與《分級定義》的劉群教授指出,L4、L5等級的AI對話系統(tǒng)“必須具備復雜場景的深度建模”,黃民烈教授也提到,L5等級應在L4基礎上,有更高的擬人化程度,能夠自動、主動、持續(xù)學習的AI人機對話系統(tǒng),必須具備多模態(tài)的感知和表達能力。

如何率先跑出這些能力?從目前來看,AI“產(chǎn)研結合”是必要途徑,來自尚普咨詢《2022年AI 2000全球前20強機構》數(shù)據(jù)顯示,全球前20強AI領域機構中有12家為高校,而在產(chǎn)業(yè)化落地過程中,大量公司結合不同的應用場景推出了自己的智能對話產(chǎn)品,比如清華大學孵化的聆心智能、百度、阿里、騰訊、谷歌、Meta、亞馬遜等等。此外,中美之間的AI人機對話系統(tǒng)也存在語言系統(tǒng)的差異,由于英文的AI相關技術研究在開源文化理念上做的更好,也更容易獲取到高質(zhì)量的數(shù)據(jù),國內(nèi)要率先跑出更高級別的AI人機對話系統(tǒng),也離不開業(yè)界的社區(qū)建設和人才體系的進一步完善??梢姡⒎悄硞€企業(yè)及科研機構能夠獨立完成的事情,要率先跑出L5,需要集合更多力量,而在此次《AI對話系統(tǒng)分級定義》背后,我們能夠看到這種力量正在生長。

(參與本次《分級定義》的研究機構和研究者包括(以姓氏拼音排序),科大訊飛AI研究院副院長陳志剛,京東集團副總裁、IEEE Fellow何曉冬,清華大學長聘副教授黃民烈,阿里達摩院總監(jiān)、資深算法專家李永彬,華為諾亞方舟語音語義首席科學家、ACL Fellow劉群,華為諾亞方舟實驗室高級研究員糜飛,百度主任架構師牛正雨,騰訊AI Lab總監(jiān)史樹明,中國人民大學副教授宋睿華,阿里達摩院總監(jiān)孫健,小米技術委員會主席、AI實驗室主任王斌,百度技術委員會主席吳華,美團自然語言處理中心總監(jiān)武威,中國人民大學副教授嚴睿,中國科學院深圳先進技術研究院副研究員楊敏,OPPO高級技術總監(jiān)楊振宇,哥倫比亞大學助理教授俞舟,北京師范大學新聞傳播學院院長張洪忠,哈爾濱工業(yè)大學副教授張偉男,北京聆心智能總監(jiān)鄭銀河,三星電子中國研究院語言技術部技術總監(jiān)朱璇。)


反饋
聯(lián)系我們
推薦訂閱