8月30日,由創(chuàng)業(yè)邦主辦的2023AIGC技術(shù)應(yīng)用大會在深圳舉行。本屆大會以“元載萬物·智啟新界”為主題,旨在聚焦AIGC技術(shù)的創(chuàng)新應(yīng)用,打造深入探索AIGC產(chǎn)業(yè)落地的交流平臺。
會上,中科聞歌首席戰(zhàn)略官、國際聞歌總裁郭驊,海天瑞聲CTO黃宇凱,達(dá)觀數(shù)據(jù)CTO紀(jì)達(dá)麒,春雨醫(yī)生CTO、聯(lián)合創(chuàng)始人曾柏毅進(jìn)行了一場名為《應(yīng)對策略——AI時代下的數(shù)據(jù)新機(jī)遇》的圓桌對話,圓桌對話由達(dá)晨財智合伙人任俊照主持。精彩觀點如下:
1.AI時代,數(shù)據(jù)給企業(yè)帶來機(jī)遇的同時也伴隨著技術(shù)層面、數(shù)據(jù)安全以及觀念轉(zhuǎn)變等方面的挑戰(zhàn),多模態(tài)數(shù)據(jù)的處理是在線醫(yī)療行業(yè)發(fā)展的關(guān)鍵。
2.針對數(shù)據(jù)隱私安全問題,首先要對數(shù)據(jù)級別進(jìn)行劃分,采取不同的處理方式,但本質(zhì)仍要在隱私合規(guī)的框架內(nèi)執(zhí)行。
3.打破數(shù)據(jù)孤島的難點不在技術(shù),而在人的觀念與組織架構(gòu)方面的障礙。
4.高質(zhì)量數(shù)據(jù)獲取成本高,因此在內(nèi)部處理時可以去反過來,不是從數(shù)據(jù)層,而是從模型端處理,增強(qiáng)其穩(wěn)定性。
以下為對話內(nèi)容,由創(chuàng)業(yè)邦整理:
任俊照:在AI這個新時代,數(shù)據(jù)是新的黃金。數(shù)據(jù)對企業(yè)驅(qū)動商業(yè)的時候,會有什么樣的機(jī)遇?也會有什么樣的挑戰(zhàn)?請各位分享一下。
郭驊:首先我覺得數(shù)據(jù)這塊概念比較廣,沒有提煉過的,雜亂無章的、非結(jié)構(gòu)化的數(shù)據(jù),它的價值不一定大,怎么樣能夠把它從這種Raw Data變成真正有用的信息,變成真正能夠幫助決策的有價值的數(shù)據(jù),這點是比較重要的。
黃宇凱:問題中提到“數(shù)據(jù)是黃金”,其實說得更多的一個比喻是“數(shù)據(jù)是石油”。把雜亂無章的數(shù)據(jù)收集后整理變成結(jié)構(gòu)化的高質(zhì)量數(shù)據(jù),算法模型再從高質(zhì)量數(shù)據(jù)中提煉出一些知識,最后落地到場景中去,賦能行業(yè)?;诖宋矣X得是有很多機(jī)遇的,就看各企業(yè)能不能抓住這樣的機(jī)遇。
伴隨機(jī)遇而來的就是挑戰(zhàn)。其中一個就是技術(shù)層面,有了高質(zhì)量數(shù)據(jù)后如何與算法、算力結(jié)合,這個過程中也有一些需要克服的難題。第二個挑戰(zhàn)是數(shù)據(jù)的合規(guī)與安全層面,大家都能意識到數(shù)據(jù)的價值,數(shù)據(jù)的一些確權(quán),特別和隱私相關(guān)的一些問題也越來越被重視,包括國家層面也是出了很多的法律法規(guī)來規(guī)范這件事情。這里面其實對于要想抓住數(shù)據(jù)機(jī)遇的這種企業(yè)來說,挑戰(zhàn)是不小的。
紀(jì)達(dá)麒:我也很同意前面兩位專家的觀點,我再補充幾點,首先從機(jī)遇來說,基于數(shù)據(jù)挖掘可以有一些信息來支撐我們做很多的決策。但可能基于剛剛提到的技術(shù)上的原因,數(shù)據(jù)的隱私性問題,數(shù)據(jù)的實際使用情況并沒有太好。另外還有就是我們?nèi)说脑?,可能很多企業(yè)它已經(jīng)習(xí)慣了從上到下傳統(tǒng)方式,當(dāng)我們希望用一種新的方式去改變它的時候,其實大家是有些排斥或者說不習(xí)慣的。
曾柏毅:從醫(yī)療的角度來說,我覺得這個機(jī)遇和挑戰(zhàn)都是一個點,多模態(tài)。現(xiàn)有的AI或者大模型,它在處理多模態(tài)的數(shù)據(jù)方面其實還是有一些問題的。但在醫(yī)療領(lǐng)域,特別是想要獲得一個比搜索引擎好10倍的服務(wù)體驗,基本上來說多模態(tài)是必不可少的,所以這里面其實是機(jī)遇和挑戰(zhàn)并存,就看哪一家能夠真的把這個問題給解決。
任俊照:剛才幾位嘉賓都有講到這個數(shù)據(jù),關(guān)于數(shù)據(jù)隱私、安全這些問題,我很想問一下像春雨醫(yī)生,包括達(dá)觀,就針對數(shù)據(jù)的這種隱私安全問題是怎么去平衡的?有沒有什么經(jīng)驗可以分享一下?
曾柏毅:我們有很多用戶患者的數(shù)據(jù),這個數(shù)據(jù)如果你去分的話,它其實也分成幾種。一種是高度隱私數(shù)據(jù),就是通過這個數(shù)據(jù)能夠推導(dǎo)出這個人;有一些可能相對,你可能沒有辦法定位這個人,但是如果這些數(shù)據(jù)泄露出去也不好,比如患病部位照片;還有就是相對來說屬于弱一點的隱私數(shù)據(jù),比如行為數(shù)據(jù)、用戶偏好。對于這三種不同的數(shù)據(jù),它處理方式是不一樣的。我們會把強(qiáng)隱私信息全部隱藏,而對其他用戶問診有幫助的一些數(shù)據(jù),也傾向于在用戶允許的情況下,把它給脫敏公開出來。
紀(jì)達(dá)麒:我們的做法其實跟剛才曾總也是比較類似的。首先來說其實數(shù)據(jù)是要分級別的,對能夠唯一確定出這個人的數(shù)據(jù),我們是能不碰就不碰。如果真需要的話,我們也會進(jìn)行一些加密處理并給它弄一個ID之類的。其實很多應(yīng)用挖掘是針對某些群體,挖掘出用戶的共同特征,而不是針對某一個人,所以往往是在模型生成最后需要具體接觸某一個人的時候才會需要個人信息。在這之前我們已經(jīng)把它都全轉(zhuǎn)化成ID,到最后真需要使用的時候,也只有極少數(shù)人能知道這些數(shù)據(jù)的真實情況。
任俊照:數(shù)據(jù)它存在于各行各業(yè),這些數(shù)據(jù)如果進(jìn)行協(xié)同共享,能產(chǎn)生更大的價值,但其實對我們每個做AI的企業(yè)來說可能也是一個非常大的挑戰(zhàn)。所以我想問怎么去打破這個數(shù)據(jù)的孤島,如何實現(xiàn)行業(yè)數(shù)據(jù)共享?另外國家今年也成立大數(shù)據(jù)局,這個是不是未來會有利于數(shù)據(jù)共享的推進(jìn)?我想問一下這個郭總,你分享一下。
郭驊:中科聞歌做了一些政府的項目,想要打破這種數(shù)據(jù)孤島。這個過程中,我們發(fā)現(xiàn),除了技術(shù)上的挑戰(zhàn),更多挑戰(zhàn)來自于人的觀念、組織架構(gòu)上的障礙。很多技術(shù)手段是可以實現(xiàn)數(shù)據(jù)共享,但在應(yīng)用層面,不管企業(yè)也好,政府部門也好,于觀念上面打破各自的壁壘,可能是更難的。
任俊照:因為數(shù)據(jù)的質(zhì)量對AI這個算法模型還是很重要的,所以在數(shù)據(jù)的收集、清洗處理這一塊,怎么確保數(shù)據(jù)的高質(zhì)量性?黃總你分享一下。
黃宇凱:關(guān)于怎么保證這個數(shù)據(jù)質(zhì)量,其實海天這么多年來確實有一套我們的經(jīng)驗,分開來講,其實就是在整個數(shù)據(jù)生產(chǎn)的三個主要環(huán)節(jié)里面分別體現(xiàn)出來的。
第一個環(huán)節(jié)其實是設(shè)計環(huán)節(jié),這個環(huán)節(jié)需要我們?nèi)ダ斫庾罱K這個算法模型在做訓(xùn)練的時候需要什么樣的數(shù)據(jù),什么樣的結(jié)構(gòu),什么樣的組成方式?這個數(shù)據(jù)集的分布它的覆蓋是怎么樣的?第二環(huán)節(jié)是在這個數(shù)據(jù)收集或者數(shù)據(jù)采集的階段,從各個源頭去收集數(shù)據(jù)的時候,過一個最基本的一個質(zhì)量閾值,保證數(shù)據(jù)質(zhì)量基本能達(dá)標(biāo)。第三個環(huán)節(jié)是數(shù)據(jù)處理的環(huán)節(jié),在這個環(huán)節(jié)我們可能需要一個好的平臺來規(guī)范數(shù)據(jù)的流轉(zhuǎn),其次也可以通過模型做一些交叉對比檢查來判斷數(shù)據(jù)質(zhì)量是否達(dá)到要求。
紀(jì)達(dá)麒:這個問題我也來解釋一下,為什么我們獲取高質(zhì)量數(shù)據(jù)這么難?首先從數(shù)據(jù)收集環(huán)節(jié),你的數(shù)據(jù)可能是來自方方面面的,中間的處理環(huán)節(jié)就更復(fù)雜了,怎樣提取到里面最重要又核心的數(shù)據(jù)?數(shù)據(jù)分析之后,我們還要保證它持續(xù)的一個高質(zhì)量。最后數(shù)據(jù)可能會有問題,但是判定它哪個環(huán)節(jié)發(fā)生問題或者收集的數(shù)據(jù)中哪一些數(shù)據(jù)是有問題的也是一個復(fù)雜的過程。
具體的處理方法我這邊也不再多說了。其實我還想再提一個可能大家容易忽視的問題,我們強(qiáng)調(diào)高質(zhì)量的數(shù)據(jù),但是在實際的獲取過程中,它的成本是很高的。所以我們在內(nèi)部處理的時候,可以去反過來,不是從數(shù)據(jù)層,而是從模型端上處理,模型你能不能不要那么多的數(shù)據(jù),就能達(dá)到比較好的效果,你能不能有一些臟數(shù)據(jù),你也可以做得比較好,效果也不差。
任俊照:好,接下來話題我們想問一下海天的黃總,因為你們一直在給很多客戶提供各種各樣的數(shù)據(jù)、數(shù)據(jù)集,像今天這種大模型出來以后,有新的場景需要有新的數(shù)據(jù),在這里你們是怎么不斷去根據(jù)市場的變化來為客戶提供有價值的數(shù)據(jù)的?你們是不是能預(yù)測到未來是一個什么樣的新的場景,從而反向積累數(shù)據(jù)?麻煩你分享一下。
黃宇凱:對,我們肯定會投入一些精力去預(yù)測,另外,因為我們的客戶也是遍布全世界,AI或者互聯(lián)網(wǎng)企業(yè)的巨頭基本都是我們的客戶,所以在和客戶的交互過程中也能獲得有價值的第一手資料。這些客戶對于前沿場景的預(yù)測、以及這些場景里面對數(shù)據(jù)的要求是什么,對我們來說都是非常寶貴的資料。
任俊照:接下來我問一下達(dá)觀的紀(jì)總。這種大模型出來以后,對你們本身服務(wù)客戶的這種數(shù)據(jù)挖掘上面,有沒有產(chǎn)生一次新的這種場景,包括新的一次探索,或者是客戶會有一次新的這種需求,來反向?qū)δ銈冇兴@種訴求?你分享一下。
紀(jì)達(dá)麒:大語言模型出現(xiàn)之后,我們對原有的一些產(chǎn)品應(yīng)用做了很大的改進(jìn),在文本生成這一塊,我們也開始有一些產(chǎn)品上的布局。其實我們公司核心還是做NLP,但我們覺得很多客戶數(shù)據(jù)并沒有被充分挖掘,尤其是文本數(shù)據(jù)。隨著大語言模型出現(xiàn),我們在處理文檔這一塊的成本降低,或者說它的效率提高之后,未來其實我們是有更多的一些場景文本,可以納入到我們達(dá)觀可處理的范圍之內(nèi)。所以我們覺得大語言模型,對于我們整個NLP在企業(yè)里面大范圍應(yīng)用還是有比較大的促進(jìn)作用。
任俊照:未來對于企業(yè)輔助決策上面,有沒有這種場景創(chuàng)新的可能性?
紀(jì)達(dá)麒:輔助決策其實就要基于數(shù)據(jù)來做決策。而數(shù)據(jù)我們剛才提到說,可能有很多的是我們已有的結(jié)構(gòu)化數(shù)據(jù),但其實更大量的是非結(jié)構(gòu)化數(shù)據(jù),尤其是文本類數(shù)據(jù),如果這些文本數(shù)據(jù)可以更好、更快、更充分地挖掘的話,就能夠有更多的數(shù)據(jù)來去給我們決策層給予支撐,所以說有這樣的一個大模型,對決策來說會有一個很大的幫助。
任俊照:那我們再問一下春雨醫(yī)生的曾總,AI跟醫(yī)療的計劃應(yīng)該是很早就開始了,現(xiàn)在大模型出來以后,AI跟醫(yī)療的這種結(jié)合,這種探索到底能不能走得下去?
曾柏毅:我們其實在這個大模型出來以后,也聚焦在兩個環(huán)節(jié)的運用,一個是用戶體驗的提升,另一個是降本增效。用戶體驗的提升其實我們找到一個場景,可以用這個大模型來去幫助大專家來提前獲取用戶的一些信息,這樣在實際問診環(huán)節(jié)專家和患者的溝通就會變得特別的高效。另外其實還有一個場景就是降本增效,即用大模型來做問診質(zhì)量的評估。以前我們是靠健康顧問員工和專家團(tuán)醫(yī)生結(jié)合去解決,現(xiàn)在就相當(dāng)于把一部分的人力用大模型來去替代。
所以我們看到可能直接去使用人工智能去解決用戶的問題,目前來說還比較遠(yuǎn),但是它有點像自動駕駛,你可以先做一些自動泊車這樣的應(yīng)用,待時機(jī)成熟的時候我們再加強(qiáng)人工智能的應(yīng)用。
更多活動大會一手信息,歡迎加入創(chuàng)業(yè)邦會員,現(xiàn)場聆聽一線投資人、頭部企業(yè)家精彩分享,掌握最新創(chuàng)投趨勢!