五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

一文詳解!深度學習在多媒體領(lǐng)域的最新進展

深度學習已經(jīng)解決一切了么?

編者按:本文來自微信公眾號“東沙湖基金小鎮(zhèn)”(ID:gh_1b5692ba4b3a),創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。

「云上沙湖」云課堂邀請復旦大學計算機科學技術(shù)學院教授、博士生導師金城,就“深度學習在多媒體領(lǐng)域的最新進展”這一主題做出分享。

一、什么是深度學習

人工智能在近幾年非常熱門, AlphaGo事件,不僅給中國大眾普及了人工智能的最新進展,而且也讓更多的人開始關(guān)注人工智能的發(fā)展。

人工智能最經(jīng)典的一個問題是分類的問題。這里我舉一個挑西瓜的例子來解釋說明一下。

吃瓜的分類問題

根據(jù)我們挑西瓜的經(jīng)驗,認為密度大的(重的)、紋路清晰的、拍打回聲清脆的西瓜為好瓜,但是有些瓜可能密度不是那么大,但紋路很好,吃起來也是個好瓜,那怎樣去判斷瓜的好壞呢?我們可以設(shè)計一個以西瓜為樣本的模型,一堆西瓜分別測出密度、花紋和拍打回聲,密度比較大的西瓜記成1,花紋比較清晰把它記成1,如果響聲不清脆把它記成0,符合要求是1,不符合要求是0,這樣每個西瓜都有三元特征。然后再來嘗一下西瓜的味道,好吃的寫成1,不好吃的寫成0,形成標簽,最終組成一個用0和1組成的三維的數(shù)據(jù),得出特征值。那么這個模型能做什么事情呢?當這個模型有了足夠多的樣本以及對應的標簽以后,模型通過不斷的學習,可以判斷它是不是好瓜,這樣通過足夠的樣本來學習的方式,就是機器學習的一種方法。

解決了分類的問題之后,接下來我們再通過貓狗問題的案例,來了解圖像識別分類的基礎(chǔ)問題。

貓和狗的分類問題

當拿到一張貓或狗的照片,首先,要獲取照片里的信息,把獲取的信息轉(zhuǎn)換為機器能夠認識的信息,接著通過圖像本身具有的特征,提取有用的特征,假設(shè)我們用紅色的點表示狗的特征,藍色表示貓的。機器通過之前的訓練會得到一種識別規(guī)則,通過此識別規(guī)則可以得到特征分類,最后機器把拿到的信息放在特征空間中對被識別的圖像進行分類,從而辨別出圖像上是貓還是狗。

絕大部分的圖像分類問題都是這樣解決的,甚至是下圍棋,圍棋盤上有很多點,通過計算棋子放在哪個點的收益最高,從而進行抉擇,最后贏得比賽。

人工智能首個重要應用:手寫數(shù)字識別

以上兩個案例都還是比較基礎(chǔ)的分類問題,人工智能在實際應用中遇到的問題就要復雜的多。

在美國存錢和寄件是需要手寫填單,機器不僅要區(qū)別還要識別出手寫的數(shù)字,到上世紀90年代末,已經(jīng)有超過10%的美國支票識別采用神經(jīng)網(wǎng)絡模型來解決這類問題。先把一張圖片變成高維空間里面一個點,在這個高維空間里面找到合適的模型,模型里的參數(shù)通過大量的數(shù)據(jù)訓練,可以學習一個合理的映射,使得這張圖能夠映射成為十維空間一個點(也就是一個十維的向量),對應數(shù)字的那一維記作1,其他維度的值是0。這樣如果輸入一張帶數(shù)字的圖片,經(jīng)過這個機器之后會得到適合的十維向量,然后我就去找這個向量的十個維度里面數(shù)值最大的是幾,那就是模型對這個數(shù)字是多少的一個判斷。

深度學習原理

第三次人工智能浪潮已經(jīng)開啟。當1956年人工智能開始起步的時候,人們更多是在說人工智能;在第二次浪潮期間,機器學習成為主流;這一次則是深度學習,是能夠自我學習、自我編程的學習算法,可以用來解決更復雜的任務。

深度學習究竟意味著什么?從概念定義上來看,深度學習是一種能夠讓機器將從某一情境中的所學應用到學習新情景中的學習過程。深度學習的產(chǎn)物是可遷移的,包括某一領(lǐng)域中的內(nèi)容知識,技能,情感,態(tài)度,以及如何、為何、何時應用這些知識來發(fā)現(xiàn)問題和解決問題的綜合品質(zhì)。

人類是很神奇的動物,一個3、4歲的小孩子,當你教他認識過貓和狗之后,他就能識別出照片里的是貓還是狗。這個原理是什么呢?其實我們也不夠清楚。我們大概可以認為我們的眼睛就是很多個中心,每個視覺細胞組成當中的一部分。若干個感光的細胞會疊到同一個神經(jīng)元上,若干個神經(jīng)元再疊到一個高層的神經(jīng)元,最后讓我們的大腦來做一個決策和判斷,這是什么樣的物體。

而大腦在進行識別圖像時,是依靠圖像具有的本身特征先將這些圖像分了類,然后通過各個類別所具有的特征將圖像識別出來。當看到一張圖像時,我們的大腦會根據(jù)存儲記憶中已經(jīng)分好的類別進行識別,感應到是否見過此圖像或相似的圖像。

人工智能和人很像卻又不像,我們身上的基因是一代又一代人類存續(xù)下來的,也許我們的祖先看到過的東西是印在基因里的,可以幫助我們?nèi)プR別和判斷。

再舉個例子,當我們學開車時,汽車在高速運動,我們需要快速判斷向左還是向右,這個過程其實就可以看作是神經(jīng)網(wǎng)絡訓練的過程。人的感知碰到火會感覺到痛,是因為手指神經(jīng)元感受到了痛,神經(jīng)元一直從手迅速傳遞到大腦,大腦作出一個指令,把手指往回撤,這種經(jīng)驗被寫進基因里傳下來,這些都是神經(jīng)訓練的結(jié)果。

三大核心問題突破

深度學習在這三個核心問題的突破,使得世界變得很不一樣。

優(yōu)化策略

優(yōu)化策略問題,神經(jīng)網(wǎng)絡越深效果越好,但隨著神經(jīng)網(wǎng)絡的加深,訓練過程也會越來越難。深度學習也是一樣的道理,想要處理復雜的工作,就需要復雜的神經(jīng)網(wǎng)絡,需要很強的深度學習能力。復雜的神經(jīng)體參數(shù)會越多,參數(shù)變多就需要更多的參數(shù)量來進項訓練。

數(shù)據(jù)規(guī)模

近年來全世界的人都在為機器學習或者數(shù)據(jù)學習做數(shù)據(jù)標注,數(shù)據(jù)規(guī)模越來越大。我們?nèi)粘I畎l(fā)的朋友圈其實是在為騰訊做數(shù)據(jù)標注,比如透過你去吃魚的朋友圈,就可以得知你可能是愛吃魚的,透過你經(jīng)?;顒拥牡攸c,可以分析出你大概的職業(yè),還可以通過微博的點贊量來分析僵尸粉的數(shù)量等等。尤其是通過攝像頭提供的數(shù)據(jù),對我們國家的治安有很大的貢獻,破案率明顯提高。

計算能力

早年的顯卡大多用于電競游戲,而現(xiàn)在主要用于商業(yè)用途,并且必須需要達到一定的配置才可以。CPU是串聯(lián)計算的方式,GPU是并行計算,比如說有一個任務,從1一直加到100,CPU是1+2,2+3,3+4,這樣一個一個加過去,而GPU的做法是并行的,并行的GPU的廣泛應用使得深度學習亟需的快速并行計算成為可能。

二、深度學習在多媒體領(lǐng)域的應用

在圖像識別上的應用

2012年出現(xiàn)Alex Net,是我們認為深度學習劃時代意義時刻的來臨,它的出現(xiàn)改變了人們對于神經(jīng)網(wǎng)絡的看法。由于人工智能的廣泛應用,現(xiàn)在的大企業(yè)特別重視并密切關(guān)注相關(guān)領(lǐng)域的發(fā)展,不惜花高薪去聘請專業(yè)的從業(yè)人員。

人臉識別

ImageNet是非常著名的物體識別的比賽,它的數(shù)據(jù)集里面有1500萬張圖片,一共分為2.2萬類。從中選一張照片,有5次識別的機會,只要猜對一次就算對,如果有5次都錯,就是錯的。在2012年之前,大部分模型識別的準確率都停留在75%左右,到AlexNet(2012)出現(xiàn)提以后準確率升了10%左右,之后的2013、2014年的參賽模型都是按照AlexNet來算,錯誤率有所降低,已經(jīng)接近甚至低于人類識別的錯誤率5.1%。

現(xiàn)在人工智能領(lǐng)域的競爭已經(jīng)進入到白熱化階段,人臉識別成為非常重要的挑戰(zhàn),在LFW數(shù)據(jù)集中,人類的識別率是在97.53%,人工智能的識別率最高能達到99.77%(2015年),但這僅僅是在5749個人,13233張人臉照片中進行識別。當數(shù)據(jù)集提升到了800萬個人,2億人臉照片時,識別率就降低到了95.12%(2015年),那時候的數(shù)值還不能滿足公安系統(tǒng)對于人臉識別的超高準確率要求,而現(xiàn)在的人臉識別已經(jīng)基本可以達到了。張學友開演唱會就能抓逃犯,已經(jīng)成為了家喻戶曉的故事。

圖像識別、描述

圖像識別還有很多有趣的應用,不僅可以通過對應的話來描述一張內(nèi)容為“一只鳥在天上飛”的圖片,而且每個詞對應圖片上的哪個位置都能描述的很清楚,通過這樣的描述,機器人可以明確是誰下達了什么樣的任務,從而更準確的執(zhí)行任務。

海量圖像的分別和識別現(xiàn)在已經(jīng)可以廣泛應用,例如某寶的拍立淘功能,只需要用手機拍一下商品,就知道這件商品在淘寶上的價格,方便消費者來選購。除了識別之外,通過給照片標注信息,還可以做檢索工作,比如設(shè)計師想找一張有一座山,天空有太陽的圖片,當搜索山和太陽,會出現(xiàn)很多照片,很難立刻找到符合要求的,但有了圖像描述之后,我搜索右上角太陽之類的,就會收到很多有趣的圖片了,同時機器還可能會實現(xiàn)看圖寫畫。

圖像處理上的應用

超分辨率

超分辨率在美國電影里面經(jīng)常看到,把調(diào)取的監(jiān)控視頻放大再放大,就可以看清人臉。這個事情,以前在現(xiàn)實生活中是很難實現(xiàn)的,低分辨率的數(shù)據(jù)量比較小,它把很多有用的信息都給去掉了,所以很難把低分辨率的數(shù)據(jù)轉(zhuǎn)換到高緯度的數(shù)據(jù)?,F(xiàn)在通過深度學習,超分辨率已經(jīng)可以實現(xiàn)了。把低分辨率做個輸入,高分辨率做個輸出,通過輸入足夠多的數(shù)據(jù)訓練出來模型,知道模型的參數(shù)段,再把所有的圖降成低分辨率的圖,變成原來1/4大小,然后把輸入和輸出換一個位置,就可以訓練模型從一張低分辨率的圖去得到一張高分辨率的圖。

生成式對抗網(wǎng)絡

最近特別火的生成對抗網(wǎng)絡(GAN),是一種深度學習模型。模型主要通用框架有(至少)兩個模塊:生成模型(Generator)和判別模型(Discriminator)的互相博弈學習產(chǎn)生的相當好的輸出。我們可以把它們想象成一個是做假鈔的,一個是警察。做假鈔的畫了張100塊,這100塊經(jīng)過警察的判斷是假的,又被打回去,接著做假鈔經(jīng)過不斷改進,又畫出一張假鈔,再拿到警察那里,還是被判定為假的。畫的人成品越來越好,負責判斷的經(jīng)驗也越來越豐富,這兩個人互相促進,相互對抗,形成矛和盾的關(guān)系。

從文本生成圖像

生成對抗網(wǎng)絡的出現(xiàn)讓圖像在處理應用上得到了很大的進步,比如說超分辨率越來越清晰了,還有看圖說話和從文本生成圖像的能力也得到提升。之前是看圖說話,現(xiàn)在可以看話畫圖,輸入“明亮下垂的黃色花瓣,黃色花蕊”,計算機通過之前積累的對花的描述后,就可以畫出來各種不同的“明亮下垂的黃色花瓣,黃色花蕊”的花。

從色塊生成圖像

到了2017年,出現(xiàn)了從色塊生成圖像的工作,紫色表現(xiàn)是路面,綠色表示樹,藍色是車,紅色是人,通過不同的色塊來生成圖像。這些圖像是真實世界當中不存在的,它是依據(jù)色塊來畫出來的所謂真實的照片,無中生有的作品。雖然生成的圖像還不是很完美,但也已經(jīng)非常驚艷。

同樣是在2017年,美國著名的Reddit論壇上出現(xiàn)了Deepfake(換臉),用一張圖上的人臉替換另一張圖上的人臉,隨后掀起了換臉應用的熱潮,一些人不滿足于換臉,開始通過機器生成非真實的人臉圖像和房間照片等,甚至通過人臉提取出的輪廓信息,讓蒙娜麗莎、愛因斯坦都動了起來。以前我們總說眼見為實,而現(xiàn)在人工智能生成的一些圖像已經(jīng)可以做到以假亂真,你看的圖像不一定就是真實存在的,這也引發(fā)了一些類似社會安全和信譽度等比較有爭議的社會問題,所以人工智能的治理和倫理方面的工作也變得越來越重要。

估算密集場景中的人體骨架

很多時候需要捕捉場景內(nèi)人物的運動姿態(tài),以前都是通過人臉識別來判斷的,而現(xiàn)在可以通過機器來估算密集場景中的人體骨架。除了人體骨架的估算之外,還可以進行大場景高密度的人臉識別,適用于大型場景里的人物的識別、監(jiān)測和抓取。有一個實驗室做了一些腦洞大開的工作,通過高速攝像機拍攝光的發(fā)射器發(fā)射出來的光子,根據(jù)在墻上反射后的效果,可以判斷障礙物的位置和動作,可以進行墻后人體姿態(tài)的識別。

在自然語言理解上的應用

以前自然語言比較難變成可計算的東西,在Word2Vec出現(xiàn)后,自然語言變成可計算,很多算法可以用深度學習的方法來做。比如說國家和首都這個詞,假設(shè)把它簡化成二維空間,保留兩個詞之間的關(guān)系,映射到一個空間中去,讓向量的長度和方向差不多,并且從向量的角度來講他是等同的,當把國家波蘭減去華沙得到的向量的值就可以等于土耳其減去安卡拉。當這個映射建成了之后就可以解決這樣的問題,例如北京之于中國相當于華盛頓之于誰?通過映射,可以得出是美國,基于這個映射很多復雜的問題都可以解決了,好多工作就可通過計算的方式來處理了。

現(xiàn)在人工智能領(lǐng)域應用最好的是人臉識別,其次是自然語言的應用,而自然語言的應用遠遠超過了其他圖像和視頻應用,它在落地性方面可能做得更好。

下圖是餐廳的評論,單從字面上看,你難去分辨清楚哪些是人寫的,哪些是機器寫的。有些APP下載的評論區(qū),你會發(fā)現(xiàn)那些評論都寫的胡說八道,那些就是比較低端的刷榜行為。所以不僅是你看的到有可能是假的,有可能你讀的文章也是假的。

下面這段話是我通過網(wǎng)站生成的文章,只需要輸入“復旦IT同學會月度分享”這幾個字,就可以生成這段話。在內(nèi)容方面,摘要和主題部分表述還可以,段落和中心思想的內(nèi)容就沒那么的順暢。所以目前的人工智能大多數(shù)還是用于重復性的工作,降低人的工作,提升工作效率,但是在創(chuàng)造性方面還有很大的差距?,F(xiàn)在一些對于創(chuàng)造性要求不是很高的新聞稿,類似體育比賽的新聞稿已經(jīng)可以用人工智能來完成了。我們經(jīng)常會開玩笑說是人工智障,這也側(cè)面說明了現(xiàn)在的人工智能的短板。當你和智能音箱對話的時候,你會發(fā)現(xiàn)它是沒有記憶的,同樣的問題當你重復提問時,它的回答都是不一樣的,而且回答的內(nèi)容上也是沒有邏輯關(guān)系的。

在圍棋上的應用

從本質(zhì)上來講,AlphaGo可以想象成通過輸入棋子下在棋盤不同位置的圖像,判斷棋子下在那個地方可以受益最大化的過程。棋盤已經(jīng)定好,白子和黑子都落子之后,這局棋誰贏誰輸不需要棋譜都可以計算出來,這是圍棋本身的規(guī)則決定的。因為當深度學習的模型看夠了足夠多的棋局數(shù)據(jù)后,會根據(jù)當前期盼的形式來做一個算力的結(jié)果,通過對全局觀的考慮,快速算出勝負手所在的地方。

有一些游戲,通過深度學習短時間的訓練,游戲成績已經(jīng)可以超過程序開發(fā)者。所以說只要規(guī)則是固定的,通常來說人類的一些相對簡單和重復的工作被計算機取代是非??赡艿?,在某些方面上計算機甚至會比人類完成的更出色。

在省電上的應用

除了算力算法之外,能耗問題也被大家所關(guān)注,為了減少在能耗上的開銷,有一些地方成為服務器機房選址的熱門地點,例如阿拉斯加、西伯利亞等,因為這些地方足夠冷,可以省掉散熱的空調(diào)費用,而且水力資源豐富,用電也比較便宜。5G基站的能耗大概是傳統(tǒng)基站的幾倍,預計整個通信行業(yè)的能耗比例在全球的占到3%左右,互聯(lián)網(wǎng)相關(guān)的服務器能耗占20%左右。巨大的能耗和因能耗所產(chǎn)生的高額費用,讓不少運營商在考慮通過關(guān)閉部分服務器來節(jié)約成本,既能保證用戶體驗還能有效節(jié)約成本的情況下,在什么時候關(guān)閉哪些服務器成為問題。被Google收購的DeepMind公司給出了解決方案,通過預測1小時訪問量和服務器使用量,來調(diào)整開關(guān)機的情況,有效地為Google節(jié)省了開銷。

在軍事領(lǐng)域的應用

2009年美國DARPA為代表的多國軍事科學研究機構(gòu)已經(jīng)在利用深度學習技術(shù)進行軍用目標識別方向開展了相關(guān)研究。美軍在智能化電磁頻譜感知與偵察領(lǐng)域的最新進展是DARPA所支持的“對抗環(huán)境中的目標識別與適應”(TRACE)專項,用深度學習和遷移學習等智能算法解決對抗條件下態(tài)勢目標的自主認知難題,幫助指揮員快速定位、識別目標并判斷其威脅程度。

在醫(yī)療領(lǐng)域的應用

深度學習在醫(yī)療領(lǐng)域的應用上很大問題是數(shù)據(jù)量不夠,我們以前接觸過全國肝病CT的數(shù)據(jù)最多的醫(yī)院也就只有三萬張,在醫(yī)學圖像領(lǐng)域,沒有10億張的照片做為數(shù)據(jù)集,很難做得好,所以現(xiàn)在很多研究的重點都放在了如何在數(shù)據(jù)量不多的情況下把其他領(lǐng)域里相關(guān)的經(jīng)驗用到這個領(lǐng)域上。目前,多種分析技術(shù)已經(jīng)在DNA分析、癌癥預測等方面產(chǎn)生影響。

在智能制造領(lǐng)域的應用

傳統(tǒng)機械臂都是固定的,抓麥克風的機械臂只抓麥克風,工廠如果生產(chǎn)一樣東西就得生產(chǎn)相應的機械臂,這樣費時費力。現(xiàn)在通過深度學習的訓練,讓機械臂隨機抓各式各樣的東西,抓的起來的記作1,抓不起來的記作0,這樣訓練的次數(shù)多了,機械臂就可以抓起格式各樣的東西了。

人工智能有的比我們強,有的比我們?nèi)?。智能可以分為三中類型?/p>

第一種,感知智能,對視覺、聽覺、觸覺等感知能力的模擬。

第二種,認知智能,對推理、規(guī)劃、決策、學習等認知能力的模擬。

第三種,創(chuàng)造性智能,對靈感、頓悟等能力的模擬。

目前自認語言的商業(yè)應用會更快一點,因為他是比較規(guī)則和結(jié)構(gòu)化的,而視頻、音頻是非結(jié)構(gòu)化的。語音是一維的信號,圖像是二維的信號。目前觸覺方面的研究相對較少,但在機器人領(lǐng)域,觸覺是很重要的。

三、深度學習已經(jīng)解決一切了么?

深度學習已經(jīng)解決一切了么?還遠沒有,還有很多問題等待解決。

模型問題

比如模型通過給出的數(shù)據(jù)自己學習,學習出一個模型,可能你也沒辦法知道他學習出來的這個模型是什么樣的,這里面有很多不可控的因素。谷歌相冊的功能,通過上傳的照片給出標簽,但并不是每張照片的標簽都很準確,一些標簽被認為帶有種族歧視的色彩,這在當時引起了很大的爭議。

噪音問題

還有噪音的問題,有的圖像,當沒有噪音干擾的情況下判定是熊貓,但在加了噪音之后,很多算法就會產(chǎn)生錯誤,判斷為猴子。有一篇非常著名的文章叫做《像素攻擊》,講的就是在圖片里面改一個像素就能把結(jié)果輸錯。最近有一篇文章中表明,可以通過用改變?nèi)四樥掌系南袼貋肀Wo隱私,這樣聽著很酷,但作用其實不大,因為在知道你用改變像素的手法處理照片之后,可以把新的照片打上新的標簽,通過這個新的標簽還會知道是你。

倫理問題

隨著深度學習的不斷深入,很多應用的出現(xiàn)讓這方面的倫理問題越來越受到重視,比如說出事故時,誰來為機器的行為負責。

Tesla自動駕駛今年6月出現(xiàn)了事故,錯把白顏色的貨車認為是白云,從而引發(fā)車禍,而且這樣的事故并不是首次發(fā)生。還有剛才舉過類似的例子,通過深度學習在圖像、自然語言方面應用,替換面部信息、替換聲音,甚至是重新生成虛擬圖像等,這些都是我們生產(chǎn)生活安全的潛在威脅,也需要我們進行更多關(guān)于技術(shù)、法律與道德的思考。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。


反饋
聯(lián)系我們
推薦訂閱