久久久久无码精品,四川省少妇一级毛片,老老熟妇xxxxhd,人妻无码少妇一区二区

專訪百度IDL林元慶:百度大腦如何在人臉識(shí)別上戰(zhàn)勝人類

時(shí)間:2024-06-26 09:46:46 經(jīng)驗(yàn)訪談 我要投稿
  • 相關(guān)推薦

專訪百度IDL林元慶:百度大腦如何在人臉識(shí)別上戰(zhàn)勝人類

  機(jī)器在一些能力上超過人是很正常的,比如我們之前也發(fā)明了汽車,汽車肯定跑得比人快。但人工智想要整體全面地超越人類還有非常長(zhǎng)的路要走,現(xiàn)在還只是做了一些非常小的事情,離智能機(jī)器的威脅還非常遠(yuǎn)。

  2017 年 1 月 6 日,百度首席科學(xué)家吳恩達(dá)帶著小度機(jī)器人來到了《最強(qiáng)大腦》現(xiàn)場(chǎng),與人類選手展開了對(duì)決,并在人臉識(shí)別比賽里以 3:2 的比分贏得勝利。Master 事件引發(fā)大眾熱議人工智能的余熱未退,小度機(jī)器人又在跨年齡人臉識(shí)別挑戰(zhàn)中戰(zhàn)勝了本屆最強(qiáng)大腦隊(duì)長(zhǎng)王峰——擁有數(shù)個(gè)世界冠軍頭銜的「世界記憶大師」。與以往主要考驗(yàn)空間搜索能力的人機(jī) PK 不同,此次比拼主要集中在識(shí)別領(lǐng)域,而識(shí)別過程中需要模糊推理的能力,百度深度學(xué)習(xí)實(shí)驗(yàn)室(IDL)主任林元慶坦言,這場(chǎng)應(yīng)戰(zhàn)也并不輕松。

  對(duì)于此次比賽任務(wù),百度 IDL 人臉團(tuán)隊(duì)主要是使用了「度量學(xué)習(xí)」,即通過學(xué)習(xí)一個(gè)非線性投影函數(shù)把圖像空間投影到特征空間中。在這個(gè)特征空間里,跨年齡的同一個(gè)人的兩張人臉的距離會(huì)比不同人的相似年齡的兩張人臉的距離要小。同時(shí)考慮到跨年齡人臉數(shù)據(jù)的稀缺性,百度大腦使用了一個(gè)用大規(guī)模人臉數(shù)據(jù)訓(xùn)練好的模型作為「底座」,然后用跨年齡數(shù)據(jù)對(duì)它做更新。這樣不容易過擬合。然后再將這兩點(diǎn)結(jié)合起來做端到端的訓(xùn)練,從而大幅度地提升了小度跨年齡人臉識(shí)別的識(shí)別率。

  從這期節(jié)目開始,機(jī)器之心將通過訪談視頻「AI Talk」持續(xù)為大家解讀百度參加最強(qiáng)大腦比賽的多項(xiàng)技術(shù)原理,還原 IDL 籌備比賽的細(xì)節(jié)故事。

  下面是機(jī)器之心對(duì)百度深度學(xué)習(xí)實(shí)驗(yàn)室(IDL)主任林元慶獨(dú)家專訪完整版文字:

  機(jī)器之心:請(qǐng)簡(jiǎn)單介紹一下人臉識(shí)別。

  林元慶:人臉識(shí)別簡(jiǎn)單說就是給你一張人臉的照片,然后我希望能識(shí)別照片里面是哪一個(gè)人。

  人臉識(shí)別其實(shí)有兩種技術(shù)。

  一種技術(shù)我們經(jīng)常叫 1:1 的人臉比對(duì),比如像銀行的應(yīng)用場(chǎng)景,就是你給一個(gè)身份證信息,然后再給一張人臉,通過比對(duì)希望知道這張人臉是不是身份證上面的那個(gè)人。系統(tǒng)會(huì)拿這個(gè)身份證的信息給到公安的系統(tǒng)里面取一張照片回來,然后跟你現(xiàn)在的照片比對(duì)看是不是同一個(gè)人。

  還有一種更通用的 1:N 人臉識(shí)別,N 可以是幾千、幾萬或者幾十萬進(jìn)行比對(duì),這叫 1:N 的比對(duì)或者是 1:N 的人臉識(shí)別。

  機(jī)器之心:機(jī)器是通過哪些特征進(jìn)行人臉識(shí)別的?

  林元慶:深度學(xué)習(xí)還沒有特別流行起來之前,一般會(huì)設(shè)計(jì)一些特征對(duì)人臉進(jìn)行識(shí)別。現(xiàn)在用深度學(xué)習(xí)的方法其實(shí)是一層一層的去學(xué)不同的特征,底層會(huì)是非常低級(jí)別的特征,越往上會(huì)學(xué)到一些非常高級(jí)別的特征。像我們的系統(tǒng)應(yīng)該是千萬到億的低級(jí)別特征,慢慢一層一層學(xué)上去,最后那一層其實(shí)只有 128 個(gè)特征。

  機(jī)器之心:在不同的應(yīng)用場(chǎng)景中,機(jī)器學(xué)習(xí)算法如何決定人臉特征點(diǎn)的的數(shù)目?

  林元慶:像我們現(xiàn)在做的方法,在不同的應(yīng)用場(chǎng)景里面其實(shí)特征數(shù)目是確定的,只是可能會(huì)是不同的特征。特征數(shù)目的大小是由深度學(xué)習(xí)的架構(gòu)決定的。一旦我們把神經(jīng)網(wǎng)絡(luò)的架構(gòu)確定下來,這個(gè)數(shù)目就是固定的。我們只是根據(jù)不同的場(chǎng)景(不同的場(chǎng)景意思就是不同的訓(xùn)練數(shù)據(jù))訓(xùn)練出來的特征可能是很不一樣的。因此在不同的場(chǎng)景里面特征數(shù)目可能是一樣的,但具體特征會(huì)是很不一樣的。

  機(jī)器之心:比賽中,小度機(jī)器人能將少年時(shí)期和中年時(shí)期的人臉識(shí)別出來,如果是將年齡擴(kuò)大拉長(zhǎng),嬰兒和老人的照片是否可以識(shí)別和匹配出來?

  林元慶:跨年齡識(shí)別是非常難的。就我們現(xiàn)在的系統(tǒng),年齡跨度在 20 到 30 歲的時(shí)候我們?nèi)匀荒茏龅奖容^高的精度。當(dāng)我們把這個(gè)跨度進(jìn)一步增加到 50 歲或 60 歲的話,難度肯定也會(huì)進(jìn)一步增加,精度會(huì)下降。我們還沒有很仔細(xì)地做過這么大年齡跨度的實(shí)驗(yàn)。這是我們下一步要做的事情。

  機(jī)器之心:介紹一下跨年齡人臉識(shí)別使用的度量學(xué)習(xí)?

  林元慶:我們這次去參加《最強(qiáng)大腦》的這套系統(tǒng),使用的其實(shí)是基于深度學(xué)習(xí)的端到端的度量學(xué)習(xí)方法 (Metric Learning)。這個(gè)方法通過學(xué)習(xí)一個(gè)非線性映射函數(shù)(用深度神經(jīng)網(wǎng)絡(luò)模型),把圖像空間投影到一個(gè) 128 維的特征空間中。深度學(xué)習(xí)要實(shí)現(xiàn)的是,對(duì)于同一個(gè)人的兩張照片,不管年齡差距有多大,它們映射到這 128 唯特征空間的兩個(gè)點(diǎn)(即兩個(gè) 128 維的向量)要離得很近;對(duì)于不同人的兩張照片,它們映射到這 128 唯特征空間的兩個(gè)點(diǎn)要離得足夠遠(yuǎn) – 即使他們年齡相近。當(dāng)這個(gè)映射函數(shù)學(xué)習(xí)好之后,看兩張照片是否是同一個(gè)人變得簡(jiǎn)單:把他們映射到這個(gè) 128 維的空間了,如果映射到的兩個(gè)點(diǎn)離得近,那這兩張照片就是同一個(gè)人,否則就是不同人。因此核心是如何訓(xùn)練這個(gè)用深度神經(jīng)網(wǎng)絡(luò)建模的映射函數(shù),即通過調(diào)整深度神經(jīng)網(wǎng)絡(luò)的參數(shù)。我們用大規(guī)模人臉數(shù)據(jù)訓(xùn)練出深度神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)高識(shí)別率。

  機(jī)器之心:百度通過非線性投影函數(shù)進(jìn)行映射減少訓(xùn)練損失,那么這個(gè)非線性投影函數(shù)是如何得出來的,是通過訓(xùn)練集得出來的嗎?

  林元慶:定義度量學(xué)習(xí)的目標(biāo)函數(shù)之后,我們是通過梯度下降法來進(jìn)行訓(xùn)練,慢慢把目標(biāo)函數(shù)給降下來。梯度下降法是很通用的做法。這里面很重要的是要定義度量學(xué)習(xí)的目標(biāo)函數(shù),然后要定義深度神經(jīng)網(wǎng)絡(luò)的架構(gòu),最后通過訓(xùn)練實(shí)現(xiàn)目標(biāo)函數(shù)的逐漸優(yōu)化。

  機(jī)器之心:人臉識(shí)別業(yè)務(wù)的核心問題是人臉關(guān)鍵特征點(diǎn)的定位,錯(cuò)誤的特征定位會(huì)導(dǎo)致提取的人臉描述特征嚴(yán)重變形,進(jìn)而導(dǎo)致識(shí)別性能下降,百度是如何解決這個(gè)問題的?

  林元慶:其實(shí)是兩個(gè)方面。一個(gè)方面是我們要想辦法去做出非常好的特征點(diǎn)定位的算法,然后要訓(xùn)練非常好的模型。在一些極端的情況下,得到的特征點(diǎn)定位可能不準(zhǔn)確,因此我們希望后面的識(shí)別模塊有一定的容錯(cuò)能力。我們是在訓(xùn)練的時(shí)候制造一些數(shù)據(jù),在定位上人為地產(chǎn)生一些誤差,然后拿這些數(shù)據(jù)放在深度神經(jīng)網(wǎng)絡(luò)里面一起去參加訓(xùn)練,這樣的話最后訓(xùn)出來的模型對(duì)定位的誤差會(huì)有一定的容錯(cuò)能力。

  機(jī)器之心:百度大腦的這種能力的培養(yǎng)使用了多少的訓(xùn)練樣本?訓(xùn)練了多長(zhǎng)時(shí)間?

  林元慶:我們的訓(xùn)練其實(shí)是分兩部分,最重要的一部分叫通用的人臉識(shí)別的能力,就是百度這幾年來一直在積累搭建的技術(shù),到比賽為止我們大概用了 200 萬人的 2 億張照片進(jìn)行人臉識(shí)別基礎(chǔ)模型訓(xùn)練。

  另一方面,為了這次比賽,我們也收集了一些跨年齡的數(shù)據(jù),根據(jù)跨年齡這個(gè)場(chǎng)景再進(jìn)一步優(yōu)化模型,跨年齡數(shù)據(jù)大概在幾千張這個(gè)級(jí)別,并不算特別的多。

  機(jī)器之心:角度、表情、光線、陰影化妝、和配飾等會(huì)在多大程度上影響人臉識(shí)別準(zhǔn)確率?

  林元慶:我們主要是針對(duì)人臉角度在 45 度之內(nèi)的應(yīng)用場(chǎng)景,因此我們的訓(xùn)練模型基本上在 45 度之內(nèi)識(shí)別的還是比較準(zhǔn)確的。在這個(gè)范圍之內(nèi),角度影響不會(huì)特別大。但是在大于 45 度之后精度就會(huì)開始下降。如果是 90 度,特別是當(dāng)我們沒辦法檢測(cè)到五官的時(shí)候,精度就會(huì)下降比較嚴(yán)重,比如說一邊眼睛看不到的情況下下降會(huì)比較嚴(yán)重。

  化妝肯定會(huì)有影響,但如果只是很局部的化妝其實(shí)還好。像美瞳只是造成一個(gè)局部被改變,人臉整體基本上變化不是那么大。這些其實(shí)我們的算法都能夠比較好的處理。整形整容就很難,屬于比較大的改變,識(shí)別難度就比較大。

  機(jī)器之心:小度機(jī)器人是通過安裝的攝像頭直接觀察還是接入圖像信號(hào)?

  林元慶:在錄制的現(xiàn)場(chǎng),節(jié)目組會(huì)在選手前面的顯示屏上給出一路信號(hào),同樣的信號(hào)也給到小度這邊。我們的系統(tǒng)得到的信號(hào)和選手肉眼可以看到的信號(hào)是一樣的。

  機(jī)器之心:小度機(jī)器人分析處理是在本地完成還是在云端?此次使用的計(jì)算資源情況如何?

  林元慶:訓(xùn)練都是在云端。云端我們有非常多、非常大的一個(gè)計(jì)算集群來專門做剛才提到的 200 萬人的 2 億張照片的訓(xùn)練。但真正訓(xùn)練完之后,計(jì)算是在本地完成的,我們?cè)诒镜刂挥昧艘粋(gè) GPU。

  實(shí)際上,我們希望我們的人臉識(shí)別技術(shù)能夠廣泛應(yīng)用到各個(gè)領(lǐng)域,甚至是讓很多人在手機(jī)上就可以用到這一功能。因此,我們希望在訓(xùn)練的時(shí)候用非常多的計(jì)算機(jī),但是真正應(yīng)用時(shí)的計(jì)算量不要太大。

  機(jī)器之心:節(jié)目中,人類選手在介紹判斷方法時(shí)也提到選取一些人臉特征,是否意味著這方面機(jī)器和人類的識(shí)別原理類似,就像 CNN 從某種程度上來說是借鑒了人類的視覺原理一樣?

  林元慶:從廣義上來說肯定都是通過特征來識(shí)別,但是區(qū)別在于提取的是什么特征。深度學(xué)習(xí)系統(tǒng)其實(shí)是從海量的數(shù)據(jù)里學(xué)一些共同特征,對(duì)共性的特征也更加敏感。但是人其實(shí)不僅僅會(huì)用共性的特征,還會(huì)用一些很特別的特征。舉個(gè)例子,假如說一個(gè)人的鼻子上有一顆痣,目前我們的這個(gè)系統(tǒng)是不會(huì)學(xué)出來的,因?yàn)樗谖覀償?shù)據(jù)庫里的兩百萬人身上不常見,它就會(huì)把這個(gè)特征忽略掉,但人去識(shí)別的時(shí)候,他會(huì)把這顆痣變成一個(gè)非常重要的特征去跟蹤。

  CNN 架構(gòu)毫無疑問在相當(dāng)程度上都是模仿人的視覺系統(tǒng)。和人的視覺系統(tǒng)類似,CNN 有很多層,然后一層層進(jìn)行非線性映射,從非常低級(jí)別的特征一層層映射上去,最后生成一個(gè)非常高級(jí)別的有分辨能力的特征。

  機(jī)器之心:作為機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域的專家,你認(rèn)為一家公司在人臉識(shí)別技術(shù)方面足夠領(lǐng)先的標(biāo)準(zhǔn)是什么?

  林元慶:關(guān)鍵在于看技術(shù)能力的強(qiáng)大與否,具體還要看三個(gè)層次。第一個(gè)是算法層次,大家通常會(huì)選擇在一些通用和公開的測(cè)試集上進(jìn)行測(cè)試,看這套算法究竟有多強(qiáng)。但這種方法也是有局限性的,公開測(cè)試集的樣本量可能比較小,所以你在這種測(cè)試集上的表現(xiàn)做得很好,并不代表你在實(shí)際問題上也能做得很好。因此,在百度內(nèi)部,我們會(huì)搭建的一些規(guī)模很大的測(cè)試集。我們通常的做法是,在我們算法研發(fā)的過程中,我們會(huì)在這些大測(cè)試集上去測(cè)。如果要和別人比的話,我們會(huì)在公開的測(cè)試集上進(jìn)行測(cè)試。

  下一個(gè)層面是技術(shù)層面。其實(shí)技術(shù)不單單是算法,它需要的是算法加數(shù)據(jù)。前面我們提到的公開測(cè)試集,它等于假設(shè)說我們不需要去管數(shù)據(jù)了。而實(shí)際上非常重要的是算法要跟數(shù)據(jù)一起發(fā)展。人臉的數(shù)據(jù)就是這樣的例子。我們有兩百萬人的人臉,有的算法可能沒辦法在這上面應(yīng)用,因?yàn)槟阈枰浅iL(zhǎng)的時(shí)間去訓(xùn)練。并且有些算法可能不能完全利用大數(shù)據(jù)里面的一些特點(diǎn)。所以,算法和技術(shù)一定要一起發(fā)展的。

  最后一個(gè)層面是應(yīng)用層面。非常重要的是研發(fā)出一些技術(shù),并在實(shí)際問題的解決上擁有較高的精度。這既是技術(shù)是否滿足實(shí)際應(yīng)用的重要指標(biāo),更是檢驗(yàn)人工智能技術(shù)最重要的一個(gè)指標(biāo)。不同公司的技術(shù)有多好在于他們能解決多少實(shí)際的問題。特別是對(duì)于人工智能而言,被應(yīng)用的廣度和深度就是衡量一項(xiàng)人工智能技術(shù)是否強(qiáng)大的一個(gè)重要指標(biāo)。

  所以總的來說就是算法、技術(shù)和應(yīng)用三個(gè)層面。我們希望能夠研發(fā)出非常好的技術(shù)和算法來滿足更多實(shí)際場(chǎng)景應(yīng)用的需要。人工智能領(lǐng)域里的很多技術(shù)是需要不斷增長(zhǎng)的數(shù)據(jù)去訓(xùn)練,從而不斷提高模型精準(zhǔn)度的。大應(yīng)用是非常重要的一環(huán)。所以,即便你的公司搭建了一套非常好的基礎(chǔ)技術(shù),但如果你背后沒有大的應(yīng)用給你形成閉環(huán)的話,這個(gè)技術(shù)也很難往前發(fā)展。拿圖像識(shí)別來說,它需要算法加數(shù)據(jù),然后再將這項(xiàng)技術(shù)應(yīng)用。有了應(yīng)用,用戶會(huì)給你提交更多數(shù)據(jù),這又會(huì)幫你訓(xùn)練出更好的模型。然后你就有了更好的技術(shù)。這是一個(gè)正循環(huán),直到把技術(shù)發(fā)展到極致。因此大應(yīng)用是非常重要的。對(duì)人工智能來說,研發(fā)一項(xiàng)技術(shù)要短期做到極致是不太可能的,一定是要有很好的應(yīng)用場(chǎng)景能夠迭代起來,最后才能把技術(shù)做到極致。

  機(jī)器之心:接下來,百度會(huì)將人臉識(shí)別這項(xiàng)技術(shù)重點(diǎn)應(yīng)用于哪些領(lǐng)域?

  林元慶:我們這次決定去參加人機(jī) PK,最重要的出發(fā)點(diǎn)就是希望看看百度通過這幾年的研發(fā)積累,我們的人工智能水平跟最頂尖的人類相比處于哪一個(gè)水平上。節(jié)目組跟我們定的「圖片識(shí)別」和「聲音識(shí)別」兩個(gè)方向,我們也非常喜歡。其實(shí)之前有很多次人機(jī) PK 的比賽,最早的「深藍(lán)」,后來的 Watson 在《危險(xiǎn)邊緣》節(jié)目上的比賽,還有最近的 AlphaGo,這些更多是在比這一步棋我該怎么走、下一步該怎么走,或是去尋找答案,和這次 PK 有較大區(qū)別。這次應(yīng)該是人類歷史上第一次在圖像和聲音的識(shí)別能力上跟人進(jìn)行高水平 PK。

  之所以我們會(huì)對(duì)這兩個(gè)技術(shù)特別感興趣,是因?yàn)檫@兩個(gè)技術(shù)有非常多應(yīng)用,實(shí)用性很強(qiáng)。人臉識(shí)別的應(yīng)用領(lǐng)域中很重要的一個(gè)場(chǎng)景是互聯(lián)網(wǎng)金融的身份認(rèn)證。百度有一個(gè)金融事業(yè)部,他們的主營(yíng)業(yè)務(wù)就是互聯(lián)網(wǎng)金融,已經(jīng)用到我們的人臉識(shí)別技術(shù)。我們認(rèn)為要做好互聯(lián)網(wǎng)金融,身份認(rèn)證是第一件你必須做的非常好的事情,你一定要知道在計(jì)算機(jī)或手機(jī)前面的那個(gè)人到底是誰,身份認(rèn)證甚至可以說是互聯(lián)網(wǎng)金融的第一步。我們也希望以后這項(xiàng)技術(shù)不單單用在百度,也可以用到更多的金融公司里面。

  另一個(gè)很重要的應(yīng)用是人臉識(shí)別可以用在門禁系統(tǒng)中,百度大廈現(xiàn)在就使用了人臉閘機(jī)。是去年在互聯(lián)網(wǎng)大會(huì)時(shí),我們?cè)跒蹑?zhèn)落地了一個(gè)人臉識(shí)別的閘機(jī),之前景區(qū)使用的是指紋認(rèn)證系統(tǒng),在烏鎮(zhèn)參觀游玩的游客會(huì)需要多次進(jìn)入,需要身份認(rèn)證。如果每一次要進(jìn)出的時(shí)間過長(zhǎng),非常影響用戶的體驗(yàn),甚至要排很長(zhǎng)的隊(duì)。在這樣的場(chǎng)景下,人臉識(shí)別系統(tǒng)跟指紋系統(tǒng)相比,有相當(dāng)大的優(yōu)勢(shì),烏鎮(zhèn)現(xiàn)在用這種 1:N 的認(rèn)證,游客走到附近就被識(shí)別出來,馬上可以通暢進(jìn)出。為什么這些原來沒有,其實(shí)也是因?yàn)樽罱俣仍谌四樧R(shí)別上有非常好的技術(shù)突破,今年我們真正實(shí)現(xiàn)了高精度 1:N 的人臉識(shí)別,我們現(xiàn)在外面公布的是能做到 99% 以上的精度,這應(yīng)該在國內(nèi)是首創(chuàng)。

  機(jī)器之心:首期節(jié)目之后,我們還有哪些收獲?

  林元慶:我們希望百度的人臉識(shí)別以后能有更多的人來用起來。之前更多的是應(yīng)用在互聯(lián)網(wǎng)上,比如打開百度的圖片搜索,搜「劉德華」會(huì)出來很多劉德華的照片,里面就使用了人臉識(shí)別,因?yàn)檎掌瑤炖锛葧?huì)有劉德華也會(huì)有梁朝偉,系統(tǒng)需要通過人臉識(shí)別知道哪一張照片是劉德華哪一張是梁朝偉。這背后其實(shí)是我們做了全網(wǎng)的明星人臉的索引,這是之前我們?nèi)四樧R(shí)別一個(gè)非常重要的用處,但后面我們希望能讓人臉識(shí)別用在更廣的地方,給大家的生活帶來更多便利。

  機(jī)器之心:細(xì)粒度視覺分類(FGVC/Fine-Grained Visual Categorization)是今年 CVPR 的熱門研究方向,可否分享一下 IDL 在人臉細(xì)粒度識(shí)別的研究方面有何進(jìn)展?

  林元慶:細(xì)粒度圖像識(shí)別其實(shí)跟通常我們說的圖像識(shí)別有不太一樣的地方,比如我們普通的識(shí)別可能只需要知道這是一只狗、一只貓、一個(gè)桌子,但細(xì)粒度圖像識(shí)別,就要明確這一只貓是哪一個(gè)品種、這個(gè)桌子是哪個(gè)廠家哪個(gè)型號(hào)的。

  舉個(gè)例子,百度有一個(gè)非常瘋狂的項(xiàng)目是菜品識(shí)別,我們希望能實(shí)現(xiàn)這樣的場(chǎng)景:你在餐館里拍一張菜品照片就能識(shí)別它是哪一個(gè)餐館的哪一道菜,你能想象其中的難度會(huì)非常大。這里面用到的很多技術(shù)跟普通的圖片識(shí)別也有很大區(qū)別。更多方面的信息需要通過算法去估計(jì)。比如,對(duì)于鳥類識(shí)別,可能得粗略的知道這是鳥的頭部,這是鳥的尾巴,鳥頭部是長(zhǎng)這個(gè)樣子,等等。從學(xué)術(shù)上來講,我們稱之為注意力模型,F(xiàn)在百度在這方面做了很多研發(fā)工作。

  我們最近在 CVPR 提交了一篇文章,我們充分利用位置信息自動(dòng)地去學(xué)習(xí)物體位置信息和位置上的特征信息,最后得到非常高的識(shí)別精度。在幾個(gè)公開的測(cè)試集上,我們的表現(xiàn)應(yīng)該都是業(yè)界最好的。同時(shí),我們也把這項(xiàng)技術(shù)用到百度的產(chǎn)品里。在去年的烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)上,我們結(jié)合百度糯米在景區(qū)里的 18 家餐館應(yīng)用了菜品識(shí)別的功能,實(shí)現(xiàn)了我之前描述的場(chǎng)景。烏鎮(zhèn)只是一個(gè)起點(diǎn),我們現(xiàn)在其實(shí)早期能覆蓋大概 4000 家國內(nèi)餐館,然后希望能一步一步地覆蓋到國內(nèi)上大部分的餐館。

  機(jī)器之心:菜品識(shí)別這個(gè)應(yīng)用,實(shí)現(xiàn)大規(guī)模推廣所面臨的挑戰(zhàn)是什么?

  林元慶:從難度上講,基本上有兩個(gè)方面。一個(gè)是數(shù)據(jù),我們需要收集足夠多的數(shù)據(jù)來訓(xùn)練模型,這就需要跟百度糯米等產(chǎn)品端配合才能去各個(gè)餐館里收集數(shù)據(jù),而全國餐館數(shù)量是百萬級(jí)別的,我們要訓(xùn)練的模型的類別會(huì)是幾千萬或上億類別。二是技術(shù)方面。這里,我們的技術(shù)跟普通普通識(shí)別的差別在于我們要能夠處理千萬個(gè)類別,還要處理非常小的類間區(qū)別和非常大的類內(nèi)區(qū)別。比如,麻婆豆腐長(zhǎng)得都很像,不同餐館的麻婆豆腐只有非常細(xì)微差別,然而從不同角度,用不同光線拍的即使同一個(gè)餐館的麻婆豆腐也會(huì)很不一樣。因此,對(duì)于識(shí)別來說,這就是很難的問題。通常大家也會(huì)把人臉識(shí)別當(dāng)成一個(gè)非常特殊的細(xì)粒度圖像識(shí)別的例子,我們不單單要識(shí)別照片里有人臉,還要識(shí)別出是哪個(gè)人的人臉。

  機(jī)器之心:要實(shí)現(xiàn)李彥宏所說的「讓百度大腦像人類大腦」這個(gè)目標(biāo),接下來人工智能是不是也應(yīng)該從人腦和神經(jīng)科學(xué)中獲得更多線索和靈感?

  林元慶:在最強(qiáng)大腦比賽現(xiàn)場(chǎng),對(duì)于一個(gè)識(shí)別對(duì)象,我們的系統(tǒng)只看到的一張或者是幾張這個(gè)人的照片,然后去做比對(duì)。從一定程度上來說,我們用的是遷移學(xué)習(xí)(transfer learning),這在一定程度上跟人很類似。平?戳撕芏嗟娜,人慢慢學(xué)會(huì)了辯臉的能力,機(jī)器也一樣,在這個(gè)能力上有很強(qiáng)的通用性。從更長(zhǎng)遠(yuǎn)來看,在推理方面,人比機(jī)器要強(qiáng)很多,機(jī)器還需要從人腦機(jī)理等各個(gè)方面再去學(xué)習(xí),設(shè)計(jì)出更好的算法,希望機(jī)器能夠跟人一樣思考推理。

  機(jī)器之心:通過《最強(qiáng)大腦》這類面向大眾的節(jié)目,百度希望傳遞關(guān)于人工智能的哪些理念?

  林元慶:我們參與這次活動(dòng)很重要的一個(gè)目的是希望能讓大眾能深切感覺到人工智能能做什么。我們配合節(jié)目播出的同時(shí)也會(huì)把我們辯臉技術(shù)做成 App 開放出來,大家可以上傳照片直接去體驗(yàn)一下。我們希望通過節(jié)目讓大眾深刻體驗(yàn)到人工智能技術(shù),這對(duì)人工智能技術(shù)的推廣有非常好的作用。像 AlphaGo,他們做得非常棒的一個(gè)事情就是一下子讓很多人都知道人工智能,之前可能還只是停留在行業(yè)內(nèi)。這其實(shí)非常重要,因?yàn)楹竺娴娜斯ぶ悄苣軌蜃龅梅浅:,需要大眾的這種接受度,他們覺得這些技術(shù)真的很有價(jià)值、愿意使用這些技術(shù)才是整個(gè)行業(yè)發(fā)展至關(guān)重要的一步。

  機(jī)器之心:這次在節(jié)目的現(xiàn)場(chǎng)比拼中,百度大腦擊敗了頂級(jí)選手,您認(rèn)為這有什么樣的意義?

  林元慶:我其實(shí)不太同意用「擊敗」這個(gè)詞。這次我們和最強(qiáng)大腦選手比賽,在人臉識(shí)別這個(gè)特定任務(wù)上,我們證明了通過海量數(shù)據(jù)、深度學(xué)習(xí)算法,機(jī)器學(xué)習(xí)系統(tǒng)能夠?qū)W到非常強(qiáng)的人臉識(shí)別的能力。目前這方面我們做的水平還不錯(cuò),但人類除此之外還有非常多的能力。另一方面,其實(shí)也等于說驗(yàn)證了我們?cè)谶@條路上探出了非常有效的研發(fā)路徑,后面我們可以把類似的經(jīng)驗(yàn)應(yīng)用到更多更廣的范圍。人工智能在很多方面仍然并不強(qiáng)于人類,從研發(fā)角度來講,我們希望我們的技術(shù)能越來越強(qiáng)大,能做的事情越來越多。

  機(jī)器之心:在機(jī)器越來越智能的今天,我們應(yīng)該如何對(duì)待人類與機(jī)器之間的關(guān)系?

  林元慶:其實(shí),機(jī)器在一些能力上超過人是很正常的,比如我們之前也發(fā)明了汽車,汽車肯定跑得比人快。但人工智想要整體全面地超越人類還有非常長(zhǎng)的路要走,現(xiàn)在還只是做了一些非常小的事情,離智能機(jī)器的威脅還非常遠(yuǎn)。對(duì)這個(gè)行業(yè)里面的研究人員來說,我們還有很多的事情要做,這條路還很長(zhǎng)。

【專訪百度IDL林元慶:百度大腦如何在人臉識(shí)別上戰(zhàn)勝人類】相關(guān)文章:

專訪百度IDL林元慶:我們就這樣贏了最強(qiáng)大腦03-23

百度李彥宏:百度金融要用互聯(lián)網(wǎng)追趕華爾街03-17

俞軍談做百度搜索與百度貼吧的產(chǎn)品方法03-16

百度公司創(chuàng)業(yè)融資案例12-09

百度李彥宏的創(chuàng)業(yè)故事11-16

李彥宏:創(chuàng)業(yè)應(yīng)該去做百度看不上的業(yè)務(wù)03-26

李彥宏:創(chuàng)業(yè)公司應(yīng)該去做百度看不上的業(yè)務(wù)11-24

海外首站失利 百度退出日本搜索市場(chǎng)03-28

李彥宏 百度CEO的人生軌跡03-27

百度李彥宏教你創(chuàng)業(yè)七招11-19