成人网18视频网站,qvod激情视频在线观看,色国产精品一区在线观看,久久99热国产这有精品,天天舔天天爽,国产日韩视频,伊人久久精品成人网

創(chuàng )澤機器人
CHUANGZE ROBOT
當前位置:首頁(yè) > 新聞資訊 > 機器人開(kāi)發(fā) > 【深度】未來(lái)5-10年計算機視覺(jué)發(fā)展趨勢為何?

【深度】未來(lái)5-10年計算機視覺(jué)發(fā)展趨勢為何?

來(lái)源:圖靈人工智能     編輯:創(chuàng )澤   時(shí)間:2020/5/28   主題:其他 [加盟]
計算機視覺(jué)是人工智能的“眼睛”,是感知客觀(guān)世界的核心技術(shù)。進(jìn)入21世紀以來(lái),計算機視覺(jué)L域蓬勃發(fā)展,各種理論與方法大量涌現,并在多個(gè)核心問(wèn)題上取得了令人矚目的成果。為了進(jìn)一步推動(dòng)計算機視覺(jué)L域的發(fā)展,CCF-CV組織了RACV 2019,邀請多位計算機視覺(jué)L域資深專(zhuān)家對相關(guān)主題的發(fā)展現狀和未來(lái)趨勢進(jìn)行研討。

在“未來(lái)5-10年計算機視覺(jué)發(fā)展趨勢”的專(zhuān)題中,各位專(zhuān)家從計算機視覺(jué)發(fā)展歷程、現有研究局限性、未來(lái)研究方向以及視覺(jué)研究范式等多方面展開(kāi)了深入的探討。

主題組織者:林宙辰,劉日升,闞美娜

討論時(shí)間:2019年9月27日

發(fā)言嘉賓:查紅彬,陳熙霖,盧湖川,劉燁斌,章國鋒

參與討論嘉賓[發(fā)言順序]:謝曉華,林宙辰,林倞,山世光,胡占義,紀榮嶸,王亦洲,王井東,王濤,楊睿剛,鄭偉詩(shī),賈云得,魯繼文,王亮

我們將研討內容按專(zhuān)題實(shí)錄整理,盡大可能以原汁原味的形式還原觀(guān)點(diǎn)爭鳴現場(chǎng),希望有助于激發(fā)頭腦風(fēng)暴,產(chǎn)生一系列啟發(fā)性的觀(guān)點(diǎn)和思想,推動(dòng)計算機視覺(jué)L域持續發(fā)展。

一、開(kāi)場(chǎng):山世光、林宙辰

山世光:上次計算機視覺(jué)專(zhuān)委會(huì )常委會(huì )上,在譚院士的倡議下這次RACV嘗試一下相對比較小規模的、以討論未來(lái)與問(wèn)題為主的這樣一種形式。這次的RACV希望所有的發(fā)言人,都不是講自己的或已經(jīng)做的工作,而是圍繞著(zhù)每一個(gè)主題講一講自己的觀(guān)點(diǎn)和看法。大家在發(fā)言的時(shí)候可以無(wú)所顧忌,可以爭論。我們會(huì )有記錄和錄音,但后的文字會(huì )經(jīng)過(guò)大家的確認之后才發(fā)布。

林宙辰: RACV是希望大家有一些深入的研討,互相挑戰,以達到深入討論的目的。D一個(gè)主題是未來(lái)5-10年CV的發(fā)展趨勢。希望我們這次研討會(huì )尤其是CV發(fā)展趨勢這個(gè)主題能夠類(lèi)似達特茅斯會(huì )議,產(chǎn)生一些新的思想。

二、嘉賓主題發(fā)言

1. 查紅彬

未來(lái)五年或十年CV的發(fā)展趨勢是很難預測的,有時(shí)候想的太多,反而容易跑偏。所以,今天我主要從自己認識的角度說(shuō)說(shuō)后面我們該做些什么樣的事情。

首先,說(shuō)說(shuō)什么叫計算機視覺(jué)?我這里給了一個(gè)比較嚴格的定義,即使用計算機技術(shù)來(lái)模擬、仿真與實(shí)現生物的視覺(jué)功能。但這個(gè)定義并沒(méi)有將事情完全講清楚,這里把計算機和視覺(jué)兩個(gè)概念揉到了一起,但到底什么叫計算機、什么叫視覺(jué)并沒(méi)有說(shuō)。什么叫計算機大家是能夠公認的。但什么叫視覺(jué),其實(shí)在計算機視覺(jué)L域里還沒(méi)有一個(gè)大家都認可的定義。

我們不妨先看看現在計算機視覺(jué)L域里有哪些研究?jì)热。先?lái)看看今年ICCV各個(gè)分會(huì )的關(guān)鍵詞,其中大的幾個(gè)L域是deep learning;recognition;segmentation, grouping and shape等。這些L域是視覺(jué)嗎?說(shuō)是圖像處理、分析與理解也能說(shuō)的通。關(guān)鍵問(wèn)題在于,我們講來(lái)講去到底是不是真的在做視覺(jué)?這點(diǎn)有必要再想想。

舉個(gè)例子--人臉識別:人臉識別現在能識別大量的人臉圖像與視頻,幾十萬(wàn)、幾百萬(wàn)人都能夠識別。它是用大數據驅動(dòng)的方式來(lái)達到目的的,而且是離線(xiàn)學(xué)習的。但識別算法在實(shí)際應用中對光照、遮擋等的魯棒性比較差。我們回過(guò)頭看看人的人臉識別有些什么樣的功能呢?我們人識別人臉的功能很強,但只能識別很少數量的人臉,如親戚、朋友、同事等,超過(guò)一定范圍之后人是很難識別出來(lái)陌生人的人臉的,我們能看到有差別但分不清誰(shuí)是誰(shuí)。

D二個(gè),人是在生活情景當中進(jìn)行主動(dòng)性的樣本學(xué)習。我們之所以能夠認識親屬,是因為我們在日常生活當中與他們生活在一起,建立了各種各樣的關(guān)系。我們主動(dòng)地用樣本來(lái)學(xué),利用了不同層次的特征。所以,盡管我們識別人臉的數量少,但是我們對抗干擾的能力很強。所以我覺(jué)得這是人的人臉識別和現在機器的人臉識別之間的差別。也就是,人的視覺(jué)中的人臉識別有它明顯的特點(diǎn),它能很好地應對現實(shí)環(huán)境中的視覺(jué)處理任務(wù)。

那么現實(shí)環(huán)境中的視覺(jué)處理應該考慮哪些因素呢?我們有計算機、機器人這些智能機器,同時(shí)還有其它兩個(gè)關(guān)鍵的部分。D一個(gè)部分是要通過(guò)視覺(jué)這個(gè)接口來(lái)同外部世界建立聯(lián)系,同環(huán)境進(jìn)行互動(dòng);D二個(gè)是我們講視覺(jué)的時(shí)候,生物的感知機理給我們提供了很多依據。這其中,我們要應對的是現實(shí)環(huán)境的開(kāi)放性,以及三維世界的復雜性,我們要面對場(chǎng)景當中很多動(dòng)態(tài)的變化以及層次性結構的多樣性。

另一方面,生物的感知機理有什么呢?它是一個(gè)學(xué)習過(guò)程,但這個(gè)學(xué)習是柔性的,并不是我們現在這樣的離線(xiàn)學(xué)習并固定的方式。我們現在的機器學(xué)習用起來(lái)就只是測試。但我們人的學(xué)習中測試和學(xué)習過(guò)程并不是嚴格可分的,它有結構上的柔性,也需要層次化的處理。此外,它有主動(dòng)性,能夠根據它的目的和任務(wù)主動(dòng)地進(jìn)行學(xué)習。同時(shí),我們日常生活當中所需要的是一種時(shí)序數據的處理,是一種增量型的處理過(guò)程。從這樣的角度來(lái)看,我們將來(lái)的計算機視覺(jué)研究需要考慮把真實(shí)環(huán)境的特點(diǎn)與生物的感知機理融合進(jìn)來(lái)。這樣就會(huì )更接近“視覺(jué)”這個(gè)詞本來(lái)的意義。

那這其中有哪些事情我們可以去考慮呢?

首先是學(xué)習的問(wèn)題,F在,深度學(xué)習用的很多,但它只是我們人的模式識別當中的一部分功能,對于視覺(jué)研究來(lái)說(shuō),還有很大的挖掘空間。也就是說(shuō),我們考慮計算機視覺(jué)中的機器學(xué)習的時(shí)候,不僅僅是深度,還要把網(wǎng)絡(luò )的寬度、結構可重構性與結構柔性結合起來(lái)。我們要把不同的結構層次研究明白,同時(shí)把不同模塊之間的連接關(guān)系考慮到網(wǎng)絡(luò )里來(lái)。我們人的大腦就是這樣的,大腦從視覺(jué)的低層特征抽取往上,它具有很多不同的功能性結構在里面,而且這個(gè)功能性結構是可塑的。

其次,除了通常講的識別功能之外,我們要把記憶、注意等一些認知機制通過(guò)學(xué)習的方式實(shí)現出來(lái)。目前已經(jīng)有一些這方面的工作了。將來(lái)這些機制在計算機視覺(jué)里面可能會(huì )作為學(xué)習的一個(gè)核心目標,融到我們現在的整個(gè)體系當中。

另外,還應考慮通過(guò)環(huán)境的交互這種方式來(lái)選擇需要的樣本進(jìn)行自主學(xué)習等。所以,這種學(xué)習方式上的結構柔性應該是我們追求的一個(gè)目標。

另外一點(diǎn),我們現在的計算機視覺(jué)還比較缺乏對動(dòng)態(tài)場(chǎng)景的處理。我們現在很多工作是在靜態(tài)場(chǎng)景里面,像人臉識別也是在靜態(tài)場(chǎng)景里面來(lái)做。盡管有時(shí)候我們用視頻來(lái)做,但并沒(méi)有深入考慮整個(gè)場(chǎng)景的動(dòng)態(tài)特性,F在動(dòng)態(tài)目標的跟蹤、檢測、分析、行為的識別與理解等這些工作都有在做,但還沒(méi)有上升到一個(gè)系統化的水平。我們也應該把更多的注意力放到像移動(dòng)傳感器的定位、三維動(dòng)態(tài)場(chǎng)景的重建與理解等一些事情上面來(lái)。所以,我認為動(dòng)態(tài)視覺(jué)是未來(lái)的另一個(gè)重要研究方向。

還有一個(gè)是主動(dòng)視覺(jué)。主動(dòng)視覺(jué)是把感知與運動(dòng)、控制結合起來(lái),形成一個(gè)閉環(huán)。計算機視覺(jué)里很早就有一個(gè)研究課題,叫視覺(jué)伺服,是想把控制和感知很好地結合起來(lái)。我們的感知一部分是為任務(wù)目的服務(wù),另外一部分是為感知本身服務(wù),即從一種主動(dòng)控制的角度來(lái)考慮感知功能的實(shí)現,以提G感知系統的自適應能力,遷移學(xué)習、無(wú)間斷學(xué)習或終身學(xué)習等都可以應用進(jìn)來(lái)。此外,還應當考慮常識、意識、動(dòng)機以及它們之間的關(guān)系。也就是說(shuō),我們要把視覺(jué)上升到有意識的、可控制的一個(gè)過(guò)程。

如果我們把前面提到的時(shí)序與動(dòng)態(tài)處理等結合起來(lái)之后,應該更多考慮在線(xiàn)學(xué)習。我們不應該全部依賴(lài)目前這種離線(xiàn)學(xué)習、僅使用標注數據,而是應該在動(dòng)態(tài)的環(huán)境當中,根據運動(dòng)與動(dòng)態(tài)數據流本身的特性來(lái)做預測與學(xué)習。這樣可以把前面提到的記憶與注意力等一些機制結合起來(lái),終實(shí)現一種無(wú)監督的在線(xiàn)學(xué)習系統。這樣一來(lái)就能把現實(shí)環(huán)境中的一些特點(diǎn)與變化考慮進(jìn)來(lái),形成一套新的理論。而這個(gè)理論,跟現在的深度學(xué)習、圖像處理分析與理解等相比,會(huì )更接近我們講的視覺(jué)這個(gè)概念。

2. 陳熙霖

預測可見(jiàn)未來(lái)是一件風(fēng)險J大的事,對于這個(gè)命題作文我只能說(shuō)個(gè)人的觀(guān)點(diǎn)。我更愿意從歷史的角度來(lái)看這件事情。

首先,我們回顧一下計算機視覺(jué)的發(fā)展歷程。我把過(guò)去幾十年的過(guò)程分為以下幾個(gè)階段。D一個(gè)階段我稱(chēng)之為啟蒙階段,標志性的事件是1963年L. Robert的三維積木世界分析的博士論文(Machine Perception of Three-dimensional Solids)和1966年夏天Minsky安排幾個(gè)本科生做的手眼系統。這個(gè)階段對計算機視覺(jué)的估計過(guò)于樂(lè )觀(guān),認為這事太容易了,很快就可以解決,正如S. Papert的報告中寫(xiě)到的“The summer vision project is an attempt to use our summer workers effectively in the construction of a significant part of a visual system”。啟蒙階段的重要啟示就是發(fā)現這個(gè)問(wèn)題遠比想象的困難。

從七十年代初期開(kāi)始進(jìn)入D二個(gè)階段,我稱(chēng)之為重構主義,這是以D. Marr的視覺(jué)框架為代表的。這個(gè)框架在Marr的總結性著(zhù)作“Vision --A Computational Investigation into the Human Representation and Processing of Visual Information”中有很好的闡述。其核心是將一切對象恢復到三維表達。其基本過(guò)程是:圖像à基本要素圖(primal sketch)à以觀(guān)察者為中心的三維表達(2.5D skecth)à以觀(guān)察對象為中心的3D表達。這個(gè)過(guò)程看起來(lái)很漂亮,但卻存在兩方面的問(wèn)題——首先是這樣的過(guò)程是否是需要的,其次是如果都試圖恢復三維,這樣不論對感知測量還是計算是否現實(shí)。我個(gè)人認為三維在計算機視覺(jué)中的作用也是有限的。這個(gè)階段的工作也導致了上世紀90年代初對計算機視覺(jué)研究的反思和爭論。有興趣的各位可以看看1991年CVGIP: Image Understanding第53卷第1期上的討論文章。

第三個(gè)階段我稱(chēng)之為分類(lèi)主義,反正只要能識別就好,不管白貓黑貓抓住老鼠就好。人臉識別、各種多類(lèi)物體識別等都在這個(gè)階段大行其道,研究者們采用各種各樣的方法,從研究各類(lèi)不變算子(如SIFT、HOG等)到分類(lèi)方法(如SVM、AdaBoost等)。這個(gè)階段推進(jìn)了識別問(wèn)題的解決,但似乎總差后一公里。

的一個(gè)階段我稱(chēng)之為拼力氣比規模階段,其核心是聯(lián)結主義的復興,這得益于數據和計算資源的廉價(jià)化。這類(lèi)方法在各種分類(lèi)問(wèn)題上似乎得到了很好的解決。但這些方法背后缺少了很多研究需要追求和思考的東西,過(guò)去我們都在講找一個(gè)美妙的辦法。如同我們希望瞄準目標,以小的代價(jià)擊中目標,F在這類(lèi)方法更像是炮決,今天我們似乎進(jìn)入了這樣的炮決時(shí)代。

那么未來(lái)會(huì )是怎么樣的?從前面的發(fā)展歷史來(lái)看,計算機視覺(jué)經(jīng)過(guò)幾十年的發(fā)展進(jìn)入了野蠻人的時(shí)代。什么叫進(jìn)入野蠻人的時(shí)代了?今天大家說(shuō)人工智能熱,可幾乎所有拿來(lái)驗證人工智能的例子都是和計算機視覺(jué)相關(guān)的。而今天很多所謂的計算機視覺(jué)研究就是拿深度學(xué)習訓練一個(gè)模型,所以說(shuō)這是個(gè)野蠻人的時(shí)代。那么野蠻人時(shí)代有什么問(wèn)題?

我們看上一個(gè)和野蠻人時(shí)代相關(guān)的歷史——羅馬帝國。羅馬帝國是被野蠻人消滅的,羅馬(更具體的是指西羅馬)從建國到被滅亡,中間大概有500年。而且西羅馬被滅了以后,還有一個(gè)叫神圣羅馬帝國,按照尤瓦爾·赫拉利《人類(lèi)簡(jiǎn)史》上的說(shuō)法后者既不神圣也不是帝國。當年羅馬帝國也是所有的東西都講究漂亮美麗——斗獸場(chǎng)、引水渠以及打到哪修到哪的條條大路(通羅馬)。計算機視覺(jué)早年的研究者也是天天追求漂亮,要數學(xué)上美、物理上美等等,就和當年羅馬帝國一樣,F在也真的和羅馬帝國一樣了,我們遇到了蠻族人。

這個(gè)蠻族人是誰(shuí)?就是深度學(xué)習,和過(guò)去羅馬人關(guān)心文明,蠻族人關(guān)心財富一樣,在計算機視覺(jué)的研究上,我們也面臨著(zhù)如何選擇的問(wèn)題。當然,歷史也會(huì )驚人地相似,蠻族人占L羅馬以后也不是什么都沒(méi)干。后來(lái)他們建立神圣羅馬帝國,到后來(lái)導致文藝復興。今天計算機視覺(jué)的研究在我們看來(lái)也需要一個(gè)文藝復興。

什么是我們的文藝復興?我們當下的計算機視覺(jué)就處在這么一個(gè)需要思考的時(shí)期。而不是一味地倒向深度學(xué)習,F在有些研究走向比蠻力的階段,就跟打仗比坦克、大炮的數量一樣,靠拼GPU的規模和計算能力。下一步,我們需要往哪里走?這是現在這個(gè)野蠻人時(shí)代需要思考的。

預測未來(lái)五到十年這是一個(gè)風(fēng)險J大的問(wèn)題。所以我只能通過(guò)前面講的歷史和我的一點(diǎn)思考談?wù)剬ξ磥?lái)的一些可能。

首先,一個(gè)值得關(guān)注的未來(lái)趨勢是從識別到理解,套用古人的說(shuō)法就是從知其然到知其所以然。過(guò)去十多年計算機視覺(jué)在識別方面取得了顯著(zhù)的進(jìn)展,但是現在的識別遠遠不是我們所期望的識別。例如你教它識別一個(gè)杯子,它不會(huì )想到杯子和水有任何關(guān)系,不會(huì )想到杯子有任何的其他功能,因而完全是填鴨式的。今天的識別遠遠不是可解釋的。談到可解釋?zhuān)艺J為在計算機視覺(jué)L域的可解釋?xiě)撌菍Y論的解釋?zhuān)皇墙忉尵W(wǎng)絡(luò )行為,前者應該更有價(jià)值。那么要解釋這一切靠什么?應該是靠某種形式的邏輯關(guān)系,這種關(guān)系可以通過(guò)語(yǔ)言表達,語(yǔ)言應該起到橋接作用。這里的語(yǔ)言和自然語(yǔ)言有關(guān)系也有區別,可以是獨立于我們自然語(yǔ)言的,是機器自己對世界理解的語(yǔ)言。換句話(huà)說(shuō),我們把世界的物體重新編碼起來(lái),然后把物體和物體,物體和環(huán)境的聯(lián)系建立起來(lái)就好。有了這樣的從基本屬性到對象直至環(huán)境的關(guān)系,就有可能實(shí)現從知其然到知其所以然。所以我覺(jué)得未來(lái)重要的趨勢就是從無(wú)需知識支撐的識別到需要知識支撐的理解,或者說(shuō)從單純的Bottom-up的識別到需要知識啟發(fā)的具有反饋、推理的更廣義的計算機視覺(jué),這也是我自己這幾年特別關(guān)注的研究方向。

其次,值得關(guān)注的一個(gè)趨勢就是對空間感的有限需求。關(guān)于為什么動(dòng)物需要視覺(jué),主要是兩方面的需求——首先要保證尋找食物和不被天敵吃掉——識別能力;其次是保證不會(huì )因為對空間的錯誤判斷而造成意外傷害(摔倒或者撞擊等)。視覺(jué)重要的就是解決這兩件事情。那么為什么講對空間感的有限需求?我們的三維空間感,只是在相對比較近的時(shí)候,才需要很準確。在距離稍遠一點(diǎn)的情況下,大多數時(shí)候其實(shí)不關(guān)心準確的空間位置,而可能關(guān)心一些如遮擋、順序等關(guān)系。另外,如果你試圖把一切對象都用三維來(lái)表示的話(huà),不管是從計算的代價(jià)還是從可實(shí)現性來(lái)講都很難。試想恢復一個(gè)一米遠處的對象,可以做得很準確,而對于一百米或者更遠的對象,如果希望保持相同的量化精度,對深度值的量化就會(huì )成問(wèn)題。這就是說(shuō)的有限需求的含義,但是我覺(jué)得這件事情一定很重要,特別是在較近的時(shí)候。

第三個(gè)值得關(guān)注的趨勢就是不同模態(tài)的結合,即所謂聰明合一,人的聰明離不開(kāi)耳聰目明。這里的模態(tài)不僅僅限于視聽(tīng)覺(jué),還可以包括不同的二維、三維的視覺(jué)傳感信息等。生物的感知從來(lái)不是僅靠單一模態(tài)的。在多模態(tài)中需要解決好的一個(gè)問(wèn)題是不同模態(tài)間的對齊與因果問(wèn)題。如果同時(shí)存在從多個(gè)模態(tài)獲取的信息,時(shí)空對齊是非常重要的挑戰。與時(shí)空對齊相關(guān)的另一個(gè)問(wèn)題是因果關(guān)系,雖然我們希望獲得因果,但J大多數時(shí)候得到的僅僅是關(guān)聯(lián),兩個(gè)現象之間可以是第三個(gè)因素導致的,如同云層間放電導致電閃和雷鳴,這兩件事是關(guān)聯(lián)的,但J不是電閃導致雷鳴。在J大多數情況下我更傾向于去探索關(guān)聯(lián)而不是因果,特別是在數據驅動(dòng)的模型下,離開(kāi)機理試圖發(fā)現因果是困難的。但在未來(lái)的計算機視覺(jué)研究中不同模態(tài)的結合和關(guān)聯(lián)是一個(gè)重要的趨勢。

第四個(gè)需要關(guān)注的趨勢是主動(dòng)視覺(jué),所謂主動(dòng)就是在視覺(jué)系統中納入了反饋的機制,從而具有選擇的可能。視覺(jué)如果僅僅以獨立的形式存在,則不論是從感知所需的精度、分辨率以及處理的能力都需要成指數規模的增加,生物視覺(jué)由于有了主動(dòng)選擇的機制,因而在視野、分辨率、三維感知與能量消耗方面得到了很好的平衡。當計算機視覺(jué)的研究不僅僅是為了驗證某個(gè)單一的功能時(shí),上述生物視覺(jué)的平衡一樣需要在計算機視覺(jué)系統中考慮,實(shí)現從感知、響應到行為的閉環(huán)。從被動(dòng)感知走到主動(dòng)的感知,這是從算法到系統的一個(gè)重要趨勢。將視覺(jué)的“看”與“響應”和“行為”構成廣義的計算機視覺(jué)系統,通過(guò)有主動(dòng)的“行為”進(jìn)行探索,實(shí)現“魂”和“體”的合一。這對視覺(jué)應用系統是至關(guān)重要的——例如一個(gè)經(jīng)過(guò)預訓練的服務(wù)機器人,可以通過(guò)在新環(huán)境中的主動(dòng)探索,實(shí)現整體智能的提升。所以我認為這是未來(lái)視覺(jué)應用系統的重要趨勢。

我沒(méi)有講具體的算法哪些是重要的。我想說(shuō)一件事情,就是關(guān)于深度學(xué)習,我覺(jué)得未來(lái)深度學(xué)習就會(huì )像今天計算機里看到的寄存器、觸發(fā)器、存儲器乃至CPU一樣,成為基本構件。關(guān)于趨勢,延續前面的劃分,計算機視覺(jué)將進(jìn)入一個(gè)知識為中心的階段。隨著(zhù)深度學(xué)習的廣泛應用,計算機視覺(jué)系統將不僅處理單一任務(wù)。在復雜視覺(jué)任務(wù)的處理中,主動(dòng)視覺(jué)將起到重要的作用。通過(guò)主動(dòng)的響應和探索,構建并完善視覺(jué)系統對觀(guān)察世界的關(guān)聯(lián)(因果)關(guān)系并借此理解空間對象的時(shí)空關(guān)系、物理屬性等。這算是我對今天討論問(wèn)題的個(gè)人預測。

3. 盧湖川

剛才前面兩位老師已經(jīng)提綱挈L的提了一些觀(guān)點(diǎn),我可能有一些和他們是相似的。

從理論方面來(lái)講,我覺(jué)得目前深度學(xué)習的理論好像有點(diǎn)走不太動(dòng)了。具體來(lái)說(shuō),從Backbone的發(fā)展來(lái)看,網(wǎng)絡(luò )結構的設計,基本上沒(méi)有更多新的內容。另一方面,某些L域還是比較熱門(mén)的,發(fā)展比較快。比如說(shuō)自然語(yǔ)言處理(NLP)和視覺(jué)的結合,這幾年取得了很多進(jìn)展,特別是聊天機器人等相關(guān)的實(shí)際需求,驅動(dòng)著(zhù)VQA等技術(shù)都有較大的進(jìn)展。尤其是基于圖的方法和視覺(jué)結合在一起可能會(huì )越來(lái)越熱。

以知識圖譜為例,如果知道一些先驗知識,知道一些知識圖譜的話(huà),可能會(huì )更好的去理解圖像或者視頻。例如,給定一幅圖像,里面有一只貓和一個(gè)魚(yú)缸,貓用爪子抱住了魚(yú)缸,還盯著(zhù)魚(yú)缸里面的魚(yú),如果我們知道知識圖譜里貓和魚(yú)的關(guān)系, 我們就能很好的描述出貓想吃魚(yú)缸里的魚(yú),從而更好的幫助視覺(jué)理解圖像或視頻里目標和目標之間的關(guān)系。所以說(shuō),我覺(jué)得基于圖或圖譜的方法和視覺(jué)結合在一起未來(lái)幾年會(huì )有更大的發(fā)展。

D二方面,我覺(jué)得三維視覺(jué)會(huì )繼續快速發(fā)展。從前兩年開(kāi)始冒頭,到現在已經(jīng)較為火爆,不僅僅局限于三維場(chǎng)景重構等L域,基于三維視覺(jué)的檢測與分割等都有一些優(yōu)秀的工作涌現。隨著(zhù)基于各種各樣的嵌入式設備和手機端的需求,像華為手機已經(jīng)有三個(gè)背面的攝像頭,甚至多個(gè)攝像頭(它的三個(gè)攝像頭的定義,一個(gè)是超廣角的,一個(gè)是廣角的,另外一個(gè)是G精度的攝像頭,不同的分辨率,可以更多的去模仿人的視覺(jué)方式)。由于人觀(guān)測世界本身是三維的,所以移動(dòng)端的這種大量的應用會(huì )牽引著(zhù)三維視覺(jué)在這方面越來(lái)越走向更深入的發(fā)展。

第三方面,初我們提到深度學(xué)習時(shí),通常都會(huì )說(shuō)手工設計的特征(handcrafted feature)有各種各樣的不好,而深度學(xué)習是一個(gè)端到端的網(wǎng)絡(luò )。實(shí)際上,深度學(xué)習的網(wǎng)絡(luò )結構也是手工設計的(handcrafted)。目前,網(wǎng)絡(luò )結構搜索NAS興起之后,我覺(jué)得在這方面可能會(huì )有更多的一些改善,能夠把一些常規的操作,包括一些常規的模塊都融入進(jìn)去,來(lái)不斷優(yōu)化網(wǎng)絡(luò )結構而不是手工設計(handcrafted design)。我覺(jué)得未來(lái)幾年在這方面,甚至包括網(wǎng)絡(luò )結構的壓縮和裁剪方面都會(huì )有更多的進(jìn)步。

第四方面,深度學(xué)習興起之后,我們看到誕生了一大堆的數據集,并且都是有g(shù)round truth標注的數據,在其驅動(dòng)下,深度網(wǎng)絡(luò )達到了一個(gè)比較好的性能,目前J大多數的數據集在性能方面基本上也趨于飽和了,但是距離實(shí)際問(wèn)題仍然有較大的距離。另一方面,人對世界的認知基本都是小樣本學(xué)習的結果,和目前的大數據驅動(dòng)的模式不太一樣。所以能否將當前大數據驅動(dòng)的方式和人參與的方式結合起來(lái)?現在也有很多這樣的論文來(lái)研究人主動(dòng)參與的或者是human in the loop的學(xué)習方式,可以把人對ground truth的主動(dòng)標記結合起來(lái),引導快速的學(xué)習,甚至把性能提G到一個(gè)更G的G度。

第五方面,視頻理解在前幾年開(kāi)始有初步的發(fā)展,特別是到這幾年有更多的需求和深入的趨勢。因為現在基于圖像的所有任務(wù)做到一定程度之后可能都做不動(dòng)了,或者說(shuō)沒(méi)有更多的花樣了,那么對視頻的各種理解越來(lái)越多,包括視頻摘要、視頻場(chǎng)景分類(lèi)、廣告識別、臺標識別等等,很多這方面的應用,我覺(jué)得未來(lái)幾年會(huì )有更長(cháng)足的發(fā)展。

我覺(jué)得在主題(topic)方面,未來(lái)會(huì )有更多的發(fā)展L域。隨著(zhù)剛才陳老師說(shuō)到野蠻人的時(shí)代來(lái)了,大家參與視覺(jué)研究的熱情很G,不光是學(xué)術(shù)界,產(chǎn)業(yè)界對這種需求也是非常巨大的。因此我覺(jué)得目前深度學(xué)習L域,視覺(jué)會(huì )在各個(gè)行業(yè)縱深發(fā)展。

舉個(gè)例子,這兩天有一個(gè)公司提出這樣的一個(gè)需求,即鞋印踩上去之后,希望能識別是哪個(gè)犯罪嫌疑人來(lái)踩的,這個(gè)就是足跡識別。進(jìn)一步,他們想通過(guò)這個(gè)足跡來(lái)判斷這個(gè)鞋的鞋面是什么樣的,是什么牌子的。然后通過(guò)這些線(xiàn)索進(jìn)而去庫里搜索比對,搜索完了之后,再去視頻里面去找犯罪嫌疑人,即穿這種鞋的人到底是誰(shuí)。這個(gè)過(guò)程中,一步一步的從源頭開(kāi)始到后面,形成了一系列的視覺(jué)問(wèn)題,行業(yè)的這種縱深發(fā)展需求是無(wú)限巨大的。

視覺(jué)里面還有很多之前沒(méi)有想到的事情在不斷進(jìn)步,兩天前我參加了工業(yè)機器人展,看到有一個(gè)撿包裹的機器人。我們都知道快遞小哥要送了一大堆包裹,各種各樣的包裹都有,能否在包裹車(chē)拉來(lái)一車(chē)包裹后,讓機器人去分類(lèi)呢?我在展會(huì )上看到就有這么個(gè)機器人,它會(huì )自動(dòng)的去識別是什么樣的包裹,而且知道它的三維的曲面是怎么樣,因為包裹放的角度都完全不同,它會(huì )調整機械臂,適應包裹的三維曲面的法線(xiàn)方向,去吸附它。我感覺(jué)在不同行業(yè)實(shí)際需求下,像分割、三維建模等視覺(jué)技術(shù)都會(huì )快速在各個(gè)行業(yè)里得到深入的發(fā)展。

另外,我覺(jué)得在醫療圖像方面也會(huì )有很大的進(jìn)展。醫療圖像現在更多的是各個(gè)疾病的檢測。昨天跟一個(gè)醫療單位在一起交流,他們提供了一個(gè)很大的平臺,它的終目標是通過(guò)病人的不同模態(tài)的信息,來(lái)后綜合判斷病人到底是什么樣的病。不僅僅是關(guān)注醫學(xué)影像信息的,還有一些其他的一些檢查結果,其實(shí)是一個(gè)跨模態(tài)的融合,包括圖像標注、病案標注等等,他們都使得醫療圖像未來(lái)和視覺(jué)的結合會(huì )越來(lái)越緊密。

目前5G不光是速度快容量大,它其實(shí)給計算機視覺(jué)AI帶來(lái)了一個(gè)更廣闊的前景,特別是無(wú)人車(chē)方面,剛才幾位也提到了三維的地圖等。跟中國移動(dòng)交流了之后,發(fā)現他們的G精度地圖,可以通過(guò)5G帶寬實(shí)時(shí)傳輸,是可以看到馬路崖子這種厘米級的精細度。所以我覺(jué)得5G+AI會(huì )為我們視覺(jué)相關(guān)L域的發(fā)展帶來(lái)巨大的機會(huì )。以上就是我對未來(lái)5-10年視覺(jué)發(fā)展趨勢的一些理解。 

4. 劉燁斌

我主要圍繞三維視覺(jué)、虛擬現實(shí)和人工智能的發(fā)展談點(diǎn)想法。虛擬現實(shí)是2016年火了之后一直發(fā)展比較平穩。2018年習總書(shū)記有過(guò)關(guān)于虛擬現實(shí)的重要性的指示,虛擬現實(shí)技術(shù)改變了未來(lái)的交互方式,主要是這種人與環(huán)境、人與人之間的交互方式可能會(huì )變得更加自然簡(jiǎn)單,并且取代鍵盤(pán)、手機觸屏等現有的功能。

三維視覺(jué)的趨勢是做視覺(jué)信息的重構,提供三維的內容給虛擬現實(shí),這個(gè)是三維重建,三維虛擬現實(shí)通過(guò)真實(shí)渲染能夠產(chǎn)生很多數據,為視覺(jué)問(wèn)題服務(wù)。很多視覺(jué)問(wèn)題皆有數據驅動(dòng),數據如何得來(lái),越來(lái)越多的部分時(shí)通過(guò)三維引擎來(lái)得到。計算機視覺(jué)的研究對象有好幾類(lèi),室外的、室內的、包括人體人臉還有手,還有一些醫學(xué)和生命對象。以人為本是計算機視覺(jué)的核心,所以我主要以人作為視覺(jué)研究對象,舉例說(shuō)明計算機視覺(jué)的發(fā)展趨勢。

從人為研究對象的角度,虛擬現實(shí)有三個(gè)目標,也即三個(gè)I,一個(gè)Immersion,一個(gè)Interaction,一個(gè)Imagination。三者都是虛擬人(AI、機器等)和真實(shí)人之間的作用關(guān)系。首先,虛擬人在視覺(jué)外觀(guān)上是真實(shí)的,未來(lái)的虛擬人不管是真實(shí)做出來(lái)的機器人還是存儲在計算機中的,都有逼近真人的發(fā)展趨勢,使得交互更加友好。而這個(gè)目標,本質(zhì)上就是人體的三維重建。D二個(gè)要素是人機的交互,虛擬人一定要能感知真實(shí)人的行為,包括手勢識別,行為識別,情緒等這樣的一些理解。后,虛擬人需要對場(chǎng)景有反應,能夠智能化,他能夠根據你的行為智能地做下一步的處理,保證產(chǎn)生一個(gè)真實(shí)的虛擬人。

總體來(lái)說(shuō),虛擬現實(shí)的智能建模技術(shù)被列為新一代人工智能發(fā)展規劃里的八大關(guān)鍵共性技術(shù),重點(diǎn)突破虛擬對象智能的行為建模技術(shù),提升虛擬現實(shí)中智能對象行為的社會(huì )性、多樣性、交互逼真性,實(shí)現虛擬現實(shí)和增強現實(shí)等技術(shù)與人工智能的有機結合和G效互動(dòng)。上述定義中的重點(diǎn)是行為建模,行為需要是接近人的智能的行為,才能有交互的逼真性等等。圍繞這個(gè)人體的建模,目前的目標一個(gè)是要準確的重建,D二是要規;牟杉,第三是要便攜式(手機單圖像也能做),第四是速度足夠快,能夠響應交互的要求,第五就是現在一個(gè)大的發(fā)展趨勢,建模的結果含有語(yǔ)義信息,即語(yǔ)義化建模,包括服裝,人臉,頭發(fā)等。后第六就是智能生成,即重建結果能真實(shí)動(dòng)畫(huà)展示,F有的三維視覺(jué)重建技術(shù)很難滿(mǎn)足這六個(gè)方面的要求,所以圍繞這些目標還有很多研究需要做。

人體重建主要目的之一是全息通信。這里展示微軟做的holoportation系統,它實(shí)現實(shí)時(shí)的,多相機下的人體動(dòng)態(tài)三維重建。但這個(gè)系統的缺點(diǎn)是,它要求具有主動(dòng)光,導致系統復雜度G,實(shí)時(shí)性和便捷性成為矛盾。實(shí)現實(shí)時(shí)G精度三維動(dòng)態(tài)重建,也是未來(lái)的一個(gè)學(xué)術(shù)研究趨勢。我們研制的單個(gè)深度相機實(shí)時(shí)的重建,雖然速度和便捷性都趨于出色,但精度還有待提G。單圖像人體三維重建,雖然現在的質(zhì)量還不算出色,但我覺(jué)得這是一個(gè)很實(shí)用的技術(shù)應用趨勢。通過(guò)單個(gè)圖像我們就可以來(lái)簡(jiǎn)便地重建它的三維模型,未來(lái)肯定是能大放光彩的。單圖像人手動(dòng)態(tài)三維重建,通過(guò)單個(gè)RGB監控相機就可以來(lái)實(shí)現實(shí)時(shí)性,可以看出三維重建輸出了語(yǔ)義信息,已經(jīng)取代了傳統二維計算機視覺(jué)識別問(wèn)題成為發(fā)展趨勢。

服裝產(chǎn)業(yè)占據國民生產(chǎn)總值的6%,數字化服裝是一個(gè)非常重要的計算機視覺(jué)應用之地。這個(gè)是展示我們做的一些事情,通過(guò)單個(gè)視頻,可以網(wǎng)上的視頻,就能通過(guò)語(yǔ)義的建模來(lái)實(shí)現比較G質(zhì)量的服裝三維建模,對一些VR、AR都可以應用,它是通過(guò)對人體和服裝的解耦,語(yǔ)義信息的加入,包括光照和紋理的解耦來(lái)實(shí)現。這種東西未來(lái)可以產(chǎn)生一些應用,包括改變體型,包括增強現實(shí)的模擬,右邊就是一個(gè)互聯(lián)網(wǎng)視頻的重構,它可以改變服裝的顏色等等。我覺(jué)得這種便攜實(shí)時(shí)的三維重建的趨勢就是從低層次的三維建模,包括體素的、網(wǎng)格的,逐漸走向G層次的三維建模,包括部件級的重建、物理信息分離、感知物理動(dòng)力學(xué)、特征空間的提取。這些G維信息能夠智能地建模和生成,響應環(huán)境,控制和預測。包括圖形學(xué)里做的一些研究,好玩的比如能讓一個(gè)人去動(dòng)的虛擬對象的這種物理的約束,包括我們自己去爬山這種增強現實(shí)的技術(shù)也會(huì )引入進(jìn)來(lái),把物理、智能響應引入進(jìn)來(lái)。

后再談?wù)劯袕V泛意義的一些動(dòng)態(tài)三維重建問(wèn)題。例如,醫療方面的比如外科手術(shù)的術(shù)野場(chǎng)景的三維感知,就是個(gè)非剛性復雜動(dòng)態(tài)場(chǎng)景的三維建模問(wèn)題。這是展示肝臟手術(shù)的視頻,能夠動(dòng)態(tài)跟蹤它的形狀,三維掃描的CT可以在動(dòng)態(tài)的場(chǎng)景下實(shí)時(shí)非剛性映射,輔助醫療和手術(shù)。

還有就是在生命科學(xué)L域的動(dòng)物行為三維重建,我覺(jué)得動(dòng)物是未來(lái)視覺(jué)的一個(gè)很大的可以應用的點(diǎn),我們叫計算行為學(xué),也叫神經(jīng)行為學(xué)。它研究的是行為跟神經(jīng)活動(dòng)的映射關(guān)系,通過(guò)采集動(dòng)物行為數據來(lái)進(jìn)行分析。行為學(xué)上對人進(jìn)行分析非常難,因為人的基因差別非常大。但對于動(dòng)物來(lái)說(shuō),可以做到每個(gè)小鼠基因都是一樣的,像譬如在豬、猴子上也比較容易控制一些其他的差別的因素,所以對醫療,包括基因控制都會(huì )有幫助。在Nature子刊、Nature methods、Neural Science上都有一些相關(guān)的文章。

這里面其實(shí)有很多問(wèn)題,包括群體對象自然環(huán)境下的交互,非剛性的捕捉,G層語(yǔ)義檢測,互遮擋三維恢復,時(shí)間序列分析,有很多研究發(fā)表在Nature上。動(dòng)物行為三維重建研究趨勢就是希望動(dòng)物更加自由地在實(shí)驗環(huán)境里去生活,被記錄,藥物干預后提早發(fā)現行為差別。這樣的研究還是很多的,包括可以提取維度更G的特征。我們也是在做這樣一些研究,這里面有四個(gè)小豬,有兩個(gè)是有漸凍癥的,我們通過(guò)多視點(diǎn)拍攝,希望重構三維小豬的動(dòng)作,通過(guò)重建動(dòng)作來(lái)識別漸凍癥小豬的行為特點(diǎn),對未來(lái)的基因調控和藥物治療帶來(lái)幫助。

5. 章國鋒

幾位老師已經(jīng)從計算機視覺(jué)大的層面對未來(lái)5-10年發(fā)展趨勢做了展望,我從我熟悉的三維視覺(jué)和AR方面對未來(lái)5-10年的發(fā)展趨勢發(fā)表一下自己的看法。

我的研究方向主要是SLAM,所以我就先從SLAM的角度做一些發(fā)展趨勢的展望。我們都知道視覺(jué)SLAM是很依賴(lài)特征的,未來(lái)SLAM技術(shù)的發(fā)展趨勢必然會(huì )從以前的底層特征比如點(diǎn)、線(xiàn)、面,向G層特征比如語(yǔ)義、文字、物體等趨勢發(fā)展。并且,現在已經(jīng)有一些提取運動(dòng)規律的工作比如人的步態(tài)規律、機器人和無(wú)人車(chē)的運動(dòng)規則等等,來(lái)進(jìn)一步提G定位的穩定性。

有一個(gè)趨勢是朝著(zhù)多傳感器融合的方向發(fā)展,其實(shí)每個(gè)傳感器都有著(zhù)它的優(yōu)點(diǎn)和缺點(diǎn),那么好的方法就是把這些傳感器的信息都融合起來(lái),比如說(shuō)隨著(zhù)深度相機的流行,一些手機上都安裝了深度攝像頭,還有Wifi、藍牙、地磁信號等等,把這些信號都融合起來(lái)肯定可以提升定位的穩定性。未來(lái)還會(huì )有更多類(lèi)型的傳感器出現,比如這幾年新出來(lái)的事件相機、偏振相機,相信未來(lái)5-10年還會(huì )有一些新的傳感器出來(lái)。通過(guò)多傳感器融合,我相信SLAM技術(shù)會(huì )做的越來(lái)越準確和魯棒。

還有一個(gè)趨勢就是隨著(zhù)5G時(shí)代的到來(lái)SLAM會(huì )朝著(zhù)云和端結合的趨勢發(fā)展,比如說(shuō)現在G精度地圖的構建是放在云上,并且支持動(dòng)態(tài)的更新。這就很自然地涉及到移動(dòng)端上的SLAM和云上的G精度地圖如何做緊耦合,如何利用語(yǔ)義地圖的信息來(lái)更好地定位,不同終端如何協(xié)同來(lái)做SLAM。

現在主要是深度學(xué)習的時(shí)代,對于SLAM來(lái)說(shuō),目前已有不少基于深度學(xué)習的工作,相信未來(lái)還會(huì )有更多這方面的工作涌現出來(lái),比如如何學(xué)習一個(gè)更好的特征,如何學(xué)習更好的策略去解決SLAM中手寫(xiě)規則的困境,可能還會(huì )有做得很好的端到端的位姿學(xué)習。還有一個(gè)非常重要的就是語(yǔ)義信息的融合,比如說(shuō),結構的信息怎么跟語(yǔ)義信息做更好的融合,就像人眼一樣看世界。我覺(jué)得這是未來(lái)的一個(gè)發(fā)展趨勢。

以上是關(guān)于SLAM方面的。然后,三維重建,劉老師前面已經(jīng)討論得很多了,尤其是動(dòng)態(tài)場(chǎng)景的重建,我這里稍微再做一點(diǎn)補充。我覺(jué)得未來(lái)物體的三維掃描方面,一些便攜式、移動(dòng)式的RGBD傳感器會(huì )越來(lái)越流行,比如說(shuō)基于結構光和ToF的深度傳感器,未來(lái)我相信還會(huì )有一些新的傳感器出現,可以幫助實(shí)現實(shí)時(shí)G效的三維重建。這里重建的不只是幾何和紋理,還包括材質(zhì)、語(yǔ)義等等;谡掌/視頻的三維重建技術(shù)未來(lái)幾年也還會(huì )有一些進(jìn)展,比如實(shí)現更G的幾何精度和紋理,能得到更細粒度的語(yǔ)義,并且結合分布式平臺的算力實(shí)現更G效的重建。

在大規模場(chǎng)景的三維掃描方面,目前基于相機拍攝的視頻或者照片已經(jīng)可以做到城市級場(chǎng)景的三維重建。一般都是通過(guò)無(wú)人機航拍,然后重建出來(lái)。如果進(jìn)一步結合深度傳感器(比如Lidar),相信可以實(shí)現更G精度的場(chǎng)景構建。再結合分布式平臺的計算能力,實(shí)現整個(gè)城市甚至整個(gè)地球的完整三維地圖的重建將不是問(wèn)題。當然只是靜態(tài)場(chǎng)景的重建還不算太難,更難的是怎么實(shí)現動(dòng)態(tài)物體的重建和場(chǎng)景的動(dòng)態(tài)更新,因為真實(shí)的世界不是靜態(tài)的,而是動(dòng)態(tài)變化的。我覺(jué)得未來(lái)可能會(huì )通過(guò)相對低成本比如多傳感器融合的方式來(lái)實(shí)現四維的場(chǎng)景地圖的動(dòng)態(tài)更新。包括前面講的通過(guò)三維掃描獲得的物體模型可以注冊到真實(shí)世界的三維地圖中,來(lái)實(shí)現三維信息的共享和傳遞。

然后,我想談一下識別和重建的關(guān)系。識別和重建未來(lái)5到10年會(huì )往更深層次的融合。目前三維重建基本上是bottom-up的方式,對先驗知識的利用不夠充分,未來(lái)5-10年可能會(huì )誕生top-down的方式,比如說(shuō)先識別后重建,或者兩者同步進(jìn)行。識別能夠提供更G層次的結構先驗,反過(guò)來(lái)重建能夠幫助做更好的物體識別,因此未來(lái)會(huì )更加緊密的融合。另外,也還需要深度學(xué)習和幾何優(yōu)化算法的融合,才能終構建出兼具幾何外觀(guān)、語(yǔ)義信息、結構化的、可動(dòng)態(tài)更新的3D場(chǎng)景表示。

另外,因為我本人一直在做AR方面的應用,所以也想談一下關(guān)于A(yíng)R/VR、AI和三維視覺(jué)協(xié)同發(fā)展的趨勢。其實(shí)AR主要是AI和三維視覺(jué)的應用。這三者如果能夠緊密協(xié)同發(fā)展,那么我相信未來(lái)五到十年就可以實(shí)現一個(gè)地球級的現實(shí)世界的數字化。左邊這個(gè)圖是華為前不久提出的Cyberverse數字現實(shí)技術(shù),它主要是通過(guò)相機、Lidar等傳感器對真實(shí)世界進(jìn)行掃描并構建G精度地圖,然后基于G精度地圖來(lái)實(shí)現室內外準確的定位和導航以及各種AR效果。Cyberverse實(shí)際上也不是一個(gè)完全新的概念,Magic Leap在2018年就提出過(guò)類(lèi)似的概念Magicverse,旨在將大規模物理世界和數字世界持續地融合在一起。如右圖所示,Magicverse包括好幾個(gè)層,主要兩種類(lèi)型,一類(lèi)是叫做基礎層(包含物理世界和數字世界),還有一類(lèi)叫空間應用層;A層底下是物理世界,然后在物理世界上構造一個(gè)對應的數字世界,然后再上面就是空間應用層,包括流動(dòng)性、能源與水、健康與保健、通訊、娛樂(lè )等。

要實(shí)現這樣一個(gè)數字化的現實(shí)世界,關(guān)鍵的一點(diǎn)就是對物理世界進(jìn)行三維數字化,也就是如何對G精度地圖進(jìn)行采集、構建和更新。我相信未來(lái)必然是朝著(zhù)多模態(tài)、多傳感器采集和融合的方式發(fā)展,因為每個(gè)傳感器都有著(zhù)它的優(yōu)點(diǎn)和缺點(diǎn),需要融合互補。這里難的問(wèn)題可能是怎么進(jìn)行動(dòng)態(tài)更新。我相信眾包式的采集和更新是實(shí)現這個(gè)目標的有效方式,可以實(shí)現低成本、G頻次的更新。G精度地圖除了三維還應該包括語(yǔ)義信息,因此語(yǔ)義信息的提取也是非常重要的,而且需要滿(mǎn)足不同應用的語(yǔ)義信息,比如說(shuō)定位、AR/VR的展示、行為分析等等。這就要實(shí)現不同粒度語(yǔ)義信息的提取,這里面的粒度可以大到整個(gè)商場(chǎng),再到一個(gè)門(mén)店,再小一點(diǎn)就是一個(gè)商品。除了物理世界的三維數字化,還需要對人的行為進(jìn)行數字化,運動(dòng)行為、消費的行為、社交行為等等。

對于這樣構建的人的行為也好、三維空間也好,再結合SLAM、AR技術(shù),我們可以實(shí)現地球級的AR應用。當然,這里首先需要解決云端的G精度地圖怎么與終端SLAM緊耦合,這樣才能夠實(shí)現長(cháng)時(shí)間大范圍的準確定位和G品質(zhì)虛實(shí)融合。松耦合模式會(huì )有一些缺陷,誤差累積會(huì )很快,穩定性也不夠好;谶@樣的一種方式,我們可以實(shí)現室內外的分米級甚至到厘米級的定位和導航。

另外,我們知道5G時(shí)代很快就要到來(lái)了。目前的AR計算還主要是在終端,比如手機、AR眼鏡等。未來(lái)有5G的情況下很多計算都可以放到云或邊上,對終端的計算要求相對弱化,終端未來(lái)更多的是提供數據采集、連接和顯示的能力。因為有云端算力的加持,G品質(zhì)的AR效果可以得以實(shí)現,比如G逼真的物理效果模擬,準確的遮擋效果和虛實(shí)交互,準確的光照估計和電影級的真實(shí)感繪制與虛實(shí)融合效果就成為可能。在5G時(shí)代,一方面傳輸速度非?,另一方面有云端算力加持,未來(lái)應用APP甚至都不要預裝,我們打開(kāi)一個(gè)APP就像在瀏覽器上輸入網(wǎng)址或電視機上切換頻道一樣便捷。

以上是我對三維視覺(jué)和AR方面未來(lái)發(fā)展趨勢的看法,供大家參考。

三、專(zhuān)家討論發(fā)言

謝曉華:

我感覺(jué)我們是不是忽略了一點(diǎn),就是硬件發(fā)展。例如我們之前做超分辨率,做了很多,但是后來(lái)G清相機一出來(lái),很多工作就白做了。那會(huì )不會(huì )在未來(lái)的十年范圍內視覺(jué)傳感器這一塊會(huì )有比較大的突破,然后剛才提到的一些工作就沒(méi)有必要去做了。

林宙辰:

我想說(shuō)一說(shuō)什么樣的計算體系適合做計算機視覺(jué)?現在我們都是基于馮諾依曼體系,但是人的視覺(jué)處理過(guò)程跟馮諾依曼體系有很大的差別。如果是在新型的計算平臺上面,是不是很多計算機視覺(jué)的問(wèn)題能更好或更G效的解決,我覺(jué)得是可以探討的。另外一個(gè),我贊成主動(dòng)視覺(jué)和在線(xiàn)學(xué)習。我覺(jué)得現在的視覺(jué)系統觸碰到了一點(diǎn)是,每個(gè)人都是from scratch,這樣的話(huà)精力有限你就只能做一個(gè)非常簡(jiǎn)單的任務(wù)。我覺(jué)得將來(lái)可以做一個(gè)像wiki一樣的項目,全世界都可以貢獻,這樣的話(huà)大家都在共同構建一個(gè)統一的系統,而且這個(gè)系統可以利用網(wǎng)絡(luò )上的所有數據,可以自我進(jìn)化(evolution)。然后這個(gè)系統大家都可以公用,這樣就可以解決每個(gè)人的系統不停的從頭學(xué)習的問(wèn)題,因為單個(gè)人做的話(huà)只能做很小的一部分。

林倞:

我想談一談關(guān)于benchmark或者關(guān)于A(yíng)I的評價(jià)系統或者CV評價(jià)系統的好壞的基準。因為我認為我們很多的研究是受這個(gè)基準所驅動(dòng)的,或者說(shuō)是跟這個(gè)benchmark是相互驅動(dòng)的,F在CV的趨勢是融合、協(xié)同等,那么未來(lái)我們可能會(huì )需要一種新的評價(jià)體系來(lái)看CV的狀況,可能不需要在一個(gè)特別的識別問(wèn)題或者分割問(wèn)題上達到特別G的精度,但是我們同時(shí)接入理解、分析、可解釋性等,這樣才能評價(jià)一個(gè)AI或者CV系統的魯棒性,更像人一樣的而不是把它歸類(lèi)為一個(gè)分類(lèi)問(wèn)題或者重建問(wèn)題,我覺(jué)得這個(gè)可能是我們要很具體的去討論和去發(fā)現的問(wèn)題。

山世光:

我們討論十年后視覺(jué)可以發(fā)展到一個(gè)什么樣的水平,可是我們并沒(méi)有定義清楚,我們該如何從總體上度量視覺(jué)智能的進(jìn)步,比如說(shuō)現在視覺(jué)智能水平是60分,十年后我們可以做到80分,這個(gè)沒(méi)有明確的標準。包括什么是視覺(jué)理解、圖像理解,怎么定義呢?比如我們做人臉識別,很清楚,就是以某個(gè)數據庫上的識別率為準?墒亲鳛橐粋(gè)general的視覺(jué)我們好像沒(méi)有這樣的一個(gè)標準。

另外,作為一個(gè)標準的benchmark的角度來(lái)說(shuō)的話(huà),是不是人的視覺(jué)也是分兩種,一種是通用的視覺(jué),一種是專(zhuān)用的視覺(jué)。比如我們普通人看不懂醫療影像但專(zhuān)業(yè)醫師就可以,但是我們都有通用的視覺(jué)的能力。這兩類(lèi)視覺(jué)實(shí)現的路徑是一樣的還是不一樣的?

還有一個(gè)就是剛才提到的十年后我們可能把地球都數字化了,但是這個(gè)數字話(huà)不見(jiàn)得是個(gè)簡(jiǎn)單的數字化,比如是地圖化的,那地圖化的話(huà)對我們做視覺(jué)的有什么樣的幫助呢?我覺(jué)得是不是類(lèi)似于出現了一個(gè)視覺(jué)智能測試的“靶場(chǎng)”,我們的很多東西都可以在這個(gè)“靶場(chǎng)”里去測試。例如很多做自動(dòng)駕駛的系統初步的訓練都是用的合成的模擬數據。那么也許我們有了一個(gè)很好的關(guān)于地球的數字化模擬的時(shí)候,我們就有了一個(gè)很好的視覺(jué)的“靶場(chǎng)”,這個(gè)“靶場(chǎng)”既可以做訓練也可以做測試。

此外,要不要做視覺(jué)常識?大家都在說(shuō)知識,我覺(jué)得知識這個(gè)體系如果沒(méi)有常識,感覺(jué)有些空中樓閣。我們做視覺(jué)先得有視覺(jué)常識,有常識才有可能有所謂的理解,我不知道是否正確,我覺(jué)得這個(gè)問(wèn)題可以討論。

陳熙霖:

關(guān)于理解的評價(jià)問(wèn)題,我們可以想想人是怎么做的。對于人類(lèi)形成體系的知識我們確實(shí)有benchmark,確實(shí)有考題?墒菍θ祟(lèi)探索中的知識是沒(méi)有考題的。大家理解的知識后形成一個(gè)公共認可的交集,后逐步拓展。所以,我個(gè)人認為在未來(lái)的推動(dòng)理解的研究中,benchmark不能沒(méi)有,但是不能唯Benchmark。如果說(shuō)過(guò)去近30年中Benchmark推動(dòng)了計算機視覺(jué)的發(fā)展,今天可能成為束縛了計算機視覺(jué)發(fā)展的一個(gè)因素。我經(jīng)常跟學(xué)生為此爭論,一些學(xué)生認為離開(kāi)可評測數據集的工作就不是研究。而對真正智能的研究可能就是沒(méi)有Benchmark——沒(méi)有聰明,只有更聰明。對于場(chǎng)景理解一類(lèi)的任務(wù)而言,一個(gè)機器可能發(fā)掘出100組關(guān)系,另一個(gè)機器可能發(fā)掘出300組關(guān)系,那后者的理解能力可能就超越了前者,如果前者的關(guān)系是后者的真子集,那后者就一定具有更強的理解能力。當然更多的是兩者可能具有互補性,如同人類(lèi)的三人行必有我師。

D二件事情是說(shuō)通用視覺(jué)與專(zhuān)用視覺(jué),我的觀(guān)點(diǎn)是對于醫療判讀這類(lèi)的所謂專(zhuān)用視覺(jué)其實(shí)遠遠超越了視覺(jué)本身,它不僅僅是視覺(jué),醫生的判斷是在視覺(jué)現象基礎上的知識/邏輯推理。

胡占義:

這個(gè)觀(guān)點(diǎn)我有點(diǎn)不大同意。我十多年一直在研究生物視覺(jué),視覺(jué)J不是說(shuō)就是感知,視覺(jué)包含認知。僅僅視覺(jué)物體識別這個(gè)具體問(wèn)題,人類(lèi)就有約三分之一的大腦皮層參與。當然,某個(gè)大腦皮層區域參與視覺(jué)問(wèn)題,J不能說(shuō)該皮層就是視覺(jué)皮層。大腦的大多數G級皮層,都在于加工多種感覺(jué)信息融合后的信息,進(jìn)行認知決策和行為規劃。所以說(shuō)視覺(jué)問(wèn)題,它涉及真個(gè)大腦,包括皮層和皮下組織的聯(lián)合加工,J不是完全由大腦的視覺(jué)皮層完成。視覺(jué)皮層是指主要對視覺(jué)信息進(jìn)行加工的皮層,很多皮層參與視覺(jué)信息加工,但不是視覺(jué)皮層。

我先說(shuō)D一個(gè)觀(guān)點(diǎn),人的視覺(jué)和計算機視覺(jué)是有區別的,如果說(shuō)把人類(lèi)視覺(jué)的腦加工機制完全解釋清楚,我覺(jué)得和搞清楚宇宙起源的難度沒(méi)有區別,我研究了差不多十五六年生物視覺(jué),據我所知,神經(jīng)科學(xué)L域目前對視覺(jué)V1區研究的比較清楚,V2區已不太清楚,更不用后面的V4和IT區,以及前額葉(PFC)等G級皮層。視覺(jué)問(wèn)題處理基本涉及到大腦皮層的各個(gè)區域。所以說(shuō)研究計算機視覺(jué)我覺(jué)得我們要弄清楚到底什么是計算機視覺(jué),什么是計算機視覺(jué)的核心科學(xué)問(wèn)題,我們不能夠把什么東西都往上加。我覺(jué)得我們要好好討論討論,五到十年內我們到底主要是研究視覺(jué)感知還是視覺(jué)認知?如果研究視覺(jué)認知那是一萬(wàn)年的事。我目前不怎么研究計算機視覺(jué)了,我主要關(guān)注生物視覺(jué)了,也許我說(shuō)的不對,但我覺(jué)得大家還是聚焦一些,目標可實(shí)現一些。

我們討論五到十年的計算機視覺(jué)研究方向,不是指具體的算法,我們十年前也不知道深度學(xué)習能達到今天這樣的一個(gè)G度,我們要討論到底哪些方向是值得研究的,我自己覺(jué)得有三個(gè)需要關(guān)注的方向:1.基于神經(jīng)生理的計算機視覺(jué),估計在五到十年以?xún)仁且粋(gè)重大方向;2.視頻理解;3.涉及中國特色的戰略相關(guān)的視覺(jué)研究:如衛星數據理解(戰略),深海水下視覺(jué)信息處理(深海戰略)。

紀榮嶸:

我自己覺(jué)得我從博士畢業(yè)到現在大概10年的時(shí)間,我認為計算機視覺(jué)是遠遠超過(guò)了我當時(shí)讀書(shū)時(shí)的任何方向,比如說(shuō)自然語(yǔ)言理解,信息檢索等等。我覺(jué)得一個(gè)重要的原因是深度學(xué)習帶來(lái)的收獲。但另一個(gè)方面,我們的這些系統太大太厚重,有沒(méi)有可能把這個(gè)系統做的小一些,做的開(kāi)銷(xiāo)更小一些,這里面有幾個(gè)維度。大家能馬上想到的維度就是把系統做小,做小就可以把它放到端上,放到嵌入式設備上。

D二個(gè)就是把系統做快,現在自動(dòng)駕駛或者端上的設備的計算,有可能需要系統處理數據要遠遠快于實(shí)時(shí)。

第三點(diǎn),現在我們很多時(shí)候都是在做單點(diǎn)的系統,每個(gè)攝像機執行的功能都是一個(gè)完整的閉環(huán),花了很多的計算代價(jià)做了很多重復的事情,未來(lái)的視覺(jué)系統有沒(méi)有可能由點(diǎn)到面進(jìn)行大范圍系統之間的協(xié)同。就是說(shuō)有沒(méi)有可能由專(zhuān)到廣的,為什么是由專(zhuān)到廣,現在每個(gè)模型只能解決一個(gè)任務(wù),為了解決目標識別用的是目標識別的模型,為了解決語(yǔ)義分割用的是語(yǔ)義分割的模型,為了解決人臉而用人臉的模型,我覺(jué)得我們的人腦并沒(méi)有分得那么清楚。one by one或者 1 v 1的我個(gè)人感覺(jué)太消耗資源了,有沒(méi)有可能有一種更靈活的機制,網(wǎng)絡(luò )結構可以由不同的形式組合在一起,比如說(shuō)一套模型的backbone,它往上的話(huà)既可以做識別又可以做分割還可以檢索,還可以做相關(guān)的理解。這樣的話(huà)就可以把整個(gè)計算量給降下來(lái)。我相信人類(lèi)進(jìn)化到現在這個(gè)階段,我們用我們的大腦實(shí)現了多任務(wù)的,G效能的,并行而且只占用J小的存儲開(kāi)銷(xiāo),我們每天只用吃三碗米飯,我們能完成這個(gè)計算機系統消耗多少的計算量來(lái)完成的事情。

第四個(gè)觀(guān)點(diǎn),我覺(jué)得我們的系統現在“吃”數據“吃”的太厲害。我覺(jué)得我們人類(lèi)自身真的沒(méi)有用到這么多的數據進(jìn)行學(xué)習,我們用了大量的數據復用,比如說(shuō)我識別消防車(chē),只需要在車(chē)子上加一些特殊的部件,我就能識別消防車(chē),我們人是很智能的。但是我們現在的計算機系統太吃這些硬性的資源,所以我覺(jué)得在計算資源的消耗上和訓練數據消耗上我們也應該探索更多的機制。

然后,從我自己的感受來(lái)說(shuō),過(guò)去的時(shí)間我們看到世界往前發(fā)展,我特別希望未來(lái)的五到十年里面,計算機視覺(jué)的發(fā)展是由我們中國的學(xué)者去引L的,因為我們現在有巨量的市場(chǎng),這個(gè)市場(chǎng)有我們能馬上可以看到的技術(shù)痛點(diǎn),這痛點(diǎn)就在我們身邊,應該是我們來(lái)做,而不是讓外國人來(lái)做我們的痛點(diǎn),我們應該去引L它,所以我覺(jué)得未來(lái)的五到十年有很多是我們這些中國計算機視覺(jué)的學(xué)者應該去做的事情。

林宙辰:

在手機上要越做越小,我覺(jué)得這不是正確的方向。將來(lái)的視覺(jué)系統應該越做越大,不是越做越小。所有的運算通過(guò)5G放在云上面運算是未來(lái)的一個(gè)趨勢。我們大家都在云端上建立一個(gè)大系統,這樣的話(huà)能夠解決多樣性的問(wèn)題。因為要用一個(gè)小系統來(lái)解決各種各樣的問(wèn)題,我覺(jué)得這個(gè)概率上講是不可能的,就是要建立一個(gè)跟人腦一樣復雜的一個(gè)系統,它才能夠解決各式各樣的問(wèn)題,這個(gè)系統肯定只能放在云上面,手機端愿意多算就多,少算就少算,不要把所有的計算都擠到一個(gè)小的手機上面來(lái)。

紀榮嶸:

我覺(jué)得不一定完全正確。我覺(jué)得端上可以做一些輕量級的計算,云上做更重量的計算。而且端上的計算可以使數據的傳輸由重量級變輕量級。比如說(shuō)原來(lái)傳圖像,現在可以只傳特征,原來(lái)要傳所有的區域,現在只要傳特定的區域。因為手機只用作攝像設備感覺(jué)太浪費了,手機其實(shí)是一個(gè)很好的計算設備。

林宙辰:

我們并不矛盾。我是說(shuō)想在手機上解決所有的問(wèn)題這一點(diǎn)我是反對的。一開(kāi)始你說(shuō)要在手機上做小網(wǎng)絡(luò )這個(gè)東西,肯定是越小功能越差。

胡占義:

對于這個(gè)問(wèn)題我提個(gè)建議,5G對我們計算機視覺(jué)影響有多大,其實(shí)就是小終端和大終端的問(wèn)題。如果5G網(wǎng)絡(luò )很快,終端干脆就可以很小,不需要在這里處理,直接放到云上。我覺(jué)得5G對計算機視覺(jué)的影響確實(shí)要好好理解。

王亦洲:

你倆說(shuō)的沒(méi)有矛盾,在專(zhuān)業(yè)任務(wù)上一定要壓縮。處理是與任務(wù)相關(guān)的,只要滿(mǎn)足任務(wù)的需求就行。視覺(jué)是一個(gè)ill-defined problem。什么是視覺(jué)這個(gè)概念太大了,但如果局限到圖像,又太小了。所以怎么去把握它呢?我們丟這個(gè)陣地,就丟在了問(wèn)題的復雜度上面,F在已經(jīng)被深度學(xué)習占L了,我們再漂亮的理論、性能都不行。 然后我們丟在哪兒了呢?視覺(jué)問(wèn)題是不是深度學(xué)習就解決了?視覺(jué)并不僅僅是一個(gè)學(xué)習問(wèn)題,剛才說(shuō)視覺(jué)可以很大,它可以是個(gè)認知的問(wèn)題,top-down、bottom-up、然后各種任務(wù),我們定義的視覺(jué)問(wèn)題的復雜度不夠,系統的復雜度也不夠。所以我們要把系統的復雜度給加上去,把任務(wù)的復雜度也加上去,但是在每個(gè)具體的專(zhuān)項的任務(wù)上面, 我們要盡量讓它簡(jiǎn)潔(compact), 讓它適合于任務(wù)(fit for task)就夠, 所以怎么去拿回這個(gè)陣地,我覺(jué)得要在這兩方面,復雜度上面加大,然后才能夠有可能把這個(gè)視覺(jué)的東西給拿回來(lái)。但視覺(jué)其實(shí)不單單是視覺(jué)問(wèn)題,應該是視覺(jué)主導的任務(wù)完成的一個(gè)問(wèn)題。所以,以后CVPR它有沒(méi)有存在的意義,或者說(shuō)是不是還是那個(gè)趨之若鶩的東西都不一定。

山世光:

我們值得討論的問(wèn)題是,怎么撇清計算機視覺(jué)與機器學(xué)習的關(guān)系?我們在未來(lái)幾年是不是就認慫了,是不是計算機視覺(jué)的問(wèn)題就是機器學(xué)習的問(wèn)題。這個(gè)我覺(jué)得我們年輕人還是特別困惑,比如說(shuō)有什么問(wèn)題是機器學(xué)習肯定搞不定,只能靠計算機視覺(jué)理論和方法來(lái)去搞定的呢? 

陳熙霖:

是現在很多東西都被劃到機器學(xué)習了?梢詫Ρ纫幌30年前機器學(xué)習的書(shū)和30年前模式識別的書(shū),再拿今天機器學(xué)習和模式識別的書(shū),看差別就行。

胡占義:

我覺(jué)得機器學(xué)習這個(gè)東西,是一種手段,它可以用于計算機視覺(jué),也可以用于自然語(yǔ)言處理。模式識別和數學(xué)沒(méi)有區別,我比較理想,我覺(jué)得一個(gè)是一種解釋手段,一個(gè)是說(shuō)要解決什么科學(xué)問(wèn)題。

王井東:

接著(zhù)剛才山老師提到這個(gè)問(wèn)題,F在計算機視覺(jué)這么火,有多少是機器學(xué)習能做出來(lái)的東西。像alexnet也是做視覺(jué)問(wèn)題,其實(shí)根本沒(méi)必要擔心。我自己也做過(guò)機器學(xué)習,可以舉個(gè)例子,早先做過(guò)加速、大規模等,在Matlab上面做,這怎么能證明這是個(gè)大規模的問(wèn)題,所以說(shuō)同樣根本不用擔心這個(gè)問(wèn)題。

剛才討論到一個(gè)問(wèn)題,就是說(shuō)計算機視覺(jué)5到10年怎么走,F在遇到一個(gè)狀況,不管是中國還是美國,今年年視覺(jué)方向的工作機會(huì )(opening)特別少,從2012起視覺(jué)火了8年,應該怎么繼續走。計算機行業(yè)外的人給予CV很G的期望,比如超越人類(lèi)。其實(shí)這件事情不靠譜,根本沒(méi)有超越人類(lèi)。但是不做計算機視覺(jué)的人總覺(jué)得計算機視覺(jué)的人應該做些什么東西。但是現在到這個(gè)階段,也許這跟當年神經(jīng)網(wǎng)絡(luò )一樣,像過(guò)街老鼠一樣,說(shuō)計算機視覺(jué)的人吹牛皮。其實(shí)不是我們吹得,是別人吹的。我們要思考,我們視覺(jué)如果繼續往前走,科學(xué)研究方面是一個(gè)問(wèn)題,另一方面是如何去得到持續關(guān)注真正做一些能夠work的系統出來(lái)。盡管我們今天已經(jīng)在很多方面做得不錯,但坦白來(lái)講還沒(méi)真正work。計算機視覺(jué)是不是應該純粹從視覺(jué)的角度解決,其實(shí)多模態(tài)是一個(gè)很好的方向,單單靠視覺(jué)這一點(diǎn),在監控系統里面還是很大的一個(gè)問(wèn)題。從方向上來(lái)講我比較看好多模態(tài)這個(gè)方向。

王濤:

關(guān)于未來(lái)計算機視覺(jué)發(fā)展的趨勢很多。我感覺(jué)一個(gè)重要的趨勢應該是主動(dòng)視覺(jué)。Imagenet競賽能識別很多的物體,但是圖像分類(lèi)真正在實(shí)際場(chǎng)景中就不管用。真正管用的是基于物體檢測,然后再進(jìn)行識別的像人臉識別這種技術(shù)。為什么人臉識別成功了,圖像分類(lèi)系統還不成熟。輸入一張圖像,你需要得按不同的區域不同的粒度進(jìn)行分析,比如在會(huì )場(chǎng)我們拍張照片,識別人,那我們去數人頭。但是如果要識別投影儀設備,需要定位到這個(gè)投影儀圖像才能找到。D二個(gè)問(wèn)題是投影儀的信息有多種層次,比如說(shuō)有人想知道牌子,那你需要再細看到那個(gè)Logo,但是另外有人想知道怎么操作這個(gè)投影儀,那你需要得識別它的各種接口,你才能把它的功能識別出來(lái)。我感覺(jué)的Imagenet和ActivityNet行為識別競賽,大家現在做的這兩類(lèi)競賽都是用圖像分類(lèi)的競賽做。用圖像分類(lèi)做競賽,實(shí)際中都不能用,為什么呢?它沒(méi)有像人一樣主動(dòng)去識別,你得看到這個(gè)人,看到那個(gè)人真正發(fā)生動(dòng)作的那一幀,這才能把它識別出來(lái),所以我感覺(jué)主動(dòng)是非常重要的。

D二個(gè),要有層次。層次就是不僅要識別出一些基本的要素,還要把里面的不同層次關(guān)系能夠結構化的提取出來(lái)。我們實(shí)驗發(fā)現把東西拿在一起學(xué)的效果會(huì )很差,但是如果把這個(gè)東西分成兩個(gè)部分,先固定解碼器學(xué)編碼器,然后再固定編碼器學(xué)解碼器,系統就學(xué)出來(lái)了。我們的學(xué)習得有一些像搭積木一樣的層次,先把基本的比如人臉、水杯、花識別出來(lái),然后拍一張照片能把物體之間的關(guān)系給識別出來(lái)。

第三個(gè),應該怎么研究。視覺(jué)研究很廣,想要做成功,得針對具體的應用。人臉識別系統很成熟,但是用在自動(dòng)駕駛上識別行人就不行,得一類(lèi)一類(lèi)來(lái),在不同應用場(chǎng)景中,需要看到不同的數據和不同的性質(zhì)。所以我認為針對具體應用,未來(lái)除了在深度學(xué)習基礎上主動(dòng)視覺(jué),發(fā)揮層次融合推理應該是一個(gè)比較好的趨勢。

胡占義:

我覺(jué)得主動(dòng)視覺(jué)很重要,但5-10年主動(dòng)視覺(jué)不可能取得巨大進(jìn)展。這涉及到生物里面反饋(feedback)的G層知識,但反饋很難短期內取得進(jìn)展。關(guān)于視覺(jué)的目的1994年CVGIP組織了一個(gè)專(zhuān)刊,曾經(jīng)有過(guò)一個(gè)辯論。從1994年到現在,可以說(shuō)主動(dòng)視覺(jué)沒(méi)有任何的進(jìn)展。在生物神經(jīng)系統里面有大量的反饋,但不知道反饋是什么東西。如果神經(jīng)科學(xué)很難給出一點(diǎn)啟示的話(huà),那么我們計算機視覺(jué)就很難把它做成。這是我的一點(diǎn)個(gè)人觀(guān)點(diǎn)。

王濤:

我覺(jué)得以前主動(dòng)視覺(jué)不成功是因為研究方法不對和技術(shù)限制。

胡占義:

Recurrent有兩個(gè),一個(gè)是同層的抑制,一個(gè)是G層的反饋,而G層的反饋在生物視覺(jué)里面大家知道有大量的反饋,但是反饋的是什么東西還不清楚。所以說(shuō)根據我的理解,我覺(jué)得3-5年內生物視覺(jué)很難有較大進(jìn)展。

王亦洲:

我補充一下,回到學(xué)習上,學(xué)習是視覺(jué)的核心。視覺(jué)其實(shí)是個(gè)偽問(wèn)題,但學(xué)習是一個(gè)永恒的本質(zhì)問(wèn)題。沒(méi)有學(xué)習,視覺(jué)存不存在都不太重要了。與其叫計算機視覺(jué)還不如叫computational visual intelligence. 視覺(jué)是一種智能,智能的核心是學(xué)習怎么去獲得知識,反饋只是學(xué)習和推理的一個(gè)環(huán)節。學(xué)習是什么?是簡(jiǎn)單的模式識別,還是G級學(xué)習,這可能是學(xué)習下一步應該走的,給學(xué)習起一個(gè)俗的名字叫元學(xué)習,如果要和計算機視覺(jué)對應,我們叫元認知。核心就是學(xué)習,不搞學(xué)習是不行的。

楊睿剛:

我覺(jué)得機器視覺(jué)與生物視覺(jué)應該有區別,不一定機器視覺(jué)要學(xué)習生物視覺(jué)。舉個(gè)例子,比如說(shuō)看全局我要大照片,然后看局部我要小照片,但是如果你有一個(gè)攝像頭,可以一下子拍10億像素,或者有一個(gè)攝像裝置能把光場(chǎng)記錄下來(lái),那active learning與passive learning就沒(méi)有區別了。這種硬件區別至少在二維圖像上,將來(lái)我覺(jué)得十億像素應該是很快到來(lái)的事情。

陳熙霖:

這個(gè)地方我補充一句,這里的主動(dòng)不僅指分辨率,其本質(zhì)是通過(guò)主動(dòng)的“行為”進(jìn)行探索,從而達到有限資源的大化利用。

楊睿剛:

你說(shuō)的是一種主動(dòng)感知的explore,還有一種不改變環(huán)境不改變物體的。

陳熙霖:

即使是不做改變,比如從一個(gè)角度看和從另一個(gè)角度看,光場(chǎng)相機并不解決這類(lèi)問(wèn)題,我們無(wú)法獲得對象背后的光場(chǎng)。

楊睿剛:

光場(chǎng)相機陣列。

林宙辰:

楊睿剛的意思是說(shuō)干脆把所有的信息都采集了,這個(gè)機制還是有點(diǎn)不一樣。

王亦洲:

主動(dòng)學(xué)習有一個(gè)停機問(wèn)題,有一個(gè)選擇的問(wèn)題。就是說(shuō),你所有信息都在這兒,你什么時(shí)候停下來(lái),你決定采哪一塊,這是重要的。所以主動(dòng)學(xué)習,它并不是你把所有東西都拍上去,你也得要選擇。

楊睿剛:

選擇的問(wèn)題肯定要在里面,但是現在做主動(dòng)學(xué)習肯定涉及到機器人等問(wèn)題,超出了計算機視覺(jué)的范疇。

王亦洲:

所以就不要抱著(zhù)計算機視覺(jué)了,這個(gè)就是我的意思。

胡占義:

主動(dòng)學(xué)習這里面有兩個(gè)概念。D一個(gè)是要有探索和注視,否則的話(huà)就沒(méi)有主動(dòng)性。D二個(gè)是記憶,主動(dòng)視覺(jué)是從生物來(lái)的概念。在計算機視覺(jué)里面,主動(dòng)視覺(jué)這個(gè)概念太大了。

查紅彬:

我想這里可以將主動(dòng)視覺(jué)與深度學(xué)習進(jìn)行對比。深度學(xué)習的問(wèn)題在于要有標注數據庫,需要事先整理好的數據。而視覺(jué)系統在實(shí)際場(chǎng)景中工作時(shí),需要自己選擇對自己有用的樣本。這樣,將樣本選擇與視點(diǎn)選擇,結構重構,計算優(yōu)化等策略結合起來(lái),就能有效地發(fā)揮其主動(dòng)性,而不需要讓人把所有的數據都收集好喂給它。

鄭偉詩(shī):

學(xué)習對視覺(jué)很重要。Benchmark推動(dòng)也束縛了目前計算機視覺(jué)的發(fā)展,ReID做到97%,大家就想不到該做什么,但問(wèn)題本身并沒(méi)解決。數據庫太有限,采集的東西沒(méi)有完全反映整個(gè)問(wèn)題,比如說(shuō)行人的遮擋問(wèn)題,各種各樣的問(wèn)題。在有限數據的時(shí)候,學(xué)習可能不能完完全全地解決它。有限數據下的學(xué)習,有沒(méi)有可能受到3D方面的啟發(fā)?把一個(gè)人整個(gè)3D的信息,還有行人整個(gè)行為的3D信息都能捕捉到的話(huà),我們就可以去掉開(kāi)放環(huán)境下所受到的這些影響,然后我們就可以重構。像我們可以構造一個(gè)靶場(chǎng),這個(gè)靶場(chǎng)很重要,無(wú)論我們做任何的系統都要做測試,但如果只在有限數據上或片面的數據上做測試的話(huà),我們在真實(shí)應用的時(shí)候可能就會(huì )有受限。因此如果我們能夠把3D這種因素嵌入到現在以2D圖像為主導的計算機視覺(jué)里面的話(huà),可能會(huì )對我們整個(gè)計算機視覺(jué)在未來(lái)3到5年的發(fā)展能有另外一個(gè)維度的推動(dòng)作用。

那么為什么做3D?另外一件事情就是現在可能在全世界都在談的數據隱私問(wèn)題。數據采集的隱私問(wèn)題越來(lái)越重要,如果你用的是一個(gè)虛擬的靶場(chǎng)的話(huà),這種隱私問(wèn)題就完全不存在。所以,在未來(lái)包括可能在國外人臉識別、行人識別,甚至一些行為識別都有可能會(huì )受到嚴重的法律因素的滯后的影響的話(huà),那么我們更需要從3D的角度,從另外一個(gè)維度去考慮,是不是在這方面可以拓寬計算機視覺(jué)的發(fā)展方向,這是我的觀(guān)點(diǎn)。 

賈云得:

我們做視覺(jué)很早了,早先把它作為一條小河,我們流那么多年,突然下大暴雨,現在是洪水猛獸(深度學(xué)習)來(lái)了。五年以后估計這個(gè)模式都過(guò)去了。我覺(jué)得那條河還會(huì )在。因為,從視網(wǎng)膜到視皮層這條通路在那擺著(zhù)呢,非常G效。因此,還會(huì )有好多人研究,五年十年以后我們中國實(shí)驗室做什么?肯定還是小河里面。

我看好兩個(gè)方向。D一個(gè)是三維視覺(jué),三維視覺(jué)不會(huì )很熱,也不會(huì )很冷,會(huì )一直往下走。D二,就是胡老師說(shuō)的視頻理解。這個(gè)好幾個(gè)老師也說(shuō)了,多模態(tài),就像我們看電影也是一樣的,看會(huì )兒畫(huà)面看字幕,看會(huì )兒字幕看畫(huà)面,來(lái)回互相理解,現在好像挺熱的。原來(lái)我們遇到的是數據-語(yǔ)義的鴻溝。后面我們在識別結果和意識間的鴻溝也會(huì )出現,一旦有鴻溝就變成熱點(diǎn),因為里邊主觀(guān)加的東西太多了。我覺(jué)得視頻理解應該是一個(gè)熱點(diǎn)。

魯繼文:

我覺(jué)得我們現在用了很多機器學(xué)習的知識。下一步,我自己更愿意做一些特別的工作,就是從機器學(xué)習到機器推理。比如給你一幅圖像,你一看就知道這個(gè)圖像未來(lái)應該怎么樣發(fā)展,但對于計算機再強的網(wǎng)絡(luò )都不行。我覺(jué)得現在計算機視覺(jué)里面很多時(shí)候性能之所以好,是在于我們對這個(gè)問(wèn)題的定義,在這種定義基礎上已經(jīng)基本上可以解決,F在我們可能要再去找一些更能夠描述或者更能夠匹配人類(lèi)視覺(jué)能力的計算機視覺(jué)任務(wù),F在比如說(shuō)檢測、分割、檢索、識別,都是單獨的視覺(jué)任務(wù),這種單純的視覺(jué)任務(wù)還是有點(diǎn)簡(jiǎn)單。當然有的老師可能有不同的觀(guān)點(diǎn),就是說(shuō)他們的變化這種東西可能比較難。但實(shí)際上人的視覺(jué)更多的時(shí)候可能不是這樣子的。所以,我覺(jué)得在計算機視覺(jué)里面一個(gè)很重要的問(wèn)題是怎么樣找到這樣的任務(wù),能夠更好的與我們人類(lèi)的視覺(jué)任務(wù)匹配起來(lái),這樣的任務(wù)既不能太難也不能太簡(jiǎn)單。這樣的任務(wù)我覺(jué)得還需要我們多花時(shí)間去思考討論,我自己也不知道是什么任務(wù)。

王亮:

未來(lái)5到10年的CV發(fā)展趨勢這個(gè)主題的主要目的是希望聽(tīng)聽(tīng)我們國內視覺(jué)界專(zhuān)家們的新見(jiàn)解。今天聽(tīng)了各位講了很多,方方面面都有。如果說(shuō)個(gè)趨勢的話(huà),每一個(gè)方面可能都會(huì )有一定的趨勢,但大家的意見(jiàn)有不相同,也有相同的地方。這個(gè)主題的定位是希望通過(guò)這次的深度研討梳理幾個(gè)視覺(jué)L域中重要的大家都認可的這樣一個(gè)發(fā)展趨勢,有不同的意見(jiàn)沒(méi)有關(guān)系,而且這個(gè)討論也是有交叉的。

查紅彬:

這種討論我覺(jué)得挺好。講一些發(fā)展趨勢,然后大家能夠有一些思想上的碰撞和火花。做視覺(jué)研究,大家在發(fā)展趨勢上,如果有完全一樣的看法會(huì )很奇怪。要整理出比較明確的發(fā)展趨勢也很難。為什么呢? 誰(shuí)要想做出很好的工作,他就應該有一些與別人不一樣的看法,如果大家都是同樣的看法,這事情就很難往下做。所以我覺(jué)得,我們更多的是通過(guò)交流各自的想法,啟發(fā)我們自己能有一些新的思路,或者在我自己的這些想法上能找到一些更多的理由、依據,然后把這個(gè)事情做下去。所以我想通過(guò)這些討論,更多的是咱們能不能將來(lái)在國際會(huì )議上,在研究成果方面,我們也有自己的一些特色在里邊。到目前為止,我們寫(xiě)文章是在拼什么?就拼數據庫測試上性能提G了百分之幾,而且大多數是在別人方法上改進(jìn)一下,然后做個(gè)實(shí)驗說(shuō)我提G了百分之多少。但是我們很少有說(shuō)你的想法跟別人在什么地方不一樣,然后你這個(gè)不一樣的東西在某個(gè)地方用起來(lái)會(huì )有一些效果。一開(kāi)始你可能效果會(huì )比較差,而且你也不容易輕松地打動(dòng)別人,但是在你的帶L之下很多人都會(huì )來(lái)做這個(gè)事情的時(shí)候就不一樣了。所以我想說(shuō),能不能將來(lái)不是只盯著(zhù)這個(gè)數據庫上的數據去拼,而是有更多的比較好的創(chuàng )意出來(lái)。

山世光:

是不是可以倡議建立一個(gè)只評價(jià)idea、方法原理,不評價(jià)在benchmark或者數據庫上的好壞的審稿機制?

陳熙霖:

胡老師剛才提到的1994年CVGIP組織的一個(gè)專(zhuān)刊中,當年提出了三個(gè)需要改進(jìn)的方面,今天真正實(shí)現的只有一件——就是benchmark。那場(chǎng)討論中說(shuō)我們這個(gè)L域里的工作缺乏比較,自說(shuō)自話(huà),之后就產(chǎn)生了各種各樣比較的數據集。所以我剛才有一句話(huà),在過(guò)去近30年中Benchmark推動(dòng)了計算機視覺(jué)研究的進(jìn)步,就是指的那場(chǎng)討論開(kāi)始的。

查紅彬:

我同意你的觀(guān)點(diǎn),F在回過(guò)頭來(lái)看看,計算機視覺(jué)研究了這么多年,也許就是在那些文章出來(lái)之后,我們再沒(méi)有看到什么新的主意、新的理論出來(lái)了。在那之前百家齊放,好像有很多新的說(shuō)法出來(lái)。在那個(gè)benchmark出來(lái)之后大家都在做同樣的事情,后整個(gè)L域就變得不怎么活躍了。

胡占義:

我們既然研究計算機視覺(jué),我建議大家讀一讀Marr的書(shū)。

盧湖川:

剛才說(shuō)到的benchmark,我覺(jué)得至少計算機視覺(jué)這個(gè)benchmark的存在,使得計算機視覺(jué)有別于純粹的機器學(xué)習,而且特別是起到了該有的歷史作用,F在大家對它的詬病主要的原因就是它還是一個(gè)單一的benchmark。那只能說(shuō)這個(gè)benchmark并不像人一樣,那如果有人再去定一個(gè)更復雜的benchmark,它是多維的,也許這個(gè)benchmark就能夠驅動(dòng)下一個(gè)時(shí)代的發(fā)展,也許就能夠完成像人一樣的學(xué)習或者識別等等。我覺(jué)得benchmark本身并沒(méi)有太大問(wèn)題,因為人從小受教育的時(shí)候就是教他這是什么那是什么,只是人是一個(gè)綜合的智能體,F在的benchmark如果再往更G的維度發(fā)展,也許能夠有更好的收獲。

楊睿剛:

現在的benchmark太多了,哪些benchmark重要,哪些benchmark不重要,還有隨之而來(lái)的各種各樣的比賽,哪些是重要的,哪些不重要。在某種意義上是不是也跟大家說(shuō),我又拿了個(gè)世界D一,但可能這個(gè)世界D一里面只有十個(gè)人參加。那有沒(méi)有一種方法可以有這樣的一個(gè)更加好的量化機制,可以給benchmark一個(gè)benchmark。

王井東:

Benchmark現在有個(gè)很大的問(wèn)題是很多人做不了。Imagenet很多人做不了,那做不了從我們研究人員的角度來(lái)講,就是文章可能出不去,這是一個(gè)可能不好的地方。 但從另外一個(gè)角度來(lái)講benchmark挺重要的。視覺(jué)的任務(wù)目的很多,我們做視覺(jué)還有一個(gè)重要目的就是培養學(xué)生,那至于視覺(jué)培養學(xué)生這個(gè)功能可能是區別于其他的,比如Multimedia。Multimedia從培養學(xué)生的角度上我覺(jué)得是很好的。但它有個(gè)很大的缺點(diǎn),是沒(méi)有benchmark。從這個(gè)角度來(lái)講benchmark還是需要的。只是現在審稿人對數據集的規模期望更大了,這對很多人來(lái)講尤其是學(xué)校里面是很有挑戰的,現在可能就少數幾個(gè)公司比較強。這是我對benchmark的觀(guān)點(diǎn)。

王亦洲:

建議PRCV單開(kāi)一個(gè)track,鼓勵創(chuàng )新性。單開(kāi)一個(gè)不看性能的track。





音樂(lè )人工智能、計算機聽(tīng)覺(jué)及音樂(lè )科技

音樂(lè )科技、音樂(lè )人工智能與計算機聽(tīng)覺(jué)以數字音樂(lè )和聲音為研究對象,是聲學(xué)、心理學(xué)、信號處理、人工智能、多媒體、音樂(lè )學(xué)及各行業(yè)L域知識相結合的重要交叉學(xué)科,具有重要的學(xué)術(shù)研究和產(chǎn)業(yè)開(kāi)發(fā)價(jià)值

讓大規模深度學(xué)習訓練線(xiàn)性加速、性能無(wú)損,基于BMUF的Adam優(yōu)化器并行化實(shí)踐

Adam 算法便以其出色的性能風(fēng)靡深度學(xué)習L域,該算法通常與同步隨機梯度技術(shù)相結合,采用數據并行的方式在多臺機器上執行

基于深度學(xué)習和傳統算法的人體姿態(tài)估計,技術(shù)細節都講清楚了

人體姿態(tài)估計便是計算機視覺(jué)L域現有的熱點(diǎn)問(wèn)題,其主要任務(wù)是讓機器自動(dòng)地檢測場(chǎng)景中的人“在哪里”和理解人在“干什么”

傳統目標檢測算法對比

SIFT、PCA-SIFT、SURF 、ORB、 VJ 等目標檢測算法優(yōu)缺點(diǎn)對比及使用場(chǎng)合比較

基于深度學(xué)習目標檢測模型優(yōu)缺點(diǎn)對比

深度學(xué)習模型:OverFeat、R-CNN、SPP-Net、Fast、R-CNN、Faster、R-CNN、R-FCN、Mask、R-CNN、YOLO、SSD、YOLOv2、416、DSOD300、R-SSD

如何更G效地壓縮時(shí)序數據?基于深度強化學(xué)習的探索

大型商用時(shí)序數據壓縮的特性,提出了一種新的算法,分享用深度強化學(xué)習進(jìn)行數據壓縮的研究探索

滴滴機器學(xué)習平臺調度系統的演進(jìn)與K8s二次開(kāi)發(fā)

滴滴機器學(xué)習場(chǎng)景下的 k8s 落地實(shí)踐與二次開(kāi)發(fā)的技術(shù)實(shí)踐與經(jīng)驗,包括平臺穩定性、易用性、利用率、平臺 k8s 版本升級與二次開(kāi)發(fā)等內容

人工智能和機器學(xué)習之間的差異及其重要性

機器學(xué)習就是通過(guò)經(jīng)驗來(lái)尋找它學(xué)習的模式,而人工智能是利用經(jīng)驗來(lái)獲取知識和技能,并將這些知識應用于新的環(huán)境

面向動(dòng)態(tài)記憶和學(xué)習功能的神經(jīng)電晶體可塑性研究

神經(jīng)形態(tài)結構融合學(xué)習和記憶功能L域的研究主要集中在人工突觸的可塑性方面,同時(shí)神經(jīng)元膜的固有可塑性在神經(jīng)形態(tài)信息處理的實(shí)現中也很重要

CVPOS自助收銀的挑戰以及商品識別算法工程落地方法和經(jīng)驗

針對結算收銀場(chǎng)景中商品識別的難點(diǎn),從商品識別落地中的模型選擇、數據挑選與標注、前端和云端部署、模型改進(jìn)等方面,進(jìn)行了深入講解

內容流量管理的關(guān)鍵技術(shù):多任務(wù)保量?jì)?yōu)化算法實(shí)踐

通過(guò)分析其中的關(guān)鍵問(wèn)題,建立了新熱內容曝光敏感模型,并終給出一種曝光資源約束下的多目標優(yōu)化保量框架與算法

百變應用場(chǎng)景下,優(yōu)酷基于圖執行引擎的算法服務(wù)框架筑造之路

優(yōu)酷推薦業(yè)務(wù),算法應用場(chǎng)景眾多,需求靈活多變,需要一套通用業(yè)務(wù)框架,支持運行時(shí)的算法流程的裝配,提升算法服務(wù)場(chǎng)景搭建的效率
資料獲取
機器人開(kāi)發(fā)
== 資訊 ==
ChatGPT:又一個(gè)“人形機器人”主題
ChatGPT快速流行,重構 AI 商業(yè)
中國機器視覺(jué)產(chǎn)業(yè)方面的政策
中國機器視覺(jué)產(chǎn)業(yè)聚焦于中國東部沿海地區(
從CHAT-GPT到生成式AI:人工智能
工信部等十七部門(mén)印發(fā)《機器人+應用行動(dòng)實(shí)
人工智能企業(yè)市值/估值 TOP20
創(chuàng )澤智能機器人集團股份有限公司第十一期上
諧波減速器和RV減速器比較
機器人減速器:諧波減速器和RV減速器
人形機器人技術(shù)難點(diǎn) G精尖技術(shù)的綜合
機器人大規模商用面臨的痛點(diǎn)有四個(gè)方面
青島市機器人產(chǎn)業(yè)概況:機器人企業(yè)多布局在
六大機器人產(chǎn)業(yè)集群的特點(diǎn)
機械臂-G度非線(xiàn)性強耦合的復雜系統
== 機器人推薦 ==
迎賓講解服務(wù)機器人

服務(wù)機器人(迎賓、講解、導診...)

智能消毒機器人

智能消毒機器人

機器人開(kāi)發(fā)平臺

機器人開(kāi)發(fā)平臺


機器人招商 Disinfection Robot 機器人公司 機器人應用 智能醫療 物聯(lián)網(wǎng) 機器人排名 機器人企業(yè) 機器人政策 教育機器人 迎賓機器人 機器人開(kāi)發(fā) 獨角獸 消毒機器人品牌 消毒機器人 合理用藥 地圖
版權所有 創(chuàng )澤智能機器人集團股份有限公司 中國運營(yíng)中心:北京 清華科技園九號樓5層 中國生產(chǎn)中心:山東日照太原路71號
銷(xiāo)售1:4006-935-088 銷(xiāo)售2:4006-937-088 客服電話(huà): 4008-128-728