計算機視覺(jué)(CV)和自然語(yǔ)言處理(NLP)早先是兩個(gè)較為d立的研究L域。CV 重點(diǎn)關(guān)注如何用計算機代替人眼對目標完成識別、跟蹤、測量等任務(wù),對圖像進(jìn)行處理;NLP 則研究計算機如何處理、運用自然語(yǔ)言,包括語(yǔ)言生成、問(wèn)答、對話(huà)等任務(wù)。近年來(lái),以深度神經(jīng)網(wǎng)絡(luò )為代表的機器學(xué)習和模式識別技術(shù)被廣泛應用于 CV 和 NLP L域,取得了目前先進(jìn)的效果。
近年來(lái),研究者們試圖將動(dòng)作控制也引入到「視覺(jué)-語(yǔ)言」任務(wù)的框架中。吳琦將此類(lèi)任務(wù)命名為 V3A(Vision, Ask, Answer, Act),在給定視覺(jué)輸入后,我們希望機器能夠提出問(wèn)題、回答問(wèn)題、并通過(guò)和人以及機器之間的語(yǔ)言交流執行某些動(dòng)作。
例如,「Vision+Ask」的任務(wù)包含視覺(jué)問(wèn)題生成、根據問(wèn)題生成查詢(xún)、圖像描述等;「Vision+Answer」的任務(wù)包含視覺(jué)問(wèn)答、視覺(jué)對話(huà)等;「Vision+Act」的任務(wù)包含指稱(chēng)表達、視覺(jué)對齊(visual grounding)、語(yǔ)言引導的視覺(jué)導航、具身視覺(jué)問(wèn)答、具身指稱(chēng)表達等。
![]() |
商用機器人 Disinfection Robot 展廳機器人 智能垃圾站 輪式機器人底盤(pán) 迎賓機器人 移動(dòng)機器人底盤(pán) 講解機器人 紫外線(xiàn)消毒機器人 大屏機器人 霧化消毒機器人 服務(wù)機器人底盤(pán) 智能送餐機器人 霧化消毒機 機器人OEM代工廠(chǎng) 消毒機器人排名 智能配送機器人 圖書(shū)館機器人 導引機器人 移動(dòng)消毒機器人 導診機器人 迎賓接待機器人 前臺機器人 導覽機器人 酒店送物機器人 云跡科技潤機器人 云跡酒店機器人 智能導診機器人 |