成人网18视频网站,qvod激情视频在线观看,色国产精品一区在线观看,久久99热国产这有精品,天天舔天天爽,国产日韩视频,伊人久久精品成人网

創(chuàng )澤機器人
CHUANGZE ROBOT
當前位置:首頁(yè) > 新聞資訊 > 電商 > FashionBERT 電商L域多模態(tài)研究:如何做圖文擬合

FashionBERT 電商L域多模態(tài)研究:如何做圖文擬合

來(lái)源:阿里機器智能     編輯:創(chuàng )澤   時(shí)間:2020/6/2   主題:其他 [加盟]
隨著(zhù) Web 技術(shù)發(fā)展,互聯(lián)網(wǎng)上包含大量的多模態(tài)信息(包括文本,圖像,語(yǔ)音,視頻等)。從海量多模態(tài)信息搜索出重要信息一直是學(xué)術(shù)界研究重點(diǎn)。多模態(tài)匹配核心就是圖文匹配技術(shù) (Text and Image Matching),這也是一項基礎研究,在非常多的L域有很多應用,例如圖文檢索 (Cross-modality IR),圖像標題生成 (Image Caption),圖像問(wèn)答系統 (Vision Question Answering), 圖像知識推理 (Visual Commonsense Reasoning)。但是目前學(xué)術(shù)界研究重點(diǎn)放在通用L域的多模態(tài)研究,針對電商L域的多模態(tài)研究相對較少,然而電商L域也非常需要多模態(tài)匹配模型,應用場(chǎng)景特別多。本文重點(diǎn)關(guān)注電商L域圖文多模態(tài)技術(shù)研究。

多模態(tài)匹配研究簡(jiǎn)史

跨模態(tài)研究核心重點(diǎn)在于如何將多模態(tài)數據匹配上,即如何將多模態(tài)信息映射到統一的表征空間。早期研究主要分成兩條主線(xiàn):Canonical Correlation Analysis (CCA) 和Visual Semantic Embedding (VSE)。

CCA 系列方法

主要是通過(guò)分析圖像和文本的 correlation,然后將圖像和文本到同一空間。這一系列的問(wèn)題論文出色,但是效果相對深度學(xué)習方法還是有待提G的。雖然后期也有基于深度學(xué)習的方案 (DCCA),但是對比后面的 VSE 方法還有一定差距。

VSE 系統方法

將圖像和文本分別表示成 Latent Embedding,然后將多模態(tài) Latent Embedding 擬合到同一空間。VSE 方法又延伸出來(lái)非常多的方法例如 SCAN,PFAN。這些方法在通用圖文匹配上已經(jīng)拿到不錯效果。

隨著(zhù) pre-training 和 self-supervised 技術(shù)在 CV 和 NLP L域的應用。2019 年開(kāi)始,有學(xué)者開(kāi)始嘗試基于大規模數據,使用預訓練的 BERT 模型將圖文信息擬合同一空間。這些方法在通用L域取得很好的效果,這一系列的方法可以參看 VLBERT 這篇 Paper。

基于 BERT 的預訓練圖文模型的主要流程:

1)利用圖像目標檢測技術(shù)先識別圖像中的 Region of Interests(RoIs)。

2)把 ROI 當做圖像的 token,和文本 token 做 BERT 多模態(tài)融合,這里面有兩個(gè)方案:

Single-stream:以 VLBERT 為代表,直接將圖像 token 和文本 token 放入到 BERT 做多模態(tài)融合。

Cross-stream:以 ViLBERT 為代表,將圖像 token 和文本 token 先做初步的交互,然后在放入到 BERT。

我們嘗試了 ViLBERT 方法,發(fā)現在通用L域效果確實(shí)不錯。但是在電商L域,由于提取的 ROI 并不理想,導致效果低于預期。主要原因在于:

1)電商圖像 ROI 太少

電商圖像產(chǎn)品單一,背景簡(jiǎn)單提取 ROI 很少,如圖 1(c)。統計來(lái)看,通用L域 MsCoCo 數據,每張圖像可以提取 19.8 個(gè) ROI,但是電商只能提取 6.4 個(gè) ROI。當然我們可以強制提取小的 ROI,比如 ViLBERT 要求在 10~36 個(gè),VLBERT 要求 100 個(gè)。但是當設定小提取的 ROI 后,又提取了太多了重復的 ROI,可以看圖 1(e)。

2)電商 ROI 不夠 fine-grained

電商圖像單一,提取的 RoIs 主要是 object-level 的產(chǎn)品 (例如,整體連衣裙,T-shirt 等) 。相對文本來(lái)說(shuō),不夠細粒度 fine-grain,比如文本里面可以描述主體非常細節屬性 (如,圓L,九分褲,七分褲等等)。這就導致圖像 ROI 不足以和文本 token 匹配,大家可以對比一下電商L域的圖 1(c) 和圖 1(d)。再看下通用L域的圖 1(a) 和圖 1(b),你會(huì )發(fā)現通用L域簡(jiǎn)單一些,只要能將圖像中的主體和文本 token alignment 到一起,基本不會(huì )太差。

3)電商圖像 ROI 噪音太大

如圖 1(f) 中提取的模特頭,頭發(fā),手指,對于商品匹配來(lái)說(shuō)用處不大。

這也就解釋了,電商L域也采用現有的 ROI 方式,并不能得到非常理想的結果。如果說(shuō),針對電商L域重新訓練一個(gè)電商L域的 ROI 提取模型,需要大量的數據標注工作。那么有沒(méi)有簡(jiǎn)單易行的方法做圖文匹配擬合。




FashionBERT 圖文匹配模型

本文我們提出了 FashionBERT 圖文匹配模型,核心問(wèn)題是如何解決電商L域圖像特征的提取或者表達。Google 在 2019 年年中發(fā)表了一篇文章圖像自監督學(xué)習模型 selfie,主要思路是將圖像分割成子圖,然后預測子圖位置信息。從而使模型達到理解圖像特征的目的,這個(gè)工作對我們啟發(fā)很大。我們直接將圖像 split 相同大小的 Patch,然后將 Patch 作為圖像的 token,和文本進(jìn)行擬合,如圖二所示。使用 Patch 的好處:

圖像 Patch 包含了所有圖像的細節信息。

圖像 Patch 不會(huì )出現重復的 ROI 或者太多無(wú)用的 ROI。

圖像 Patch 是天然包含順序的,所以解決 BERT 的 sequence 問(wèn)題。

FashionBERT 整體結構如圖 2,主要包括 Text Embedding, Patch Embedding, Cross-modality FashionBERT,以及 Pretrain Tasks。

Text Embedding

和原始 BERT 一樣,先將句子分成 Token,然后我們采用 Whole Word Masking 技術(shù)將整個(gè) Token 進(jìn)行 masking。Masking 的策略和原始的 BERT 保持一致。

Patch Embedding

和 Text Embedding 類(lèi)似,這里我們將圖片平均分成 8*8 個(gè) patch。每個(gè) Patch 經(jīng)過(guò) ResNet 提取 patch 的圖像特征,我們提取 2048 維圖像特征。Patch mask 策略,我們隨機 masked 10% 的 patch,masked 的 patch 用 0 代替。同時(shí)在 Segment 字段我們分別用 "T" 和 "I" 區分文 本token 輸入和圖像 patch 輸入。

Cross-modality FashionBERT

采用預訓練的 BERT 為網(wǎng)絡(luò ),這樣語(yǔ)言模型天然包含在 FashionBERT 中。模型可以更加關(guān)注圖文匹配融合。

FashionBERT 模型在 pretrain 階段,總共包含了三個(gè)任務(wù):

1  Masked Language Modeling (MLM)

預測 Masked Text Token,這個(gè)任務(wù)訓練和參數我們保持和原始的 BERT 一致。

2  Masked Patch Modeling (MPM)

預測 Masked Patch,這個(gè)任務(wù)和 MLM 類(lèi)似。但是由于圖像中沒(méi)有 id 化的 token。這里我們用 patch 作為目標,希望 BERT 可以重構 patch 信息,這里我們選用了 KLD 作為 loss 函數。

3  Text and Image Alignment

和 Next Sentence Prediction 任務(wù)類(lèi)似,預測圖文是否匹配。正樣本是產(chǎn)品標題和圖片,負樣本我們隨機采樣同類(lèi)目下其他產(chǎn)品的圖片作為負樣本。

這是一個(gè)多任務(wù)學(xué)習問(wèn)題,如何平衡這些任務(wù)的學(xué)習權重呢?另外,還有一個(gè)問(wèn)題,目前很多實(shí)驗指出 BERT 中 NSP 的效果并不一定非常有效,對終的結果的影響不是特別明朗。但是對于圖文匹配來(lái)說(shuō),Text and Image Alignment 這個(gè) loss 是至關(guān)重要的。那么如何平衡這幾個(gè)任務(wù)的學(xué)習呢?這里我們提出 adaptive loss 算法,我們將學(xué)習任務(wù)的權重看做是一個(gè)新的優(yōu)化問(wèn)題,如圖 3 所示。FashionBERT 的 loss 是整體 loss 的加和,由于只有三個(gè)任務(wù),其實(shí)我們可以直接得到任務(wù)權重 W 的解析解(具體的求解過(guò)程可以參考我們論文,這里不再贅述)。

整個(gè) w 的學(xué)習過(guò)程可以看做是一個(gè)學(xué)生想學(xué)習三門(mén)功課,w 的作用是控制學(xué)習的關(guān)注度,一方面控制別偏科,一方面總成績(jì)要達到G。具體 adaptive loss 算法,可以參看論文。從實(shí)際的效果來(lái)看 w,隨著(zhù)訓練的迭代關(guān)注不同的任務(wù),達到對任務(wù)做平衡的目的。

業(yè)務(wù)應用

目前 FashionBERT 已經(jīng)開(kāi)始在 Alibaba 搜索多模態(tài)向量檢索上應用,對于搜索多模態(tài)向量檢索來(lái)說(shuō),匹配任務(wù)可以看成是一個(gè)文文圖匹配任務(wù),即 User Query (Text)-Product Title (Text) - Product Image (Image) 三元匹配關(guān)系。FashionBERT 從上面的模型可以看到是一個(gè)基礎的圖文匹配模型,因此我們做了 Continue Pretrain 工作,同時(shí)加入 Query,Title,Image Segment 區分,如圖四所示。和 FashionBERT 大的區別在于我們引入三個(gè) segment 類(lèi)型,“Q”,“T”,“I” 分別代表 Query,Title,Image。






浙江制定全國直播電商行業(yè)規范標準

據直播電商的不同參與角色,分別確立了從主體資格、亮證亮照、商家和主播入駐審核、規則建立、直播監控、違規處置以及消費者權益保障等全流程的規范體系

直播電商需規范 首部全國性“直播帶貨”標準立項制定

首部全國性社團標準《視頻直播購物運營(yíng)和服務(wù)基本規范》和《網(wǎng)絡(luò )購物誠信服務(wù)體系評價(jià)指南》兩項標準(以下簡(jiǎn)稱(chēng)《標準》),預計將于7月份正式發(fā)布執行

德勤攜手谷歌聯(lián)合發(fā)布《2020中國時(shí)尚跨境電商發(fā)展報告》

不同發(fā)展階段、不同規模和資源稟賦的企 業(yè)選擇了不同的出海策略和演進(jìn)路徑,通過(guò)對國內企業(yè)的實(shí)地調研,總結其發(fā)展模式有三 類(lèi):流量導向型、產(chǎn)品導向型和品牌導向型

電商平臺需要的十大商標核心類(lèi)別

第9類(lèi):APP、計算機程序、電子設備(產(chǎn)品) ;第16類(lèi):印刷物、雜志,包裝物;第35類(lèi):廣告服務(wù)、電子商務(wù)、營(yíng)銷(xiāo)策劃;第42類(lèi):計算機編程服務(wù)

帶貨的邏輯:直播電商產(chǎn)業(yè)鏈研究報告

2020年直播電商更火了,預計在2020年將達到8570億元,近三年年復合增長(cháng)率G達314%,行業(yè)處于G速發(fā)展階段

2020年中國直播電商生態(tài)研究報告

直播電商帶來(lái)的增量與機會(huì )主要在于為產(chǎn)業(yè)鏈提效降本及為參與者帶來(lái)新機會(huì )點(diǎn)。

大B2B跨境電商平臺阿里國際站,未來(lái)三年GMV如何突破1000億美元

阿里巴巴國際站作為大的B2B跨境電商平臺以流量服務(wù)與跨境供應鏈服務(wù)賦能外貿出口企業(yè),為其提供跨境出口的一站式解決方案

巨量引擎聯(lián)合抖音電商首次發(fā)布《抖音直播營(yíng)銷(xiāo)實(shí)戰經(jīng)驗手冊D一期》

對抖音上半年的商業(yè)直播案例進(jìn)行了全盤(pán)梳理和分析,針對“品牌宣傳+電商帶貨”兩大具代表性的開(kāi)播目的,圍繞人、貨、場(chǎng)三個(gè)層面分享實(shí)戰經(jīng)驗

電商AI客服機器人《樂(lè )語(yǔ)助人》模擬金牌客服的回復

面向淘寶、天貓等平臺的AI客服機器人,具備G準確的語(yǔ)言理解能力,可模擬金牌客 服的回復邏輯,輔助人工客服進(jìn)行客服咨詢(xún)接待、業(yè)務(wù)問(wèn)題處理、智能推薦、客情維系等

GrowingIO推出《私域電商數據驅動(dòng)增長(cháng)白皮書(shū)》

電商正經(jīng)歷由“粗放式獲取流量”到“精細化運營(yíng)用戶(hù)”的轉變,而私域構建則是這一轉變的關(guān)鍵點(diǎn)

艾瑞咨詢(xún):2020年中國企業(yè)采購電商市場(chǎng)研究報告

報告首先通過(guò)對中國企業(yè)采購電商市場(chǎng)發(fā)展方向的研究,揭示出疫情不改變行業(yè)發(fā)展長(cháng)期向好態(tài)勢,中小微企業(yè)數字化速度加快,聚焦中小微企業(yè)采購的電商平臺將在未來(lái)獲得更大優(yōu)勢

阿里:邁向萬(wàn)億市場(chǎng)的直播電商

了解直播電商的發(fā)展現狀、機遇和挑戰,助力可持續發(fā)展,畢馬威聯(lián)合阿里研究院,實(shí)地走訪(fǎng)了大量業(yè)內專(zhuān)家和從業(yè)人員,并針對 MCN 機構、品牌商家發(fā)放調研問(wèn)卷
資料獲取
電商
== 資訊 ==
ChatGPT:又一個(gè)“人形機器人”主題
ChatGPT快速流行,重構 AI 商業(yè)
中國機器視覺(jué)產(chǎn)業(yè)方面的政策
中國機器視覺(jué)產(chǎn)業(yè)聚焦于中國東部沿海地區(
從CHAT-GPT到生成式AI:人工智能
工信部等十七部門(mén)印發(fā)《機器人+應用行動(dòng)實(shí)
人工智能企業(yè)市值/估值 TOP20
創(chuàng )澤智能機器人集團股份有限公司第十一期上
諧波減速器和RV減速器比較
機器人減速器:諧波減速器和RV減速器
人形機器人技術(shù)難點(diǎn) G精尖技術(shù)的綜合
機器人大規模商用面臨的痛點(diǎn)有四個(gè)方面
青島市機器人產(chǎn)業(yè)概況:機器人企業(yè)多布局在
六大機器人產(chǎn)業(yè)集群的特點(diǎn)
機械臂-G度非線(xiàn)性強耦合的復雜系統
== 機器人推薦 ==
迎賓講解服務(wù)機器人

服務(wù)機器人(迎賓、講解、導診...)

智能消毒機器人

智能消毒機器人

機器人開(kāi)發(fā)平臺

機器人開(kāi)發(fā)平臺


機器人招商 Disinfection Robot 機器人公司 機器人應用 智能醫療 物聯(lián)網(wǎng) 機器人排名 機器人企業(yè) 機器人政策 教育機器人 迎賓機器人 機器人開(kāi)發(fā) 獨角獸 消毒機器人品牌 消毒機器人 合理用藥 地圖
版權所有 創(chuàng )澤智能機器人集團股份有限公司 中國運營(yíng)中心:北京 清華科技園九號樓5層 中國生產(chǎn)中心:山東日照太原路71號
銷(xiāo)售1:4006-935-088 銷(xiāo)售2:4006-937-088 客服電話(huà): 4008-128-728