成人网18视频网站,qvod激情视频在线观看,色国产精品一区在线观看,久久99热国产这有精品,天天舔天天爽,国产日韩视频,伊人久久精品成人网


首頁(yè)
產(chǎn)品系列
行業(yè)應用
渠道合作
新聞中心
研究院
投資者關(guān)系
技術(shù)支持
關(guān)于創(chuàng )澤
| En
 
  當前位置:首頁(yè) > 新聞資訊 > 機器人知識 > 深度解析大規模參數語(yǔ)言模型Megatron-BERT  
 

深度解析大規模參數語(yǔ)言模型Megatron-BERT

來(lái)源:智東西      編輯:創(chuàng )澤      時(shí)間:2020/6/18      主題:其他   [加盟]
大家好,我是NVIDIA解決方案架構師王閃閃。今天主要和大家分享兩個(gè)部分的內容:

1.  BERT模型深度解析

2.  大規模參數的語(yǔ)言模型Megatron-BERT

我們今天主要是溫故知新我先帶大家復習一下BERT模型的整體架構,內容不會(huì )特別偏數學(xué),主要把BERT一些要點(diǎn)給大家說(shuō)清楚,包括BERT的輸入/輸出以及具體它是怎么工作的,然后介紹NVIDIA基于BERT開(kāi)發(fā)出的一系列好的模型。

先介紹一下自然語(yǔ)言處理常見(jiàn)的應用方向,類(lèi)是序列標注,比如命名實(shí)體的識別、語(yǔ)義標注、詞性標注,循環(huán)智能也是用了序列標注。第二類(lèi)是分類(lèi)任務(wù),如文本分類(lèi)和情感分析,這個(gè)方向目前在量化金融L域,尤其是對沖基金上應用性很強,尤其是情感分析。我記得3、4年前,有一條新聞?wù)f(shuō)斯坦福大學(xué)的一個(gè)碩士生,暑期在他的宿舍里用幾塊GPU卡,自己搭建了一個(gè)小的超J計算機,他把Twitter上的信息全部錄下來(lái),每天更新。他使用了BERT進(jìn)行情感分析,把每天每個(gè)人的信息分成三類(lèi):positive積J、neutral中性、negative消J。他把三類(lèi)情感的量化信息和當天納斯達克股票的升跌情況匯總,進(jìn)行了統計分析,發(fā)現如果Twitter上的信息大部分都是積J的,那么股票就有很大的概率會(huì )上漲。我們現在把這類(lèi)數據叫做情感分析因子,它在股票分析上是一個(gè)特別重要的推進(jìn)方向,能讓模型越發(fā)準確。第三類(lèi)NLP應用方向就是對句子關(guān)系的判斷,如自然語(yǔ)言的推理、問(wèn)答系統,還有文本語(yǔ)義相似性的判斷。后一類(lèi),是生成式任務(wù),如機器翻譯、文本摘要,還有創(chuàng )造型的任務(wù)比如機器寫(xiě)詩(shī)、造句等。

BERT模型深度解析

現在我們進(jìn)入正題:對BERT的講解。要了解BERT,先我們要說(shuō)一下Transformer,因為BERT主要就是基于Transformer和注意力機制,這兩點(diǎn)也是BERT能從GPT、RNN、LSTM等一系列架構中能脫穎而出的很大原因。Attention,專(zhuān)業(yè)的叫法是Attention Mechanism,Attention是一個(gè)Encoder+Decoder的模型機制。Encoder-Decoder模型是在深度學(xué)習中比較常見(jiàn)的模型結構:在計算機視覺(jué)中這個(gè)模型的應用是CNN+RNN的編輯碼框架;在神經(jīng)網(wǎng)絡(luò )機器翻譯的應用是sequence to sequence模型,也就是seq2seq。而編碼(Encoder)就是將序列編碼成一個(gè)固定長(cháng)度的向量,解碼(Decoder)就是將之前生成的向量再還原成序列。

那么問(wèn)題來(lái)了,為什么要在Encoder-Decoder模型機制中引入Attention呢?因為 Encoder-Decoder模型有兩個(gè)比較顯著(zhù)的弊端:

一是Encoder會(huì )把序列信息壓縮成一個(gè)固定長(cháng)度的向量,那么在Encoder的輸出中,我們暫且把它叫做語(yǔ)義編碼c,c就有可能無(wú)法完全地表示出全部序列的信息,尤其是當信息特別長(cháng)時(shí)。

二是先輸入到網(wǎng)絡(luò )中的信息會(huì )被后輸入的信息覆蓋掉,輸入的信息越長(cháng),對先前輸入信息的遺忘程度就越大。因為這兩個(gè)弊端,Decoder在解碼的一開(kāi)始就沒(méi)有獲得一個(gè)相對完整的信息,也就是語(yǔ)義編碼c沒(méi)有一個(gè)相對完整的信息輸入,那么它解碼的效果自然就不好。有的同學(xué)可能會(huì )說(shuō)想要解決RNN記憶力差的問(wèn)題,可以考慮用LSTM。我們的確可以考慮LSTM,但LSTM對超長(cháng)距離的信息記憶,效果也不是很好。

我們再來(lái)看看Attention為什么能夠解決這個(gè)問(wèn)題。Attention,顧名思義是注意力。它是模仿人類(lèi)的注意力,人類(lèi)在處理一個(gè)問(wèn)題時(shí)會(huì )把注意力放到那個(gè)特別重要的地方,比如我們在短時(shí)間內去看一張照片,眼落到照片上的位置可能是某個(gè)建筑物或者是某個(gè)人,這取決于我們不同的目的和興趣等。我們不會(huì )在短時(shí)間之內記清楚甚至是看清楚照片上的全部細節,但是我們會(huì )將注意力聚焦在某個(gè)特定的細節上并記住它。Attention模型終輸出結果也是能夠達到這么一個(gè)效果。 

Attention的機制早也是應用在計算機視覺(jué)上面,然后是在自然語(yǔ)言處理上面發(fā)揚光大。由于2018年在GPT模型上的效果非常顯著(zhù),所以Attention和 Transformer才會(huì )成為大家比較關(guān)注的焦點(diǎn)。之所以Attention的能力在NLPL域得到了徹底釋放,是因為它解決了RNN不能并行計算的弊端,Attention使其每一步的計算不依賴(lài)于上一步的計算,達到和CNN一樣的并行處理效果。并且由于A(yíng)ttention只關(guān)注部分的信息,所以它的參數較少,速度就會(huì )快。其次RNN記憶能力較差,所以大家一開(kāi)始想到的解決方式都是用LSTM和GRU(Gated Recurrent Unit)來(lái)解決長(cháng)距離信息記憶的問(wèn)題,但是都沒(méi)有起到很好的效果。Attention由于只關(guān)注長(cháng)文本中的一個(gè)小部分,可以準確地識別出關(guān)鍵信息,所以取得了特別不錯的效果。

下面我們來(lái)說(shuō)一下Attention是怎么實(shí)現的聚焦。主要是因為它是采用了雙向的RNN,能夠同時(shí)處理每個(gè)單詞前后的信息。在Decoder中,它先計算每一個(gè)Encoder在編碼隱藏層的狀態(tài),然后會(huì )和Decoder隱藏層狀態(tài)比較,做出相關(guān)程度的評定。得到的權值會(huì )通過(guò)softmax歸一化得到使用的權重,也就是我們前面所說(shuō)的編碼向量c。然后對Encoder中對應的不同狀態(tài)的權重進(jìn)行加權求和,有了編碼c之后,我們就可以先計算Decoder隱藏層的狀態(tài),然后再計算Decoder的輸出。這就是一個(gè)比較完整的在BERT當中運用Attention以及Encoder-Decoder模型的使用案例。Attention根據計算區域、權值的計算方式等會(huì )有很多不同變種。

不止是在NLPL域,在其他很多L域中,Transformer的模型由于很好用都是大家選的,主要的一個(gè)運用機制就是Attention。我們之后會(huì )說(shuō)到的Transformer模型會(huì )用到 Multi-head Attention和Self-Attention。先說(shuō)一下Self-Attention,Self-Attention是將原文中每個(gè)詞和該句子中所有單詞之間進(jìn)行注意力的計算,主要是為了尋找原文內部的關(guān)系。對應到閱讀理解任務(wù),這個(gè)模型就可以判定一篇文章中的兩段話(huà)是不是同一個(gè)意思。Multi-head Attention,則是對一段原文使用多次的注意力,每次會(huì )關(guān)注到原文的不同部分,相當于多次地在單層中使用Attention,然后把結果給拼接起來(lái)。 







億級視頻內容如何實(shí)時(shí)更新

基于內容圖譜結構化特征與索引更新平臺,在結構化方面打破傳統的數倉建模方式,以知識化、業(yè)務(wù)化、服務(wù)化為視角進(jìn)行數據平臺化建設,來(lái)沉淀內容、行為、關(guān)系圖譜,目前在優(yōu)酷搜索、票票、大麥等場(chǎng)景開(kāi)始進(jìn)行應用

基于真實(shí)環(huán)境數據集的機器人操作仿真基準測試

通過(guò)使用仿真和量化指標,使基準測試能夠通用于許多操作領(lǐng)域,但又足夠具體,能夠提供系統的有關(guān)信息

看高清視頻,如何做到不卡頓

優(yōu)酷智能檔突破“傳統自適應碼率算法”的局限,解決視頻觀(guān)看體驗中高清和流暢的矛盾

京東姚霆:推理能力,正是多模態(tài)技術(shù)未來(lái)亟需突破的瓶頸

姚霆指出,當前的多模態(tài)技術(shù)還是屬于狹隘的單任務(wù)學(xué)習,整個(gè)訓練和測試的過(guò)程都是在封閉和靜態(tài)的環(huán)境下進(jìn)行,這就和真實(shí)世界中開(kāi)放動(dòng)態(tài)的應用場(chǎng)景存在一定的差異性

利用時(shí)序信息提升遮擋行人檢測準確度

Tube Feature Aggregation Network(TFAN)新方法,即利用時(shí)序信息來(lái)輔助當前幀的遮擋行人檢測,目前該方法已在 Caltech 和 NightOwls 兩個(gè)數據集取得了業(yè)界領(lǐng)先的準確率

基于網(wǎng)格圖特征的琵琶指法自動(dòng)識別

根據各種指法的具體特點(diǎn),對時(shí)頻網(wǎng)格圖、時(shí)域網(wǎng)格圖、頻域網(wǎng)格圖劃分出若干個(gè)不同的計算區域,并以每個(gè)計算區域的均值與標準差作為指法自動(dòng)識別的特征使用,用于基于機器學(xué)習方法的指法自動(dòng)識別

知識圖譜在個(gè)性化推薦領(lǐng)域的研究進(jìn)展及應用

新加坡國立大學(xué)NExT中心的王翔博士分析了知識圖譜在個(gè)性化推薦領(lǐng)域的應用背景,并詳細介紹了課題組在個(gè)性化推薦中的相關(guān)研究技術(shù)和進(jìn)展,包括基于路徑、基于表征學(xué)習、基于圖神經(jīng)網(wǎng)絡(luò )等知識圖譜在推薦系統中的融合技術(shù)

重構ncnn,騰訊優(yōu)圖開(kāi)源新一代移動(dòng)端推理框架TNN

新一代移動(dòng)端深度學(xué)習推理框架TNN,通過(guò)底層技術(shù)優(yōu)化實(shí)現在多個(gè)不同平臺的輕量部署落地,性能優(yōu)異、簡(jiǎn)單易用。騰訊方面稱(chēng),基于TNN,開(kāi)發(fā)者能夠輕松將深度學(xué)習算法移植到手機端高效的執行,開(kāi)發(fā)出人工智能 App,真正將 AI 帶到指尖

達摩院金榕教授113頁(yè)PPT詳解達摩院在NLP、語(yǔ)音和CV上的進(jìn)展與應用實(shí)踐

達摩院金榕教授介紹了語(yǔ)音、自然語(yǔ)言處理、計算機視覺(jué)三大核心AI技術(shù)的關(guān)鍵進(jìn)展,并就AI技術(shù)在在實(shí)際應用中的關(guān)鍵挑戰,以及達摩院應對挑戰的創(chuàng )新實(shí)踐進(jìn)行了解讀

OpenAI發(fā)布了有史以來(lái)最強的NLP預訓練模型GPT-3

2020年5月底OpenAI發(fā)布了有史以來(lái)最強的NLP預訓練模型GPT-3,最大的GPT-3模型參數達到了1750億個(gè)參數

多尺度圖卷積神經(jīng)網(wǎng)絡(luò ):有效統一三維形狀離散化特征表示

解決了傳統圖卷積神經(jīng)網(wǎng)絡(luò )中圖節點(diǎn)學(xué)習到的特征對圖分辨率和連接關(guān)系敏感的問(wèn)題,可以實(shí)現在低分辨率的三維形狀上學(xué)習特征,在高低分辨率形狀之上進(jìn)行測試,并且保持不同分辨率特征的一致性

履約時(shí)間預估:如何讓外賣(mài)更快送達

外賣(mài)履約時(shí)間預估模型,預估的是從用戶(hù)下單開(kāi)始到騎手將餐品送達用戶(hù)手中所花的時(shí)間
 
資料獲取
新聞資訊
== 資訊 ==
» 智能服務(wù)機器人的足式移動(dòng)方案的優(yōu)勢和適用
» 智能服務(wù)機器人的輪式移動(dòng)方案的優(yōu)勢和適用
» 多技術(shù)棧驅動(dòng)的具身智能:移動(dòng)+操作+交互
» 選擇合適的機器人形態(tài):3自由度、300自
» 通用具身智能機器人的多元形態(tài):專(zhuān)用+類(lèi)人
» 服務(wù)機器人商業(yè)模式變革:產(chǎn)品矩陣助力全棧
» DeepSeek等大模型工具使用手冊-實(shí)
» 艾瑞《中國人工智能產(chǎn)業(yè)研究報告》-AI產(chǎn)
» 2025中國人工智能行業(yè)大模型應用實(shí)踐與
» 2025人工智能+行業(yè)發(fā)展藍皮書(shū)-典型應
» 疾控工作者應該怎么利用DeepSeek等
» 從DeepSeek爆火看2025年AI的
» 2025人工智能賦能新型工業(yè)化范式變革與
» 人形機器人大規模量產(chǎn)在即,關(guān)注核心環(huán)節投
» 智能具身機器人的交互的四個(gè)層級:HCI,
 
== 機器人推薦 ==
 
迎賓講解服務(wù)機器人

服務(wù)機器人(迎賓、講解、導診...)

智能消毒機器人

智能消毒機器人

機器人底盤(pán)

機器人底盤(pán)

 

商用機器人  Disinfection Robot   展廳機器人  智能垃圾站  輪式機器人底盤(pán)  迎賓機器人  移動(dòng)機器人底盤(pán)  講解機器人  紫外線(xiàn)消毒機器人  大屏機器人  霧化消毒機器人  服務(wù)機器人底盤(pán)  智能送餐機器人  霧化消毒機  機器人OEM代工廠(chǎng)  消毒機器人排名  智能配送機器人  圖書(shū)館機器人  導引機器人  移動(dòng)消毒機器人  導診機器人  迎賓接待機器人  前臺機器人  導覽機器人  酒店送物機器人  云跡科技潤機器人  云跡酒店機器人  智能導診機器人 
版權所有 © 創(chuàng )澤智能機器人集團股份有限公司     中國運營(yíng)中心:北京·清華科技園九號樓5層     中國生產(chǎn)中心:山東日照太原路71號
銷(xiāo)售1:4006-935-088    銷(xiāo)售2:4006-937-088   客服電話(huà): 4008-128-728