創(chuàng )澤機器人 |
CHUANGZE ROBOT |
作為一種自適應步長(cháng)隨機梯度優(yōu)化器,自2014年提出以來(lái),Adam 算法便以其出色的性能風(fēng)靡深度學(xué)習L域。為了提G應用于訓練大規模任務(wù)時(shí)的效率,該算法通常與同步隨機梯度(Synchronous Stochastic Gradient,SSG)技術(shù)相結合,采用數據并行(data parallel)的方式在多臺機器上執行。在本文中,我們稱(chēng)這一方法為 Sync-Adam。
本質(zhì)上來(lái)講,Sync-Adam 通過(guò)將一個(gè) minibatch 內樣本的梯度計算分布到多臺機器上達到加速目的,因此通信十分頻繁,并且隨著(zhù)并行機器數目增多,minibatch 內樣本的數量也成比例增加,這種情況下,通常會(huì )損害終得到的模型的性能。為解決基于 SSG 的 Adam 算法可擴展性差的難題,我們把目光投向了逐區塊模型更新濾波(Blockwise Model-Update Filtering, BMUF)框架。
BMUF 是一種通信G效的通用分布式優(yōu)化算法框架,于2016年由微軟亞洲研究院語(yǔ)音組的研究人員提出并發(fā)表。該算法在多個(gè)并行工作機之間周期性同步模型更新信息,并與歷史更新信息相結合提升全局模型性能。與基于 SSG 的算法相比,BMUF 具有通信頻率較低、訓練幾乎線(xiàn)性加速、模型性能基本無(wú)損的特點(diǎn)。這一算法已經(jīng)在工業(yè)界廣泛用于大規模深度學(xué)習模型的訓練。
本文中,我們采用 BMUF 框架并行化 Adam 算法,并在微軟大規模 OCR 和語(yǔ)音產(chǎn)品數據集上進(jìn)行了測試。實(shí)驗結果表明,在大規模 OCR 任務(wù)中,BMUF-Adam 在多達64機的并行訓練中幾乎實(shí)現了線(xiàn)性加速的同時(shí),基本沒(méi)有模型性能損失,在32機大詞匯量連續語(yǔ)音識別任務(wù)中也獲得了類(lèi)似效果。
接下來(lái)我們探討如何采用 BMUF 框架賦能 Adam 算法,在大規模深度學(xué)習任務(wù)上成就不凡。
在基于 BMUF 的訓練框架下,假設我們總共有 N 個(gè)并行工作機,一個(gè)工作機可以是一塊或多塊 GPU 卡,也可以是一個(gè)計算節點(diǎn)。給定一個(gè)包含 Nτ 個(gè) minibatch 的訓練數據子集,首先我們將這些數據均勻分布到 N 個(gè)并行工作機,每臺工作機獲得 τ 個(gè) minibatch。從一個(gè)共同的初始模型 θ_(t-τ)^((init)) 開(kāi)始,N 個(gè)工作機獨立更新各自的局部模型 τ 步,得到 {θ_(t,1),θ_(t,2),…,θ_(t,N)},對局部模型取平均得到 θ ̅_t。這一過(guò)程稱(chēng)之為數據塊內并行優(yōu)化(Intra-Block Parallel Optimization, IBPO)。與直接將 θ ̅_t 作為全局模型不同,BMUF 技術(shù)將歷史更新信息與當前更新信息結合,得到全局模型:
![]() |
機器人招商 Disinfection Robot 機器人公司 機器人應用 智能醫療 物聯(lián)網(wǎng) 機器人排名 機器人企業(yè) 機器人政策 教育機器人 迎賓機器人 機器人開(kāi)發(fā) 獨角獸 消毒機器人品牌 消毒機器人 合理用藥 地圖 |