創(chuàng )澤機器人 |
CHUANGZE ROBOT |
小嘰導讀:在解決實(shí)際問(wèn)題的時(shí)候,很多人認為只要有機器學(xué)習算法就可以了,實(shí)際上要把一個(gè)算法落地還需要解決很多工程上的難題。本文將和大家分享如何從零開(kāi)始搭建一個(gè)GPU加速的分布式機器學(xué)習系統,介紹在搭建過(guò)程中遇到的問(wèn)題和解決方法。
一 背景
在云計算環(huán)境下,虛擬機的負載均衡、自動(dòng)伸縮、綠色節能以及宿主機升級等需求使得我們需要利用虛擬機(VM)遷移技術(shù),尤其是虛擬機熱遷移技術(shù),對于down time(停機時(shí)間)要求比較G,停機時(shí)間越短,客戶(hù)業(yè)務(wù)中斷時(shí)間就越短,影響就越小。如果能夠根據VM的歷史工作負載預測其未來(lái)的工作負載趨勢,就能夠尋找到合適的時(shí)間窗口完成虛擬機熱遷移的操作。
于是我們開(kāi)始探索如何用機器學(xué)習算法預測ECS虛擬機的負載以及熱遷移的停機時(shí)間,但是機器學(xué)習算法要在生產(chǎn)環(huán)境發(fā)揮作用,還需要很多配套系統去支持。為了能快速將現有算法在實(shí)際生產(chǎn)環(huán)境落地,并能利用GPU加速實(shí)現大規模計算,我們自己搭建了一個(gè)GPU加速的大規模分布式機器學(xué)習系統,取名小諸葛,作為ECS數據中臺的異構機器學(xué)習算法加速引擎。搭載以上算法的小諸葛已經(jīng)在生產(chǎn)環(huán)境上線(xiàn),支撐阿里云全網(wǎng)規模的虛擬機的大規模熱遷移預測。
二 方案
那么一套完整大規模分布式系統機器學(xué)習系統需要哪些組成部分呢?
1 總體架構
阿里云全網(wǎng)如此大規模的虛擬機數量,要實(shí)現24小時(shí)之內完成預測,需要在端到端整個(gè)流程的每一個(gè)環(huán)節做優(yōu)化。所以這必然是一個(gè)復雜的工程實(shí)現,為了G效的搭建這個(gè)平臺,大量使用了現有阿里云上的產(chǎn)品服務(wù)來(lái)搭建。
整個(gè)平臺包含:Web服務(wù)、MQ消息隊列、Redis數據庫、SLS/MaxComputer/HybridDB數據獲取、OSS模型倉庫的上傳下載、GPU云服務(wù)器、DASK分布式框架、RAPIDS加速庫。
1)架構
下圖是小諸葛的總體架構圖。
![]() |
機器人招商 Disinfection Robot 機器人公司 機器人應用 智能醫療 物聯(lián)網(wǎng) 機器人排名 機器人企業(yè) 機器人政策 教育機器人 迎賓機器人 機器人開(kāi)發(fā) 獨角獸 消毒機器人品牌 消毒機器人 合理用藥 地圖 |