2020年5月底OpenAI發(fā)布了有史以來(lái)強的NLP預訓練模型GPT-3,大的GPT-3模型參數達到了1750億個(gè)參數。論文《Language Models are Few-Shot Learners》長(cháng)達74頁(yè)已發(fā)布在arXiv。
有網(wǎng)友估算大的GPT-3模型大小大約有700G,這個(gè)大小即使OpenAI公開(kāi)模型,我們一般的電腦也無(wú)法使用。一般需要使用分布式集群才能把這個(gè)模型跑起來(lái)。雖然OpenAI沒(méi)有公布論文的花費,不過(guò)有網(wǎng)友估計這篇論文大約花費了上千萬(wàn)美元用于模型訓練。
如此驚人的模型在模型的設計上和訓練上有什么特別之處嗎?答案是沒(méi)有。作者表示GPT-3的模型架構跟GPT-2是一樣的,只是使用了更多的模型參數。模型訓練也跟GPT-2是一樣的,使用預測下一個(gè)詞的方式來(lái)訓練語(yǔ)言模型,只不過(guò)GPT-3訓練時(shí)使用了更多的數據。
既然這樣,那這只怪獸特別之處是什么?GPT-3論文的核心在于下圖:
![]() |
商用機器人 Disinfection Robot 展廳機器人 智能垃圾站 輪式機器人底盤(pán) 迎賓機器人 移動(dòng)機器人底盤(pán) 講解機器人 紫外線(xiàn)消毒機器人 大屏機器人 霧化消毒機器人 服務(wù)機器人底盤(pán) 智能送餐機器人 霧化消毒機 機器人OEM代工廠(chǎng) 消毒機器人排名 智能配送機器人 圖書(shū)館機器人 導引機器人 移動(dòng)消毒機器人 導診機器人 迎賓接待機器人 前臺機器人 導覽機器人 酒店送物機器人 云跡科技潤機器人 云跡酒店機器人 智能導診機器人 |