當前位置：首頁(yè) > 新聞資訊 > 人工智能應用 > DeepSeek-R1技術(shù)報告-冷啟動(dòng)數據和多階段訓練流程,大型基礎模型的推理模式對提升推理能力至關(guān)重要

DeepSeek-R1技術(shù)報告-冷啟動(dòng)數據和多階段訓練流程,大型基礎模型的推理模式對提升推理能力至關(guān)重要

來(lái)源：deepseek 編輯：創(chuàng )澤時(shí)間：2025/2/11 主題：其他 [加盟]

deepseek 正式發(fā)布 DeepSeek-R1，并同步開(kāi)源模型權重。開(kāi)源 DeepSeek-R1 推理大模型，與 o1 性能相近。‍‍

開(kāi)源 DeepSeek-R1-Zero，預訓練模型直接 RL，不走 SFT。

開(kāi)源用 R1 數據蒸餾的 Qwen、Llama 系列小模型，蒸餾模型超過(guò) o1-mini 和 QWQ。

模型開(kāi)源的同時(shí)，技術(shù)報告也同步放出：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

1.引言

近年來(lái)，大型語(yǔ)言模型（LLMs）通過(guò)后訓練技術(shù)不斷優(yōu)化，逐漸接近人工通用智能（AGI）。后訓練在提升推理任務(wù)準確性、符合社會(huì )價(jià)值觀(guān)和用戶(hù)偏好方面表現出色，且計算資源消耗較少。OpenAI 的 o1 系列模型通過(guò)增加推理“思考鏈條”長(cháng)度，顯著(zhù)提升了數學(xué)、編程和科學(xué)推理能力，但更有效的推理擴展方法仍是研究熱點(diǎn)。

本文首次嘗試通過(guò)純強化學(xué)習（RL）提升語(yǔ)言模型的推理能力，以 DeepSeek-V3-Base 為基礎，采用 GRPO 框架訓練。經(jīng)過(guò)數千步訓練后，DeepSeek-R1-Zero 在推理基準測試中表現出色，例如在 AIME 2024 上的 Pass@1 分數從 15.6% 提升至 86.7%（多數投票后），接近 OpenAI-o1-0912 的水平。但該模型存在可讀性差和語(yǔ)言混用的問(wèn)題。

為解決這些問(wèn)題，研究團隊推出 DeepSeek-R1，引入冷啟動(dòng)數據和多階段訓練流程，終使其性能達到與 OpenAI-o1-1217 相當的水平。此外，研究團隊還通過(guò)知識蒸餾將 DeepSeek-R1 的能力傳遞到較小模型，如 Qwen2.532B，發(fā)現其效果優(yōu)于單獨使用 RL。開(kāi)源的蒸餾模型在推理基準測試中創(chuàng )下新紀錄，表明大型基礎模型的推理模式對提升推理能力至關(guān)重要。

2.相關(guān)研究

SFT：之前的研究通常依賴(lài) SFT 來(lái)增強模型性能。然而，SFT 需要大量標注數據，成本G且耗時(shí)。推理時(shí)擴展：OpenAI 的 o1 系列模型通過(guò)增加 CoT 推理長(cháng)度來(lái)實(shí)現推理能力擴展，但測試時(shí)擴展的挑戰仍然存在。基于過(guò)程的獎勵模型（PRM）：一些研究采用過(guò)程獎勵模型引導模型進(jìn)行推理。然而，這些模型在實(shí)際應用中存在局限性。強化學(xué)習：強化學(xué)習已被用于提升推理能力，但通常與 SFT 數據結合使用，難以探索純 RL 的潛力。搜索算法：如蒙特卡洛樹(shù)搜索（MCTS）等算法也被用于增強推理，但效果有限。

3.主要貢獻

首次驗證了純強化學(xué)習在 LLM 中顯著(zhù)增強推理能力的可行性（DeepSeek-R1-Zero），即無(wú)需預先的 SFT 數據，僅通過(guò) RL 即可激勵模型學(xué)會(huì )長(cháng)鏈推理和反思等能力。

提出了多階段訓練策略（冷啟動(dòng)->RL->SFT->全場(chǎng)景 RL），有效兼顧準確率與可讀性，產(chǎn)出 DeepSeek-R1，性能比肩 OpenAI-o1-1217。

展示了知識蒸餾在提升小模型推理能力方面的潛力，并開(kāi)源多個(gè)大小不一的蒸餾模型（1.5B~70B），為社區提供了可在低資源環(huán)境中也能獲得G推理能力的模型選擇。

附件：DeepSeek-R1技術(shù)報告-冷啟動(dòng)數據和多階段訓練流程,大型基礎模型的推理模式對提升推理能力至關(guān)重要