當前位置：首頁(yè) > 新聞資訊 > 人工智能應用 > DeepSeek帶來(lái)的AI變革,在低精度FP8的模式下訓練大模型,計算成本降低約1000倍

DeepSeek帶來(lái)的AI變革,在低精度FP8的模式下訓練大模型,計算成本降低約1000倍

來(lái)源：華福證券編輯：創(chuàng )澤時(shí)間：2025/3/6 主題：其他 [加盟]

一、用戶(hù)量：海外加速出圈，迅速登D下載榜單

1、網(wǎng)頁(yè)端：重度用戶(hù)為主，DeepSeek 在 24 年 12 月 26 日推出V3（對標 GPT4o），因其顯著(zhù)的性能，用戶(hù)迅速開(kāi)始增長(cháng)，同時(shí)在 1月 20 日發(fā)布 R1（對標 GPT-o1）后，進(jìn)一步出圈。

2、APP 端：大眾用戶(hù)為主，R1 推出后，追平 GPT-o1，迅速出圈海外。根據點(diǎn)點(diǎn)數據，從 DeepSeek 在美國下載排名從 1 月 22 日的 201名，迅速在 1 月 27 日登DD一名；根據七麥數據，截止 1 月 30 日，DeepSeek 在 168 個(gè)國家位居下載榜D一名。

二、DeepSeek 偏好激進(jìn)性創(chuàng )新：架構（MOE+MLA）+精度（FP8）

1、MOE 架構創(chuàng )新：相比過(guò)去主流模型的 MOE 專(zhuān)家模型停留在8~16 個(gè)，而 DeepSeek 每個(gè) MoE 層包含 1 個(gè)共享專(zhuān)家和 256 個(gè)路由專(zhuān)家，有助于降低模型推理時(shí)激活的參數量。

2、MLA 架構創(chuàng )新：MLA 通過(guò)聯(lián)合壓縮鍵值矩陣為低秩向量，將多個(gè)頭的鍵值信息融合，使推理時(shí)僅需緩存少量低秩向量，大幅降低 KV 緩存需求，減少內存占用。

3、訓練特色：突破大模型訓練固定思維（一般模型權重和梯度使用 FP16，優(yōu)化器參數使用 FP32），敢于嘗試在低精度 FP8 的模式下訓練大模型，并且該嘗試同樣出現了較好的效果。

三、DeepSeek 開(kāi)源對 AI 應用和 AI 終端的影響：產(chǎn)品力競爭時(shí)代

DeepSeek 從 V3 到 R1，將進(jìn)一步推動(dòng)全行業(yè)大模型的提升，更快的追趕 GPT4o 和 GPT-o1；同時(shí)成本的下降，有助于 AI 應用和 AI 終端的普及。未來(lái)行業(yè)競爭將進(jìn)入“產(chǎn)品能力競爭”，巨頭的流量?jì)?yōu)勢將進(jìn)一步凸顯。

四、DeepSeek 對推理成本的影響：用戶(hù)規模和使用頻次

未來(lái)推動(dòng)推理成本增加的核心因素：用戶(hù)規模和用戶(hù)使用頻次的增加。根據 Grok 創(chuàng )始人，過(guò)去 60 年，每10年計算成本降低約1000倍，但人們的購買(mǎi)量增加了 10 萬(wàn)倍，總支出反而增長(cháng)了 100 倍。

附件：DeepSeek帶來(lái)的AI變革,在低精度FP8的模式下訓練大模型,計算成本降低約1000倍