創(chuàng )澤機器人 |
CHUANGZE ROBOT |
2024 年大模型技術(shù)快速演進(jìn),相較于 2023 年的大小模型之 爭,技術(shù)的進(jìn)步方向逐步向應用落地方向傾斜,降低端側模型 部署門(mén)檻,縮短模型推理時(shí)延,提升模型交互能力,大模型的 發(fā)展迎來(lái)了新的變化。本文將從技術(shù)視角梳理 2024 年以來(lái)大模 型各個(gè)L域發(fā)生的變化,以行業(yè)L先實(shí)踐為佐證,提出大模型技術(shù)演進(jìn)方向。語(yǔ)言大模型發(fā)展迎來(lái)新范式,通過(guò)強化學(xué)習優(yōu) 化內部思維鏈策略,以提升復雜邏輯推理能力。多模態(tài)大模型架構正向端到端演進(jìn),決策準確性和靈敏度提升推動(dòng)機器人場(chǎng)景應用落地。在視頻生成L域,DiTs 架構的可擴展性?xún)?yōu)勢顯現, 推動(dòng) AI應用商業(yè)化。在硬件部署方面,模型壓縮、安全控制等 技術(shù)正降低部署門(mén)檻。在智能體實(shí)踐方面,垂類(lèi)大模型開(kāi)始在 智能終端環(huán)境應用。在合成數據策略方面,自我獎勵語(yǔ)言模型 生成合成數據,試圖打破數據瓶頸。
一、語(yǔ)言大模型的新范式:強化學(xué)習優(yōu)化思維鏈
規模定律的延伸
在2024年之前,語(yǔ)言大模型的“規模定律”已經(jīng)得到了業(yè)界的廣泛認可。模型參數的擴展、數據集質(zhì)量的提升以及人工微調,使得語(yǔ)言模型展現出了前所未有的泛化能力和通用能力。然而,2024年的技術(shù)進(jìn)步,將這一定律延伸至后訓練階段。
OpenAI的o1推理大模型
今年9月,OpenAI公開(kāi)發(fā)布的o1推理大模型,通過(guò)強化學(xué)習優(yōu)化模型內部思維鏈推理邏輯步驟,模擬人的思考過(guò)程,加深對問(wèn)題的理解程度,從而提升處理復雜推理任務(wù)的能力。這一技術(shù)突破,標志著(zhù)語(yǔ)言大模型的發(fā)展迎來(lái)了新范式。
強化學(xué)習的威力
通過(guò)強化學(xué)習,模型學(xué)會(huì )了精煉思維鏈并優(yōu)化所用策略,識別并糾正錯誤,將復雜步驟分解為更簡(jiǎn)單的部分,并在當前方法無(wú)效時(shí)嘗試不同的途徑。這一過(guò)程顯著(zhù)提升了模型的推理能力,在多個(gè)G難度推理基準測試中,o1的表現超越了人類(lèi)專(zhuān)家和GPT-4o,展示了其強大的推理能力和專(zhuān)業(yè)知識。
二、多模態(tài)大模型:端到端架構的演進(jìn)
跨模態(tài)到端到端的轉變
過(guò)去,多模態(tài)大模型多采用基于語(yǔ)言模型為主干的跨模態(tài)架構,通過(guò)模態(tài)特定的編碼器轉化為統一的向量表示后再輸入語(yǔ)言模型。但這樣的架構帶來(lái)了任務(wù)響應時(shí)間長(cháng)、模態(tài)間交互細節損失的問(wèn)題。
端到端架構的優(yōu)勢
2024年以來(lái),以GPT-4o、Gemini為代表的多模態(tài)大模型開(kāi)始使用端到端支持多種模態(tài)統一輸入輸出的模型架構。這一架構通過(guò)簡(jiǎn)化模型的輸入接口,減少模態(tài)間的信息損失,提升了模型處理即時(shí)任務(wù)的響應時(shí)間。
英偉達的GR00T項目
在2024GTC大會(huì )上,英偉達發(fā)布了人形機器人項目GR00T,基于控制、執行和決策三個(gè)層級分層實(shí)現模型的端到端訓練學(xué)習,通過(guò)合并反向反饋得到準確輸出結果,大幅提升了機器人處理復雜任務(wù)的精度、G效性以及靈活性。
三、視頻生成L域的突破:DiTs架構的可擴展性
DiTs架構的優(yōu)勢
2024年以來(lái),國內外科技大廠(chǎng)發(fā)布的視頻生成模型多以DiTs為基礎,基于Transformer架構的擴散模型在視頻生成任務(wù)中可擴展性?xún)?yōu)勢凸顯。相較于原先的U-Net卷積網(wǎng)絡(luò )架構,Transformer骨干架構可以提供基于參數規模和訓練數據量提升而帶來(lái)更優(yōu)越的性能。
OpenAI的Sora視頻生成模型
OpenAI發(fā)布的視頻生成模型Sora基于DiTs架構,在生成視頻的像素穩定性、前后邏輯連續性以及信息丟失等方面有大幅提升。Sora在數據處理和視頻標注L域做了創(chuàng )新,基于視頻編碼器將樣本空間數據進(jìn)行時(shí)間空間維度壓縮和Patch化處理,再通過(guò)相應解碼器實(shí)現隱空間向視頻像素空間的映射,以訓練新的視頻壓縮網(wǎng)絡(luò )實(shí)現長(cháng)視頻生成的能力。
Meta Movie Gen視頻生成模型
Meta Movie Gen視頻生成模型發(fā)布,其在原先視頻生成模型架構的基礎上,疊加了一個(gè)13B參數轉換器模型Meta Gen Audio,通過(guò)數百萬(wàn)個(gè)小時(shí)的音頻參考數據的對比總結,Meta Gen Audio可準確匹配聲音和畫(huà)面之間的對應關(guān)系,根據不同情緒和環(huán)境的提示詞,找到與畫(huà)面出色契合的音樂(lè )。
四、硬件部署實(shí)踐:端云結合架構的創(chuàng )新
蘋(píng)果的Apple Intelligence
蘋(píng)果在2024年6月發(fā)布的Apple Intelligence為大模型硬件部署實(shí)踐提供了很好的指引。Apple Intelligence采用端云結合方案,分別在設備端和服務(wù)器端部署大小語(yǔ)言模型(AFM-on-device和AFM-server),不同應用可以通過(guò)統一的語(yǔ)義索引、意圖檢測等工具調用AFM模型。
量化壓縮疊加適配器架構
為保障在端側設備上運行模型同時(shí)避免精度上損失,蘋(píng)果創(chuàng )新推出量化壓縮疊加適配器的架構,一方面采用量化壓縮的方法降低模型大小,同時(shí)通過(guò)LoRA適配器來(lái)恢復量化模型的精度。
Responsible AI原則
蘋(píng)果制定了Responsible AI原則,包括用戶(hù)賦能、代表、謹慎設計、隱私保護四大原則,被整合到基礎模型開(kāi)發(fā)的每一個(gè)環(huán)節中,包括數據的收集與處理、模型訓練、模型評估、用戶(hù)反饋等。
LLM-in-a-flash技術(shù)
蘋(píng)果研發(fā)了LLM-in-a-flash技術(shù),讓大模型可以不受限于DRAM的限制,在推理時(shí)將參數加載至閃存中來(lái)輔助完成計算,分擔存儲壓力,從而降低端側設備部署大模型門(mén)檻。
![]() |
機器人底盤(pán) Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動(dòng)機器人底盤(pán) 商用機器人 智能垃圾站 智能服務(wù)機器人 大屏機器人 霧化消毒機器人 紫外線(xiàn)消毒機器人 消毒機器人價(jià)格 展廳機器人 服務(wù)機器人底盤(pán) 核酸采樣機器人 智能配送機器人 導覽機器人 |