創(chuàng )澤機器人 |
CHUANGZE ROBOT |
近幾年,大模型推動(dòng)人工智能技術(shù)迅猛發(fā)展,J大地拓展了機器 智能的邊界,展現出通用人工智能的“曙光”。如何準確、客觀(guān)、全 面衡量當前大模型能力,成為產(chǎn)學(xué)研用各界關(guān)注的重要問(wèn)題。設計合 理的任務(wù)、數據集和指標,對大模型進(jìn)行基準測試,是定量評價(jià)大模 型技術(shù)水平的主要方式。大模型基準測試不僅可以評估當前技術(shù)水平, 指引未來(lái)學(xué)術(shù)研究,牽引產(chǎn)品研發(fā)、支撐行業(yè)應用,還可以輔助監管 治理,也有利于增進(jìn)社會(huì )公眾對人工智能的正確認知,是促進(jìn)人工智 能技術(shù)產(chǎn)業(yè)發(fā)展的重要抓手。主要學(xué)術(shù)機構和頭部企業(yè)都十分重 視大模型基準測試,陸續發(fā)布了一系列評測數據集、框架和結果榜單, 對于推動(dòng)大模型技術(shù)發(fā)展產(chǎn)生了積J作用。然而,隨著(zhù)大模型能力不 斷增強和行業(yè)賦能逐漸深入,大模型基準測試體系還需要與時(shí)俱進(jìn), 不斷完善。
本研究報告首先回顧了大模型基準測試的發(fā)展現狀,對已發(fā)布的 主要大模型評測數據集、體系和方法進(jìn)行了梳理,分析了當前基準測試存在的問(wèn)題和挑戰,提出了一套系統化構建大模型基準測試的框架 —— “方升”大模型基準測試體系,介紹了基于“方升”體系初步開(kāi) 展的大模型評測情況,并對未來(lái)大模型基準測試的發(fā)展趨勢進(jìn)行展望。 面向未來(lái),大模型基準測試仍存在諸多開(kāi)放性的問(wèn)題,還需要產(chǎn)學(xué)研 各界緊密合作,共同建設大模型基準測試標準,為大模型行業(yè)健康有 序發(fā)展提供有力支撐
人工智能技術(shù)發(fā)展迅速,大模型、RAG、AGENT、 具身智能、 AGI等新概念和新技術(shù)層出不窮。大模型基準測試作為研究較為深入 的L域,將帶動(dòng)其他新技術(shù)的研究。當前雖然 AGI 仍未有明確的定 義,但針對 AGI 的探索性評測研究已有初步成果。例如微軟發(fā)布論 文《通用人工智能的火花:GPT-4 的早期實(shí)驗》,通過(guò)數學(xué)、編程、 視覺(jué)、醫學(xué)、法律、心理學(xué)等復雜度較G的任務(wù)證明GPT-4已經(jīng)進(jìn)入 AGI 的早期階段。北京通用人工智能研究院發(fā)布《通智測試:通用人 工智能具身物理與社會(huì )測試評級系統》,提出一種基于能力和價(jià)值維 度的 AGI 的評測方法。中國科學(xué)院和美國俄亥俄州立大學(xué)等先后推 出AGIBench 和MMMU 評測數據集,從多模態(tài)、多學(xué)科、多粒度等 維度衡量大模型距離AGI 的差距。雖然當前AGI 的發(fā)展仍然處于初 期階段,但通過(guò)基準測試的研究,可以為未來(lái) AGI 的發(fā)展方向提供 思路,并對AGI 的能力進(jìn)行監控以指引其正向發(fā)展。
![]() |
機器人底盤(pán) Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動(dòng)機器人底盤(pán) 商用機器人 智能垃圾站 智能服務(wù)機器人 大屏機器人 霧化消毒機器人 紫外線(xiàn)消毒機器人 消毒機器人價(jià)格 展廳機器人 服務(wù)機器人底盤(pán) 核酸采樣機器人 智能配送機器人 導覽機器人 |