要聞

最新！李飛飛團隊456頁報告：中美AI模型性能近乎持平，系統推理成本降至280分之一

每(mei)日經濟新聞 2025-04-09 20:34:20

每(mei)經記(ji)者｜宋(song)欣悅每(mei)經編輯｜陳柯名(ming) 蘭(lan)素英(ying)

4月8日，由李飛(fei)飛(fei)聯(lian)合領導的斯坦福大(da)學(xue)以人為(wei)本人工智能研究所（Stanford HAI）發布了《2025年人工智能指數(shu)報(bao)告》（Artificial Intelligence Index Report 2025）。這份長達456頁的報(bao)告，深(shen)入剖(pou)析了2024年全球人工智能行業的發展態勢，揭(jie)示(shi)了12大(da)關鍵趨勢。

CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuJyQIfZqLibhibIicPQ2O4YiaR5P372yfOsNBlxqaCjw1mSMwTaN2j8yvTg.png

圖(tu)片(pian)來(lai)源(yuan)：斯坦(tan)福大學以人(ren)為(wei)本人(ren)工智能(neng)研究所官網

報告認為，AI正變得更高效、更普惠。隨著小模(mo)型性能飆升，達到(dao)GPT-3.5水平的(de)系統推理成本(ben)在過去兩年間下降到(dao)了(le)原來(lai)的(de)280分(fen)之(zhi)一。

報告還指出，中國高性能AI模型的數量和質量不斷提升，中美AI模型性能近乎(hu)持平。與此同時，中國在AI領域論文數量和專利數量上保持領先地位。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png AI性能飆升(sheng)，表現逐漸(jian)接近(jin)人類

2023年，研究人員推出了MMMU、GPQA和SWE-bench等(deng)頗具挑戰性的(de)新基準測試(shi)，用于測試(shi)AI系統的(de)極(ji)限。

測試發現，僅(jin)僅(jin)一年后，AI系統(tong)的性能便實現大幅(fu)躍升(sheng)(sheng)——在MMMU測試中得(de)分提升(sheng)(sheng)18.8個百分點；在GPQA測試中提高(gao)48.9個百分點；SWE-bench測試里(li)更是提升(sheng)(sheng)了(le)67.3個百分點。

從整體趨勢來看，AI在(zai)各(ge)大領域的表現逐漸(jian)接近人類，甚至在(zai)某些情形(xing)下(xia)，AI智能(neng)體能(neng)在(zai)限時編程任務中超(chao)越人類。

CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuDnjWlmF4HxkIibrUvNcW5U2NvzSrOqdrn3E3HAjyic5Y24EibkUoGPujQ.png

在(zai)部分(fen)評測指標(biao)上(shang)，AI技(ji)術性能(neng)表現與人(ren)類(lei)水平的(de)對比(bi)?圖片來(lai)源：《2025年人(ren)工智能(neng)指數報(bao)告(gao)》

然(ran)而(er)，復雜的(de)推理(li)對于AI模型而(er)言(yan)，仍然(ran)是一個挑戰。

在(zai)(zai)處理類似國際數學奧林(lin)匹克(ke)競賽題(ti)目這類任務時(shi)，AI模型表現(xian)出色。但(dan)面對諸如PlanBench等復雜推理基(ji)準測(ce)試(shi)時(shi)，卻(que)仍顯得吃力。即使面對那些已知存在(zai)(zai)正解的邏輯任務，AI也(ye)經常無法可靠地解決邏輯任務，這極(ji)大限制了AI在(zai)(zai)對精度要求(qiu)極(ji)高的高風險(xian)行業(ye)中的應用。

CFF20LXzkOyN00ZI2y8fDJNkp68HnqTu83W711jRLvbuKGh5bYnhgsllIClDALrZMiaxfVx3SSXN1aScqUz1mTA.png

各大模型在PlanBench基準測試上的(de)正(zheng)確率圖片來源(yuan)：《2025年人(ren)工智能(neng)指數報告》

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png 全球AI投資飆(biao)升?

2024年(nian)，生(sheng)成(cheng)式AI在全球(qiu)范圍內吸引了339億美元的私(si)人投資，與2023年(nian)相比，增長幅度達到18.7%。

與(yu)此(ci)同(tong)時，企業對AI的采用率顯著(zhu)提升(sheng)，從2023年(nian)的55%上升(sheng)至2024年(nian)的78%。越(yue)來越(yue)多的研究結果(guo)表明，AI不僅能(neng)夠有(you)效提升(sheng)生(sheng)產力，在多數情況下，還能(neng)縮小勞動力的技能(neng)差距。

值得關注(zhu)的是，將生成(cheng)式AI應用于至少(shao)一項業務職能(neng)的企業數量出現了激(ji)增。2023年，這一比例僅(jin)為33%，而(er)到了2024年，該(gai)比例躍升至71%，增幅(fu)超過一倍。

CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuRN92iagqoRF88QZGA82iaVv5UOgc6icAtBLbia9RicUYGMkt0GevcITFgjw.png

2017年至(zhi)2024年，將AI應用于至(zhi)少(shao)一項(xiang)業務職能企(qi)業的比例不斷上(shang)升圖片來源：《2025年人工智能指數報告》

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png 中美模型性能(neng)近乎持平

數據顯(xian)示，美(mei)(mei)國(guo)在AI模型的(de)數量上(shang)處于(yu)領先地位(wei)。2024年，總部位(wei)于(yu)美(mei)(mei)國(guo)的(de)機構(gou)擁有40個(ge)(ge)知名AI模型，超(chao)過中國(guo)（15個(ge)(ge)）和(he)法國(guo)（3個(ge)(ge)）。

CFF20LXzkOyN00ZI2y8fDJNkp68HnqTucVy6U9cqNIZRt46DnQicNbUJbUPC1jxCrB1KiaiaTRGPU496ka2sibvfJg.png

圖(tu)片來源：《2025年人工智能指數報告》

不過，報告強調，中(zhong)美(mei)模型之間的性(xing)能(neng)差(cha)距(ju)正在迅速縮小。以(yi)MMLU和HumanEval等(deng)主流基準(zhun)測試結果來看，2023年，中(zhong)美(mei)頂尖(jian)模型之間的性(xing)能(neng)差(cha)距(ju)還在兩位數(shu)，然而到了(le)2024年，這一(yi)差(cha)距(ju)已大幅縮小，幾(ji)乎處(chu)于同一(yi)水平(ping)。?

與此同時，中國在AI領(ling)域論文數量和專利數量上依舊保持領(ling)先地(di)位。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png 小模型性能飆升(sheng)，推理成本降至280分之(zhi)一(yi)?

報告(gao)指(zhi)出，AI正(zheng)變得(de)更加高效、經濟實惠(hui)和易于(yu)獲(huo)取。

隨著小模型(xing)性(xing)能提升，達到(dao)GPT-3.5水平的系統推理(li)成本在過去兩年(nian)間(jian)下降至280分之一。在硬件層面，成本每年(nian)下降30%，而能源(yuan)效率每年(nian)提高40%。

2022年(nian)，在MMLU基準測試中(zhong)，得分超60%的(de)最小(xiao)模型是PaLM，參(can)數(shu)量為5400億。到了(le)(le)2024年(nian)，微軟Phi-3-mini僅(jin)用38億參(can)數(shu)，就取得了(le)(le)同樣的(de)實力。這代表，兩(liang)年(nian)多的(de)時間里模型參(can)數(shu)減少了(le)(le)142倍。

此外，開(kai)(kai)源(yuan)(yuan)模(mo)型(xing)正在迎頭趕(gan)上，與(yu)閉(bi)源(yuan)(yuan)模(mo)型(xing)的差(cha)距(ju)逐漸縮(suo)小。2023年，開(kai)(kai)源(yuan)(yuan)模(mo)型(xing)明顯落后于(yu)閉(bi)源(yuan)(yuan)模(mo)型(xing)。而到2024年，這(zhe)一(yi)差(cha)距(ju)幾乎消(xiao)失。2024年1月初，頂尖閉(bi)源(yuan)(yuan)模(mo)型(xing)在大模(mo)型(xing)競技場排(pai)行榜上以8.0%的成績超過了頂尖開(kai)(kai)源(yuan)(yuan)模(mo)型(xing)。而到2025年2月，這(zhe)一(yi)差(cha)距(ju)已(yi)縮(suo)小至1.7%。

CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuxjufQpjqtp8Bd1IMiaictIYic2YeyO7qRHjBPHorGOdib937IbK2e9FzHA.png

2022年(nian)(nian)至2024年(nian)(nian)，在MMLU上得分高于60%的小模型圖(tu)片來源：《2025年(nian)(nian)人工(gong)智能指數(shu)報告》

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png 中國對AI的(de)態度最樂觀

在對AI的(de)態度方面，中國(guo)是全球主要國(guo)家和地區中最樂觀的(de)。

報告顯示，2024年中國有83%的(de)(de)(de)人認(ren)為AI產品和服(fu)務利大(da)于弊(bi)，排在后面(mian)的(de)(de)(de)是印度尼(ni)西亞（80%）和泰國（77%）。相比之下，美國（39%）、加拿大(da)（40%）等的(de)(de)(de)樂(le)觀(guan)情緒遠低(di)于中國。

CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuYyt6yV7ibKoM2CnMAP8cdncPGqURa5zrbeh1DBgibQL9QrcEsWoL5zdw.png

2022年(nian)至2024年(nian)，各國(guo)認(ren)為“使(shi)用AI產(chan)品和服務利大(da)于(yu)弊(bi)”的比例(li) 圖片(pian)來源：《2025年(nian)人工(gong)智能指數報告》

不過，從整體趨勢而言，各國(guo)(guo)對于(yu)AI的(de)樂(le)觀(guan)情(qing)緒(xu)正(zheng)逐(zhu)漸升溫，特別是在一些曾對AI最持懷(huai)疑態度的(de)國(guo)(guo)家。數(shu)據(ju)顯(xian)示(shi)，自2022年起，美國(guo)(guo)認為“使用(yong)AI產品和服(fu)務利大于(yu)弊”的(de)比例(li)提升了4%，加拿大增長了8%，法國(guo)(guo)增長了10%。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png 三分之二受訪者稱AI將在未來3至5年(nian)對日(ri)常生活產生顯(xian)著影響(xiang)

從醫療保健到交(jiao)通運輸，AI正迅速從實驗室走向日常(chang)生活。

2023年，美國(guo)食(shi)品(pin)藥品(pin)監督管理(li)局(ju)（FDA）批準(zhun)了223款AI醫療(liao)設備，而2015年僅有6款。

CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuW5I80fjWndEcdyE8MqejuZtWicr8IOvuWD7ZIeWKBFezGL0sknNVUIg.png

1995年至2023年FDA批準的AI醫(yi)療設備數(shu)量(liang) 圖片來源：《2025年人(ren)工智能(neng)指數(shu)報告(gao)》

道路(lu)交(jiao)通同樣因AI技(ji)術發生(sheng)著日新月(yue)異(yi)的變化(hua)。自動駕駛汽車不再只是(shi)實驗，而是(shi)逐(zhu)步駛入現實生(sheng)活。

美國(guo)最大的(de)運(yun)營商之一Waymo每周提供超(chao)過15萬次(ci)自動(dong)駕駛(shi)服務，而百度旗(qi)下的(de)“蘿(luo)卜快跑”（Apollo Go）無人駕駛(shi)出租(zu)車隊已在(zai)中國(guo)多個城市正式投入運(yun)營。

此外，人們對AI融(rong)入日(ri)常生(sheng)(sheng)活的期待與認(ren)可度正(zheng)在上升。據統(tong)計，全球范圍內(nei)(nei)，有(you)多達三(san)分之二的受訪(fang)者認(ren)為，在未來三(san)到五年內(nei)(nei)，AI產(chan)(chan)品及(ji)服務(wu)將(jiang)對日(ri)常生(sheng)(sheng)活產(chan)(chan)生(sheng)(sheng)顯著影響。

記者|宋(song)欣悅?

編輯|陳柯名?蘭素英杜波

校對|金冥羽

封面圖片來源(yuan)：視(shi)覺中國

CFF20LXzkOyYmal29zn37N5Bg2NQ4tyN4ylvMFyM3VmF4x90Uj4cDmoEphibia4RN55ibIXmqU1Od9w2Q5nhA08lA.png