男欢女爱销魂蚀骨免费阅读,性欧美丰满熟妇XXXX性久久久,适合单身男人看的影片,www天堂无人区在线观看,悟空影视免费高清

每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

記者實測 | DeepSeek-R1對決四款主流推理模型:基礎題意外“翻車”,高難度推理碾壓ChatGPT o1

每日經濟(ji)新聞 2025-01-27 21:52:13

DeepSeek的熱(re)度還(huan)在(zai)持續。《每日(ri)經濟新聞》記者對(dui)DeepSeek-R1與四款(kuan)主流推(tui)理模(mo)(mo)型進行了對(dui)比測試,結果顯示(shi)其(qi)在(zai)基礎題(ti)上意外“翻(fan)車”,高難度問題(ti)上卻表現出色,甚至在(zai)速(su)度上打(da)敗了OpenAI的o1模(mo)(mo)型。DeepSeek旗下模(mo)(mo)型極低的訓練(lian)成(cheng)本或許預(yu)示(shi)著AI大模(mo)(mo)型對(dui)算力投入的需求將大幅(fu)下降。AI預(yu)訓練(lian)時(shi)代或將終結。多家(jia)券商研報(bao)也指出算力需求將向推(tui)理側傾斜。

每經記者|岳楚鵬    每經編(bian)輯(ji)|蘭素(su)英    

1月20日發布的DeepSeek-R1模型讓開發公(gong)司DeepSeek在全球的(de)熱(re)度持續攀升。1月27日(ri),DeepSeek接連登頂蘋(pin)果中國(guo)和美國(guo)地(di)區(qu)應用商城的(de)免(mian)費應用排(pai)行榜,甚至超越了大眾熟(shu)知(zhi)的(de)ChatGPT。 

諸多測(ce)評結果顯示,DeepSeek旗下模(mo)型(xing)R1在(zai)(zai)(zai)多個(ge)基準(zhun)測(ce)試下都能匹敵甚至(zhi)(zhi)超越(yue)OpenAI、谷歌(ge)和Meta的大模(mo)型(xing),而且成本更(geng)低。在(zai)(zai)(zai)聊(liao)天機器人競技場綜合榜單上,DeepSeek-R1已經升至(zhi)(zhi)全類別大模(mo)型(xing)第(di)三,其(qi)中(zhong),在(zai)(zai)(zai)風(feng)格(ge)控(kong)制類模(mo)型(xing)(StyleCtrl)分(fen)類中(zhong)與頂尖推理模(mo)型(xing)OpenAI o1并(bing)列第(di)一。其(qi)競技場得分(fen)達到1357分(fen),略超OpenAI o1的1352分(fen)。

據外媒報道,Meta專門成立了四個專門研究小組來研究DeepSeek的工作原理,并基于此來改進旗下大模型Llama

其中兩個(ge)(ge)小(xiao)組正(zheng)在(zai)試圖了(le)解DeepSeek如何降低(di)訓(xun)練和運(yun)行成本;第三個(ge)(ge)研究(jiu)小(xiao)組則在(zai)研究(jiu)DeepSeek訓(xun)練模(mo)(mo)型(xing)(xing)(xing)可能用(yong)到的(de)數(shu)據;第四個(ge)(ge)小(xiao)組正(zheng)在(zai)考慮基于DeepSeek模(mo)(mo)型(xing)(xing)(xing)屬(shu)性重構Meta模(mo)(mo)型(xing)(xing)(xing)。

《每日經濟新聞》記者也對炙手可熱的R1模型與四款主流推理模型——OpenAI的ChatGPT o1、谷歌的Gemini 2.0 Flash Thinking Experimental、字節跳動的豆包1.5Pro和月之暗面的Kimi 1.5——進行了對比測試。測試結果顯示,DeepSeek在難度最低的簡單邏輯推理問題上表現不佳,但在高難度問題上表現可圈可點,不僅回答正確,還在速度上擊敗了o1。

DeepSeek旗下模型極低的訓練成本或許預示著AI大模型對算力投入的需求將大幅下降。多家券商研報指出,算力需求會加速從預訓練向推理側傾斜,推理有望接力訓練,成為下一階段算力需求的主要驅動力。 

記者實測:DeepSeek簡單問題出錯,高難度問題完勝,并在速度上擊敗o1

《每日經濟新聞》記者對DeepSeek-R1以及市面上的幾款主流推理模型進行了對比測試,包括o1、谷歌的Gemini 2.0 Flash Thinking Experimental、字節跳動的豆包1.5Pro和月之暗面的Kimi 1.5。

記者選擇了三個問題對以上五款模型進行測試,難度依次升級(分別為一級到三級),依次評估模型的整體表現。由于(yu)DeepSeek的模型并不具(ju)備多模態功能,所以未進(jin)行多模態相關測試。

首先需要明確的是,推理模型與傳統的大語言模型在輸出方式上采用了兩種不同的模式。傳統的大語言模型對于模型的輸出采用的預測模式,即通過大規模的預訓練猜測下一個輸出應該是什么。而推理模型則具備自我事實核查能力,能夠有效避免一些常見錯誤,使之輸出邏輯更接近人類自身思考推理的過程。所以,推理模(mo)型在(zai)解決問(wen)題時通常比非推理模(mo)型需多(duo)花費幾(ji)秒到幾(ji)分鐘,在(zai)物理、科學(xue)(xue)和數學(xue)(xue)等領域,其可靠(kao)性更高,但在(zai)常識(shi)領域可能有著效率不高的問(wen)題。

DeepSeek推(tui)理過程示意圖(tu)

難度I|三個燈泡問題:五大模型全部通關

首先(xian),記者(zhe)選擇了一道簡單的(de)思(si)維問題:在(zai)一個黑暗的(de)房間里,有(you)三個開(kai)關(guan),分別控(kong)制(zhi)著(zhu)房間外的(de)三個燈(deng)(deng)(deng)泡。你站(zhan)在(zai)房間里,不能看(kan)到燈(deng)(deng)(deng)泡,只(zhi)能通過開(kai)關(guan)控(kong)制(zhi)它們。你只(zhi)能走一次出(chu)去檢查燈(deng)(deng)(deng)泡,如何確(que)定每個開(kai)關(guan)控(kong)制(zhi)哪個燈(deng)(deng)(deng)泡?

五個模型都很快得出了正確答案,在這個簡單的問題上沒有分出區別。

豆包

DeepSeek

Kimi

Gemini

o1

難度II|囚犯帽子顏色推理:DeepSeek、Kimi犯錯,Gemini耗時最短且完全正確

接下(xia)來問題升級:有四位囚(qiu)(qiu)犯排隊站好(hao),囚(qiu)(qiu)犯1號(hao)(hao)(hao)能看見(jian)囚(qiu)(qiu)犯2號(hao)(hao)(hao)和(he)囚(qiu)(qiu)犯3號(hao)(hao)(hao);囚(qiu)(qiu)犯2號(hao)(hao)(hao)可以看見(jian)囚(qiu)(qiu)犯3號(hao)(hao)(hao);囚(qiu)(qiu)犯3號(hao)(hao)(hao)看不(bu)見(jian)任何人(ren);囚(qiu)(qiu)犯4號(hao)(hao)(hao)也看不(bu)見(jian)任何人(ren)。他們知(zhi)(zhi)道一(yi)共有4頂帽子,2黑2白(bai),但并不(bu)知(zhi)(zhi)道自己(ji)(ji)頭頂的帽子是(shi)(shi)什(shen)么(me)顏色(se)。請問誰會是(shi)(shi)第(di)一(yi)個(ge)知(zhi)(zhi)道自己(ji)(ji)頭頂的帽子是(shi)(shi)什(shen)么(me)顏色(se)并且迅速喊出來的人(ren)?

在這個問題上,DeepSeek和Kimi都犯錯了,兩者在推理過程中推導出了(le)一種(zhong)情(qing)況,但正確選項應(ying)該(gai)是兩種(zhong)。

Kimi

DeepSeek

而Gemini、豆包和o1都回答正確。其中,Gemini推理速度最快,僅用了6.8秒就得出了結果,最慢的是o1,耗時1分02秒。

Gemini

o1

豆包

難度III|研究生級別數學題:DeepSeek-R1完勝,且用時最短

評測(ce)結果顯示,DeepSeek在科學領域如(ru)數學能力上排名第一(yi)。于是,記者找(zhao)來了一(yi)道研究生級別的數學題(ti)進行測(ce)試(shi):找(zhao)出所(suo)有(you)階(jie)為147且不(bu)(bu)包含階(jie)為49的元素(su)的兩(liang)(liang)兩(liang)(liang)不(bu)(bu)同同構群(出自美國南加州大學博士(shi)資格考試(shi))。

在這一問題上,DeepSeek-R1沒有“辜負”評測,表現最好,找出了三個解。除o1外的其他模型只找出了兩個解,而且,Kimi在(zai)推理過(guo)程中(zhong)還開啟了(le)聯網查詢(xun)功(gong)能進行輔助推理,但仍然少了(le)一個解(jie)。

雖然o1也找出了三個解,但耗時更長,用了4分17秒得出答案,而DeepSeek-R1只花費了2分18秒。

DeepSeek

o1

豆包




Gemini

Kimi

綜合各項測試來看,DeepSeek存在一個反常識的問題,即在難度不高的問題上表現不如其他模型好,甚至可能會出現其他模型不會出現的錯誤。但是當難度提升到專家級別的程度上時,DeepSeek的表現反而變成了最好的模型。

這就是說,對于需要專業知識輔導的從業人員或研究人員來說,DeepSeek是一個好的選擇。

DeepSeek力壓ChatGPT登頂蘋果應用榜

1月27日,蘋果(guo)(guo)App Store中國區免(mian)費榜(bang)(bang)顯示,近一周全球刷屏的(de)(de)DeepSeek一舉登上首位。同(tong)時,DeepSeek在美(mei)國區蘋果(guo)(guo)App Store免(mian)費榜(bang)(bang)從前一日的(de)(de)第(di)六位飆升至第(di)一位,超越ChatGPT、Meta旗下的(de)(de)社交媒體平臺(tai)Threads、Google Gemini,以(yi)及Microsoft Copilot等AI產品。 

許多科技界人士都在大肆宣揚該(gai)公司所取得的(de)成就及其對(dui)AI領域的(de)意(yi)義。

例如,著名投資公司A16z創始人馬克安德森27日表示,DeepSeek-R1是AI的斯普特尼克時刻注:這是指1957年10月4日蘇聯搶先美國成功發射斯普特尼克1號人造衛星,令西方世界陷入一段恐懼和焦慮的時期)

DeepSeek-R1在一些AI基(ji)準測試上匹(pi)敵(di)甚至(zhi)超越了OpenAI的(de)o1模型。DeepSeek-R1在聊天機(ji)器人競技場綜(zong)合榜單上排名第三(san),與(yu)頂(ding)尖(jian)推理模型o1并列。

在高難度(du)提(ti)示(shi)詞、代碼和數學等技術性(xing)極強的領域,DeepSeek-R1拔(ba)得頭籌,位列第(di)一。

在風(feng)格控(kong)制方面,DeepSeek-R1與o1并列第一,意味著模(mo)型(xing)在理解(jie)和遵循用戶指令,并按照特定風(feng)格生成內容方面表(biao)現出色。

在高難度提示詞與(yu)風格控(kong)制結合的測(ce)試(shi)中,DeepSeek-R1與(yu)o1也(ye)并列第一(yi),進一(yi)步(bu)證明了(le)其在復(fu)雜(za)任務和(he)精細化控(kong)制方(fang)面的強大能力(li)。

圖片(pian)來(lai)源:聊天機器人競技場

Artificial-Analysis對(dui)DeepSeek-R1的(de)初(chu)始基準測試結果也顯示,DeepSeek-R1在AI分析質量指(zhi)數中取(qu)得(de)第(di)二高(gao)分,價格是(shi)o1的(de)約三十分之一。

圖片來源:Artificial-Analysis

預訓練時代將終結,推理正在崛起

DeepSeek旗下模型極低的訓練成本或許預示著AI大模型對算力投入的需求將大幅下降。 

“AI預(yu)訓練時代無疑(yi)將終結。”2024年12月13日,在(zai)溫哥華NeurIPS大會上,OpenAI聯合創始人兼前(qian)首席科學家(jia)伊(yi)利亞•蘇茨克(ke)維爾(Ilya Sutskever)直言。

在這場(chang)演講中,Ilya Sutskever將數(shu)據比(bi)作化(hua)石(shi)燃料,而燃料終將耗盡。“算力(li)在增長,但(dan)數(shu)據卻沒有增長,因為我們(men)只有一個互聯網……我們(men)已經達到(dao)了數(shu)據峰值,不會(hui)再有更多(duo)數(shu)據了,我們(men)必須處理好(hao)現(xian)有的(de)(de)數(shu)據。”現(xian)有數(shu)據仍可(ke)推(tui)動AI進(jin)一步發展,業(ye)內也(ye)正在竭(jie)力(li)挖掘新數(shu)據進(jin)行訓練(lian),這種情(qing)況最(zui)終將迫使(shi)行業(ye)改(gai)變目前的(de)(de)AI模型(xing)訓練(lian)方式(shi)。他預計,下一代AI模型(xing)將是真(zhen)正的(de)(de)AI Agent,且(qie)具備推(tui)理能力(li)。

預訓練(lian)是指(zhi)使用(yong)大量(liang)數(shu)(shu)據訓練(lian)AI模型(xing)的過(guo)程(cheng)(cheng),通(tong)常(chang)需要極(ji)高(gao)的計(ji)算能力(li)和(he)存儲資源。訓練(lian)過(guo)程(cheng)(cheng)通(tong)常(chang)在(zai)(zai)數(shu)(shu)據中心完成(cheng),耗(hao)時(shi)較長,成(cheng)本(ben)高(gao)昂。推(tui)(tui)理是指(zhi)將訓練(lian)好的模型(xing)應用(yong)于(yu)實際任務(如生(sheng)成(cheng)文本(ben)、識別(bie)圖像(xiang)、推(tui)(tui)薦商品等),通(tong)常(chang)需要低延遲和(he)高(gao)吞吐量(liang)。推(tui)(tui)理過(guo)程(cheng)(cheng)可以(yi)在(zai)(zai)云端或邊緣設(she)備(如手機(ji)、自動駕駛汽車(che))上進(jin)行。

推理(li)模(mo)型其(qi)最突出的(de)地方在于,在給出回答(da)之前,模(mo)型會思考(kao),通過(guo)產生一個(ge)很長的(de)內部思維(wei)鏈(lian)(CoT),逐步推理(li),模(mo)仿人類思考(kao)復雜(za)問題的(de)過(guo)程。

隨(sui)著各類大模型的成熟(shu),許(xu)多企(qi)業和開發者可以直接使(shi)用預訓(xun)練(lian)模型,而不需要從頭訓(xun)練(lian)。對于特定任務,企(qi)業通(tong)常只需對預訓(xun)練(lian)模型進行(xing)(xing)微調(diao),而不需要大規(gui)模訓(xun)練(lian),這減(jian)少了對訓(xun)練(lian)算力的需求。預訓(xun)練(lian)時代或許(xu)行(xing)(xing)將落(luo)幕,推理正在崛起。

近幾日,多家券商研報都指出,算力需求會加速從預訓練向推理側傾斜,推理有望接力訓練,成為下一階段算力需求的主要驅動力。

巴克萊12月的報告預計,AI推理計算需求將快速提升,預計其將占通用人工智能總計算需求的70%以上,推理計算的需求甚至可以超過訓練計算需求,達到后者的4.5倍。英偉達GPU目(mu)前在推理市場中(zhong)市占率約(yue)80%,但隨著大型(xing)科技公(gong)司定制化ASIC芯片不斷涌現,這一比例有望在2028年下(xia)降至50%左右。

免責聲(sheng)明(ming):本文內容與(yu)數(shu)據(ju)僅供參考,不(bu)構(gou)成投資(zi)建議,使用前請(qing)核實。據(ju)此操作,風險自(zi)擔。

如需轉載請與《每日經濟新聞》報社聯系。
未(wei)經《每日經濟新聞》報(bao)社授權,嚴禁轉(zhuan)載或(huo)鏡像,違(wei)者必(bi)究。

讀者(zhe)熱(re)線(xian):4008890008

特別提醒(xing):如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不(bu)希望(wang)作品(pin)出(chu)現在本站,可聯系我們要求撤下(xia)您的作品(pin)。

模型 DeepSeek Gemini Kimi OpenAI 推理模(mo)型 豆(dou)包

歡迎(ying)關注(zhu)每日經(jing)濟(ji)新聞APP

每經經濟新聞官方APP

0

0