每日經濟新聞 2025-03-31 14:34:09
3月31日,在“2025中關村論壇年(nian)會”期間(jian)舉辦的智譜OpenDay活動(dong)上,中國科學院院士張鈸發表演講,探討大(da)(da)模型對(dui)人工智能及各行業(ye)的深遠影響(xiang)。他指(zhi)出,大(da)(da)模型通(tong)過(guo)生成式預訓練(lian)變(bian)換(huan)器(GPT)等(deng)技(ji)術使機(ji)器具(ju)備類(lei)似人類(lei)的思考能力,其(qi)發展依賴(lai)神經網(wang)絡和數(shu)據規模的擴(kuo)大(da)(da)。然(ran)而,當(dang)前AI面臨三大(da)(da)難題:語(yu)言模型缺(que)乏多層次空間(jian)、推理過(guo)程(cheng)與結(jie)果存在偏差以及可解釋性(xing)不(bu)足。
每經記(ji)者|可楊 每經編輯|魏官紅(hong)
3月31日,在“2025中(zhong)關(guan)村論壇年會”期間,在由智譜舉辦(ban)的智譜OpenDay上,中(zhong)國科學院(yuan)(yuan)院(yuan)(yuan)士張鈸(ba)發表演講(jiang)。
張鈸在(zai)演講中指(zhi)出,當前,我們進入了一(yi)個(ge)歷史(shi)大變(bian)革時代(dai),這個(ge)時代(dai)之所以(yi)會來臨(lin),就(jiu)是因為大模型的(de)(de)作用。一(yi)方面,大模型的(de)(de)出現使得(de)人工智能的(de)(de)技術范式(shi)發生了根本性變(bian)化(hua);同時,人工智能日新月(yue)異的(de)(de)發展也正在(zai)重塑(su)各行各業的(de)(de)面貌。
張(zhang)鈸表示,大(da)(da)模型(xing)使得機(ji)器(qi)(qi)具備了(le)(le)像人類一樣思考的(de)(de)能力,這一突破主要(yao)依賴于GPT,即生成(cheng)式預訓練變換(huan)器(qi)(qi)。通過(guo)巨大(da)(da)的(de)(de)人工(gong)神(shen)經網絡和龐大(da)(da)數據量的(de)(de)學(xue)習,催(cui)生了(le)(le)強(qiang)大(da)(da)的(de)(de)大(da)(da)語言(yan)(yan)(yan)模型(xing)。張(zhang)鈸院(yuan)士強(qiang)調,語言(yan)(yan)(yan)的(de)(de)掌握為人工(gong)智能打開了(le)(le)無限(xian)可能性(xing)。“維特(te)根斯坦(tan)曾(ceng)說(shuo),‘語言(yan)(yan)(yan)界(jie)(jie)限(xian)就是我的(de)(de)世界(jie)(jie)界(jie)(jie)限(xian)’。換(huan)句話講,機(ji)器(qi)(qi)一旦理解和掌握了(le)(le)人類語言(yan)(yan)(yan),必然(ran)會給機(ji)器(qi)(qi)開辟一條充滿一切可能性(xing)的(de)(de)道(dao)路。”
當前的大(da)模型發展主要(yao)依賴于(yu)“規模定律(lv)”——即神經網絡規模和數(shu)據規模的擴大(da)。但如何超(chao)越這一定律(lv)?
張鈸指(zhi)出,首先(xian)要(yao)進(jin)一步提(ti)升(sheng)(sheng)大(da)模型的(de)性(xing)能,同時(shi)降低成本。如(ru)何提(ti)升(sheng)(sheng)大(da)模型的(de)性(xing)價比?他認為,需要(yao)提(ti)升(sheng)(sheng)大(da)模型的(de)自主(zhu)思考和推理能力,利(li)用其本身的(de)能力,來提(ti)高其性(xing)能。當前,這方面的(de)探索(suo)包括(kuo)“思維鏈”(Chain of Thought,CoT)、深度思考(Deliberate Thinking)以及AI反(fan)饋(kui)強化學習(RLAI,RLHF)。
同(tong)時,張(zhang)鈸表示(shi),當前人工智能正從語(yu)言(yan)(yan)模型邁入“智能體(ti)化”時代,也就是(shi)說,應該把語(yu)言(yan)(yan)模型擴展到變(bian)成(cheng)智能體(ti)。而構成(cheng)智能體(ti)需要(yao)(yao)符合三(san)個條件:思考能力(li)(li)(li)、執行能力(li)(li)(li)和感(gan)知能力(li)(li)(li)。目前,大模型在數(shu)字世界(jie)中(zhong)的(de)表現已相對成(cheng)熟(shu),但若要(yao)(yao)應用于物理世界(jie),執行能力(li)(li)(li)和感(gan)知能力(li)(li)(li)的(de)提升將(jiang)成(cheng)為(wei)關鍵挑(tiao)戰。
盡管大模型帶來了巨(ju)大變(bian)革,但在(zai)推理(li)能力方面仍(reng)存在(zai)重(zhong)大挑戰。張鈸(ba)院士總結了當(dang)前AI(人工智能)面臨的三大難題(ti)。
首先是(shi)多層(ceng)次空(kong)間(jian)的(de)缺(que)失。張(zhang)鈸認為,目前的(de)語言模型(xing)采用token構(gou)建(jian)空(kong)間(jian),雖然數學(xue)性質良好,但缺(que)乏(fa)層(ceng)次性,而沒有層(ceng)次的(de)空(kong)間(jian)難以進行復雜推(tui)(tui)理(li)。當前圖像領域(yu)已通過擴(kuo)(kuo)散模型(xing)(Diffusion Model)解決了這一(yi)問(wen)題,而語言領域(yu)尚在探索如何引入(ru)類似的(de)多層(ceng)次結構(gou),“我(wo)認為一(yi)旦把(ba)擴(kuo)(kuo)散模型(xing)擴(kuo)(kuo)充到語言上(shang)去,那(nei)語言上(shang)的(de)推(tui)(tui)理(li)就(jiu)非常(chang)準(zhun)”。
其次是(shi)過(guo)程與(yu)結(jie)(jie)果的(de)(de)(de)(de)偏差。張(zhang)鈸表(biao)示(shi)(shi),“我們所有的(de)(de)(de)(de)推(tui)理(li)都(dou)是(shi)以結(jie)(jie)果作為目標,有的(de)(de)(de)(de)人(ren)說(shuo)這(zhe)不叫(jiao)推(tui)理(li),叫(jiao)推(tui)斷”,他表(biao)示(shi)(shi),當前推(tui)理(li)主(zhu)(zhu)要(yao)依(yi)賴優化結(jie)(jie)果,而非推(tui)理(li)過(guo)程,這(zhe)導致有可能出現結(jie)(jie)果是(shi)對的(de)(de)(de)(de),但(dan)推(tui)理(li)過(guo)程錯誤的(de)(de)(de)(de)現象。因(yin)此,需要(yao)強(qiang)化AI推(tui)理(li)的(de)(de)(de)(de)過(guo)程優化,使其更加符合人(ren)類的(de)(de)(de)(de)邏輯,這(zhe)主(zhu)(zhu)要(yao)需要(yao)依(yi)托強(qiang)化學習(Reinforcement Learning)的(de)(de)(de)(de)投(tou)入研(yan)究來解決。
此外(wai),AI的(de)可解釋性(xing)一(yi)直是業界關注的(de)核心挑(tiao)戰(zhan)。張鈸院(yuan)士認為(wei),這(zhe)一(yi)問題不能僅靠企業解決,更需要學術界和產業界的(de)協同合作(zuo),尋找(zhao)理論層面的(de)突破(po)。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟(ji)新聞》報(bao)社授權,嚴(yan)禁轉(zhuan)載或(huo)鏡(jing)像(xiang),違者必究。
讀者熱(re)線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索(suo)取稿酬(chou)。如(ru)您(nin)(nin)不希望作品出現在本站,可聯系我們(men)要(yao)求撤下您(nin)(nin)的作品。
歡迎關注每(mei)日經(jing)濟(ji)新聞(wen)APP