梁文峰發(fā)新論文,“基模四杰”聊下一代模型范式今年會否出現(xiàn)

繼去年底發(fā)布新論文之后,1月12日晚,DeepSeek又上新一篇署名梁文峰的論文論文。這篇論文聚焦大模型的條件記憶模塊, DeepSeek在結論中認為這將成為下一代稀疏大模型不可或缺的核心建模原語。此前有爆料稱,DeepSeek下一代大模型將在春節(jié)前后發(fā)布,業(yè)內猜測這或是下一代模型DeepSeek V4的研究路線圖。

近期在中關村國際創(chuàng)新中心的AGI-Next前沿峰會上,被稱為“基模四杰”的月之暗面創(chuàng)始人兼CEO楊植麟、阿里巴巴Qwen技術負責人林俊旸、騰訊首席AI科學家姚順雨和清華大學教授、智譜創(chuàng)始人兼首席科學家唐杰也對下一代模型的范式和重點進行了探討論文。AI行業(yè)先鋒密集發(fā)聲,或能窺見2026年中國大模型發(fā)展的方向和趨勢。

大模型發(fā)展將如何分化論文?

進入2026年,已有兩家大模型企業(yè)完成上市,與此同時,各家都在押注不同的領域論文。接下來中國的模型會分化成哪些方向?

姚順雨此前為OpenAI著名研究者,專注于將大型語言模型從理論研究推向實際應用,特別是AI Agent的開發(fā)論文。2025年底,騰訊升級大模型研發(fā)架構,新成立AI Infra部、AI Data部、數(shù)據(jù)計算平臺部,全面強化其大模型的研發(fā)體系與核心能力。姚順雨出任“CEO/總裁辦公室”首席AI科學家,向騰訊總裁劉熾平匯報;他同時兼任AI Infra部、大語言模型部負責人,向技術工程事業(yè)群總裁盧山匯報。

姚順雨認為,To C和To B明顯發(fā)生了分化論文。首先在To C端,大部分人多數(shù)時候其實不需要用到這么強的智能。“可能今天用ChatGPT和去年相比,寫抽象代數(shù)或者去解伽羅瓦理論的能力變強了,但是大部分人感受不到。大部分人尤其在中國,更多像在用搜索引擎的加強版?!?/p>

但在To B端,智能越高很多時候就代表生產力越高、可以賺的錢越多論文。所以To B大部分時候很多人愿意用最強的模型?!捌鸫a美國人會愿意花溢價去用最好的模型。因為可能他的年薪是20萬美元,他每天要做10個任務,那一個像Opus 4.5這樣非常強的模型,它可能10個任務里做對八九個,差的模型可能做對五六個。問題是你不知道這五六個是哪五六個,就要花很多額外精力去監(jiān)控。所以在To B這個市場上,強的模型和稍微差點的模型,分化會變得越來越明顯?!?/p>

另外,姚順雨認為,以往的發(fā)展趨勢“垂直整合”以及“模型和應用分層”也開始出現(xiàn)分化論文。“過去大家會認為當企業(yè)有垂直整合的能力,就肯定會做得更好,但今天來看不一定。首先,模型層和應用層需要的能力不一樣,尤其是對于To B或者說生產力場景,更大的預訓練(Pre-training)還是一個非常關鍵的事情,但這個事情對于產品公司確實很難做。但想要把一個特別好的模型用好,或者說讓模型有溢出能力,也需要在應用側或者說在環(huán)境側做很多相應的事情?!?/p>

展開全文

他總結稱,在To C應用垂直整合還是成立的,無論是ChatGPT還是豆包,模型和產品是非常強耦合去緊密迭代論文。但對于To B來說趨勢似乎是相反的。模型變得越來越強,但也同樣會有更多應用層的東西想要去利用這樣的好模型,在不同的生產力環(huán)節(jié)發(fā)揮作用。

姚順雨還談到自己在騰訊做哪些事情論文。他表示,騰訊還是一個To C基因更強的公司。所以會思考如何讓今天的大模型或者說AI的發(fā)展能夠給用戶提供更多價值。但同時我們也不斷發(fā)現(xiàn),很多瓶頸可能在To C端不是缺更大的模型、更強的強化學習或更強的獎勵模型,很多時候需要的可能是額外的上下文和環(huán)境。

“比如說我想問‘我今天該去吃什么’論文。其實你今天問ChatGPT 和你去年問、或者明天問,這個事情可能體驗都會很差。因為想要變好,不是說你需要更大的模型、更強的預訓練,這個問題的瓶頸可能是你需要更多額外的輸入,或者說上下文。比如說如果它知道‘啊今天我其實特別冷,我需要吃點暖和的’,反而會給用戶帶來很多額外的價值?!币樣昱e了這樣一個例子。

To B方面,姚順雨說騰訊目前會思考先服務好自己論文?!皠?chuàng)業(yè)公司做Coding和大公司做Coding(編程)的一個區(qū)別是,大公司本身已經有很多應用場景、各種各樣需要生產力變得更好的地方。如果我們模型能夠在這些地方做得更好,不僅模型會有自己獨特的優(yōu)勢,更關鍵一點是,對于真實世界的更多樣化的場景數(shù)據(jù)的捕捉,會是一個很有意思的事情?!?/p>

唐杰則認為,智譜是第一個做出來Chat產品的企業(yè),但這一仗從DeepSeek出來之后就結束了論文。在DeepSeek出來后,智譜押注的下一個方向是Coding。

誰將成為下一代范式的推手論文?

過去十年,OpenAI先后推動了兩個重要范式:一是以預訓練為核心的通用模型范式,二是以對齊、推理和強化學習為代表的能力增強范式論文。下一代范式會是什么?誰將成為下一代范式的推手?

姚順雨認為,新范式的瓶頸不是方法論,而是數(shù)據(jù)或者說任務論文。但同時他認為,自主學習是新范式的前提。“我覺得這個事情已經在發(fā)生了,可能更像是一個漸變,而不像一個突變。比如現(xiàn)在ChatGPT利用用戶數(shù)據(jù)擬合聊天風格,使它的感覺越來越好,今天Claude Code已經寫了95%的代碼,在幫它自己變得更好”。

姚順雨認為,下一代范式最大的瓶頸可能是想象力論文。談到下一代范式創(chuàng)新將會由哪個公司引領,姚順雨依然認為是OpenAI的概率更大。

林俊旸也認為,下一代范式可能會落到自主學習上論文。另外他還補充,AI更強的主動性或許也是下一個范式?!斑@意味著,環(huán)境可能就是輸入信號。比如說我現(xiàn)在這個AI,必須得有人類去給它提示詞才能夠啟動它。那有沒有可能環(huán)境就能提示它?它自己能自主思考,去做一些事情?!钡挚D也表達了自己對模型擁有更強主動性的同時引發(fā)安全問題的擔心。

如果自主學習真的會在2026年顯露出成為下一代范式的信號,具體會在哪些任務上最先出現(xiàn)?林俊旸認為,在理解用戶這件事情比如個性化上會更快出現(xiàn)論文。但問題在于,在信息推薦時代,個性化做得越好用戶就會點擊得更多、買得也更多。在AI時代個性化的衡量指標是什么?

唐杰認為,Scaling這樣的規(guī)模定律仍然是有效的,只要繼續(xù)擴大算力、數(shù)據(jù)與參數(shù)規(guī)模,模型能力依然會提升論文。但現(xiàn)在真正的瓶頸已經不在于有沒有卡,而在于收益的效率是否值得?!耙环矫嫖覀冃枰猄caling Up,就像我剛才說的‘反正最笨的辦法就是Scaling’,因為Scaling我們肯定有收益,這是一個工程做法。但我們也應該定一個(標準)叫‘智能的效率’,即用多少的投入能獲得智能的增量。”

楊植麟在演講階段也提到了Token效率問題論文。他提到從2019年至今,大模型始終遵循同一條基本邏輯:即通過Scaling Law將更多算力、數(shù)據(jù)和參數(shù)轉化為更低的消耗、更高的智能水平。但這一邏輯的前提是Token可以被無限消耗。

但現(xiàn)實并非如此,當預訓練Token被吃完,模型能達到的智能上限也到了,這意味著,問題不再只是“用多少Token”,而是每一個Token能換來多少有效智能論文。

正因如此,過去一年,月之暗面幾乎將所有核心工作都壓在token效率上,即用更少的Token,做到更低的消耗論文。在K2模型中,他們嘗試引入新的優(yōu)化器與架構設計,通過提升Token效率,使模型在“用一半數(shù)據(jù)達到相同效果”的意義上,獲得等價于一次Scaling的收益。

智能體2026年如何發(fā)展論文?

拾象科技創(chuàng)始人李廣密觀察到,最近大家對于2026年還有一個很大的預期,即Agent現(xiàn)在可以在后臺比如推理3~5個小時,做人類1~2天的工作量,2026年是否有希望做人類正常工作一周到兩周的工作量論文。如果一個Agent可以自動化人一天或者一周的工作流,2026年真有可能是Agent“創(chuàng)造經濟價值”的關鍵一年。

姚順雨認為,生產力的Agent才剛剛開始論文。現(xiàn)在可能除了模型之外有兩個瓶頸,一是部署的問題。他提到,即使今天模型不再變好、所有的模型訓練全部停止,但如果把這些模型部署到世界上各種各樣的公司,它可能還是能帶來今天的10倍或者100倍的收益,或者說可能對GDP產生5%~10%的影響。但今天,模型的影響還遠遠不到1%。

另外在環(huán)境上,姚順雨認為人和人的差距在拉大,會使用AI工具的人在替代那些不會使用的人論文。他認為現(xiàn)在中國能做的一個最有意義的事情是更好的教育,教大家怎么更好地去使用像Claude Code或者ChatGPT這樣的產品。

林俊旸認為,接下來因為自我進化和主動學習Agent可以做到更厲害論文?!艾F(xiàn)在Agent其實已經開始越來越變得‘托管式”’,而不是說我要不斷來來回回交互的形式。從這個角度上來說,它對模型的要求其實是很高的,模型就是Agent,Agent就是這個產品本身。如果它們都是一體化的話,那么今天做基礎模型本身其實也就是在做這個產品。如果不斷提升模型能力的上限,包括Test-time Scaling能做上去的話,確實能夠做到這個事情?!?/p>

另外林俊旸也提到,他認為Agent與環(huán)境也強相關論文。“有沒有可能我們未來AI 環(huán)境能復雜到可能是真實人類世界的環(huán)境,指揮機器人去做實驗,去加快效率?如果能達到這一個點,可能才是我想象當中 Agent 能夠做人類很長時間的活,而不是說僅僅是在電腦中寫個文件。我覺得接下來三年到五年的時間,可能這個事情會更有意思。這個又要跟具身智能結合在一起。”

唐杰則認為,未來有幾個因素會決定Agent走勢論文。一是Agent能解決的事情價值有多大,而是解決這件事情要花多少成本。三是做應用的速度有多快。“如果你說我有個時間窗,我能夠拉開半年的時間窗,迅速把應用滿足了,半年以后,要么迭代,要么怎么著,反正能往前走。說白了大模型時代到現(xiàn)在,更多的是在拼速度、拼時間?!?/p>

中美AI路徑差異

在唐杰、姚順雨、林俊旸等人的討論中論文,一個反復被討論的話題是:中美大模型之間的演進路徑有何差異,這一差異的背后原因是什么?

姚順雨認為,關鍵點其實在于中國的算力瓶頸能不能突破、包括光刻機和軟件生態(tài)等產能能不能突破論文。另外一個問題是,除了To C能不能有更成熟或者更好的To B市場,或者有沒有機會在國際的商業(yè)環(huán)境去競爭?!敖裉煳覀兛吹胶芏嘧錾a力或者做To B的模型,還是會誕生在美國,因為支付意愿更強,To B的文化更好。中國國內做這個事情很難,所以大家都會選擇出?;蛘咦鰢H化?!?/p>

姚順雨說自己觀察到,中美之間的差異在于,在中國大家還是更喜歡做確定性的事情,“比如今天預訓練已經被證明可以做出來了論文。這事情其實也非常難做,有很多技術問題要解決。但是只要一旦被證明能做出來,我們都很有信心幾個月或者一段時間內就把這個東西搞清楚。但是如果今天要讓一個人去探索一個比如長期記憶或者持續(xù)學習,大家不知道怎么做,能不能做起來。那這個我覺得還是比較困難?!?/p>

另外他還觀察到,在中國大家對于刷榜或者數(shù)字會看得更重一些論文。但像海外Anthropic、國內DeepSeek這樣的企業(yè),可能沒有那么關注榜單的數(shù)字,會更注重什么是正確的、體驗感到底好不好。

林俊旸提到,目前美國的算力可能整體比中國大1~2個數(shù)量級,但不管是OpenAI還是 Anthropic大量的算力其實都是投入到下一代的研究當中去論文。但國內今天相對來說捉襟見肘,光交付可能就已經占據(jù)了絕大部分的算力,這會是一個比較大的差異。

另外一個需要思考的點是,從軟硬結合的角度,是不是真的有可能端到端地做出來論文?!拔姨貏e記得在2021年的時候,當時我們在做大模型。阿里做了芯片,來找我說:能不能預測一下三年之后這個模型是不是Transformer架構?三年之后模型是不是多模態(tài)?為什么是三年呢?他說我們需要三年的時間才能流片。我當時回答是:三年之后,我在不在阿里巴巴,我都不知道。但最后我今天還在阿里巴巴,然后他果然還是Transformer,還是多模態(tài),我就非常懊悔為什么當時沒有催他去做?!?/p>

另外,林俊旸也提到了冒險精神論文。他表示,在冒險精神上,中國可能還需要改變的是教育,現(xiàn)在團隊里面有很多00后,大家的冒險精神也是在增強的。

采寫論文:南都N視頻記者 林文琪

本站內容來自用戶投稿,如果侵犯了您的權利,請與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://www.cqlhyz.com/post/5073.html

?? /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩