DeepSeek V4路線圖隱現?梁文鋒署名重磅論文發(fā)布,聚焦大模型條件記憶模塊

繼2024年底發(fā)布一篇新論文后,1月12日晚間,DeepSeek再度發(fā)布重磅研究成果,此次論文聚焦大模型的條件記憶模塊論文。DeepSeek在結論中明確指出,這一模塊將成為下一代稀疏大模型中不可或缺的核心建模原語。結合此前“DeepSeek下一代旗艦模型V4將于春節(jié)前后發(fā)布”的爆料,業(yè)內普遍猜測,近期連續(xù)披露的研究成果或已勾勒出V4模型的核心研究路線圖。

DeepSeek V4路線圖隱現?梁文鋒署名重磅論文發(fā)布,聚焦大模型條件記憶模塊

此次發(fā)布的論文題為《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(《基于條件查找的條件記憶:大型語言模型稀疏性的新維度》),由DeepSeek與北京大學聯合完成,DeepSeek創(chuàng)始人梁文鋒亦位列作者名單論文。論文的核心洞察在于,大模型實際承擔著兩類性質迥異的任務:一類是需深度動態(tài)計算的組合推理任務,另一類是靜態(tài)知識的檢索任務。而現有Transformer架構缺乏原生知識查找機制,只能通過低效計算模擬檢索過程——例如在調用固定知識時,模型仍需耗費算力重復推導,既耗時又占用資源。

為破解這一痛點,DeepSeek團隊提出將條件記憶作為補充的稀疏性維度,并通過名為Engram的條件記憶模塊實現這一構想,以此優(yōu)化神經計算(MoE)與靜態(tài)記憶(Engram)之間的權衡關系論文。團隊還發(fā)現了“U型縮放定律”,該定律表明,在MoE專家與Engram記憶之間進行混合稀疏容量分配,效果顯著優(yōu)于純MoE基準模型。值得關注的是,盡管記憶模塊的設計初衷是提升知識檢索效率,但團隊在通用推理、代碼及數學等領域均觀察到更為顯著的性能提升。

通俗而言,當前MoE模型采用統(tǒng)一機制處理推理與固定知識存儲兩類任務,存在效率低下、算力浪費等問題論文。此次論文的核心價值在于為大模型實現“分工優(yōu)化”:通過專屬模塊各司其職——由“記憶本”式的Engram模塊負責固定知識存儲,推理模塊專注復雜思考,再通過最優(yōu)比例分配資源,最終實現模型效率與性能的雙重提升。DeepSeek在論文中強調,條件記憶將成為下一代稀疏模型的核心建模原語,這也讓行業(yè)進一步猜測,該技術或正是DeepSeek V4模型的核心技術架構。

本站內容來自用戶投稿,如果侵犯了您的權利,請與我們聯系刪除。聯系郵箱:[email protected]

本文鏈接://www.cqlhyz.com/post/4703.html

?? /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩