DeepSeek論文上新!下一代大模型實現(xiàn)“記憶分離”,V4不遠了?

繼去年底發(fā)布一篇新論文后,1月12日晚,DeepSeek又上新了一篇論文,這次聚焦的是大模型的條件記憶模塊,在結(jié)論中DeepSeek 認為,這將成為下一代稀疏大模型中不可或缺的核心建模原語論文。

DeepSeek論文上新!下一代大模型實現(xiàn)“記憶分離”,V4不遠了?

此前有爆料稱DeepSeek下一代大模型V4將在春節(jié)前后發(fā)布,結(jié)合這幾次研究,業(yè)內(nèi)猜測這或許就是DeepSeek V4的研究路線圖論文。

此次發(fā)布的論文是DeepSeek與北京大學(xué)合作完成的,名稱為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(《基于條件查找的條件記憶:大型語言模型稀疏性的新維度》),作者一列同樣有DeepSeek創(chuàng)始人梁文鋒的署名論文。

這篇論文的核心觀察是,大模型包含兩種性質(zhì)完全不同的任務(wù),一種是需要深度動態(tài)計算的組合推理,另一種則是檢索靜態(tài)知識論文。而現(xiàn)有的Transformer架構(gòu)缺乏原生的知識查找機制,只能通過計算低效地模擬檢索過程。例如模型查找不變的知識時,得浪費算力重新推導(dǎo)一遍,既費時間又占資源。

為解決這一問題,DeepSeek團隊引入了條件記憶作為補充的稀疏性維度,并通過Engram這一條件記憶模塊實現(xiàn),優(yōu)化神經(jīng)計算(MoE)與靜態(tài)記憶(Engram)之間的權(quán)衡關(guān)系論文。

團隊還發(fā)現(xiàn)了U型縮放定律,表明 MoE 專家和 Engram 記憶之間的混合稀疏容量分配嚴格優(yōu)于純 MoE 基準模型論文。值得注意的是,盡管記憶模塊直觀上有助于知識檢索,但團隊在通用推理、代碼和數(shù)學(xué)領(lǐng)域觀察到了更為顯著的收益。

簡單來說,現(xiàn)在的MoE 模型處理推理和記固定知識用的是一套方法,效率較低且浪費算力,這篇論文本質(zhì)是給大模型做了 “分工優(yōu)化”:讓專門的模塊干專門的事,例如有“記憶本”管固定知識,而推理模塊管復(fù)雜思考,再按最佳比例分配資源,最終讓模型又快又聰明論文。

DeepSeek在論文最后表明,條件記憶將成為下一代稀疏模型不可或缺的建模原語論文。有行業(yè)人士猜測,此次提出的條件記憶或許就是下一代大模型DeepSeek V4的技術(shù)架構(gòu)。

此前有報道稱,DeepSeek將于2月發(fā)布新一代旗艦?zāi)P虳eepSeek V4,且內(nèi)部初步測試表明,V4在編程能力上超過了市場上的其他頂級模型論文。目前DeepSeek并未對此進行任何回應(yīng)。報道也提及發(fā)布計劃可能會根據(jù)實際情況進行調(diào)整。

本站內(nèi)容來自用戶投稿,如果侵犯了您的權(quán)利,請與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://www.cqlhyz.com/post/4699.html

?? /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩