国产在线一品视频,久久九九国产亚洲,国产精选污视频在线观看,亚洲国产超清无码专区

作者｜冬梅

今天凌晨，喜歡悶聲做大事的 DeepSeek 再次發(fā)布重大技術(shù)成果，在其 GitHub 官方倉庫開源了新論文與模塊 Engram，論文題為 “Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”，梁文鋒再次出現(xiàn)在合著者名單中論文。

DeepSeek 突發(fā)梁文峰署名新論文：V4 新架構(gòu)提前曝光？

與傳統(tǒng)的大模型架構(gòu)相比，該方法提出了一種新的“查—算分離”機制，通過引入可擴展的查找記憶結(jié)構(gòu)，在等參數(shù)、等算力條件下顯著提升模型在知識調(diào)用、推理、代碼、數(shù)學(xué)等任務(wù)上的表現(xiàn)論文。代碼與論文全文均已開源。

論文地址論文：

代碼地址論文：

這種查和算分離的 Engram 新方法的整體架構(gòu)如下圖所示論文：

展開全文

為什么需要 Engram？

那么論文，我們?yōu)槭裁葱枰?Engram ？

目前主流的大語言模型架構(gòu)依然基于 Transformer 和 Mixture-of-Experts（MoE）結(jié)構(gòu)論文。MoE 是目前推進(jìn)參數(shù)規(guī)模和能力擴展的關(guān)鍵技術(shù)之一，通過動態(tài)路由機制，只激活部分參數(shù)以降低計算成本，同時在任務(wù)容量方面實現(xiàn)大規(guī)模擴展。DeepSeek 自家系列模型（如 DeepSeek V2、DeepSeek V3 等）也采用了先進(jìn)的 MoE 方法進(jìn)行擴展訓(xùn)練。

但在這些傳統(tǒng)的 Transformer 架構(gòu)（無論是 Dense 還是 MoE）中論文，模型的參數(shù)實際上承擔(dān)著兩種截然不同的角色：

事實性記憶（Memorization）：存儲海量的知識事實論文。例如，“法國的首都是哪里？”、“世界最高的山脈是哪座”等。這類信息相對死板，更多依賴于“查表”式的檢索。

邏輯推理與計算（Calculation）：負(fù)責(zé)復(fù)雜的邏輯鏈條、多步推理和情境理解論文。例如，“根據(jù)這段代碼的邏輯推導(dǎo)可能的 Bug”、“解析一段復(fù)雜的哲學(xué)論證”。

目前的大語言模型傾向于將這兩者混在一起論文。當(dāng)你試圖讓模型記住更多知識時，你不得不增加參數(shù)量。而在傳統(tǒng)的 Dense 模型中，參數(shù)量增加意味著前向傳播時的計算量（FLOPs）也會同步激增。MoE 架構(gòu)雖然通過稀疏激活解決了“算力隨參數(shù)同步爆炸”的問題，但 DeepSeek 研究發(fā)現(xiàn)，MoE 專家在處理“死記硬背”的任務(wù)時依然不夠高效。

神經(jīng)網(wǎng)絡(luò)本質(zhì)上是連續(xù)的數(shù)學(xué)變換，用高昂的矩陣運算去模擬簡單的“查表檢索”，本身就是一種極大的浪費論文。DeepSeek 的 Engram 正是為了打破這一困境——“該查表的查表，該算的算”。

Engram 的核心思想與架構(gòu)

聚焦到問題本身論文，Engram 方法為什么能解決上述問題？

“Engram”一詞源自神經(jīng)科學(xué)，意為“記憶痕跡”，它是一個可擴展、可查找的記憶模塊，用于語言模型在推理過程中過去可能已經(jīng)見過的模式或片段論文。

Engram 的核心技術(shù)之一是現(xiàn)代化的哈希 N-Gram 嵌入（Modernized Hashed N-gram Embeddings）論文。

傳統(tǒng)方式：模型通過多層自注意力（Self-Attention）和 MLP 層的非線性變換，反復(fù)提取輸入文本中的特征論文。

Engram 方式：它對輸入的 Token 序列進(jìn)行 N-Gram（連續(xù) N 個詞）切片，并利用哈希算法將這些片段映射到一個巨大的、可學(xué)習(xí)的查找表（Lookup Table）中論文。

傳統(tǒng)方式：模型通過多層自注意力（Self-Attention）和 MLP 層的非線性變換，反復(fù)提取輸入文本中的特征論文。

由于采用哈希索引，這種查找是確定性且 O(1) 時間復(fù)雜度的論文。這意味著無論模型存儲了多少萬億個記憶片段，檢索的速度幾乎是恒定的，且算力消耗極低。

O (1) 的含義是：一次查找的耗時是常數(shù)級的，與 N-gram 表的規(guī)模無關(guān)論文。

簡單來說就是 MoE 負(fù)責(zé)：“計算密集”神經(jīng)推理與復(fù)雜組合功能、Engram 負(fù)責(zé)：“記憶查找”固定模式以及模式重建，兩者協(xié)同構(gòu)成一個更高效的整體架構(gòu)論文。

此外，它還具備條件記憶（Conditional Memory）論文。與簡單的靜態(tài)查找表不同，Engram 是“條件化”的。它會根據(jù)當(dāng)前上下文的隱向量（Hidden States）來決定提取哪些記憶。

在架構(gòu)設(shè)計上，Engram 模塊位于 Transformer 層的早期階段論文。它負(fù)責(zé)“模式重構(gòu)（Pattern Reconstruction）”，即在計算層（MoE 或 Dense）開始干活之前，先把相關(guān)的背景事實和歷史模式檢索出來，作為“素材”喂給后續(xù)的邏輯層。

它與 MoE（Mixture of Experts）的關(guān)系是怎樣的論文？

論文特別指出：Engram 提供了一個新的稀疏性軸，與 MoE 的條件計算不同，它通過條件查找提供靜態(tài)記憶容量論文。下面圖表中從目標(biāo)、計算方式、優(yōu)化方向和作用位置四個維度解釋了 Engram 和 MoE 的區(qū)別。

維度

MoE

Engram

目標(biāo)

條件激活神經(jīng)專家

條件觸發(fā)靜態(tài)記憶查找

計算方式

無極 dense 計算 / 激活部分專家

O(1) 查表

優(yōu)化方向

降低活躍神經(jīng)計算量

減少神經(jīng)計算重建已知模式

作用位置

深層推理

早期模式重建 / 記憶檢索

最后論文，DeepSeek 將 Engram 與 MoE 結(jié)合，形成了一個雙系統(tǒng)：

Engram 模塊：負(fù)責(zé)海量知識點的“存儲與快速檢索”論文。

MoE 專家：擺脫了沉重的記憶負(fù)擔(dān)，全身心投入到“邏輯推理與合成”中論文。

Engram 模塊：負(fù)責(zé)海量知識點的“存儲與快速檢索”論文。

MoE 專家：擺脫了沉重的記憶負(fù)擔(dān)，全身心投入到“邏輯推理與合成”中論文。

這種分工極大地優(yōu)化了參數(shù)效率論文。在 27B 的實驗?zāi)Ｐ椭?，Engram 模塊可以占用大量的參數(shù)用于記憶，但在實際推理時，它只消耗極少的計算量（FLOPs）。

網(wǎng)友：V4 將采用這種架構(gòu)

在 Reddit、X 和其他平臺的相關(guān)帖子中，Engram 的技術(shù)核心受到了不少用戶的肯定和技術(shù)肯定論文。眾多網(wǎng)友認(rèn)為這個模塊的特點在于讓模型架構(gòu)處理“記憶模式查找”和“神經(jīng)計算推理”兩塊職責(zé)分離，從而開啟了新的稀疏性方向。

在 Reddit 平臺有用戶評論說論文：

“Engram 嵌入方法很有意思論文。大多數(shù)模型僅通過 MoE 進(jìn)行擴展，但 Engram 增加了靜態(tài)記憶作為補充的稀疏性軸，查找復(fù)雜度為 O(1)。他們發(fā)現(xiàn) MoE 和 Engram 之間存在 U 形縮放規(guī)律，這指導(dǎo)著如何在兩者之間分配容量。分析表明，這減輕了早期層級靜態(tài)模式重建的壓力，從而保留了用于復(fù)雜推理的深度。確定性尋址意味著它們可以將嵌入表卸載到主機內(nèi)存中，而不會增加太多推理開銷?！?/p>

同時論文，有用戶對這種基于 n-gram lookup 的機制表達(dá)了直觀興趣，他評論道：

“即便是在不依賴 GPU 的環(huán)境下也能實現(xiàn)這種 O(1) 查找方式，讓不少開發(fā)者對本地部署這樣的大模型功能有了更實際的期待論文。”

“即便是在不依賴 GPU 的環(huán)境下也能實現(xiàn)這種 O(1) 查找方式，讓不少開發(fā)者對本地部署這樣的大模型功能有了更實際的期待論文?！?/p>

在部分技術(shù)性評論中論文，有人指出：

即從已有技術(shù)邏輯來看，在 LLM 中加入靜態(tài)記憶查找似乎是“順理成章”的發(fā)展方向論文。

這類觀點反映了一個重要觀點：專家群體開始從純參數(shù)擴張思維轉(zhuǎn)向更“智能”的架構(gòu)設(shè)計，包括查表式模塊和神經(jīng)網(wǎng)絡(luò)的協(xié)同論文。

不少高級開發(fā)者在討論中進(jìn)一步提到，這種設(shè)計在理念上類似于對傳統(tǒng) NLP 技術(shù)（如 n-gram embedding）的現(xiàn)代化轉(zhuǎn)換，結(jié)合了高效尋址機制（deterministic addressing）和神經(jīng)推理模塊，這種組合在紙面上看具有較高的可行性和實用性（這一點正是 Engram 的核心貢獻(xiàn)）論文。

另一條社區(qū)評論指出論文，Engram 很可能是 DeepSeek 即將發(fā)布的 V4 模型的核心技術(shù)基礎(chǔ)：

業(yè)內(nèi)觀察者認(rèn)為 Engram 模塊可能會成為 DeepSeek V4 的重要組成部分，并預(yù)示 DeepSeek 下一代模型會在記憶和推理協(xié)同上實現(xiàn)架構(gòu)級提升論文。

在 X 平臺，也有網(wǎng)友表達(dá)了同樣的猜測，認(rèn)為 V4 也將采用這種架構(gòu)論文。

還有網(wǎng)友調(diào)侃論文，原本想抄襲下谷歌的技術(shù)，但現(xiàn)在要抄襲 DeepSeek 了，因為它比谷歌更好！

還有網(wǎng)友表示，其實 Meta 之前也有過類似想法，但用到的技術(shù)不同論文。

參考鏈接：

文章來源:AI前線論文。

DeepSeek 突發(fā)梁文峰署名新論文：V4 新架構(gòu)提前曝光？

海之嵐財稅公司

熱門標(biāo)簽

相關(guān)詞匯

分站導(dǎo)航

DeepSeek 突發(fā)梁文峰署名新論文：V4 新架構(gòu)提前曝光？

海之嵐財稅公司

熱門標(biāo)簽

相關(guān)詞匯

分站導(dǎo)航

DeepSeek 突發(fā)梁文峰署名新論文：V4 新架構(gòu)提前曝光？