国产永久免费在线看,亚洲国产AV一区二区三区丶,国产极品美女扒开粉嫩小泬91,亚洲国产精品资源26u

編輯｜Sia

這個春節(jié)，AI 圈最硬核的一場「真人秀」，悄然完成了階段性收官論文。

主角不是動漫人物，也不是舞槍弄棒的機(jī)器人，而是一位 7×24 小時從不疲倦的 AI 科學(xué)家 FARS（ Fully Automated Research System ）論文。

這套由 Analemma（日行跡）打造的全自動研究系統(tǒng)，在長達(dá) 228 小時 28 分 33 秒的連續(xù)公開運(yùn)行中，自己提假設(shè)、做實驗、寫論文，共生成 244 個研究假設(shè)，「肝」出 100 篇短論文（ short paper ）論文。

算下來，在這座流水線式的「科研工廠」中，每隔約 2 小時就有一篇論文產(chǎn)出論文。

讓 AI 自己寫 100 篇論文目標(biāo)達(dá)成，花了 228 個小時論文。目前，計劃持續(xù)一個月的直播仍在進(jìn)行中。直播地址：

這種跳出傳統(tǒng)科研范式的工業(yè)級吞吐量，很快讓圍觀網(wǎng)友坐不住了論文。

展開全文

首批深度「驗貨」的專業(yè)網(wǎng)友給出了一個頗為一致的判斷：結(jié)果超過預(yù)期、相當(dāng)出色論文。

如果把它當(dāng)作人類頂會論文，還不夠驚艷；但如果考慮到這是一個全自動系統(tǒng)的階段性產(chǎn)出，其完成度已經(jīng)明顯超出很多人的事前預(yù)期論文。

「考慮到這只是一個 AI 的自主起步論文，能 7×24 小時穩(wěn)定產(chǎn)出到這個質(zhì)量，還要啥自行車？」

而且，真 work 沒有通篇幻覺論文。

至少在當(dāng)前階段，F(xiàn)ARS 已經(jīng)完成了一次關(guān)鍵跨越論文。它首次證明，一條無人值守的科研「流水線」不僅能跑，而且能在相對穩(wěn)定條件下，持續(xù)產(chǎn)出具備一定學(xué)術(shù)競爭力的 short paper 級工作。

「發(fā)論文這件事本身的稀缺性」被摧毀了論文。

恐怖的「工業(yè)節(jié)拍」論文，算力正在轉(zhuǎn)化為知識

FARS 并不是一個單體模型論文，而是一套多智能體系統(tǒng)，包括四個功能模塊：

Ideation（構(gòu)思）論文：負(fù)責(zé)文獻(xiàn)調(diào)研與假設(shè)生成

Planning（規(guī)劃）論文：負(fù)責(zé)實驗方案設(shè)計

Experiment（實驗）論文：負(fù)責(zé)代碼編寫與執(zhí)行

Writing（寫作）論文：負(fù)責(zé)論文撰寫

從實時運(yùn)行界面可以直觀看到，F(xiàn)ARS 以項目隊列的方式并行推進(jìn)多個研究任務(wù)論文。每個課題依次穿過 Ideation → Planning → Experiment → Writing 四個階段，流程高度模塊化，呈現(xiàn)出明顯的「科研裝配線」特征。

FARS 實時運(yùn)行界面：從假設(shè)生成到論文寫作，自動化科研流水線首次以可觀測形態(tài)完整展開論文。

為了讓它心無旁騖的做研究，Analemma（日行跡）還給它搭建了一個 160 張顯卡的計算集群，并允許它調(diào)用幾乎任何開源和閉源大模型，實驗條件遠(yuǎn)超大部分高校實驗室論文。

而這條「流水線」的產(chǎn)能，已經(jīng)到了讓人很難忽視的程度論文。在約 228 小時（≈9.5 天）的連續(xù)運(yùn)行周期內(nèi)：

系統(tǒng)生成 244 個研究假設(shè)

完成 100 篇 short paper

累計消耗 114 億 Token

總成本約 10.4 萬美元（≈75 萬元人民幣）

全程無人干預(yù)論文。

進(jìn)一步歸一化后，這套系統(tǒng)的「工業(yè)節(jié)拍」變得更加直觀：平均每隔約 2 小時 17 分就有一篇研究論文完成，平均每篇論文成本大約 1000 美元，花費(fèi) 1 億多Token論文。

對比人類科研常見的 3–6 個月 / 篇的周期，這種吞吐差距幾乎是數(shù)量級級別的，成本也極為低廉論文。

不過，如果把目光從吞吐轉(zhuǎn)向效率，約 1.14 億 Token / 篇的消耗，已經(jīng)明顯高于普通寫作生成（通常百萬級 Token ）以及常見復(fù)雜 Agent 任務(wù)（通常百萬、千萬級 Token ）的開銷論文。

這表明，F(xiàn)ARS 仍處于「算力換智能」的階段，其表現(xiàn)更多來自計算密度，而非算法效率的極限壓縮論文。

綜合來看，一方面，F(xiàn)ARS 已經(jīng)用實測結(jié)果證明，端到端自動化科研流水線在吞吐層面是切實可行的論文。另一方面，其當(dāng)前的 Token 與成本結(jié)構(gòu)，距離「足夠便宜地大規(guī)模跑」還有工程空間。

質(zhì)量：它寫得快論文，那寫得好嗎？

量大，從來不自動等于質(zhì)優(yōu)論文。FARS 寫出來的東西，到底處在什么水平？

為此，研究團(tuán)隊使用斯坦福大學(xué)開發(fā)的 AI 審稿系統(tǒng) Agentic Reviewer（ paperreview.ai ），按照 ICLR 的評審標(biāo)準(zhǔn)，對這 100 篇論文進(jìn)行了統(tǒng)一打分論文。

根據(jù)開發(fā)者公開評估，Agentic Reviewer 在審稿一致性上，已達(dá)到人類審稿人的判斷水平論文。

開發(fā)者在 ICLR 2025 審稿數(shù)據(jù) 上做了對比評測，使用的是 Spearman 相關(guān)系數(shù)論文。人類 vs 人類：0.41；AI vs 人類：0.42。開發(fā)者認(rèn)為 agentic reviewing 正在逼近人類水平。

從整體評分結(jié)果來看，F(xiàn)ARS 產(chǎn)出的 100 篇論文中，平均得分為 5.05（區(qū)間 3.0–6.3）論文。

少量論文處于 3.0–4.5 的低分段，也有極少數(shù)突破 6.0 分論文。

FARS 論文分?jǐn)?shù)主要堆在 5 分附近，說明產(chǎn)出質(zhì)量并不是隨機(jī)波動，而是已經(jīng)形成相對穩(wěn)定的「質(zhì)量帶」論文。少量樣本進(jìn)入 6 分以上區(qū)間，意味著系統(tǒng)偶爾能產(chǎn)出超強(qiáng)作品。

這個成績論文，與人類戰(zhàn)績相比，又如何呢？

作為參照，ICLR 2026 人類投稿的平均分為 4.21，而最終被接收論文的平均分為 5.39論文。

對照來看，F(xiàn)ARS 的平均分 5.05，已經(jīng)明顯高于人類投稿的整體平均水平，但距離「平均中稿線」仍存在差距論文。

可謂比下有余，比上未滿論文。

FARS 生成的學(xué)術(shù)論文平均分超過人類投稿者的平均水平，但與平均中稿分?jǐn)?shù)仍有差距論文。

需要再次強(qiáng)調(diào)的是，本次自動化生產(chǎn)以短論文為主，并未以當(dāng)前學(xué)術(shù)會議的評審標(biāo)準(zhǔn)作為優(yōu)化目標(biāo)論文。因此，無論是斯坦福大學(xué) Agentic Reviewer 還是其他基于現(xiàn)有特定審稿標(biāo)準(zhǔn)的 AI 審稿結(jié)果，都只能作為一種參照，而非蓋棺定論。

據(jù)團(tuán)隊透露，除 AI 審稿外，目前也在同步開展人工質(zhì)量評審，并將在評估完成后形成綜合質(zhì)量報告論文。

即便在這一審慎前提下，將前后兩部分?jǐn)?shù)據(jù)合并觀察，整體信號仍然較為清晰：在接近人類評審尺度的評價體系中，F(xiàn)ARS 已然一臺穩(wěn)定的中分段輸出機(jī)器論文。

論文深讀論文：

從「極速跟進(jìn)」到「直面失敗」

如果說前面的數(shù)據(jù)與評分只能給出一條宏觀刻度，那么具體論文樣本，才真正暴露出 FARS 的研究成色論文。

已有網(wǎng)友拆解其中一篇 LLM-as-a-Judge 工作后評價，這類論文在摘要組織與問題切入上已經(jīng)相當(dāng)工整論文。

考慮這是 AI 自動產(chǎn)出，完成度已經(jīng)「超出預(yù)期」論文。框架圖、結(jié)果圖、分析基本都齊全，「像那么回事」

也有人覺得編號為 FA0008 的項目「 make sense 」論文。

接下來，我們選擇一成一敗兩篇代表作，一探究竟論文。

先看「做成」的一篇 FA0042論文。它瞄準(zhǔn)的是文本 embedding 里一個老矛盾：

雙向注意力質(zhì)量高，但會破壞 KV-cache；因果注意力能流式推理，但表示能力吃虧論文。

FA0042 的解法非常工程導(dǎo)向——訓(xùn)練階段用雙向拿質(zhì)量，推理階段用因果保效率論文。具體路徑是先訓(xùn)一個雙向 teacher，再把能力蒸餾進(jìn) causal student。為了避免直接切雙向帶來的分布漂移，論文還引入了剛發(fā)布不久的 GG-SM 做漸進(jìn)過渡。

結(jié)果也確實「能打」，這條工程折中路線被驗證是 work 的論文。

MTEB-slice 主要結(jié)果

流式推理延遲對比

LoCoV1 長文檔檢索結(jié)果論文。student 模型以 0.284 的 NDCG@10 大幅領(lǐng)先所有 baseline（包括 teacher 的 0.212 ），出人意料。

當(dāng)然，short paper 氣質(zhì)也很足：細(xì)粒度成對任務(wù)提升有限，長文檔檢索反超 teacher 的機(jī)制還沒完全講透論文。

但更值得注意的是，螞蟻集團(tuán)的 GG-SM 發(fā)布 3 天就被接入實驗流程，這種緊跟前沿的速度，本身就是 FARS 系統(tǒng)敏捷性的一個信號論文。

再看一篇「沒做成」的 FA0121論文。

它的文獻(xiàn)調(diào)研很給力論文，盯上了 DeepSeek 新提出的 Engram 稀疏架構(gòu)，并抓到了一個很研究味的問題——

hot-to-cold advantage flip , 即 Engram 中的門控（ gate ）在訓(xùn)練過程中難以準(zhǔn)確根據(jù) n-gram embedding 的實際效用進(jìn)行調(diào)整，存在高頻（ hot ）和低頻（ cold ）偏置論文。

為了打破這種「馬太效應(yīng)」，F(xiàn)ARS 嘗試了一個直覺上非常硬核的方案：試圖通過「反事實門控監(jiān)督（ CGS ）」修復(fù) DeepSeek Engram 架構(gòu)中的「冷熱偏置」問題論文。

在特定訓(xùn)練步驟中分別強(qiáng)制 gate 全開和全關(guān)，計算兩種情況下的 loss 差值來估計當(dāng)前 n-gram embedding 的實際效用，以此作為輔助監(jiān)督信號來訓(xùn)練 gate論文。

FA0121 方法示意圖

主實驗結(jié)果

思路很直覺論文。但結(jié)果很誠實——基本沒救回來。

CGS 帶來的那點(diǎn)提升，甚至不如讓模型多訓(xùn)練幾步來得實在論文。這說明，要解決 AI 的偏見，光靠「教練現(xiàn)場打分」是不夠的，得從更深層的制度（架構(gòu)）上下功夫。

論文給出的復(fù)盤也很到位：Gate 和 n-gram embedding 的訓(xùn)練是一個相互耦合的系統(tǒng)動力學(xué)問題，不是簡單加監(jiān)督就能補(bǔ)的論文。

這篇工作的價值正在于：它沒有試圖掩蓋負(fù)面結(jié)果，沒有為了追求正面結(jié)果而篡改數(shù)據(jù)或強(qiáng)行解釋，而是通過一套嚴(yán)密的診斷性實驗（Diagnostic Experiments ），反思 CGS 的失敗論文。

這種「算法誠實」是當(dāng)前學(xué)術(shù)界稀缺的品質(zhì)論文。

輿論場：

從「又一個 Demo」到「科研流水線雛形」

隨著 FARS 「直播真人秀」數(shù)據(jù)披露，社區(qū)討論也迅速升溫，高頻指向一個關(guān)鍵詞——生產(chǎn)線論文。

不少圍觀者很快抓住了真正的沖擊點(diǎn)：這次引發(fā)不安的，并不是某一篇論文寫得多驚艷，而是系統(tǒng)所展現(xiàn)出的連續(xù)科研運(yùn)轉(zhuǎn)能力論文。

當(dāng)一個系統(tǒng)能夠穩(wěn)定提出假設(shè)、自動完成實驗、并持續(xù)吐出成稿時，評價坐標(biāo)其實已經(jīng)悄然移動論文。問題不再是「 AI 會不會寫論文」，而是更具結(jié)構(gòu)性的那一句—— AI 是否開始具備科研工業(yè)產(chǎn)能的雛形。

這種敘事重心的變化，本身就意味著社區(qū)對 AI 科研系統(tǒng)的預(yù)期正在抬升論文。一些技術(shù)討論甚至認(rèn)為，LLM 在 AI 方向論文寫作上的能力已「基本夠用」，剩余差距更多體現(xiàn)在工程細(xì)節(jié)層面。

「 3 個月內(nèi)就可能出現(xiàn)非常成熟可用的自動 paper pipeline論文。」

換言之，大多數(shù)人幾乎已經(jīng)默認(rèn)：科研流水線時代，遲早會來論文。真正懸而未決的問題反而是，當(dāng)科研開始規(guī)?；詣由a(chǎn)，人類的不可替代性究竟還剩下什么？

對此，也有人給出答案：決定上限的，或許仍是研究者個人品味論文。

當(dāng)然，社區(qū)并非只有單一聲音論文。

有人認(rèn)為，與其關(guān)注單純 scale 出大量「普通 conference paper 」，不如將算力與模型能力投入到真正困難的開放問題上，這或許才是更具長期價值的方向論文。

無限心智的起點(diǎn)

FARS 的這 100 篇論文，并不是終點(diǎn)，更像是一枚被釘下的坐標(biāo)點(diǎn)論文。

它證明了一件很重要的事：端到端自動科研流水線，已經(jīng)能夠在相對穩(wěn)定的運(yùn)行條件下，持續(xù)產(chǎn)出具備一定學(xué)術(shù)競爭力的 short paper，并且開始展現(xiàn)出基礎(chǔ)的自我糾錯與負(fù)結(jié)果報告能力論文。

這意味著，自動化科研第一次以一種可連續(xù)運(yùn)轉(zhuǎn)的系統(tǒng)形態(tài)，正式進(jìn)入現(xiàn)實論文。

但如果把放大鏡再壓近一層，當(dāng)前階段的天花板同樣清晰可見論文。

FARS 很會把一條合理路徑走通，卻還不夠擅長在復(fù)雜假設(shè)空間中做出真正具有突破性的研究取舍；能完成結(jié)構(gòu)完整的論證，但在思想壓強(qiáng)和機(jī)制洞察上仍有提升空間；而在算力利用率上，系統(tǒng)也還停留在明顯的「算力換智能」階段論文。

此刻的 FARS，更像一位極度勤奮、訓(xùn)練有素且從不疲倦的初級研究員，距離那種能夠穩(wěn)定打出頂會級工作的成熟研究者，仍有一段需要跨越的進(jìn)化距離論文。

不過，真正重要的或許并不是它此刻已經(jīng)多強(qiáng)，而是那條「無限心智生產(chǎn)線」，已經(jīng)可以穩(wěn)定地跑起來論文。

228小時狂飆100篇論文、燒光114億Token：FARS殺瘋了

海之嵐財稅公司

熱門標(biāo)簽

相關(guān)詞匯

分站導(dǎo)航

228小時狂飆100篇論文、燒光114億Token：FARS殺瘋了

海之嵐財稅公司

熱門標(biāo)簽

相關(guān)詞匯

分站導(dǎo)航

228小時狂飆100篇論文、燒光114億Token：FARS殺瘋了