論文配圖一鍵封神!北大谷歌開(kāi)源PaperBanana,5個(gè)Agent全包了

論文配圖一鍵封神!北大谷歌開(kāi)源PaperBanana,5個(gè)Agent全包了

新智元報(bào)道

編輯論文:傾傾

【新智元導(dǎo)讀】科研人的深夜噩夢(mèng),終于有人來(lái)終結(jié)了!剛剛,北大聯(lián)合Google CloudAI發(fā)布PaperBanana,直接把論文配圖變成了全自動(dòng)流水線論文。5個(gè)智能體組團(tuán)干活,生成的架構(gòu)圖對(duì)標(biāo)NeurIPS頂會(huì)標(biāo)準(zhǔn)。以后寫(xiě)論文,你只管敲字,畫(huà)圖這事兒,AI包了。

你有沒(méi)有過(guò)這樣的經(jīng)歷:論文寫(xiě)好了,但架構(gòu)圖卻讓你焦頭爛額論文。

不是配色太土,就是線歪了,要么就是模塊大小不協(xié)調(diào),簡(jiǎn)直比寫(xiě)論文還要難論文。

別擔(dān)心,有這樣焦慮的人不止你一個(gè)!數(shù)據(jù)顯示,科研人員有45%的時(shí)間被浪費(fèi)在了這種低級(jí)的繪圖調(diào)整上論文

但就在今天,科研狗的繪圖之神——PaperBanana出現(xiàn)了論文

論文配圖一鍵封神!北大谷歌開(kāi)源PaperBanana,5個(gè)Agent全包了

5個(gè)智能體

展開(kāi)全文

治好了AI的「視覺(jué)精神病」

無(wú)論是Midjourney還是DALL-E3,在畫(huà)科研圖表時(shí)都像個(gè)人工智障論文

讓GPT-Image-1.5直接讀取論文畫(huà)圖,它的綜合得分只有11.5分(滿分100)論文。

在「忠實(shí)度」這一項(xiàng),甚至只有4.5分論文。

論文配圖一鍵封神!北大谷歌開(kāi)源PaperBanana,5個(gè)Agent全包了

它畫(huà)出來(lái)的圖,看起來(lái)像那么回事,但該連的線連不上,該有的模塊給你瞎編論文。

PaperBanana敏銳地發(fā)現(xiàn),既然單個(gè)模型會(huì)產(chǎn)生幻覺(jué),那我一次性調(diào)用5個(gè)Agent協(xié)同工作,總不能5個(gè)一起產(chǎn)生幻覺(jué)吧論文。

論文配圖一鍵封神!北大谷歌開(kāi)源PaperBanana,5個(gè)Agent全包了

1. Retriever(檢索):RAG的抄作業(yè)美學(xué)

拿到任務(wù)后,Retriever直接發(fā)動(dòng)RAG技能,去頂會(huì)數(shù)據(jù)庫(kù)里打撈10張最相關(guān)的參考圖論文

2. Planner(策劃師)論文:把人話翻譯成「藍(lán)圖」

這是系統(tǒng)的「認(rèn)知核心」論文。

它負(fù)責(zé)死磕論文里最晦澀的Methodology,把那些文字邏輯硬拆解成視覺(jué)藍(lán)圖論文。

搞清楚誰(shuí)連誰(shuí),誰(shuí)包含誰(shuí),絕不讓邏輯拓?fù)鋪y成一鍋粥論文。

3. Stylist(風(fēng)格智能體)論文:拿捏NeurIPS的「高級(jí)感」

為了解決「圖Low」的問(wèn)題,Stylist會(huì)生成一份名為Aesthetic Guideline的最高優(yōu)先級(jí)指令論文。

該指令會(huì)強(qiáng)制把Planner的指令修正為符合頂會(huì)標(biāo)準(zhǔn)論文,想用Excel默認(rèn)藍(lán)?門(mén)都沒(méi)有!

4. Visualizer&Critic(閉環(huán)核心):3輪循環(huán)論文,甲方煉獄

PaperBanana能夠拿到60.2分的關(guān)鍵論文,秘密,全在這倆貨的互撕上:

Visualizer:調(diào)用Nano Banana Pro,渲染圖片論文。

Critic:這是整個(gè)架構(gòu)的靈魂——專(zhuān)業(yè)找茬論文

Visualizer:調(diào)用Nano Banana Pro,渲染圖片論文

Critic:這是整個(gè)架構(gòu)的靈魂——專(zhuān)業(yè)找茬論文。

Critic會(huì)拿著原論文跟圖比對(duì),一旦發(fā)現(xiàn)連線錯(cuò)了、模塊少了,直接生成修正指令,打回去重畫(huà)論文。這個(gè)過(guò)程會(huì)暴力循環(huán)3次。

論文配圖一鍵封神!北大谷歌開(kāi)源PaperBanana,5個(gè)Agent全包了

PaperBanana官方論文中的失敗案例

數(shù)據(jù)顯示,正是這3輪迭代,將圖表的忠實(shí)度從不可用的4.5提升到了45.8,在這一指標(biāo)上直接逼近人類(lèi)水平(50.0)論文。

審美降維打擊

AI總結(jié)的《NeurIPS 2025審美黑話》

在PaperBanana眼里,美感是一堆冷冰冰的參數(shù)論文。

Stylist Agent遍歷了NeurIPS 2025所有論文論文,搞了一次逆向工程,把審稿人潛意識(shí)里的視覺(jué)偏好扒了個(gè)底掉:

論文配圖一鍵封神!北大谷歌開(kāi)源PaperBanana,5個(gè)Agent全包了

人類(lèi)手繪原圖與StyleEnhanced(AI風(fēng)格化后)的對(duì)比

AI發(fā)現(xiàn),2025年的頂流審美是科技莫蘭迪色論文。

高飽和度的紅藍(lán)撞色(如Excel默認(rèn)色),直接被定義為「業(yè)余」論文。

所以,正確方法是:背景要用Cream()或PaleBlue();功能模塊采用中等飽和度配色;高亮色僅限于報(bào)錯(cuò)或最終結(jié)果論文。

論文配圖一鍵封神!北大谷歌開(kāi)源PaperBanana,5個(gè)Agent全包了

審美增強(qiáng)案例論文。上邊是原始的粗糙框圖,下邊是AI根據(jù)Guidelines優(yōu)化后的成品。

還有90%的人都會(huì)忽視的細(xì)節(jié):混排(Font Mixing)論文。

系統(tǒng)標(biāo)簽必須用無(wú)襯線體,顯得現(xiàn)代、干凈;凡是涉及數(shù)學(xué)公式的變量,必須強(qiáng)制切換為L(zhǎng)aTeX風(fēng)格襯線斜體論文。

這種字體的混排,是區(qū)分「草圖」和「出版級(jí)插圖」的關(guān)鍵信號(hào)論文。

PaperBanana甚至懂「圈層文化」

如果你寫(xiě)的是Agent論文論文,Stylist會(huì)主動(dòng)調(diào)用可愛(ài)風(fēng)格的2D機(jī)器人圖標(biāo)或?qū)υ挌馀?,?qiáng)調(diào)「交互感」;

如果是CV/3D論文論文,它會(huì)拒絕卡通元素,強(qiáng)調(diào)視錐、點(diǎn)云和熱力圖,配色偏向RGB通道邏輯;

要是純理論論文,則追求極致極簡(jiǎn)論文。黑白灰為主,只保留一個(gè)高亮色給拓?fù)浣Y(jié)構(gòu)。

統(tǒng)計(jì)圖的「精準(zhǔn)謀殺」

告別Matplotlib難度

為什么之前的AI總是畫(huà)不好統(tǒng)計(jì)圖論文

因?yàn)?,擴(kuò)散模型是右腦思維的藝術(shù)家論文。它懂構(gòu)圖,但它真的不識(shí)數(shù)。

如下圖所示,當(dāng)讓模型直接「畫(huà)」一個(gè)雷達(dá)圖時(shí),它生成了極具設(shè)計(jì)感的陰影和線條論文。但仔細(xì)一看——數(shù)據(jù)點(diǎn)0.4被畫(huà)到了0.8的刻度線上;甚至還憑空捏造了幾個(gè)重復(fù)的圖例標(biāo)簽。

論文配圖一鍵封神!北大谷歌開(kāi)源PaperBanana,5個(gè)Agent全包了

為了解決這個(gè)問(wèn)題,PaperBanana做了一個(gè)天才般的架構(gòu)切換論文。

Visualizer不再生成像素論文,而是直接生成Python Matplotlib代碼

Critic也不再看構(gòu)圖,而是運(yùn)行代碼,檢查報(bào)錯(cuò),比對(duì)數(shù)據(jù)論文

這個(gè)邏輯繞過(guò)了圖像生成的隨機(jī)性,直接利用LLM強(qiáng)大的Coding能力論文

以前為了調(diào)整一個(gè)坐標(biāo)軸的傾斜角度,得去查半小時(shí);現(xiàn)在,PaperBanana在后臺(tái)幾秒鐘內(nèi)自己寫(xiě)代碼、自己Debug、自己運(yùn)行出圖論文

對(duì)比數(shù)據(jù)非常直觀論文

純圖像生成模式:好看,但瞎編論文。

代碼生成模式:精準(zhǔn),且完全可復(fù)現(xiàn)論文。

純圖像生成模式:好看,但瞎編論文

代碼生成模式:精準(zhǔn),且完全可復(fù)現(xiàn)論文。

PaperBanana官方基準(zhǔn)對(duì)比:Code模式(綠色)在忠實(shí)度和簡(jiǎn)潔度碾壓純圖像生成(IMG論文,紅色),逼近人類(lèi)水平

邏輯圖走藝術(shù)路線,數(shù)據(jù)圖走工程路線論文。這才是AI科學(xué)家該有的嚴(yán)謹(jǐn)。

全自動(dòng)發(fā)表的最后一片拼圖

在此之前,Auto Figure等競(jìng)品更多是將內(nèi)容符號(hào)化,或者僅僅是簡(jiǎn)單的圖表堆砌論文

PaperBanana是第一個(gè)真正引入「設(shè)計(jì)思維」的智能體系統(tǒng)論文。

當(dāng)AI開(kāi)始理解「如何用布局引導(dǎo)讀者的視線」,從一個(gè)工具,變成一個(gè)擁有表達(dá)欲的共創(chuàng)者論文。

在PaperBanana Bench的測(cè)試中,AI在簡(jiǎn)潔性上比現(xiàn)有基線模型提升了37.2%論文。

雖然論文的委婉地說(shuō)是為了「民主化」高質(zhì)量繪圖工具,但我們都懂:當(dāng)技術(shù)的門(mén)檻降到0,原來(lái)的溢價(jià)就消失了論文。

北大與Google的野心很大論文。

他們不僅發(fā)了工具,還開(kāi)源了PaperBanana Bench:292個(gè)涵蓋各領(lǐng)域的「地獄級(jí)」測(cè)試用例,擺明了是想做行業(yè)裁判論文

雖然目前的版本生成的還是位圖,但作者也說(shuō)了,下一步就是開(kāi)發(fā)能操作Adobe Illustrator的GUI Agent論文

等那個(gè)版本出來(lái),設(shè)計(jì)師可能真的要關(guān)掉Photoshop去送外賣(mài)了論文。

工具進(jìn)化的終極意義,從來(lái)不是為了讓我們變懶,而是為了讓大腦回歸純粹論文。

未來(lái)能活得滋潤(rùn)的科研人論文,只有兩種:一種是極其硬核、能寫(xiě)出AI無(wú)論如何也理解不了的頂級(jí)算法的大神;

另一種,是懂得指揮千軍萬(wàn)馬的AI Agent,把自己的思想用最完美的視覺(jué)語(yǔ)言鋪陳在審稿人面前的「超級(jí)個(gè)體」論文。

別讓你的思想,死在畫(huà)不出的圖里論文。

參考資料論文

秒追ASI

本站內(nèi)容來(lái)自用戶投稿,如果侵犯了您的權(quán)利,請(qǐng)與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://www.cqlhyz.com/tags-%E8%A7%92%E8%89%B2.html

?? 簡(jiǎn) /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩