paper-ppt-agent
ai-tools
最適合誰
經常需要把學術論文轉成投影片的研究人員。如果你的日常工作包含讀一篇論文(自己的或別人的),提煉核心貢獻、方法論和實驗結果,然後做成答辯、組會或研討會投影片,這個工具能自動化中間的苦工。對重度 LaTeX 使用者特別有用,可以直接上傳 .zip/.tar.gz 原始碼壓縮包。注意,這不是通用文件轉簡報工具。如果你需要處理 DOCX 提案書或 Markdown 大綱,請看 PPT Master。
我實際怎麼用
上傳一篇論文的 PDF 或 LaTeX 原始碼壓縮包。管線分階段執行。首先 PyMuPDF 或 pylatexenc 解析文件,提取段落、圖表、表格和方程式。接著是 4-Pass 深度閱讀:Pass 1 分析研究背景與核心貢獻,Pass 2 規劃簡報的敘事結構,Pass 3 生成投影片結構化 Markdown(每頁用 --- 分隔並附帶頁面類型標記),Pass 4 品質審查與精煉。
Strategist 角色拿到這份 Manuscript,產出設計規格:配色方案、字型堆疊、版面合約、頁面節奏。Executor 逐頁生成 SVG,Static Critic 用 XML 規則在毫秒內做品質檢查(文字溢出、元素重疊、低對比度),可選的 Visual Critic 把 SVG 渲染成圖片再用 VLM 審查。所有頁面通過品質關卡後,SVG 轉換為可下載的 .pptx。
前端是 React 19 + Konva 畫布編輯器,可以即時預覽、調整個別元素、要求特定頁面重新生成、匯出最終檔案。每次迭代自動儲存版本快照。
一個關鍵細節:論文圖表透過 [[FIG:id]] Token 合約在整條管線中傳遞。解析器給每張圖標記穩定 ID,Manuscript 保留這些 Token,Executor 解析時對應到實際圖片路徑和正確的長寬比。LLM 永遠不需要猜圖片在哪裡。
真正強的地方
- 學術論文專用的 4-Pass 深度閱讀能忠實提取論文結構(貢獻、方法、實驗、相關工作),比通用摘要工具準確得多
[[FIG:id]]Token 合約消除圖表幻覺。每個圖表引用都追溯到實際提取的圖片,帶已知尺寸- 雙層品質關卡:Static Critic 免費即時抓結構違規,Visual Critic(resvg 渲染加上 VLM)抓規則無法表達的視覺問題。分層設計把低級錯誤在免費階段就過濾掉,有效控制 API 成本
- 混合式 Icon RAG 結合 Gemini Embedding 2 語義搜尋和詞彙精確匹配提升(最高 +0.24)。解決純向量搜尋把視覺無關的圖標排在名稱精確匹配之前的問題
- 可選的外部研究增強,透過 arXiv、Semantic Scholar 和網頁搜尋注入相關文獻脈絡
- 支援 LaTeX 原始碼壓縮包(.zip/.tar.gz)直接上傳,多數競品只接受 PDF
- 多模型支援:OpenAI、Anthropic、Gemini、DeepSeek,加上任何 OpenAI 相容端點
- Prompt 工程品質極高。Executor 的 Prompt(10KB)包含 CJK 文字換行字元數表、三區域佈局公式、基於 aspect ratio 的圖表排列規則
失敗模式與不該用的情境
- 模型 ID 全是佔位符。registry.py 裡的 GPT-5.5、Claude Opus 4.6、Gemini 3.1 Pro Preview 都不是真實模型。使用前必須手動改成實際可用的模型 ID。這代表工具尚未真正交付給使用者
- Icon RAG 強制需要 Gemini API Key,不管你生成用的是哪家 LLM 提供商。如果只有 OpenAI 的 Key,圖標匹配功能用不了
- 沒有 Docker 部署配置。必須在本地同時設定 Python(uv)和 Node(npm)環境
- CORS 完全開放(
allow_origins=["*"])。本地開發沒問題,放上網路就是安全漏洞 - 所有狀態基於檔案系統。沒有資料庫,沒有多使用者隔離
- 前端零測試。後端 25 個測試檔案覆蓋扎實,但 React 前端完全沒有測試
- 實際上只有序列生成。程式碼裡有 chapter_parallel 和 page_parallel 模式的框架,但預設且唯一有文件記載的是序列模式。20 頁投影片代表 20+ 次 LLM 呼叫加上 Critic 修復,可能需要 5-30 分鐘
- SVG Executor 是單一個 107KB 的檔案。不容易瀏覽、擴展或除錯
價格、上手門檻與風險
免費,MIT 授權。真正的成本是 LLM API Token 消耗,如果要用圖標匹配還需要額外一組 Gemini API Key。Token 消耗預期與 PPT Master 相當(整份簡報約 100K+ token),因為 4-Pass 閱讀在生成之前就有大量開銷。配置門檻中等,uv sync 和 npm install 能處理大部分相依套件,但 LaTeX 輸入可能需要 pandoc 和 pdflatex,Visual Critic 需要 resvg-py。隱私風險低,除了 LLM API 呼叫之外一切都在本地執行。
穩定性風險值得注意。單一作者(CRui5in),模型 ID 是佔位符,沒有 release tag,沒有 Docker。這是一個早期研究性質的專案,不是生產工具。架構設計紮實,但要有讀原始碼和自己修改的心理準備。
結論
架構設計出色,實際使用尚未成熟。三角色多智能體設計、4-Pass 深度閱讀、圖表 Token 合約、雙層 Critic 是在學術論文轉簡報這個問題上真正有新意的做法。Prompt 工程是開源 AI 工具裡少見的高品質。但佔位符模型 ID、缺失的部署基礎建設和前端零測試讓它穩穩落在「追蹤觀察」的區間。等它穩定下來再考慮正式採用。如果現在就需要把論文做成投影片,PPT Master 更成熟。如果只要快速草稿,baoyu-slide-deck 更快。