最適合誰

經常需要把學術論文轉成投影片的研究人員。如果你的日常工作包含讀一篇論文（自己的或別人的），提煉核心貢獻、方法論和實驗結果，然後做成答辯、組會或研討會投影片，這個工具能自動化中間的苦工。對重度 LaTeX 使用者特別有用，可以直接上傳 .zip/.tar.gz 原始碼壓縮包。注意，這不是通用文件轉簡報工具。如果你需要處理 DOCX 提案書或 Markdown 大綱，請看 PPT Master。

我實際怎麼用

上傳一篇論文的 PDF 或 LaTeX 原始碼壓縮包。管線分階段執行。首先 PyMuPDF 或 pylatexenc 解析文件，提取段落、圖表、表格和方程式。接著是 4-Pass 深度閱讀：Pass 1 分析研究背景與核心貢獻，Pass 2 規劃簡報的敘事結構，Pass 3 生成投影片結構化 Markdown（每頁用 --- 分隔並附帶頁面類型標記），Pass 4 品質審查與精煉。

Strategist 角色拿到這份 Manuscript，產出設計規格：配色方案、字型堆疊、版面合約、頁面節奏。Executor 逐頁生成 SVG，Static Critic 用 XML 規則在毫秒內做品質檢查（文字溢出、元素重疊、低對比度），可選的 Visual Critic 把 SVG 渲染成圖片再用 VLM 審查。所有頁面通過品質關卡後，SVG 轉換為可下載的 .pptx。

前端是 React 19 + Konva 畫布編輯器，可以即時預覽、調整個別元素、要求特定頁面重新生成、匯出最終檔案。每次迭代自動儲存版本快照。

一個關鍵細節：論文圖表透過 [[FIG:id]] Token 合約在整條管線中傳遞。解析器給每張圖標記穩定 ID，Manuscript 保留這些 Token，Executor 解析時對應到實際圖片路徑和正確的長寬比。LLM 永遠不需要猜圖片在哪裡。

真正強的地方

學術論文專用的 4-Pass 深度閱讀能忠實提取論文結構（貢獻、方法、實驗、相關工作），比通用摘要工具準確得多
[[FIG:id]] Token 合約消除圖表幻覺。每個圖表引用都追溯到實際提取的圖片，帶已知尺寸
雙層品質關卡：Static Critic 免費即時抓結構違規，Visual Critic（resvg 渲染加上 VLM）抓規則無法表達的視覺問題。分層設計把低級錯誤在免費階段就過濾掉，有效控制 API 成本
混合式 Icon RAG 結合 Gemini Embedding 2 語義搜尋和詞彙精確匹配提升（最高 +0.24）。解決純向量搜尋把視覺無關的圖標排在名稱精確匹配之前的問題
可選的外部研究增強，透過 arXiv、Semantic Scholar 和網頁搜尋注入相關文獻脈絡
支援 LaTeX 原始碼壓縮包（.zip/.tar.gz）直接上傳，多數競品只接受 PDF
多模型支援：OpenAI、Anthropic、Gemini、DeepSeek，加上任何 OpenAI 相容端點
Prompt 工程品質極高。Executor 的 Prompt（10KB）包含 CJK 文字換行字元數表、三區域佈局公式、基於 aspect ratio 的圖表排列規則

失敗模式與不該用的情境

模型 ID 全是佔位符。registry.py 裡的 GPT-5.5、Claude Opus 4.6、Gemini 3.1 Pro Preview 都不是真實模型。使用前必須手動改成實際可用的模型 ID。這代表工具尚未真正交付給使用者
Icon RAG 強制需要 Gemini API Key，不管你生成用的是哪家 LLM 提供商。如果只有 OpenAI 的 Key，圖標匹配功能用不了
沒有 Docker 部署配置。必須在本地同時設定 Python（uv）和 Node（npm）環境
CORS 完全開放（allow_origins=["*"]）。本地開發沒問題，放上網路就是安全漏洞
所有狀態基於檔案系統。沒有資料庫，沒有多使用者隔離
前端零測試。後端 25 個測試檔案覆蓋扎實，但 React 前端完全沒有測試
實際上只有序列生成。程式碼裡有 chapter_parallel 和 page_parallel 模式的框架，但預設且唯一有文件記載的是序列模式。20 頁投影片代表 20+ 次 LLM 呼叫加上 Critic 修復，可能需要 5-30 分鐘
SVG Executor 是單一個 107KB 的檔案。不容易瀏覽、擴展或除錯

價格、上手門檻與風險

免費，MIT 授權。真正的成本是 LLM API Token 消耗，如果要用圖標匹配還需要額外一組 Gemini API Key。Token 消耗預期與 PPT Master 相當（整份簡報約 100K+ token），因為 4-Pass 閱讀在生成之前就有大量開銷。配置門檻中等，uv sync 和 npm install 能處理大部分相依套件，但 LaTeX 輸入可能需要 pandoc 和 pdflatex，Visual Critic 需要 resvg-py。隱私風險低，除了 LLM API 呼叫之外一切都在本地執行。

穩定性風險值得注意。單一作者（CRui5in），模型 ID 是佔位符，沒有 release tag，沒有 Docker。這是一個早期研究性質的專案，不是生產工具。架構設計紮實，但要有讀原始碼和自己修改的心理準備。

結論

架構設計出色，實際使用尚未成熟。三角色多智能體設計、4-Pass 深度閱讀、圖表 Token 合約、雙層 Critic 是在學術論文轉簡報這個問題上真正有新意的做法。Prompt 工程是開源 AI 工具裡少見的高品質。但佔位符模型 ID、缺失的部署基礎建設和前端零測試讓它穩穩落在「追蹤觀察」的區間。等它穩定下來再考慮正式採用。如果現在就需要把論文做成投影片，PPT Master 更成熟。如果只要快速草稿，baoyu-slide-deck 更快。

來源

GitHub: https://github.com/CRui5in/paper-ppt-agent

paper-ppt-agent

最適合誰

我實際怎麼用

真正強的地方

失敗模式與不該用的情境

價格、上手門檻與風險

結論

來源