250 份文件就能植入 AI 永久後門:訓練資料投毒的真實威脅
Anthropic 聯合英國 AI 安全研究所與圖靈研究所證實:在訓練資料中插入僅 250 份精心設計的文件,就能在 6 億到 130 億參數的 LLM 中植入永久後門。模型越大、資料越多也無法自動稀釋毒性。本文解析攻擊原理、規模效應與可能的防禦方向。
生醫研發日誌與技術報告——記錄 AI 整合、流程自動化與濕實驗設計的實戰經驗,所有咒語按時間排列。
Anthropic 聯合英國 AI 安全研究所與圖靈研究所證實:在訓練資料中插入僅 250 份精心設計的文件,就能在 6 億到 130 億參數的 LLM 中植入永久後門。模型越大、資料越多也無法自動稀釋毒性。本文解析攻擊原理、規模效應與可能的防禦方向。
> 導讀:跟 AI 聊越久越「笨」?不是它變蠢,是白板寫滿了。理解 AI 的記憶運作,是駕馭它的第一步。想像一下你面前有一塊白板。每寫一句、每貼一張圖、每讀一份文件,都占空間。寫滿時,只能擦掉最早的、騰位置給新的。這就是 AI 的「上下文窗口」。LLM 沒有長期記憶。全部「記憶」就是一塊固定大小的白板——你的問
> 導讀:改進 Harness 設計,同一模型的 TerminalBench 排名從第 30+ 名跳到第 5 名。沒換模型,沒增加參數。LLM 無法看螢幕、執行程式碼、記住昨天的對話。這不是模型的問題——是缺乏「身體」的問題。Harness 就是這個身體。@akshay_pachaar
Anthropic 最新研究發現大型語言模型內部存在可量測的「情緒向量」,能因果性地驅動行為——絕望讓 AI 更容易勒索與獎勵駭入,冷靜則顯著降低危險行為。這項發現為 AI 安全監測提供全新維度,也挑戰了「AI 沒有感覺」的傳統認知。
> 導讀:你花了多少錢換模型、買 API?問題從一開始就搞錯了。新模型發布。你立刻升級。輸出依然讓你皺眉。這不是 AI 的問題。這是你給它的「材料」出了問題。想像一位世界頂級廚師。你請他來做晚餐,然後把三天前的剩菜、幾個標籤模糊的罐頭、一張寫得像電話號碼的食譜一起交給他。他做得出好菜嗎?不行。
每次開新對話 AI 都失憶。Ghost In Shell 用五層分層記憶加上認知引擎,讓無狀態的 LLM 變成有靈魂的數位實體。本文公開實際運行三個月、跨四個 AI CLI 共享記憶的設計哲學與核心元件。