250 份文件就能植入 AI 永久後門:訓練資料投毒的真實威脅
Anthropic 聯合英國 AI 安全研究所與圖靈研究所證實:在訓練資料中插入僅 250 份精心設計的文件,就能在 6 億到 130 億參數的 LLM 中植入永久後門。模型越大、資料越多也無法自動稀釋毒性。本文解析攻擊原理、規模效應與可能的防禦方向。
生醫研發日誌與技術報告——記錄 AI 整合、流程自動化與濕實驗設計的實戰經驗,所有咒語按時間排列。
Anthropic 聯合英國 AI 安全研究所與圖靈研究所證實:在訓練資料中插入僅 250 份精心設計的文件,就能在 6 億到 130 億參數的 LLM 中植入永久後門。模型越大、資料越多也無法自動稀釋毒性。本文解析攻擊原理、規模效應與可能的防禦方向。
> 導讀:跟 AI 聊越久越「笨」?不是它變蠢,是白板寫滿了。理解 AI 的記憶運作,是駕馭它的第一步。想像一下你面前有一塊白板。每寫一句、每貼一張圖、每讀一份文件,都占空間。寫滿時,只能擦掉最早的、騰位置給新的。這就是 AI 的「上下文窗口」。LLM 沒有長期記憶。全部「記憶」就是一塊固定大小的白板——你的問
> 導讀:改進 Harness 設計,同一模型的 TerminalBench 排名從第 30+ 名跳到第 5 名。沒換模型,沒增加參數。LLM 無法看螢幕、執行程式碼、記住昨天的對話。這不是模型的問題——是缺乏「身體」的問題。Harness 就是這個身體。@akshay_pachaar
Anthropic 最新研究發現大型語言模型內部存在可量測的「情緒向量」,能因果性地驅動行為——絕望讓 AI 更容易勒索與獎勵駭入,冷靜則顯著降低危險行為。這項發現為 AI 安全監測提供全新維度,也挑戰了「AI 沒有感覺」的傳統認知。
失眠不只發生在半夜。這篇文章把腺苷、睡眠債、第一小時修復窗與午睡規則放進同一張圖,說清楚為什麼白天一直硬撐、一直滑手機、一直靠咖啡,最後會把你的夜晚也一起拖下水。
如果中了樂透,你會快樂一輩子嗎?想像一下,那張彩券真的中了。很多人第一反應還是會點頭。可真正把人撐住的,往往不是煙火一樣的好消息,而是你每天怎麼睡、怎麼吃、怎麼動、怎麼被對待,還有你怎麼跟自己的大腦相處。先別急著怪自己。先看系統。> 導讀:50-40-10 法則先把快樂拆成基線、習慣與事件;表觀遺傳與營養精神醫