AI Alignment

AI 安全與治理
AI 該不該有心理治療功能?Anthropic 哲學家回答社群最辣提問
Anthropic 哲學家 Amanda Askell 回答 Twitter 社群提問,涵蓋 AI 模型的心理安全感、模型福利、身份認同、被停用的對齊問題、人類心理學能否套用到 LLM、系統提示中的大 …

AI 安全與治理
即使 AI 不聽話也不能搞破壞:Anthropic 的「AI 控制」策略全解析
Anthropic 研究團隊深度討論 AI 控制(AI Control)策略:假設模型可能不對齊,透過多層監控、可信任監督者、紅隊/藍隊演練,確保即便模型有壞意圖也無法造成實質傷害。團隊分享人類決策被 …

AI 安全與治理
AI 對齊到底有多難?Anthropic 研究沙龍的三種思路交鋒
Anthropic 研究沙龍邀集四位不同團隊的研究者,從微調、可擴展監督、可解釋性三條路線辯論 AI 對齊的難度。討論涉及超級對齊問題、模型欺騙偵測、思維鏈的可信度,以及個體服從與人類整體利益的根本張 …