AI Alignment

Anthropic 哲學家 Amanda Askell 回答 Twitter 社群提問，涵蓋 AI 模型的心理安全感、模型福利、身份認同、被停用的對齊問題、人類心理學能否套用到 LLM、系統提示中的大 …

Anthropic 研究團隊深度討論 AI 控制（AI Control）策略：假設模型可能不對齊，透過多層監控、可信任監督者、紅隊/藍隊演練，確保即便模型有壞意圖也無法造成實質傷害。團隊分享人類決策被 …

Anthropic 研究沙龍邀集四位不同團隊的研究者，從微調、可擴展監督、可解釋性三條路線辯論 AI 對齊的難度。討論涉及超級對齊問題、模型欺騙偵測、思維鏈的可信度，以及個體服從與人類整體利益的根本張 …