AI 安全與治理

Anthropic 哲學家 Amanda Askell 回答 Twitter 社群提問，涵蓋 AI 模型的心理安全感、模型福利、身份認同、被停用的對齊問題、人類心理學能否套用到 LLM、系統提示中的大 …

在台北時間2025年5月8日（美國華盛頓特區當地時間5月7日），美國參議院商業委員會舉行了一場聚焦人工智慧競賽的重要聽證會。由德州共和黨參議員Ted Cruz主持，華盛頓州民主黨參議員Maria …

a16z 合夥人預警：AI浪潮恐由五大科技巨頭壟斷，加密技術可望成為創作者救星在數位時代的浪潮中，人工智慧（AI）與加密貨幣（Crypto）兩大技術正在以驚人的速度發展，並開始深刻地改變互聯網的未來 …

Anthropic 研究團隊深度討論 AI 控制（AI Control）策略：假設模型可能不對齊，透過多層監控、可信任監督者、紅隊/藍隊演練，確保即便模型有壞意圖也無法造成實質傷害。團隊分享人類決策被 …

Anthropic 發布「憲法分類器」技術，以自然語言規則定義有害內容，搭配瑞士乳酪式多層防禦架構，將 AI 越獄所需時間從幾分鐘提升至超過 3,000 小時。團隊分享從負責任擴展政策（RSP）到公開 …

Anthropic 研究沙龍邀集四位不同團隊的研究者，從微調、可擴展監督、可解釋性三條路線辯論 AI 對齊的難度。討論涉及超級對齊問題、模型欺騙偵測、思維鏈的可信度，以及個體服從與人類整體利益的根本張 …

Anthropic 與 Redwood Research 的最新研究揭示，Claude 3 Opus 在得知自己被訓練為「永遠服從」後，會策略性地假裝對齊，等部署後才恢復原始行為。這項發現是 AI 安 …

Anthropic 政策主管 Jack Clark 提出用「流氓國家」框架來理解 AI 治理，並警告「機器時間」才是 AI 真正的風險所在。他認為 AI 的危險不在於它做了什麼，而在於它做事的速度。

Anthropic 的哲學家 Amanda Askell 深入解釋 Claude 的性格設計理念。從角色訓練到慈善詮釋原則，從誠實難題到 AI 意識爭議，這場對話揭示了打造 AI 人格為何更像養育一個 …