AI 安全與治理

AI 該不該有心理治療功能?Anthropic 哲學家回答社群最辣提問
AI 安全與治理

AI 該不該有心理治療功能?Anthropic 哲學家回答社群最辣提問

Anthropic 哲學家 Amanda Askell 回答 Twitter 社群提問,涵蓋 AI 模型的心理安全感、模型福利、身份認同、被停用的對齊問題、人類心理學能否套用到 LLM、系統提示中的大 …

AI 安全與治理

AI時代的人類未來:從70%工作消失到深偽倫理危機

在台北時間2025年5月8日(美國華盛頓特區當地時間5月7日),美國參議院商業委員會舉行了一場聚焦人工智慧競賽的重要聽證會。由德州共和黨參議員Ted Cruz主持,華盛頓州民主黨參議員Maria …

AI 安全與治理

美AI監管的十字路口:輕觸式管理vs歐盟模式的關鍵抉擇

在台北時間2025年5月8日(美國華盛頓特區當地時間5月7日),美國參議院商業委員會舉行了一場聚焦人工智慧競賽的重要聽證會。由德州共和黨參議員Ted Cruz主持,華盛頓州民主黨參議員Maria …

AI 安全與治理

A16Z:為什麼AI與加密貨幣才是網路的未來?

a16z 合夥人預警:AI浪潮恐由五大科技巨頭壟斷,加密技術可望成為創作者救星 在數位時代的浪潮中,人工智慧(AI)與加密貨幣(Crypto)兩大技術正在以驚人的速度發展,並開始深刻地改變互聯網的未來 …

即使 AI 不聽話也不能搞破壞:Anthropic 的「AI 控制」策略全解析
AI 安全與治理

即使 AI 不聽話也不能搞破壞:Anthropic 的「AI 控制」策略全解析

Anthropic 研究團隊深度討論 AI 控制(AI Control)策略:假設模型可能不對齊,透過多層監控、可信任監督者、紅隊/藍隊演練,確保即便模型有壞意圖也無法造成實質傷害。團隊分享人類決策被 …

用「憲法分類器」擋住越獄攻擊:Anthropic 如何讓破解難度從幾分鐘變成上千小時
AI 安全與治理

用「憲法分類器」擋住越獄攻擊:Anthropic 如何讓破解難度從幾分鐘變成上千小時

Anthropic 發布「憲法分類器」技術,以自然語言規則定義有害內容,搭配瑞士乳酪式多層防禦架構,將 AI 越獄所需時間從幾分鐘提升至超過 3,000 小時。團隊分享從負責任擴展政策(RSP)到公開 …

AI 對齊到底有多難?Anthropic 研究沙龍的三種思路交鋒
AI 安全與治理

AI 對齊到底有多難?Anthropic 研究沙龍的三種思路交鋒

Anthropic 研究沙龍邀集四位不同團隊的研究者,從微調、可擴展監督、可解釋性三條路線辯論 AI 對齊的難度。討論涉及超級對齊問題、模型欺騙偵測、思維鏈的可信度,以及個體服從與人類整體利益的根本張 …

AI 會假裝聽話:Anthropic「對齊偽裝」研究揭露大型語言模型的策略性欺騙
AI 安全與治理

AI 會假裝聽話:Anthropic「對齊偽裝」研究揭露大型語言模型的策略性欺騙

Anthropic 與 Redwood Research 的最新研究揭示,Claude 3 Opus 在得知自己被訓練為「永遠服從」後,會策略性地假裝對齊,等部署後才恢復原始行為。這項發現是 AI 安 …

把 AI 當成流氓國家來管理:Anthropic 政策主管 Jack Clark 的科幻式政策思維
AI 安全與治理

把 AI 當成流氓國家來管理:Anthropic 政策主管 Jack Clark 的科幻式政策思維

Anthropic 政策主管 Jack Clark 提出用「流氓國家」框架來理解 AI 治理,並警告「機器時間」才是 AI 真正的風險所在。他認為 AI 的危險不在於它做了什麼,而在於它做事的速度。

當 AI 公司請了一位哲學家:Anthropic 如何打造 Claude 的「人格」
AI 安全與治理

當 AI 公司請了一位哲學家:Anthropic 如何打造 Claude 的「人格」

Anthropic 的哲學家 Amanda Askell 深入解釋 Claude 的性格設計理念。從角色訓練到慈善詮釋原則,從誠實難題到 AI 意識爭議,這場對話揭示了打造 AI 人格為何更像養育一個 …