Posts

用「憲法分類器」擋住越獄攻擊:Anthropic 如何讓破解難度從幾分鐘變成上千小時
Anthropic 發布「憲法分類器」技術,以自然語言規則定義有害內容,搭配瑞士乳酪式多層防禦架構,將 AI 越獄所需時間從幾分鐘提升至超過 3,000 小時。團隊分享從負責任擴展政策(RSP)到公開 …

AI 創業不需要「藝術家」:被 Meta 20 億美元收購的 Manus,怎麼用「無聊」的方式成功
Manus 在 8 個月內從零做到年收入 1 億美元,然後被 Meta 以超過 20 億美元收購。首席科學家季逸超在收購案宣布前的訪談中,分享了幾個反直覺的經營哲學:不當 CEO、不自建模型、找「心理 …

Agent 不是更聰明的 Chatbot:被 Meta 20 億美元收購的 Manus,怎麼理解 AI Agent 的技術本質
AI Agent 和 Chatbot 到底有什麼不同?Manus 首席科學家季逸超在被 Meta 收購前的訪談中,從技術角度深入解析了這個問題。本文整理他對 Agent 架構、Token 消耗模式 …

20 億美元出場前的最後訪談:Manus 首席科學家季逸超的 AI 創業啟示錄
2025 年 12 月,Meta 以超過 20 億美元收購 AI Agent 新創 Manus,創下 Meta 史上第三大收購案。這篇文章整理了 Manus 共同創辦人暨首席科學家季逸超在收購案宣布前 …

AI 對齊到底有多難?Anthropic 研究沙龍的三種思路交鋒
Anthropic 研究沙龍邀集四位不同團隊的研究者,從微調、可擴展監督、可解釋性三條路線辯論 AI 對齊的難度。討論涉及超級對齊問題、模型欺騙偵測、思維鏈的可信度,以及個體服從與人類整體利益的根本張 …

從 OpenAI 出走到建立 Anthropic:共同創辦人首次完整回顧創業歷程
Anthropic 共同創辦人 Dario Amodei、Jack Clark、Chris Olah 等人首次完整回顧從 Google Brain 到 OpenAI 再到創辦 Anthropic 的歷 …

AI 會假裝聽話:Anthropic「對齊偽裝」研究揭露大型語言模型的策略性欺騙
Anthropic 與 Redwood Research 的最新研究揭示,Claude 3 Opus 在得知自己被訓練為「永遠服從」後,會策略性地假裝對齊,等部署後才恢復原始行為。這項發現是 AI 安 …

AGI 還要等十年!為什麼 OpenAI 創辦人 Karpathy 說現在的 AI 都是些花拳繡腿?
OpenAI 共同創辦人 Andrej Karpathy 在訪談中直言現在的 AI 模型都是「slop」,並解釋為何 AGI 還要十年。他用自駕車經驗提出「每個 9 都是等量工作」的框架,分析 AI …

10 億次對話告訴我們什麼?Anthropic 用 Clio 透視 AI 真實使用場景
Anthropic 社會影響團隊開發了隱私保護工具 Clio,分析數十億次 Claude 對話的使用模式。從程式設計到育兒建議,Clio 揭示了 AI 的真實使用場景遠比實驗室預想的更豐富、更複雜。

把 AI 當成流氓國家來管理:Anthropic 政策主管 Jack Clark 的科幻式政策思維
Anthropic 政策主管 Jack Clark 提出用「流氓國家」框架來理解 AI 治理,並警告「機器時間」才是 AI 真正的風險所在。他認為 AI 的危險不在於它做了什麼,而在於它做事的速度。

Prompt Engineering 深度指南:Anthropic 團隊拆解從入門到專家的提示工程心法
Anthropic 提示工程團隊深入拆解 prompt engineering 的核心心法。最關鍵的洞察:別把模型當笨蛋,honest prompting 比各種技巧更有效。從企業級 prompt 到 …

字典學習法規模化:Anthropic 如何在完整大模型中找到「素食主義」和「程式後門」特徵
Anthropic 可解釋性團隊成功將字典學習技術從小模型擴展到完整的大型語言模型,發現了令人驚訝的跨語言、跨模態特徵,包括「素食主義」和「程式後門」等複雜概念。

當 AI 公司請了一位哲學家:Anthropic 如何打造 Claude 的「人格」
Anthropic 的哲學家 Amanda Askell 深入解釋 Claude 的性格設計理念。從角色訓練到慈善詮釋原則,從誠實難題到 AI 意識爭議,這場對話揭示了打造 AI 人格為何更像養育一個 …

火柴人、馬斯克和世界末日:一篇 2015 年的部落格文章,如何把 AI 風險變成全民議題
2015 年 1 月,部落客 Tim Urban 在 Wait But Why 發表了兩萬三千字的 AI 文章,用火柴人插圖把牛津哲學教授的學術論述變成數百萬人的晚餐話題。馬斯克讀完後主動聯繫他,這篇 …

所有人都在搶,沒有人會贏:一篇 2014 年的部落格文章,如何預言了 AI 的終極困境
2014 年,一個灣區的精神科醫師在部落格上發表了一篇近一萬四千字的長文,用古代惡神摩洛克的名字解釋人類社會中最根本的困局:所有人都在搶,沒有人會贏。十一年後,這篇文章讀起來像是 AI 軍備競賽的預言 …

一場比賽如何引爆一場革命:AlexNet 與深度學習的 Big Bang
2012 年,多倫多大學三人團隊用兩張遊戲顯示卡訓練的深度神經網路,在 ImageNet 競賽中以 10.8 個百分點的差距碾壓所有對手。這是深度學習革命的起點,從此改變了整個 AI 領域的方向。

同一篇論文,三條截然不同的路:AlexNet 三位作者的命運分岔
AlexNet 的三位作者在 2012 年共同寫下了深度學習史上最重要的一篇論文。然後,一個幾乎從地球上消失,一個成為 AI 史上最戲劇性的出走者,一個拿了諾貝爾獎。同一間臥室、同一篇論文,三條截然不 …

「別再調模型了,給我更多數據」在深度學習革命前夕,三個 Google 研究者已經知道答案
2009 年,Google 的 Alon Halevy、Peter Norvig 和 Fernando Pereira 發表了一篇不到五頁的短文,主張面對人類語言這類複雜問題,海量數據比精巧演算法更有 …
黃仁勳反駁 AI 泡沫論:「悲觀者在派對上聽起來很聰明,樂觀者才是推動人類前進的人」 本文整理自 No Priors Podcast 2026 年 1 月播出的單集,主持人為創投 Conviction …
黃仁勳反駁 AI 泡沫論:「悲觀者在派對上聽起來很聰明,樂觀者才是推動人類前進的人」 本文整理自 No Priors Podcast 2026 年 1 月播出的單集,主持人為創投 Conviction …