Scalable Oversight

Anthropic 研究沙龍邀集四位不同團隊的研究者，從微調、可擴展監督、可解釋性三條路線辯論 AI 對齊的難度。討論涉及超級對齊問題、模型欺騙偵測、思維鏈的可信度，以及個體服從與人類整體利益的根本張 …