AI 評測

LMArena 從柏克萊大學的學術專案，蛻變為募資 1 億美元的 AI 評測霸主。本文完整解析其商業化歷程、排行榜爭議、NanoBanana 現象，以及為何「評測即權力」正在重塑 AI 產業格局。

當 OpenAI 發布新模型，我們會看到各種基準測試分數：編程能力提升 20%、數學推理進步 15%。但這些數字對企業導入 AI 的意義有限。前麥肯錫 QuantumBlack Labs 主管 …

AI 模型在各種評測上表現驚人，但實際經濟影響卻遠遠落後。Ilya Sutskever 提出兩個解釋：RL 訓練讓模型過度專精，以及研究者不自覺地追著 eval 跑。這解釋了為什麼你的 AI 助手有時 …