AI 評測

AI 產業動態
LMArena 募資 1 億美元:從柏克萊地下室到 AI 評測標準制定者
LMArena 從柏克萊大學的學術專案,蛻變為募資 1 億美元的 AI 評測霸主。本文完整解析其商業化歷程、排行榜爭議、NanoBanana 現象,以及為何「評測即權力」正在重塑 AI 產業格局。

AI 技術前沿
AI 基準測試革命——為什麼通用評測無法告訴你 AI 能不能用在你的業務
當 OpenAI 發布新模型,我們會看到各種基準測試分數:編程能力提升 20%、數學推理進步 15%。但這些數字對企業導入 AI 的意義有限。前麥肯錫 QuantumBlack Labs 主管 …

AI 產業動態
Ilya Sutskever:為什麼 AI 模型在測驗上很強,實際使用卻讓人抓狂?
AI 模型在各種評測上表現驚人,但實際經濟影響卻遠遠落後。Ilya Sutskever 提出兩個解釋:RL 訓練讓模型過度專精,以及研究者不自覺地追著 eval 跑。這解釋了為什麼你的 AI 助手有時 …