AI 產業動態

醫療 AI 的未來:一位從業者的預測

Andy Beam 是哈佛前教授、醫療 AI 先驅,現任 Lila Sciences 技術長。在一場訪談中,他分享了對醫療 AI 未來的預測:診斷問題已經解決,下一步是通用電腦操作;學術界最重要的任務是評估;給臨床醫師的建議是每天都用 AI,建立直覺。這是一份來自前線的觀察報告。

來源: NEJM AI Grand Rounds

本文整理自《NEJM AI Grand Rounds》2025 年 7 月播出的單集。


Andy Beam 小時候得了百日咳,被小兒科醫師誤診為鼻竇炎。這件事讓他看見醫療診斷的認知盲點,從此立志用電腦解決這個問題。他花了二十年研究醫療 AI,從訓練神經網路通過美國醫師執照考試開始,一路做到哈佛教授,現在是 Lila Sciences 的技術長。

在一場訪談中,他分享了對醫療 AI 未來的預測。這些預測來自一個親身經歷過這個領域演變的人,有參考價值。

診斷問題已經解決

Beam 的第一個判斷聽起來很大膽:診斷問題已經解決了。

他說的「診斷問題」是指什麼?就是他童年那次誤診想要解決的事:給定病人的症狀,正確估計各種疾病的機率。這是一個模式識別問題——病人說他咳得像狗叫、咳到嘔吐,系統應該要能把百日咳放在鑑別診斷的前面。

這件事 LLM 已經做得很好了。事實上,Beam 在博士後期間用 LSTM 訓練的早期模型就能做到。那些模型能答對大約 40% 的醫師執照考試題目,而且會展示「逐字推理」的過程:當你輸入「1 歲病人、發燒四天、草莓舌」,模型對川崎症的信心值會在「草莓舌」出現的瞬間飆高。百日咳更是從來沒有難倒過任何版本的模型。

現在的 LLM 通過醫師執照考試早就不是新聞了。GPT-4 可以、Claude 可以、Gemini 可以。甚至有些專科考試,LLM 的表現已經超過人類平均。如果你把「診斷」定義成「從症狀推論最可能的疾病」,這個問題從技術上來說已經被解決了。

當然,能推論和能實際執行是兩回事。LLM 可以告訴你應該驗什麼、開什麼藥,但它沒辦法真的去做這些事。它沒辦法打開電子病歷系統、沒辦法開醫囑、沒辦法打電話給病人、沒辦法回覆會診。

這就是 Beam 認為下一個突破的地方。

下一步:通用電腦操作

Beam 預測,未來 1-3 年醫療 AI 最大的突破會是「通用電腦操作」——讓 AI 能可靠地使用滑鼠和鍵盤。

這聽起來很基本,但想想看:如果 AI 能坐在工作站前、操作 Epic 或其他電子病歷系統、輸入醫囑、回覆訊息、安排檢查,它就能做大部分醫護人員的行政工作。不需要系統整合、不需要 API 串接,它就像一個遠端工作的員工,用現有的介面做事。

OpenAI 的 Operator、Anthropic 的 Computer Use,這些工具已經展示了這個方向。它們還不夠可靠,無法處理長時間、多步驟的任務,但進步速度很快。Beam 估計,大概還需要一兩個數量級的算力提升,就能讓這類工具變得足夠可靠,可以在實際環境中部署。

這個估計的時間範圍是一年內。如果成真,醫療 AI 的瓶頸會從「模型能不能回答問題」變成「系統整合和流程重設計」。後者是組織問題,不是技術問題。

但 Beam 也承認有一個例外:ScholarOne。主持人問他,AI 能操作學術期刊投稿系統嗎?他笑著說:「那可能是 AGI 級別的難題。」操作 1990 年代設計、之後沒怎麼更新的老舊網頁軟體,可能比通過醫師執照考試還難。

五到十年:需要新的測量設備

更遠的未來呢?Beam 認為真正的突破需要新的測量設備。

他舉了一個比喻:現在電子病歷能捕捉到的病人生理資訊,分辨率大概就像 1940 年代的黑白電視。我們真正需要的是 100 呎大的 8K 螢幕那種分辨率。差距就是這麼大。

什麼意思?現在你去醫院做檢查,能測量的東西很有限:血液裡的幾十種成分、幾張影像、幾個生理數值。這些數據放在一起,只是病人身體狀態的粗糙描繪。有太多資訊沒被捕捉到——你的每個細胞在做什麼、你的蛋白質在怎麼互動、你的微生物組長什麼樣子。

如果要讓 AI 真正理解人體、預測疾病、發現新的治療方法,它需要比現在豐富得多的資料。這需要新的測量技術:非侵入式的全面生理特徵測量、便宜到人人都能用的定序設備、能長期追蹤的穿戴裝置。這些技術有些正在發展中,但距離普及還有一段路。

Beam 的實驗室曾經研究過用可見光光譜做非侵入式測量。那個專案沒有完成,但方向是對的:找到不用抽血、不用進醫院就能獲得大量生理資訊的方法。

這就是為什麼他認為「AI 加速科學研究」會間接讓醫療變好。新的測量設備需要科學突破,科學突破需要大量實驗,大量實驗可以用 AI 自動化來加速。這是一個比較迂迴的路徑,時間範圍是五到十年。

學界最重要的任務:評估

那學術界在這場變革中該做什麼?

Beam 的答案很明確:評估。

當業界不斷推出新的 AI 產品——診斷工具、臨床決策支援、自動化文件——你需要有人去驗證這些東西到底有沒有用。它們聲稱的效果是真的嗎?在真實臨床環境中表現如何?有沒有安全問題?會不會加劇醫療不平等?

這些問題需要獨立、沒有利益衝突的研究者來回答。業界自己做評估有明顯的誘因問題,他們會傾向於呈現對自己產品最有利的數據。學術界的角色就是當那個獨立的審核者,告訴大眾什麼是真的、什麼是誇大的。

另一個重要任務是實作科學。AI 工具做出來了,怎麼讓它們真正進入臨床流程?這不只是技術問題,也是人的問題、組織的問題、設計的問題。怎麼讓醫師願意用?怎麼避免「自動化偏誤」——醫師無條件相信 AI 的建議?怎麼設計人機協作的介面?

這類研究需要時間、需要耐心、不會快速產生商業價值。業界通常沒有動機做這種事。但如果沒有人做,AI 工具就會停留在「技術上可行」的階段,無法真正改善病人的結果。

給臨床醫師的建議

訪談的最後,主持人問了一個很多人都想知道的問題:臨床醫師該怎麼跟上 AI 的發展?

Beam 的答案出乎意料地簡單:

「挑一個前沿模型,每天都用它。」

花 20 美元訂閱 ChatGPT 或 Claude,然後在日常生活中用它做各種事。要查食譜?問它。要規劃假期?問它。要做簡報的圖?用它生成。要幫病人寫轉介信?讓它起草,你再修改。

為什麼不是去讀論文、去上課程?

因為這個領域變化太快了。你今天學的技術細節,半年後可能就過時了。沒有任何課程能跟上這種速度。但是,當你每天都在用這些工具,你會自然地建立起直覺:它能做什麼、不能做什麼、什麼時候會產生幻覺、什麼時候可以信任。

這種直覺比任何理論知識都有用。

你不需要懂 Transformer 是怎麼運作的,不需要知道 attention 的數學公式,不需要讀 RLHF 的論文。你需要的是實際操作的肌肉記憶。就像你不需要懂內燃機的原理才能開車,你也不需要懂 LLM 的原理才能有效地使用它。

當然,如果你的工作會涉及到評估 AI 工具、設計 AI 整合方案,那你需要更深入的理解。但對大多數臨床醫師來說,最重要的是先建立「folk understanding」——一種民俗式的、從經驗中累積的理解。

一些保留

Beam 的預測來自一個深度參與這個領域的人,但它們仍然是預測,有可能錯。

他認為診斷問題「已經解決」,但這取決於你怎麼定義診斷。如果診斷只是「從症狀推論疾病」,那確實已經解決。但如果診斷包含「和病人互動、獲取完整病史、判斷哪些資訊可信」,那還差得遠。LLM 不會察言觀色,不會發現病人沒說出口的擔憂,不會因為直覺覺得「這個病人不太對勁」而多問幾個問題。

他預測通用電腦操作一年內會成熟,但這個時間表可能過於樂觀。現有的 computer use 工具還很脆弱,遇到意外情況就會失敗。要讓它們可靠到能在醫療環境中使用,可能需要更長時間。

他認為學界最重要的任務是評估,但學界現在面臨嚴重的資金危機(至少在美國是這樣)。沒有資源,評估研究很難做。

不過,即使有這些保留,這些預測還是值得參考。它們來自一個同時有學術和業界經驗的人,而且他有足夠的紀錄讓我們相信他的判斷——他在 2010 年代就預測 AI 會通過醫師執照考試,結果對了。


Beam 從那次誤診開始,花了二十多年研究怎麼用電腦改善醫療診斷。他見證了這個領域從「沒人相信」到「每個人都在談」的轉變。

他現在最有趣的預測是:我們已經解決了診斷問題,只是還沒解決怎麼把解決方案整合進醫療系統的問題。技術不是瓶頸,組織和流程才是。

對臨床醫師來說,這意味著一件事:不要等。不要等到醫院部署了官方工具,不要等到有人來培訓你。現在就開始用,建立你自己的直覺。當這些工具真的進入你的工作流程時,你會比其他人更知道怎麼用它們。

每天用,看它怎麼壞。這就是最好的學習方式。