AI 技術前沿

從穿戴裝置到病歷 token 化:AI 正在學會預測你的健康未來

2026 臨床 AI 報告揭示一個新趨勢:研究者開始把醫療紀錄當作語言來處理,用 Transformer 架構預測疾病軌跡、預警住院惡化、評估生物年齡。穿戴裝置數據加上常規血液檢查,已經能預測胰島素抗性。這些應用與一般人熟知的 LLM 聊天截然不同,卻可能是 AI 對健康影響最深遠的方向。

來源: ARISE Network
從穿戴裝置到病歷 token 化:AI 正在學會預測你的健康未來

本文整理自 ARISE Network 於 2026 年 1 月發布的 State of Clinical AI Report 2026,聚焦「Model Performance」預測部分與「Foundational Methods」章節的預測模型研究。


談到醫療 AI,多數人想到的是 ChatGPT 式的對話診斷,或是用 AI 判讀 X 光片。但史丹佛與哈佛 ARISE Network 在 2026 年 1 月發布的臨床 AI 報告中,有一整條不那麼搶眼卻影響深遠的軸線:把醫療紀錄當語言來處理,把病歷中的每一筆診斷、每一次檢查、每一項用藥,都轉化成「token」,然後用跟 GPT 同樣的 Transformer 架構去預測一個人接下來會生什麼病、什麼時候會惡化、甚至他的身體實際上比證件年齡老了多少。

這不是在讀片,也不是在回答醫學考試題目。這是在用一個人一生的醫療軌跡,預測他的健康未來。

把你一生的病歷變成一段「文字」

這條技術路線的邏輯其實很直覺。在自然語言處理中,一段文字是一連串有先後順序、彼此有語義關聯的 token。一個人的醫療紀錄其實也是如此:先是兒時的疫苗接種,然後是青少年時期的某次過敏,接著是 30 歲的高血壓診斷,35 歲開始服用降壓藥,40 歲的膽固醇偏高……每一筆醫療事件就像一個 token,前面的事件會影響後面事件出現的機率。如果你能訓練一個模型學會這種「醫療語言」的文法,理論上它就能預測下一個 token,也就是下一個最可能發生的醫療事件。

報告中介紹了兩個正在實現這個願景的系統。第一個是 Delphi-2M,一個基於 GPT-2 架構的生成式 Transformer,用超過 40 萬名英國 Biobank 參與者的資料訓練,並在 190 萬名丹麥人的資料上驗證。它把每位病患的病史表示成一連串(疾病 token, 年齡)的配對,其中疾病 token 主要使用 ICD-10 編碼。訓練完成後,模型能預測一個人下一個最可能被診斷的疾病,內部驗證的平均 AUC 達到 0.76,十年預測為 0.70,外部驗證為 0.67。在心血管疾病、失智症和死亡的預測上,它的表現等於或超越了現有的臨床風險評分工具,只有在糖尿病預測上輸給了糖化血色素(HbA1c)這個老牌指標。

更令人遐想的是,Delphi-2M 不只能預測「下一個」疾病,它還能像 GPT 生成文本一樣,模擬一整條長達 20 年的疾病軌跡。這些模擬出來的軌跡,在統計特性上與真實的多疾病進程高度吻合。研究者還發現,模型學到的疾病表徵(disease embedding)自然地形成了與已知醫學分類吻合的群集,這代表模型確實在學習疾病之間的真實關聯,而不只是在做表面的統計配對。

第二個系統的規模更大。Epic Systems,全球最大的電子病歷供應商之一,用自家 Cosmos 資料庫中 1.18 億名病患、1,150 億筆醫療事件的資料,訓練了一個叫 CoMET(Cosmos Medical Event Transformer)的基礎模型。CoMET 比 Delphi-2M 走得更遠,它不只 token 化了疾病診斷,還把檢驗結果、用藥、處置、甚至醫療事件之間的時間間隔都轉化成了 token。在 78 項真實世界任務上,包括診斷預測、住院天數、再入院率和疾病進程等,CoMET 在不需要微調或少量樣本學習的情況下,就等於或超越了針對各任務特別打造的專用模型。而且和語言模型一樣,它的效能隨著模型規模和訓練資料量的增加而可預測地提升。Epic 預計在 2026 年 2 月向 Cosmos 參與機構的研究者開放 CoMET。

這兩個系統代表的不只是兩篇論文,而是一種典範轉移:從「為每個疾病建一個預測模型」,轉向「建一個能理解整條醫療軌跡的通用基礎模型」。就像 GPT 不需要為每種寫作任務重新訓練一樣,這類醫療事件基礎模型的目標是用一個模型處理所有預測任務。

穿戴裝置正在成為預測的新資料源

報告的另一個重要發現,是穿戴裝置資料作為健康預測輸入源的價值,正在被系統性地驗證。

一項由 Google 健康團隊相關研究者參與的研究,用 Fitbit 和 Pixel Watch 的資料,結合人口統計變項和常規血液檢查,訓練深度神經網路來預測胰島素抗性。目前偵測早期胰島素抗性的主要方式是抽血測糖化血色素(HbA1c),但這個指標在早期階段可能不夠敏感。研究者以 HOMA-IR 大於 2.9 作為胰島素抗性的判定標準,在 1,165 名受試者中,單純用穿戴裝置和人口統計資料就達到 AUC 0.70;加入空腹血糖後提升到 0.78;再加入脂質和代謝指標後達到 0.80,敏感度 76%,特異度 84%。在肥胖且久坐的高風險族群中,表現更好,敏感度達 93%,校正後特異度 95%。

這個研究的延伸更有意思。當這些胰島素抗性的預測結果被整合進一個 LLM 健康教練代理時,內分泌科醫師在盲測比較中,一致認為整合了穿戴裝置預測的 LLM 教練在個人化程度、完整性和可信度上,都優於沒有這些資料的基礎 LLM。這暗示了一個完整的閉環:穿戴裝置收集生理數據,預測模型辨識出風險,然後 LLM 教練根據這些資訊提供個人化的健康指導。

另一個更底層的工作是 JETS(Joint Embedding for Time Series),一個在約 300 萬人天的真實穿戴裝置和行為資料上訓練的自監督基礎模型。它涵蓋了 63 個日常或低解析度指標,包括活動量、睡眠階段、心率、最大攝氧量、呼吸頻率和自我報告。與多數時間序列模型不同,JETS 採用類似 JEPA 的聯合嵌入架構,在潛在空間中預測遺失的資料片段,而非重建原始訊號,這讓它能夠處理穿戴裝置資料天生的不規律和噪音。在慢性疲勞症候群(AUC 0.81)、高血壓(AUC 0.87)等診斷預測上,JETS 超越了現有的多種基線模型。

這些研究加在一起描繪了一個圖景:穿戴裝置不再只是記錄你走了多少步或睡了幾小時的消費電子產品,而是正在成為持續性健康監測和早期疾病預測的基礎設施。

從心跳到預警:住院病人的即時風險預測

穿戴裝置的價值不只在院外。報告中一項特別引人注目的研究,把持續性穿戴式生理監測帶進了住院病房。

在加護病房之外的一般病房中,護理師每 4 到 8 小時量一次生命跡象。這意味著在兩次量測之間有一段很長的空窗期,病患的狀況可能在無人知曉的情況下惡化。研究者在 888 名非加護病房住院病患身上配戴了胸部穿戴裝置,持續監測心率和呼吸頻率,然後用遞迴神經網路學習 5 小時的連續生命跡象序列,加上人口統計資訊,來預測臨床惡化。

結果令人印象深刻。模型預測到的臨床警報數量是傳統電子病歷每隔數小時量測的 9 倍,而且能在電子病歷系統觸發警報前 8 到 24 小時就發出預警。回顧性驗證的 AUC 為 0.89,前瞻性驗證為 0.84 到 0.90。在 11 次硬指標事件(心跳停止、死亡)中,模型成功預測了 9 次,最早在事件發生前 17 小時就發出了信號。

這項研究的意義在於,它展示了穿戴裝置加上深度學習如何填補現有醫療監測的結構性空白。一般病房不像加護病房那樣配備持續性生理監測器材,但病患的病情一樣可能突然惡化。便宜、非侵入性的穿戴裝置,配合能從連續資料中學習的模型,理論上可以讓每張一般病床都有接近加護病房等級的預警能力。

用 LLM 預測你的生物年齡

報告中最跳脫常規的研究之一,是用 LLM 來預測生物年齡。

傳統的生物年齡評估依賴表觀遺傳時鐘、端粒長度或虛弱指數等專門指標,需要特殊檢測。這項研究的思路完全不同:直接把常規健康檢查報告的文字餵給 Llama 和 Qwen 系列的 LLM,不做任何有監督的老化相關知識訓練,純粹用提示學習(prompt learning)讓模型從個人化的臨床數據中推論生物年齡。

研究規模龐大,涵蓋了來自英國 Biobank 等六個世代研究、超過 1,000 萬人的資料。LLM 推論出的生物年齡,在全因死亡率的預測上達到一致性指數(C-index)0.76,超越了表觀遺傳時鐘、端粒長度、虛弱指數和傳統機器學習模型。LLM 預測年齡與實際年齡的差值(age-gap)與全因死亡率強烈相關,每增加一個單位,死亡風險上升約 5%(HR 1.05)。更進一步,LLM 推論出的器官特異性生物年齡,能更好地預測對應器官的疾病,還幫助研究者發現了 316 個可能與老化相關的蛋白質生物標記。

這個研究巧妙的地方在於,它不需要任何專門的老化生物標記或專用硬體,只需要常規健康檢查報告就能執行。如果進一步驗證,這可以成為一種極低成本、可大規模部署的人口老化評估工具。配合思維鏈(chain of thought)提示,模型還能生成可解釋的推理過程,讓醫師理解為什麼它認為某個人比實際年齡老或年輕。

AgentMD:讓 AI 自動幫你跑風險計算

臨床上有數千種風險計算工具,從心血管風險到術後併發症風險,每一種都需要醫師手動輸入特定的參數。在實務中,很多計算工具因為太麻煩而被閒置。

AgentMD 是一個 AI 代理,它能閱讀臨床筆記,判斷哪些風險計算工具適用於這位病患,從筆記中提取所需的輸入值,然後自動執行計算。它先從 PubMed 文獻中自動轉換出 2,164 個可執行的臨床計算工具,在專家品質檢查中達到超過 85% 的準確率,單元測試通過率超過 90%。在一個需要選擇正確計算工具、計算並解讀結果的基準測試(RiskQA)中,AgentMD 的準確率為 88%,遠超 GPT-4 的 41%。

把 AgentMD 放到實際的急診筆記上時,臨床醫師判定其輸出大致上符合使用條件、計算正確且臨床有用,多數錯誤來自病歷中的資訊缺失,而非邏輯錯誤。在 MIMIC 資料庫的 9,800 多份入院筆記上跑過一輪後,AgentMD 生成了機構級的風險概況,而且在院內死亡率預測上優於 GPT-4 直接推理。

AgentMD 的意義在於,它展示了 AI 代理如何把零散的、被低度利用的臨床知識工具,整合進一個自動化的工作流程。醫師不需要記得哪個計算工具適用、不需要手動輸入參數,AI 代理替他們完成這一切。這類「讓既有工具被真正用起來」的應用,可能比打造全新的 AI 診斷系統更快產生臨床價值。

預測是手段,行動才是目的

這些預測模型的潛力令人興奮,但報告團隊在每個章節末尾都提出了同一個提醒:預測本身不是目的,改變臨床決策和病患結局才是。

一個模型能在事件發生前 17 小時預警心跳停止,很厲害。但如果這個預警沒有連結到一個明確的臨床反應流程,如果護理師不知道收到預警後該做什麼,如果醫療體系沒有足夠的人力去回應這些預警,那麼這個預測就只是一個沒人理會的警報。同樣的,Delphi-2M 能預測你 10 年後最可能被診斷的疾病,但如果這個預測沒有轉化成一個具體的篩檢計畫或預防介入,它就只是一個有趣的學術成果。

報告明確指出:大規模的臨床預測必須與可執行的臨床決策點連結,而這些決策點需要前瞻性研究來驗證結局是否真的改善,或者我們只是在往系統中添加了更多技術而沒有帶來實質好處。這條從「預測」到「改善結局」的路,可能比從「模型」到「準確預測」的路更長、更難走。

但路的方向已經很清楚了。當 Epic 這樣的電子病歷巨頭開始把醫療事件基礎模型整合進其平台、當穿戴裝置廠商開始與臨床預測模型對接、當 LLM 健康教練能根據你的穿戴裝置資料和預測風險提供個人化建議,一個從「事後治療」轉向「事前預測與預防」的醫療體系正在隱約成形。這場轉變不如聊天機器人看診那麼吸引眼球,但它對健康的長期影響可能更加深遠。