25 個工程師服務美國半數醫師——OpenEvidence 的產品心法與 Bottom-up 成長奇蹟
醫療 AI 新創 OpenEvidence 三個月內從 1000 萬次諮詢成長到 1800 萬次,估值一年內從 10 億飆升至 120 億美元。共同創辦人 Zachary Ziegler 分享他們如何用 25 位工程師服務美國 40% 的醫師,以及為什麼「產品真的有用」比任何行銷策略都重要。
本文整理自 Khosla Ventures Builder Forum 的訪談。
醫師離開診間後去了哪裡?
你去看醫生,坐在候診室等了一陣子,終於被叫進診間。護理師或醫師問了你一些問題、量了血壓、做了一些基本檢查,然後說:「請稍等一下。」接著他們離開診間。
這是每個人都經歷過的場景,但你有沒有想過——他們離開後,到底去做什麼?
OpenEvidence 共同創辦人暨技術長佐卡里·齊格勒(Zachary Ziegler)在一場創業論壇上揭開了這個謎底:大多數時候,他們是去查資料。這不是因為醫師不夠專業或偷懶。事實是,全球至今已發表超過四千萬篇醫學論文,每天還有一萬篇新論文問世。一位基層醫師(Primary Care Physician)每年要看大約三千名病患、每天接診二十位病人,而這些病人可能帶來任何你想得到的疾病與症狀。要把所有醫學知識都裝在腦子裡,根本是不可能的任務。
這就是 OpenEvidence 要解決的問題。它是一個為醫師打造的 AI 臨床決策支援系統,讓醫師能在幾秒鐘內取得實證醫學的答案——不是 WebMD 那種「你可能得了癌症」的驚悚資訊,而是根據臨床試驗、醫學指引、系統性回顧所整理出的專業解答。
一家你應該認識的公司
OpenEvidence 由丹尼爾·乃德勒(Daniel Nadler)和齊格勒於 2022 年共同創立。乃德勒並非醫療圈出身,他的前一家公司 Kensho Technologies 是一家金融 AI 公司,2018 年以 5.5 億美元被 S&P Global 收購。賣掉公司後經歷了一段職業倦怠,在新冠疫情期間,乃德勒開始關注醫療領域。他注意到一個諷刺的現象:生物科技正處於「黃金時代」,但臨床醫師卻深陷「資訊過載」的黑暗時代。1950 年,醫學知識的倍增週期是五十年;現在,這個週期已經縮短到五年,每分鐘就有兩篇新論文發表。
齊格勒則是哈佛的機器學習博士生,專攻機率生成模型——這正是大型語言模型背後的數學基礎。在 ChatGPT 出現之前,齊格勒就在思考一個問題:這些很酷的生成模型,除了翻譯之外,還能做什麼真正有用的事?兩人相遇後一拍即合,決定用 AI 來解決醫療資訊過載的問題。
這家公司的成長速度驚人。2025 年 2 月,紅杉資本領投 A 輪,估值 10 億美元。同年 7 月 B 輪估值跳到 35 億;10 月 C 輪 60 億;2026 年 1 月的最新一輪,估值已達 120 億美元。一年之內,估值翻了 12 倍。投資人陣容堪稱夢幻:Google Ventures、紅杉、Kleiner Perkins、Thrive Capital、Coatue、Blackstone、NVIDIA,甚至連梅約診所(Mayo Clinic)也參與其中。
這些數字很嚇人,但更嚇人的是它的使用數據:OpenEvidence 現在每月處理超過 1800 萬次臨床諮詢,服務美國約 40% 的醫師。而且,這一切是由一個 65 人的團隊完成的,其中只有 25 位工程師。
他們做對了什麼?
齊格勒在訪談中反覆強調一個核心概念:專注於真正困難的問題,忽略其他一切。
創業初期有太多「看起來像工作」的事情可以做:募資、招募、找辦公室、建立漂亮的官網、設計完善的身份驗證系統、規劃 go-to-market 策略。這些事情不能說不重要,但它們都不是最核心的問題。最核心的問題是:你的產品能不能真正解決使用者的痛點?
OpenEvidence 團隊的做法是:找一組具有代表性的醫學問題,然後不斷自問——「我們回答這些問題的表現如何?」「這個答案夠不夠 awesome?」如果答案是否定的,就繼續迭代,直到答案變成肯定為止。
他們在這個過程中經歷過一次關鍵的認知升級。最初,OpenEvidence 只使用臨床試驗(clinical trials)作為資料來源。這個選擇很直覺——臨床試驗是最嚴謹的醫學證據等級。但當他們把產品開放給更多醫師使用後,發現有太多問題根本無法回答。原因是:臨床試驗只是醫學文獻的一部分。還有 meta-analysis(統合分析)、還有各大醫學會花費大量心力撰寫的臨床指引(guidelines)。
當他們決定把資料來源從「只有臨床試驗」擴展到「所有醫學文獻」時,產品的能力出現了質的飛躍。醫師可以問的問題範圍一下子變得無限大,不只是「這個藥有沒有效」,還包括「如何寫病患衛教單張」「如何撰寫保險核准函」這類原本沒有預期到的使用場景。
齊格勒用 ChatGPT 來類比這個轉變。ChatGPT 之所以成為現象級產品,不是因為它在某個特定任務上表現最好,而是因為你可以問它任何問題。這種「通用性」是真正的護城河。OpenEvidence 也是如此——當醫師發現他可以把任何臨床問題丟進去,而且能得到有用的回答時,這個工具就變成了不可或缺的存在。
「我以為追蹤程式壞了」的有機成長
OpenEvidence 的成長故事中,有一個齊格勒至今記憶猶新的轉折點。
早期,他們有在 Twitter 上投放廣告,推廣一些用 OpenEvidence 產出的醫學問答內容。他們也在後台設了追蹤碼,用來區分哪些流量來自廣告、哪些是自然流量。有一天,齊格勒在看數據時發現一件奇怪的事:大部分的使用量都沒有追蹤碼,只有極少數來自 Twitter 廣告。
他第一個反應是:追蹤程式壞了。他去檢查程式碼,找不到 bug。他跟共同創辦人乃德勒說:「我覺得追蹤程式有問題。」乃德勒說:「對啊,一定是你寫出來的 bug,去修好它。」
齊格勒又查了一輪,還是找不到問題。最後他意識到:沒有 bug。這些沒有追蹤碼的流量,就是純粹的有機成長。使用者自己找上門來的。
他們決定做一個實驗:關掉 Twitter 廣告。結果,使用量完全沒有下降,而且繼續以每月 20% 左右的速度成長。廣告關了就一直關著,到現在都沒有重新開過。
這個故事的關鍵不在於「不需要做行銷」,而在於它揭示了 OpenEvidence 成長的真正引擎:同儕推薦。住院醫師用了覺得好用,推薦給主治醫師;主治醫師覺得好用,推薦給醫學生。這種 bottom-up 的傳播路徑,比任何 top-down 的企業銷售都更有說服力。
齊格勒在訪談中對比了另一家醫療科技公司的經驗。那家公司採用傳統的 B2B 銷售模式,向醫院的資訊長(CMIO)推銷產品。他們得出的結論是:醫師就是不願意嘗試新工具,他們太忙了、太習慣現有的工作流程了。
但 OpenEvidence 的經驗恰恰相反。醫師的確很忙、的確習慣現有工具,但當有同事告訴他「這東西真的有用」時,他會試試看。當老闆說「你必須用這個」時,他的第一反應是抗拒。這就是 bottom-up 和 top-down 的根本差異。
我的觀察:垂直 AI 的護城河在哪裡?
讀完這個訪談,我一直在想一個問題:在 ChatGPT、Claude、Gemini 這些通用大型語言模型能力越來越強的時代,像 OpenEvidence 這樣的垂直 AI 應用,護城河到底在哪裡?
齊格勒給了一個有趣的答案:他認為基礎模型的能力提升,對他們是利多而非利空。他們把模型視為「引擎」——每當 OpenAI 或 Google 推出更好的模型,他們只要換上新引擎,產品就會「自動」變得更好。真正的差異化在於:對醫療場景的深刻理解、對資料來源的嚴格把關、對使用者工作流程的優化、以及最重要的——使用者的信任。
這個邏輯聽起來很熟悉。它跟 Cursor 在程式開發領域做的事情很像——底層都是呼叫 OpenAI 或 Anthropic 的 API,但 Cursor 對「開發者的工作流程」有更深的理解,所以能在這個垂直場景中創造出遠超過 ChatGPT 的體驗。
不過,我對這個護城河的持久性仍有疑慮。OpenAI 已經推出了 HIPAA 合規版的 ChatGPT Health,Anthropic 也有 Claude Healthcare。當基礎模型公司開始認真經營垂直市場時,純應用層的公司會不會被夾殺?
也許真正的護城河不是技術,而是使用者習慣和信任。OpenEvidence 現在服務美國 40% 的醫師,這些醫師已經把它整合進日常工作流程。要讓他們換到另一個工具,即使那個工具「技術上更好」,也需要跨越一道很高的門檻。這跟當年 UpToDate 成為醫師標配的邏輯是一樣的——一旦成為工作流程的一部分,就很難被取代。
對台灣讀者來說,OpenEvidence 的故事有幾個值得關注的點:第一,它證明了 AI 在醫療場景的應用已經從「展示」階段進入「大規模採用」階段;第二,它的 bottom-up 成長策略,對於任何想進入專業服務市場的創業者都有參考價值;第三,它的估值成長軌跡(一年 12 倍),反映了當前資本市場對 AI 應用層公司的狂熱——這既是機會,也是泡沫的警訊。
醫療 AI 會不會是下一個「所有人都在談,但只有少數人真正做出東西」的領域?還是會出現幾家通吃市場的巨頭?OpenEvidence 的發展,會是一個重要的觀察指標。