醫療 AI 最吸引人的敘事,常常是模型像天才醫師一樣看出人類看不見的答案。但 OpenAI 6 月 18 日公開的這項罕病研究,真正值得注意的地方反而比較克制:模型沒有替病人下診斷,也沒有繞過臨床流程;它做的是把多年未解的基因資料、病徵描述、變異註解與科學文獻重新串起來,提出可以被人類專家追問、反駁、驗證的線索。
這項發表在 NEJM AI 的研究,由 Boston Children’s Hospital 的 Manton Center for Orphan Disease Research、Harvard University 與 OpenAI 研究人員共同完成。團隊使用 OpenAI o3 Deep Research,重新分析 376 個先前已經由專家與既有流程檢視過、但仍未解開的罕見疾病案例。最後,經過專家審查、追加測試與臨床實驗室確認,醫師在 18 個案例中建立診斷,相當於 4.8% 的額外診斷率。
4.8% 乍看不是一個會讓產業簡報發亮的數字。可是放在罕病與基因重分析的場景裡,它有另一種重量。這些不是剛送進系統、還沒被看過的新案;許多案例已經歷商業或院內分析管線、多科團隊討論、長時間追蹤,甚至因為當年醫學知識還沒把某個基因、變異與疾病連起來,而停在「沒有答案」的狀態。對這類家庭來說,一個可確認的診斷不只是病名,它可能影響照護方向、遺傳諮詢、家族風險理解,也讓漫長的診斷旅程終於有一個可以落腳的地方。
OpenAI 的說明特別強調,這套流程的核心不是讓模型直接輸出結論,而是讓它做「解釋優先」的推理層。研究團隊把去識別化的資料包交給模型,內容包括標準化的 Human Phenotype Ontology 病徵、部分臨床紀錄、年齡與性別等背景資訊,以及過濾過的變異表。模型要做的不是只排出一個基因名,而是說明它如何把臨床特徵、遺傳模式、變異證據與文獻連成一個可能的分子解釋。接著,人類研究者再用臨床實驗室熟悉的 ACMG/AMP 框架審查候選結果。

這裡的邊界很重要。研究裡的結果要被算作診斷,必須經過合格專家審查,變異要被歸類為 pathogenic 或 likely pathogenic,還要由 CLIA 認證實驗室確認,最後由臨床團隊把結果回傳給家庭。換句話說,模型比較像是把一疊舊卷宗重新整理成幾條值得追查的路,而不是替醫師蓋章。這種定位比「AI 醫生」的敘事無聊一點,卻更接近醫療 AI 真的可能進入醫院的方式。
研究結果也提醒,罕病重分析本質上是一個維護問題。病人的基因組不會每年重寫,但人類對基因與疾病的理解一直更新;新的病例報告會出現,資料庫會改變變異分類,論文會把過去看似孤立的訊號連成新的關係。當一個孩子在幾年前做基因檢測時,當時可能還沒有足夠證據;幾年後,同一份資料就可能因為外部知識增加而變得可解。醫院真正面對的不是一次性分析,而是成千上萬個舊案要不要、何時、如何被系統性重看。
這也是大型語言模型在這個場景裡的特殊位置。傳統變異優先排序工具多半專注在基因、頻率、遺傳模式或已知資料庫訊號;reasoning model 的賣點,則是能把不同格式的資料與文獻理由寫成可讀的假設。它不一定比專家更懂醫學,但可能擅長把散落在病徵、資料表、品質訊號與論文中的線索集中到同一張工作台。對臨床團隊來說,真正節省的未必是最終判斷,而是找出值得花時間判斷的候選方向。
不過,這項研究也把限制說得很清楚。它是回溯性研究,隊列組成不一致,審查者並非對模型信心分數盲測;研究沒有系統性量測節省多少時間、降低多少成本、增加多少假陽性工作量,也沒有證明照護結果因此改善。它同樣沒有完整評估所有可能的遺傳變異類型,例如結構變異、重複擴增、深度內含子變異或嵌合現象。若要把這類流程帶進日常臨床,後續還需要前瞻性、多中心研究,才能回答它在不同醫院、不同族群、不同資料品質下是否仍然有效。
更敏感的是責任與稽核。醫療不是一般 productivity app,模型版本、提示詞、資料來源、文獻檢索、存取權限、審查紀錄與錯誤追蹤都會變成制度問題。OpenAI 的文章指出, broader clinical deployment 仍需要隱私、安全、可稽核性與在地法規,也不能替代定序基礎設施、遺傳諮詢、確認測試與專科判斷。這些話聽起來像標準免責聲明,但其實是醫療 AI 能不能從 demo 進到制度的核心門檻。
從產業角度看,這項研究的訊號不只屬於 OpenAI。它代表通用 reasoning model 正在嘗試進入高度專業的生命科學工作流,但進入方式不是「模型會直接回答疾病」,而是「模型能否成為證據合成與假設產生的可控零件」。這會牽動另一條競爭線:未來醫療 AI 的價值,可能不只取決於模型參數或 benchmark 分數,而是取決於它能不能留下足夠好的推理紀錄、引用來源、審查軌跡與版本控制,讓醫師、研究者、法規單位與病人家庭知道每一步是怎麼來的。
Boston Children’s 的 Children’s Rare Disease Collaborative 也提供了這個背景。該計畫本來就把罕病研究、基因資料、病人家庭與臨床照護串在一起,並描述了從研究測試、重分析、臨床級確認、結果回傳到遺傳諮詢的流程。AI 放進這樣的系統裡,不能只是一個更會聊天的前端;它必須貼合既有醫療責任鏈,讓候選答案回到實驗室與專家審查,而不是停在模型文字本身。
所以,這則新聞最不該被讀成「AI 終於能診斷罕病」。比較準確的讀法是:在罕病這種知識持續更新、資料分散、專家時間稀缺的領域,AI 開始展示一種比較務實的能力,幫人類把舊案重新排出可追查的線索。它的價值不在神奇,而在可審核;不在取代醫師,而在讓醫師更快看見哪些地方值得再問一次。對醫療 AI 來說,這可能才是真正進入現場的語言。
參考來源