Harvard 研究: OpenAI o1 が ER 診断で医師 2 名を上回る 67% で正解、医師は 50-55%

Harvard 医学校と Beth Israel Deaconess Medical Center などの研究チームが、OpenAI の推論モデル o1-preview を救急外来 (ER) 76 件の症例で評価したところ、67.1% で「正確または非常に近い」診断に到達したと Science 誌に発表しました。同じ症例を見た医師 2 名の正答率は 50.0% と 55.3% で、AI が 10 ポイント以上上回る結果となりました。

主なポイント

入力は電子カルテの記録と看護師の数文程度のメモのみ ⇒ ER 受付直後の限られた情報量を再現
The New England Journal of Medicine 由来の複雑症例 143 件では、鑑別診断に正解を含めた割合が 78.3%
抗菌薬選択や終末期ケアなど「マネジメント推論」タスクでも従来 AI と医師 (検索利用含む) を上回った
今回はあくまで既存症例の事後レビュー ⇒ 実際の救急トリアージへの即時投入は推奨しないと著者らも明言
次段階として、実環境で性能を測る臨床試験が必要との立場

出典: In Harvard study, AI offered more accurate emergency room diagnoses than two human doctors (TechCrunch)