Harvard 医学校と Beth Israel Deaconess Medical Center などの研究チームが、OpenAI の推論モデル o1-preview を救急外来 (ER) 76 件の症例で評価したところ、67.1% で「正確または非常に近い」診断に到達したと Science 誌に発表しました。同じ症例を見た医師 2 名の正答率は 50.0% と 55.3% で、AI が 10 ポイント以上上回る結果となりました。

主なポイント

  • 入力は電子カルテの記録と看護師の数文程度のメモのみ ⇒ ER 受付直後の限られた情報量を再現
  • The New England Journal of Medicine 由来の複雑症例 143 件では、鑑別診断に正解を含めた割合が 78.3%
  • 抗菌薬選択や終末期ケアなど「マネジメント推論」タスクでも従来 AI と医師 (検索利用含む) を上回った
  • 今回はあくまで既存症例の事後レビュー ⇒ 実際の救急トリアージへの即時投入は推奨しないと著者らも明言
  • 次段階として、実環境で性能を測る臨床試験が必要との立場

出典: In Harvard study, AI offered more accurate emergency room diagnoses than two human doctors (TechCrunch)