Harvard 医学校と Beth Israel Deaconess Medical Center などの研究チームが、OpenAI の推論モデル o1-preview を救急外来 (ER) 76 件の症例で評価したところ、67.1% で「正確または非常に近い」診断に到達したと Science 誌に発表しました。同じ症例を見た医師 2 名の正答率は 50.0% と 55.3% で、AI が 10 ポイント以上上回る結果となりました。
主なポイント
- 入力は電子カルテの記録と看護師の数文程度のメモのみ ⇒ ER 受付直後の限られた情報量を再現
- The New England Journal of Medicine 由来の複雑症例 143 件では、鑑別診断に正解を含めた割合が 78.3%
- 抗菌薬選択や終末期ケアなど「マネジメント推論」タスクでも従来 AI と医師 (検索利用含む) を上回った
- 今回はあくまで既存症例の事後レビュー ⇒ 実際の救急トリアージへの即時投入は推奨しないと著者らも明言
- 次段階として、実環境で性能を測る臨床試験が必要との立場