OpenAI は 6月30日、AI エージェントが計算生物学の研究判断をどこまで自動化できるかを測る研究用ベンチマーク GeneBench-Pro を公開しました。旧 GeneBench を拡張し、ノイズを含む合成データと下流の意思決定に紐付いた推定量を組み合わせた 129 問で、モデルが探索・解析パス選定・実験の反復を求められる設計です。
主なポイント
- 対象領域はゲノミクス、量的生物学、トランスレーショナル医療の 3 系統で、測定誤差・選抜バイアス・交絡・QC 失敗・モデル選択の判断を評価
- OpenAI 最上位の GPT-5.6 Sol は最大推論レベルで 28.7%、Pro モードで 31.5% 正解 (旧 GeneBench で GPT-5 は 5% 未満だった)
- 他社モデルでは Anthropic Opus 4.8 が 16.0%、Google Gemini 3.5 Flash が 8.1%、xAI Grok 4.3 が 1.5% と大きく差が開いた
- 検証のため 129 問中 82 問を大学院生・ポスドク・産業研究者・大学教員に依頼して外部レビュー済み
- 代表 10 問と 50 問サブセットは第三者評価用に公開、残りは汚染を避けて非公開