米国国立標準技術研究所 (NIST) 内の AI 標準・革新センター (CAISI) が DeepSeek V4 Pro の評価結果を 5 月 1 日に公表しました。CAISI のベンチマーク群で測ると同モデルの能力は米国フロンティアモデルに約 8 か月遅れており、約 8 か月前にリリースされた GPT-5 と概ね同等とされています。これまで CAISI が評価した中国製モデルとしては最高水準と位置付けられました。

主なポイント

  • 評価領域はサイバー・ソフトウェア工学・自然科学・抽象推論・数学の 5 ドメイン
  • DeepSeek 自身の公表ベンチマークでは Opus 4.6 や GPT-5.4 と同等を主張するが、CAISI 評価では差が拡大
  • 数学領域のみ米トップモデルに肉薄
  • 抽象推論ベンチマーク ARC-AGI-2 を CAISI として初採用
  • コスト効率では米国の比較対象 GPT-5.4 mini に対し 7 ベンチマーク中 5 つで優位 (最大 53% 安価)

出典: CAISI Evaluation of DeepSeek V4 Pro (NIST)