リコーは 5 月 29 日、図表を含む日本語業務文書に対する LLM の多段推論能力を評価する「JDocQA Reasoning Benchmark」を無償公開した。情報抽出にとどまらず、計算・比較・傾向分析など複合的なリーズニング能力を測れる点が特徴で、国産マルチモーダル LLM の評価インフラを補強する。
主なポイント
- 全 1,287 問で構成、棒グラフ・折れ線・財務諸表・路線図など 20 種類以上の図表サブセットを内包
- 「単なる OCR・抽出」ではなく、複数段階の推論を要する設問が中心
- 経産省 GENIAC 第 3 期で開発した
Qwen3-VL-Ricoh-32B-20260227および 8B モデルの構築・評価に活用 - 既存の日本語 LLM 評価は図表理解の網羅性に課題があり、研究機関・産業界での共通モノサシとして提供
- リコーは 5 月 20 日に独自セーフガードモデルも無償公開しており、評価・安全性インフラ整備を継続中