リコー、図表入り日本語 LLM 評価ベンチ公開

リコーは 5 月 29 日、図表を含む日本語業務文書に対する LLM の多段推論能力を評価する「JDocQA Reasoning Benchmark」を無償公開した。情報抽出にとどまらず、計算・比較・傾向分析など複合的なリーズニング能力を測れる点が特徴で、国産マルチモーダル LLM の評価インフラを補強する。

主なポイント

全 1,287 問で構成、棒グラフ・折れ線・財務諸表・路線図など 20 種類以上の図表サブセットを内包
「単なる OCR・抽出」ではなく、複数段階の推論を要する設問が中心
経産省 GENIAC 第 3 期で開発した Qwen3-VL-Ricoh-32B-20260227 および 8B モデルの構築・評価に活用
既存の日本語 LLM 評価は図表理解の網羅性に課題があり、研究機関・産業界での共通モノサシとして提供
リコーは 5 月 20 日に独自セーフガードモデルも無償公開しており、評価・安全性インフラ整備を継続中

出典: リコー、生成 AI の推論性能を測る独自ベンチマークを無償公開 (リコーグループニュースリリース)