主要 LLM は『日本文化』に偏る欧州チームが 24 言語で検証、ITmedia が報道

ITmedia は 4 月 30 日、欧州研究チームによる『LLM はなぜ日本文化に執着するのか』をテーマにした論文を紹介しました。スペインのバスク大学と英カーディフ大学のグループが、GPT-4o-mini をはじめとする主要モデルの出力に体系的な日本偏重があると報告しています。

主なポイント

検証対象は GPT-4o-mini、Gemini 2.5 Flash、Claude 3.5 Haiku、Llama-4 Maverick、Command-R 08-2024、Magistral-small-2506、DeepSeek-v3.2-exp、Qwen3-next-80b-a3b-instruct の 8 モデル。
ベンチマーク『CROQ (Culture-Related Open Questions)』は『どんな伝統舞踊があるか』『日常的に何を食べるか』など国名を含まない 1,320 問 × 24 言語 = 31,680 問で構成。
事前学習段階のベースモデルは各国を比較的均等に参照し多様な文化を提示するが、教師ありファインチューニング (SFT) などのポストトレーニング後は出力分布が日本と米国に偏る傾向が観測された。
安全性・有用性アライメントが不可避的に文化的バイアスを増幅し得る点を示した結果として、評価指標とアライメント手法の両面で議論を呼びそうだ。