tag

#LLM

このタグが付いた記事

Index

count=33
  1. AI / MLtheme: テクノロジー

    Meituan、1.6T パラメータの LongCat-2.0 を OSS 公開 ⇒ 国産チップで学習

    中国 Meituan が agentic coding 向け 1.6 兆パラメータのオープンモデル LongCat-2.0 を公開。事前学習・推論ともに国産 AI アクセラレータで完結したと主張し、SWE-bench Pro で GPT-5.5 を上回る数値も報告。

  2. AI / MLtheme: テクノロジー

    Anthropic、Claude Sonnet 5 を投入 ⇒ エージェント運用の低価格化を狙う

    Anthropic が中位モデル Sonnet 5 を発表。エージェント性能で Opus 4.8 に迫りつつ、入力 2 ドル / 出力 10 ドル (100 万トークン) の導入価格で agent ワークロードのコスト削減を狙う。

  3. AI / MLtheme: テクノロジー

    Sakana AI「Sakana Fugu」公開 複数モデルを束ね Mythos 超え謳う

    東京の Sakana AI が複数 AI モデルを協調動作させるマルチエージェントシステム「Sakana Fugu」と上位版「Fugu Ultra」を 6 月 22 日に一般提供開始。一部ベンチマークで Claude Mythos Preview や Fable 5 を上回ると主張する。

  4. AI / MLtheme: テクノロジー

    元 OpenAI 組「In the Weights」公開、AI 知名度を可視化

    TechCrunch は 6 月 20 日、元 OpenAI の Thomas Dimson 氏と Joey Flynn 氏が立ち上げた「In the Weights」を取り上げました。Web 検索を介さず Grok / Gemini / GPT / Claude / Llama 等が自分や任意の人物をどれだけ「思い出せる」かを採点する、LLM 時代のエゴサ的サービスです。

  5. AI / MLtheme: テクノロジー

    Z.ai が GLM-5.2 をオープンウェイト公開、コーディングで GPT-5.5 を上回る

    中国 Z.ai が 6 月 16 日、長期コーディングタスク向けに最適化した 753B パラメータの LLM「GLM-5.2」を MIT ライセンスでオープン公開し、Artificial Analysis のオープンウェイト総合首位に立ちました。

  6. AI / MLtheme: テクノロジー

    IBM、LLM 駆動の進化アルゴリズム OpenEvolve で量子誤り訂正符号 465 件を発見

    IBM Research は 6 月 13 日、LLM を仮説生成器に据えた進化アルゴリズム フレームワーク「OpenEvolve」を公開し、これを使って量子誤り訂正 (QEC) 符号の候補 465 件を発見したと発表しました。AlphaEvolve や FunSearch の系譜に連なる手法で、ライブラリは GitHub にオープンソース公開されています。

  7. AI / MLtheme: テクノロジー

    Mistral AI、€30 億調達協議で評価額 €200 億 欧州 AI の主役狙う

    仏 Mistral AI が新たに €30 億 (約 $35 億) を調達する協議に入ったとブルームバーグが 6 月 12 日に報じました。評価額は約 €200 億で、2025 年 9 月の Series C 時点 €117 億から半年余りで約 2 倍。米中勢との計算資源競争に投入する見込みです。

  8. AI / MLtheme: テクノロジー

    Anthropic、Mythos 級「Claude Fable 5」を一般公開 SWE-Bench Pro で 80.3%

    Anthropic は 6 月 9 日、これまで限定公開だった Mythos 級モデルを一般化した「Claude Fable 5」を発表。SWE-Bench Pro で 80.3% を達成し、サイバー / 生物・化学領域では Claude Opus 4.8 へ自動フォールバックする安全機構を内蔵する。

  9. AI / MLtheme: テクノロジー

    Microsoft、自社製推論モデル MAI-Thinking-1 を公開

    Microsoft AI が Build 2026 で初の自社製推論モデル MAI-Thinking-1 を発表。OpenAI 由来の蒸留に頼らず一からトレーニングし、AIME 2026 で 94.5%、Sonnet 4.6 を上回る人手評価結果を示した。

  10. AI / MLtheme: テクノロジー

    MiniMax、中国A株上場へ ARR 3億ドル超で猛追

    中国の AI スタートアップ MiniMax が上海証券取引所への A 株上場に向けた指導届出を提出。ARR は 3 億ドルを超え、Hong Kong に続く 2 拠点目の上場で AI 大規模モデル分野の A 株第 1 号を Zhipu と競う。

  11. AI / MLtheme: テクノロジー

    リコー、図表入り日本語 LLM 評価ベンチ公開

    リコーは図表を含む日本語業務文書に対する LLM の多段推論能力を評価するベンチマーク JDocQA Reasoning Benchmark を無償公開。全 1,287 問、20 種類以上の図表サブセットを内包する。

  12. セキュリティtheme: テクノロジー

    marimo 侵害、LLM 主導で内部 DB 流出

    Sysdig は CVE-2026-39987 経由で marimo を侵害した攻撃者が、LLM エージェントを主役に 4 段ピボットを 1 時間で完走させ、内部 PostgreSQL を盗み出した事例を初公表した。

  13. AI / MLtheme: テクノロジー

    Claude Opus 4.8 公開、コーディング性能と正直さ強化

    Anthropic は Claude Opus 4.7 の後継となる Claude Opus 4.8 を公開。エージェントコーディングが 69.2% に向上し、自己進捗の正直さも改善。価格は据え置き。

  14. AI / MLtheme: テクノロジー

    DeepSeek、V4-Pro の API 価格 75% 引き下げを恒久化

    DeepSeek が 5 月 23 日、旗艦モデル V4-Pro の 75% 値下げを 5 月末で終了せず恒久化すると発表。API 単価は最大 4 分の 1 となり、AI の価格競争が新たな局面に入りました。

  15. AI / MLtheme: テクノロジー

    Anthropic、Glasswing 初月で重大脆弱性 10,000+ 件を確認 — Mythos Preview のスキャン結果公開

    Anthropic は 5 月 22 日、4 月発表の Project Glasswing の初期アップデートを公開し、Claude Mythos Preview と約 50 のパートナーが運用開始からおよそ 1 ヶ月で重大度 High / Critical の脆弱性 10,000 件超を発見したと明らかにした。OpenBSD で 27 年間見過ごされていたバグや FFmpeg の 16 年もののバグ、Firefox 150 で修正された 271 件などが具体例として挙げられている。

  16. AI / MLtheme: テクノロジー

    Google、Gemini 3.5 ファミリー始動 — まず 3.5 Flash 公開、Pro 超え+4倍速で $1.5/$9 価格

    Google は I/O 2026 で次世代モデル群 Gemini 3.5 を発表し、最初の出荷モデル『3.5 Flash』を即日公開した。前世代 3.1 Pro をコーディング・エージェント系ベンチで上回りつつ出力速度は 4 倍。3.5 Pro は来月投入予定。

  17. AI / MLtheme: テクノロジー

    東芝、人事システム「Generalist」V8 を提供開始 — MCP 対応で LLM と業務データ連携

    東芝デジタルソリューションズは統合人事給与システム Generalist/HR/PR の新バージョン V8 を 5 月 19 日に提供開始。Model Context Protocol (MCP) 対応で社内 LLM と業務データを安全に接続でき、自然言語で検索条件を提案する人財検索 AI 機能も搭載する。

  18. セキュリティtheme: テクノロジー

    Ollama に重大 OOB read 脆弱性 CVE-2026-7482『Bleeding Llama』⇒ 約 30 万台のサーバにメモリ漏えいリスク

    Cyera が 5 月初旬に公表したローカル LLM 実行基盤 Ollama の脆弱性 CVE-2026-7482『Bleeding Llama』が、5 月 10 日に The Hacker News などで本格的に報じられました。GGUF テンソル解析処理のヒープ OOB read で、未認証リモート攻撃者がプロセスメモリを丸ごと漏えいさせることが可能。インターネット公開中の約 30 万台が影響を受けると見られ、修正版は 0.17.1。

  19. AI / MLtheme: テクノロジー

    OpenAI、ChatGPT 標準を「GPT-5.5 Instant」へ刷新 ⇒ 幻覚を 52.5% 削減

    OpenAI は 5 月 5 日、ChatGPT の標準モデルを GPT-5.5 Instant に刷新したと発表。医療・法律・金融など高リスク領域の幻覚を GPT-5.3 比で 52.5% 削減し、過去会話・ファイル・Gmail を参照する強化パーソナライズと、絵文字を控えた簡潔な応答を打ち出しました。

  20. AI / MLtheme: テクノロジー

    xAI、Grok 4.3 と『Custom Voices』を公開 1 分の音声でクローン作成

    xAI が 5 月 2 日に Grok 4.3 を公開し、約 1 分の音声から 2 分以内にクローン音声を生成する『Custom Voices』機能を同時投入。28 言語・80 種以上のプリセット音声と同じ TTS / 音声エージェント API から呼び出せ、xAI コンソール上では追加課金なしで利用可能。

  21. AI / MLtheme: テクノロジー

    Reddit、AI 検索の週間 8000 万人到達 Q1 売上は前年比 69% 増 6.63 億ドル

    Reddit が 5 月 1 日に発表した 2026 年 Q1 決算で、検索の週間アクティブユーザーが 8000 万人 (前年比 +30%) に到達した。同社の AI 検索エンジン Reddit Answers の週間利用者は 1 年で 1500 万人へ拡大、売上は 6.63 億ドル (前年比 +69%)、広告売上 6.25 億ドル (同 +74%) と Wall Street 予想を上回った。

  22. Tech 政策theme: テクノロジー

    中国・杭州中級法院、AI 置換目的の解雇は違法と判断 LLM 導入で減給拒否の社員勝訴

    中国・浙江省の杭州中級人民法院が 4 月 30 日、コスト削減のみを目的に従業員を AI に置き換えて解雇することは違法とする判断を示したと報道された。LLM 導入で業務が自動化された QA 監督の Zhou 氏が大幅減給と配置転換を拒んで解雇された事案で、下級審の違法判決を維持。AI 導入だけでは労働契約終了の正当事由とならないと明確化した。

  23. AI / MLtheme: テクノロジー

    主要 LLM は『日本文化』に偏る 欧州チームが 24 言語で検証、ITmedia が報道

    スペインのバスク大学と英カーディフ大学の研究チームが、GPT-4o-mini など 8 つの主要 LLM が文化を語る際に日本に強く偏る傾向を実証した論文を公開した。24 言語 31,680 問のベンチマーク『CROQ』で検証したところ、事前学習段階では各国を均等に参照していたモデルが、人間向けの安全・有用化チューニング後に日本と米国へ集中する分布へ変化したという。ITmedia が 4 月 30 日に内容を報じた。

  24. AI / MLtheme: テクノロジー

    NVIDIA、マルチモーダル MoE モデル Nemotron 3 Nano Omni を公開

    NVIDIA が 4 月 28 日(米時間)、テキスト・画像・動画・音声を 1 つの推論ループで扱うオープンマルチモーダル基盤モデル Nemotron 3 Nano Omni を公開した。Mamba と Transformer を組み合わせた Hybrid MoE 構成により、総 30B パラメーターから推論時に 3B のみを活性化し、128 個のエキスパートから 6 個へ動的にルーティングする。重み・データ・学習レシピのいずれも開放し、Hugging Face と build.nvidia.com から直接利用できる。

  25. AI / MLtheme: テクノロジー

    Mistral、128B モデル Medium 3.5 と Vibe Remote Agents 公開

    Mistral AI は 4 月 29 日、フラグシップ密モデル Mistral Medium 3.5(128B、256k コンテキスト)と、クラウド上で長時間コーディングを並列実行する Vibe Remote Agents を公開した。SWE-Bench Verified 77.6% を記録し、改変済み MIT のオープンウェイトとして Hugging Face で配布する。

  26. セキュリティtheme: テクノロジー

    LLM 推論基盤 LMDeploy に SSRF 脆弱性 ⇒ 公開 13 時間で実環境悪用

    OpenMMLab の LLM 推論サーバ LMDeploy に Server-Side Request Forgery 脆弱性 CVE-2026-33626 が公開された。Sysdig のハニーポットには 13 時間以内に攻撃が到達。

  27. AI / MLtheme: テクノロジー

    DeepSeek V4 Preview 公開 ⇒ 1M 文脈と MoE 両建てでフロンティアに肉薄

    中国 DeepSeek が V4-Pro / V4-Flash をプレビュー公開。1M トークン文脈と MoE、MIT ライセンスでの Hugging Face 配布が特徴。

  28. AI / MLtheme: テクノロジー

    OpenAI、GPT-5.5 を公開 ⇒ 1M 文脈とエージェント特化

    OpenAI が 4 月 23 日に GPT-5.5 を公開。1M トークン文脈と複数ツール連携を活かしたエージェント用途に特化し、API 価格は GPT-5.4 比で倍の 5 / 30 ドルに設定された。

  29. セキュリティtheme: テクノロジー

    Ollama の量子化エンジンに未認証メモリ漏洩、CVE-2026-5757 で公表

    CERT/CC が Ollama の量子化エンジンにある未認証のリモート情報漏洩脆弱性 CVE-2026-5757 を公表。GGUF ヘッダの改竄でヒープメモリを読み出し、レジストリ API で外部に送出できる。

  30. ハードウェアtheme: テクノロジー

    Google、第 8 世代 TPU を学習用と推論用に分割 ⇒ TPU 8t / 8i を発表

    Google Cloud Next 2026 で発表された第 8 世代 TPU は、学習向けの TPU 8t と推論向けの TPU 8i の 2 SKU 構成。自社開発の Axion ARM CPU をホストに据え、Ironwood 比で大幅な性能向上を謳う。

  31. セキュリティtheme: テクノロジー

    Cohere の Python サンドボックス Terrarium に CVSS 9.3 の脱出脆弱性

    Cohere AI が公開する Python サンドボックス Terrarium に、ホスト上での root 権限コード実行を許す重大な脱出脆弱性 CVE-2026-5752 が報告された。

  32. AI / MLtheme: テクノロジー

    OpenAI、画像生成「Images 2.0」を発表 多言語テキスト描画が大幅向上

    OpenAI が ChatGPT の画像生成を刷新する「Images 2.0」を 4 月 21 日に公開。推論モード搭載で 2K 出力に対応し、日本語など非ラテン文字の描画精度が大幅に向上した。

  33. AI / MLtheme: テクノロジー

    Anthropic、最強モデル「Claude Mythos」と Project Glasswing を発表

    Anthropic が公開を見送る未公開フロンティアモデル Claude Mythos と、重要インフラ防御を狙う Project Glasswing を発表。50 組織に gated access を提供する。