xAI が 5 月 2 日、新フラッグシップ LLM「Grok 4.3」と音声クローン機能「Custom Voices」を公開しました。Custom Voices は約 1 分のサンプル音声から 2 分以内にクローン音声を生成するもので、xAI コンソール上では追加課金なしで利用できる点が他社の音声合成サービスとの大きな差別化要因になっています。
主なポイント
- Custom Voices は 28 言語・80 種以上のプリセットボイスと同じ TTS / 音声エージェント API から呼び出し可能
- 第三者の既存録音から無断クローンを防ぐため、ライブ読み上げのパスフレーズと話者埋め込みの一致を要求する 2 段階同意ゲートを採用
- ただし誤受容率や敵対的サンプルへの耐性は未公表で、外部レッドチームによる検証は今後の課題
- Grok 4.3 自体は「攻めた価格設定」を売りにし、競合の Claude や GPT-5.5 と比べてトークン単価を大幅に下げたとされる
- 音声を含むエージェント API を一括で提供する戦略で、Tesla / SpaceX グループでの活用や開発者向けエコシステム拡大を狙う