Google「TurboQuant」発表 — AIのメモリ消費を6分の1に圧縮、精度損失ゼロの衝撃

Googleの研究チームが、AI業界の常識を覆す圧縮アルゴリズム「TurboQuant」を発表しました。

大規模言語モデル（LLM）の推論時に最大のメモリボトルネックとなっている「KVキャッシュ」を、精度をまったく損なうことなく6分の1以下に圧縮し、さらに演算速度を最大8倍に向上させるという驚異的な技術です。

ICLR 2026（2026年4月25日、リオデジャネイロ）で正式発表予定のこの技術は、ネット上で「現実版パイド・パイパーだ」と話題を呼んでいます。これはHBOのドラマ「シリコンバレー」に登場する架空のスタートアップの革命的圧縮技術になぞらえたもので、Cloudflare CEOのMatthew Prince氏はこれを「GoogleのDeepSeekモーメント」とまで評しています。

KVキャッシュとは何か — AIの「隠れた大食い」

TurboQuantを理解するには、まず「KVキャッシュ」の問題を知る必要があります。

ChatGPTやGeminiのような大規模言語モデルは、テキストを1トークン（おおむね1単語）ずつ生成していきます。その際、過去に生成したすべてのトークンの「キー」と「バリュー」のペアをメモリ上に保持し続けなければなりません。これがKVキャッシュです。

短い会話であればたいした問題にはなりませんが、コンテキストウィンドウ（AIが一度に処理できるテキスト量）が拡大するにつれて、メモリ消費は爆発的に膨らみます。

たとえば、Llama 3 70Bモデルで12万8000トークンの文脈を処理すると、KVキャッシュだけで約40GBものGPUメモリを消費します。これはNVIDIA A100 40GBの全容量に匹敵する量です。コンテキストが長くなるほどKVキャッシュがメモリの80%以上を占めるようになり、モデル本体の重みよりもはるかに大きな負担になります。

この「隠れた大食い」が、AIサービスのコスト高騰、同時接続ユーザー数の制限、長文処理の困難さの根本原因となっていました。

TurboQuantの仕組み — 2段階の圧縮アプローチ

TurboQuantは、2つのステップでKVキャッシュを圧縮する、非常にエレガントなアルゴリズムです。

ステップ1：PolarQuant（ランダム回転）

まず、各KVベクトルにランダムな直交回転行列を適用します。これはベクトルの数学的な内容を一切変えずに、分散（情報のばらつき）を全次元に均一に分散させる処理です。

通常のKVベクトルには「外れ値」——極端に大きい値を持つ次元——が存在し、これが従来の量子化手法で精度が落ちる原因でした。回転によってこの問題を根本的に解消しています。

ステップ2：QJL（量子化ジョンソン・リンデンシュトラウス変換）

回転後のベクトルに対して、情報理論的な最適値に近い精度でスカラー量子化を行います。各次元を独立に量子化するため、誤差が連鎖・蓄積しないという大きな利点があります。

この2段階のアプローチにより、TurboQuantはKVキャッシュをわずか3ビットまで圧縮しても、モデルの出力精度にほぼ影響を与えません。しかも、訓練データもファインチューニングもキャリブレーションも一切不要で、あらゆるTransformerアーキテクチャにそのまま適用できます。

驚異的なベンチマーク結果

Googleの公式ベンチマークでは、TurboQuantは以下の成果を示しています。

LongBenchベンチマーク（長文理解タスク）では、3.5ビットのTurboQuantがFP16（16ビット）とまったく同等の精度を達成しています。「Needle-in-a-Haystack」テスト（大量のテキストの中から特定の情報を見つける能力）でも、KVメモリサイズを6分の1以上に削減しながら、全ベンチマークで完璧なスコアを記録しています。

NVIDIA H100 GPU上では、4ビットTurboQuantが32ビット未量子化キーと比較して、アテンションロジット計算を最大8倍高速化しています。

実際の運用シナリオで見ると、この違いはさらに劇的です。Llama 3.1 70Bモデルで12万8000トークンのコンテキストを処理する場合、従来方式ではKVキャッシュだけで約40GBのメモリが必要でした。TurboQuantを適用すると、これがわずか約6.7GBに縮小されます。つまり、従来は追加のGPUが必要だったワークロードが、既存のハードウェアで快適に処理できるようになるわけです。

AIのコストと環境への影響

TurboQuantがもたらすインパクトは、技術的な効率化にとどまりません。

AIのコスト構造そのものを変える可能性があります。KVキャッシュのメモリ消費が6分の1になるということは、同じGPUでより多くのユーザーを同時に処理でき、より長いコンテキストを扱えるということです。これはクラウドGPUの利用料金に直結します。

GoogleがTurboQuantを発表した直後、メモリチップメーカーのMicronやWestern Digitalの株価が下落したことも、この技術の影響力を物語っています。AIインフラのメモリ需要が従来の予測よりも大幅に抑えられる可能性が市場で意識されたためです。

また、AIのエネルギー消費問題への貢献も期待されています。メモリアクセスはGPU演算の中でもエネルギー消費が大きい処理のひとつであり、メモリ使用量の削減はそのまま電力消費の削減につながります。

オープンソースコミュニティの爆発的な反応

TurboQuantの論文公開後、オープンソースコミュニティは驚くべきスピードで動きました。

論文公開からわずか数週間で、GitHub上に複数の独立した実装が登場しています。PyTorch版、Rust版、Apple Silicon最適化版、vLLMへの統合プラグインなど、多様なプラットフォーム向けの実装が進められています。llama.cppへの統合に向けた議論も活発に行われており、6段階の統合計画が提案されています。

ただし、コミュニティの検証により興味深い発見もありました。論文のQJL（ステップ2）の手法は、理論的にはバイアスを除去しますが、実際のアテンション計算ではバリアンスが増大し、精度が低下するケースがあることが6つ以上の独立チームによって確認されています。そのため、MSEのみの量子化の方が実用的に優れるという知見が共有されており、改良版の実装が進んでいます。