KVキャッシュとは

KVキャッシュ(Key-Valueキャッシュ)は、TransformerベースのLLMの推論速度を向上させるメモリ最適化技術です。

Transformerのself-attention機構では、各トークンの生成時にシーケンス全体のKey行列とValue行列を参照します。KVキャッシュは、過去のトークンに対するKeyとValueの計算結果をメモリに保持し、新しいトークン生成時に再計算を不要にする仕組みです。

Cloudflare Workers AIのInfire推論エンジンでは、PagedAttentionをベースにヘッド別の圧縮率を適用するKVキャッシュ圧縮を実装しています。8倍圧縮でタスク性能95%以上を維持しつつスループットを3.44倍に向上させ、64倍圧縮でも性能90%以上を維持しながらスループットを5.18倍に引き上げます。

この圧縮により、同一メモリ内に64倍のトークンを収容できるため、長文コンテキストの処理効率が劇的に改善されます。

参考: Cloudflare Blog: Making Workers AI Faster