KVキャッシュとは
KVキャッシュ(Key-Valueキャッシュ)は、TransformerベースのLLMの推論速度を向上させるメモリ最適化技術です。
Transformerのself-attention機構では、各トークンの生成時にシーケンス全体のKey行列とValue行列を参照します。KVキャッシュは、過去のトークンに対するKeyとValueの計算結果をメモリに保持し、新しいトークン生成時に再計算を不要にする仕組みです。
Cloudflare Workers AIのInfire推論エンジンでは、PagedAttentionをベースにヘッド別の圧縮率を適用するKVキャッシュ圧縮を実装しています。8倍圧縮でタスク性能95%以上を維持しつつスループットを3.44倍に向上させ、64倍圧縮でも性能90%以上を維持しながらスループットを5.18倍に引き上げます。
この圧縮により、同一メモリ内に64倍のトークンを収容できるため、長文コンテキストの処理効率が劇的に改善されます。