Speculative Decodingとは

Speculative Decoding(投機的デコーディング)は、LLMのテキスト生成速度を高速化する推論最適化技術です。

通常のAutoregressive Decodingでは、トークンを1つずつ順番に生成するため、モデルの呼び出し回数がそのまま生成速度のボトルネックになります。Speculative Decodingでは、小型のドラフトモデルや入力プロンプトのパターンマッチ(prompt-lookup decoding)を用いて複数トークンを「投機的に」予測し、本体モデルが一括で検証・採択します。

Cloudflare Workers AIではprompt-lookup decodingが実装されており、Llama 3.1 8Bで40%、Llama 3.1 70Bで70%の高速化が報告されています。品質への影響は最小限で、検証で棄却されたトークンは正しいトークンに置き換えられるため、出力品質は通常デコーディングと同等です。

参考: Cloudflare Blog: Making Workers AI Faster