Cloudflare Workers AIとは — エッジAI推論を変えるサーバーレスプラットフォーム

Cloudflare Workers AIは、Cloudflareのグローバルエッジネットワーク上で動作するサーバーレスAI推論プラットフォームです。世界200以上の都市に配置されたGPUクラスタ上でAIモデルを実行し、ユーザーに最も近いロケーションから低レイテンシで推論結果を返します。

従来のクラウドAI推論では、特定リージョンのGPUインスタンスをプロビジョニングし、スケーリングを自前で管理する必要がありました。Workers AIはこの構造を根本から変え、APIを1回呼び出すだけで、プロビジョニング不要・サーバー管理不要のAI推論を即座に実行できます。課金はリクエスト単位の従量制で、GPUインスタンスのアイドルコストが発生しません。

Workers AIの核心的な特徴は「垂直統合」にあります。Cloudflareが提供するD1(SQLデータベース)、R2(オブジェクトストレージ)、Vectorize(ベクトルデータベース)、AI Gateway(統合管理・ルーティング)と同一のグローバルネットワーク上で動作するため、アプリケーションロジックからAI推論、データストレージまでを一貫して低レイテンシで処理できます。この垂直統合は、外部APIに依存する構成と比較して構造的なコスト優位をもたらします。

2026年4月時点で50種以上のオープンソースモデルに対応し、テキスト生成・画像生成・音声認識・テキスト読み上げ・埋め込み・翻訳など、主要なAIタスクをカバーしています。

対応モデルカタログ — テキスト生成から音声・画像まで

Workers AIが対応するモデルは、用途別に大きく6カテゴリに分類されます。以下は2026年4月時点の主要モデル一覧です。

テキスト生成(LLM

テキスト生成は最も充実したカテゴリで、小型の1Bパラメータモデルから120Bクラスの大規模モデルまで幅広く対応しています。

モデルプロバイダ特徴
Llama 4 Scout 17B-16EMetaMoE(16 experts)、マルチモーダル、10Mコンテキスト
Llama 3.3 70B(fp8)Metafp8量子化による高速推論
Kimi K2.5Moonshot AI256kコンテキスト、マルチターンツール呼び出し、ビジョン対応
GPT-oss-120B / 20BOpenAIオープンウェイト版。120Bは高推論、20Bは低レイテンシ特化
NVIDIA Nemotron 3 SuperNVIDIAHybrid MoE(Mamba-Transformer)、120B/12B active、マルチエージェント向き
Gemma 3 12BGoogle128kコンテキスト、140言語以上、マルチモーダル
Qwen3-30B-A3B(fp8)QwenMoE、推論特化
DeepSeek R1 Distill 32BDeepSeekR1から蒸留、推論チェーン対応
Mistral Small 3.1 24BMistralAI128kコンテキスト、ビジョン対応

特筆すべきはLlama 4 Scoutの対応です。Llama 4はMeta初のMixture of Experts(MoE)アーキテクチャを採用し、総パラメータ109Bのうち推論時にアクティブ化されるのは17Bのみ。この設計により、単一GPUで動作しながら70Bクラスの知識量を持つモデルがエッジ環境で利用可能になりました。10Mトークンという業界最長のコンテキストウィンドウも、大量文書の同時処理が必要な業務用途で大きなアドバンテージです。

また、Gemma 3はGoogleがオープンウェイトで提供するモデルで、12Bパラメータながら128kコンテキストと140言語以上をサポートします。Gemma 3nはPer-Layer Embedding(PLE)とMatFormerアーキテクチャにより、スマートフォンやラップトップなどのエッジデバイス上での動作を想定して設計されています。

画像生成

モデル特徴
FLUX.2 Devマルチリファレンス画像生成
FLUX.2 Klein 9B / 4B超高速、生成と編集の統合
Leonardo Lucid Origin / Phoenix 1.0テキストレンダリング、プロンプト忠実度
SDXL Lightning数ステップで1024px画像生成

音声認識(STT)・読み上げ(TTS)

音声認識ではDeepgram Nova 3(バッチ+リアルタイム対応)、Whisper Large v3 Turbo(多言語対応)が利用可能です。音声読み上げではDeepgram Aura 2(コンテキスト対応のEN/ES)とMeloTTS(多言語高品質)が対応しています。

テキスト埋め込み

RAGパイプラインの構築に不可欠な埋め込みモデルも充実しています。EmbeddingGemma 300M(100言語以上)、BGE-M3(多言語・多粒度)、PPLaMo Embedding 1B(日本語特化)など、用途に応じた選択が可能です。

その他(翻訳・分類・物体検出)

M2M100 1.2B(多言語間翻訳)、BGE Reranker(クエリ文書ランキング)、BART Large CNN(要約)、DETR ResNet-50(物体検出)など、特化型タスクのモデルも利用できます。

料金体系 — Neuron課金の仕組みと具体的コスト試算

Workers AIの料金体系は「Neuron」という独自の計算単位に基づいています。基本レートは$0.011/1,000 Neuronsで、無料枠として毎日10,000 Neurons(UTC 00:00リセット)が提供されます。詳細な料金表はWorkers AI Pricing公式ページで確認できます。

Neuron課金の仕組み

Neuronの消費量は、タスクの種類、モデルサイズ、入出力のトークン数(またはピクセル数・秒数)によって決まります。同じテキスト生成タスクでも、1Bパラメータのモデルと70Bパラメータのモデルではneuron消費量が大きく異なります。

カテゴリ別のコスト目安(2026年4月時点)

カテゴリコスト目安補足
LLM小型(1B-7B)入力 $0.027〜$0.110/100万トークン出力は入力の2〜5倍
LLM中型(8B-32B)入力 $0.045〜$0.497/100万トークン出力は入力の3〜7倍
LLM大型(70B+)出力 $0.293〜$4.881/100万トークン大型モデルは出力コストが支配的
テキスト埋め込み$0.012〜$0.204/100万トークンBGE-M3が最もコスト効率良好
画像生成FLUX-1-Schnell: $0.0000528/タイル512x512タイルベース
音声認識(STT)約$0.0005/分Whisper系
音声読み上げ(TTS)$0.015〜$0.030/1,000文字Deepgram Aura 2系

具体的なコスト試算例

社内チャットボットを想定したシミュレーションを示します。Llama 3.1 8Bモデルを使用し、1リクエストあたり平均入力500トークン・出力200トークンの場合、月間10,000リクエストで概算コストは約$5〜$15です。Workers有料プランの$5/月(10Mリクエスト、30M CPU-ms含む)と合わせても、月間$10〜$20程度で本格的なAIチャットボットを運用できます。

一方、Llama 3.3 70Bのような大型モデルで同規模のリクエストを処理する場合、月間コストは$50〜$150程度に上昇します。モデルサイズの選定は、品質要件とコストのバランスで判断する必要があります。

さらにコストを最適化したい場合は、AI Gatewayのキャッシング機能が有効です。同一パターンのリクエストに対するレスポンスをキャッシュすることで、API呼び出し回数そのものを削減できます。FAQ応答や定型的なタスクが多い環境では、レイテンシ最大90%削減と合わせて大幅なコスト効率改善が期待できます。

競合比較 — AWS Bedrock・Vercel AIとのコスト・機能対比

Workers AIの競合として頻繁に挙がるのが、AWS BedrockとVercel AI SDKです。それぞれのアーキテクチャの違いが、コストと機能に直接影響します。

AWS Bedrockとの比較

AWS Bedrockは、Claude・Llama・Titan等の主要モデルをAWSインフラ上で利用できるマネージドサービスです。VPCレベルのネットワーク分離が可能で、エンタープライズのセキュリティ要件に対応する強みがあります。レイテンシもsub-200msで業界最速クラスです。

しかし、コスト構造に大きな差があります。Bedrockはプロビジョンドスループット(事前にスループットを確保する)方式を採用しており、予測可能な費用の反面、アイドル時間にもコストが発生します。小〜中規模のリクエストボリュームでは、Workers AIの完全従量制が圧倒的に有利です。

一方、大規模エンタープライズのワークロード(月間数百万リクエスト以上)では、Bedrockのプロビジョンドスループットの方がコスト効率が逆転する可能性があります。また、AWSの既存インフラとの統合やSLAの面でもBedrockに優位性があります。

Vercel AI SDKとの比較

Vercel AI SDKはNext.jsアプリケーションとAIモデルの統合を容易にするフレームワークですが、自前のGPUインスタンスを持ちません。推論は全てOpenAI・Anthropic等の外部APIに依存するため、API利用料が直接コストに跳ね返ります。

月間100万リクエスト規模のコスト比較では、Vercel + OpenAI APIで$800〜$2,000かかるところ、Workers AIでは$150〜$400で済む試算があります。Workers AIが構造的に3〜5倍コスト効率が高い背景には、自社GPUでの推論実行による中間マージンの排除があります。

判断のポイント

観点Workers AIAWS BedrockVercel AI
GPU推論自社エッジGPU自社リージョンGPU外部API依存
レイテンシエッジ近接(地域依存)sub-200msAPI依存
月間100万req$150〜$400高コスト(PT方式)$800〜$2,000
統合サービスD1/R2/Vectorize/GatewayS3/DynamoDB/Lambda等限定的
適合規模スタートアップ〜中規模中〜大規模エンタープライズフロントエンド中心

性能 — レイテンシ・スループットと最適化技術

Workers AIの推論エンジン「Infire」は、エッジ環境での高速推論を実現するために複数の最適化技術を実装しています。

実測パフォーマンス

8Bパラメータモデルの実測値として、80+ TPS(Tokens Per Second)、TTFT(Time To First Token)300msが報告されています(地理的位置により変動)。第12世代サーバーの導入により、Llama 3.1/3.2でスループットが2〜3倍向上しています。

KVキャッシュ圧縮

PagedAttentionをベースに、ヘッド別の圧縮率を適用する技術です。8倍圧縮でタスク性能95%以上を維持しつつスループットを3.44倍に向上させ、64倍圧縮でも性能90%以上を維持しながらスループットを5.18倍に引き上げます。64倍のトークンが同一メモリに収容可能になるため、長文コンテキストの処理効率が劇的に改善されます。

Speculative Decoding

Prompt-lookup decodingと呼ばれる手法で、出力トークンを「投機的に」予測し、検証を並列処理することで生成速度を高めます。Llama 3.1 8Bで40%の高速化、Llama 3.1 70Bで70%の高速化が報告されており、品質への影響は最小限に抑えられています。

Prefix CachingとDisaggregated Prefill

x-session-affinityヘッダを使用して同一モデルインスタンスにリクエストをルーティングすることで、KVキャッシュのヒット率を向上させ、TTFTを短縮するPrefix Caching。さらに、prefill処理と生成処理を異なるマシンに分離して並列処理するDisaggregated Prefillにより、大規模モデルの応答開始時間を最適化しています。

大規模モデルの実行アーキテクチャ

2026年3月からは、データ・テンソル・エキスパート並列化により、フロンティアモデル規模のMoEモデルもエッジ環境で実行可能になりました。Push-basedからPull-basedキューイングシステムへの移行により、GPU容量に応じたリクエスト処理が実現し、Kimi K2.5ではプロプライエタリモデル比で77%のコスト削減を達成しています。

実践 — D1・R2・Vectorize連携とAutoRAG・Agents SDK

Workers AIの真価は、Cloudflareの他サービスとの統合によって発揮されます。

D1 + R2 + Vectorize + Workers AIの4層スタック

Cloudflareが提供する4つのサービスを組み合わせることで、フルスタックのAIアプリケーションをエッジ上に構築できます。D1(SQLデータベース)でメタデータと構造化データを管理し、R2(オブジェクトストレージ)にドキュメントや画像を保存、Vectorize(ベクトルデータベース)で埋め込みベクトルの保存・類似検索を行い、Workers AI(推論エンジン)で応答を生成するという構成です。

AutoRAG(AI Search)

2026年にオープンベータとして公開されたAutoRAGは、RAGパイプラインの構築を劇的に簡素化するフルマネージドサービスです。R2にドキュメント(PDF、画像、テキスト、HTML、CSV対応)をアップロードするだけで、チャンキング、Embeddingモデルによるベクトル化、Vectorizeへの保存、クエリ時のセマンティック検索、LLMによる応答生成までを自動で処理します。

Worker bindingsでaiSearch()(AI応答付き)またはsearch()(検索結果のみ)のAPIとして利用でき、手動でのチャンキングや埋め込み処理が不要なため、RAGアプリケーションの開発コストを大幅に削減できます。アカウントあたり10インスタンス、100,000ファイルまで対応し、ベータ期間中は追加料金なし(各サービスの通常課金のみ)で利用可能です。

Agents SDK(v0.3.0)

CloudflareのAgents SDKは、AI SDK v6に完全対応したエージェント型AI構築フレームワークです。各エージェントはDurable Object上で実行され、独自のSQLデータベース、WebSocket接続、スケジューリング機能を内蔵します。

統一ツールパターン(server-side/client-side/dynamic approval)、human-in-the-loopによる動的ツール承認フロー、MCP(Model Context Protocol)経由でのツール公開、cronスケジュールによる自己覚醒機能などを備え、本格的なエージェント型AIアプリケーションの構築が可能です。useAgentChat() Reactフックにより、チャットインターフェースの構築も容易です。

LoRAファインチューニング

Workers AIはLoRA(Low-Rank Adaptation)による推論時のファインチューニングをサポートしています。Llama、Mistral、Gemmaの各モデルに対応し、業務特化のアダプターを適用して推論を実行できます。制約としてアダプターサイズ100MB以下、最大rank 8の制限がありますが、特定の業務ドメインに最適化されたモデル応答を実現する手段として有効です。

導入判断のポイント — どんな企業・ユースケースに向いているか

Workers AIは全ての企業にとって最適解ではありません。以下の判断軸で、自社のユースケースに適合するかを検討してください。

Workers AIが最適なケース

スタートアップや中小企業のAI導入初期段階では、Workers AIの無料枠(10,000 Neurons/日)と従量課金が圧倒的に有利です。GPUインスタンスの初期投資なしにAI機能をプロダクトに組み込めるため、MVP(最小限のプロダクト)の検証コストを最小化できます。

Cloudflare既存ユーザーにとっては、D1・R2・Workers・Pagesとの垂直統合が大きな魅力です。既存のWebアプリケーションにAI機能を追加する場合、アーキテクチャの変更を最小限に抑えながらAI推論を組み込めます。

グローバルに分散したユーザーベースを持つサービスでは、200以上の都市でのエッジ推論が地域を問わず安定したレイテンシを提供します。

慎重に検討すべきケース

エンタープライズのセキュリティ・コンプライアンス要件が厳格な場合は、VPCレベルのネットワーク分離やSLAの面でAWS Bedrockの方が適合する可能性があります。

月間数百万リクエスト以上の大規模ワークロードでは、プロビジョンドスループット方式の方がコスト効率が高くなるケースがあります。実際のリクエストパターンに基づくコスト比較シミュレーションが不可欠です。

また、Workers AIはClaudeやGPT-4oのようなプロプライエタリフロンティアモデルには非対応です(AI Gateway経由で外部APIとして利用は可能)。最高品質の推論が必要なタスクでは、AI Gatewayを活用したハイブリッド構成を検討してください。

レートリミットの把握

テキスト生成は標準300 req/min、テキスト埋め込みは3,000 req/min、画像生成・音声認識は720 req/minです。カスタム上限はリクエストフォーム経由で交渉可能ですが、高頻度バッチ処理が必要な場合は事前に制限値を確認してください。

Workers AIは「エッジでAI推論を手軽に始める」という明確な価値を提供するプラットフォームです。料金体系の透明性、対応モデルの幅広さ、Cloudflareエコシステムとの統合という3つの強みを、自社のユースケースと照合して導入判断を行うことをお勧めします。

情報の正確性について: 本記事の料金・スペック・対応モデルは2026年4月2日時点のCloudflare公式ドキュメントに基づいています。Workers AIは頻繁に更新されるプラットフォームであるため、最新情報はCloudflare Workers AI公式ドキュメントを確認してください。