Mixture of Experts(MoE)とは
Mixture of Experts(MoE)は、ニューラルネットワークのアーキテクチャ手法の一つです。モデル内に複数の「Expert(専門家)」と呼ばれるサブネットワークを持ち、入力に応じてゲーティングネットワークが最適なExpertを選択・活性化します。
推論時には総パラメータの一部のみが計算に使われるため、パラメータ総数が大きくても実際の計算コスト(FLOPs)を抑制できます。たとえばMeta Llama 4 Scoutは総パラメータ109Bですが、推論時にアクティブ化されるのは17Bのみです。
MoEの主な利点は、密な(Dense)モデルと比較して同じ計算予算でより大きな知識容量を実現できる点です。エッジ推論環境において、単一GPUで大規模モデル相当の性能を引き出す手段としてWorkers AI上でも活用されています。