キーワード解説

Medusa手法を活用したLLMの複数トークン同時予測による高速化

Medusaは、複数の独立したヘッダーで次に来る複数のトークンを同時に予測し、投機的デコードをさらに効率化することでLLM推論を高速化します。

0 関連記事