キーワード解説

AWQ(Activation-aware Weight Quantization)によるAIモデル精度維持と高速化

AWQは、活性化値の分布を考慮して重みを量子化することで、LLMの精度低下を抑えつつ、推論を高速化・軽量化する手法です。

0 関連記事