キーワード解説
AWQ(Activation-aware Weight Quantization)によるAIモデル精度維持と高速化
AWQは、活性化値の分布を考慮して重みを量子化することで、LLMの精度低下を抑えつつ、推論を高速化・軽量化する手法です。
0 関連記事
AWQ(Activation-aware Weight Quantization)によるAIモデル精度維持と高速化とは
親クラスター「推論高速化手法」の解説よりAWQは、活性化値の分布を考慮して重みを量子化することで、LLMの精度低下を抑えつつ、推論を高速化・軽量化する手法です。
このキーワードが属するテーマ
このキーワードに紐付く記事はまだありません