キーワード解説

AWQ(Activation-aware Weight Quantization)によるLlamaのGPUメモリ節約術

GPUメモリを効率的に利用し、Llamaモデルの推論を高速化するAWQの技術と実装方法、そのメリットを解説します。

0 関連記事