キーワード解説

GPTQを用いた4bit量子化によるAI推論のVRAM節約術

GPTQは、LLMの重みを4bit精度に量子化することで、VRAM消費量を大幅に削減し、比較的高い精度を維持しつつ推論を高速化します。

0 関連記事