キーワード解説

量子化技術(INT4/FP8)を用いたTransformerモデルの高速化とメモリ節約

Transformerモデルの計算精度を落とすことなく、モデルサイズと推論速度を大幅に改善する量子化技術(INT4/FP8など)の原理と実践的な適用方法を解説します。

0 関連記事