キーワード解説

TensorRT-LLMによるエッジ向けLlamaモデルのFP8推論高速化

NVIDIA製GPUを搭載したエッジデバイスでLlamaモデルのFP8推論を高速化するTensorRT-LLMの技術。極限のパフォーマンスを追求します。

0 関連記事