キーワード解説
TensorRT-LLMによるエッジ向けLlamaモデルのFP8推論高速化
NVIDIA製GPUを搭載したエッジデバイスでLlamaモデルのFP8推論を高速化するTensorRT-LLMの技術。極限のパフォーマンスを追求します。
0 関連記事
TensorRT-LLMによるエッジ向けLlamaモデルのFP8推論高速化とは
親クラスター「エッジデバイス実行」の解説よりNVIDIA製GPUを搭載したエッジデバイスでLlamaモデルのFP8推論を高速化するTensorRT-LLMの技術。極限のパフォーマンスを追求します。
このキーワードが属するテーマ
このキーワードに紐付く記事はまだありません