LLMの「メモリの壁」を突破するための次世代AIハードウェアアーキテクチャ

GPU稼働率30%の衝撃:LLMの「メモリの壁」を突破する次世代アーキテクチャの物理学的解剖

約16分で読めます
文字サイズ:
GPU稼働率30%の衝撃:LLMの「メモリの壁」を突破する次世代アーキテクチャの物理学的解剖
目次

この記事の要点

  • LLM推論における「メモリの壁」の深刻な課題
  • 高帯域幅メモリ(HBM3e)による帯域幅の飛躍的拡大
  • プロセッサ内メモリ(PIM)によるデータ転送効率の向上

導入

「H100を並べたのに、なぜ推論速度が線形に向上しないのか?」

最新鋭のGPUクラスタを構築したものの、実際のLLM(大規模言語モデル)ワークロードにおけるGPU稼働率(Utilization)が低いケースが見られるという課題は、実務の現場で頻繁に耳にするテーマです。

これは直感に反する現象かもしれません。しかし、物理法則やシステム全体の構造に照らし合わせれば、極めて合理的な帰結と言えます。現在のAIインフラにおいて、計算能力(Compute)が不足しているのではなく、その計算機にデータを供給するパイプの太さが圧倒的に足りていない状態にあると考えられます。

いわゆる「メモリの壁(Memory Wall)」問題です。

かつてない規模のパラメータを持つLLMの登場により、AIハードウェアの主戦場は「演算速度(FLOPS)」から「データ転送速度(Bandwidth)」へと完全にシフトしました。どれほど高速なエンジンを積んでいても、燃料パイプが細ければ車は速く走れないのと同じ理屈です。

本稿では、この「メモリの壁」という物理的制約がいかにして現代のAIシステムを窒息させているのか、そのメカニズムを解剖します。その上で、HBM(High Bandwidth Memory)、PIM(Processing-in-Memory)、そしてSRAM回帰といった次世代アーキテクチャが、いかにしてこの壁を物理的に突破しようとしているのか、理論と実践の両面から深掘りしていきます。

これは単なるハードウェアのスペック比較ではありません。現場の業務に真に役立つAIインフラを構築し、投資対効果(ROI)を改善するための、アーキテクチャ設計の「原理原則」について解説します。

なぜ最新GPUでもLLMは遅いのか:フォン・ノイマン・ボトルネックの再来

現代のコンピュータ・アーキテクチャの根幹を成す「フォン・ノイマン型」構造には、AIの進化において無視できない宿命的な欠陥が潜んでいます。それは、計算を実行する演算装置(CPUやGPU)と、データを記憶する記憶装置(メモリ)が物理的に分離されており、その両者をバス(Bus)と呼ばれる細いデータ転送経路でつないでいるという点です。

どれほど高性能な演算器を搭載しても、データを運ぶ経路が渋滞していれば、システム全体のパフォーマンスはそこで頭打ちになります。この構造的な限界が、現代の巨大なAIモデルを実業務で運用する上で深刻なボトルネックとして立ちはだかっているのです。

計算速度とデータ転送速度の致命的なギャップ

過去数十年にわたり、プロセッサの演算性能はムーアの法則に従って飛躍的な向上を遂げてきました。しかし一方で、メモリの帯域幅(DRAMがデータを転送する速度)の進化は比較的緩やかなペースにとどまっています。この進化スピードの乖離が極限まで拡大したのが、まさに現在のハードウェア環境です。

このギャップを定量的に把握するために、「演算強度(Arithmetic Intensity)」という重要な概念を導入します。これは、メモリから1バイトのデータを読み込んだ際に、プロセッサが何回の浮動小数点演算(FLOPs)を実行できるかを示す指標です。

$ Arithmetic Intensity = \frac{\text{Total FLOPs}}{\text{Total Bytes Accessed}} $

例えば、画像処理などで広く用いられる畳み込みニューラルネットワーク(CNN)のようなアーキテクチャを考えてみましょう。CNNは、一度メモリから読み込んだ画像データや重みパラメータを、何度もフィルタ演算で使い回すという特性を持っています。そのため演算強度が高くなりやすく、計算性能の限界が全体の処理速度を決める「Compute Bound(計算性能律速)」なタスクとなります。この場合、GPUのFLOPS(1秒あたりの浮動小数点演算回数)を引き上げれば、それに比例して処理速度も向上する傾向にありました。

Transformerモデル特有の「メモリバウンド」な性質

ところが、現在のAIの主流であるTransformerベースの大規模言語モデル(LLM)は、全く異なる挙動を示します。特にテキストを1文字ずつ生成していく自己回帰的な推論プロセス(Autoregressive Inference)において、その違いは顕著です。

LLMがわずか1つのトークンを生成するためには、モデルが持つ膨大な全パラメータ(数十GBから数百GBにも及ぶデータ)をメモリから演算器へ読み出す必要があります。しかし、その巨大なパラメータ群を使って実行される実際の計算処理は、極めて単純な行列積などに留まり、演算回数自体はごくわずかです。

パラメータ数 $P$ のモデルで1トークンを生成するケースを概算すると、約 $2P$ 回の演算が必要になる一方で、データ転送量も $2P$ バイト(FP16精度の場合)に達します。つまり、演算強度はほぼ $1$ に近い、極めて低い水準に落ち込んでしまうのです。

データセンター向けGPUの代表格であるNVIDIAのアーキテクチャを例に挙げると、FP16のTensor Core演算性能は1,000 TFLOPSを超える驚異的な数値を誇りますが、メモリ帯域幅は数 TB/sのオーダーにとどまります。HBM3eなどの高速メモリを採用した最新アーキテクチャによって帯域幅の強化は進んでいますが、演算器の圧倒的な処理能力に対して、データを供給するメモリ側の能力が全く追いついていないという構造的な課題は根本的に解消されていません。理論上、現在の演算器をフル稼働させるためには、現状の数百倍ものメモリ帯域幅が必要になる計算です。

実測データに見るGPU稼働率の低さ(Memory Wall問題)

この現象を、ハードウェアの性能限界を示す「ルーフラインモデル(Roofline Model)」で可視化すると、事態の深刻さが浮き彫りになります。LLMの推論タスクは、演算強度が低すぎるため、グラフ上で「斜めの線(メモリ帯域律速領域)」の遥か下方に位置づけられます。これは、どれだけGPUのクロック周波数を引き上げても、あるいは演算コア数を増やしても、結局はメモリからデータが到着するのを待っているだけの「空き時間」が発生してしまうことを意味しています。

推論サーバーの稼働現場の実測データに目を向けると、GPUが実際に価値ある計算を実行している時間は全体のほんの一部に過ぎません。残りの大半の時間は、データのロード待ち(メモリストール)に費やされています。

これこそが、「GPU稼働率(Utilization)が低い」と指摘される状態の正体です。高価なGPUリソースを大量に投入しても、その真価を発揮できずコスト効率を著しく悪化させている最大の要因であり、業界全体が直面している「Memory Wall(メモリの壁)」という物理的限界なのです。この壁の性質を正しく理解し、システム全体を俯瞰してどう突破するかが、今後のAIインフラ設計において最も重要なテーマとなります。

解決策①:HBM(広帯域メモリ)による物理的距離の短縮と帯域拡張

なぜ最新GPUでもLLMは遅いのか:フォン・ノイマン・ボトルネックの再来 - Section Image

このボトルネックに対し、現在主流となっているのが、HBM(High Bandwidth Memory)です。これは従来のGDDR系メモリとは異なる設計思想で作られています。

GDDRとHBMの構造的違いと帯域幅比較

ゲーミングPCなどで使われるGDDR6メモリは、基板上の配線を介してGPUと接続されます。しかし、基板上の配線密度には物理的な限界があり、バス幅(一度に送れるデータ量)を広げることは容易ではありません。通常は384bitや512bit程度が物理的な限界とされています。

対してHBMは、DRAMチップを垂直に積み重ね(3Dスタック)、それらを「シリコン貫通電極(TSV: Through-Silicon Via)」と呼ばれる微細な穴で接続します。さらに、GPUダイのすぐ隣に「シリコンインターポーザ」という高密度配線層を介して配置されます(2.5Dパッケージング)。

この構造により、HBMは物理的な配線距離を極限まで短縮しつつ、バス幅を1024bit、あるいはそれ以上に拡張することを可能にしました。最新のHBM3e規格では、1スタックあたり1.2TB/s前後の帯域幅を実現しており、これを複数スタック搭載することで驚異的な転送速度を達成しています。

2.5D/3Dパッケージング技術がもたらすデータ転送

NVIDIAのHopperアーキテクチャを採用したH100や、HBM3eを搭載して強化されたH200、さらにはBlackwellアーキテクチャのB200といったハイエンドGPUが、HBMを採用している理由はここにあります。

具体的には、H100(SXM版)はHBM3を採用し、メモリ帯域幅は3.35TB/sに達します。さらに、その進化版であるH200ではより高速なHBM3eを採用し、帯域幅は4.8TB/sへと向上しました。これはH100の約1.4倍、前世代であるA100の約2.4倍に相当する速度です。

LLMの推論速度(トークン生成速度)は、演算性能以上にメモリ帯域幅に強く依存します(メモリバウンド)。したがって、HBMの世代交代による帯域幅の物理的な拡張は、そのままユーザー体験(レスポンス速度)の向上に直結するのです。

HBM3e搭載インスタンスへの移行による推論スループット向上率

コストの観点から見ると、HBM搭載GPUは高価です。TSVやインターポーザを用いた製造プロセスが複雑で、高度なパッケージング技術を要するためです。しかし、「トークンあたりの生成コスト」という視点で評価すると、見方は変わってきます。

メモリ帯域幅が拡大することで、同じ時間内により多くのトークンを生成できれば、推論リクエストの処理能力(スループット)は向上します。H100からH200、あるいはBlackwell世代への移行により、必要なサーバー台数を削減できる可能性があり、結果としてTCO(総所有コスト)が下がるケースも珍しくありません。単なるハードウェア単価の比較ではなく、システム全体のスループット対コストで判断することが、次世代アーキテクチャ選定の要諦です。

解決策②:データ移動をゼロにするPIM(Processing-in-Memory)とSRAM回帰

解決策①:HBM(広帯域メモリ)による物理的距離の短縮と帯域拡張 - Section Image

HBMは「パイプを太くする」アプローチですが、そもそも「データを移動させない」という解決策も研究・実用化が進んでいます。それがPIM(Processing-in-Memory)と、SRAM主体のアーキテクチャです。

「メモリの中で計算する」PIMアーキテクチャの原理

PIMの基本思想は、「データがある場所(メモリ)で計算してしまえば、移動コストはゼロになる」というものです。従来のDRAMチップ内部に小さな演算ユニットを組み込み、メモリセルアレイの直近で単純な行列演算を行わせます。

SamsungやSK Hynixなどが開発を進めており、特にAI推論で多用されるMAC演算(積和演算)をメモリ側で処理することで、CPU/GPUへのデータ転送を減らすことができます。これにより、消費電力の削減と、帯域幅の壁の突破が期待されています。

まだ汎用的なGPUほどの柔軟性はありませんが、特定のモデルや推論専用のエッジデバイスなどでは、高い電力効率(TOPS/W)を達成できる可能性があります。

SRAM特化型チップ(Groq等)によるバッチサイズ1での超低遅延実現

もう一つのアプローチが、GroqやCerebrasのようなスタートアップが提唱する「SRAM特化型」アーキテクチャです。

DRAMやHBMは容量は大きいですが、レイテンシ(反応速度)はSRAMに劣ります。SRAMはCPUのキャッシュに使われる高速メモリですが、面積あたりの容量が小さく高価です。しかし、SRAMをチップ全面に敷き詰め、モデル全体をチップ内のSRAMに載せてしまえばどうなるでしょうか。

DRAMへのアクセスが発生しないため、推論速度が飛躍的に向上すると考えられます。GroqのLPU(Language Processing Unit)は、このアプローチにより、LLMの推論で毎秒数百トークンという生成速度を実証しています。

これは特に「バッチサイズ1」、つまり一人のユーザーに対するリアルタイム応答性が求められるアプリケーション(音声対話、リアルタイム翻訳など)において、GPUを上回る性能を発揮する可能性があります。

汎用GPU vs 専用アーキテクチャの使い分け基準

ただし、SRAMは容量単価が高いという課題があります。数百GBのメモリを持つモデルをSRAMだけで動かすには、大量のチップを連結する必要があり、コストが跳ね上がる可能性があります。汎用的な学習・推論にはGPU(HBM)、超低遅延が必須の特定用途にはSRAMチップ、省電力エッジにはPIMといった、現場の要件に応じた使い分けが求められます。

システム全体での最適化:CXLによるメモリプール化とインターコネクト

システム全体での最適化:CXLによるメモリプール化とインターコネクト - Section Image 3

チップ単体の性能だけでなく、システム全体(ラック規模、データセンター規模)でのメモリ管理も重要な課題です。ここで鍵となるのがCXL(Compute Express Link)です。

サーバー間通信の壁を越えるCXL(Compute Express Link)

従来のPCIe接続では、CPUとアクセラレータ(GPUなど)の間でメモリ空間が分断されており、データのやり取りにオーバーヘッドがありました。CXLはPCIeの物理層を使いつつ、キャッシュコヒーレンシ(データの一貫性)を保ったままメモリを共有できるプロトコルです。

これにより、GPUのVRAMが不足した際に、ホストCPUのメモリや、CXL経由で接続された「メモリプール」を、ローカルメモリのように扱うことが可能になります。

メモリの「借用」と「共有」によるリソース効率化

LLMの推論では、KVキャッシュ(過去の文脈データ)がメモリを圧迫し、ロングコンテキスト(長文処理)の妨げになることが多いです。CXLを活用すれば、このKVキャッシュを安価なCXLメモリプールに逃がすことで、HBMを演算に必要なパラメータ保持に集中させるといった階層的なメモリ管理が可能になります。

NVLink等の独自規格と標準規格の共存戦略

NVIDIAは独自の高速インターコネクト「NVLink」でGPU間を繋ぎ、巨大なユニファイドメモリ空間を作っています(例えばGB200 NVL72など)。これは強力なソリューションですが、特定のベンダーへの依存度が高まる側面があります。対してCXLは業界標準規格であり、様々なベンダーのメモリやアクセラレータを組み合わせられる柔軟性があります。

システム設計の観点からは、最高の性能を追求する「密結合クラスタ(NVLink)」と、コスト効率と拡張性を重視する「疎結合プール(CXL)」をどう組み合わせるかが、実務において重要な判断材料となります。

選定ベストプラクティス:ワークロード特性に基づくアーキテクチャ適合診断

万能なハードウェアは存在しません。自社のビジネス要件や現場の課題に合わせて、物理的な特性を見極めた選定が必要です。過度な最新技術の導入に走るのではなく、真に業務に役立つ解決策を見出すことが重要です。

モデルサイズ×許容レイテンシによるマトリクス選定法

推奨する選定フレームワークは、「モデルサイズ」と「許容レイテンシ」の2軸で構造的に捉えることです。

  1. 超巨大モデル(70B〜) × バッチ処理重視:
    HBM搭載のハイエンドGPU(H100/H200など)が必須です。スループットを最大化するために、メモリ帯域幅が広い選択肢をとります。

  2. 中規模モデル(〜70B) × 超低遅延(リアルタイム):
    SRAM特化型チップ(Groqなど)の検討価値が高いです。特にチャットボットや音声対話など、ユーザー体験が速度に直結する場合に力を発揮します。

  3. 小規模・エッジモデル(〜7B) × 省電力:
    LPDDRメモリ搭載のエッジデバイスや、将来的にはPIM搭載チップが最適解となります。

学習フェーズと推論フェーズで異なるメモリ要件

また、学習(Training)と推論(Inference)でも要件は異なります。学習は計算量が多く(Compute Boundになりやすい)、推論はメモリ帯域依存(Memory Bound)が強い傾向にあります。学習にはFLOPS重視のGPUを、推論には帯域幅重視の構成を選ぶという「分離運用」も、導入後の運用を見据えたコスト最適化の有効な手段となりつつあります。

将来のモデル肥大化を見越したインフラ投資計画

モデルは日々進化します。現在のモデルに合わせてスペックを選ぶのではなく、CXLのような拡張性を持ったインターフェースを備えたサーバーを選定しておくことで、将来的なメモリ増設の余地を残すことも、長期的なシステム運用において極めて重要です。

まとめ

LLM時代のAIインフラにおいて、ボトルネックは「演算」から「メモリ」へと移行しました。GPU稼働率が上がらない現象は、この物理的制約に対する明確な兆候です。

HBMによる帯域幅の拡張、PIMやSRAMによるデータ移動の削減、そしてCXLによるシステムレベルでのメモリ共有。これらの技術は、単なるスペック競争ではなく、物理法則の限界に挑むエンジニアリングの成果と言えます。

自社のワークロードが「計算律速」なのか「メモリ律速」なのかを論理的に診断し、適切なアーキテクチャを選定することが、AIプロジェクトのTCOを改善し、ビジネスの成功率を高めることに繋がります。現場の課題解決を最優先に、理論と実践の両面から最適なインフラ構築を目指すことが求められています。

GPU稼働率30%の衝撃:LLMの「メモリの壁」を突破する次世代アーキテクチャの物理学的解剖 - Conclusion Image

コメント

コメントは1週間で消えます
コメントを読み込み中...