- LLM (Large Language Model)
- 大規模言語モデル。大量のテキストデータで学習し、人間のような自然言語を理解し生成する能力を持つAIモデルです。質問応答、文章生成、要約、翻訳など多岐にわたるタスクを実行します。
- ローカルLLM
- クラウドサービスに依存せず、個人のPCやオンプレミスのサーバーなど、自前の環境で動作させるLLMのことです。データプライバシーの確保やコスト削減、オフライン利用が可能になる点が特徴です。
- llama.cpp
- C/C++で実装されたLLMの推論エンジン。GGUF形式のモデルを効率的に動作させることができ、CPUやApple Silicon、NVIDIA GPUなど多様なハードウェアで軽量にLLMを実行することを可能にします。
- GGUF量子化
- llama.cppで利用されるモデルファイル形式(GGUF)において、モデルのパラメータを低ビット数(例:4bit、8bit)で表現する量子化技術です。モデルサイズとVRAM使用量を削減し、推論速度を向上させます。
- VRAM (Video RAM)
- ビデオランダムアクセスメモリ。GPUに搭載されている高速なメモリで、AIモデルのパラメータや中間データ、計算結果などを一時的に保持するために使用されます。LLMの動作に不可欠なリソースです。
- 量子化 (Quantization)
- AIモデルのパラメータをより少ないビット数(例:浮動小数点数から整数)で表現する技術です。モデルのサイズを縮小し、メモリ使用量と計算量を削減することで、推論速度とエネルギー効率を向上させます。
- LoRA (Low-Rank Adaptation)
- 大規模言語モデル全体を再学習することなく、少量の追加パラメータ(アダプター)を学習させることで、特定のタスクやデータセットにモデルを適応させる効率的な微調整手法です。GPUリソースを節約できます。
- Ollama
- ローカル環境でLLMのダウンロード、実行、管理を簡素化するためのオープンソースツールです。Dockerのような手軽さで多様なオープンソースモデルを動作させることができ、APIも提供されます。
- WSL2 (Windows Subsystem for Linux 2)
- Windows上でLinux環境を統合的に実行するための機能です。GPUパススルーに対応しており、Windows PCでLinuxベースのLLM開発環境を構築する際に広く利用されます。
- Docker
- アプリケーションとその実行に必要なすべての要素をコンテナと呼ばれる独立した環境にパッケージ化する技術です。LLM環境構築において、依存関係の管理やポータビリティを容易にします。
- マルチモーダルAI
- テキストだけでなく、画像、音声、動画など複数の異なる種類のデータを同時に処理・理解できるAIモデルです。ローカルLLMでも、画像認識や音声処理との連携が進んでいます。
- 推論速度最適化
- LLMが入力に対して出力を生成するまでの時間を短縮するための技術や手法です。量子化、バッチ処理、ハードウェアアクセラレーション、効率的なアルゴリズムの採用などが含まれます。
- ベンチマーク計測
- LLMの性能(推論速度、精度、メモリ使用量など)を客観的に評価するために、標準化されたテストセットやタスクを用いて測定することです。ハードウェア選定やモデル比較の重要な指標となります。
- Dify
- LLMアプリケーションの開発を支援するプラットフォームです。プロンプトエンジニアリング、RAG構築、エージェント機能などをGUIで提供し、ローカルLLMとの連携も可能です。
- APIサーバー連携
- ローカルで動作するLLMを、RESTful APIなどのインターフェースを通じて他のアプリケーションやサービスから利用できるようにすることです。FastAPIなどがよく用いられます。
- WebUI (Web User Interface)
- Webブラウザを通じてLLMと対話したり、設定を変更したりするためのグラフィカルユーザーインターフェースです。Text generation-webuiなどが代表的で、ローカルLLMの操作性を向上させます。
- Flash Attention
- Transformerモデルのアテンション機構を高速化し、メモリ使用量を削減する技術です。特に長いシーケンス長を扱う際に効果を発揮し、VRAM不足の緩和にも寄与します。
- RAG (Retrieval Augmented Generation)
- 検索拡張生成。LLMが外部の知識ベース(ドキュメント、データベースなど)から関連情報を検索し、その情報に基づいて応答を生成する手法です。LLMの知識をリアルタイムに更新し、ハルシネーションを低減します。