- 大規模言語モデル (LLM)
- 膨大なテキストデータで事前学習され、人間のような自然言語理解・生成能力を持つAIモデル。GPTシリーズやBERTなどが代表的です。
- トランスフォーマー (Transformer)
- LLMの基盤となるニューラルネットワークアーキテクチャ。アテンション機構により、文章内の単語間の関係性を効率的に捉えます。
- アテンション機構
- トランスフォーマーの核心技術。入力シーケンスの異なる部分に異なる重み(注意)を割り当て、重要な情報に焦点を当てることで文脈理解を深めます。
- トークナイザー
- テキストをモデルが処理できる最小単位(トークン)に分割し、数値IDに変換するコンポーネント。LLMの言語処理の入り口です。
- 事前学習
- LLMが大量の汎用データ(インターネット上のテキストなど)から広範な知識と基本的な言語能力を獲得する学習フェーズです。
- ファインチューニング
- 事前学習済みモデルを、特定のタスクやドメインに特化した少量のデータで追加学習させ、性能を最適化するプロセスです。
- RLHF
- Reinforcement Learning from Human Feedback(人間のフィードバックによる強化学習)の略。人間の評価を基にモデルの応答を調整し、有用性や安全性を向上させる手法です。
- RAG
- Retrieval-Augmented Generation(検索拡張生成)の略。外部の情報源から関連情報を検索し、それを参照してLLMが回答を生成する手法です。ハルシネーション対策に有効です。
- ハルシネーション
- LLMが事実に基づかない、あるいは誤った情報を、あたかも真実であるかのように生成してしまう現象です。LLMの主な課題の一つです。
- プロンプト工学
- LLMから望む出力を得るために、効果的な入力(プロンプト)を設計・最適化する技術。モデルの性能を最大限に引き出す鍵となります。
- 文脈ウィンドウ
- LLMが一度に処理できる入力テキストの最大長。この長さによって、モデルがどれだけ広範な文脈を理解できるかが決まります。
- マルチモーダル
- テキストだけでなく、画像、音声、動画など複数の異なるデータ形式(モダリティ)を統合的に処理できるAIシステムの特性を指します。
- 量子化技術
- LLMのモデルパラメータの精度(ビット数)を低減し、モデルサイズを縮小することで、推論速度の向上とメモリ消費量の削減を図る技術です。
- パラメータ数
- LLMが学習する重みやバイアスなどの数値の総数。モデルの規模を表し、一般的にパラメータ数が多いほど高性能になる傾向があります。
- 埋め込みベクトル
- 単語や文などの意味を多次元の数値ベクトルとして表現したもの。意味的に近い単語はベクトル空間上で近くに配置されます。
- 推論コスト
- LLMが入力に対して出力を生成する際に発生する計算資源(GPU時間、電力など)やAPI利用料などの費用を指します。
- ベクトルDB
- 埋め込みベクトルを効率的に格納し、類似性に基づいて高速に検索できるデータベース。RAGシステムなどで利用されます。
- LoRA
- Low-Rank Adaptationの略。既存のLLMの重みに小さな低ランク行列を追加して学習することで、ファインチューニングを軽量かつ効率的に行う手法です。
- モデル蒸留
- 大規模な「教師モデル」の知識を、より小型で高速な「生徒モデル」に転移させることで、性能を維持しつつモデルを軽量化する技術です。
- 混合エキスパート (MoE)
- Mixture of Expertsの略。複数の専門家ネットワークを持ち、入力に応じて適切な専門家を選択して処理することで、大規模ながら効率的なモデルを実現します。