- ベクトル(Vector)
- テキスト、画像、音声などのデータを数値の配列として表現したもの。多次元空間内の点の位置として扱われ、その方向や距離がデータの意味的な特徴や類似性を示します。
- 埋め込みモデル(Embedding Model)
- テキストや画像をベクトルに変換するAIモデル。異なる種類のデータでも共通のベクトル空間にマッピングし、AIが理解できる形式にします。
- セマンティック検索(Semantic Search)
- キーワードの表面的な一致だけでなく、言葉の意味や文脈を理解して関連性の高い情報を検索する手法。ベクトルデータベースの主要な用途の一つです。
- RAG(Retrieval-Augmented Generation)
- 大規模言語モデル(LLM)が、外部のデータベースから関連情報を取得(Retrieval)し、それを基に回答を生成(Generation)するアーキテクチャです。
- 近似最近傍探索(ANN)
- 大規模なベクトルデータセットの中から、クエリベクトルに最も近いベクトルを高速に近似的に見つけ出すアルゴリズム。検索速度と精度のバランスが重要です。
- インデックス手法(Indexing Methods)
- ベクトルデータを効率的に管理し、高速な検索を可能にするためのデータ構造やアルゴリズム。HNSWやIVFなどが代表的です。
- 次元圧縮技術(Dimensionality Reduction)
- ベクトルの次元数を減らすことで、ストレージ要件を削減し、検索速度を向上させる技術。PCA、PQなどが含まれます。
- 類似度スコア(Similarity Score)
- 2つのベクトルがどれだけ似ているかを示す数値。コサイン類似度、ユークリッド距離などが一般的に用いられます。
- ハイブリッド検索(Hybrid Search)
- キーワードベースの検索(BM25など)とベクトルベースのセマンティック検索を組み合わせ、両者の利点を活かして検索精度を高める手法です。
- メタデータ管理(Metadata Management)
- ベクトルデータに付随する追加情報(作成日時、カテゴリ、著者など)を管理すること。検索結果のフィルタリングや精度向上に活用されます。
- LangChain
- 大規模言語モデルを活用したアプリケーション開発を効率化するためのフレームワーク。ベクトルデータベースとの連携機能も豊富に提供されます。
- LlamaIndex
- 大規模言語モデルと外部データソース(ベクトルデータベースなど)を接続し、RAGアプリケーションを構築するためのフレームワークです。
- Pinecone
- マネージドサービスとして提供される高性能なベクトルデータベース。スケーラビリティと使いやすさに定評があります。
- Weaviate
- オープンソースでありながら、セマンティック検索、RAG、マルチモーダル対応に強みを持つベクトルデータベースです。
- Chroma
- 軽量で使いやすいオープンソースのベクトルデータベース。ローカル環境での開発や小規模なアプリケーションに適しています。
- Milvus
- 大規模なベクトル検索に対応するオープンソースのベクトルデータベース。スケーラビリティと柔軟なデプロイオプションが特徴です。
- データ同期(Data Synchronization)
- ベクトルデータベース内のデータを、元のデータソースの更新に合わせて最新の状態に保つプロセス。RAGの鮮度維持に不可欠です。
- スケーラビリティ(Scalability)
- データ量やクエリ負荷の増加に対応して、システムの性能を維持・向上させる能力。水平スケーリングやシャーディングなどが関連技術です。
- マルチモーダルAI(Multimodal AI)
- テキスト、画像、音声など複数の異なる種類のデータを同時に処理・理解・生成できるAI。ベクトルデータベースがその基盤となります。
- パーソナライズ(Personalization)
- ユーザーの行動履歴や好みに基づいて、個々に最適化された情報やサービスを提供する機能。ベクトルDBが推薦システムなどで活用されます。