- 自然言語処理(NLP)
- 人間が日常的に使う言葉(自然言語)をコンピューターが理解し、処理するためのAI技術分野です。テキストデータから意味を抽出し、分析・生成・翻訳などを行います。
- 大規模言語モデル(LLM)
- Transformerアーキテクチャを基盤とし、膨大なテキストデータで学習されたAIモデルです。自然な文章生成、質問応答、要約など、多様な言語タスクを高精度で実行します。
- Transformer
- 自然言語処理の分野で革新をもたらしたニューラルネットワークアーキテクチャです。アテンション機構により、文章中の単語間の関係性を効率的に捉え、BERTやLLMの基盤となっています。
- BERT
- Googleが開発したTransformerベースの事前学習モデルです。双方向の文脈を考慮して単語の意味を学習し、質問応答やテキスト分類など多くのNLPタスクで高い性能を発揮します。
- 形態素解析
- 日本語などのテキストを、意味を持つ最小単位の単語(形態素)に分割し、品詞や活用などの情報を付与する処理です。NLPにおけるテキスト前処理の重要なステップです。
- 単語分散表現
- 単語の意味を多次元の数値ベクトルで表現する技術です。これにより、単語間の類似度や意味的な関係性を数学的に扱うことが可能になり、NLPモデルの学習に利用されます。
- 感情分析
- テキストデータ(レビュー、SNS投稿など)から、書き手の感情(ポジティブ、ネガティブ、中立など)を自動で識別するNLP技術です。顧客の声の分析や市場調査に活用されます。
- 文章要約
- 長文のテキストから重要な情報を抽出し、元の意味を保ちながら簡潔な要約文を自動生成するNLP技術です。情報過多な現代において効率的な情報把握を支援します。
- 機械翻訳
- ある言語のテキストを、別の言語のテキストに自動で翻訳するNLP技術です。近年、TransformerやLLMの進化により、その精度は飛躍的に向上しています。
- チャットボット
- 自然言語処理技術を用いて、人間とテキストや音声で会話を行うAIプログラムです。顧客サポート、情報提供、Q&Aシステムなど多岐にわたる用途で利用されます。
- 固有表現抽出
- テキスト中から、人名、地名、組織名、日付、時間、金額などの固有の情報を自動で識別・抽出するNLP技術です。情報検索やデータ整理に役立ちます。
- 構文解析
- 文章の文法的な構造(主語、述語、目的語、修飾関係など)を解析するNLP技術です。文章の意味をより深く理解するために利用され、質問応答システムなどで活用されます。
- テキスト前処理
- 自然言語処理を行う前に、テキストデータを機械が分析しやすい形に変換する一連の処理です。正規化、ノイズ除去、トークン化(形態素解析など)が含まれます。
- ファインチューニング
- 大規模な汎用データで事前学習されたAIモデルを、特定のタスクやドメインの少量データを用いて追加学習させるプロセスです。モデルの専門性と精度を向上させます。
- コーパス構築
- AIモデルの学習や評価に用いるための、大量のテキストデータを収集・整理し、構造化するプロセスです。品質の高いコーパスはNLPシステムの性能を大きく左右します。
- アノテーション
- テキストデータに対し、特定の情報(品詞、固有表現、感情ラベルなど)を手動または半自動で付与する作業です。AIモデルの教師データ作成に不可欠です。
- ベクトル検索
- テキストや画像などのデータを数値ベクトルに変換し、ベクトル空間上での類似度に基づいて高速に検索する技術です。セマンティック検索やレコメンデーションに利用されます。
- Hugging Face
- 自然言語処理(NLP)および機械学習モデルを提供するプラットフォームおよびコミュニティです。多様な事前学習モデル、データセット、ツールキットを提供し、開発を加速します。
- MeCab
- オープンソースの日本語形態素解析エンジンです。日本語のテキストを単語に分割し、品詞などの情報を付与する基本的なNLPツールとして広く利用されています。
- 質問応答システム
- ユーザーからの自然言語による質問に対し、テキストデータの中から適切な回答を検索・生成して提供するNLPシステムです。チャットボットや検索エンジンの基盤となります。