問い合わせ対応AI (社内RAG) ×ワークフロー連携

CS業務のFAQ対応をコードで解決。ハルシネーションを防ぐRAG実装の実践アプローチ

この記事は急速に進化する技術について解説しています。最新情報は公式ドキュメントをご確認ください。

2026年5月6日更新 2026年5月8日約10分で読めます

文字サイズ:

CS業務のFAQ対応をコードで解決。ハルシネーションを防ぐRAG実装の実践アプローチ

この記事の要点

社内ナレッジに基づいた高精度なAI応答を実現するRAG技術の活用
顧客満足度（CX）を損なわないAIと人間のハイブリッドなワークフロー設計
経営層を納得させるAI導入のROI算定と新たなKPI設定

「AIチャットボットを導入したのに、結局使い物にならなかった」——現場からそんな不満の声が上がることは珍しくありません。カスタマーサポートの業務効率化を目指してLLM（大規模言語モデル）を組み込んだものの、不正確な案内（ハルシネーション）を連発し、かえって現場の混乱を招いてしまうケースが数多く報告されています。

流行りのツールをただ繋ぎ合わせるだけでは、本番環境の厳しい要件には耐えられません。求められているのは、属人化したFAQ対応を確実にコードへ落とし込み、AIの振る舞いを技術的に統制するアプローチです。

自社のナレッジベースをAIに参照させる「RAG（Retrieval-Augmented Generation）」アーキテクチャの構築は、この課題に対する強力な一手となります。表面的な連携に留まらず、Pythonコードを通じて実際にどう動かすのか。実運用で破綻しないための設計原則と実装手順を、エンジニアの視点から深く掘り下げていきます。

カスタマーサポートにおける「RAG」実装の目的と全体像

カスタマーサポート業務において、AIが不正確な情報を顧客に伝えることは、致命的なクレームやブランド毀損に直結するリスクを孕んでいます。このリスクをいかにコントロールするかが、システム設計の要となります。

なぜ単純なGPT連携では不十分なのか

OpenAI APIなどが提供するLLMは、膨大な一般知識を持っています。しかし、特定の企業が持つ「自社固有の製品仕様」「最新の料金体系」「非公開の社内マニュアル」については学習していません。そのため、顧客から「エラーコード104の対処法は？」と問われた際、LLMは一般的な知識から推測して回答を生成してしまい、結果として事実と異なる案内をしてしまう事態が頻発します。

さらに、単純なLLM連携では「どのマニュアルのどの部分を根拠に回答したのか」というトレーサビリティ（追跡可能性）が確保できません。カスタマーサポートの自動化プログラムにおいて求められるのは、「創造性」ではなく絶対的な「正確性」と「根拠の明示」です。AIの推測を排除し、必ず自社の公式ドキュメントに基づいた回答を生成させるための仕組みが不可欠となります。

RAG（検索拡張生成）の基本アーキテクチャ

RAG（Retrieval-Augmented Generation）は、LLMの持つ言語能力と、外部のデータベース（自社ナレッジ）を結合させるアーキテクチャです。一般的に以下の3つのフェーズで構成されます。

Index（インデックス化）：社内のFAQやマニュアルをテキストデータとして読み込み、意味的なベクトルデータに変換してデータベースに保存する。
Retrieve（検索）：ユーザーからの質問文をベクトル化し、データベース内から意味的に最も近い（関連性の高い）ドキュメントを抽出する。
Generate（生成）：抽出したドキュメントを「コンテキスト（前提知識）」としてLLMに渡し、「この情報のみに基づいて回答を作成せよ」と厳格な指示を出す。

この仕組みにより、AIは外部知識を明示的に参照しながら回答を生成するため、ハルシネーションを大幅に抑制することが可能になります。また、回答の根拠となった社内ドキュメントのリンクをユーザーに提示することも容易になります。

開発環境のセットアップと必要なライブラリ

ここからは、実際にPythonを用いてRAGシステムを構築する手順に入ります。本番環境への移行を見据え、拡張性と保守性の高いライブラリ構成を採用します。

Python環境の構築

開発環境は、型ヒントなどの最新機能が安定して利用できるPython 3.10以上の環境を用意することを推奨します。プロジェクト用の仮想環境を作成し、必要なパッケージをインストールします。ここでは、LLM連携のデファクトスタンダードとなっているLangChainエコシステムと、軽量なベクトルデータベースであるChromaDBを使用します。

# 仮想環境の作成と有効化
python -m venv venv
source venv/bin/activate  # Windowsの場合は venv\Scripts\activate

# 必要なライブラリのインストール（最新バージョンは公式ドキュメントを参照）
pip install langchain langchain-openai langchain-chroma python-dotenv

OpenAI APIとVector DB（ChromaDB）の準備

コード内にAPIキーを直接記述することは、セキュリティ上の重大なインシデントに繋がります。必ず環境変数を利用して管理する設計にしてください。プロジェクトのルートディレクトリに .env ファイルを作成し、OpenAI公式サイトから取得したAPIキーを記述します。

# .envファイル（Git等のバージョン管理からは除外すること）
OPENAI_API_KEY=sk-your-api-key-here

ChromaDBはローカルで動作する軽量なベクトルデータベースであり、プロトタイピングから中規模なナレッジベース構築まで幅広く対応できます。特別なサーバー構築は不要で、Pythonパッケージをインストールするだけで即座に利用可能です。詳細な仕様や最新の機能については、公式ドキュメントを確認してください。

ステップ1：ドキュメントの分割とベクトル化（Embedding）

開発環境のセットアップと必要なライブラリ - Section Image

RAGの検索精度を決定づける最も重要なプロセスが、ドキュメントの分割（チャンク化）とベクトル化です。ここで手を抜くと、後続の検索処理が機能しなくなります。

長いマニュアルを適切に刻む「チャンク分割」

PDFやテキスト形式の長大なマニュアルをそのままデータベースに投入しても、検索効率は上がりません。LLMには一度に処理できるトークン数の上限があり、また検索の精度を高めるためには、意味のまとまりごとにテキストを適切なサイズ（チャンク）に分割する必要があります。

以下は、LangChainの RecursiveCharacterTextSplitter を用いて、テキストを分割するコード例です。

import os
from dotenv import load_dotenv
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain_chroma import Chroma

# 環境変数の読み込み
load_dotenv()

# 1. ドキュメントの読み込み（例として社内FAQのテキストファイル）
loader = TextLoader("./data/faq_knowledge.txt", encoding="utf-8")
documents = loader.load()

# 2. チャンク分割の設定
# チャンクサイズは検索精度に直結する。大きすぎるとノイズが混じり、小さすぎると文脈が失われる。
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,       # 1チャンクあたりの目安となる文字数
    chunk_overlap=50,     # チャンク間の重複文字数（文脈の分断を防ぐ役割）
    separators=["\n\n", "\n", "。", " ", ""]  # 分割の優先順位（段落、行、句点の順）
)

# ドキュメントの分割実行
chunks = text_splitter.split_documents(documents)
print(f"ドキュメントを {len(chunks)} 個のチャンクに分割しました。")

ベクトルデータベースへのデータ登録

分割したチャンクを、OpenAIのEmbeddingモデル（テキストの意味を多次元の数値配列に変換するモデル）を使用してベクトル化し、ChromaDBに格納します。OpenAI公式サイトのガイドラインによると、Embeddingモデルを利用することで、テキスト間の意味的な関連性を高精度に測定可能になります。

# 3. ベクトル化とChromaDBへの保存
# 最新のEmbeddingモデルの指定方法についてはOpenAIの公式ドキュメントを参照してください
embeddings = OpenAIEmbeddings()

# データベースの保存先ディレクトリを指定（永続化）
persist_directory = "./chroma_db"

# ChromaDBの初期化とデータの登録
vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory=persist_directory
)

print("ベクトルデータベースの構築が完了しました。")

これで、AIが検索するための「外部知識のインデックス」が完成しました。実運用では、ドキュメントが更新された際にこのインデックスを自動的に再構築するデータパイプラインが必要になります。

ステップ2：ユーザーの質問に対する関連情報の検索と回答生成

ステップ1：ドキュメントの分割とベクトル化（Embedding） - Section Image

次に、構築したデータベースに対してユーザーの質問を投げかけ、回答を生成するロジックを実装します。

質問文のベクトル変換と類似度検索

ユーザーの質問文も同様にベクトル化し、データベース内のチャンクと類似度（コサイン類似度など）を計算して、関連性の高い情報を抽出します。

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

# 保存したデータベースの読み込み
vectorstore = Chroma(persist_directory="./chroma_db", embedding=OpenAIEmbeddings())

# 検索器（Retriever）の設定
# k=3 は、類似度の上位3件のチャンクを取得するという意味
retriever = vectorstore.as_retriever(search_kwargs={"k": 3})

# ユーザーの質問
user_query = "パスワードを忘れた場合の再発行手順を教えてください。"

# 検索の実行（内部で質問文のベクトル化と類似度検索が自動で行われる）
retrieved_docs = retriever.invoke(user_query)

検索結果を組み込んだプロンプトエンジニアリング

抽出した情報をコンテキストとしてGPTモデルに渡し、回答を生成させます。ここで極めて重要なのが、「回答できない場合は不明と答える」という制約をプロンプトに明記することです。これがハルシネーションを防ぐ最後の砦となります。

OpenAIの公式ドキュメントによれば、GPT-4oやo1シリーズなどの最新モデルは高度な推論能力を備えています。しかし、コンテキスト外の推測を禁止するプロンプトを明示しなければ、事実と異なる回答を生成するリスクはゼロになりません。

# プロンプトテンプレートの定義
# システムプロンプトでAIの役割と厳格な制約を定義する
template = """
あなたは優秀なカスタマーサポートアシスタントです。
以下の【参考情報】のみに基づいて、ユーザーの【質問】に答えてください。

ルール：
1. 【参考情報】に記載されていない事柄については、絶対に推測で答えないでください。
2. 答えが【参考情報】に見つからない場合は、「申し訳ありませんが、お探しの情報は見つかりませんでした。サポート窓口までお問い合わせください。」とだけ回答してください。
3. 回答は丁寧なトーンで、簡潔にまとめてください。

【参考情報】
{context}

【質問】
{question}
"""

prompt = ChatPromptTemplate.from_template(template)

# LLMの初期化（temperatureを0に設定し、ランダム性を排除して決定論的な回答にする）
# 利用可能な最新モデルについてはOpenAI公式サイトのドキュメントをご確認ください。
llm = ChatOpenAI(temperature=0)

# 抽出したドキュメントをテキストに結合するヘルパー関数
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

# LangChainのLCEL（LangChain Expression Language）を用いたチェーンの構築
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

# 回答の生成
response = rag_chain.invoke(user_query)
print("回答:", response)

エラーハンドリングと精度向上のためのベストプラクティス

プロトタイプとしては上記で動作しますが、実運用においては様々な例外に対処する必要があります。本番投入で直面する課題を事前に把握しておくことが重要です。

検索結果がゼロだった場合の処理

ユーザーの質問が自社のドキュメントと全く関連がない場合、類似度検索のスコアが著しく低くなります。LangChainの機能を使用してスコアを取得し、一定の閾値に達しない場合はLLMを呼び出さずに即座にフォールバック処理（有人サポートへのエスカレーションなど）を行う設計が、APIコストとレスポンスタイムの観点から有効です。無駄なAPI呼び出しを防ぐことは、安定した運用において必須の要件となります。

トークンコストの最適化

検索で抽出するチャンク数（kの値）を増やせば回答に必要な情報が含まれる確率は上がります。しかし、同時にLLMに渡すコンテキスト長が増大し、APIの利用料金が高騰します。また、コンテキストが長すぎるとLLMが中盤の重要な情報を見落とす「Lost in the Middle」という現象も報告されています。

費用対効果を評価する際のチェックポイントとして、チャンクサイズと抽出件数のバランスを調整し、定期的に回答精度を評価するハーネス（自動テスト環境）を構築することが強く推奨されます。さらに、LangChainのキャッシュ機能を利用して、過去の同一質問に対する回答をデータベースに保存しておくことで、APIコストを大幅に削減することも可能です。詳細な料金体系やトークン制限については、OpenAI公式サイトの料金ページで確認してください。

まとめ：DIYで始めるCS業務のAI自動化

カスタマーサポートにおけるRAG実装の目的から、Pythonコードを用いた具体的な構築手順までを見てきました。属人化した知識をシステムに組み込む第一歩として、このアプローチは非常に有効です。

今回の実装でできること・できないこと

今回実装したコードは、自社のナレッジベースに基づく正確な回答生成のコアロジックです。しかし、これ単体ではエンドユーザーに提供できません。実際の運用では、チャットUI（フロントエンド）との結合、ユーザーのセッション管理（会話履歴の保持）、そして定期的なドキュメント更新をベクトルデータベースに反映させるデータパイプラインの構築が必要となります。

次のステップ：UI実装と本番運用への道

まずは社内の情報システム部門やCSチーム内でのプロトタイプ運用からスモールスタートを切ることをお勧めします。実際の問い合わせ履歴を用いてAIの回答精度を検証し、チャンク分割の戦略やプロンプトの微調整を繰り返すことで、本番投入に耐えうる品質へと引き上げることが可能です。

とはいえ、本番環境を見据えたスケーラブルなアーキテクチャ設計や、LangGraph等を用いた高度なマルチエージェント化、セキュリティ要件を満たすインフラ構築には、特有のノウハウが求められます。自社への適用を検討する際は、専門家への相談で導入リスクを軽減できます。個別の状況や既存システムとの連携に応じたアドバイスを得ることで、より効果的で確実なAI導入が可能になります。自社のナレッジを最大限に活かした自律的なサポート体制の構築に向けて、まずは現状の課題整理から始めてみてはいかがでしょうか。

参考リンク

k=3 は、類似度の上位3件のチャンクを取得するという意味 - Section Image 3

CS業務のFAQ対応をコードで解決。ハルシネーションを防ぐRAG実装の実践アプローチ - Conclusion Image

参考文献

コメントは1週間で消えます

コメントを読み込み中...