AI出力の信頼性スコアリング:Confidence Scoreを用いたハルシネーション検知

LLMの「自信」を数値化する:Logprobsを用いたハルシネーション検知と信頼性スコアリング実装

この記事は急速に進化する技術について解説しています。最新情報は公式ドキュメントをご確認ください。

約14分で読めます
文字サイズ:
LLMの「自信」を数値化する:Logprobsを用いたハルシネーション検知と信頼性スコアリング実装
目次

この記事の要点

  • AI出力の「確信度」を数値化し、信頼性を可視化
  • 大規模言語モデル(LLM)のハルシネーション検知に貢献
  • OpenAI APIのLogprobsなど内部指標を活用

はじめに:AIの「もっともらしさ」に騙されないために

PoC(概念実証)の段階で優れた生成結果を示したAIであっても、実際の業務プロセスに組み込む本番運用においては、その不確実性が最大のリスク要因となります。「ハルシネーション(幻覚)」は現在のLLM(大規模言語モデル)の構造上、完全に避けることのできない仕様です。

しかし、システムを安定稼働させるためには、この仕様を構造的に捉え、適切に制御・管理する方法が求められます。

プロンプトで「嘘をつかないで」と指示したり、すべての出力を目視でチェックしたりする対策は、導入後の運用を見据えた場合、スケーラビリティに欠けます。実務において真に必要なのは、AIの回答の信頼性を客観的な数値として評価し、システム全体でリスクを管理する仕組みです。

本記事では、LLMのテキスト生成の根本的な仕組みである「確率(Logprobs)」に立ち返り、AIの「自信(Confidence)」をスコア化してリスクを制御する技術的ロードマップを丁寧に解説します。

感覚的な評価から脱却し、現場の課題解決に直結する、数理的根拠に基づくAI導入へと進めていきましょう。


学習パスの概要:なぜ「確信度」がAI制御の鍵なのか

本コースのゴール:感覚的な評価からの脱却

本記事では、以下の4ステップでLLMの出力信頼性を定量的な指標として扱い、業務システムへ安全に統合するためのアプローチを解説します。

  1. 理論編:LLMがトークンを選択する確率的メカニズムを理解する。
  2. 実装編:OpenAI APIからLogprobs(対数確率)を取得し、信頼度スコアを算出する。
  3. 検証編:スコアとハルシネーションの相関を分析し、適切な閾値を決定する。
  4. 応用編:RAGシステムやUIに組み込み、業務上のリスクを回避するUXを設計する。

これにより、「信頼性スコアが95%以上である」といった定量的根拠を持ってシステムを運用し、現場の業務に真に役立つAI活用が可能になります。

前提知識チェック:確率的生成モデルの基本

LLMは単なる「知識ベース」ではなく、「確率的トークン予測器」として機能します。

データベースが確定的な事実を検索するのに対し、LLMは与えられた文脈に基づき「次に来る確率が最も高い単語」を予測して文章を構築します。ハルシネーションは、この確率的な選択が事実と異なる方向に進んでしまった結果生じる現象です。

逆に言えば、モデルが単語を選択する際の「迷い」を検知することができれば、ハルシネーションのリスクを事前に予見できる可能性が高まります。ここで鍵となるのが Logprobs(対数確率)です。モデルの内部状態を数値化することで、出力の確からしさを客観的に評価します。

準備するもの:Python環境とAPIキー

本記事のコードを実行し、最新のLogprobs機能を利用するには以下の環境が必要です。

  • Python 3.8以上
  • OpenAI API Key
    • 重要なお知らせ(2026年2月時点): かつての標準モデル gpt-3.5-turbo は提供を終了しています。また、利用率低下に伴い GPT-4oGPT-4.1GPT-4.1 miniOpenAI o4-mini などのレガシーモデルも2026年2月13日をもって廃止されました。
    • 本ガイドの実装には、現在の業務標準モデル GPT-5.2 をご利用ください。GPT-5.2 は100万トークン級のコンテキストに対応し、高度な推論能力と長文の安定処理が特徴です。コーディング等の開発タスクには、2026年2月発表のエージェント型モデル GPT-5.3-Codex も適しています。これらの最新モデルは推論能力が飛躍的に向上しており、より精緻な確率分布の取得が期待できます。
    • 移行手順: 既存システムでレガシーモデルを使用している場合は、API呼び出し時のモデル指定を gpt-5.2 等に変更し、プロンプトの挙動を再テストして移行を進めてください。
  • openai ライブラリ
    • 最新のAPI仕様や新モデル名に対応するため、常に最新バージョン(pip install --upgrade openai)の使用を推奨します。

環境の準備が完了したら、理論と実践の両面から確率的メカニズムの裏側を紐解いていきましょう。

Step 1【理論編】:トークン予測とLogprobsの仕組みを理解する

Step 1【理論編】:トークン予測とLogprobsの仕組みを理解する - Section Image

まずはLLMの推論プロセスを数式レベルで俯瞰し、「なぜ対数(Log)を使用するのか」という技術的な背景を明確にします。

LLMは次の一語をどう選ぶか:Softmax関数と確率分布

LLMが「今日の天気は」という入力を受け取った際、内部では全語彙に対して「次に来る可能性」を計算しています。最終層でこれらの値を Softmax関数 に通すことで、合計が1.0(100%)になる確率分布へと変換します。

例えば、以下のような分布になります。

  • 「晴れ」: 0.70
  • 「雨」: 0.20
  • 「曇り」: 0.09
  • 「ピザ」: 0.00001

通常(Temperature=0に設定した場合)、最も確率の高い「晴れ」が選択されます。この0.70という数値が、モデルの「自信」の源泉となります。

Logprobs(対数確率)とは何か?なぜ対数を使うのか

APIから返却される値は、生の確率(0.70)ではなく、対数を取った Logprobs(例:$\log(0.70) \approx -0.35$)として提供されます。

対数を用いる主な理由は、以下の2点に集約されます。

  1. 計算の安定性(アンダーフロー防止)
    文章全体の確率は、各トークンの確率の掛け算(例:$0.7 \times 0.6 \times 0.8 \dots$)で表されます。確率は0〜1の値であるため、掛け合わせると急速にゼロに近づき、コンピュータの浮動小数点数では正確に表現できなくなります(アンダーフロー)。対数を取れば、掛け算を足し算($\log(A \times B) = \log A + \log B$)に変換でき、数値を安定して扱うことが可能になります。

  2. 情報理論との親和性
    対数確率は情報量やエントロピーの計算に直結しており、モデルの不確実性を評価する指標として非常に適しています。

Perplexity(困惑度)との関係性

自然言語処理における評価指標である Perplexity(PPL) も、このLogprobsを基に計算されます。

$ PPL = \exp\left( -\frac{1}{N} \sum_{i=1}^{N} \log P(w_i | w_{<i}) \right) $

これは直感的に言えば「Logprobsの平均値の逆数に相当するもの」です。Perplexityが低いほど、モデルは迷いなく次の単語を予測できている状態を示します。

💡 Step 1 確認クイズ

Q: あるトークンの確率が 1.0 (100%) のとき、その Logprob はいくつになるでしょうか?

A. 1.0
B. 0.0
C. 無限大

正解を見る B. 0.0
解説: $\log(1) = 0$ です。確率は0〜1の範囲を取るため、Logprob(自然対数)は $-\infty$ から $0$ の範囲の負の値を取ります。0に近いほど自信がある(確率が高い)ことを意味します。

Step 2【実装編】:APIから「自信」の数値を取得する

実際のシステム開発を想定し、Pythonコードを用いてOpenAI APIからLogprobsを取得する手順を確認します。最新モデルにおいても基本的なインターフェースは共通しており、同様の手法で実装が可能です。

OpenAI APIにおけるlogprobsパラメータの設定

OpenAIのChat Completions APIでは、logprobs=True を指定することでトークンごとの対数確率を取得できます。さらに top_logprobs を指定すると、「次点の候補」も併せて確認することが可能です。

以下は、最新のSDK(v1.0以降)に対応した基本的なデータ取得用のコード例です。

from openai import OpenAI
import math

# APIキーは環境変数などで適切に管理してください
client = OpenAI()

def get_completion_with_logprobs(prompt):
    response = client.chat.completions.create(
        # 最新のモデルIDを指定(例: ChatGPT, ChatGPTなど)
        # ※モデルIDは頻繁に更新されるため、公式ドキュメントで最新版を確認してください
        model="ChatGPT",
        messages=[
            {"role": "system", "content": "あなたは親切なアシスタントです。"},
            {"role": "user", "content": prompt}
        ],
        logprobs=True,      # ここが重要!
        top_logprobs=2      # 上位2つの候補を取得
    )
    
    return response.choices[0]

# テスト実行
result = get_completion_with_logprobs("日本の首都はどこですか?")
content = result.message.content
# ログプロブデータへのアクセス
logprobs_data = result.logprobs.content if result.logprobs else []

print(f"回答: {content}")
print("--- トークン別信頼度 ---")
for item in logprobs_data:
    token = item.token
    logprob = item.logprob
    # 対数を確率(%)に戻す: exp(logprob) * 100
    probability = math.exp(logprob) * 100
    print(f"Token: '{token}' | Logprob: {logprob:.4f} | Confidence: {probability:.2f}%")

トークンごとのスコアを文章全体の信頼度に変換する方法

個々のトークンの確率を「回答全体の信頼度スコア」として集約するには、いくつかのアプローチが存在します。

  1. 平均確率(Average Probability): 全トークンの確率の平均値。文章全体の流暢さを測る指標として適しています。
  2. 最小確率(Min Probability): 最も自信のないトークンの確率。ハルシネーションの検知において特に重要な指標となります。
  3. パープレキシティ(Perplexity): 対数確率の平均から算出される総合的な指標です。

実務におけるハルシネーション検知では、「最小確率」または「低い確率のトークンの割合」を監視することが推奨されます。最新のLLMは文章構成力が高く、事実と異なる内容を生成する際も流暢であるため、全体の平均スコアは高くなりがちです。しかし、捏造された固有名詞や数値の箇所においてのみ、局所的に確率が低下する傾向が見られます。

def calculate_confidence_score(logprobs_content):
    if not logprobs_content:
        return {"min_confidence": 0.0, "avg_confidence": 0.0}

    probs = [math.exp(item.logprob) for item in logprobs_content]
    
    min_prob = min(probs)
    avg_prob = sum(probs) / len(probs)
    
    return {
        "min_confidence": min_prob,
        "avg_confidence": avg_prob
    }

score = calculate_confidence_score(logprobs_data)
print(f"最小信頼度: {score['min_confidence']:.4f}")
print(f"平均信頼度: {score['avg_confidence']:.4f}")

💡 Step 2 実装のポイント

  • 線形確率への変換: math.exp() を使用して変換します。Logprobの数値(例: -0.05 vs -0.5)で比較するよりも、パーセンテージ(95% vs 60%)で表現した方が、直感的に状況を把握しやすいためです。
  • ストップワードの除外: 「て」「に」「を」「は」などの助詞は、構造上確率が高く算出されがちです。平均値の不当な押し上げを防ぐため、重要な名詞や動詞に絞ってスコアリングを行う手法も実務上有効です。
  • モデルによる差異: 最新モデル(ChatGPTやその派生モデルなど)は「自信過剰(Calibration Error)」な傾向を示す場合があります。実際の業務フローに組み込む際は、特定のしきい値(例: 信頼度80%未満は人間の確認を挟むなど)を設定し、運用を見据えてモデルごとに調整することが重要です。

Step 3【検証編】:スコアとハルシネーションの相関を見極める

Step 3【検証編】:スコアとハルシネーションの相関を見極める - Section Image

スコアの算出ロジックを実装した後は、それが「実際にハルシネーションを検知できているか」を検証するプロセスが不可欠です。

Calibration(較正):モデルの自信と実際の正答率は一致するか

理想的なモデルは、正答率が80%の問題に対して、自身の確信度も80%程度を示します。これを Calibration(較正) と呼びます。

しかし、近年のLLM、特にRLHF(人間によるフィードバック強化学習)を経たモデルにおいては、誤った回答であっても99%の自信で出力してしまう Overconfidence(自信過剰) の傾向が確認されています。

そのため、「スコアが高い=絶対に正しい」と盲信することはできませんが、「スコアが低い=不確実性が高い」という相関関係は依然として強力な指標となります。

嘘をつくときほど自信満々なケース(Overconfidence)の検知

単純なLogprobsだけでは見抜くことが難しい「自信満々の誤情報」に対抗するため、実務では以下の手法を組み合わせることが有効です。

  1. Self-Consistency(自己無撞着性):
    同一のプロンプトに対し、Temperature(温度パラメータ)を上げて複数回(例:5回)実行し、出力結果にバラつきが生じるかを確認します。事実に基づく確固たる情報であれば毎回同じ回答になりますが、ハルシネーションの場合は内容が揺らぐ傾向があります。

  2. トークンレベルの揺らぎ検知:
    top_logprobs を確認し、1位と2位の候補の確率差(Margin)を分析します。この差が小さい場合、モデルが内部で選択に迷っていることを示唆しています。

最適な閾値(Threshold)の決定プロセス

実際のシステム運用においては、業務要件に合わせて以下のように閾値を設定し、システム全体の挙動を設計する必要があります。

  • 高信頼ゾーン(例: Min > 80%): そのままユーザーに提示して処理を進める。
  • 要確認ゾーン(例: 50% < Min < 80%): 「情報の確度は保証できません」といった注釈を付与する。
  • 危険ゾーン(例: Min < 50%): 回答を拒否する、あるいは検索(RAG)プロセスを再実行する。

この閾値は、対象となる業務ドメインの特性(医療や金融などの厳密性が求められる分野か、クリエイティブな分野か)に応じて慎重に調整することが求められます。テストデータセットを用い、Precision(適合率)とRecall(再現率)のバランスを定量的に評価しながら決定していきます。

💡 Step 3 確認クイズ

Q: モデルが「自信満々の嘘」をつく原因として、最も可能性が高いプロセスはどれですか?

A. 事前学習(Pre-training)
B. RLHF(Reinforcement Learning from Human Feedback)
C. トークナイゼーション

正解を見る B. RLHF
解説: RLHFは、人間が好む回答をするようにモデルを調整するプロセスです。人間は「自信なさげな回答」よりも「断定的な回答」を好む傾向があるため、モデルは不確実な情報であっても自信満々に答えるよう学習してしまうことがあります(Sycophancy: おべっか使い現象)。

Step 4【応用編】:RAGシステムへの組み込みとUX設計

テスト実行 - Section Image 3

最後に、このスコアリング技術を実際の業務アプリケーション、特にRAG(Retrieval-Augmented Generation)システムに組み込み、運用を最適化する方法を解説します。

検索結果(Context)の関連性スコアリングへの応用

通常のRAGシステムではベクトル検索の類似度(Cosine Similarity)を指標としますが、生成時のLogprobsを併用することで、システム全体の精度をさらに高めることができます。

  • 生成結果の検証: 検索して得られたドキュメントをContextとして与え、回答を生成させた際、回答のConfidence Scoreが著しく低い場合、「検索結果の中に適切な答えが含まれていなかった(またはモデルが文脈を正しく理解できなかった)」と客観的に判断することが可能です。

スコアが低い場合のフォールバック戦略

スコアが閾値を下回った場合、業務への影響を最小限に抑えるため、システムは以下のようなフォールバック戦略をとるよう設計します。

  1. Refusal(回答拒否): 「申し訳ありませんが、確実な情報が見当たりませんでした」と誠実に伝える。誤った情報を業務フローに流すよりも、はるかに安全な選択です。
  2. Human-in-the-loop: チャットボットなどのインターフェースであれば、人間のオペレーターへのエスカレーションを提案する。
  3. Web検索への切り替え: 社内のナレッジベースに情報が存在しないと判断した場合、外部の検索APIなどを活用して追加の情報を取得しにいく。

ユーザーへの「自信なさ」の伝え方

技術的な制御だけでなく、非技術者のユーザーにも分かりやすく状態を伝えるUXライティングも重要です。
算出されたスコアに応じて、回答のトーンを動的に変化させる実装も実務上非常に効果的です。

  • 高スコア時: 「〜です。」(断定的な表現)
  • 中スコア時: 「〜である可能性が高いです。」「〜という情報が見つかりました。」(推測や引用を示す表現)
  • 低スコア時: 「確証はありませんが、〜かもしれません。念のため一次情報を確認してください。」(注意喚起を伴う表現)

不確実性を可視化し、ステークホルダーと適切に共有することが、現場で真に活用されるAIシステムを構築する第一歩となります。


学習リソースと次のステップ

Logprobsを用いた信頼性スコアリングの基礎理論から、具体的な実装方法までを解説しました。
AIのハルシネーションを完全に排除することは困難ですが、定量的に計測可能にすることで、システム全体のリスクを構造的に管理し、安全な運用を実現できるようになります。

次に学ぶべき技術:RLHFと不確実性推定

さらに専門的な知見を深め、業務プロセス改善に活かしたい方には、以下のトピックの学習をおすすめします。

  • Uncertainty Estimation(不確実性推定): Monte Carlo Dropoutなど、より高度な数理的アプローチを用いた手法。
  • Self-Check GPT: 複数のサンプルを生成し、それらの整合性をチェックすることで信頼性を担保する論文手法。
  • NEMO Guardrails: NVIDIAが提供する、LLMの出力を安全に制御するためのオープンソースツールキット。

LLMの「自信」を数値化する:Logprobsを用いたハルシネーション検知と信頼性スコアリング実装 - Conclusion Image

コメント

コメントは1週間で消えます
コメントを読み込み中...