画像認識AIの実装におけるコサイン類似度スコアのキャリブレーション技術

画像認識の類似度スコアを「確率」に変える：キャリブレーション技術による閾値設計の最適化手法

2026年1月5日更新 2026年2月25日約16分で読めます

文字サイズ:

画像認識の類似度スコアを「確率」に変える：キャリブレーション技術による閾値設計の最適化手法

この記事の要点

画像認識AIにおけるコサイン類似度スコアの「未補正」問題とその影響
スコアを「確率」として解釈するためのキャリブレーション技術の必要性
Platt ScalingやIsotonic Regressionといった具体的なキャリブレーション手法

画像認識やベクトル検索エンジンの開発現場において、多くのエンジニアが一度は直面する不可解な現象について解説します。

実務の現場では、以下のような状況が頻発する傾向があります。

モデルの学習が順調に進み、Validation Lossも十分に低下したため、実データで検索システムを稼働させるケースを想定します。

リリース前のテストを実施した際、類似度スコア0.95という高い値が出ているにもかかわらず、全く別の物体がヒットすることがあります。あるいは逆に、類似度0.6程度でありながら、明らかに同一人物（または同一物体）であるケースが見逃されることも少なくありません。

類似度0.9であれば、90%程度の確率で正解であると認識されがちです。

本記事では、このような認識のズレが生じるメカニズムと、その解決策について体系的に解説します。

結論から申し上げますと、深層学習モデルが出力する生のコサイン類似度やソフトマックス確率は、実際の「正解率（信頼度）」とは必ずしも一致しません。特に最近の強力なニューラルネットワークは、自信過剰（Overconfident）になる傾向があります。

このズレを放置したまま直感的に閾値を設定することは、プロジェクトのリスクを高めます。ビジネス要件を満たす精度を担保し、ROIを最大化するためには、スコアを「信頼できる確率」へと補正する技術、すなわちキャリブレーション（Calibration）が不可欠です。

今回は、このキャリブレーション技術について、理論的な背景からPythonによる実装、そして実務での閾値設計まで、一つの学習パスとして体系的に解説していきます。

数式は必要最小限に留め、直感的な理解と実践的なコードの実装を優先しています。実務に直結する知識として活用してください。

学習パスの概要：なぜ「生のスコア」をそのまま使ってはいけないのか

まず、画像認識システムを構築する際に直面する、スコアと確率の乖離という課題の本質を紐解きます。

コサイン類似度分布の「歪み」を理解する

画像認識モデルを用いて特徴量抽出を行い、ベクトル間のコサイン類似度を計算するケースを想定します。ここでは、ViTなどの最新アーキテクチャや、2015年の登場以来現在も標準的なベースラインとして広く利用されているResNet-50（PyTorchのtorchvisionでは ResNet50_Weights.DEFAULT として事前学習済みモデルが継続して提供されています）などを活用する場面が該当します。通常、この類似度は -1 から 1 の値を取りますが、実際に学習済みモデルから出力されるスコアの分布はどのようになっているのでしょうか。

多くの場合、スコアは極端に高い範囲（0.9〜1.0）や特定の狭い範囲に密集する傾向があります。これは高次元空間における「次元の呪い」や、学習時の損失関数（ArcFaceやCosFaceなど）がクラス間のマージンを極限まで広げようとする性質に起因する現象です。

その結果、実務では以下のような状況が頻発します。

スコア 0.99: 正解率 99%（想定通り）
スコア 0.95: 正解率 40%（想定外の低下）
スコア 0.90: 正解率 10%（極端な低下）

このように、スコアがわずか0.05下がっただけで実際の信頼度が急激に落ち込むような、非線形な挙動を示します。これでは、「閾値を0.95にするか0.90にするか」という議論が非常にクリティカルかつ不安定なものとなり、安定したシステム運用を阻害する要因となります。

キャリブレーションがもたらす実務的メリット

ここでキャリブレーション技術を導入すると、この歪んだスコア分布を、実際の確率（事後確率）に近似するように変換できます。

つまり、「補正後のスコアが0.8であれば、実際に約80%の確率で正解である」という直感的な状態を作り出せます。これには実務運用において計り知れないメリットがあります。

閾値設定の論理的根拠: 「誤検知を5%以下に抑えたい」というビジネス要件がある場合、補正スコアなら単純に「閾値0.95」と設定すれば、理論上その要件を満たすことが可能です。
モデル間の公平な比較: 例えば、標準的なResNet-50と最新のViTなど、異なるアーキテクチャのモデルを比較検証する際、生のスコア分布が異なっていても、確率に変換されていれば同じ土俵で公平に性能を評価できます。
ダウンストリームタスクへの連携: 検索結果を別のAIエージェントやリランキングモデルに渡す際、入力が「確率」として正規化されている方が、後続のシステムでの取り扱いが容易になります。

本コースのゴールと所要時間

本記事は、以下のステップで構成されています。

Step 1: なぜズレるのか？幾何学的な視点で理解する。
Step 2: どう補正するのか？代表的なアルゴリズムを学ぶ。
Step 3: 実装アプローチ。Pythonでのハンズオン。
Step 4: 現場での活用法。運用と閾値設計。

読み終える頃には、実務で扱うモデルのスコアを「信頼できる数値」に変換し、ビジネス要件に沿った最適な閾値設計を行う準備が整います。

Step 1：基礎理論 - ベクトル空間とスコア分布の幾何学

実装に入る前に、ベクトル空間内で生じている現象を幾何学的に把握します。この理解は、実運用におけるトラブルシューティングにおいて非常に有用です。

コサイン類似度の数理的定義と実態

コサイン類似度は、2つのベクトル $A$ と $B$ のなす角 $\theta$ の余弦（cosine）です。

$ \text{Cosine Similarity} = \cos(\theta) = \frac{A \cdot B}{|A| |B|} $

ベクトルが正規化（長さが1）されていれば、単純に内積（ドット積）と同じになります。ここまでは基本ですね。

しかし、高次元空間（例えば512次元や1024次元）では、直感とは異なる現象が起きます。ランダムに生成した2つのベクトルは、高次元になればなるほど直交（類似度0）に近づきます。一方で、学習済みのモデルは、同じクラスのデータを狭い領域に押し込めようとします。

この「高次元空間の広大さ」と「モデルによる凝縮」のせめぎ合いが、スコア分布の歪みを生む一因です。生のコサイン類似度はあくまで「角度」の情報であり、「そのペアが同一クラスである確率」とは別物なのです。

信頼性図（Reliability Diagram）の読み方

モデルがどれくらい「嘘つき」か（あるいは正直か）を診断するツールとして、信頼性図（Reliability Diagram）があります。

作り方はシンプルです。

テストデータのペアに対する予測スコアを、0から1の間でビン（区間）に分けます（例：0.0-0.1, 0.1-0.2, ...）。
各ビンについて、「平均予測スコア」と「実際の正解率（Positiveの割合）」を計算します。
これをプロットします。

理想的な状態: 点が対角線（y=x）上に並ぶ。「スコア0.7のビンの正解率は70%」という状態。
自信過剰（Overconfident）: 点が対角線より下にある。「スコア0.9と言ってるのに正解率は70%しかない」状態。最近のディープラーニングモデルによく見られます。
自信不足（Underconfident）: 点が対角線より上にある。「スコア0.6だけど実は80%正解している」状態。

このズレを定量化した指標が ECE (Expected Calibration Error) です。キャリブレーションの目標は、このECEを最小化することにあります。

Step 2：主要手法の習得 - スコアを「信頼度」へ変換するアルゴリズム

Step 1：基礎理論 - ベクトル空間とスコア分布の幾何学 - Section Image

具体的にスコアを補正するための代表的な2つの手法を解説します。これらは古典的な手法ですが、最新のAIモデルに対しても極めて有効に機能します。

パラメトリック手法：Platt Scaling（シグモイドフィッティング）

Platt Scalingは、もともとSVM（サポートベクターマシン）の出力を確率に変換するために提案された手法です。考え方は非常にシンプルで、「生のスコアをロジスティック回帰（シグモイド関数）に通す」だけです。

$ P(y=1 | s) = \frac{1}{1 + \exp(A \cdot s + B)} $

ここで $s$ は生のスコア、$A$ と $B$ は学習によって求めるパラメータです。

メリット: パラメータが2つ（AとB）しかないので、少ないデータ量でも過学習しにくい。スコア分布がS字カーブに近い場合に最適。
デメリット: 分布がS字カーブに従わない複雑な形状の場合、うまく補正できない。

ノンパラメトリック手法：Isotonic Regression（保順回帰）

Isotonic Regressionは、特定の関数形（シグモイドなど）を仮定せず、「スコアが高くなれば正解率も高くなる（単調増加する）」という制約だけを設けてフィッティングを行う手法です。階段状の関数をイメージしてください。

メリット: どんな形状の分布にも柔軟にフィットできる。大量のデータがある場合に精度が高い。
デメリット: データが少ないと過学習しやすい。スコアの順序関係が逆転しているようなケースには弱い（ただし、類似度スコアで順序が逆転することは稀）。

どちらを選ぶべきか？

一般的に、以下のような基準で選定することが推奨されます。

検証データが少ない場合: Platt Scaling
検証データが十分にある場合: Isotonic Regression
分布の形状: まずはヒストグラムを見て、単純なS字で近似できそうならPlatt、複雑な山谷があるならIsotonic。

Step 3：ハンズオン - Pythonによるキャリブレーション実装演習

理論的な背景を踏まえ、Pythonを用いた具体的な実装手順を構築します。機械学習ライブラリである scikit-learn などの標準的なツールを活用することで、効率的にキャリブレーションのパイプラインを実装できます。

本セクションでは、サンプルデータ（類似度スコアと正解ラベル）を用いて補正処理を実行し、その効果を可視化して評価する一連のフローを提示します。

準備：データの分割戦略

キャリブレーションモデルを構築する際の最重要要件として、ベースモデルの学習に使用したデータ（Train Set）の再利用は厳格に避ける必要があります。必ず、モデルの学習プロセスから完全に独立した検証データ（Validation Set）を使用してください。

学習済みのデータセットをキャリブレーションに流用すると、モデルがすでにそのデータ特性に過剰適合しているため、正しい補正パラメータを学習できません。これはData Leakage（データ漏洩）を引き起こし、本番環境での信頼性を著しく損なう原因となります。

import numpy as np
from sklearn.calibration import calibration_curve, CalibratedClassifierCV
from sklearn.linear_model import LogisticRegression
from sklearn.isotonic import IsotonicRegression
import matplotlib.pyplot as plt

# サンプルデータの生成（生の類似度スコアと正解ラベル）
# 実運用環境では、評価対象のベースモデルが出力した予測値を使用します
np.random.seed(42)
n_samples = 2000

# 生スコア（0〜1）: 現実のモデルによく見られる偏りを再現
raw_scores = np.random.beta(2, 5, n_samples)

# 正解ラベル: スコアが高いほど1になりやすいが、ノイズを含ませる（自信過剰な出力を模倣）
true_probs = 1 / (1 + np.exp(-10 * (raw_scores - 0.5)))
labels = np.random.binomial(1, true_probs * 0.8) 

# データの分割（キャリブレーション用と評価用に独立させる）
from sklearn.model_selection import train_test_split
X_calib, X_test, y_calib, y_test = train_test_split(raw_scores, labels, test_size=0.5, random_state=42)

# scikit-learnの入力形式に適合させるための形状変換
X_calib = X_calib.reshape(-1, 1)
X_test = X_test.reshape(-1, 1)

実装：Platt ScalingとIsotonic Regression

scikit-learn には CalibratedClassifierCV という専用のクラスが用意されていますが、内部の変換メカニズムを正確に把握するため、ここでは2種類の回帰モデルを直接適用するアプローチをとります。

実務において、Platt Scaling（ロジスティック回帰）はスコアの歪みがシグモイド状である場合に高い効果を発揮します。一方、Isotonic Regression（等張回帰）は「単調増加」という制約のみを持つため、より柔軟な補正が可能ですが、データサンプル数が少ない環境では過学習（オーバーフィッティング）を起こしやすいという特性がある点に留意が必要です。

# 1. Platt Scaling (ロジスティック回帰による補正)
platt = LogisticRegression(C=1e9, solver='lbfgs') # 正則化の影響を最小限に抑える
platt.fit(X_calib, y_calib)
platt_probs = platt.predict_proba(X_test)[:, 1]

# 2. Isotonic Regression (等張回帰による補正)
iso = IsotonicRegression(out_of_bounds='clip')
iso.fit(X_calib.flatten(), y_calib)
iso_probs = iso.predict(X_test.flatten())

# 評価：信頼性図（Calibration Curve）の可視化
plt.figure(figsize=(10, 6))

# 理想的なキャリブレーション状態（対角線）
plt.plot([0, 1], [0, 1], linestyle='--', label='Ideally Calibrated')

# 生スコア（補正適用前）
frac_pos_raw, mean_score_raw = calibration_curve(y_test, X_test, n_bins=10)
plt.plot(mean_score_raw, frac_pos_raw, "s-", label='Raw Scores')

# Platt Scaling適用後
frac_pos_platt, mean_score_platt = calibration_curve(y_test, platt_probs, n_bins=10)
plt.plot(mean_score_platt, frac_pos_platt, "s-", label='Platt Scaling')

# Isotonic Regression適用後
frac_pos_iso, mean_score_iso = calibration_curve(y_test, iso_probs, n_bins=10)
plt.plot(mean_score_iso, frac_pos_iso, "s-", label='Isotonic Regression')

plt.ylabel("Fraction of positives (True Probability)")
plt.xlabel("Mean predicted value (Score)")
plt.legend(loc="lower right")
plt.title("Calibration Plots (Reliability Diagram)")
plt.show()

出力されたグラフ（Reliability Diagram）を確認すると、補正前の Raw Scores のラインが理想的な対角線から大きく下方に逸脱している状態が観察できます。これはモデルが「自信過剰」にスコアを出力している典型的なパターンです。

一方で、Platt Scaling や Isotonic Regression を適用したラインは、対角線に沿った形状へと大幅に改善されています。この視覚的な変化は、単なる相対的な類似度スコアが、業務判断の閾値として直接利用できる実用的な「確率」へと変換されたことを明確に示しています。

Step 4：実務適用 - 最適な閾値決定と運用設計

Step 3：ハンズオン - Pythonによるキャリブレーション実装演習 - Section Image

スコアを確率に変換した後は、実際のビジネスプロセスへの適用段階に入ります。ここで鍵となるのは、「確率」という共通言語を用いて、ビジネスサイドと期待値のすり合わせを行うことです。

F1スコア最大化 vs 業務要件（誤検知許容度）

エンジニアの視点では、つい「F1スコアが最大になる閾値」を最適な設定として選びがちです。しかし、実際のビジネス環境では、それが常に正解とは限りません。

例えば、製造ラインにおける不良品検知システムを想定します。

ケースA: 不良品を見逃して市場に出荷してしまうと、重大なリコールや巨額の賠償問題に発展するリスクがある。
- → 再現率（Recall）を重視。閾値を下げてでも、少しでも疑わしい製品は全て検知システムで拾い上げる必要があります。
ケースB: システムの誤検知が多すぎると、目視で最終確認する作業員の業務量が限界を超えてしまう。
- → 適合率（Precision）を重視。確実に不良品であると自信を持てるものだけをアラートとして通知する設計が求められます。

キャリブレーションによって補正されたスコアが存在すれば、こうしたトレードオフの議論が非常に円滑に進みます。

「閾値を0.9に設定した場合、理論上90%の確率で正解となります。残りの10%が誤検知（False Positive）として発生しますが、現在の業務オペレーションでこの確認作業を許容できますか？」

このように、システムのリスクや不確実性を確率という客観的な数値で提示できることこそが、キャリブレーションを導入する最大のメリットと言えます。

ドメインシフト時の再キャリブレーション判断基準

キャリブレーションモデルは、一度構築すれば永久に機能するわけではありません。運用を続ける中で入力データの傾向が変化する「ドメインシフト」が発生すると、補正の精度も徐々に低下していきます。

運用監視: 定期的に信頼性図（Reliability Diagram）を描画し、出力されたカーブが理想的な対角線から乖離し始めていないかを継続的にチェックします。
トリガーの設定: ECE（Expected Calibration Error）が事前に定めた閾値を超えた段階で、直近で収集したデータを用いてキャリブレーションモデル（PlattスケーリングやIsotonic Regression）を再学習させます。

このアプローチをとることで、重量級のメイン画像認識モデル自体をゼロから再学習させるよりも、はるかに低い計算コストと短いリードタイムでシステム全体の精度を維持できます。

大規模ベクトル検索エンジン（Faiss, Milvus等）への統合

FaissやMilvusなどのベクトル検索エンジンをバックエンドで使用している場合、検索エンジン自体は基本的に生のコサイン類似度やユークリッド距離を返却します。

このようなアーキテクチャでは、検索結果を受け取った後の「アプリケーション層」でキャリブレーションを適用するのが、最も柔軟で保守性の高い設計です。検索エンジン内部で複雑な確率変換を処理させようとすると、カスタム実装の負担が大きくなり、将来的なアップデート時の障害になりやすいためです。APIサーバー側で推論結果のリストを受け取り、それに対して iso.predict() のような軽量な変換処理を挟んで確率値を付与するアプローチを推奨します。

また、ベクトル検索エンジンの技術動向は急速に変化しています。例えばMilvusの最新リリース（2025年12月時点の2.6.4以降）では、AI向けストレージ最適化技術である「KIOXIA AiSAQ」の統合が追加されるなど、大規模なインフラ環境における業界標準としての採用が進んでいます。こうした高度なストレージ最適化により、膨大なベクトルデータを扱う際のリソース効率が大幅に向上しています。

一方で、システムの構成をシンプルに保ちたい場合や、そこまでの極端なスケーラビリティを必要としないプロジェクトでは、高度な専用ベクトルデータベースから、PostgreSQLの拡張機能である「pgvector」へ移行・代替するケースも増えています。

pgvector等への移行を検討する際のステップ：

要件の再評価: 現在のベクトルデータ件数とQPS（秒間クエリ数）を確認し、専用インフラ（Milvus等）の維持コストに見合っているか評価します。
インデクシングの検証: pgvectorのHNSWインデックス等を使用し、要件を満たす検索速度と再現率（Recall）が確保できるか検証を実施します。
アプリケーション層の改修: 接続先をPostgreSQLベースに変更し、検索クエリをSQLに書き換えます。キャリブレーション処理自体はアプリケーション層に残るため、この部分のロジック変更は最小限で済みます。

最新のアーキテクチャ設計においては、公式ドキュメントで最新のリリースノートや推奨構成を確認し、プロジェクトの規模と運用体制に合わせた最適なデータストアを選択してください。

学習リソースと次のステップ

2. Isotonic Regression - Section Image 3

ここまで、画像認識におけるキャリブレーションの体系的なアプローチを解説しました。スコアの分布を適切に管理することで、システムの信頼性が大きく向上し、ビジネス要件に合致した運用が可能になります。

最後に、さらに専門的な知見を深めるためのリソースを紹介します。

深掘りにおすすめの論文・書籍

"On Calibration of Modern Neural Networks" (Guo et al., ICML 2017)
- ディープラーニングモデルのキャリブレーションに関する金字塔的な論文です。なぜ最近のモデルは自信過剰になるのか、Temperature Scalingなどの手法も含めて詳しく解説されています。必読です。
scikit-learn ドキュメント: Probability calibration
- 公式ドキュメントが非常に充実しています。数式とコードの対応を確認するのに最適です。

学んだスキルのチェックリスト

自分のモデルの信頼性図（Reliability Diagram）を描画できる。
Platt Scaling と Isotonic Regression の使い分けが説明できる。
キャリブレーションには「検証データ」を使うべき理由を理解している。
補正後の確率スコアを用いて、ビジネス要件に合った閾値を提案できる。

AIプロジェクトがPoC（概念実証）に留まらず、実用的で信頼されるシステムとしてビジネス価値を創出するための参考になれば幸いです。

画像認識の類似度スコアを「確率」に変える：キャリブレーション技術による閾値設計の最適化手法 - Conclusion Image

コメントは1週間で消えます

コメントを読み込み中...