Vertex AI Prompt ManagementによるプロンプトのABテスト実行手順

「なんとなく」のプロンプト修正からの脱却：Vertex AI Prompt ManagementによるABテスト

2026年1月5日更新 2026年3月14日約13分で読めます

文字サイズ:

「なんとなく」のプロンプト修正からの脱却：Vertex AI Prompt ManagementによるABテスト

この記事の要点

感覚的なプロンプト修正からの脱却
Vertex AI Prompt ManagementによるABテスト環境構築
プロンプトの改善効果を数値で証明

対話AIやLLMチャットボットの開発現場において、プロンプトの重要性は日々増しています。

対話の自然さと業務要件のバランスを保つためにも、根拠のないプロンプトの修正は、期待される効果が得られないだけでなく、予期せぬフォールバックや対話の破綻を引き起こす可能性があります。

プロンプトエンジニアリングは、システム開発と同様に、バージョン管理、テスト、定量的な指標に基づいた管理が求められるエンジニアリング領域です。

今回は、Google Cloudが提供する Vertex AI Prompt Management を活用して、論理的かつ数値に基づいた プロンプトのABテスト を実施する手順を深掘りします。

ユーザーテストと改善のサイクルを回し、実用的なチャットボットを構築するためのヒントになれば幸いです。

なぜプロンプトの「良し悪し」は説明できないのか

まず、Vertex AIの操作に入る前に、開発現場が直面しやすい「課題の本質」を整理しておきましょう。なぜ、プロンプトの評価はこれほどまでに難しく、現場を疲弊させるのでしょうか。

属人化するプロンプト修正の限界

プロンプトエンジニアリングという言葉が広まるにつれて、「魔法のフレーズ」を探し求める傾向が見られます。「深呼吸して」や「ステップバイステップで考えて」といったテクニックは、確かに特定の場面で有効です。

しかし、金融や小売業界における顧客対応ボットなどのビジネスアプリケーションにおいては、汎用的なテクニックよりも「業務要件やドメイン固有の制約を守り続ける堅牢性」が重要になります。

担当者が修正したプロンプトは、特定のテストケースでは適切に機能するかもしれません。しかし、別の担当者が扱うケースではどうでしょうか？
修正の意図や履歴が明確に残されていない場合、そのプロンプトはブラックボックス化し、理解が難しいものになります。これは、チームでの開発速度を鈍化させる大きな要因となります。

Excel管理と手動評価による課題

多くの現場で、依然としてExcelやスプレッドシートによる管理が行われています。

A列：入力プロンプト
B列：モデルの回答（GPT-4o）
C列：モデルの回答（Gemini 1.5 Pro）
D列：人間の評価（〇/×）

数十件程度であれば対応可能ですが、テストケースが数百、数千になった場合、この運用は破綻します。モデルのバージョンが更新されるたびにコピー＆ペーストを繰り返し、評価基準も評価者の主観によってブレが生じます。その結果、正確な品質の変化を追跡することが極めて困難になります。

定量的なABテスト導入が不可欠な理由

WebサービスのUI開発において、ABテストなしにデザインを大幅に変更することは稀でしょう。LLMアプリも同様のアプローチが必要です。

精度（Quality）: ユーザーの意図を正しく汲み取れているか
安全性（Safety）: 有害な出力を防げているか
コスト（Cost）: トークン消費量は適正か
レイテンシ（Latency）: 応答速度は許容範囲内か

これらをトレードオフとして捉え、数値で比較判断できる環境が求められます。Vertex AI Prompt Managementは、まさにこのような状況に対応し、エンジニアリングとしての評価基盤を提供するツールです。

Vertex AI Prompt Managementが解決する「評価の複雑さ」

なぜプロンプトの「良し悪し」は説明できないのか - Section Image

Google CloudのVertex AIには、プロンプトの作成から評価、デプロイまでを一元管理できる機能群が備わっています。特に注目すべきは、これまで手動で行っていた「比較」のプロセスを自動化・可視化してくれる点です。

バージョン管理と実行履歴の自動保存

Gitのように、プロンプトの変更履歴をバージョンとして管理できます。「v1」から「v2」へ変更した際、具体的にどの単語を変えたのか、パラメータ（TemperatureやTop-kなど）をどう調整したのかが記録されます。

さらに重要なのが、実行履歴（Run History）です。どのバージョンのプロンプトに、どんな変数を入力し、どんな出力が得られたかが自動的にログとして残ります。これにより、「以前の挙動がどのプロンプトで起きたか」といった調査にかかる時間を大幅に削減できます。

Side-by-Side（並列）比較による直感的な評価UI

これが非常に強力な機能です。異なる2つのプロンプト（あるいは異なるモデルバージョン）に対して、同じ入力データを与え、その出力を左右に並べて比較表示（Side-by-Side）できます。

人間が目で見て「どちらが良いか」を判定する場合も、後述するAIによる自動評価を行う場合も、この比較UIがあるだけで作業効率は格段に向上します。スプレッドシートの行を行き来するストレスから解放されます。

評価データセットとの統合管理

評価には「Golden Dataset（正解データセット）」が不可欠です。Vertex AIでは、Cloud Storage上のデータセットを直接読み込み、評価ジョブに紐づけることができます。データセット自体もバージョン管理できるため、「いつ時点のテストデータで評価した結果なのか」も明確になります。

検証：ABテスト環境の構築と実行フロー

では、実際にVertex AIコンソールを使って、プロンプトのABテスト環境を構築していきましょう。
ここでは、例として「ECサイトの返品規定に関する問い合わせ対応ボット」のプロンプト改善を例に進めます。

評価用データセット（Golden Dataset）の準備とインポート

ユーザーの発話パターンを網羅したテストデータの準備は、対話AIの品質を左右する最も重要な工程です。

理想的なデータセットは、以下の要素を含んだJSONL形式（JSON Lines）です。

{"prompt": "サイズが合わなかったのですが、返品できますか？", "reference": "商品到着後7日以内で、タグが付いた状態であれば返品可能です。マイページから手続きをお願いします。"}
{"prompt": "セール品を返品したい", "reference": "申し訳ありませんが、セール品のお客様都合による返品はお受けしておりません。"}

prompt: ユーザーからの入力想定
reference (Ground Truth): 模範解答（理想的な回答）

最低でも50件、できれば100件以上の多様なケースを用意してください。単純な質問だけでなく、ユーザー特有の曖昧な発話やエッジケースも含めることが、堅牢な対話フロー設計に繋がります。
これをCloud Storageのバケットにアップロードしておきます。

比較対象となる2つのプロンプト案の作成と設定

次に、Vertex AIの「Prompt Management」画面で、比較したい2つのプロンプトを用意します。

Baseline（既存プロンプト）:

あなたはECサイトのカスタマーサポートです。以下の返品規定に基づいて、ユーザーの質問に答えてください。
[返品規定コンテキスト...]

Candidate（改善案プロンプト）:

役割: ECサイトの熟練カスタマーサポート
トーン: 共感的かつ簡潔に
指示:
1. ユーザーの困りごとに共感を示すこと
2. 以下の返品規定を厳密に参照し、該当する条件を提示すること
3. 規定外の場合は、丁寧に断ること
[返品規定コンテキスト...]

改善案では、役割定義（Persona）やトーン（Tone）、思考プロセス（Chain of Thought）の要素を加えています。これをVertex AI上でそれぞれ保存し、バージョンを発行します。

「Side-by-Side」評価ジョブの実行手順

ABテストの実行です。Vertex AIの「Evaluation」セクションへ移動し、新規の評価ジョブを作成します。

評価タスクの選択: 「Question Answering」などを選択。
ターゲットの選択: 比較したい2つのプロンプトバージョンを選択します。
データセットの指定: 先ほどアップロードしたCloud StorageのJSONLファイルを指定します。
変数のマッピング: データセット内のpromptカラムを、プロンプトテンプレートの変数（例: {{user_query}}）にマッピングします。

自動評価メトリクス（AutoSXS）の設定方法

ここで利用できるのが、Google独自の評価指標である AutoSXS (Automatic Side-by-Side) です。

これは、評価モデル（Arbiter）が、2つのモデルの出力を比較し、どちらが優れているかを判定する仕組みです。人間による評価との相関が高くなるように設計されており、コストと時間を削減できます。従来の機械的な一致率を見る指標とは異なり、意味的な正しさを判定できるのが特徴です。

設定画面で「AutoSXS」を有効にし、評価基準（Criteria）を設定します。
例えば「正確性（Accuracy）」や「指示順守（Instruction Following）」などです。

準備ができたら「Start Evaluation」をクリック。バックグラウンドでジョブが実行され、全テストケースに対する推論と評価が行われます。

結果分析：改善効果の分析

検証：ABテスト環境の構築と実行フロー - Section Image

ジョブが完了すると、詳細なレポートが生成されます。ここで表示される数字やグラフを分析し、次に行うべきことを判断します。

評価結果レポートの見方

レポート画面には、以下の情報が表示されます。

Win Rate（勝率）: Candidate（改善案）がBaseline（既存案）に対してどれだけ勝ったか。
Explanation: AutoSXSが「なぜそちらを選んだか」の理由（自然言語による説明）。

なお、かつて翻訳タスクで使われていたBLEUやROUGEといった指標は、生成AIの回答品質（特に流暢さや論理性）を測る上では参考程度にとどめるのが一般的です。現在は、AutoSXSのようなモデルベースの評価が主流となっています。

例えば、「Win Rate: 65%」という結果が出たとします。これは「改善案の方が65%のケースで優れていた」ことを意味します。しかし、残りの35%についても考慮する必要があります。

「勝率」だけでなく「なぜ勝ったか」を分析する

ここで重要なのが、「引き分け（Tie）」と「負け（Loss）」の内訳です。

もし「負け」が0%で、「引き分け」が35%なら、この改善は安全に適用できる可能性があります。
しかし、「負け」が20%ある場合、その理由を精査する必要があります。「丁寧になりすぎて回答が冗長になった」のか、「重要な制約を見落とした」のか。AutoSXSのExplanationログを確認すると、以下のようなコメントが見つかることがあります。

"Response A is better because it directly answers the user's question about the refund deadline, whereas Response B includes unnecessary greeting phrases that distract from the core information."
（回答Aの方が優れています。返品期限について直接答えているのに対し、回答Bは不要な挨拶が含まれており、核心的な情報から注意を逸らしています。）

このように、AIが具体的な理由付きでフィードバックを提供するため、対話の自然さと業務要件のバランスをどう調整すべきか、次の修正指針が明確になります。

コストとレイテンシの比較検証

精度だけでなく、システム運用上の指標も考慮する必要があります。

プロンプトを複雑にすると、入力トークン数が増え、Chain of Thought（思考の連鎖）によって出力トークン数も増える傾向があります。その結果、API利用コストが増加し、レスポンスタイム（Latency）が悪化する可能性があります。

Vertex AIのレポートでは、トークン消費量やレイテンシの統計も確認できます。
「精度は5%向上したが、レイテンシが2秒遅くなり、コストが1.5倍になった」という場合、ビジネス要件と照らし合わせて、その改善案を採用するかどうかを判断する必要があります。ユーザー体験の観点からは、時には精度を多少犠牲にしても、レスポンス速度を優先する判断も必要になります。

導入効果と現場への実装ガイド

結果分析：改善効果をどう読み解くか - Section Image 3

Vertex AI Prompt ManagementによるABテスト環境を導入することで、現場は変化します。

プロンプト開発工数の削減効果

改善前:
スプレッドシートを用意し、APIを操作するスクリプトを作成し、結果を貼り付け、チームメンバーが目視で確認。フィードバックをまとめて修正し、再度同じ作業を行う。これに膨大な時間がかかります。

改善後:
Vertex AI上でプロンプトを修正し、評価ジョブを実行。レポートを確認し、問題のあるケース（Loss判定）を目視チェック。修正方針を決定して次のバージョンを作成。短い時間でサイクルが回ります。

このスピード感の違いは大きいです。空いた時間を、より重要な「評価データの拡充」や「複雑な対話フローの設計」に使うことができます。

CI/CDパイプラインへの組み込み

さらに、この評価プロセスをCI/CDパイプラインに組み込むことも可能です。

Gitにプロンプトファイルがプッシュされたら、自動的にVertex AIのEvaluation APIを実行し、Win Rateが一定基準を超えていなければマージをブロックする、といったガードレールを設けることができます。これにより、意図しない品質劣化（リグレッション）を防ぐことができます。

チームで運用するためのルール作り

ツールを導入するだけでなく「運用のルール」も重要です。

Golden Datasetは常に更新: ユーザーの実際の発話パターンや問い合わせログを分析し、適切にフォールバックしたケースや答えられなかった質問を定期的にデータセットに追加します。データセットが古いと、評価の精度が低下します。
リリース基準の明確化: 「Win Rateが50%以上かつ、Loss率が5%未満」など、チーム内でリリース基準を設けます。
専門家の参加: 最終的な評価基準（AutoSXSのプロンプト設定など）は、エンジニアだけでなく、業務知識を持った担当者と一緒に決めることが重要です。

まとめ

プロンプトエンジニアリングは、感覚的な「職人芸」から、データに基づく「エンジニアリング」へと進化しています。
Vertex AI Prompt Managementは、その進化を支える強力な基盤となります。

根拠のない修正をなくし、論理的かつ数値に基づいて判断できる環境を構築することが、現場のニーズを満たす実用的な対話AIソリューションへの最短ルートです。

まずは、手元のテストケースをJSONLに変換することから始めてみてください。

【次に読むべき記事】

「感覚的な修正」はもう卒業。Vertex AI Prompt Managementで挑むプロンプトABテストの完全手順 - Conclusion Image

参考リンク

「感覚的な修正」はもう卒業。Vertex AI Prompt Managementで挑むプロンプトABテストの完全手順 - Conclusion Image

コメントは1週間で消えます

コメントを読み込み中...