キーワード解説

敵対的プロンプト(Jailbreak)に対する防御プロンプトの堅牢性A/Bテスト

LLMの安全ポリシーを迂回しようとする「Jailbreak」などの敵対的プロンプトに対し、防御プロンプトがどの程度効果的に機能するか、その堅牢性をA/Bテストで評価する手法です。

0 関連記事

敵対的プロンプト(Jailbreak)に対する防御プロンプトの堅牢性A/Bテストとは

親クラスター「ABテスト手法」の解説より

LLMの安全ポリシーを迂回しようとする「Jailbreak」などの敵対的プロンプトに対し、防御プロンプトがどの程度効果的に機能するか、その堅牢性をA/Bテストで評価する手法です。

このキーワードが属するテーマ

このキーワードに紐付く記事はまだありません