キーワード解説
敵対的プロンプト(Jailbreak)に対する防御プロンプトの堅牢性A/Bテスト
LLMの安全ポリシーを迂回しようとする「Jailbreak」などの敵対的プロンプトに対し、防御プロンプトがどの程度効果的に機能するか、その堅牢性をA/Bテストで評価する手法です。
0 関連記事
敵対的プロンプト(Jailbreak)に対する防御プロンプトの堅牢性A/Bテストとは
親クラスター「ABテスト手法」の解説よりLLMの安全ポリシーを迂回しようとする「Jailbreak」などの敵対的プロンプトに対し、防御プロンプトがどの程度効果的に機能するか、その堅牢性をA/Bテストで評価する手法です。
このキーワードが属するテーマ
このキーワードに紐付く記事はまだありません