キーワード解説

RLHF（人間のフィードバックによる強化学習）によるジェイルブレイク耐性の強化

RLHF（人間のフィードバックによる強化学習）によるジェイルブレイク耐性の強化とは、大規模言語モデル（LLM）が不適切または危険な出力を生成するよう誘導される「ジェイルブレイク」攻撃に対し、その耐性を高めるための技術です。この手法では、人間がLLMの応答を評価し、そのフィードバックを基にモデルを強化学習させることで、倫理的・安全な振る舞いを学習させます。特に「プロンプト防御」の一環として、悪意あるプロンプトに対するモデルの頑健性を向上させる重要な役割を担っています。これにより、AIの安全な運用と信頼性の確保に貢献しています。

0 関連記事

RLHF（人間のフィードバックによる強化学習）によるジェイルブレイク耐性の強化とは

このキーワードが属するテーマ

テーマ AIセキュリティ・倫理プロンプトインジェクション対策、ハルシネーション対策クラスタープロンプト防御 AIの脆弱性を防御。プロンプトインジェクション対策。

このキーワードに紐付く記事はまだありません