キーワード解説

入力トークンのエントロピー解析を用いた異常検知による攻撃遮断

入力トークンのエントロピー解析を用いた異常検知による攻撃遮断とは、AIモデル、特に大規模言語モデル（LLM）に対する脱獄（Jailbreak）攻撃やプロンプトインジェクションなどの悪意ある入力を検知し、遮断するセキュリティ技術です。この手法では、ユーザーからの入力プロンプトをトークン化し、そのトークン列が持つ情報のエントロピー（不確実性やランダム性の度合い）を解析します。通常の健全な入力と比較して、エントロピー値が異常に高い、または低いといったパターンを特定することで、攻撃意図のある不自然なプロンプトを異常として検知します。これにより、AIモデルが悪意ある指示に従うことを防ぎ、倫理的なAIセキュリティを強化する脱獄対策の一環として機能します。

0 関連記事

入力トークンのエントロピー解析を用いた異常検知による攻撃遮断とは

このキーワードが属するテーマ

テーマ AIセキュリティ・倫理プロンプトインジェクション対策、ハルシネーション対策クラスター脱獄対策 AIモデルの脆弱性対策。倫理的なAIセキュリティを強化。

このキーワードに紐付く記事はまだありません