キーワード解説

人間による評価(RLHF基準)とAI自動評価の一致度を検証するA/Bテスト設計

人間によるフィードバック(RLHF)に基づく評価と、LLM-as-a-JudgeなどのAI自動評価の結果がどの程度一致するかをA/Bテストで比較し、自動評価の信頼性を検証する設計です。

0 関連記事

人間による評価(RLHF基準)とAI自動評価の一致度を検証するA/Bテスト設計とは

親クラスター「ABテスト手法」の解説より

人間によるフィードバック(RLHF)に基づく評価と、LLM-as-a-JudgeなどのAI自動評価の結果がどの程度一致するかをA/Bテストで比較し、自動評価の信頼性を検証する設計です。

このキーワードが属するテーマ

このキーワードに紐付く記事はまだありません