キーワード解説

人間による評価（RLHF基準）とAI自動評価の一致度を検証するA/Bテスト設計

人間によるフィードバック（RLHF）に基づく評価と、LLM-as-a-JudgeなどのAI自動評価の結果がどの程度一致するかをA/Bテストで比較し、自動評価の信頼性を検証する設計です。

0 関連記事

人間による評価（RLHF基準）とAI自動評価の一致度を検証するA/Bテスト設計とは

このキーワードに紐付く記事はまだありません