TAG

報酬設計

  • 6月 12, 2026

密封監査による圧縮進歩がGoodhart耐性を示す — AIの学習評価の信頼性向上

密封監査による圧縮進歩がGoodhart耐性を示す — AIの学習評価の信頼性向上 📄 論文サマリー 著者:Ayush Mittal、Dhruv Gupta 発表:arXiv(機械学習)/2606.11417v1 公開日:2026年06月09日 ✨ 本論文の新規性 密封された監査データを用いた圧縮進歩の評価手法を導入し、報酬の操作を防ぐ。 有限監査パネルにおける誤検出予算を理論的に導出し、実験で確 […]