[4Xin2-23] 反実仮想機械学習におけるオフポリシー評価の一考察
キーワード:反実仮想機械学習、オフポリシー評価
反実仮想機械学習(CFML)とは、観測され得たが実際には観測されなかったデータを捉えるための機械学習技術である。オフポリシー評価(OPE)はCFMLの研究領域の一つであり、別のポリシーの運用データを用いて仮想的なポリシーを評価することを目的としている。これにより、リスクやコストを伴うオンライン実験を行うことなく、新たなポリシーの性能を評価することが可能となる。これまで様々なOPE手法が提案されてきたが、適用するドメインの環境設定によって各OPE手法がポリシーを評価する精度は異なるため、1つの実験環境だけで手法の性能を測ることはできない。したがって、複数の実験環境を用いてOPE手法を評価する必要がある。本研究では、3つの基本的なOPE手法について異なる実験環境で性能評価実験を行い、環境要因がOPE手法の精度にどのように影響を与えるのかについて考察を行った。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。