[1Win4-07] 因果グラフを反映した報酬推定モデルの構築
キーワード:因果モデル、オフポリシー評価
本研究はオフポリシー評価の精度向上を目的とし、因果探索で生成した因果グラフを用いた新たな報酬推定モデルを提案する。オフポリシー評価とは、ある意思決定ポリシーを実運用せずに別のポリシーの運用データから仮想的に評価する手法である。しかし、一般的にオフポリシー評価で報酬推定モデルとして用いられる従来の機械学習モデルは、データの選択バイアスに十分な対応が難しい。そこで本研究では、因果探索で得た因果グラフを基に因果モデルを構築して報酬推定モデルとして使用することで、選択バイアスの解消による推定精度の向上を図る。因果モデルは因果関係を明確にすることで単なる相関に基づく予測を超え、より適切な意思決定を推測できることが期待される。本研究では、ZOZOTOWNが提供するデータセットを用いて因果モデルを構築し、報酬推定モデルとして利用可能であるかを検証した。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。