14:00 〜 14:20
[1G2-GS-2a-03] 信頼度を近似推定可能にした認知的満足化方策
キーワード:強化学習、機械学習、文脈付きバンディット、意思決定、満足化
ビデオゲームを人間と同等にプレイするなど深層強化学習の発展は目覚ましい.しかし深層強化学習は連続的な状態行動空間の学習を可能とする一方,強化学習特有の探索とパラメータ学習に必要なデータのサンプリング回数が膨大となる問題がある.そこで膨大な探索回数を抑えるため,従来の最適化とは異なる満足化なる適応手法に着目した.満足化はある一定の目標水準を満たす選択肢を速やかに見つけ出す.この満足化に着目し考案された Risk-sensitive Satisficing ( RS )は,強化学習の中でも単純な問題である K 本腕バンディット問題において,少数の探索で最適な行動系列を学習できることが明らかになっている.その RS の線形近似手法として linear RS ( LinRS ) が考案されたが,各選択肢の試行割合の線形近似方法について十分な議論がなされていなかった.そこで本研究では分析を通じて LinRS の試行割合の近似方法を修正した StableLinRS を新たに提案する.また文脈付きバンディット問題において StableLinRS と既存手法を比較しその有用性を示す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。