16:30 〜 16:50
[3R5-GS-2-04] 広範なデータへ動的に対応する目的志向探索
キーワード:強化学習、機械学習、文脈付きバンディット、意思決定
強化学習は実世界のノイズに弱く,人工環境と現実環境のギャップに適応するのが困難である.この問題は運動制御課題で有名であり,レコメンドシステムなどに用いられる文脈付きバンディット問題でも顕著に現れる. 文脈付きバンディット問題では状態の特徴で線形近似する必要があるが,人工データで優れていても,ノイズの多い実世界データには有用とは言い切れないアルゴリズムが多々ある. 人間であれば複雑な現実環境で動的に,かつ限られたデータサンプリング下で適応するため,最適化ではなくある目的水準への到達を重視した試行錯誤を行う. このような人間の認知傾向を取り入れた目的志向型アルゴリズムが Risk-sensitive Satisficing (RS) である. 文脈付きバンディット問題において RS は人工データのみならず実世界データでも高い成績を有することが示唆されていたが,実世界データのフィッティングではある種の事前分布に対する採択荷重率をパラメータとして持つ必要があった. 本研究では採択荷重率を動的に決めるメタアルゴリズムを導入し,より広範のデータに素早く柔軟に対応することが可能か検証を行った.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。