09:00 〜 09:20
[2P1-J-2-01] 深層満足化強化学習に向けて
キーワード:強化学習、探索と知識利用のトレードオフ、内発的動機付け
強化学習では連続状態空間を扱う方法としてDQNなどが提案されているが,DQNはε‒greedyのようなランダム探索戦略に依存しているため,膨大な探索空間を扱う場合に適切な探索と活用を行うことは非常に困難である.一方で人間は満足化という意思決定傾向によりこれを解決しているとされる.その満足化を強化学習に反映したアルゴリズムとして Risk‒sensitive Satisficing (RS) が考案された.RSを深層強化学習に適用することで適切な探索と活用が期待されるが,RSは状態のカウントを用いるため,DQNで扱うタスクのような状態が極めて多い環境において同一の状態が観測されにくく,状態のカウントが効率的でないという問題がある.本研究では,その解決のため,連続状態空間での状態の不確実性から内発的動機付けを行うために連続状態空間から擬似的に状態をカウントする方法として利用されている擬似カウントとハッシュ関数+オートエンコーダを用いてRSを深層強化学習へ適用する手法を提案する.この手法を用いた実験により,RSが深層強化学習における効率的な学習を可能とすることを示す.