2019年度 人工知能学会全国大会(第33回)

講演情報

一般セッション

一般セッション » [GS] J-2 機械学習

[2P1-J-2] 機械学習: 限界の克服

2019年6月5日(水) 09:00 〜 10:20 P会場 (1F 展示ホール左奥)

座長:大塚 琢馬(NTT) 評者:角森 唯子(NTTドコモ)

09:00 〜 09:20

[2P1-J-2-01] 深層満足化強化学習に向けて

〇佐鳥 玖仁朗1、吉田 豊1、神谷 匠1、高橋 達二1 (1. 東京電機大学)

キーワード:強化学習、探索と知識利用のトレードオフ、内発的動機付け

強化学習では連続状態空間を扱う方法としてDQNなどが提案されているが,DQNはε‒greedyのようなランダム探索戦略に依存しているため,膨大な探索空間を扱う場合に適切な探索と活用を行うことは非常に困難である.一方で人間は満足化という意思決定傾向によりこれを解決しているとされる.その満足化を強化学習に反映したアルゴリズムとして Risk‒sensitive Satisficing (RS) が考案された.RSを深層強化学習に適用することで適切な探索と活用が期待されるが,RSは状態のカウントを用いるため,DQNで扱うタスクのような状態が極めて多い環境において同一の状態が観測されにくく,状態のカウントが効率的でないという問題がある.本研究では,その解決のため,連続状態空間での状態の不確実性から内発的動機付けを行うために連続状態空間から擬似的に状態をカウントする方法として利用されている擬似カウントとハッシュ関数+オートエンコーダを用いてRSを深層強化学習へ適用する手法を提案する.この手法を用いた実験により,RSが深層強化学習における効率的な学習を可能とすることを示す.