15:40 〜 16:00
[2A3-02] 軌道学習における試行回数削減のための強化学習手法
キーワード:深層強化学習、ロボティクス、マニピュレーション、ピッキング
近年,ロボットの自律的動作の実現を目指して深層強化学習の研究が多くなされている.深層強化学習では学習結果として十分な性能を実現するまでに何千回,何万回といった非常に多くの回数の試行を必要とする.しかしながら,実環境の学習では人の手を必要とすることが多く,何千回という試行回数を行うことは非現実的である.そこで本研究では,事前に人がタスクに関する知識を与えることで効率的な探索を行い,学習データベースを作成する.そしてそのデータベースを使用してミニバッチ学習を行うことで比較的少ない試行回数による学習を実現する.本提案手法を物流倉庫内におけるピッキング作業の学習に適応し,その結果を他の手法と比較することで本提案手法の有用性を示す.