13:50 〜 14:10
[2J4-GS-2-01] 深層強化学習を用いた振り分け機の個別機器制御の学習方式について
キーワード:深層強化学習、組合せ最適化、Q学習
本稿の目的は、種類に依存しないある商品をある基準に正確に複数の機器に分ける「振り分け器」の制御に関する学習方式を提案することである。本稿の深層Q学習では、まず、商品重量の計測値と目標値の差(計量誤差と呼ぶ)が小さいほど即時報酬が大きくなるような報酬関数を設定し、状態行動価値Q値を推定するDQN(Deep Q Network)を用いて、DQNから出力される(通常とは逆の)最も小さいQ値に対応する機器を行動選択の対象とする。選択された機器は最も計量誤差の累計が大きくなっていると判断でき、この機器を制御対象として計算誤差を小さくする操作を施す。このような深層強化学習を繰り返すことで全ての機器の計量誤差を小さくしていくことができ、ある基準に正確に商品を振り分けることができるようになる。本稿では、その学習方式とシミュレーション結果を提示する。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。