深層強化学習を用いた経路最適化における報酬の改良

松井 藤五郎

10:00 〜 10:20

[3F1-GS-10-04] 深層強化学習を用いた経路最適化における報酬の改良

〇松井藤五郎¹、石田匠吾¹ (1. 中部大学)

キーワード：強化学習、組合せ最適化、経路探索

本論文では、深層強化学習を用いた経路探索における報酬関数の改善方法を提案する。従来手法では、2-opt法のヒューリスティック関数を深層強化学習で学習するにあたって、それまでの最良経路の経路長から現在の方策によって出力された経路長を引いた値を報酬としていた。しかしながら、実際の配送経路探索においては、複数の配送先が非常に近い場合があり、このような場合には報酬が小さくなってしまい最適経路を効率よく学習することが難しい。本論文の提案手法では、深層強化学習における報酬関数を改善が小さいときの報酬がより大きくなるよう補正する。改善が小さいときの報酬をより大きくすることによって、改善が小さいときでも学習が進み、より効率的な経路探索ができると期待できる。また、提案手法を実際の配送経路探索問題に適用し、その有効性を確認する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3F1-GS-10] AI応用：業務応用Ⅱ

[3F1-GS-10-04] 深層強化学習を用いた経路最適化における報酬の改良

パスワード