2019年度 人工知能学会全国大会(第33回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » [OS] OS-4 自律・創発・汎用AIアーキテクチャ

[3D3-OS-4a] 自律・創発・汎用AIアーキテクチャ(1)

2019年6月6日(木) 13:50 〜 15:10 D会場 (301B 中会議室)

栗原 聡(慶應義塾大学)、川村 秀憲(北海道大学)、津田 一郎(中部大学)、大倉 和博(広島大学)

14:50 〜 15:10

[3D3-OS-4a-04] Deep Neuroevolution によるロボティックスワームの二点間往復タスクにおける群れ行動の生成

〇森本 大智1、平賀 元彰1、大倉 和博1、松村 嘉之2 (1. 広島大学、2. 信州大学)

キーワード:スワームロボティクス、Deep Neuroevolution、深層強化学習

深層ニューラルネットワーク(Deep Neural Network, DNN)と強化学習を組み合わせた深層強化学習(Deep Reinforcement Learning, DRL)が様々な問題において
良好な性能を記録している.
DNNは結合荷重値の勾配を用いた最急降下法により学習する.
そのため,評価関数のランドスケープ形状にその性能が大きく依存すると考えられる.
これに対し,DNNを進化計算で学習させるDeep Neuroevolution(DNE)が試みられつつある.

本研究では,DNEをロボティックスワームに適用して合目的的な群れ行動の生成を狙う.
一般に,ロボティックスワームの群れ行動生成問題では,合目的的な群れ行動を生成するための報酬設計は簡単ではない.
DNEは個体群ベースの勾配フリーな方法によってDNNの学習を行うため,報酬設計に対し頑健な学習が期待される.
ベンチマークとして二点間往復問題と取り上げて計算機実験を行った.
その結果,DNEとDRLを比較すると異なる報酬設定においてDNEの方が明らかに頑健な制御器獲得をしていることがわかった.