15:00 〜 15:20
[1Q4-OS-7b-01] 深層恒常性強化学習と内受容感覚に基づく方策選択機構
キーワード:恒常性強化学習、内受容感覚、強化学習、ニューラルネットワーク
身体内部の状態を一定に保つ仕組み:恒常性は動物で普遍的にみられる性質である.恒常性は動物行動を説明する概念として広く受け入れられてきた.恒常性による行動創発を扱う強化学習(恒常性強化学習)に関する先行研究は離散行動や1〜3種類の離散状態といった極めて小規模な問題系に限定されており,より現実的な問題を扱うことは困難であった.そこで本研究では恒常性強化学習を大規模化する.これによりエージェント内部の状態を制御目標とすることでの行動創発を,高次元入力・連続値行動のレベルで実現する.また恒常性強化学習において特に有効なネットワーク構造を提案する.大規模化のアプローチとして,我々は深層強化学習を適用することで行動最適化を実現する.そして先行研究で提案された複数の報酬定義を比較し,恒常性の学習にはKeramati & Gutkinによる内受容誤差の時間差分に基づく報酬設定が最も有効であることを示す.最後に,恒常性においては身体内部の状態に応じて適切な振る舞いを切り替えることが重要となる。我々はこれを明示的に組み込んだ注意機構を方策ネットワーク構造に採用することで,実際に学習が促進されることを示す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。