18:20 〜 18:40
[1N3-04] Profit Sharingと遺伝的アルゴリズムを用いたハイブリッド学習 -MDPs環境でのタスク分割性能-
キーワード:不完全知覚問題、強化学習、遺伝的アルゴリズム
強化学習は,学習者であるエージェントが環境との相互作用から目標状態に達する方策の学習を行う手法である.強化学習では,観測情報が不十分で状態の混同を引き起こし,正しく学習できないことがある.これを不完全知覚問題という.この解決手法として,筆者らはProfit Sharingと遺伝的アルゴリズムを組み合わせ,タスクを分割することで不完全知覚問題を解決するHybrid learning using Profit sharing and Genetic algorithm (HPG)を提案した.しかし,実環境ではマルコフ決定過程(MDPs)であることが多いものの,HPGのMDPs環境下における有効性を検証していなかった.本稿では,MDPs環境にも効率よく対応できるようHPGを改良し,不完全知覚問題とMDPs環境下における実験により,タスク分割性能を検証する.