14:40 〜 15:00
[2S4-GS-2-04] フレーム欠落環境に対応したOnline Decision Transformer
キーワード:フレーム欠落、オンライン強化学習、Decision Transformer
強化学習による実世界の制御では,通信遅延やセンサの故障による観測フレームの欠落が制御の性能低下を引き起こす.先行研究のDecision Transformer under Random Frame Dropping (DeFog)は,学習時に意図的な欠落を発生させ,その長さを埋め込み情報として学習することで,フレーム欠落への高いロバスト性を獲得している.しかし,DeFogはオフライン強化学習手法のDecision Transformerをベースとしており,報酬値の低い学習データが与えられる場合に十分な性能が発揮できない.そこで本研究では,探索によって学習データの不足を補うことが可能なオンライン強化学習手法であるOnline Decision Transformer (ODT)をベースとして,フレーム欠落に対してロバスト性をもつOnDeFogを提案する.OpenAI Gymを用いた評価実験では,提案手法がODTと比較してフレーム欠落への高いロバスト性を有することを確認した.また報酬値の低い学習データを用いた場合に提案手法がDeFogを上回る性能を示すことを確認した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。