確率的方策に基づいた自然強化学習

鈴木 匠海

16:00 〜 16:20

[1B4-GS-2-04] 確率的方策に基づいた自然強化学習

〇鈴木匠海¹、越川駿平²、高橋達二¹、甲野佑¹ (1. 東京電機大学、2. 東京電機大学院)

キーワード：強化学習、機械学習

近年，人工知能技術の一つである機械学習の中で，特に意思決定則（方策）を学習する手法である強化学習とさまざまな機械学習タスクで驚異的な性能を実現している深層学習を組み合わせた深層強化学習が注目されている．実際，囲碁や Atari というビデオゲームにおいて，人間よりも高いパフォーマンスを見せている．一方で，限定された環境の範囲を超えた実世界タスクへの応用は進展が遅く，別のアプローチも必要となる可能性がある．そこで我々は希求水準を設定し報酬に質を見出す自然強化学習に着目した．自然強化学習では人間の合目的的な性質を探索に取り入れており，自然強化学習のアルゴリズムである Risk-senstive Satisficing (RS) においてテーブル型強化学習ではすでに一定の合目的的な探索とその効率性が示されている．しかし，現状の RS は決定論的な方策であり，深層強化学習に用いられる確率分布を利用したアルゴリズムへの応用に困難がある．そこで本研究では RS を深層化するに当たって，決定論的な方策を確率的に拡張し，既存のテーブル型強化学習のタスクと同等の優れた成果が得られているのか検証した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1B4-GS-2] 機械学習：経路計画・制御・とセグメンテーション

[1B4-GS-2-04] 確率的方策に基づいた自然強化学習

パスワード