2022年度 人工知能学会全国大会(第36回)

講演情報

一般セッション

一般セッション » GS-2 機械学習

[2C4-GS-2] 機械学習:強化学習(1)

2022年6月15日(水) 13:20 〜 15:00 C会場 (Room C-2)

座長:谷本 啓(NEC)[現地]

14:20 〜 14:40

[2C4-GS-2-04] 確率的満足化における最適な基準値の動的推定

〇久米 淳1、鈴木 裕毅1、加藤 暦雄2、甲野 祐1、高橋 達二1 (1. 東京電機大学理工学部、2. 東京電機大学大学院)

キーワード:強化学習、機械学習、バンディット問題、満足化

人工知能技術は歴史的に神経生理的・認知的性質のある側面を模倣により発展してきた.実際に人間は一見非合理だが,限定された情報下で素早い探索を行い合目的的な手段を見出すことができる.我々はこの素早い探索に認知的満足化が関与していると考え,これを数理化・分析を行い,強化学習のような未知環境への探索に応用可能なアルゴリズム Risk-sensitive Satisficing (RS) を考案した.RS は決定論的な探索であり,環境ノイズへの頑健性や,確率分布を利用したアルゴリズムへの応用に困難がある.そこで RS に内在する探索比率を確率分布として表現した確率化認知的満足化方策 Stochastic Risk-sensitive Satisficing (SRS) が考案された.しかし SRS は RS が多数有していた優秀な特性を維持しているかは議論の余地がある.そこで本研究では満足化方策の課題の一つである合目的の定義,すなわち最適な希求報酬水準の動的推定がバンディット問題において SRS でも行えるかを検証し,合目的手段の素早い探索と最適化を両立することが可能なことを示した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード