2023年度 人工知能学会全国大会(第37回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-27 強化学習の新展開

[2Q4-OS-27b] 強化学習の新展開

2023年6月7日(水) 13:30 〜 15:10 Q会場 (601)

オーガナイザ:太田 宏之、甲野 佑、高橋 達二

14:30 〜 14:50

[2Q4-OS-27b-04] Gaussian 分布の報酬への自然強化学習の拡張

〇小河 将真1、有村 柊一2、高橋 達二1、甲野 佑1 (1. 東京電機大学理工学部、2. 東京電機大学大学院)

キーワード:強化学習、機械学習、バンディット問題、レコメンド

近年,エージェントが行動を環境と相互作用しながら学習し,目的達成度合いを意味する獲得報酬の最大化を目指す強化学習の進展が盛んに行われている.特にバンディットアルゴリズムは広く活用されており,その中でも広告配信などのレコメンド分野では当たり前になっている.しかし,レコメンド分野における報酬の最大化は,人間の複雑性や非定常性から実際には困難な場合が度々あり,獲得報酬がある水準を達成しているかが大事な場面が多い.それは,人間の選好の性質にも合致しており,適切に水準を設定した場合において優れた性能を示す.そのような認知傾向を探索に取り入れたのが Risk-sensitive Satisficing (RS) で, RS は目的に沿って設定された希求水準の達成を目指す自然強化学習のアルゴリズムである. 広告や商品をクリックしたか否かなどに用いられるベルヌーイ分布の報酬のような自然強化学習では優れた性能を示すが,実応用上バンディット問題では視聴時間など連続値の報酬を扱うことが多い.本研究では正規分布からなる実数値の報酬を用いたバンディット問題に RS を適用した場合の性能を検証し,いくつかの考察を示す.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード