多腕バンディット問題における拡張型ベイズ推定の検証と考察

森田 大樹; 馬目 信人; 高橋 達二; 篠原 修二

[3Xin4-28] 多腕バンディット問題における拡張型ベイズ推定の検証と考察

〇森田大樹¹、馬目信人²、高橋達二¹、篠原修二^1,2 (1.東京電機大学、2.東京大学大学院工学系研究科)

キーワード：強化学習、ベイズ推定、バンディット問題

ベイズ推定は観測データから, データの生成過程を確率的に推論することができる統計的推定方法である. 近年画像生成AIとして注目されている Stable Diffusion などにも活用されていることから, ベイズ推定は機械学習モデルにおいて重要な役割を持つ要素技術の一つであると言える. 一方で, ベイズ推定そのものの問題点として, 推定の間は過去の情報を現在の情報と同等に評価してしまうことが挙げられる. これは定常環境では問題はないが, 途中で対象の状態が変わるような非定常環境においては従来のベイズ推定では対応できないことが考えられる. 例えば強化学習のタスクであるバンディット問題において, ベイズ推定を基にした方策である Thompson sampling というアルゴリズムは, 定常環境では特に良い性能を示すが非定常環境では性能が極端に低下する. 先行研究ではベイズ推定に忘却率と学習率という概念を導入した拡張型ベイズ推定という手法が提案されている. 本研究ではバンディット問題において拡張型ベイズ推定を用いたアルゴリズムを使って定常・非定常環境への対応を検証し, 拡張型ベイズ推定の忘却率及び学習率の役割を考察する.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3Xin4] ポスターセッション1

[3Xin4-28] 多腕バンディット問題における拡張型ベイズ推定の検証と考察

パスワード