自己組織化マップを用いた定常・非定常環境に適応可能な多腕バンディットアルゴリズム

馬目 信人

10:30 〜 12:10

[3Rin2-07] 自己組織化マップを用いた定常・非定常環境に適応可能な多腕バンディットアルゴリズム

〇馬目信人^1,2、篠原修二²、鈴木康大^1,2、朝長康介^1,2、光吉俊二² (1. ソフトバンクロボティクス株式会社、2. 東京大学大学院工学系研究科)

キーワード：多腕バンディット問題、自己組織化マップ

対面するユーザを満足させることを目的とするコミュニケーションロボットは，ロボットの持つ多くの行動選択肢から，より早くそのユーザに適した行動を出力する必要がある．しかし現実には，ロボットがそのユーザに適した行動を模索してる最中にユーザの求めるものが変化してしまうことが多々ある．そのため，ロボットの最適な行動出力は難しい．このような問題は，多腕バンディット問題として定式化される．我々はこのような問題を解決するために自己組織化マップを用いた多腕バンディット問題のための新しいアルゴリズムを提案した．本稿では，定常環境下，非定常環境下両者における提案アルゴリズムの性能をみるために，確率的バンディット問題を対象として，数値実験を行った．その結果，提案アルゴリズムは既存アルゴリズムUCB1，UCB1-Tuned，Thompson Samplingと比べ，定常環境下においては腕の本数が多い場合について同等以上の性能を，非定常環境下においては腕の本数に関わらず常に良い性能をあげることを示した．

講演情報

[3Rin2] インタラクティブセッション１

[3Rin2-07] 自己組織化マップを用いた定常・非定常環境に適応可能な多腕バンディットアルゴリズム