11:15 〜 11:30
△ [12a-S101-9] エンタングルメントと軌道角運動量によるN本腕バンディット問題の解法
キーワード:エンタングルメント、強化学習、バンディット問題
競合的多本腕バンディット問題に対し、甘粕らは光の軌道角運動量とエンタングルメントを用いた確率的意思決定アルゴリズムを提案した。任意のマシン台数に対してシステムを構築可能であったが、4台以上のマシンがある時、報酬環境へのロバスト性が低くなるという問題があった。本研究では2手法を提案し、任意のマシン台数に対して、高い平均報酬を担保したまま、ロバスト性を大きく向上させられることを示した。