[3Win5-04] 方策の生成モデルにおける多様性評価
キーワード:生成モデル、強化学習、機械学習
生成モデルの出力は誤差や精度といった従来の画一的な指標のみでは評価できない。それは生成モデルにおいては単なる入出力関係ではなく、潜在変数に対する画像や言語など出力の多様性が重要だからであり、生成モデルの進化とともに多様性指標も発展してきた。他方、さまざまなモダリティが生成モデルで学習される中、実世界との相互作用を意味する状態を入力とした行動出力関数、すなわち方策に関する生成モデルについてはあまり進展が見られなかった。そこで本研究と同時期に、行動意図を潜在変数として埋め込み、方策を生成するモデルが新たに提案されているが、その多様性を評価する指標がいまだ存在していない。他のモダリティの生成モデルの多様性指標を流用するにも、当該モデルの生成対象が状態入力と行動出力を結ぶ方策の変化そのものである特殊さから、単純に従来の手法を当てはめることができない。そこで本研究では方策と環境との相互作用で生成される状態軌跡から多様性を間接的に評価する方法を新たに提案する。そして方策生成モデルにおけるパラメータやアーキテクチャの変化に対する性能比較のため、トイタスク上で生成された方策の多様性を本手法で評価した。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。