対話制御の方策再利用における行動関連確率の利用

Nguyen Tung

09:00 〜 09:20

[4E1-OS-11a-01] 対話制御の方策再利用における行動関連確率の利用

Nguyen Tung³、〇吉野幸一郎^1,2,3、Sakti Sakriani^3,2、中村哲^3,2 (1. 理化学研究所ロボティクスプロジェクト (GRP)、2. 理化学研究所革新知能統合研究センター (AIP)、3. 奈良先端科学技術大学院大学)

キーワード：対話システム、対話制御、強化学習

強化学習を用いた対話制御においては、既存ドメインで学習した方策をいかに新規ドメインで活用するかが大きな課題の一つである。本研究では、混合密度ネットワークによって既存ドメインと新規ドメインの行動空間同士で関連確率を定義する。これにより、既存ドメインで学習した方策を新規ドメインでそのまま利用する手法を提案する。実験の結果、回帰によるコンポーネントマッチングを用いた行動関連確率のモデル化が、効率的に既存ドメインの方策を利用可能であることを示した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4E1-OS-11a] 人間と共生する対話知能(1/4)

[4E1-OS-11a-01] 対話制御の方策再利用における行動関連確率の利用

パスワード