13:30 〜 13:50
[2Q4-OS-27b-01] 報酬最大化を目的とする行動計画・実行・対話・推論の統一的制御機構
[[オンライン]]
キーワード:階層型強化学習、汎用人工知能、行動計画、モデルベース強化学習
我々は将来の汎用人工知能の実現に向けて、
再帰的強化学習を用いて思考や行動を制御するAIアーキテクチャを開発している。
エージェントは統一的な制御のもと、環境に対して行動し、他者と対話し、環境の状態を推論して、報酬の最大化を目指す。
将来的には、エージェントが自らの経験に基づいて制御プログラムを合成する機構を実装する予定である。
本稿では、まず全体アーキテクチャを説明したあと、その上で動作する行動計画の機構を提案する。
我々はプロトタイプシステムを実装し提案機構の動作を確認した。
再帰的強化学習を用いて思考や行動を制御するAIアーキテクチャを開発している。
エージェントは統一的な制御のもと、環境に対して行動し、他者と対話し、環境の状態を推論して、報酬の最大化を目指す。
将来的には、エージェントが自らの経験に基づいて制御プログラムを合成する機構を実装する予定である。
本稿では、まず全体アーキテクチャを説明したあと、その上で動作する行動計画の機構を提案する。
我々はプロトタイプシステムを実装し提案機構の動作を確認した。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。