非マルコフ環境と経験再生

太田 宏之

09:40 〜 10:00

[2Q1-OS-27a-03] 非マルコフ環境と経験再生

〇太田宏之¹、樋口滉規²、高橋達二²、石塚俊晶¹ (1. 防衛医科大学校、2. 東京電機大学)

キーワード：強化学習、経験再生

本論文では、海馬の経験再生能力を活用し、強化学習アルゴリズムを非マルコフ型環境に適用する際に遭遇する課題の解決策を探索する。非マルコフ型環境では、文脈情報を用いて状態を識別する識別器を訓練するために、多くの試行錯誤を繰り返す必要がある。一方、ヒトや動物は、複雑な報酬条件や状態遷移条件を持つ非マルコフ型シナリオにおいても、成功した行動を速やかに再現することができる。最近の神経科学研究では、げっ歯類の海馬が運動を開始する前に過去の経験を繰り返し再生しており、経路計画や非マルコフ型タスクを解決する役割を担っていることが明らかにされている。我々は、行動選択の前に過去に成功した行動パターンを再生し、再生に基づく時間的バイアスを行動値に適用することで、非マルコフ型課題を効果的に解決する新しい強化学習モデルを提案する。このアプローチにより、文脈情報による状態の識別に必要な試行錯誤の繰り返し回数が大幅に削減され、成功した行動を迅速に再現できるようになり、人間や動物の能力を模倣することができた。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2Q1-OS-27a] 強化学習の新展開

[2Q1-OS-27a-03] 非マルコフ環境と経験再生

パスワード