[3Xin4-26] 大脳皮質-大脳基底核回路を模したタイリング型ネットワークによる強化学習モデル
キーワード:強化学習、大脳基底核、神経回路
動物には、好ましい報酬がもたらされると同様の状況下で同じ行動を選択する頻度が増加するという学習様式が存在する。これは人工知能の分野で強化学習と呼ばれており、そのアルゴリズムの多くは報酬予測誤差を用いたものである。 動物の脳内にも、このアルゴリズムを実現できる神経回路が存在するはずである。実際、報酬予測誤差を表現する神経細胞は中脳黒質で発見されており、中脳黒質の投射先である大脳基底核線条体を中心とした神経回路が強化学習に関連した情報処理を行っている可能性が示唆されている。しかし、脳における神経回路レベルでの強化学習アルゴリズムは解明されていない。 本研究では、ドーパミン神経細胞からの報酬予測誤差を利用し、大脳皮質-大脳基底核の神経回路を並列にタイリングしたネットワークモデルの構築を試みた。マルコフ決定過程の強化学習課題である迷路課題とCartPoleを用いて、従来のTD学習との比較を行った。その結果、動物の学習時に観察されるようなドーパミン神経細胞の活動様式を再現しつつ、TD学習と遜色ない学習効率を示すことが確認されたので報告する。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。