2020年度 人工知能学会全国大会(第34回)

講演情報

一般セッション

一般セッション » J-1 基礎・理論

[4B3-GS-1] 基礎・理論 (2)

2020年6月12日(金) 14:00 〜 15:40 B会場 (jsai2020online-2)

座長:奥野彰文(理化学研究所/京都大学)

14:00 〜 14:20

[4B3-GS-1-01] マウスの行動探索における報酬分布に依存した学習率の調整

〇太田 宏之1、佐鳥 玖仁朗2、宝田 悠2、荒毛 将史1、守本 祐司1、石塚 俊晶1、高橋 達二2 (1. 防衛医科大学校、2. 東京電機大学)

キーワード:強化学習、探索、行動科学

本研究では、強化に関する学習率が報酬の分散にどのように依存しているのかを探索オペラント課題を用いて検証した。動物の生息環境には、膨大な数の行動の選択肢が存在し、かつ、食餌(報酬)が得られる選択肢は時空間的にスパースに分散している。過酷な環境に適応している動物の探索戦略をQ学習モデルで解析することで、探索行動の性質を理解できるだけでなく、巨大状態空間へのQ学習の適用方法の改善が期待される。しかし、探索行動に関するQ学習を用いた既存の研究では2選択課題が用いられており、訪問頻度の少ない複数の選択肢に関する探索行動の解析ができなかった。そこで、本研究では5本腕バンディット課題をマウスに課し、その探索行動を解析した。得られたデータに対して、正と負の報酬予測誤差のそれぞれに対して異なる2つの学習率を持ったQ学習モデルをフィッティングした。その結果、報酬の出現頻度が低い場合、正の学習率が負の学習率に対して約6倍の大きさを示した。報酬が得にくい厳しい環境においては、失敗の経験は反映されず、1回の成功体験の重みが増強されていることが示された。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード