内在的強化学習の理論

高橋 達二

09:00 〜 09:20

[2Q1-OS-27a-01] 内在的強化学習の理論

報酬に質を導入する

〇高橋達二^1,2 (1. 東京電機大学、2. 理化学研究所革新知能統合研究センター)

キーワード：限定合理性、満足化、計算論的合理性

強化学習はマルコフ決定過程と動的計画法を元に、報酬の最大化という最適化原理により理論的に整理され、今日では数々の産業的応用を持つ。本発表では、質を持たない単なる「スカラー量」として扱われる報酬について、人間や動物の価値付けや生存、学習や探索の仕方を参考に、単なる全順序集合である報酬の範囲を、原点・基準点を持つよう変換し、プラスマイナスという符号を導入する。符号は良い/悪いという質を意味し、変換後の報酬の累積は、（理論家ではなく）エージェントの目の高さの「主観的リグレット」となる。ここから、従来の満足化 satisficing を包括する理論とモデルが導かれる。これにより、強化学習のタスクを最適化問題から判定問題へと転換することが可能となる。また、社会学習においてより「深い探索」も可能となり、近代科学を可能としたとされる「メタ情報」を通じた社会のモデリングに繋がる。非定常性に強く、場合により（通常の客観的）リグレットを発散させず有界にとどめられる、内在的強化学習または自然強化学習の理論の現状を概観し、今後の課題を述べる。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2Q1-OS-27a] 強化学習の新展開

[2Q1-OS-27a-01] 内在的強化学習の理論

報酬に質を導入する

パスワード