10:00 〜 10:20
[1N1-GS-5-01] 囚人のジレンマ環境における協調行動を導く主観的効用の最適化
キーワード:社会的ジレンマ、内発的報酬、報酬成形
社会では個人の利益と公共の利益のどちらかを優先しなければならない社会的ジレンマという状況が存在する。私たち人間はそのような状況下で常に個人の利益を優先するわけではないことがわかっている。一方、強化学習エージェントは報酬を最大化することが目的なため、個々の利益を最大化してしまい社会的ジレンマ下では都合が悪い。そこで、報酬から効用を導出する関数を進化計算で求め、その効用を強化学習に適用することで、社会的ジレンマのモデルの一つである2人囚人ジレンマゲームで協調行動を導く手法が提案された。しかし、この手法では効用関数の形が決まっており、係数のみ進化させたためどのような関数が適しているか明らかでない。そこで本研究では、関数そのものを最適化するため、任意の関数を表現可能なニューラルネットワークの一種である3層パーセプトロンを用いて、その重みを進化計算で求める手法を利用し、相互協調は発生するのか、その際の効用関数について調べることを目的とする。2人囚人のジレンマゲームにおける実験の結果、中間層のニューロンが少なくても、相互協調が起こる特徴的な効用関数を得ることができた。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。