[1Win4-31] 報酬の遅延によるLLMエージェント同士の戦略の複雑化
ゲーム理論におけるIPD条件とAMPD条件におけるLLMエージェントの戦略文の複雑化の測定
キーワード:人工知能、大規模言語モデル、繰り返し囚人のジレンマ、アンチマックス囚人のジレンマ、チェインオブソート
社会脳仮説によれば、人間の脳が進化の過程で大きくなった主な理由は、社会の中で他者の意図を汲み取る能力にあるとされている。この社会脳仮説をLLMエージェントとゲーム理論を用いて再現する。ゲーム理論のIPD条件、AMPD条件それぞれにおいて、LLMエージェントにゲーム理論の戦略を立案させ、その戦略に基づいてLLMエージェントに協調裏切りの意思決定をさせ、その意思決定の結果からさらに戦略を改定させていく。その際、LLMエージェントの戦略の複雑化が各条件によりどの程度差があるかを分析した。その結果、オートマトンの遺伝的アルゴリズムにより複雑化を測定した先行研究とは異なり、有意差が確認できなかった。プロンプト文の手法については、CoTとZero-shot CoTを用いた。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。