14:20 〜 14:40
[4D2-OS-18c-02] 多段・多目的最適化における解の網羅的発見
キーワード:多目的強化学習、ごみ収集
実世界における多くの問題は,複数の競合する目的からなる多段階・多目的最適化問題(MOP)として定式化することができる.そのため,あらかじめ十分な解候補を提示しなければ妥協解を見つけることは困難である. そこで,本稿ではパレート最適解を網羅的に発見する手法を提案する.本研究のアプローチは,実世界の問題は報酬を獲得するまでに複数の行動の評価値を必要とするため,多目的強化学習に基づいている.本研究では,「収集車の容量」と「収集時間」の2つの目的からなる「ごみ収集問題」に適用して評価した.