16:10 〜 16:30
[3K4-J-2-02] 動的報酬クラスタリング
キーワード:時系列データ、強化学習、模倣学習、報酬設計
実世界の時系列データは、人間の操作によって様々なパターンを持つ。我々の目的は、アクションとの時系列データからの貴重な情報の抽出である。また、我々は時系列データから人々の方針を解釈する必要がある。我々は、時系列データから動的な報酬をクラスタリングするための解釈方法を提案する。シンプルなWavelet変換による前処理ととクラスタリング技術を組み合わせることで、人間のモーションデータや倒立振子のシミュレーションのデータセットに対して、我々のアプローチは時系列情報を保持したまま異なる報酬と機能の解釈可能のクラスタリングに成功した。