10:20 〜 10:40
[3O1-OS-16b-05] 大規模言語モデルの事前知識を活用した構成論的なロボットタスクにおける学習効率の改善
5月31日(金)09:20~09:40:[4O1-OS-16d-02] の時間で発表
キーワード:強化学習、大規模言語モデル、模倣学習
大規模言語モデルは,様々なタスクで汎用的に高い性能を示し,自然 言語処理のみならず様々な領域での応用が広がっている.
ロボット制御においても大規模言語モデルを活用する既存研究は多く存在するが,その多くは構成論的なタスクにおいて行動計画に使用する研究であり,ロボット側に事前に用意されていない行動が選択された場合は失敗してしまう.
つまり,大規模言語モデルにおける事前知識を推論時の方策選択には活用できているが,実際の方策の学習時に利用することできていないといえる.
本稿では,ロボットが新しい方策を獲得する際に,大規模言語モデルの事前知識を用いてタスクを分解し,失敗したステップのみを集中的に強化学習することによって最小限の環境とのインタラクションで行動を獲得できることを目指す.
ロボット制御においても大規模言語モデルを活用する既存研究は多く存在するが,その多くは構成論的なタスクにおいて行動計画に使用する研究であり,ロボット側に事前に用意されていない行動が選択された場合は失敗してしまう.
つまり,大規模言語モデルにおける事前知識を推論時の方策選択には活用できているが,実際の方策の学習時に利用することできていないといえる.
本稿では,ロボットが新しい方策を獲得する際に,大規模言語モデルの事前知識を用いてタスクを分解し,失敗したステップのみを集中的に強化学習することによって最小限の環境とのインタラクションで行動を獲得できることを目指す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。