[4Xin1-38] 割り当て画像の多様性を考慮したVokenizationによるマスク言語モデルの改善
キーワード:自然言語処理、マルチモーダル、言語モデル
人間が言語機能を獲得する上で、視覚情報は重要な役割を担っている。様々な自然言語処理タスクで成功を収めている大規模言語モデルの多くは、テキストデータのみを用いて学習される。Vokenizationの研究は、自然言語処理タスクにおける大規模言語モデルの性能を向上させるために、視覚情報を大規模言語モデル学習に取り入れるという新しい方法を確立した。しかし、Vokenizationでは、文中の異なるトークンに同じ画像を割り当ててしまうため、大規模言語モデルが効果的な単語埋め込み表現を学習することができない。本研究では、大規模言語モデルの性能をさらに向上させるために、大規模言語モデル学習においてトークンに割り当てられる画像をtop-kまたはtop-pサンプリングを利用して多様化する方法を提案する。実験の結果、言語理解ベンチマークであるGLUEにおいて、本手法の有効性が示され、Vokenizationのtop-1検索を用いたベースライン手法を上回った。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。