自然言語処理とVision-and-Language

西田 京介

2:20 PM - 4:00 PM

[1D4-TS-3-01] 自然言語処理とVision-and-Language

西田京介¹ (1. NTT)

BERTやGPT-3に代表される，巨大なニューラルネットワークを大量のテキストで自己教師あり学習した汎用言語モデルの登場により，一部の自然言語理解のベンチマークタスクでは人工知能が人間のスコアを凌駕するまでに成長した．こうした大量のデータで事前に学習するアプローチは，Vision-and-Languageと呼ばれる画像情報と言語情報を組合せた課題解決を行う研究分野にも導入され，画像に対する質問応答などのタスクで大きな成果を挙げている．本チュートリアルでは，自然言語処理およびVision-and-Language分野について汎用モデルを中心に最新の動向を紹介する．さらに応用タスクとして，我々が取り組んでいる文書画像の読解について現在の到達点および今後の展望について触れる．

Authentication for paper PDF access

A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Presentation information

[1D4-TS-3] 自然言語処理とVision-and-Language

[1D4-TS-3-01] 自然言語処理とVision-and-Language

Password