[3Xin4-65] 非言語データを用いた対照学習による文埋め込み学習の日本語における効果検証
キーワード:自然言語処理、文埋め込み、対照学習
テキストから学習した文埋め込みは、文間の意味的類似度計算やテキスト生成の自動評価などに広く利用されている。文埋め込み学習手法の一つとして、対照学習に基づくSimCSEが提案されており、意味的類似度計算において高い精度を達成している。また、SimCSEの派生であるVisualCSEやAudioCSEは、テキストによる学習に加えて、画像や音声データによって追加学習する手法であり、さらに精度が向上することが英語において示されている。しかし、これらの非言語データを用いた手法は、日本語においては検証されていない。本研究では、画像データを用いるVisualCSEについて、日本語における有効性を検証する。その結果、日本語においては、英語での実験で見られた大幅な精度向上は見られなかった。また、画像データの代わりにノイズを用いることによって文埋め込み学習に与える影響を分析する。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。