JSAI2025

Presentation information

General Session

General Session » GS-7 Vision, speech media processing

[3N6-GS-7] Vision, speech media processing:

Thu. May 29, 2025 5:40 PM - 7:20 PM Room N (Room 1009)

座長:壹岐 太一(NTT)

7:00 PM - 7:20 PM

[3N6-GS-7-05] Machine Translation of Cooking Videos Using Chain-of-Thought with Image Descriptions

〇Kazuyoshi Takata1, Takashi Ninomiya1, Isao Goto1 (1. Ehime University )

Keywords:Multimodal, Machine translation, Cooking Video

英単語には多くの多義語が存在し,これが料理動画内の英文を翻訳する上で問題となる.例えば「pepper」は,「ピーマン・パプリカ・唐辛子・胡椒」のように複数の意味が存在するため、これを字面のみで正しく翻訳するのは難しい.本論文では,料理動画の英日機械翻訳タスクを対象として,画像をモデルに説明させ,その説明を基に翻訳する思考連鎖 (Chain-of-Thought) を用いる手法を提案する.実験では,入力文を字面だけでは翻訳の難しい150文に絞り,通常の翻訳,単に画像をモデルに見せる場合,思考連鎖を利用した場合の3つを比較した.モデルはQwen2-VL-72Bと,gpt-4oを使用し,BLEUとCOMETで評価した.実験結果より,多くの場合で画像を用いることの有効性を示せた.

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Password