画像説明による思考連鎖を用いた料理動画の機械翻訳

高田 一慶

19:00 〜 19:20

[3N6-GS-7-05] 画像説明による思考連鎖を用いた料理動画の機械翻訳

〇高田一慶¹、二宮崇¹、後藤功雄¹ (1. 愛媛大学)

キーワード：マルチモーダル、機械翻訳、料理動画

英単語には多くの多義語が存在し，これが料理動画内の英文を翻訳する上で問題となる．例えば「pepper」は，「ピーマン・パプリカ・唐辛子・胡椒」のように複数の意味が存在するため、これを字面のみで正しく翻訳するのは難しい．本論文では，料理動画の英日機械翻訳タスクを対象として，画像をモデルに説明させ，その説明を基に翻訳する思考連鎖 (Chain-of-Thought) を用いる手法を提案する．実験では，入力文を字面だけでは翻訳の難しい150文に絞り，通常の翻訳，単に画像をモデルに見せる場合，思考連鎖を利用した場合の３つを比較した．モデルはQwen2-VL-72Bと，gpt-4oを使用し，BLEUとCOMETで評価した．実験結果より，多くの場合で画像を用いることの有効性を示せた．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3N6-GS-7] 画像音声メディア処理：視覚言語モデル

[3N6-GS-7-05] 画像説明による思考連鎖を用いた料理動画の機械翻訳

パスワード