2023年度 人工知能学会全国大会(第37回)

講演情報

一般セッション

一般セッション » GS-6 言語メディア処理

[2E4-GS-6] 言語メディア処理

2023年6月7日(水) 13:30 〜 15:10 E会場 (大会議室 A2)

座長:赤間 怜奈(東北大学) [現地]

13:30 〜 13:50

[2E4-GS-6-01] ニューラル機械翻訳を用いた多言語コード検索データセットの構築

〇関澤 瞭1、Duan Nan2、Lu Shuai2、谷中 瞳1 (1. 東京大学、2. Microsoft Research Asia)

キーワード:多言語データセット、Text-to-Code、コード検索、ニューラル機械翻訳

コード検索は,与えられた自然言語クエリに意味的に対応するプログラミングコードを見つけるタスクである.これまでに作成されたコード検索タスクのデータセットでは,プログラミング言語データは多言語化されている一方で,自然言語データは英語に限られていた.本研究では,ニューラル機械翻訳モデルを使用することで,4つの自然言語と4つのプログラミング言語を含む多言語コード検索データセットを作成する.また,作成したデータセットを用いて事前学習済み多言語モデルを学習し,複数のコード検索テストセットによる評価を行う.実験の結果,自然言語とプログラミング言語の両方で全言語データを用いて事前学習を行ったモデルが,コード検索タスクにおいて多くの場合最も良い性能を示した.例外として,Pythonのテストセットで評価を行った際,事前学習に用いたプログラミング言語データがPythonのみのモデルがより良い性能を示した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード