ニューラル機械翻訳を用いた多言語コード検索データセットの構築

関澤 瞭

13:30 〜 13:50

[2E4-GS-6-01] ニューラル機械翻訳を用いた多言語コード検索データセットの構築

〇関澤瞭¹、Duan Nan²、Lu Shuai²、谷中瞳¹ (1. 東京大学、2. Microsoft Research Asia)

キーワード：多言語データセット、Text-to-Code、コード検索、ニューラル機械翻訳

コード検索は，与えられた自然言語クエリに意味的に対応するプログラミングコードを見つけるタスクである．これまでに作成されたコード検索タスクのデータセットでは，プログラミング言語データは多言語化されている一方で，自然言語データは英語に限られていた．本研究では，ニューラル機械翻訳モデルを使用することで，4つの自然言語と4つのプログラミング言語を含む多言語コード検索データセットを作成する．また，作成したデータセットを用いて事前学習済み多言語モデルを学習し，複数のコード検索テストセットによる評価を行う．実験の結果，自然言語とプログラミング言語の両方で全言語データを用いて事前学習を行ったモデルが，コード検索タスクにおいて多くの場合最も良い性能を示した．例外として，Pythonのテストセットで評価を行った際，事前学習に用いたプログラミング言語データがPythonのみのモデルがより良い性能を示した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2E4-GS-6] 言語メディア処理

[2E4-GS-6-01] ニューラル機械翻訳を用いた多言語コード検索データセットの構築

パスワード