13:30 〜 13:50
[2E4-GS-6-01] ニューラル機械翻訳を用いた多言語コード検索データセットの構築
キーワード:多言語データセット、Text-to-Code、コード検索、ニューラル機械翻訳
コード検索は,与えられた自然言語クエリに意味的に対応するプログラミングコードを見つけるタスクである.これまでに作成されたコード検索タスクのデータセットでは,プログラミング言語データは多言語化されている一方で,自然言語データは英語に限られていた.本研究では,ニューラル機械翻訳モデルを使用することで,4つの自然言語と4つのプログラミング言語を含む多言語コード検索データセットを作成する.また,作成したデータセットを用いて事前学習済み多言語モデルを学習し,複数のコード検索テストセットによる評価を行う.実験の結果,自然言語とプログラミング言語の両方で全言語データを用いて事前学習を行ったモデルが,コード検索タスクにおいて多くの場合最も良い性能を示した.例外として,Pythonのテストセットで評価を行った際,事前学習に用いたプログラミング言語データがPythonのみのモデルがより良い性能を示した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。