09:00 〜 10:40
[4Pin1-24] 単語の分散表現を用いたEarth Mover's Distanceと文ベクトルによる対訳コーパスの自動生成
キーワード:機械翻訳、対訳コーパス
本研究では,単語の分散表現に基づき対訳コーパスを自動生成する新たな手法を提案する.提案手法では,異言語間の文同士の対応関係を単語の分散表現に基づく類似度により決定する.その際,2つの分布間の距離であるEarth Mover’s Distance(EMD)と文ベクトルに基づく距離の2つの距離を用いて類似度を求める.EMD を用いるのは単語の分散表現を特徴量とすることで,単語の意味を考慮した文間の類似度を得ることができるためである.提案手法では対訳辞書などの高品質な対訳知識を用いることなく,単語の意味を考慮した対訳コーパスの自動生成が可能である.