9:00 AM - 10:40 AM
[4Pin1-24] Automatic Generation of Bilingual Corpus by Earth Mover's Distance and Senetence Vectors Using Word Embedding
Keywords:Machine Translation, Bilingual Corpus
本研究では,単語の分散表現に基づき対訳コーパスを自動生成する新たな手法を提案する.提案手法では,異言語間の文同士の対応関係を単語の分散表現に基づく類似度により決定する.その際,2つの分布間の距離であるEarth Mover’s Distance(EMD)と文ベクトルに基づく距離の2つの距離を用いて類似度を求める.EMD を用いるのは単語の分散表現を特徴量とすることで,単語の意味を考慮した文間の類似度を得ることができるためである.提案手法では対訳辞書などの高品質な対訳知識を用いることなく,単語の意味を考慮した対訳コーパスの自動生成が可能である.