[4Rin1-77] 対数共起頻度を用いた四項類推:word2vecとPMI との比較
キーワード:共起行列、単語埋め込みモデル、類推
近年の単語埋め込みモデルは,類推課題において様々な意味課題,中でも類推課題において高い正答率を持つことが示されてきた.この高正答率の理由としては,モデルが構成する単語ベクトルの内積が,自己相互情報量(PMI)で重み付けされた共起頻度を近似するためである,という説明がなされ,そのためPMI行列が類推課題に重要な情報を有していると考えられてきた.しかしこの説明は,PMI自体が類推と関連付けられていないため,類推課題に関する高正答率に対する説明としては不十分である.本稿では類推課題に対する共起行列の重要性を更に探るため,元の共起頻度行列の構造をPMIよりも保つ対数共起頻度行列について,類推課題の正答率を比較した.実験の結果として,対数共起頻度行列(logreq)はPMI行列に迫る精度で課題に回答可能であり,logfreqにSVDを施した場合には他の手法を超える精度を示すことが分かった.この結果はPMI行列が類推課題に高正答率を得る上で必要ではないこと,また対数共起頻度行列は,PMIに対して元の行列の性質を保存することから,元の共起行列の性質を分析することが重要であることを示唆する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。