15:20 〜 15:40
[1J2-01] カーネル法に基づく疎な言語表現のための高速計算可能な共起尺度
キーワード:自然言語処理、機械学習
コロケーション獲得や対話応答選択など,言語表現の間の関連の強さのモデル化は自然言語処理における基本的タスクである.デファクトの共起尺度である自己相互情報量(PMI)は疎なデータに適用すると大きな学習時間が必要となる.本講演では,PMIが「相互情報量へのペア(x,y)の貢献度」と捉えられることと対応付け,新しい共起尺度であるPointwise HSIC(PHSIC)を「カーネル法に基づく依存性尺度HSICへのペア(x,y)の貢献度」として提案する.PHSICは句や文などの疎な言語表現に適用でき,しかも行列計算に基づく高速な推定が可能である.実験では,PHSICを対話の応答文選択タスクに適用し,学習速度が既存尺度に比べ約100倍高速で,かつデータ数が少ないときにも予測精度の劣化が少ないことを示す.