[4Rin1-53] 特徴語抽出の精度改善に向けた反復度と条件付き確率の比較
キーワード:反復度、条件付き確率、特徴語抽出
反復度は語の重要度を測る統計量であり,文書を特徴付ける語が同一文書内で2回以上出現する傾向にあることを仮定している.仮に,いくつかの特徴語やその定義といった教師情報が事前に与えられるならば,より効果的な他の統計量を用いることもできる.しかしながら,そのような情報は利用できないことも多い.もし,反復度が教師情報を利用する統計量と同様の語を抽出できる傾向にあれば,それは教師情報を用いない反復度の有用性を示す根拠となるだろう.その有用性を示すために本稿では,特徴語抽出の実験において反復度と教師情報を利用する条件付き確率を比較し,結果として二つの統計量が同様の語を抽出できる傾向にあることを示す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。