[3Yin2-17] Invariant Information Clusteringを用いた教師なしテキストセグメンテーションの提案
キーワード:テキストセグメンテーション、教師なし学習、深層学習、Invariant Information Clustering、Transformer
テキストセグメンテーションはテキストをトピックに応じて分割する手法である。文書の検索、要約、抽出などの自然言語処理タスクを支える重要な技術であり、非構造化データの活用に向けて期待されている。初期のテキストセグメンテーションは、教師なし手法が研究されていたが、その多くがヒューリスティックであり、ドメイン固有の知識に基づくテキスト分割や様々な粒度のテキスト分割に課題があった。近年では深層学習ベースの教師あり手法が提案され、文脈を考慮した特徴量を用いることで高精度なセグメンテーションを実現しているが、アノテーションコストがかかるため、その適用範囲は限られている。そこで本研究では、深層学習ベースの教師なし手法を提案する。具体的には、Transformerをベースとしたネットワークに近年画像分野での成功が報告されているInvariant Information Clusteringを導入し、様々な粒度のテキスト分割が可能なクラスタリングアプローチの手法を構築した。そして、求人情報を含むメール文書のテキストセグメンテーションにおいて、従来の教師なし手法よりもエラー率が低いことを示す。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。