文字列・音の類似度を考慮した深層学習に基づくテキストの正規化

川村 陸; 青木 竜哉; 上垣外 英剛; 高村 大也; 奥村 学

[3Rin4-09] 文字列・音の類似度を考慮した深層学習に基づくテキストの正規化

〇川村陸¹、青木竜哉¹、上垣外英剛¹、高村大也^1,2、奥村学¹ (1.東京工業大学、2.産業技術総合研究所)

キーワード：テキスト正規化、スラング、編集距離

SNS上のテキストにはスペルミス，強調文字，インターネットスラングなどの非標準的な単語が多く使用される．非標準的な単語を多く含んでいると読者が文章の意味を理解できないだけでなく，SNSを対象とした自然言語処理を行う上の障壁となる．この問題を解決するために，非標準的な単語を含む文を訂正するテキスト標準化が必要とされている．このような需要に対処するため本研究では，深層学習を用いて文字列・音の類似性をモデル化することで，より高度なテキスト標準化を目指す．提案手法では，文字列の類似性を考慮することでpepoleとpeopleの様な表記ゆれに対応することができる．さらに，音の類似性を考慮することで，yesssとyes，disとthisの様な発音に起因した文字の置き換えに対応することが可能である．評価実験では，文字列・音の類似性を考慮した提案手法が最高精度を達成することを確認した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3Rin4] インタラクティブ1

[3Rin4-09] 文字列・音の類似度を考慮した深層学習に基づくテキストの正規化

パスワード