2020年度 人工知能学会全国大会(第34回)

講演情報

一般セッション

一般セッション » J-9 自然言語処理・情報検索

[1E3-GS-9] 自然言語処理・情報検索: 機械学習

2020年6月9日(火) 13:20 〜 15:00 E会場 (jsai2020online-5)

座長:石畠正和(NTT)

14:00 〜 14:20

[1E3-GS-9-03] LSTMを用いた自動句読点補完

〇靱 勝彦1 (1. 一般社団法人共同通信社)

キーワード:自然言語処理、LSTM

日本語文章においては、句読点の挿入位置により文脈の意味が異なる場合があり、句読点の挿入位置は非常に重要である。近年ではSNS等の書き込みでは句読点を省いたり、また音声認識においては句読点が取れない場合など、句読点を自動補完する必要がある場合も多い。
本研究では、深層学習を用いることによりテキスト情報のみからの句読点の自動補完を行う一般的な手法を作成することを目的とする。提案する手法は、出現頻度の低い単語を品詞に置き換えて作成したコーパスから、句読点が存在するかどうかを推測する位置の前後の単語列にLSTMを用いて、句読点が存在するか否かの3値分類を行う。
その際、モデルから出力される確率に閾値をもうけ、閾値で予測の調整を行うことで分類の精度を向上させるものである。また、入力の単語数を制限し品詞に置き換えることで計算精度を落とすことなく計算時間の短縮できることがわかった。この手法を用いることで、放送用原稿をテキストコーパスとして用いた実験から、本手法の有効性を確認した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード