2019年度 人工知能学会全国大会(第33回)

講演情報

一般セッション

一般セッション » [GS] J-9 自然言語処理・情報検索

[3C4-J-9] 自然言語処理・情報検索: 文書修正

2019年6月6日(木) 15:50 〜 16:50 C会場 (4F 国際会議室)

座長:木村 泰知(小樽商科大学) 評者:西原 陽子(立命館大学)

16:30 〜 16:50

[3C4-J-9-03] Bidirectional LSTMを用いた誤字脱字検出システム

〇高橋 諒1、蓑田 和麻1、舛田 明寛2、石川 信行1 (1. 株式会社リクルートテクノロジーズ、2. 株式会社PE-BANK)

キーワード:自然言語処理、深層学習、異常検知

カスタマーとクライアントのマッチングビジネスを展開するリクルートでは、クライアントの情報をカスタマーに伝達するために日々大量の原稿が作成されている。本論文では、機械学習を用いてそれらの原稿の誤字脱字を検出する方法を提案する。このシステムは主に2つのパートで成り立っている。1つは複数のBidirectional LSTMを用いて各文字に対して誤りがないかの確率を算出するパート。もう一つはそれらの出力値を入力として、文全体で誤りがあるかないかを判定するランダムフォレストアルゴリズムである。この方法の有効性を示すために人工で作成した文と我々のサービスで持つ実データを用いて検証を行った。