16:30 〜 16:50
[3C4-J-9-03] Bidirectional LSTMを用いた誤字脱字検出システム
キーワード:自然言語処理、深層学習、異常検知
カスタマーとクライアントのマッチングビジネスを展開するリクルートでは、クライアントの情報をカスタマーに伝達するために日々大量の原稿が作成されている。本論文では、機械学習を用いてそれらの原稿の誤字脱字を検出する方法を提案する。このシステムは主に2つのパートで成り立っている。1つは複数のBidirectional LSTMを用いて各文字に対して誤りがないかの確率を算出するパート。もう一つはそれらの出力値を入力として、文全体で誤りがあるかないかを判定するランダムフォレストアルゴリズムである。この方法の有効性を示すために人工で作成した文と我々のサービスで持つ実データを用いて検証を行った。