[3Rin4-78] Doc2VecとBERTを用いた日本語作品の著者推定
キーワード:分類学習、自然言語理解
あるテキストをもとに,その著者を推定するという研究は古くから行われている.日本語で書かれたテキストにおいては,単語の使用頻度や品詞のn-gramの分布,読点前の文字の分布といった特徴量に注目した手法が行われてきた.また判別モデルについてもランダムフォレスト法やニューラルネットワークといった様々な機械学習手法が用いられている.ここで本研究では,2014年に提案されたDoc2Vecと2018年に提案されたBERTに注目し,これらとニューラルネットを用いた教師あり学習を行って著者推定を行なった.学習データ及びテストデータとして使用する作品はインターネット上で公開されている青空文庫から取得した.Doc2Vecにおいては作品を数値ベクトルに変換し,それをニューラルネットの入力としている.Doc2Vecにおいては84.89%,BERTにおいては55.43%の精度が達成できた.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。