10:40 〜 11:00
[1K1-GS-6-03] 読み曖昧性解消用データセット構築法の詳細評価
キーワード:データ拡張、単語読み曖昧性解消
漢字で書かれた日本語単語は複数の読みを持つ場合がある。正確な読みの識別は例えば音声合成などでは重要となる。そして、読み分け規則を人間が考案したり機械学習するためにはデータ収集が必要となる。そのため我々は効率的なデータ収集手法を提案した。しかし、既報では収集効率の評価に留まった。更なる詳しい評価のために、我々の提案手法で集められたデータの有用性について読みの分類精度の観点から深く評価を行なった。その結果、比較的最新のBERTを用いた分類手法においても、我々の手法で集めたデータが有用であることを確認できた。また、この手法では集められた文に対する人手での採否判定過程を含むが、その過程を省略しても分類精度がほぼ変わらないことも確認できた。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。