2020年度 人工知能学会全国大会(第34回)

講演情報

インタラクティブセッション

[3Rin4] インタラクティブ1

2020年6月11日(木) 13:40 〜 15:20 R01会場 (jsai2020online-2-33)

[3Rin4-72] 国立国会図書館のデジタル化資料の検索・提供方法改善を目的とした技術開発とデータセット構築の取組について

〇青池 亨1、木下 貴文1、里見 航1、川島 隆徳1 (1.国立国会図書館)

本論文の著作権は国立国会図書館が有します

キーワード:文書レイアウト解析、データセット、OCR、図書館資料

国立国会図書館(NDL)では、272万点に及ぶデジタル化した所蔵資料の検索可能性と提供可能性を広げるため、デジタル化画像に機械学習を適用する調査研究を行っている。これまでにも、Semantic Segmentationを適用して資料から挿絵等を自動抽出することで類似資料を画像検索する機能や、GANを適用して画像のコントラストを加工し、紙面が褐変した資料を読みやすくする機能等を開発してきた。
現在、明治期の活字資料等、既存のOCRソフトでは読み取り精度が低い資料群を高品質にテキスト化することを目的として、資料のレイアウト解析及び文字認識等について研究を進めている。その一環として構築した、古典籍や近代のインターネット公開資料を多く含む2,857画像からなる資料レイアウトデータセット「NDL-DocL」(うち2,280画像をGitHubから公開)と、アノテーション作業を半自動化するためのレイアウト認識モデルの認識性能と、開発したレイアウト用アノテーションツールについて報告する。また、データセットを利用した発展的な取組について述べる。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード