日本地球惑星科学連合2024年大会

講演情報

[J] 口頭発表

セッション記号 M (領域外・複数領域) » M-IS ジョイント

[M-IS17] 歴史学×地球惑星科学

2024年5月30日(木) 15:30 〜 16:45 201B (幕張メッセ国際会議場)

コンビーナ:加納 靖之(東京大学地震研究所)、芳村 圭(東京大学生産技術研究所)、岩橋 清美(國學院大學)、玉澤 春史(東京大学生産技術研究所)、座長:芳村 圭(東京大学生産技術研究所)、岩橋 清美(國學院大學)

15:30 〜 16:00

[MIS17-05] 古典籍資料のOCRテキスト化実験から―NDL古典籍OCRの開発と全文検索の実現―

★招待講演

*青池 亨1 (1.国立国会図書館)

キーワード:過去の災害、古典籍資料、全文検索、デジタルアーカイブ

近年、国立国会図書館(以下「当館」)は、デジタル化した所蔵資料の検索と閲覧の利便性をより高めるべくOCR(光学的文字認識)によるテキスト化を進めている。デジタル化した資料画像からOCRによって全文テキストデータを作成することで、資料本文の情報も検索できるようになる。これまで本のタイトルや著者等の書誌データだけでは見つからなかった資料の発見可能性を大きく向上させることになる。本発表では、当館におけるOCRテキスト化の経緯を説明した上で、そのうち古典籍資料(江戸期以前の和古書、清代以前の漢籍等)に対するOCRの開発と全文検索を実現した背景と意義について紹介する。
当館は2021年度に、2020年末時点で国立国会図書館デジタルコレクション(以下「デジコレ」)に収録されていた明治期以降の書籍等のデジタル化資料約247万点のOCRによるテキスト化を実施した。また、2021年度以降にデジタル化する資料のテキスト化に利用するため、AI技術を用いたOCR処理プログラムの研究開発も実施した。2021年度のOCR開発は全文検索用途であったが、2022年度は、視覚障害者等向けの読み上げテキスト作成用途にも使えるよう読み順序の整序機能等の追加開発を行った。これをNDLOCRと名付けて当館におけるテキスト化に利用している他、CC BY 4.0ライセンスでソースコードを公開した。これらのOCR関連事業は外部委託によって行ったが明治期以降に出版された活字の資料を高精度にテキスト化することを目標としており、古典籍資料については対象としていなかった。この理由は、古典籍資料は、版本以外に写本などが多く、また、くずし字や異体字、変体仮名など判読に専門的知識を必要とすることから、目標性能の定義やデータセット作成のコストを考慮すると委託になじまず、除外が適当と判断したことによる。

しかしながら、古典籍資料を対象としたOCRを開発し全文検索が実現できれば、当館が所蔵する活字になっていない歴史書、行政文書、随筆、手紙等様々な前近代の資料の中に分散して存在する記録へのアクセスが格段に容易になる。例えば、『旧幕府引継書』は江戸幕府の公文書のうち東京府から帝国図書館に寄託された資料群であり、当館のみが所蔵する江戸時代の行政文書である。古典籍資料は著作権保護期間が満了しているため、デジコレを通じてインターネットで誰でも自由に資料画像を閲覧できるが、専門知識がなければ内容を把握することは困難であり、使いこなせる利用者は限られる。旧幕府引継書の中には、水害を記録した『出水一件』や1855年に発生した安政江戸地震を記録した『地震災書留』といった災害関連の資料が含まれるため、全文検索により利用の敷居が下がると過去の天災を研究する上で有用と考えられる。

筆者が所属する電子情報部電子情報企画課次世代システム開発研究室(以下「次世代室」)は、先進情報技術を応用した新しい図書館サービスの調査研究を行っており、前述のOCR関連事業を担当し、また、その成果物の一部を用いた実験サービスの開発を行っている。OCR関連事業により、次世代室に機械学習を用いたOCR技術開発に関する知見を蓄積できたため、2022年度から古典籍を対象としたOCR(以下「NDL古典籍OCR」)を職員の手で開発することとした(https://lab.ndl.go.jp/data_set/r4_koten/)。
OCRを開発するためには、字形やレイアウトの情報を学習させるためのデータセットが必要である。人文学オープンデータ共同利用センター及び国文学研究資料館が作成・公開している「日本古典籍くずし字データセット」や、京都大学古地震研究会や国立歴史民俗博物館等が主催している市民参加型翻刻プロジェクト「みんなで翻刻」が公開している翻刻成果物、国文学研究資料館が公開している古典籍資料の全文データベース等、日本の人文情報学分野において構築され、オープンデータとして公開されてきた様々なデータ資源を加工することで実現できた。特に「みんなで翻刻」の翻刻データは膨大な蓄積量があり、当時の多様な字形をOCRに学習させる上で非常に役に立った。
開発したNDL古典籍OCRによって当館が所蔵するデジタル化済み古典籍資料約8万点のテキスト化を行い、2022年11月、次世代室が開発・運用している実験サービス「次世代デジタルライブラリー」(https://lab.ndl.go.jp/dl/)で全文検索を実現した。2024年2月には、より認識性能を改善したNDL古典籍OCRで再度テキスト化を行い、差替えを行っている。
NDL古典籍OCRのソースコードは、NDLラボ公式GitHubからCC BY 4.0ライセンスで提供している。2023年1月に公開したものをver.1とし、公開後もデータセットの拡張やアルゴリズムの改善を続け、同8月にver.2、2024年2月にver.3を提供している。既に複数の研究者が資料のテキスト化に利用しており、フィードバックも受けている。まだ精度の改善の余地があるため今後も研究者等の意見を踏まえながら改善を続ける。
NDL古典籍OCRや当館の古典籍資料の全文検索が、地球科学や惑星科学の研究の発展に役立つことを願っている。