[MIS28-05] KuroNetくずし字認識と歴史ビッグデータ研究へのインパクト
★招待講演
キーワード:くずし字、歴史ビッグデータ、機械学習、歴史資料、KuroNet、文字認識
1.はじめに
日本は、古典籍、古文書、古記録などの過去の資料(史料)を千年以上も大切に受け継いでおり、数億点規模という世界でも稀なほど大量の資料が現存している。ところが、現代のほとんどの日本人は「くずし字」で書かれた過去の資料を読めなくなっており、大量のくずし字資料をどう読み解くかが重要な課題となっている。そこで我々は、機械が文字を読み取る光学的文字認識(OCR)の活用による自動テキスト化の研究に取り組んでいる。これは、過去の資料の読み解きを基に、日本の歴史・文化の研究や、過去の災害などの自然現象の解明を目指す、歴史ビッグデータ研究にも大きなインパクトを与えるものである。
2. KuroNetくずし字認識
まず我々は、くずし字に関する大規模なデータセット「くずし字データセット」(http://codh.rois.ac.jp/char-shape/)を公開した。このデータセットは、2019年11月現在、古典籍44点から切り抜いたくずし字4,328文字種の字形データ1,086,326文字を含む。そして、近年の進歩が著しい機械学習(深層学習)の成果を取り入れたAIくずし字認識の研究が複数の研究グループで始まり、くずし字認識研究のコミュニティは大いに活性化することとなった。
我々の研究グループも機械学習、特に物体検出・認識のアルゴリズムを活用したくずし字認識アルゴリズムKuroNetの研究を進めている[1]。画像中に出現する物体(人や車、標識など)を対象とした物体検出・認識のアルゴリズムは、自動運転など応用範囲が広いため研究が活発化している。そこで我々は、くずし字を物体とみなせば同様の技術が使えるはずと考えた。このアイデアは予想以上にうまくいき、複雑なレイアウトにも頑健なくずし字認識アルゴリズムKuroNetの誕生につながった。
さらにくずし字認識の研究を世界規模に広げるため、世界最大の機械学習コンペティションプラットフォームKaggleで「くずし字認識コンペティション」を開催した。このコンペでは世界中の機械学習研究者・技術者がくずし字認識の問題に挑み、上位に入賞したアルゴリズムは、ほとんどが物体検出・認識をベースにしたものだった[2]。コンペの上位5位までのアルゴリズムはすでにオープンソース化しており、現在はこれらの成果をKuroNetに取り込み強化する研究に取り組んでいる。
KuroNetも将来的にはオープンソースとして公開する予定であるが、まずは誰でも試せるようにウェブサービスとして公開した。ここでは、世界中のミュージアムやライブラリでIIIF (International Image Interoperability Framework)による画像公開が普及している状況を踏まえ、我々が開発するIIIF Curation Viewerからくずし字認識サービスを利用できるようにした。
(1) 多文字認識を対象とするKuroNetくずし字認識サービス:IIIF Curation Viewerで指定した領域に含まれるすべてのくずし字を数秒で認識し、その結果をIIIF Curation Viewerに表示する。くずし字を現代の文字に変換して内容の概略を把握するのに便利である。
(2) 一文字認識を対象とするKogumaNetくずし字認識サービス:指定した領域に含まれるくずし字の候補をランキング表示する。ブラウザ上で動くTensorFlow.jsを活用するため、サーバ側の処理が不要という利点がある。
3. 歴史ビッグデータ研究へのインパクト
KuroNetくずし字認識は、歴史ビッグデータ研究におけるデータ構造化ワークフローの出発点としての役割を担うものである。くずし字が書かれたデジタル画像からKuroNetでプレーンテキストを生成できれば、人間による翻刻の下読みデータにもなるし、タグを付与して半構造化データを構築するためのデータにもなる。この構想を実現するには、KuroNetの精度向上以外にも、いくつかの研究課題が残っている。
第一に、KuroNetの認識結果が文字のUnicodeと座標の組の(順序なし)集合であることから、これをシリアライズして文字列に変換するという課題がある。複雑なレイアウトの場合は、人間にとってもこれは簡単なタスクではない。第二に、機械学習のためのデータセットをさらに拡大するためのエコシステムを構築し、各地の古文書などへと適用対象を広げていくという課題がある。KuroNetは充実したデータセットさえあれば古文書にも対応可能であると我々は考えているが、そのためのデータセットはまだ存在していない。例えば自分が関わる地域の資料を翻刻する「ふるさと翻刻」などの地域活動にデータセット構築を組み込むなど、高品質かつ大規模なデータセットを構築するエコシステムをどうデザインするかも、KuroNetの挑戦的課題である。
参考文献
[1] Tarin CLANUWAT, Alex LAMB, Asanobu KITAMOTO, "KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition with Deep Learning", 15th International Conference on Document Analysis and Recognition (ICDAR2019), arXiv:1910.09433, 2019.
[2] 北本 朝展, カラーヌワット タリン, Alex LAMB, Mikel BOBER-IRIZAR, "くずし字認識のためのKaggle機械学習コンペティションの経過と成果", 人文科学とコンピュータシンポジウム じんもんこん2019論文集, pp. 223-230, 2019.
日本は、古典籍、古文書、古記録などの過去の資料(史料)を千年以上も大切に受け継いでおり、数億点規模という世界でも稀なほど大量の資料が現存している。ところが、現代のほとんどの日本人は「くずし字」で書かれた過去の資料を読めなくなっており、大量のくずし字資料をどう読み解くかが重要な課題となっている。そこで我々は、機械が文字を読み取る光学的文字認識(OCR)の活用による自動テキスト化の研究に取り組んでいる。これは、過去の資料の読み解きを基に、日本の歴史・文化の研究や、過去の災害などの自然現象の解明を目指す、歴史ビッグデータ研究にも大きなインパクトを与えるものである。
2. KuroNetくずし字認識
まず我々は、くずし字に関する大規模なデータセット「くずし字データセット」(http://codh.rois.ac.jp/char-shape/)を公開した。このデータセットは、2019年11月現在、古典籍44点から切り抜いたくずし字4,328文字種の字形データ1,086,326文字を含む。そして、近年の進歩が著しい機械学習(深層学習)の成果を取り入れたAIくずし字認識の研究が複数の研究グループで始まり、くずし字認識研究のコミュニティは大いに活性化することとなった。
我々の研究グループも機械学習、特に物体検出・認識のアルゴリズムを活用したくずし字認識アルゴリズムKuroNetの研究を進めている[1]。画像中に出現する物体(人や車、標識など)を対象とした物体検出・認識のアルゴリズムは、自動運転など応用範囲が広いため研究が活発化している。そこで我々は、くずし字を物体とみなせば同様の技術が使えるはずと考えた。このアイデアは予想以上にうまくいき、複雑なレイアウトにも頑健なくずし字認識アルゴリズムKuroNetの誕生につながった。
さらにくずし字認識の研究を世界規模に広げるため、世界最大の機械学習コンペティションプラットフォームKaggleで「くずし字認識コンペティション」を開催した。このコンペでは世界中の機械学習研究者・技術者がくずし字認識の問題に挑み、上位に入賞したアルゴリズムは、ほとんどが物体検出・認識をベースにしたものだった[2]。コンペの上位5位までのアルゴリズムはすでにオープンソース化しており、現在はこれらの成果をKuroNetに取り込み強化する研究に取り組んでいる。
KuroNetも将来的にはオープンソースとして公開する予定であるが、まずは誰でも試せるようにウェブサービスとして公開した。ここでは、世界中のミュージアムやライブラリでIIIF (International Image Interoperability Framework)による画像公開が普及している状況を踏まえ、我々が開発するIIIF Curation Viewerからくずし字認識サービスを利用できるようにした。
(1) 多文字認識を対象とするKuroNetくずし字認識サービス:IIIF Curation Viewerで指定した領域に含まれるすべてのくずし字を数秒で認識し、その結果をIIIF Curation Viewerに表示する。くずし字を現代の文字に変換して内容の概略を把握するのに便利である。
(2) 一文字認識を対象とするKogumaNetくずし字認識サービス:指定した領域に含まれるくずし字の候補をランキング表示する。ブラウザ上で動くTensorFlow.jsを活用するため、サーバ側の処理が不要という利点がある。
3. 歴史ビッグデータ研究へのインパクト
KuroNetくずし字認識は、歴史ビッグデータ研究におけるデータ構造化ワークフローの出発点としての役割を担うものである。くずし字が書かれたデジタル画像からKuroNetでプレーンテキストを生成できれば、人間による翻刻の下読みデータにもなるし、タグを付与して半構造化データを構築するためのデータにもなる。この構想を実現するには、KuroNetの精度向上以外にも、いくつかの研究課題が残っている。
第一に、KuroNetの認識結果が文字のUnicodeと座標の組の(順序なし)集合であることから、これをシリアライズして文字列に変換するという課題がある。複雑なレイアウトの場合は、人間にとってもこれは簡単なタスクではない。第二に、機械学習のためのデータセットをさらに拡大するためのエコシステムを構築し、各地の古文書などへと適用対象を広げていくという課題がある。KuroNetは充実したデータセットさえあれば古文書にも対応可能であると我々は考えているが、そのためのデータセットはまだ存在していない。例えば自分が関わる地域の資料を翻刻する「ふるさと翻刻」などの地域活動にデータセット構築を組み込むなど、高品質かつ大規模なデータセットを構築するエコシステムをどうデザインするかも、KuroNetの挑戦的課題である。
参考文献
[1] Tarin CLANUWAT, Alex LAMB, Asanobu KITAMOTO, "KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition with Deep Learning", 15th International Conference on Document Analysis and Recognition (ICDAR2019), arXiv:1910.09433, 2019.
[2] 北本 朝展, カラーヌワット タリン, Alex LAMB, Mikel BOBER-IRIZAR, "くずし字認識のためのKaggle機械学習コンペティションの経過と成果", 人文科学とコンピュータシンポジウム じんもんこん2019論文集, pp. 223-230, 2019.