日本地球惑星科学連合2024年大会

講演情報

[J] ポスター発表

セッション記号 M (領域外・複数領域) » M-IS ジョイント

[M-IS17] 歴史学×地球惑星科学

2024年5月30日(木) 17:15 〜 18:45 ポスター会場 (幕張メッセ国際展示場 6ホール)

コンビーナ:加納 靖之(東京大学地震研究所)、芳村 圭(東京大学生産技術研究所)、岩橋 清美(國學院大學)、玉澤 春史(東京大学生産技術研究所)

17:15 〜 18:45

[MIS17-P08] デジタルアーカイブ利用による計量的天文学史研究の検討:彗星記録のテスト調査

*玉澤 春史1,2 (1.東京大学生産技術研究所、2.京都市立芸術大学)

キーワード:デジタルアーカイブ

歴史的資料の中には様々な自然現象が記されており、ある種のデータとして利用することにより稀な現象や長期変動などを理解するための情報としてきた。天文学分野でも様々な天文現象を歴史的資料から拾い上げてカタログ化しすることがなされてきた。近世日本史料に限れば大崎正次「近世日本天文史料」などの労作があるが、近世資料の残存量から人力で検索できる範囲は限られている。近年ではOCR技術も発達し、ある程度の機械的なサーベイができるようになり、より大規模な現象サーベイができる可能性がある。現状ではどの程度の対応
具体的には国立国会図書館NDLラボの令和4年度古典籍資料のOCRテキスト化実験の成果物である古典籍資料約8万点分を利用し、特定の天文用語について検索をかけ、過去に知られている現象の記録と照合することで比較検討することができる。単純に慧星で57件、箒星で13件の検索結果がでているが、これは明らかに知られている記録の数と乖離しており、集録されている資料群の特性なども考えられる。2023年2月にNDL古典籍OCR ver.3が公開され、再度検索したところそれぞれ60, 14となったことからも、OCRの精度や教師モデルの向上により改善されることがわかっている。一方で先行研究から特定年代の現象についてサーベイをかけることも可能であり、文政六(1823)年の彗星について検索すると「賀茂社記録」に収録されていることも確認できる。一方で天保十四(1843)年の彗星も記録があるが、文字としては彗星と記録されているもののOCRの判定としては「書」星となっており、OCRの学習データにおける学習量によって判定が甘くなっている可能性もある。ある程度の人力による修正の必要性が浮かぶとともに、先行研究の精度をあげて計量的な天文学史研究が可能になっていることが確認された。