日本地球惑星科学連合2022年大会

講演情報

[J] 口頭発表

セッション記号 M (領域外・複数領域) » M-IS ジョイント

[M-IS22] 歴史学×地球惑星科学

2022年5月27日(金) 13:45 〜 15:15 202 (幕張メッセ国際会議場)

コンビーナ:加納 靖之(東京大学地震研究所)、コンビーナ:芳村 圭(東京大学生産技術研究所)、岩橋 清美(國學院大學)、コンビーナ:玉澤 春史(京都市立芸術大学)、座長:芳村 圭(東京大学生産技術研究所)、加納 靖之(東京大学地震研究所)

14:45 〜 15:00

[MIS22-04] 地名情報基盤GeoLODによる歴史地名の共有に向けて

*北本 朝展1 (1.ROIS-DS人文学オープンデータ共同利用センター)

キーワード:歴史ビッグデータ、地名、地名情報基盤、GeoLOD、歴史地名、データ統合

GeoLODは地名情報基盤であり、地名に関する識別子を付与するとともに、地名に関する様々な属性を管理・共有する機能を備える。ここで地名とは、地理的な概念を属性として持つ固有名を指す。地名を階層的に組み立てる住所だけでなく、山や川などの自然地形に関する固有名や、施設やPOI(Point of Interest)に関する固有名などもよく使われる地名である。こうした地名は様々な実世界情報に必須の存在であることから、地名の標準化や統合管理の必要性が認識されているものの、日本では国家レベルの取り組みは遅れているの現状である。一方GeoLODは主に地名を用いたデータ統合を念頭に置いたシステムであり、公的な地名オープンデータの活用に加えて、コミュニティによる地名辞書の共同編集なども対象にしている。

GeoLODは地名管理システムと地名公開システムからなる。まず地名管理システムは、地名辞書と地名からなる。地名辞書は識別子と属性を備えており、あるテーマに属する地名の集合を管理することを想定する。一方、個々の地名も識別子と属性を備えており、特に緯度経度属性は地名を実世界と紐づけるために重要な役割を果たす(ただし必須項目とはしていない)。地名辞書には、アップロード辞書とクラウド辞書の2種類が存在する。まずアップロード辞書とは、何らかの情報源などから生成した地名辞書を、GeoLODスキーマのCSV形式で管理するものである。一方、クラウド辞書とは、GeoLODのシステム上で構築した地名辞書であり、GeoLODスキーマのCSV形式でダウンロードできる。クラウド辞書は作成者のみが地名を編集できるが、別のユーザを招待することで、共同編集環境に移行することも可能である。

次に地名公開システムでは、GeoLODで管理する地名を検索し、地図上に可視化することなどができる。またGeoLODはAPIも提供し、地名の部分一致だけでなく、緯度経度範囲を用いた絞り込みなどの機能も提供する。APIを活用することで、GeoLODの地名識別子を用いたデータ統合がアプリケーション横断的に可能となる。例えば歴史資料に関する知識と経験の共有システム「れきすけ」でも、GeoLOD識別子を活用した地名カードの作成を試みている。

GeoLODは他のシステムと連携して地名に関する統合処理環境を提供する。まず、GeoLODが地名の位置を代表点として表現するのに対し、Geoshapeは地名の範囲を面(ポリゴン)として表現するため、GeoLODとGeoshapeを連携させることで地名を点としても面としても扱える。また、Geoshapeで公開する「歴史的行政区域データセットβ版」を情報源とする地名辞書をGeoLODに登録することで、過去の市区町村に関する情報がGeoLODでも活用できるようになった。さらに、GeoLODで構築した地名辞書をテキストジオタギングシステムGeoNLPで利用することで、テキスト中から地名を自動的に抽出し、曖昧性を解消し、地図上に可視化することもできる。このように地名に関する情報を集積し、データ統合に活用する地名情報基盤の核に位置するのがGeoLODである。

「歴史ビッグデータ」プロジェクトでも、地名の統合は重要な課題である。ある資料に出現する地名と、別の資料に出現する地名とを、同じものであると判断して統合できれば、ある場所で起こった複数のイベントを紐づけて解釈できるようになる。このような地名を軸としたデータ統合として、従来は表形式データや地理情報システム(GIS)がよく使われてきた。例えば、地名を緯度経度に変換してGISに入力すれば、ある種の研究目的では地図上に表示するだけで十分かもしれない。しかし、この方法ではデータとアプリケーションが密結合しているため、データの変更に弱いという欠点がある。それに対してGeoLODのように不変な識別子をデータ統合に用い、可変なデータはGeoLODで一元管理するという疎結合の設計には、様々な変化に強くなるという利点がある。歴史ビッグデータのように成長する不確実なデータを取り扱う研究分野では、データの信頼性を徐々に高めていくアプローチが必須であり、その目的にはGeoLODのアプローチが適している。

このように歴史ビッグデータに関する地理情報をアプリケーション横断的に共有するため、我々は歴史的記録の統合管理システム「れきろく」の設計を進めている。「れきろく」とは、歴史資料に書かれた記録と、それに対応する実世界の実体とを紐づけて蓄積するためのシステムであり、文書空間識別子と実体空間識別子を結合するとともに、歴史的記録の内容を数量的に解釈することも可能とすることで、集積したデータを様々な科学的アプリケーションにも活用できるようにする。こうした構想を推進するには、より多くの歴史地名を収集して、信頼できる情報源として成長させていく必要がある。GeoLODのアップロード辞書とクラウド辞書を組み合わせ、歴史地名を協働で集積する試みを今後は進めていきたい。