16:30 〜 16:45
[MGI31-10] 歴史的行政区域データセットの拡大と歴史ビッグデータ研究への活用
キーワード:歴史ビッグデータ、行政区域、境界データ、地名識別子、地理情報、可視化
多くの地理情報において、行政区域の名称は地名の中心的な存在である。各種の行政文書や統計情報には行政区域の名称が登場するため、これを地理空間にマッピングすることが地理的分析の重要な課題となる。しかし行政区域の歴史的な変遷はオープンデータとして整備されていないため、過去の行政区域の名称を用いてデータを分析すること困難であった。そこで、行政区域に関する統一的なオープンデータを整備し、江戸時代から現代に至る歴史ビッグデータ研究(http://codh.rois.ac.jp/historical-big-data/)へと活用するのが本研究の目的である。
国土数値情報の行政区域データを活用し、1920年から2022年までの行政区域の変遷をオープンデータ化したのが「歴史的行政区域データセットβ版」(https://geoshape.ex.nii.ac.jp/city/)である。このデータセットでは、地名の連続性と同一性を判定する基準を定義し、地名の境界が変化しても名称が変化しなければ、連続した同一の地名と判断して行政区域に識別子を付与している。また、代表点を決定する独自のアルゴリズムを工夫し、点としても面としても行政区域を扱えるようにした。
このデータセットの大きな問題は連続性の欠如である。国土数値情報で最も古いデータは1920年であるが,次のデータは1950年であり30年間のギャップがある.またその後も最大5年間のギャップが続くため,データが存在しない期間内に誕生して消滅した市区町村がデータセットに含まれないという問題があった。そこで、市制町村制が施行された1889年以降の市区町村データを毎年連続してまとめている、筑波大学大学院生命環境科学研究科空間情報科学分野村山祐司研究室の「行政界変遷データベース(地図データ)」との統合作業を進めることにした。これにより、全国地方公共団体コードに由来する4159件、国土数値情報に由来する12260件、行政界変遷データベースに由来する399件の市町村に識別子を付与することができた。
さらに、平凡社や百科綜合リサーチ・センターと協力して、平凡社の『日本歴史地名大系』に含まれる市制町村制以前の町村にも識別子を拡大していく試みを進めている。現在は群馬県を対象に検証を進めているが、これにより江戸時代の藩政村などに遡及する町村に識別子を付与し、オープンデータに加えていける見込みである。新しいオープンデータの公開により、江戸から現代にまで至る長期間のテキストから地名を抽出しマッピングする研究を進めることが容易になり、歴史ビッグデータ研究が画期的に進展することが期待できる。
なお、歴史的行政区域データセットは、他のデータセットやサービスとも連携している。まず「国勢調査町丁・字等別境界データセット」(https://geoshape.ex.nii.ac.jp/ka/)との重なりを計算することで、町丁・字レベルで過去の市区町村名を調べることができるようになっている。また地名識別子を付与・共有するサービスGeoLOD(https://geolod.ex.nii.ac.jp/)を活用することで、API経由で過去の市区町村の情報を検索できるようになっている。さらにテキストから地名を自動的に抽出するサービスGeoNLP(https://geonlp.ex.nii.ac.jp/)とも地名辞書を共有することで、大量テキストからの地名抽出への道を開いている。また歴史的行政区域データセットを活用したサービスとして、過去の新聞記事に付与された地名を歴史的行政区域データセットとリンクさせることで、検索キーワードに対応する地域ごとの記事件数を可視化するアプリケーションなども開発している。このように、歴史的行政区域データセットは様々な歴史的アプリケーションの基盤となるデータセットとして貢献できると考えている。
国土数値情報の行政区域データを活用し、1920年から2022年までの行政区域の変遷をオープンデータ化したのが「歴史的行政区域データセットβ版」(https://geoshape.ex.nii.ac.jp/city/)である。このデータセットでは、地名の連続性と同一性を判定する基準を定義し、地名の境界が変化しても名称が変化しなければ、連続した同一の地名と判断して行政区域に識別子を付与している。また、代表点を決定する独自のアルゴリズムを工夫し、点としても面としても行政区域を扱えるようにした。
このデータセットの大きな問題は連続性の欠如である。国土数値情報で最も古いデータは1920年であるが,次のデータは1950年であり30年間のギャップがある.またその後も最大5年間のギャップが続くため,データが存在しない期間内に誕生して消滅した市区町村がデータセットに含まれないという問題があった。そこで、市制町村制が施行された1889年以降の市区町村データを毎年連続してまとめている、筑波大学大学院生命環境科学研究科空間情報科学分野村山祐司研究室の「行政界変遷データベース(地図データ)」との統合作業を進めることにした。これにより、全国地方公共団体コードに由来する4159件、国土数値情報に由来する12260件、行政界変遷データベースに由来する399件の市町村に識別子を付与することができた。
さらに、平凡社や百科綜合リサーチ・センターと協力して、平凡社の『日本歴史地名大系』に含まれる市制町村制以前の町村にも識別子を拡大していく試みを進めている。現在は群馬県を対象に検証を進めているが、これにより江戸時代の藩政村などに遡及する町村に識別子を付与し、オープンデータに加えていける見込みである。新しいオープンデータの公開により、江戸から現代にまで至る長期間のテキストから地名を抽出しマッピングする研究を進めることが容易になり、歴史ビッグデータ研究が画期的に進展することが期待できる。
なお、歴史的行政区域データセットは、他のデータセットやサービスとも連携している。まず「国勢調査町丁・字等別境界データセット」(https://geoshape.ex.nii.ac.jp/ka/)との重なりを計算することで、町丁・字レベルで過去の市区町村名を調べることができるようになっている。また地名識別子を付与・共有するサービスGeoLOD(https://geolod.ex.nii.ac.jp/)を活用することで、API経由で過去の市区町村の情報を検索できるようになっている。さらにテキストから地名を自動的に抽出するサービスGeoNLP(https://geonlp.ex.nii.ac.jp/)とも地名辞書を共有することで、大量テキストからの地名抽出への道を開いている。また歴史的行政区域データセットを活用したサービスとして、過去の新聞記事に付与された地名を歴史的行政区域データセットとリンクさせることで、検索キーワードに対応する地域ごとの記事件数を可視化するアプリケーションなども開発している。このように、歴史的行政区域データセットは様々な歴史的アプリケーションの基盤となるデータセットとして貢献できると考えている。