129th Annual Meeting of the Geological Society of Japan

Presentation information

Session Oral

T13.[Topic Session]Urban Geology: Interdisciplinary research on natural and social environments

[3oral413-19] T13.[Topic Session]Urban Geology: Interdisciplinary research on natural and social environments

Tue. Sep 6, 2022 1:30 PM - 3:30 PM oral room 4 (Build. 14, 401)

Chiar:Tsutomu Nakazawa, Takahiro KOJIMA

2:15 PM - 2:30 PM

[T13-O-15] Summarizing method of geological information by applying text mining technology

*Hayato Tobe1, Takekazu Matsukawa1, Kazuhiko Masumoto1 (1. Kajima Corporation)

Keywords:Text Mining, Geological Literature, Lack of Geologists, Rationalization of Construction, Sustainable Development of City

1.はじめに
都市基盤を整備する際には建築物や土木構造物(以後「構造物」)の建設が必要である.構造物を合理的に設計・施工し,持続可能な都市の発展に寄与するためには,構造物の施工予定地周辺の地質情報を,事前に迅速かつ網羅的に集約することが重要である.地質学者および地質技術者(以後「地質学者」)は地質情報を構造物の設計技術者や施工技術者に正確かつ詳細に伝達するために多くの時間を必要とする一方,地質学者の人的資源は慢性的に不足している.これらのことから,地質情報を短時間で自動的に集約する技術が望まれてきている.
文献情報の集約には人工知能技術の一つであるテキストマイニング技術の活用が有効だが,既存のテキストマイニングシステムを地質文献に適用することは,Webやクラウドの活用によるシステムの肥大化や情報漏洩のリスク対策を必要とすることなどから,最適な手段といえない.そこで本研究では,組織外のネットワークを介さないことにより情報漏洩のリスクなく文献から地質情報を集約可能な,コンパクトな手法の開発を試みたので,その概要について説明する.
2.手法の概要
本研究では,これまで行われていた構造物の設計・施工技術者への情報提供の手順をシステマティックに見直すことから始めた.地質学者は,まず地質文献からキーワードを選別している.次にこれらのキーワードと関連の強い,施工上発生しうる問題点を過去の施工資料から読み取っている.そして最後に,施工資料から抽出したキーワードと地質文献から抽出したキーワードとを組み合わせて施工に有用な地質情報を集約している.このことから,キーワード抽出作業を自動化することにより,地質学者の負担が軽減できると考えられる.
文献からキーワードを自動抽出するには,近年のAI技術の発達によりテキストマイニング技術が使われてきている.本手法の開発においても,この技術を取り入れ,下記の(1)~(4)の手順でキーワード抽出と文献を検索(逆引き)ができるようにした.
(1)形態素解析
日本語は単語ごとに区切った書き方(分かち書き)をしないため,文章を解析するには,文を単語(形態素)に分解する必要がある.形態素解析を行うソフトウェアには無償かつ高速なMeCabを使用した.初期状態のMeCabは専門用語を正確に認識できないため,地学辞典と土木用語辞典から約25,000語を抽出しMeCabの辞書に追加した.
(2)ベクトル化
文献から抽出された単語を,出現頻度の表にまとめた.この手順は,単語の種類を次元,出現頻度を要素とするベクトルを算出すること等価である.
(3)共起解析とキーワード抽出
文献中の単語の重要性は,出現頻度,位置,他の単語との関連性,および出現する文や単語の類似性などを基にして,多変量解析により算出した(共起解析).そして重要性の高い単語は,キーワードとして抽出した.
(4)データベース化と文献検索
キーワードを文献のタイトルとともにデータベース化し,キーワードを検索キーとして文献の検索(逆引き)を実行可能とした.また,逆引きにより得られた文献からキーワードを抽出し,さらなる逆引きを可能とした.これにより,関連性の高い多数の文献を即時に引用できた.
3.対話システムによる性能向上
データベースの検索性能を向上させるため,新語登録とアノテーション付与の機能を付加した.この機能の付加には対話システムを応用した.
新語登録は,形態素解析エンジンに未登録の専門用語を追加する仕組みである.新語登録は,たとえば「スレート」と「へき開」が別の単語として抽出された場合,これらを1つの専門用語「スレートへき開」として扱うための仕組みである.
アノテーション付与は,単語間の意味を付与する仕組みである.たとえば「花崗岩」と「マサ」が関連性の高い単語として抽出された際.両者の関係性(アノテーション)は「風化」とすることにより,データベースは「花崗岩が風化によりマサとなったことを記す文献」といった,より高度な検索が可能になる.
この2つの機能の付加は,データベースに対話機能をもたせ,地質学者とのチャットにより学習させることによって実現した.
4.おわりに
本手法により,組織外のネットワークを介することなく地質文献からキーワードを抽出し,さらに逆引きを迅速に行うことが可能となった.この手法は知見や経験の不足している初学者の教育や補助としても有用と考えられる.しかしながら,現状の手法では新語登録やアノテーションの付与に地質学者との対話による学習を必要とするなど,解決すべき課題が残されている.今後は,この解決に尽力し,より実用性の高い地質情報の集約手法を研究・開発していく予定である.