日本地球惑星科学連合2025年大会

講演情報

[J] ポスター発表

セッション記号 S (固体地球科学) » S-TT 計測技術・研究手法

[S-TT41] 地震観測・処理システム

2025年5月30日(金) 17:15 〜 19:15 ポスター会場 (幕張メッセ国際展示場 7・8ホール)

コンビーナ:友澤 裕介(鹿島建設)、久保 久彦(国立研究開発法人防災科学技術研究所)

17:15 〜 19:15

[STT41-P09] インターネット上に遍在するデータの有効性向上に関する研究 ~ 生成AIを利用した訓練シナリオの自動生成~

*鈴木 遼平1立花 竜馬1大井 昌弘2菊間 一宏1 (1.日本大学工学部、2.防災科学技術研究所)


キーワード:災害時訓練シナリオ、生成AI、NERモデル、BERT

1.はじめに
我々は、センサ情報、行動履歴、位置情報、SNS情報を統合・蓄積し、有用な情報を抽出・流通させることで情報価値の向上を目指している。その一例として、災害時を想定した訓練シナリオの自動生成に関する研究を進めている。日本では住民参加型の避難訓練や自治体職員向けの図上訓練が実施されているが、訓練シナリオの作成(久保・他、2020)には『被害状況』や『社会的影響』の想定ノウハウが必要であり、人材や費用の面で課題がある。 
そこで、我々は、訓練シナリオの自動作成とノウハウの蓄積を目的とし、SNSやニュース記事から過去の災害情報を収集・解析し、家屋損壊やインフラ被害を含むデータベースの構築を検討している。このデータベースは日時・場所・災害種別・被害内容などのタイムライン情報を持ち、生成AIを活用することで、現実的かつ詳細な訓練シナリオの自動生成を可能にする。作成したシナリオは、自治体の訓練シナリオと比較し、有効であるかの評価を行う。

2.提案方式 
2.1提案方式のフロー

・災害DBの作成と訓練シナリオの生成
SNSには多様な情報が存在しており、災害関連の有用な情報を効率的に抽出することは容易ではない。そこで、本稿ではNERタスクにファインチューニングしたBERTモデルを活用し、収集した情報から有用な情報を抽出し、災害データベース作成手法を提案する。また、作成された災害データベースと実際の自治体で使用されている訓練シナリオを生成AIに入力して訓練シナリオの作成手法を提案する。
本稿で提案する手法の流れを(1)~(4)に示す。また、全体の流れを図1に示す。
(1) SNS・Webニュースから情報の収集
(2) 災害情報抽出モデルの作成手法
(3) 抽出された情報から災害データベース作成
(4) 訓練シナリオ自動生成

(1)SNS・Webニュースから災害情報の収集
本研究では、千葉県で発生した過去の災害を対象に災害データベースを作成した。データ収集にはOctoparseを使用し、SNSやNHKニュースサイトから「災害」に関連する約6000件のデータを取得した。前処理として不要な文字の削除や数字の半角変換を実施した。
(2)災害情報抽出モデルの作成手法
SNSやニュース記事から有用な情報を抽出するため、事前学習済み東北BERTモデルをファインチューニングし、固有表現抽出に特化したモデルを作成した。収集した6000件のテキストに対し、「時間・地名・災害の種類(地震・津波等)・被害者・被害内容」のラベルを付与し、学習データを作成。これを用いて抽出モデルを構築した。
(3)抽出された情報から災害データベース作成
(2)で作成した抽出モデルを用い、「時間・地名・災害の種類・被害者・被害内容」の情報を抽出。訓練シナリオの生成に有効と考えられる「被害者数・被害規模」などの具体的な情報を整理し、災害データベースを構築した。
(4)訓練シナリオ自動生成
(3)で作成した災害データベースと、実際の訓練で使用されたシナリオの一部を生成AIに入力し、自動生成を実施した。図2に作成された訓練シナリオの例を示す。

3.提案手法と災害データベースの評価
現実的かつ詳細な訓練シナリオを作成するには、正確な災害データベースの構築が不可欠である。そのため、抽出モデルの性能評価を行う。「場所・日付時間・災害の種類・被害内容・被害者数」の5項目を対象に情報抽出を行い、目視確認による正解率の算出を実施した。図3に、テストデータ100件における各項目の抽出成功数および失敗数を示す(左から順に、場所・時間・災害の種類・被害内容・被害者数)。
作成された訓練シナリオの評価については、実際の自治体で使用された訓練シナリオと比較することで評価を行うことを考えているが、評価方法の確立が今後の課題である。

4.むすび
本稿では、災害データベースを作成し、生成AIを用いた訓練シナリオの自動生成を検討したが、課題が3つ残る。1つ目は、災害情報抽出モデルの精度向上である。時間・場所・災害の種類の抽出は可能だが、被害内容や被害者数の抽出精度は実用的でなく、多様な表現への対応が不十分と考えられる。2つ目は、トレーニングデータの不足である。約6000件のデータを収集したが、NERモデルの学習にはさらなるデータ増強が必要である。3つ目は、シナリオの評価手法が未確立であり、実際の訓練での有効性を検証する必要がある。
今後は、トレーニングデータの精度向上と増強による抽出モデルの改良に加え、新たな手法を導入し、より正確な災害データベースの構築を目指す。また、自治体での実用化を見据え、評価手法の確立とシナリオの改善を進めていく。