インターネット上に遍在するデータの有効性向上に関する研究<br />～ 災害時SNS情報のBERTを利用したトピック解析 ～

立花 竜馬; 鈴木 遼平; 大井 昌弘; 菊間 一宏

17:15 〜 19:15

[STT41-P08] インターネット上に遍在するデータの有効性向上に関する研究
～災害時SNS情報のBERTを利用したトピック解析～

*立花竜馬¹、鈴木遼平¹、大井昌弘²、菊間一宏¹ (1.日本大学工学部、2.防災科学技術研究所)

キーワード：訓練シナリオ、付与情報、BERT

１．はじめに
　我々は、インターネット上にある情報（センサ情報、行動履歴、位置情報、SNS情報）を各々で協調させ、集約・蓄積した大量の情報から有用な情報を取り出し流通することにより、情報価値の飛躍的な増大を目指した研究を行っている。その一例として、現在、我々は地震や津波を対象とした地域密着型訓練シナリオの自動生成に関する研究を進めている。

２．提案方式
２.１シナリオ作成における課題
　図上訓練で使用される訓練シナリオの作成には、多くの時間がかかるとともに、地域の特性をはじめ、災害時の『被害状況』と『社会的影響』の想定のノウハウを持つ作成者が必要となるため、定期的に訓練シナリオを作成することは困難である（久保・他、2020）。
　そのため本研究では、災害情報データベースを作成し、これらの災害情報を基に生成AIを使用して、訓練シナリオを自動生成する手法を提案する。
２.２情報収集とトピック分類
　SNSには多様な情報が存在しており、災害関連の有用な情報を効率的に抽出することは容易ではない。そこで、本稿ではBERTモデルを活用し、収集した情報をトピックごとに分類する手法を提案する。
　本稿で提案する手法の流れを(1)～(3)に示す。
(1) SNS情報の収集
(2) 学習コーパスの作成
(3) BERTによる分類学習
　図1に提案手法全体の流れを示す。本稿では、BERTで投稿データを分類するところまでを行っている（赤枠の部分）。最終的には、トピックごとに分類されたデータを時系列順に並べ、人の動きや災害の流れを把握できるような災害情報データベースを作成する。

３．実験と評価
　提案手法の適用を、2024年1月1日に発生した能登半島地震に対して行った。SNS情報の収集では、2024年1月1日から2024年1月8日までの期間に「地震」「能登半島地震」「津波」「倒壊」「土砂」「災害」のいずれかのキーワードを含む投稿データを2500件収集した。
　これらのデータに対して、トピックを手動で付与し、コーパスを作成する。トピックは投稿データの内容を読み、主観的に10個のトピックを作成した。次に、教師データを用いてモデルの学習を行い、学習したモデルを評価データでテストすることにより、分類精度を評価する。評価方法は、各トピックの正解率によりトピックごとの性能評価を行う。

４．結果と考察
　実験により、1999件の教師データで学習した後、501件の評価データを用いて、予測したトピックと実際のトピックを比較した結果、406件は正しく予測でき、95件は正しく予測できなかった。表1は、それぞれのトピックの正解率を示している。
　『意見(86.6%)』、『お祈り(94.5%)』、『地震(80.6%)』、『募金(80.0%)』、『天気(80.0%)』のトピックは高い正解率を示し、これらのトピックが他のトピックと比較して特徴的な単語や表現を含んでおり、モデルがそれをうまく学習できた可能性があると考えている。『お祈り』のトピックでは、「～お祈り申し上げます。」のような分かりやすく判断できる表現が多かったことが挙げられ、『地震』のトピックでは、「〇〇で震度6の地震が発生」のような文が多く存在しており、特に「震度」が特徴的な単語として認識されたのではないかと考えている。
　また、一部のトピックでは低い正解率となり、特に『支援(27.2%)』と『土砂(0.0%)』のトピックでは非常に低い正解率となった。図2に失敗例を示す。『被害』のトピックでは「津波」や「火事」などの情報に加えて、「倒壊」といった単語も含んでいることがあり、判断が容易ではないことが分かった。『土砂』のトピックでは、天気情報と混同した、判断しにくい文も存在していた。
　この結果から、一部のトピックの学習不足や曖昧な文脈、キーワードによって性能が下がっていることが分かるため、性能が悪かったトピックデータの拡張や、より高度な特徴抽出手法を考える必要がある。

５．むすび
　本稿では、訓練シナリオの自動生成に必要な災害情報データベースをSNSの情報を元に作成するための、BERTを用いたトピックの分類方法について提案した。
　一部のトピックで低い正解率が見られ、これらのトピックに対するさらなる改善が必要であることが明らかとなった。この結果から、トピックごとのデータバランスの改善や、より高度な特徴抽出技術の導入が今後の課題となっている。また、SNSには嘘の情報も多く存在していることからそれらを判断する技術の導入も課題として挙げられる。
　今後は、さらに多くのデータを収集し、トピック分類の精度向上を図るとともに、トピックごとのデータを時系列順に並べることで、人の動きや災害の流れを把握できる災害情報データベースの構築と、生成AIを用いた訓練シナリオの自動生成の実現に向けて研究を進めていく。

講演情報

[S-TT41] 地震観測・処理システム

[STT41-P08] インターネット上に遍在するデータの有効性向上に関する研究
～災害時SNS情報のBERTを利用したトピック解析～

講演情報

[S-TT41] 地震観測・処理システム

[STT41-P08] インターネット上に遍在するデータの有効性向上に関する研究～ 災害時SNS情報のBERTを利用したトピック解析 ～

[STT41-P08] インターネット上に遍在するデータの有効性向上に関する研究
～災害時SNS情報のBERTを利用したトピック解析～