16:45 〜 17:00
[MIS22-06] 自動年代決定AIシステム開発を目指した画像認識・機械学習による微化石分類
キーワード:年代決定、微化石、機械学習、画像認識、人工知能
IODPを始めとした掘削科学のプロジェクトにおいて、珪藻、有孔虫、放散虫、石灰質ナノプランクトンなどの微化石を用いて堆積物の地質年代を正確に決定することは非常に重要である。微化石の抽出と分類群の正確な同定には豊富な経験・知識が必要とされ、同定と堆積物の年代決定には時間を要する。DSDPが開始された1960年代より微化石の専門家は、掘削船に乗船し船上で微化石の分析を行い、掘削科学に貢献してきた。
一方で、コンピュータ処理能力の向上は、自動車の運転など従来人間が担ってきた操作を、コンピュータに置き換えつつある。記憶に新しいところでは、Google傘下で開発された囲碁ソフト「AlphaGo」に世界最強棋士が打ち負かされている。囲碁は、既に機械が人間を上回っているチェスや将棋と比較して手数が圧倒的に多いことから、人類にとって「最後の砦」とも言えるゲームであったため、このニュースは世界に衝撃を与えた。コンピュータの勝利を可能にしたのは、ディープラーニングと呼ばれる機械学習技術であり、問題と正解をコンピュータに与えることにより、自分で答えに至る道筋を学習させるものである。これにより無人での迅速かつ正確な事象の判断と選択が可能になった。また、画像認識技術も日進月歩で進歩しており、例えば顔認証技術は、国際空港の出入国管理、アミューズメントパークやコンサート会場の入場ゲートシステムなどに応用されている。
我々は、この機械学習・画像認識技術の微化石年代測定への応用、さらには自動年代決定AIシステムの開発について研究を開始した。フィジビリティスタディとして、比較的単純な形態を呈する2種類の石灰質ナノ化石をサンプルとし、NECのAIソフト「RAPID機械学習」による識別可否を検証した。堆積物のスミアスライドを作成し、Pseudoemiliania属(P)ならびにReticulofenestra属(R)のナノ化石を偏光顕微鏡下で撮影し、それぞれ教師用およびテスト用に画像データを得た。教師用データは、P属とR属とを32枚ずつ作成し、更に90度ずつ回転させて4倍とすることで、計256枚を準備した。テスト用データは、P属とR属とを10枚ずつ準備した。教師用データを全てRAPID機械学習に読み込ませることでモデルを自動生成し、テスト用データに対する識別を試みた。その結果、P属では10枚中6枚を確信度60%以上で、R属では10枚中4枚を確信度60%以上で、それぞれ識別できた。P属およびR属固有の特徴的な画像パターンは、強い確信度で識別できており、機械学習の有効性が確認された。一方、あまり特徴的ではない画像パターンは、弱い確信度で識別できない結果となった。今後、画像処理ソフトウェアによる鮮明化などの前処理や、専門家の知見のもとで教師用データ数を増やす(一般的には1,000枚程度用いる)ことで、識別精度の向上が期待できる。
本発表においては、上記の結果および今後の可能性・問題点について議論したい。
一方で、コンピュータ処理能力の向上は、自動車の運転など従来人間が担ってきた操作を、コンピュータに置き換えつつある。記憶に新しいところでは、Google傘下で開発された囲碁ソフト「AlphaGo」に世界最強棋士が打ち負かされている。囲碁は、既に機械が人間を上回っているチェスや将棋と比較して手数が圧倒的に多いことから、人類にとって「最後の砦」とも言えるゲームであったため、このニュースは世界に衝撃を与えた。コンピュータの勝利を可能にしたのは、ディープラーニングと呼ばれる機械学習技術であり、問題と正解をコンピュータに与えることにより、自分で答えに至る道筋を学習させるものである。これにより無人での迅速かつ正確な事象の判断と選択が可能になった。また、画像認識技術も日進月歩で進歩しており、例えば顔認証技術は、国際空港の出入国管理、アミューズメントパークやコンサート会場の入場ゲートシステムなどに応用されている。
我々は、この機械学習・画像認識技術の微化石年代測定への応用、さらには自動年代決定AIシステムの開発について研究を開始した。フィジビリティスタディとして、比較的単純な形態を呈する2種類の石灰質ナノ化石をサンプルとし、NECのAIソフト「RAPID機械学習」による識別可否を検証した。堆積物のスミアスライドを作成し、Pseudoemiliania属(P)ならびにReticulofenestra属(R)のナノ化石を偏光顕微鏡下で撮影し、それぞれ教師用およびテスト用に画像データを得た。教師用データは、P属とR属とを32枚ずつ作成し、更に90度ずつ回転させて4倍とすることで、計256枚を準備した。テスト用データは、P属とR属とを10枚ずつ準備した。教師用データを全てRAPID機械学習に読み込ませることでモデルを自動生成し、テスト用データに対する識別を試みた。その結果、P属では10枚中6枚を確信度60%以上で、R属では10枚中4枚を確信度60%以上で、それぞれ識別できた。P属およびR属固有の特徴的な画像パターンは、強い確信度で識別できており、機械学習の有効性が確認された。一方、あまり特徴的ではない画像パターンは、弱い確信度で識別できない結果となった。今後、画像処理ソフトウェアによる鮮明化などの前処理や、専門家の知見のもとで教師用データ数を増やす(一般的には1,000枚程度用いる)ことで、識別精度の向上が期待できる。
本発表においては、上記の結果および今後の可能性・問題点について議論したい。