Automatic metadata generation for machine learning datasets: numerical information extraction and classification from texts

Moriyuki Kamoto; Marie Katsurai

[3Win5-39] Automatic metadata generation for machine learning datasets: numerical information extraction and classification from texts

〇Moriyuki Kamoto¹, Marie Katsurai¹ (1.Doshisha University)

Keywords:Information Extraction, Named Entity Recognition

機械学習の急速な発展に伴い，多様なデータセットが開発されてきた．これらのデータセットを効率的に活用するためには，各データセットの規模や収録内容を表すメタデータを整備することが不可欠である．そこで本研究では，学術論文とデータセット説明文を対象とし，データセットの数値情報を自動抽出する手法を提案する．具体的には，テキストに固有表現抽出を適用し，数値情報をデータ数，注釈の種類，データ収集の詳細に分類する．提案手法の有効性を検証するため，人手で構築した評価用データセットを用いて性能評価実験を実施し，その結果について考察する．さらに，本手法のデータセット検索への応用例を示す．

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Presentation information

[3Win5] Poster session 3

[3Win5-39] Automatic metadata generation for machine learning datasets: numerical information extraction and classification from texts

Password