[3Win5-39] Automatic metadata generation for machine learning datasets: numerical information extraction and classification from texts
Keywords:Information Extraction, Named Entity Recognition
機械学習の急速な発展に伴い,多様なデータセットが開発されてきた.これらのデータセットを効率的に活用するためには,各データセットの規模や収録内容を表すメタデータを整備することが不可欠である.そこで本研究では,学術論文とデータセット説明文を対象とし,データセットの数値情報を自動抽出する手法を提案する.具体的には,テキストに固有表現抽出を適用し,数値情報をデータ数,注釈の種類,データ収集の詳細に分類する.提案手法の有効性を検証するため,人手で構築した評価用データセットを用いて性能評価実験を実施し,その結果について考察する.さらに,本手法のデータセット検索への応用例を示す.
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.