[3Win5-39] 機械学習データセットのメタデータ自動生成:テキストからの数値情報抽出と分類
キーワード:情報抽出、固有表現抽出
機械学習の急速な発展に伴い,多様なデータセットが開発されてきた.これらのデータセットを効率的に活用するためには,各データセットの規模や収録内容を表すメタデータを整備することが不可欠である.そこで本研究では,学術論文とデータセット説明文を対象とし,データセットの数値情報を自動抽出する手法を提案する.具体的には,テキストに固有表現抽出を適用し,数値情報をデータ数,注釈の種類,データ収集の詳細に分類する.提案手法の有効性を検証するため,人手で構築した評価用データセットを用いて性能評価実験を実施し,その結果について考察する.さらに,本手法のデータセット検索への応用例を示す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。