2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-4 Webインテリジェンス

[2N1-GS-4] Webインテリジェンス:

2024年5月29日(水) 09:00 〜 10:40 N会場 (54会議室)

座長:林 克彦(東京大学)[[オンライン]]

10:20 〜 10:40

[2N1-GS-4-05] 学術論文PDFからの著者所属情報の抽出と分類

〇山内 一礼1、桂井 麻里衣1 (1. 同志社大学)

キーワード:研究機関分類、書誌情報分析、著者分析

学術論文の著者の所属情報は,科学計量学における様々な分析で重要な役割を果たす.先行研究の多くは論文の著者所属情報を入手する上で,出版社のデータベースやオープンデータベースを情報源とする.しかし,これらのデータベースは必ずしも分析対象の著者所属情報をメタデータとして格納しているとは限らない.このことは分析のカバレッジを低下させる原因となる.所属情報をPDFファイルから抽出することは,この問題を解決する手段となりうる.本研究では,学術論文PDFから直接著者の所属情報に該当する文字列を抽出し,その研究機関がアカデミアと企業のいずれに属するかを分類する手法を提案した.その結果,約90%の研究機関を正しく分類することができ,実応用上の提案では手作業による分類を約63%削減することができた.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード