16:10 〜 16:30
[3M5-OS-12b-03] 有価証券報告書を対象とした機械判読が困難な表のセル分類に向けて
キーワード:有価証券報告書、表形式データ、セル分類
本研究は、機械判読が困難な表に焦点を当て、有価証券報告書に含まれる表のセル分類を行うものである。NTCIR-17 UFO のサブタスクであるTDE (Table Data Extraction) では、機械判読が困難な表を対象外としていた。これらの機械判読が困難な表は「小見出し行を含む表」「複数のヘッダーや属性を持つ表」「空白セルを含む表」「非スカラ値のセルを含む表」「特殊な形状の表」という5種類に分類される。本稿では、これらの困難な表に対して、一般的な手法で、どの程度セル分類が行えるかを検証し、タスクの難易度を明らかにする。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。