09:00 〜 10:40
[3Pin1-06] Cappuccino:構造データに対するブートストラッピング手法
キーワード:ブートストラッピング、関係抽出、構造データ、頻出サブグラフマイニング
本稿は,HTML のような構造データからの関係抽出タスクを扱い,構造データに対するブートストラッピング手法である Cappuccino を提案する.ブートストラッピング法は,目的の関係をもつ単語ペア(インスタンス)の集合と文集合から,従来は人手で作っていたインスタンスの抽出ルール(パターン)を生成することにより,関係抽出タスクにおいて人手による作業のコスト削減を実現する.従来の手法は,テキストデータのみを対象としていたが,Cappuccino は構造データを対象とする.Cappuccino は,データがもつ構造(例:リスト構造)をパターンとすることで,インスタンスの抽出を行う.構造をパターンとして扱うために構造データをグラフへ変換し,そのグラフに頻出サブグラフマイニングを適用することにより,インスタンスとパターンの信頼度計算を可能にする.本稿では,実験のために作成した人工的な HTML ファイルを用いて,文字列のパターンだけを用いる従来のブートストラッピング手法と比較を行い,データがもつ構造を利用する Cappuccino が高い性能になることを確認する.