[4Xin1-18] ナレッジグラフエンベッディングによるリンク予測におけるデータセット分割についての実験と考察
キーワード:ナレッジグラフ、ナレッジグラフエンベッディング、リンク予測
創薬標的遺伝子を選定するにあたって、遺伝子改変動物と疾患モデル動物の交配や疾患モデル動物に遺伝子改変を加えた研究論文は有力な情報である。このような文献情報からナレッジグラフ(以下KG)を構築し、新たな遺伝子と疾患の繋がりを予測することで、創薬標的の提案に繋げたい。
一方で、KGの機械学習ではグラフ特有の考え方が必要である。例えば通常の機械学習ではデータセットをランダムに学習・検証・テスト用に分割する場合が多いが、グラフの場合はタスクによって分割手法を変えるべきと言われている。
本研究では、Elsevier Text Miningによる文献の検索結果をデータソースに使用した。検索結果から遺伝子と疾患、その関係性を抽出し、KGを構築。このKGを2種類のTransductive手法(Coverage, Non-Coverage)により分割した。これら2パターンのデータセットとKGエンベッディングモデル3種類(因子分解、距離ベース、深層学習)の組み合わせでリンク予測を実施した。データセットによって結果が異なり、データセットやタスクによって適切な分割手法やモデルを選択する重要性が示唆された。
一方で、KGの機械学習ではグラフ特有の考え方が必要である。例えば通常の機械学習ではデータセットをランダムに学習・検証・テスト用に分割する場合が多いが、グラフの場合はタスクによって分割手法を変えるべきと言われている。
本研究では、Elsevier Text Miningによる文献の検索結果をデータソースに使用した。検索結果から遺伝子と疾患、その関係性を抽出し、KGを構築。このKGを2種類のTransductive手法(Coverage, Non-Coverage)により分割した。これら2パターンのデータセットとKGエンベッディングモデル3種類(因子分解、距離ベース、深層学習)の組み合わせでリンク予測を実施した。データセットによって結果が異なり、データセットやタスクによって適切な分割手法やモデルを選択する重要性が示唆された。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。