一般社団法人 日本医療情報学会

[2-A-3-04] 人工知能・機械学習技術によるゲノムリスク予測

*田宮 元1,2,3 (1. 東北大学大学院医学系研究科 AIフロンティア新医療創生分野、2. 東北メディカルメガバンク機構 ゲノム遺伝統計学分野、3. 理化学研究所革新医療統合研究センター 遺伝統計学チーム)

Biobank, Prospective Genomic Cohort, Real-World Big Data, Genomic Risk Prediction

過去20年以上にわたって、大規模なバイオバンク・前向きゲノムコホート研究が各国で整備され、生物医学研究のみならず、生物情報学分野の研究に活発に利用されてきた。これらの前向きゲノムコホートは、糖尿病や精神疾患のような複雑な疾患の発症に効果を持つ環境因子と遺伝子、さらには、その相互作用を同定することを目的としている。このようなゲノムコホートでは、数十万人程度の検体について数百万以上のゲノムデータや生活習慣データや生化学機能検査データ、画像データや電子カルテデータなどからなる小標本高次元の特徴をもつリアルワールドビッグデータが得られる。このようなデータから、柔軟かつ高速に真の効果因子を抽出することには本質的な統計学的問題(いわゆるp>>n問題)が存在し、ゲノムコホート解析の実現を阻んできた。現在、このような解析ではノンパラメトリックな探索的手法が主流であるが、その計算実行面での困難や統計学的問題から、大規模な前向きゲノムコホートデータを網羅的に用いた研究は事実上行われていない。そこで、我々は、いくつかの統計的機械学習手法に基づく遺伝統計手法を開発して、実際の大規模ゲノムコホートに適用を行ってきた。本発表では、東北メディカル・メガバンク機構やUKバイオバンクなどの大規模ゲノムコホートデータのデザインやデータの特徴から分かりやすく解説し、実際の解析例を含めたうえで、今後の人工知能・機械学習手法によるゲノムリスク予測の展望について述べたい。