医療データの特徴を考慮した多施設間Federated Learningの設計

Yunwei Ma

[2-D-3-01] 医療データの特徴を考慮した多施設間Federated Learningの設計

*Yunwei Ma¹, Kazuya Okamoto^1,2, Osamu Sugiyama³, Goshiro Yamamoto², Hiroshi Sasaki², Masayuki Nambu², Tomohiro Kuroda^1,2 (1. 京都大学大学院情報学研究科, 2. 京都大学医学部附属病院, 3. 京都大学大学院医学研究科)

Federated Learning, Deep Learning, Medical Data Characteristics

深層学習において学習データの量を確保するために多施設の医療データを学習データとして利用することが望まれるが、患者プライバシーの問題のため医療データを多施設間で共有することは難しい。そのため、医療データの代わりに学習モデルのみを共有する分散学習手法を用いることが検討されている。しかし、施設間で蓄積された医療データ数や、施設ごとの疾病状態を表すクラス間のデータ数に偏りがあるため、従来の分散学習手法では十分な学習を行うことができない。

本研究では、既存のFederated Learning技術に基づき、施設間のデータ数に偏りがあり、さらに、クラス間のデータ数に偏りがある状況においてもロバストな分散学習手法を提案する。

Federated Learningとは、各施設でデータの処理・モデル学習を行い、そのモデルを集めることでより洗練されたモデルを作成・再配布する分散学習手法である。本研究では、クラス間のデータ数の偏り、施設間のデータ数の偏りを解決する技術を、勾配の更新式で統合することにより、2つの「偏り」を同時に考慮しながら学習を行うFederated Learningの手法を設計した。具体的には、勾配の更新式にある学習率ηを施設間のデータ数の偏り、同じ施設内のラベルごとのデータ数の偏りに合わせた動的な更新を試みた。また、各施設における学習の進み具合（lossの低下率）によってもηを変化させた。

提案手法は、公開されている糖尿病眼底写真のデータセットを用いて検証した。糖尿病眼底写真のデータセットを施設数で分割し、施設間でデータ数を、施設内ではクラス間のデータ数に偏りを持たせることで、本研究が扱う課題が再現された実験環境を作成し、提案手法によって学習精度や、学習効率がどのように変化するのかを調べた。

The 40th Joint Conference on Medical Informatics / APAMI2020

[2-D-3-01] 医療データの特徴を考慮した多施設間Federated Learningの設計