Tabular Transformerのラベル名と値に対して独立な新しいMasked Prediction手法の提案と検討

荒武 奈々瑛; 戸﨑 泰誠; 岡本 有司; 内野 詠一郎; 小島 諒介; 奥野 恭史

[2Win5-06] Tabular Transformerのラベル名と値に対して独立な新しいMasked Prediction手法の提案と検討

〇荒武奈々瑛¹、戸﨑泰誠^1,2、岡本有司¹、内野詠一郎¹、小島諒介^1,3、奥野恭史^1,2 (1.京都大学、2.理化学研究所計算科学研究センター、3.理化学研究所生命機能科学研究センター)

キーワード：Masked Prediction、Tabular Transformer、表現学習

表データは医療や金融など多分野で用いられ、数値・カテゴリ・文字列など多様なデータ形式を含むため、適切なtokenizeと埋め込み手法が求められる。特に、ラベル名と値が混在する構造では、tokenizeとマスクの方法がモデル性能に影響する。本研究では、可変長の表データに対するTransformerのMasked Prediction手法として、ラベル名と値を「セットでマスクする方法」と「独立にマスクする方法」を比較した。UC Irvineの成人年収予測データ(Adult Dataset)で事前学習後に転移学習とfine-tuningを実施した。その結果、転移学習ではセットでマスクする方が高いAUROCを示し、独立にマスクする方法は精度が低下した。一方、fine-tuningでは両手法の差はほとんどなかった。以上より、独立にマスクする手法は転移学習で優位とは言えず、他データセットやマスク確率を含む包括的な評価が求められる。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2Win5] ポスターセッション2

[2Win5-06] Tabular Transformerのラベル名と値に対して独立な新しいMasked Prediction手法の提案と検討

パスワード