15:20 〜 15:40
[4I3-OS-1b-05] 受容野の自動最適化によるモードに適応的なTransformerの開発
キーワード:Transformer、多層パーセプトロン、自動機械学習
近年の深層学習による画像処理分野において,畳み込みの代わりにAttentionを特徴抽出に用いるVision Transformer(ViT)が高い性能を発揮した.この成果はTransformerが自然言語と画像の両者に対応可能であることを示しており,データのモードに依存しない汎用的なモデルとして期待されている.一方,ViTの派生モデルの多くは特徴抽出の受容野を絞ることで画像処理における頑強性を向上させているため,音声などの時系列データに対する適応力は損なわれている.本研究では,与えられたデータのモードに対して適応的に受容野を最適化する手法を提案する.提案手法を用いたTransformerベースのモデルを作成し,画像と音声の2種類のデータについて実験を行った結果,両者において従来手法以上の性能を発揮した.また,画像データに対して最適化した提案手法は一般的な画像処理フィルタに似た形状に収束した一方で,音声データに対しては長期的な依存関係を抽出する形状に収束しており,提案手法がデータのモードに応じて適した受容野を獲得可能であることが示されている.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。