15:40 〜 16:00
[1S4-GS-2-01] TELU: GELUやSwishの代替となる高速な活性化関数の提案
キーワード:活性化関数
近年の深層学習モデルでは、ReLUの代わりにGELUやSwishなどの滑らかな活性化関数が広く用いられている。そのような活性化関数は、ReLUよりもノイズへの頑健性などの観点で利点があることが知られているが、ガウスの誤差関数やシグモイド関数などの超越関数の計算を含むため、速度が遅い。本研究では、より高速かつ滑らかな活性化関数として、T Error Linear Unit (TELU) を提案する。TELUは、代数関数のみで計算できるため、関数の滑らかさを保ちつつ、GELUなどと比較して2倍程度高速に計算することができる。実験では、GPT-2の事前学習において、GELUをTELUに代替することで、高い性能を保ちつつ、より高速に学習ができることを示す。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。