[1Win4-100] 文章内のトピックを対象にしたSparse Autoencoder特徴の分析
キーワード:スパースオートエンコーダー、大規模言語モデル、トピック解析
大規模言語モデル(LLM)の発展に伴い、その解釈性が重要な研究課題となっている。特に、LLMの中間層が持つ圧縮された表現を、Sparse AutoEncoderを用いてより高次元の解釈可能な形に分解する手法が注目を集めている。本研究では、Sparse AutoEncoderから得られる特徴を分析し、LLMが文章のトピックの違いを内部でどのように表現しているかを検証した。スペクトラルクラスタリングを用いて特徴の共起情報をもとにクラスタリングを行い、それらのクラスタとトピックラベルが対応するかを調べたところ、対応は限定的であることがわかった。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。