17:40 〜 18:00
[3S6-GS-2-01] 質的変数の意味を考慮した表形式データに対する深層埋め込みクラスタリング手法に関する一考察
キーワード:深層埋め込みクラスタリング、表形式データ、量的・質的変数
近年,深層埋め込みクラスタリングは,非線形データに対する効果的なクラスタリング手法として注目されている.この手法は,高次元データから有用な低次元表現を抽出することを目的としている.画像のような非構造化データに適した深層埋め込みクラスタリングを,構造化された表形式データへの適用を可能とした手法にGaussian Cluster Embedding in Autoencoder Latent Space(G-CEALS)がある.この手法は,多変量ガウシアンクラスタ分布を学習するフレームワークによって,表形式データに対する埋め込みクラスタリングを可能としている.しかし,名義尺度などの質的データを含むデータは想定しておらず,その効果は限定的である.そこで,本研究では,質的データが多く含まれる表形式データに対する新しいクラスタリング手法を提案する.具体的には,大規模言語モデルを用い,表形式データを文章変換した後,埋め込みモデルを用いてその文章から埋め込み表現を得る.この埋め込みを活用した深層学習により,質的データを含むデータセットでも効果的なクラスタリングを実現する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。