JSAI2025

Presentation information

General Session

General Session » GS-2 Machine learning

[3S6-GS-2] Machine learning:

Thu. May 29, 2025 5:40 PM - 7:20 PM Room S (Room 701-2)

座長:渡邊 千紘(NTT)

5:40 PM - 6:00 PM

[3S6-GS-2-01] A study of deep embedding clustering method for tabular data considering the meaning of qualitative variables

〇Rin Miyazaki1, Tianxiang Yang2, Masayuki Goto1 (1. Waseda University, 2. Keio University)

Keywords:Deep embedding clustering, Tabular data, Quantitative and qualitative variables

近年,深層埋め込みクラスタリングは,非線形データに対する効果的なクラスタリング手法として注目されている.この手法は,高次元データから有用な低次元表現を抽出することを目的としている.画像のような非構造化データに適した深層埋め込みクラスタリングを,構造化された表形式データへの適用を可能とした手法にGaussian Cluster Embedding in Autoencoder Latent Space(G-CEALS)がある.この手法は,多変量ガウシアンクラスタ分布を学習するフレームワークによって,表形式データに対する埋め込みクラスタリングを可能としている.しかし,名義尺度などの質的データを含むデータは想定しておらず,その効果は限定的である.そこで,本研究では,質的データが多く含まれる表形式データに対する新しいクラスタリング手法を提案する.具体的には,大規模言語モデルを用い,表形式データを文章変換した後,埋め込みモデルを用いてその文章から埋め込み表現を得る.この埋め込みを活用した深層学習により,質的データを含むデータセットでも効果的なクラスタリングを実現する.

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Password