JSAI2019

Presentation information

General Session

General Session » [GS] J-3 Data mining

[4B2-J-3] Data mining: structures and clusters

Fri. Jun 7, 2019 12:00 PM - 1:20 PM Room B (2F Main hall B)

Chair:Shigeru Maya Reviewer:Kohei Miyaguchi

12:40 PM - 1:00 PM

[4B2-J-3-03] Proposal of seeding methods for k-means using Mahalanobis Taguchi Method

〇Takahiro Nishigaki1, Jumpei Taguchi1, Takashi Onoda1 (1. Aoyama Gakuin University)

Keywords:Clustering, k-means, Mahalanobis Taguchi System

k-means は一般的によく用いられるクラスタリング手法である.k-means では似ているデータ同士が同じクラスタになるように小さいクラスタを生成する.k-means は初期クラスタ中心が全データからランダムに選択されるため,選択された初期クラスタ中心によっては生成されるクラスタが異なる問題がある.また初期値外れ値が初期クラスタ中心に選択されると,生成されるクラスタが似ていないデータ同士で構成され,大きなクラスタを作ってしまう問題も存在する.この2つの問題を解決するために,k-meansの初期クラスタ中心の選択方法の研究は数多く行われていが,同時に解決する方法は存在しなかった.そこで本研究の目的は,この2つの問題を同時に解決する方法を提案することである.提案する方法は,MT法を用いて初期値外れ値を除き,最も遠いデータを初期クラスタ中心とする.提案した方法の有効性を検証するために.人工データとベンチマークデータに適用し,従来手法と比較を行った.その結果,提案手法は,初期値外れ値を初期クラスタ中心に選択することなく,生成したクラスタはより小さなクラスタとなっていることが確認できた.