연관성측도를 이용한 군집개수 결정에 관한 연구
- Abstract
- 다변량 분석 중 군집분석(cluster analysis)은 주어진 관측개체를 유사한 개체끼리 몇 개의 군집으로 나눔으로써 군집을 이해하고 효율적으로 활용하기 위한 분석방법이다.
군집분석에서 군집의 적절한 개수를 추정하는 것은 중요한 문제이며 지금까지 많은 연구가 진행되어왔다(Calinski & Harabasz, 1974; Hartigan,1975; Krzanowski & Lai,1985). 군집의 개수를 결정하는 방법들의 대부분은 군집 내의 제곱거리와 군집 간의 제곱거리를 이용하는 것이다. 하지만 연구자의 주관적인 의견이 많이 반영되고 정확한 결과를 제공해주지 못한다는 문제점이 있다.
최근에는 군집 내, 군집 간의 거리개념을 넘어서 군집의 안정성에 관한 연구도 많이 진행되고 있다. 특히 군집화 불안정성을 최소화하는 군집개수를 최적의 군집개수로 결정하는 알고리즘들이 제안되었다(Wang, 2010; Fang & Wang, 2012).
본 논문에서는 군집화 거리에서 두 군집화의 일치여부가 이항자료로 나타나는 특성을 이용하여 연관성측도를 적용함으로써 군집화 불안정성을 측정하는 새로운 군집개수 결정 알고리즘을 제안하였다.
모의실험과 실제데이터를 통해 제안한 방법의 효율성을 살펴본 결과, 군집개수가 작거나 차원이 낮은 자료에서 제안한 방법의 군집개수 선택의 적중률이 기존 Wang방법보다 높았다. 결과적으로 본 연구에서 제안한 방법이 다양한 자료에서 군집개수 선택에 있어서 기존 방법보다 더 우수함을 확인할 수 있었다.| In cluster analysis, it is important to estimate the number of clusters. Many ways to determine the number of cluster have been proposed sush as Calinski & Harabasz(1974), Hartigan(1975), Krzanowski & Lai(1985). Most of them are based on the between cluster and/or within-cluster sum of squared distances.
Recently, researches on the stability of the clustering have been studied. It has been proposed to select the number of clusters as the one minimizing the clustering instability(Wang, 2010; Fang & Wang, 2012). Also, Wang(2010) and Fang & Wang(2012) developed an estimate scheme for clustering instability based on bootstrap and cross-validation.
In this paper, we define the clustering instability by using measure of association such as kappa coefficient, Jaccard coefficient, phi coefficient.
The proposed methods are demonstrated on a variety of numerical experiments using the simulation and real data application. The simulation study and real application showed that the hit ratio of the proposed method is higher than the previous methods. As a result, we know that the methods using measures of association are competitive.
- Author(s)
- 백아현
- Issued Date
- 2013
- Awarded Date
- 2013-08
- Type
- Dissertation
- URI
- https://repository.sungshin.ac.kr/handle/2025.oak/4916
http://dcollection.sungshin.ac.kr/jsp/common/DcLoOrgPer.jsp?sItemId=000000008107
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.