OAK

부분 차원 클러스터링을 위한 개선된 알고리즘

Metadata Downloads
Alternative Title
(An) Improved Algorithm for Subset Clustering
Abstract
고차원 데이터에서 클러스터를 찾아내는 문제는 그 중요성으로 인해 데이터 마이닝 분야에 잘 알려져 있다. 클러스터링은 similarity search, customer segmentation, pattern recognition, trend analysis, classification 등 데이터를 처리하는 많은 분야에서 기본 알고리즘으로 사용되어질 수 있고 대량의 데이터를 처리하는 경영정보시스템에서도 그 활용가치가 높아 좋은 클러스터링 알고리즘의 연구에 대한 관심이 증대되고 있다. 본 논문에서는 고차원 데이터를 부분 차원 클러스터링 하는 새로운 알고리즘을 제안한다. 알고리즘은 먼저 최대 표준편차를 갖는 차원을 기준으로 점들을 분할하여 후보 클러스터들을 생성하고, 다음으로 후보 클러스터들 중 친밀도가 가장 ?? 두 개의 클러스터를 찾아내어 미리 정해진 개수의 클러스터가 될 때까지 병합한다. 마지막으로 클러스터의 질을 향상시키기 위해 데이터를 한 번 더 정제 시킨다. 알고리즘의 성능 평가를 위해 실험 데이터를 만든 후 k-Means, PROCLUS, DOC과 같은 여러 알고리즘과 실험한 결과 제안된 알고리즘이 성능이 향상됨을 알 수 있었다.|The issue of finding cluster from high dimensional data has well known in the field of data mining due to its importance, because the clustering as the basic algorithm had been used in fields of processing data such as similarity search, customer segmentation, pattern recognition, trend analysis and classification. In addition, researches for clustering algorithms have increased in management information systems, because the clustering can process enormous data to get information.
In this research, a new algorithm is proposed for subdimensional clustering of high dimensional data. In the new algorithm, candidate clusters are created through partition, which input points are divided by dimension that has maximum variation. Next, two cluster are found, which have a maximum closeness among candidate clusters, and them merges until these cluster are the predefined number of clusters. Lastly, the data is refined one more time for improving quality of clusters. The result of extensive experiments with k-Means, PROCLUS and FASTDOC shows that the proposed algorithm is better than other algorithm.
Author(s)
김연호.
Issued Date
2004
Type
Dissertation
URI
https://repository.sungshin.ac.kr/handle/2025.oak/3720
http://210.125.93.15/jsp/common/DcLoOrgPer.jsp?sItemId=000000001749
Affiliation
성신여자대학교 대학원
Department
전산학과
Description
국문요약: p. ⅰ
Table Of Contents
논문개요 = Ⅰ
목차 = ⅰ
Ⅰ. 서론 = 1
Ⅱ. 관련 연구 = 3
1. 클러스터링(Clustering) = 3
1) 클러스터링의 정의 = 3
2) 클러스터링 방법의 분류 = 4
(1) Partitional 클러스터링 알고리즘 = 5
(2) Hierarchical 클러스터링 알고리즘 = 6
(3) Density-based 클러스터링 알고리즘 = 6
(4) Grid-based 클러스터링 알고리즘 = 7
2. 고차원 데이터에 있어서의 클러스터링의 문제점 = 8
1) K-Means = 10
3. 고차원 데이터에 적합한 클러스터링 = 10
1) 차원의 축소(Dimensionality reduction) = 10
2) 부분 공간 클러스터링(Subspace Clustering) = 11
(1) PROCLUS(PROjected CLUStering) = 12
(2) DOC (Density-based Optimal projective Clustering) = 13
Ⅲ. 클러스터링 알고리즘 = 14
1. 분할 단계 = 16
2. 병합 단계 = 18
1) 부분차원 찾기 = 18
2) 점 배정 = 19
3) 병합 = 21
(1) ScatterPoints 함수 = 22
(2) Similarity 함수 = 22
3. 정제 단계 = 23
Ⅳ. 실험 결과 및 분석 = 24
1. 실험 데이터의 생성 및 혼돈 행렬 = 24
2. FASTDOC의 w에 따른 성능 평가 = 28
3. 실험 결과 = 29
1) bound에 따른 클러스터링의 우세 비율 = 30
2) 초기 분할에 따른 클러스터링의 우세 비율 = 31
3) 클러스터링 알고리즘들의 성능 비교 = 33
4) 차원에 따른 알고리즘의 성능 비교 = 35
Ⅴ. 결론 및 향후 과제 = 37
참고문헌 = 38
ABSTRACT = 43
Degree
Master
Publisher
성신여자대학교 대학원
Appears in Collections:
전산학과 > 학위논문
공개 및 라이선스
  • 공개 구분공개
  • 엠바고2005-11-01
파일 목록

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.