클러스터링 알고리즘을 사용한 비감독형 소프트웨어 품질 예측 모델
- Alternative Title
- Unsupervised Quality Prediction Model Using Clustering Algorithms
- Abstract
- 소프트웨어 산업이 발전하면서 개발 프로세스 개선 및 평가 방법이 주목받고 있다. 고수준의 품질을 보장하기 위해서 품질에 영향을 미치는 핵심 부분들을 초기 프로세스에서 선정하고 이에 맞게 한정된 자원들을 분산 배치하여야 하므로 품질 예측 모델이 중요해지고 있다. 소프트웨어 품질 예측 모델을 통해 소프트웨어 프로세스에서 구현이 완료된 후에 나타날 문제를 미리 예측하여 고품질의 높은 신뢰성을 갖춘 시스템 구축 등을 가능하다.
소프트웨어의 특성을 나타내는 입력 모듈에 대해 결함 여부를 예측하는 결함 예측 모델 연구들은 대부분 훈련 데이터 집합이 필요한 감독형 모델에 관련된 것들이었다. 이와 달리, 과거 데이터 집합이 없거나 데이터 집합이 있더라도 현재 프로젝트와 성격이 다른 경우는 비감독형 모델이 필요하지만, 이들에 관한 연구는 모델 구축의 어려움 등으로 인해 극소수만이 존재한다. 모델 제작의 어려움 중 하나는 비감독형 모델을 구축하기 위해 사용되는 클러스터링 알고리즘의 클러스터 개수가 휴리스틱 하게 선택되어야 하는 것이며, 이 수는 예측 모델의 성능에 많은 영향을 미치게 된다.
본 논문에서는 1) 기존 비감독형 모델 연구들에서 사용되었던 K-means 알고리즘뿐만 아니라 사용하지 않은 대표적인 클러스터링 알고리즘인 EM, DBSCAN을 사용한 비감독형 모델과 2) 비감독형 모델 구축 프로세스에서 가장 많은 비용과 노력이 드는 분석 단계의 효율적인 수행을 위해 클러스터 수가 자동으로 결정되는 X-means, EM 알고리즘을 사용한 비감독형 모델들을 제작한다. 이를 실제 프로젝트 데이터 집합에 적용하고 모델의 성능 평가 및 기존의 연구들과의 비교를 통해 제작 모델들의 효용성을 보인다.|As the software industry advances, improvement of software development process and evaluation methods are under the spotlight. In order to ensure a high quality of software, it is needed to select the core part in initial process and place the limited resources properly. Therefore, software quality prediction model is becoming more important.
Most previous studies of software fault prediction model which determines the fault-proneness of input modules have focused on supervised learning model using training data set. However, unsupervised learning model is needed in case supervised learning model cannot be applied: either past training data set is not present or even though there exists data set, current project type is changed. Building an unsupervised learning model is extremely difficult that is why only a few studies exist. One of the difficulties is to decide the number of clusters. In this paper, we build unsupervised models using representative clustering algorithms, EM and DBSCAN, that have not been used in prior studies and compare these models with the previous model using K-means algorithm. Also, to solve the problem of selecting the number of clusters, we build unsupervised models using clustering algorithms, EM and X-means, which determine the number of clusters automatically and compare them with results of earlier studies.
- Author(s)
- 박미경
- Issued Date
- 2016
- Awarded Date
- 2016-02
- Type
- Dissertation
- URI
- https://repository.sungshin.ac.kr/handle/2025.oak/6683
http://dcollection.sungshin.ac.kr/jsp/common/DcLoOrgPer.jsp?sItemId=000000010782
- Affiliation
- 성신여자대학교 일반대학원
- Department
- 일반대학원 컴퓨터학과
- Advisor
- 홍의석
- Table Of Contents
- Ⅰ. 서 론 1
Ⅱ. 기존 연구 5
Ⅲ. 모델 제작 9
1. 모델 제작 및 사용 시나리오 9
1) 데이터 전처리 단계 10
2) 클러스터링 단계 10
3) 분석 단계 11
4) 예측 단계 12
2. 클러스터링 알고리즘 14
1) 계층 클러스터링 15
2) 분할 클러스터링 15
Ⅳ. 모델 성능 실험 18
1. 실험 환경 18
1) 데이터 집합 및 속성 선정 18
2) 사용 클러스터링 알고리즘 20
3) 분석 단계의 자동화 21
4) 평가 척도 및 방법 23
2. 실험 과정 25
3. 실험 결과 27
1) 실험Ⅰ 결과 27
2) 실험Ⅱ 결과 30
Ⅴ. 결론 및 향후 연구 33
- Degree
- Master
- Publisher
- 성신여자대학교 일반대학원
-
Appears in Collections:
- 컴퓨터학과 > 학위논문
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.