독립변수의 선형결합을 이용한 의사결정나무 분리기준에 관한 연구
- Alternative Title
- A Study on Decision Tree using Linear Combination Splits
- Abstract
- 현실세계에서 발생하는 많은 데이터들로부터 우리가 행하고자 하는 일에 도움이 되는 정보(information)나 지식(knowledge)을 찾아내는 것은 매우 중요하다. 특히 대량의 데이터에서 의미 있는 정보를 추출해내는 데 널리 응용되고 있는 의사결정나무분석(decision tree analysis)은 예측과 분류를 하기 위해서 사용되는 보편적이고 강력한 도구이다. 분석과정이 나무구조에 의한 분할규칙(split rule)에 의해서 표현되기 때문에 다른 방법들에 비해 연구자가 그 과정을 쉽게 이해할 수 있고 두 개 이상의 변수가 결합하여 목표변수에 어떻게 영향을 주는지를 쉽게 이해할 수 있는 장점을 가진다.
분류나무 형성 시 중요한 것은 목표변수를 잘 분리해주는 변수를 선택하는 것이다. 이는 분리의 측도인 분리기준(split criterion)에 영향을 크게 받기 때문에 적절한 분리기준에 의해 의사결정나무를 구축해야 한다. 그러나 대부분의 의사결정나무 알고리즘들은 분리변수 선택에 있어 독립변수가 일변량인 경우만 고려한다.
본 논문에서는 독립변수의 선형결합에 대한 분리기준을 제시함으로서 예측의 정확성을 높이는 분리기준에 대한 연구를 하고자 한다. CHIAD, CART, C4.5, QUEST 등 기존 알고리즘과 본 연구에서 제안하는 방법의 오분류율을 R 소프트웨어를 이용하여 모의실험을 통해 비교하였다. 모의실험 결과 제안된 방법인 선형결합 분리기준과 황금분할을 이용한 분리기준의 오분류율이 낮았다. 또한 새로운 알고리즘이 실제자료에도 잘 적용되고 있음을 보여준다.|A classification tree is a rule for predicting the class of an object from the values for its predictor variables. The common goal in CART, CHAID, C4.5 and QUEST is to obtain such that in each terminal node is quite pure and simple tree. Occasionally this cannot be achieved with standard algorithms can produce large tree structure because they use only single splits.
This thesis introduce a classification tree split criterion that can improve class prediction. We accomplish this by bivariate linear combination splits. Our splits are general linear combination split and using golden section splits. This splits are carried out misclassification costs of the models.
Furthermore, some simulation and real data experiments are performed to demonstrate the performance of the proposed approach. Our split criterion has better prediction power and lower misclassification rate than CART single algorithms.
- Author(s)
- 이경혜
- Issued Date
- 2010
- Awarded Date
- 2010-02
- Type
- Dissertation
- URI
- https://repository.sungshin.ac.kr/handle/2025.oak/3003
http://dcollection.sungshin.ac.kr/jsp/common/DcLoOrgPer.jsp?sItemId=000000006341
- Alternative Author(s)
- Lee, Kyung hye
- Affiliation
- 성신여자대학교 대학원
- Department
- 일반대학원 통계학과
- Advisor
- 이성건
- Table Of Contents
- 제1장 서론 = 1
제2장 의사결정나무 = 3
2.1 일변량 의사결정나무 = 3
2.1.1 CHAID 알고리즘 = 3
2.1.2 CART 알고리즘 = 6
2.1.3 C4.5 알고리즘 = 8
2.1.4 QUEST 알고리즘 = 11
2.2 선형결합 의사결정나무 = 13
2.2.1 CART 선형결합 알고리즘 = 13
2.2.2 CRUISE 2D 선형결합 알고리즘 = 15
제3장 선형결합을 이용한 의사결정나무 = 17
3.1 일대일 선형결합을 이용한 의사결정나무 = 17
3.2 황금분할을 이용한 의사결정나무 = 20
제4장 모의실험 및 적용 = 22
4.1 분리기준에 대한 모의실험 = 22
4.2 실제자료의 적용 = 31
4.2.1 자료 소개 = 31
4.2.2 일변량 의사결정나무 분석 결과 = 32
4.2.3 선형결합 의사결정나무 분석 결과 = 35
제5장 결론 및 향후 연구과제 = 40
- Degree
- Master
- Publisher
- 성신여자대학교 대학원
-
Appears in Collections:
- 통계학과 > 학위논문
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.