OAK

레이블 노이즈가 존재하는 불균형자료의 분류분석 연구

Metadata Downloads
Alternative Title
Classification of imbalanced data with label noise
Abstract
관측된 범주형 종속변수에 오류가 포함된 것을 의미하는 레이블 노이즈(label noise)와 두 집단의 자료 수가 불균형한 자료를 의미하는 불균형자료(imbalanced data)는 실데이터에서 접하기 쉬운 문제이며 분류 성능을 낮출 수 있다. 따라서 본 논문에서는 이를 개선하기 위해 레이블 노이즈가 존재하는 불균형자료에서의 분류분석(classification analysis)에 대해 비교연구를 진행하였다. 특히, 레이블 노이즈의 발생형태, 샘플링방법, 분류방법에 따른 분류 성능을 Accuracy, G-mean, AUC를 이용하여 살펴보았다. 이를 통해 데이터의 형태와 레이블 노이즈의 발생형태에 따라 상황별로 적합한 샘플링방법과 분류방법을 제안하고자 한다.
Author(s)
권소영
Issued Date
2019
Awarded Date
2019-02
Type
Dissertation
URI
https://repository.sungshin.ac.kr/handle/2025.oak/3131
http://dcollection.sungshin.ac.kr/jsp/common/DcLoOrgPer.jsp?sItemId=000000013337
Alternative Author(s)
Kwon, So Young
Affiliation
성신여자대학교 대학원
Department
일반대학원 통계학과
Advisor
김경희
Table Of Contents
논문개요
Ⅰ. 서론 1
Ⅱ. 본론 3
Ⅱ.1. 레이블 노이즈 3
Ⅱ.2. 불균형자료에서의 샘플링방법 4
(1) Up-샘플링 4
(2) Down-샘플링 5
Ⅱ.3. 분류 알고리즘 5
(1) LDA 5
(2) QDA 6
(3) KNN 7
(4) SVM 7
Ⅱ.4. 모형평가방법 8
(1) Accuracy 8
(2) G-mean 9
(3) AUC 9
Ⅲ. 모의실험 10
Ⅲ.1. 모의실험설계 10
(1) 레이블 노이즈가 존재하지 않는 경우 12
(2) 레이블 노이즈가 다수 그룹에만 존재하는 경우 13
(3) 레이블 노이즈가 두 그룹 모두 존재하는 경우 14
(4) 레이블 노이즈가 분류 어려운 개체에 존재하는 경우 15
Ⅲ.2. 적용결과 및 해석 17
(1) 시나리오 1의 적용결과 및 해석 17
(2) 시나리오 2의 적용결과 및 해석 22
Ⅳ. 결론 28
참고문헌
ABSTRACT
부 록
Degree
Master
Publisher
성신여자대학교 대학원
Appears in Collections:
통계학과 > 학위논문
공개 및 라이선스
  • 공개 구분공개
  • 엠바고2019-02-22
파일 목록

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.