OAK

고차원 결측 자료의 다중대체 모형 선택

Metadata Downloads
Alternative Title
Multiple Imputation Model Selection for High-Dimensional Missing Data
Abstract
다양한 자료에서 자주 발견되는 결측에 대하여 결측값을 모두 제거하고 분석을 수행하면 정보의 손실과 함께 추정량에 편향이 생길 수 있다. 이를 해결하기 위해 각 결측값에 대하여 여러 개의 ‘그럴듯한’ 값을 생성하여 대체한 후 분석 결과들을 재결합하는 다중대체법이 흔히 사용되어 왔다. 다중대체를 위한 가장 대표적인 알고리즘인 MICE 알고리즘은 결측이 포함된 각 변수를 나머지 변수들로 예측하는 지도학습모형, 즉 대체모형을 학습시켜 결측을 메우는 과정을 변수마다 반복한다. 하지만 대부분의 대체모형은 저차원에서 개발되었기 때문에 고차원 환경에서는 기존의 대체모형들이 학습되지 않는다는 한계가 존재한다. 따라서 대체모형을 위한 변수 선택의 필요성이 대두되었다. 본 연구에서는 그래프 이론의 아이디어로부터 새로운 변수 선택법을 제안한다. 제안 방법은 그래프 라쏘와 역확률 가중치 추정량을 결합함으로써 정규성 가정하에서 이론적 정당성을 가지며, 본 논문에서 주요 비교 방법으로 채택된 기존의 고차원 대체모형 DURR과 IURR보다 계산적으로 효율적이고 유연하다. 모의실험을 통해 제안 방법과 비교 방법의 성능을 비교한 결과, 정규성 가정이 만족되는 상황에서 제안 방법이 비교 방법과 비슷하거나 우수한 성능을 보인다는 것을 검증하였다.
Author(s)
이윤아
Issued Date
2024
Awarded Date
2024-02
Type
Dissertation
URI
https://repository.sungshin.ac.kr/handle/2025.oak/2276
http://dcollection.sungshin.ac.kr/common/orgView/000000015001
Alternative Author(s)
Yoonah Lee
Affiliation
성신여자대학교 일반대학원
Department
일반대학원 통계학과
Advisor
박성오
Table Of Contents
Ⅰ. 서 론 1
Ⅱ. 결측의 발생과 처리 5
1. 결측자료 메커니즘 5
1) 완전임의결측(MCAR) 6
2) 임의결측(MAR) 6
3) 비임의결측(NMAR) 7
2. 결측값 처리 방법 9
1) 완전제거법(CCA) 9
2) 우도에 근거한 추정방법 9
3) 대체방법 10
Ⅲ. 방법론 15
1. FCS 접근법 16
1) MICE 알고리즘 16
2) 고차원 환경 20
3) DURR 21
4) IURR 22
2. 제안 방법 23
1) 그래프 라쏘 24
2) 역확률 가중치(IPW) 추정량 26
3) 제안 방법 30
Ⅲ. 모의실험 33
1. 모의실험 설계 33
1) 데이터 생성 33
2) 실험 설정 37
3) 평가지표 38
4) 비교 방법 40
2. 모의실험 결과 41
1) MAR 메커니즘에서의 분석 결과 42
2) 민감도 분석 결과 48
Ⅴ. 결론 52
Degree
Master
Publisher
성신여자대학교 일반대학원
Appears in Collections:
통계학과 > 학위논문
공개 및 라이선스
  • 공개 구분공개
  • 엠바고2024-02-23
파일 목록

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.