고차원 결측 자료의 다중대체 모형 선택
- Alternative Title
- Multiple Imputation Model Selection for High-Dimensional Missing Data
- Abstract
- 다양한 자료에서 자주 발견되는 결측에 대하여 결측값을 모두 제거하고 분석을 수행하면 정보의 손실과 함께 추정량에 편향이 생길 수 있다. 이를 해결하기 위해 각 결측값에 대하여 여러 개의 ‘그럴듯한’ 값을 생성하여 대체한 후 분석 결과들을 재결합하는 다중대체법이 흔히 사용되어 왔다. 다중대체를 위한 가장 대표적인 알고리즘인 MICE 알고리즘은 결측이 포함된 각 변수를 나머지 변수들로 예측하는 지도학습모형, 즉 대체모형을 학습시켜 결측을 메우는 과정을 변수마다 반복한다. 하지만 대부분의 대체모형은 저차원에서 개발되었기 때문에 고차원 환경에서는 기존의 대체모형들이 학습되지 않는다는 한계가 존재한다. 따라서 대체모형을 위한 변수 선택의 필요성이 대두되었다. 본 연구에서는 그래프 이론의 아이디어로부터 새로운 변수 선택법을 제안한다. 제안 방법은 그래프 라쏘와 역확률 가중치 추정량을 결합함으로써 정규성 가정하에서 이론적 정당성을 가지며, 본 논문에서 주요 비교 방법으로 채택된 기존의 고차원 대체모형 DURR과 IURR보다 계산적으로 효율적이고 유연하다. 모의실험을 통해 제안 방법과 비교 방법의 성능을 비교한 결과, 정규성 가정이 만족되는 상황에서 제안 방법이 비교 방법과 비슷하거나 우수한 성능을 보인다는 것을 검증하였다.
- Author(s)
- 이윤아
- Issued Date
- 2024
- Awarded Date
- 2024-02
- Type
- Dissertation
- URI
- https://repository.sungshin.ac.kr/handle/2025.oak/2276
http://dcollection.sungshin.ac.kr/common/orgView/000000015001
- Alternative Author(s)
- Yoonah Lee
- Affiliation
- 성신여자대학교 일반대학원
- Department
- 일반대학원 통계학과
- Advisor
- 박성오
- Table Of Contents
- Ⅰ. 서 론 1
Ⅱ. 결측의 발생과 처리 5
1. 결측자료 메커니즘 5
1) 완전임의결측(MCAR) 6
2) 임의결측(MAR) 6
3) 비임의결측(NMAR) 7
2. 결측값 처리 방법 9
1) 완전제거법(CCA) 9
2) 우도에 근거한 추정방법 9
3) 대체방법 10
Ⅲ. 방법론 15
1. FCS 접근법 16
1) MICE 알고리즘 16
2) 고차원 환경 20
3) DURR 21
4) IURR 22
2. 제안 방법 23
1) 그래프 라쏘 24
2) 역확률 가중치(IPW) 추정량 26
3) 제안 방법 30
Ⅲ. 모의실험 33
1. 모의실험 설계 33
1) 데이터 생성 33
2) 실험 설정 37
3) 평가지표 38
4) 비교 방법 40
2. 모의실험 결과 41
1) MAR 메커니즘에서의 분석 결과 42
2) 민감도 분석 결과 48
Ⅴ. 결론 52
- Degree
- Master
- Publisher
- 성신여자대학교 일반대학원
-
Appears in Collections:
- 통계학과 > 학위논문
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.