신경망 학습을 이용한 문서 자동 분류
- Alternative Title
- (The) automated documents categorization by neural network's learning method
- Abstract
- 현재 인터넷에서 이루어지는 서비스 중에서 문서 분류 서비스는 많이 이루어지는 서비스 중의 하나이다. 그러나 웹 문서 분류 서비스를 제공하는 대부분의 업체는 문서 분류 작업을 수작업으로 하고 있는 실정이다. 웹 상의 다량의 문서들을 수작업으로 분류?磯募? 것은 생산성과 능률 차원에서 적절치 못한 방법이다. 본 논문에서는 문서 분류의 자동화 방법 중 신경망 학습을 이용한 문서 자동 분류를 하고자 한다.
신경망 학습을 이용한 문서 자동 분류는 다음과 같이 이루어진다. 문서학습 프로그램에 역전파 네트워크를 구성하고 학습 데이터의 수, 학습 알고리즘 매개 변수 설정 그리고 히든 유닛의 개수 등을 조정하면서 학습을 수행한다. 그리고 나서, 문서 분류 프로그램의 역전파 네트워크에 학습 결과 생성된 학습 네트워크 가중치를 설정한다. 이러한 문서 분류 프로그램에 미지의 새로운 문서를 입력하면 적합한 카테고리로 분류가 이루어지게 된다.
본 논문에서는 학습 문서가 480개인 경우와 1080개인 경우에 대하여 각각 학습을 수행한 후 학습 네트워크 가중치를 얻었으며, 이 학습 네트워크 가중치를 문서 분류 프로그램의 역전파 네트워크에 로딩하여 사용하였다. 분류 실험 결과, 1080개의 학습 문서로 훈련된 학습 네트워크 가중치를 적용했을 때 총 180개의 테스트 문서에 대하여 158개의 문서가 올바르게 분류되었고 87.8 %의 정확도를 나타냈다.|Document categorization is one of the most important services in what is called internet age. Document categorization has been done manually, which is a time-consuming and inefficient task. This thesis proposes an automated document categorization approach in which neural network is used as a learning framework.
In the learning process, the optimal number of hidden units are determined and the neural network's weights are decided by using learning data. The weights are used to configure a neural network, that is applied to categorize unknown documents.
For the experiment, weight learning was performed twice, one with 480 documents and the other with 1080 documents. For the evaluation, 180 test documents were prepared. With the weights learned from 480 documents, the accuracy of categorization was evaluated to be 68.3 %. With the weights learned from 1080 documents, the accuracy of categorization was evaluated to be 87.8 %.
- Author(s)
- 허인옥.
- Issued Date
- 2002
- Type
- Dissertation
- URI
- https://repository.sungshin.ac.kr/handle/2025.oak/4550
http://210.125.93.15/jsp/common/DcLoOrgPer.jsp?sItemId=000000001349
- Affiliation
- 성신여자대학교 교육대학원
- Department
- 교육학과 전자계산교육
- Table Of Contents
- 논문개요 = Ⅰ
목차 = ⅰ
Ⅰ. 서론 = 1
Ⅱ. 관련 연구 = 3
1. 문서 분류 방법 = 3
1.1 SVM = 4
1.2 kNN = 5
1.3 NNet = 6
2. 자질 추출 방법 = 6
Ⅲ. 신경망 학습 = 9
Ⅳ. 학습 및 분류 = 15
1. 문서 분류 계층 = 15
2. 학습 문서와 테스트 문서 = 16
3. 문서 자질 추출 = 16
4. 학습 과정 = 22
5. 분류 과정 = 25
Ⅴ. 실험 및 평가 = 29
1. ?戟? 실험 = 29
2. 분류 실험 = 32
3. 결과 분석 = 34
4. 분류 신뢰도 = 36
Ⅵ. 결론 및 향후 과제 = 39
참고문헌 = 41
ABSTRACT = 42
- Degree
- Master
- Publisher
- 성신여자대학교 교육대학원
-
Appears in Collections:
- 교육대학원 > 학위논문
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.