교통카드 트랜잭션 데이터베이스에서 순회 패턴 탐사 알고리즘들의 비교 및 분석
- Alternative Title
- Comparison and Analysis of Algorithms for Mining Traversal Patterns in a Transaction Database by Transportation Cards
- Abstract
- 최근 정보 산업 분야에서 데이터의 양적 팽창과 그러한 데이터를 유용한 정보와 지식으로 바꿔야 하는 필요성으로 인해 데이터 마이닝에 대한 연구가 활발히 이루어지고 있다. 이러한 데이터 마이닝 분야에서 새롭게 연구되고 있는 한 분야가 순회 패턴 탐사이다.
본 논문에서는 순차 패턴 탐사의 한 특별한 경우인 순회 패턴 탐사 문제에 대해 연구하였다. 객체들은 서로 연결되어 상호 접근이 허용되며 객체 사이의 접근은 서로 연결된 경로를 따라 일정한 방향성을 갖는다. 이러한 환경 하에서 객체들을 순차적으로 접근하는 일정한 패턴을 발견하고자 한다. 예를 들어, 버스나 지하철을 이용한 승객들의 이동 경로를 분석하여 일정한 패턴을 발견할 수 있다. 이러한 문제를 해결하기 위해 기존의 알고리즘들을 적용하여 해결하고자 했다. 즉, 순차 패턴 탐사 알고리즘인 GSP와 SPADE를 변형하여 적용한 GSP_V와 SPADE_V를 구현하였으며, 순회 패턴 탐사 알고리즘인 FS를 변형하여 적용한 FS_V를 구현하였다. 그리고 빠른 탐사를 위해 기존에 존재하는 알고리즘의 일부 특성에 다양한 자료구조를 복합 적용한 AVL(Array and Vertical List)를 구현하였다. 이렇게 구현한 알고리즘들에 대해 실세계 데이터인 대용량의 교통 카드 트랜잭션 데이터베이스를 적용시켜 보았고, 최소 지지도나 입력 데이터베이스 크기 등에 따른 각 알고리즘의 성능을 비교 분석해 보았다.
|The major reason that data mining has attracted a great deal of attention in the information industry in recent years is due to the wide availability of huge amounts of data and the imminent need for turning such data into useful information and knowledge. Traversal pattern mining is an important data mining problem with broad applications.
In this research, we examine the issue of mining traversal patterns among items in a transaction database by transportation cards, where each transaction consists of customer-id, transaction-id, and a list of the items such as stations between origins and destinations in a transaction. We derived algorithms to find out the traversal patterns. We implemented the algorithms and evaluated the performance.
- Author(s)
- 최계숙
- Issued Date
- 2006
- Awarded Date
- 2006-02
- Type
- Dissertation
- URI
- https://repository.sungshin.ac.kr/handle/2025.oak/2398
http://210.125.93.15/jsp/common/DcLoOrgPer.jsp?sItemId=000000002232
- Alternative Author(s)
- Choi, Kye-Sook
- Affiliation
- 성신여자대학교 대학원
- Department
- 일반대학원 전산학과
- Table Of Contents
- Ⅰ. 서론 = 1
Ⅱ. 순회 패턴 탐사 = 4
1. 순회 패턴 탐사 정의 = 4
2. 관련 연구 = 9
1) FS 알고리즘 = 10
2) CHT_FS 알고리즘 = 11
3) TPADE 알고리즘 = 11
Ⅲ. 순회 패턴 탐사 알고리즘 = 13
1. SPADE_V 알고리즘 = 13
1) 빈발 1-시퀀스(F1) = 17
2) 빈발 2-시퀀스(F2) = 17
3) 빈발 k-시퀀스(Fk) = 18
① 후보 k-시퀀스(Ck) 생성 = 18
② 빈발 k-시퀀스(Fk) 발견 = 19
2. GSP_V 알고리즘 = 21
1) 빈발 1-시퀀스(F1) = 22
2) 빈발 2-시퀀스(F2) = 23
3) 빈발 k-시퀀스(Fk) = 23
3. FS_V 알고리즘 = 24
1) 빈발 1-시퀀스(F1) = 26
2) 빈발 2-시퀀스(F2) = 26
3) 빈발 k-시퀀스(Fk) = 27
4. AVL 알고리즘 = 28
1) 빈발 1-시퀀스(F1) = 30
2) 빈발 2-시퀀스(F2) = 32
① 후보 2-시퀀스(C2) 생성 = 32
② 빈발 2-시퀀스(F2) 발견 = 35
Ⅳ. 실험 결과 및 분석 = 37
1. 실험 환경 및 실험 데이터 특성 = 37
2. 시험 결과 및 성능 비교 분석 = 40
1) 실험 결과 = 40
① 시퀀스 길이에 따른 후보 시퀀스와 빈발 시퀀스 = 40
② 최소 지지도에 따른 탐사된 최대 빈발 시퀀스 = 42
2) 성능 비교 분석 = 43
① 입력 데이터 수에 따른 수행 시간 = 44
② 시퀀스 길이에 따른 각 알고리즘의 실행 시간 = 47
③ 최소 지지도에 따른 각 알고리즘의 실행 시간 = 48
④ FS_V 알고리즘의 비트연산 vs. 덧셈 연산 = 51
Ⅴ. 결론 = 53
참고문헌 = 56
ABSTRACT = 60
- Degree
- Master
- Publisher
- 성신여자대학교 대학원
-
Appears in Collections:
- 컴퓨터학과 > 학위논문
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.