OAK

교통카드 트랜잭션 데이터베이스에서 순회 패턴 탐사 알고리즘들의 비교 및 분석

Metadata Downloads
Alternative Title
Comparison and Analysis of Algorithms for Mining Traversal Patterns in a Transaction Database by Transportation Cards
Abstract
최근 정보 산업 분야에서 데이터의 양적 팽창과 그러한 데이터를 유용한 정보와 지식으로 바꿔야 하는 필요성으로 인해 데이터 마이닝에 대한 연구가 활발히 이루어지고 있다. 이러한 데이터 마이닝 분야에서 새롭게 연구되고 있는 한 분야가 순회 패턴 탐사이다.
본 논문에서는 순차 패턴 탐사의 한 특별한 경우인 순회 패턴 탐사 문제에 대해 연구하였다. 객체들은 서로 연결되어 상호 접근이 허용되며 객체 사이의 접근은 서로 연결된 경로를 따라 일정한 방향성을 갖는다. 이러한 환경 하에서 객체들을 순차적으로 접근하는 일정한 패턴을 발견하고자 한다. 예를 들어, 버스나 지하철을 이용한 승객들의 이동 경로를 분석하여 일정한 패턴을 발견할 수 있다. 이러한 문제를 해결하기 위해 기존의 알고리즘들을 적용하여 해결하고자 했다. 즉, 순차 패턴 탐사 알고리즘인 GSP와 SPADE를 변형하여 적용한 GSP_V와 SPADE_V를 구현하였으며, 순회 패턴 탐사 알고리즘인 FS를 변형하여 적용한 FS_V를 구현하였다. 그리고 빠른 탐사를 위해 기존에 존재하는 알고리즘의 일부 특성에 다양한 자료구조를 복합 적용한 AVL(Array and Vertical List)를 구현하였다. 이렇게 구현한 알고리즘들에 대해 실세계 데이터인 대용량의 교통 카드 트랜잭션 데이터베이스를 적용시켜 보았고, 최소 지지도나 입력 데이터베이스 크기 등에 따른 각 알고리즘의 성능을 비교 분석해 보았다.
|The major reason that data mining has attracted a great deal of attention in the information industry in recent years is due to the wide availability of huge amounts of data and the imminent need for turning such data into useful information and knowledge. Traversal pattern mining is an important data mining problem with broad applications.
In this research, we examine the issue of mining traversal patterns among items in a transaction database by transportation cards, where each transaction consists of customer-id, transaction-id, and a list of the items such as stations between origins and destinations in a transaction. We derived algorithms to find out the traversal patterns. We implemented the algorithms and evaluated the performance.
Author(s)
최계숙
Issued Date
2006
Awarded Date
2006-02
Type
Dissertation
URI
https://repository.sungshin.ac.kr/handle/2025.oak/2398
http://210.125.93.15/jsp/common/DcLoOrgPer.jsp?sItemId=000000002232
Alternative Author(s)
Choi, Kye-Sook
Affiliation
성신여자대학교 대학원
Department
일반대학원 전산학과
Table Of Contents
Ⅰ. 서론 = 1
Ⅱ. 순회 패턴 탐사 = 4
1. 순회 패턴 탐사 정의 = 4
2. 관련 연구 = 9
1) FS 알고리즘 = 10
2) CHT_FS 알고리즘 = 11
3) TPADE 알고리즘 = 11
Ⅲ. 순회 패턴 탐사 알고리즘 = 13
1. SPADE_V 알고리즘 = 13
1) 빈발 1-시퀀스(F1) = 17
2) 빈발 2-시퀀스(F2) = 17
3) 빈발 k-시퀀스(Fk) = 18
① 후보 k-시퀀스(Ck) 생성 = 18
② 빈발 k-시퀀스(Fk) 발견 = 19
2. GSP_V 알고리즘 = 21
1) 빈발 1-시퀀스(F1) = 22
2) 빈발 2-시퀀스(F2) = 23
3) 빈발 k-시퀀스(Fk) = 23
3. FS_V 알고리즘 = 24
1) 빈발 1-시퀀스(F1) = 26
2) 빈발 2-시퀀스(F2) = 26
3) 빈발 k-시퀀스(Fk) = 27
4. AVL 알고리즘 = 28
1) 빈발 1-시퀀스(F1) = 30
2) 빈발 2-시퀀스(F2) = 32
① 후보 2-시퀀스(C2) 생성 = 32
② 빈발 2-시퀀스(F2) 발견 = 35
Ⅳ. 실험 결과 및 분석 = 37
1. 실험 환경 및 실험 데이터 특성 = 37
2. 시험 결과 및 성능 비교 분석 = 40
1) 실험 결과 = 40
① 시퀀스 길이에 따른 후보 시퀀스와 빈발 시퀀스 = 40
② 최소 지지도에 따른 탐사된 최대 빈발 시퀀스 = 42
2) 성능 비교 분석 = 43
① 입력 데이터 수에 따른 수행 시간 = 44
② 시퀀스 길이에 따른 각 알고리즘의 실행 시간 = 47
③ 최소 지지도에 따른 각 알고리즘의 실행 시간 = 48
④ FS_V 알고리즘의 비트연산 vs. 덧셈 연산 = 51
Ⅴ. 결론 = 53
참고문헌 = 56
ABSTRACT = 60
Degree
Master
Publisher
성신여자대학교 대학원
Appears in Collections:
컴퓨터학과 > 학위논문
공개 및 라이선스
  • 공개 구분공개
  • 엠바고2006-05-30
파일 목록

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.