OAK

유틸리티-리스트 기반의 Top-K 높은 유틸리티 패턴 마이닝

Metadata Downloads
Alternative Title
Top-k High Utility Pattern Mining Based on Utility-List Structures
Abstract
Top-k 높은 유틸리티 패턴 마이닝은 사용자가 지정한 k 값을 이용해 트랜잭션 데이터베이스에서 항목의 유틸리티를 기준으로 상위 k개의 항목집합을 찾아내는 것이다. 기존의 top-k 높은 유틸리티 패턴 알고리즘은 재귀적으로 트리를 구축하여 패턴을 성장시키는 기법을 기반으로 두 단계에 걸쳐 마이닝을 수행한다. 이는 많은 후보 생성과 그 후보들의 실제 유틸리티를 계산하기 위한 추가적인 데이터베이스 스캔을 필요로 한다. 본 논문에서는 효율적으로 top-k 높은 유틸리티 패턴을 찾기 위해 새로운 알고리즘, TKUL-Miner를 제안한다. 이 알고리즘은 탐색 트리에서 항목집합을 마이닝하기 위해 각 노드에 필요한 정보를 저장하는 유틸리티-리스트 구조를 이용한다. 제안하는 알고리즘은 패턴의 최대 유틸리티가 높은 구간을 먼저 탐색하는 탐색 순서 전략으로 최소 유틸리티를 빠르게 증가시킨다. 그리고 보다 작은 유틸리티 상한 값을 계산하는 두 개의 추가적인 전략들로 유망하지 않은 항목집합들을 효과적으로 가지치기 한다. 다양한 데이터에 대한 실험 결과를 통해 제안하는 알고리즘이 최신 알고리즘들 보다 실행시간과 사용 메모리 관점에서 모두 성능을 개선하고, 특히 조밀한 분포의 데이터인 경우와 평균 트랜잭션의 길이가 긴 경우 제안 알고리즘의 성능이 더욱 효율적이라는 것을 보여준다.|Top-k high utility itemset mining refers to the discovery of top-k patterns using given user-specified value k by considering the utility of items in a transactional database. Since existing top-k high utility itemset mining algorithms are based on pattern-growth method, they search the patterns in two steps. Therefore, the generation of many candidates and additional database scan for calculating exact utilities are unavoidable. In this paper, we propose a new algorithm, TKUL-Miner, to mine top-k high utility itemsets efficiently. It utilizes a new utility-list structure which stores necessary information at each node on the search tree for mining the itemsets. The proposed algorithm has a strategy using search order for specific region to raise the border minimum utility threshold rapidly. Moreover, two additional strategies for calculating smaller overestimated utilities are suggested to prune unpromising itemsets effectively. Experimental results on various datasets showed that the TKUL-Miner outperforms other recent algorithms both in runtime and memory efficiency.
Author(s)
이세린
Issued Date
2016
Awarded Date
2016-02
Type
Dissertation
URI
https://repository.sungshin.ac.kr/handle/2025.oak/5358
http://dcollection.sungshin.ac.kr/jsp/common/DcLoOrgPer.jsp?sItemId=000000010732
Alternative Author(s)
Lee, Serin
Affiliation
성신여자대학교 일반대학원
Department
일반대학원 컴퓨터학과
Advisor
박종수
Table Of Contents
논문개요
Ⅰ. 서론 1
Ⅱ. 문제정의 4
Ⅲ. 관련연구 8
1. 빈발 항목집합 마이닝 8
2. Top-k 빈발 항목집합 마이닝 9
3. 높은 유틸리티 항목집합 마이닝 10
4. Top-k 높은 유틸리티 항목집합 마이닝 11
Ⅳ. 제안 방법론 12
1. 기반 자료구조 12
2. TKUL-Miner 알고리즘 15
Ⅴ. 실험 결과 27
1. 실행시간 비교 28
2. 메모리 사용량 비교 35
Ⅵ. 결론 및 향후 연구 39
참고문헌
ABSTRACT
Degree
Master
Publisher
성신여자대학교 일반대학원
Appears in Collections:
컴퓨터학과 > 학위논문
공개 및 라이선스
  • 공개 구분공개
  • 엠바고2016-02-18
파일 목록

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.