한국형 AAC 그림 상징 시퀀스의 딥러닝 기반 텍스트 문장생성
- Alternative Title
- 한국형 AAC 그림 상징 시퀀스의 딥러닝 기반 텍스트 문장생성
Sentence Generation for Korean AAC Symbol Sequences based on deep learning
- Abstract
- 보완대체의사소통(Augmentative and Alternative Communication; AAC)은 그림, 몸짓과 같은 비구어적 방법을 사용한 의사소통 방법으로, 구어를 사용한 의사소통에 어려움이 있는 사람들은 AAC 상징을 사용하여 자신의 의사를 표현한다. 모바일기기와 소프트웨어의 발전으로 AAC 사용자들의 어플리케이션 활용도가 높아져, AAC 어플리케이션 이외에도 다양한 사회적 네트워크 서비스 사용에 대한 욕구가 클 것으로 생각된다. 하지만 현실적으로 일반인들의 AAC 이해도가 높지 않아, 일상생활에서 AAC 상징을 사용한 의사소통에 어려움이 있다.
본 논문은 국내 AAC 사용자들이 다양한 모바일 플랫폼에서 원활한 의사소통을 할 수 있도록, 딥러닝을 활용하여 한국형 AAC 그림 상징 시퀀스를 한국어 문장으로 생성하는 것을 목적으로 한다. 학습을 위한 데이터로 한국형 AAC 그림 상징 시퀀스 데이터를 구축하였으며, 상징 식별자 기반 시퀀스와 상징 어휘 기반 시퀀스로 표현할 수 있다. 전처리 과정에서 토큰화 방법으로 상징 단위 토큰화 방법과 형태소 단위 토큰화 방법을 사용하였으며, 학습 모델로 게이트 순환 유닛을 사용한 시퀀스-투-시퀀스 모델과 어텐션 메커니즘을 적용한 모델 2가지를 활용하여 토큰화 방법에 따른 모델별 문장생성 성능을 비교하였다. 결과적으로 상징 어휘 기반 시퀀스는 형태소 단위 토큰화 방법을 사용한 어텐션 기반 시퀀스-투-시퀀스 모델에서 가장 높은 성능을 보인 것을 확인하였다. |Augmentative and Alternative Communication(AAC) is a method of communication using non-verbal methods such as images and gestures. People with language impairment use the AAC symbols to express their intentions. As smart devices and mobile applications become popular, the number of AAC applications has been increasing. Current AAC applications are effective in face-to-face communication. However, they are not suitable for non-face-to-face communication on various social network services because ordinary people have a low understanding of AAC.
The purpose of this study is to generate the Korean sentence from the Korean AAC symbol image sequences based on deep learning so that Korean AAC users can communicate easily with ordinary people on various mobile platforms. For training data, we constructed the Korean AAC symbol sequences. The Korean AAC symbol sequences can be expressed in the sequences based on symbol identifier(id) or symbol vocabulary. We tokenized the AAC sequences by using morpheme and AAC symbol. Then, using the tokenized AAC sequences, we conducted and compared two deep learning models, the Sequence-to-Sequence model using GRU and the Sequence-to-Sequence model with attention. As a result, we found that the Sequence-to-Sequence model with attention using the morpheme unit tokenization was the best for translating the AAC symbol sequence to the Korean sentences.
- Author(s)
- 조희
- Issued Date
- 2021
- Awarded Date
- 2021-02
- Type
- Dissertation
- URI
- https://repository.sungshin.ac.kr/handle/2025.oak/7106
http://dcollection.sungshin.ac.kr/common/orgView/000000014050
- Alternative Author(s)
- Cho Hee
- Affiliation
- 성신여자대학교 일반대학원
- Department
- 일반대학원 컴퓨터학과
- Advisor
- 홍기형
- Table Of Contents
- I. 서 론 1
II. 관련 연구 및 이론 배경 4
1. 보완대체의사소통 4
1) 보완대체의사소통 구성 요소 및 구문 특징 4
2) 보완대체의사소통을 활용한 문장생성 연구 동향 6
2. 딥러닝 이론 배경 8
1) 게이트 순환 유닛(Grated Recurrent Unit) 8
2) 시퀀스-투-시퀀스(Sequence-to-Sequence) 11
3) 어텐션 메커니즘(Attention Mechanism) 13
III. 한국형 AAC 그림 상징 시퀀스 16
1. 한국형 AAC 상징 체계집 16
2. 한국형 AAC 그림 상징 시퀀스 데이터 구축 19
IV. 한국형 AAC 그림 상징 시퀀스의 딥러닝 기반 문장 생성 27
1. 토큰화(Tokenization) 27
2. 단어 임베딩(Word Embedding) 28
3. GRU를 이용한 어텐션 기반 Seq2Seq 모델 30
V. 실험 및 평가 31
1. 실험 환경 31
2. 실험 과정 및 결과 32
1) 데이터 전처리(Data Preprocessing) 33
2) 단어 임베딩 (Word Embedding) 36
3) 모델 학습 (Model Training) 36
4) 추론 (Inference) 38
5) 상징 식별자 기반 시퀀스를 사용한 실험 42
3. 평가 43
1) 평가 방법 43
2) 평가 결과 44
VI. 결론 및 향후 연구 46
- Degree
- Master
- Publisher
- 성신여자대학교 일반대학원
-
Appears in Collections:
- 컴퓨터학과 > 학위논문
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.