딥러닝 기반 대화 문장의 보완대체의사소통 상징 시퀀스 변환
- Alternative Title
- Translation from Text Sentence into AAC Symbol Sequences using Deep Learning
- Abstract
- 보완대체의사소통(Augmentative and Alternative Communication)은 말로 의사소통을 하는 데 어려움이 있는 언어 장애인들을 도와준다. 보완대체의사소통 상징은 보완대체의사소통 사용자가 표현하고자 하는 단어 혹은 문장을 나타낸다. 보완대체의사소통 서비스는 언어 장애인이 보완대체의사소통을 편리하게 사용할 수 있도록 도와주는 서비스이다. 대체로 보완대체의사소통 서비스는 대화하는 상대방과 직접 만나서 의사소통을 할 수 있도록 도와준다. 글을 읽고 이해하는 데 어려움이 있는 보완대체의사소통 사용자는 핸드폰이나 태블릿 등의 모바일 기기로 문자, 소셜 네트워크 서비스(Social Network Service, SNS), 메신저 등의 비대면 의사소통에 어려움이 있다. 비장애인은 글자로 구성된 문장을 사용하지만 언어 장애인은 글자를 모르는 경우가 존재하며, 보완대체의사소통 상징에 익숙하여 서로 상대방의 의사를 이해하기 어렵다.
본 논문에서는 일반인이 작성한 SNS상의 문장을 보완대체의사소통에 익숙한 언어 장애인이 이해할 수 있도록 보완대체의사소통 상징 시퀀스로 변환하는 딥러닝 기반 모델을 제안하였다. 형태소 분석기를 활용한 문장의 보완대체의사소통 상징 시퀀스를 변환은 문장의 문맥에 맞지 않는 상징으로 변환될 수 있으며 보완대체의사소통 상징에 해당 단어가 없으면 상징으로 변환되지 않는다는 문제가 존재한다. 이를 해결하기 위해 본 논문에서는 딥러닝을 기반하여 문장의 문맥에 알맞은 상징 시퀀스로 변환해주는 모델을 구현하였다. 딥러닝 모델의 학습을 위해 대화 문장 데이터와 한국형 보완대체의사소통 상징 체계집을 활용하여 데이터를 구축하였다. 케라스의 임베딩 방법과 사전 훈련되 임베딩 방법 두 가지와 시퀀스-투-시퀀스 모델과 어텐션 기반 시퀀스-투-시퀀스 모델 두 가지를 조합하여 총 네 가지 모델을 구현하고 실험하였다. 네 개의 모델의 성능은 BLEU(Bilingual Evaluation Understudy)를 사용하여 측정하였으며 사전 훈련된 임베딩을 활용한 어텐션 기반 시퀀스-투-시퀀스 모델이 0.80 점수로 가장 좋은 성능을 보였다.|Augmentative and Alternative Communication (AAC) helps people with language impairment. AAC users use AAC symbols to represent a word or sentence that they want to express. AAC services help AAC users to communicate with other people who are in the same location. Having difficulty in reading and understanding the written text, AAC users have trouble using text messages, SNS(Social Network Service), and messengers on mobile devices such as smartphones, tablets, and so on. It is hard to communicate between non-disabled people and AAC users since non-disabled people use sentences using letters, while AAC users use AAC symbols to communicate.
In this paper, we suggest a model that translates a dialogue sentence into an AAC symbols sequence using deep learning. First, we tried to translate text sentences into AAC symbol sequences by using a morphological analyzer. But there are many mismatches between the translated sequences and the source text sentences. Also, if there is no AAC symbols corresponding to the words in the sentence, the sentence could not be translated into AAC symbol sequences.
To solve the problems of the translation of the morphological analyzer, we implemented the models based on deep learning to translate a sentence into the suitable AAC symbol sequences. For translation from sentences into AAC symbol sequences using deep learning, we built a data set with Korean dialogue sentence data and the Korean AAC Symbol System. We implemented four deep learning models by combining two different methods of embedding–Keras embedding and pre-trained Word2Vec embedding-with two deep learning models–sequence-to-sequence models with or without attention. We measured the performance of the four models with the BLEU(Bilingual Evaluation Understudy) score. All four models had a high performance of 0.70 scores or higher and the attention-based sequence-to-sequence model using Word2Vec showed the highest performance with a 0.80 score.
- Author(s)
- 이주현
- Issued Date
- 2021
- Awarded Date
- 2021-02
- Type
- Dissertation
- URI
- https://repository.sungshin.ac.kr/handle/2025.oak/3098
http://dcollection.sungshin.ac.kr/common/orgView/000000014042
- Department
- 일반대학원 컴퓨터학과
- Advisor
- 홍기형
- Table Of Contents
- 논문개요
I. 서 론 1
II. 관련 연구 5
1. 보완대체의사소통 5
2. 한국형 보완대체의사소통 상징 체계집 8
3. LSTM(Long Short-Term Memory) 11
4. 시퀀스-투-시퀀스(Sequence-to-Sequence) 15
5. 어텐션 메커니즘 (Attention Mechanism) 16
III. 형태소 분석기를 활용한 문장의 AAC 상징 시퀀스 변환과 한계 17
IV. 딥러닝 기반 대화 문장의 AAC 상징 시퀀스 변환 모델 설계 22
1. 학습 데이터 구축 24
2. 데이터 전처리 30
3. 딥러닝 기반 문장의 AAC 상징 시퀀스 변환 모델 31
V. AAC 상징 시퀀스 변환 모델 실험 및 평가 34
1. 실험 개요 34
2. 실험 결과 35
3. 실험 평가 41
1) BLEU(Bilingual Evaluation Understudy) 41
2) BLEU 평가 결과 42
VI. 결론 및 향후 연구 44
참 고 문 헌
ABSTRACT
- Degree
- Master
- Publisher
- 성신여자대학교 일반대학원
-
Appears in Collections:
- 컴퓨터학과 > 학위논문
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.