OAK

다중 의미를 갖는 보완대체의사소통 상징의 구문분석을 통한 딥러닝 기반 문장의 상징 시퀀스 변환

Metadata Downloads
Alternative Title
Transformation of Text Sequences to AAC Symbol Sequences Based on Deep Learning using Syntatic Information of AAC Symbols with Multiple Meaning
Abstract
구어로 의사소통이 어려운 언어 장애인들이 사용하는 의사소통 도구에는 보완대체의사소통(Augmentative and Alternative Communication, AAC)이 있다. AAC 서비스는 모바일 서비스, 웹 서비스 등 다양한 형태로 개발되고 있으나, 현존하는 AAC 서비스는 주로 대면 의사소통에 활발히 사용되며, 전자우편, 메신저 등의 비대면 의사소통 상황에서는 활용이 어렵다. 인터넷의 보급 및 사용이 증가함에 따라 비대면 의사소통도 증가했으며, 비장애인과 장애인 사이의 의사소통 중재가 필요해졌다. 비대면 의사소통 상황에서는 주로 텍스트 대화가 오가는데, AAC 상징을 주로 사용하는 언어 장애인들은 글을 이해하는 것에 어려움이 있다.

본 논문에서는 상징이 가지는 다중 의미를 고려한 대화 문장의 AAC 상징 변환을 통해 비장애인이 입력한 텍스트를 언어 장애인에게 익숙한 AAC 상징으로 변환하는 모델을 제안한다. 대화 문장을 AAC 상징으로 변환하기 위해 한국어 대화 문장과 한국형 보완대체의사소통 체계집을 사용하였다. 한국어 대화 문장은 AI Hub의 공개 데이터인 한국어 대화 데이터에 유아용 동화책 문장을 추가로 수집하여 구성하였다. 문장은 상징 시퀀스로 대응시켜 나타낼 수 있으므로 AAC 상징 이미지의 특징을 고려하고, 문맥에 맞는 상징을 사용하여 상징 시퀀스 데이터를 구축하였다. 또, 상징이 가지는 다중 의미를 파악하여 문장에 대응되는 상징 시퀀스를 1개 이상 추가하는 작업을 수행하였다. 이에 따라, 다중 의미를 갖는 상징을 포함하는 문장은 최소 2개 이상의 상징 시퀀스를 갖는다. 문장을 AAC 상징으로 변환하는 모델은 기존 연구의 Sequence to Sequence 모델과 어텐션(Attention) 매커니즘 기반 Sequence to Sequence 모델, 그리고 케라스 임베딩과 Word2Vec 임베딩에 GloVe와 FastText 임베딩을 사용하는 모델을 추가하였다. GloVe 임베딩은 일정 범위 내의 단어만 고려하여 예측하는 Word2Vec의 단점을 보완하여 전체 말뭉치에서 단어가 등장하는 횟수를 반영한다. FastText 임베딩은 단어를 더 작은 단어로 나누어 학습을 수행하기 때문에 학습하지 않은 어휘에 대해서도 예측할 가능성이 높다. 두 임베딩을 사용한 모델을 추가 실험하여 문장의 상징 시퀀스 예측 변환 성능을 비교하였다. 성능은 BLEU 점수를 사용하여 측정하였고, 사전 훈련된 FastText 임베딩을 활용한 어텐션 매커니즘 기반 Sequence to Sequence 모델이 가장 좋은 성능을 보였다.|People who have difficulty with communicating in spoken language use a communication tool, Augmentative and Alternative Communication(AAC). AAC services for those people have been developed in various forms such as mobile services and web services. Existing AAC services mainly used in face-to-face communication, but they are difficult to use in non-face-to-face communication like e-mail, messenger, or etc. As Internet usage increases significantly, the demand for non-face-to-face communication is also increasing significantly, and intervention for non-face-to-face communication between the non-disabled and the language impaired people has become urgent. People generally send and receive text dialogue in non-face-to-face communication situation, but people with language disability have difficulty understanding texts.
In this paper, we proposed deep learning models to translate text sentences into AAC symbol sequences to help the people with language disability in non-face-to-face communication situation with AAC symbols which they are familiar with. In order to convert text sentences into AAC symbols, we use Korean dialogue sentences from AI Hub open data, additional text sentences extracted from Korean fairy tail books and Korean AAC symbols. The Korean text sentences are possible to be transformed to a Korean AAC symbol sequences, we built a data set by reflecting the characteristics of the Korean AAC symbol images and considering the communication context. Since there may be several AAC symbols corresponding to one text vocabulary and AAC symbols may have multiple meanings, we tagged one or more symbol sequences to each text sentences in the data set.
Using the data set, we constructed eight translation models by combining two deep learning models (sequence to sequence and attention based sequence to sequence models) with four word embedding techniques (Keras, Word2Vec, GloVe and FastText). Word2Vec and Keras embedding was already used in a previous word to translate text sentences into AAC symbol sequences.
We conducted additional experiments using two embeddings: GloVe and FastText. By reflecting the numbers of times words appear in the whole data set, the GloVe embedding compensates for the shortcoming of Word2Vec, which predicts only words within a certain scope. The FastText embedding has higher possibility to predict untrained words, since it performs learning by dividing words into sub-words. We compared the performance of the previous work using Keras and Word2Vec embeddings with the models using GloVe and FastText embeddings. We used BLEU score to measure the model performance. Sequence to sequence with attention mechanism using pretrained FastText embedding showed the highest performance.
Author(s)
유세희
Issued Date
2023
Awarded Date
2023-02
Type
Dissertation
URI
https://repository.sungshin.ac.kr/handle/2025.oak/2849
http://dcollection.sungshin.ac.kr/common/orgView/000000014565
Alternative Author(s)
Ryu Se Hu
Affiliation
성신여자대학교 일반대학원
Department
일반대학원 미래융합기술공학과
Advisor
홍기형
Table Of Contents
논문개요

I. 서 론 1

II. 관련 연구 4
1. 보완대체의사소통과 상징 4
2. 딥러닝 기반 대화 문장의 보완대체의사소통 상징 시퀀스 변환 8
3. 단어 임베딩(Word Embedding) 10
1) Word2Vec(Word-to-Vector) 12
2) GloVe(Global Vectors for Word Representation) 13
3) FastText 14

III. 상징의 다중 의미를 반영한 상징 시퀀스 변환 15

IV. 딥러닝 기반 문장의 상징 시퀀스 변환 설계 17
1. 학습 데이터 구축 19
2. 데이터 전처리 24
3. 다중 의미를 반영한 딥러닝 기반 문장의 AAC 상징 시퀀스 변환 모델 26

V. 모델 실험 및 평가 30
1. 실험 설계 30
2. 실험 결과 31
3. 실험 평가 36
1) BLEU(Bilingual Evaluation Understudy) 36
2) 평가 결과 37

VI. 결론 및 향후 연구 40

참고문헌
ABSTRACT
Degree
Master
Publisher
성신여자대학교 일반대학원
Appears in Collections:
미래융합기술공학과 > 학위논문
공개 및 라이선스
  • 공개 구분공개
  • 엠바고2023-02-16
파일 목록

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.