Visual Encoder를 적용한 딥러닝 기반 보완대체의사소통 그림 상징 시퀀스의 한국어 문장 생성
- Alternative Title
- Deep Learning-Based Korean Sentence Generation from Augmentative and Alternative Communication Pictorial Symbol Sequences Using Visual Encoders
- Abstract
- 보완대체의사소통(Augmentative and Alternative Communication, AAC)은 언어를 표현하고 이해하는 데 결함이 있는 장애인을 위한 의사소통 보조 도구이며, 대표적으로는 AAC 그림 상징 체계가 있다. 언어 장애인은 1개 이상의 AAC 그림 상징을 선택하여 메시지를 구성할 수 있으며, 이를 AAC 그림 상징 시퀀스라고 한다.
다양한 모바일 어플리케이션을 통해 AAC를 활용한 의사소통을 지원하고 있으나 자연스러운 발화와 전달의 측면에서 언어 장애인과 비장애인이 원활히 의사소통하는 데는 여전히 한계가 있다. 일상 대화, 회의, 주문, 결제, 진료 등 다양한 서비스가 온라인으로 전환됨에 따라 비대면 의사소통의 어려움 또한 증가하였다. 이러한 언어 장애인과 비장애인의 의사소통 문제를 보조하기 위해 AAC 그림 상징 시퀀스와 한국어 문장 간 변환 기능이 요구되며, 관련 연구가 활발히 이어지고 있다. 그러나 연구의 대부분이 AAC 그림 상징의 어휘와 식별자 정보를 기반으로 하며 AAC 그림 상징의 이미지 정보를 활용하지 않는다.
본 논문은 AAC 그림 상징 시퀀스의 이미지를 기반으로 한국어 문장을 생성하는 모델을 제안한다. 상징 시퀀스 이미지 데이터셋 구축을 위해 기존 연구의 상징 시퀀스-한국어 문장 데이터셋을 활용하였다. AAC 상징 시퀀스의 이미지들을 하나의 이미지로 병합하여 상징 시퀀스 이미지-한국어 문장의 최종 데이터셋을 구축하였다. 이미지에서 하나의 상징이 차지하는 영역의 크기를 고려하여, AAC 상징 시퀀스의 최대 길이가 4인 경우와 6인 경우로 분류하고 각각 2×2, 3×2의 그리드 형태로 결합한다. 이미지 특징 추출을 위한 Visual Encoder로는 사전 학습된 합성곱 신경망인 ResNet-101, Inception-v3, EfficientNet-B3 모델을 활용하였다. 추출한 이미지 특징에 기반해 한국어 문장을 생성하는 Text Decoder로는 순환 신경망인 LSTM(Long Short-Term Memory)과 GRU(Gated Recurrent Unit)를 선정하였으며, 문장의 각 단어를 생성하는 시점에 중요한 이미지 영역에 가중치를 둘 수 있도록 Attention Mechanism을 적용하였다. Visual Encoder 3가지, Text Decoder 2가지의 조합으로 총 6가지 모델을 실험하였다. 성능 평가 지표로는 기계 번역과 참조 번역의 유사성을 측정하는 BLEU(Bilingual Evaluation Understudy)를 사용하였다. Visual Encoder로는 ResNet-101을 사용했을 때 우수한 성능을 보였으며, Text Decoder로는 GRU 구조보다 LSTM 구조의 모델을 사용했을 때 전반적으로 더 우수한 성능을 보였다. ResNet-101과 EfficientNet-B3를 Visual Encoder로 사용하고 LSTM을 Text Decoder로 사용한 모델에서는 2×2와 3×2의 병합 이미지에 대해 유사한 성능을 보임을 확인하였다. 6개 모델의 예측 결과에 대한 BLEU 점수는 모두 60 ~ 80점대에 분포하여 고품질의 번역 성능을 보였다.
- Author(s)
- 이지원
- Issued Date
- 2025
- Awarded Date
- 2025-02
- Type
- Dissertation
- URI
- https://repository.sungshin.ac.kr/handle/2025.oak/1936
http://dcollection.sungshin.ac.kr/common/orgView/000000015347
- Affiliation
- 성신여자대학교 일반대학원
- Department
- 일반대학원 미래융합기술공학과
- Advisor
- 홍기형
- Table Of Contents
- Ⅰ. 서론 1
Ⅱ. 관련 연구 및 이론적 배경 4
1. 보완대체의사소통 그림 상징 4
2. 딥러닝 기반 보완대체의사소통 그림 상징 시퀀스의 한국어 문장 생성 10
3. 이미지 캡셔닝 14
Ⅲ. Visual Encoder를 적용한 딥러닝 기반 AAC 그림 상징 시퀀스의 한국어 문장 생성 16
1. 데이터셋 17
2. 이미지 임베딩 추출을 위한 Visual Encoder 23
1) ResNet(Residual Network) 23
2) Inception(GoogLeNet) 25
3) EfficientNet 26
3. AAC 그림 상징 시퀀스의 한국어 문장 생성 모델 설계 28
Ⅳ. 모델 실험 및 평가 30
1. 실험 환경 30
2. 모델 실험 31
1) 학습 데이터 31
2) 모델 학습 32
3. 모델 평가 34
1) 문장 예측 결과 34
2) BLEU 평가 결과 37
Ⅴ. 결론 및 향후 연구 41
- Degree
- Master
- Publisher
- 성신여자대학교 일반대학원
-
Appears in Collections:
- 미래융합기술공학과 > 학위논문
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.