OAK

동적 최적화 기반 한국어-영어 장면 텍스트 스타일 전이 시스템

Metadata Downloads
Alternative Title
Korean-English Scene Text Style Transfer System based on Dynamic Optimization
Abstract
본 연구는 외형 차이가 큰 한국어-영어 간 장면 텍스트 스타일 전이 시스템을 제안한다. 본 시스템은 StyleGAN 기반의 단일 언어 간 텍스트 스타일 전이 모델인 TSB(Text Style Brush)를 이중 언어 간 텍스트 스타일 전이 모델로 확장한다. 첫 번째 단계에서는 영어-영어 텍스트 스타일 전이 학습을 진행하고, 두 번째 단계에서는 한국어-영어 텍스트 스타일 전이 학습을 수행하는 2단계 학습 과정을 통해, 스타일 전이 결과에 대한 정답 이미지 없이 이중 언어 간 스타일 전이를 가능하게 한다. 텍스트 인식 분야에서 최고 성능을 달성한 TRBA 모델 구조를 기반으로 한국어 인식기를 학습하여 텍스트 스타일 전이 학습 시 생성된 이미지의 글자를 인식해 올바르게 생성되었는지 평가하는 데 사용한다. VGG16 기반의 구조를 사용하여 한국어 및 영어 글꼴 분류기를 학습하고 이를 통해 텍스트 스타일 전이 학습 시 입력 이미지와 생성된 이미지가 동일한 글꼴을 표현하는지 평가한다. 기존 최적화 방법론인 GL-GAN에 동적 임곗값 설정 방법을 도입한 동적 최적화를 수행함으로써 텍스트 스타일 전이 학습 시 한국어와 영어의 외형 차이로 인해 발생하는 아티팩트를 제거하고 품질을 향상시킨다. 기존 텍스트 스타일 전이 및 최적화 연구와의 성능 비교와 자체적인 절제 연구를 통해 제안하는 시스템의 성능을 입증한다.|This study proposes a scene text style transfer system for Korean-English pairs, where the languages have significant visual differences. The system extends the single-language text style transfer model, TSB (Text Style Brush) based on StyleGAN, to a bilingual text style transfer model. In the first phase, we conduct English-to-English text style transfer training, and in the second phase, we perform Korean-to-English text style transfer training. This two-step training process enables bilingual style transfer without the need for ground truth images. We utilize a Korean text recognizer, trained based on the TRBA model architecture, which has achieved state-of-the-art performance in the text recognition field, to evaluate whether the generated images during text style transfer correctly render the text. A font classifier for both Korean and English, trained using the VGG16 architecture, is employed to assess whether the generated images preserve the font style of the input images during the text style transfer process. Dynamic optimization is conducted by introducing a dynamic threshold setting method to the existing GL-GAN optimization framework. This dynamic optimization helps to eliminate artifacts arising from the visual differences between Korean and English during the text style transfer and improves the overall quality. The performance of the proposed system is validated through comparisons with existing text style transfer and optimization studies, as well as through our own ablation studies.
Author(s)
김예림
Issued Date
2024
Awarded Date
2024-08
Type
Dissertation
URI
https://repository.sungshin.ac.kr/handle/2025.oak/3039
http://dcollection.sungshin.ac.kr/common/orgView/000000015180
Alternative Author(s)
KIMYERIM
Affiliation
성신여자대학교 일반대학원
Department
일반대학원 미래융합기술공학과
Advisor
변혜원
Table Of Contents
Ⅰ. 서론 1
Ⅱ. 관련 연구 6
1. 스타일 전이 6
2. 텍스트 스타일 전이 7
3. TSB(Text Style Brush) 9
Ⅲ. 한국어-영어 장면 텍스트 스타일 전이 시스템 12
1. 시스템 구조 12
2. 2단계 학습 14
1) 영어-영어 텍스트 스타일 전이 학습 15
2) 한국어-영어 텍스트 스타일 전이 학습 16
3. 이중 언어 인식기 17
4. 이중 언어 글꼴 분류기 18
5. 동적인 전역적 및 지역적 이중 수준 최적화 19
Ⅳ. 손실 함수 25
1. 영어-영어 텍스트 스타일 전이 학습 손실 함수 25
2. 한국어-영어 텍스트 스타일 전이 학습 손실 함수 27
1) 이중 언어 스타일 손실 28
2) 이중 언어 글꼴 손실 29
3) 이중 언어 콘텐츠 손실 30
Ⅴ. 실험 및 결과 31
1. 데이터 세트 31
2. 실험 세부 사항 33
3. 평가 지표 34
4. 모델 비교 37
1) 텍스트 스타일 전이 모델 비교 37
2) TSB 비교 39
3) 데이터 세트 생성 모델 비교 40
4) 최적화 모델 비교 44
5) GL-GAN 비교 46
5. 절제 연구 49
1) 손실 함수 절제 연구 49
2) 최적화 절제 연구 50
3) 네트워크 절제 연구 53
6. 실패 사례 54
Ⅵ. 보충 자료 55
1. 네트워크 세부 사항 55
2. 데이터 세트 세부 사항 59
1) 합성 데이터 세트 59
2) BCTR 데이터 세트 61
3) ICDAR2019-MLT 데이터 세트 62
3. 장면 텍스트 스타일 전이 결과 62
Ⅶ. 결론 및 향후 연구 67
Degree
Master
Publisher
성신여자대학교 일반대학원
Appears in Collections:
미래융합기술공학과 > 학위논문
공개 및 라이선스
  • 공개 구분공개
  • 엠바고2024-08-27
파일 목록

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.