OAK

단순 특징 값과 촬영 각도에 따른 한국어 모음의 오디오 비주얼 인식에 관한 연구

Metadata Downloads
Alternative Title
(A) Study on Audio-Visual Korean Vowel Recognition based on Simple Lip Features for Different Camera Angles
Abstract
음성 인식은 잡음 환경에 매우 취약하며, 유사 발음의 단어에 대해서는 그 인식 신뢰도가 매우 저하된다. 음성 인식 결과와 발화시 입술의 움직임 정보를 이용한 입술 영상 인식 결과를 결합하여 음성 인식의 신뢰도를 높이기 위한 오디오-비주얼 인식이 시도 되고 있다. 본 논문에서는 다양한 각도의 영상으로부터 추출한 제한된 입술 특징 값을 사용한 오디오-비주얼 한국어 모음 인식 실험을 수행하여 촬영 각도에 따른 입술 특징 및 인식의 차이를 비교하였다. 각 모음 음성에 대해 발화자의 입술이 다문 상태와 비교하여 최대로 변할 때의 정지 영상으로부터 입술 특징을 추출 하였으며, 본 논문에서 추출한 입술 특징 값은 간단하며 효과적인 비용으로 얻어 질 수 있다. 이는 PDA나 스마트 폰과 같은 제한된 컴퓨팅 파워를 가지는 장치에서 매우 유용하다. 한국어 모음 음성 인식 오류를 입술 영상 인식 결과와 결합하기 위한 N-best rescoring 방법을 제시하고, 다양한 각도의 영상으로 추출한 입술 특징을 사용한 음성-입술정보의 결합 실험을 수행하여, 촬영 각도에 따른 입술 특징 및 인식의 차이를 비교하였다. 실험은 오디오 데이터 200개와 영상 데이터 1200개를 사용하여 HTK3.2[9]와 SNNS4.2[10]를 통해 이루어졌다. 실험 결과는 제안된 방법이 15° 이내의 각도 변화에서 오디오-비주얼 음성 인식에 효과적임을 보여준다.|In this paper, we describe audio-visual Korean vowel recognition experiments by using a limited set of lip features. We propose the lip features extracted from a snapshot image, for each vowel speech, when the speaker's mouth reaches maximum variation compared with its closing state. The proposed lip features can be obtained in a simple and cost effective way. It is very useful for the devices having limited computing power such as PDA or smart phone. We also develop an N-best rescoring method to correct Korean vowel speech recognition errors by using visual lip recognition results as the supplementary information. Finally, we perform experiments by using the extracted lip features from various different video-taking angles. For the experiments, we construct an audio-visual database from 10 subjects(speakers). Using the database, we evaluate the developed rescoring method. In the experiments, we use HTK3.2 for speech recognition and SNNS4.2 for lip-reading based on the proposed lip features. The experimental results show that the developed rescoring method are very effective on audio-visual Korean vowel speech recognition.
Author(s)
서재영.
Issued Date
2004
Type
Dissertation
URI
https://repository.sungshin.ac.kr/handle/2025.oak/2856
http://210.125.93.15/jsp/common/DcLoOrgPer.jsp?sItemId=000000001584
Affiliation
성신여자대학교 대학원
Department
전산학과
Table Of Contents
논문개요 = Ⅰ
목차 = ⅰ
Ⅰ. 서론 = 1
Ⅱ. 관련연구 = 3
1. 오디오-비주얼 음성 인식 = 3
2. 연구사례분석 = 4
Ⅲ. 데이터베이스 수집 = 13
1. 수집 환경 및 시스템 구성 = 13
2. 데이터 가공 = 16
Ⅳ. 실험 시스템 구성 = 20
Ⅴ. 음성인식 실험 = 22
Ⅵ. 립리딩 실험 = 25
1. 특징 추출 = 25
2. 정규화 및 인식 = 28
3. 각도 별 립리딩 인식률 비교 분석 = 32
Ⅶ. 음성 기반의 립리딩 통합 = 33
1. LLR을 이용한 rescoring = 33
2. 각도에 따른 음성과의 통합 비교 분석 = 36
Ⅷ. 결론 및 향후 연구 과제 = 38
1. 결론 = 38
2. 향후 연구 과제 = 39
참고문헌 및 사이트 = 40
ABSTRACT = 43
Degree
Master
Publisher
성신여자대학교 대학원
Appears in Collections:
전산학과 > 학위논문
공개 및 라이선스
  • 공개 구분공개
  • 엠바고2005-11-01
파일 목록

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.