음성인식 기술의 개요와 최근 동향

Download Report

Transcript 음성인식 기술의 개요와 최근 동향

음성인식 기술의 개요와 최근 동향
994766
정두원
<목
차>
제1장 서론
제 2 장 음성인식 기술의 개요
1. 음성인식 시스템의 종류
가. 화자독립 시스템 / 화자종속 시스템
나. 고립어인식 시스템 / 연속어 인식 시스템
다. 소용량 시스템 / 대용량 시스템
2. 음성특징 추출
가. LPC(Linear Predictive Coding)
나. MFCC(Mel Frequency Cepstral Coefficients)
다. 고역강조(Pre-emphasis)
라. 창 함수(Windowing)
<목
차>
3. 음성인식 방법
가. VQ(Vector Quantization)
나. HMM(Hidden Markov Model)
다. DTW(Dynamic Time Warping)
4. 음성인식 기술의 발전과정
제 3장 결론
1. 각 국가별 음성인식 기술의 추진 동향
가. 국외 기술 동향
나. 국내 기술 동향
2. 음성인식 기술이 최근 주목 받는 이유
3. 음성인식기술의 최신 동향과 전망
참고문헌
제1장서론
 음성인식 기술은 사람이 기계를 사용하는데 있
어 편의성을 높이기 위해 그 필요성이 증대
 기존의 사람과 기계간의 인터페이스는 사람이
원하는 바를 기계가 인식할 수 있는 형태로 전환
하여 줌으로, 사용에 불편함이 따르고 기계에 대
한 거부감이 생기는 문제 발생
 사람의 의도를 기계가 인식하여 원하는 대로 구
동하는 새로운 인터페이스가 주목받기 시작
제1장서론
 음성은 가장 자연스러운 정보 전달 수단이며 전
달에 있어 고가 장비가 불필요한 장점 때문에 사
용자 편의성 개선의 돌파구
 음성인식기술은 산업 전반에 걸친 Konwledge와
Technology의 결합을 요하는 첨단 기술
 음성인식과 관련된 응용 분야로는 음성 다이얼,
무선 단말기의 음성명령이 우선 고려
제1장서론
 정보 통신의 발달, 개인 휴대 단말기의 보급화로
인한 버튼 조작의 불편함을 해소하기 위해 음성
인터페이스의 요구 확대
 음성인식 기술은 1970년대부터 시작했지만 알고
리즘의 복잡도로 인해 발전못함
 20세기 후반 고속의 컴퓨터 개발, 디지털신호처
리 기술의 향상, 대용량 메모리의 가격하락에 힘
입어 비약적인 발전
제1장서론
 기술을 확보한다면 매우 다양하고 유망한 새로
운 사업분야로 개척할 수 있는 능력을 갖추게 될
것임
 음성인식은 향후 많은 분야에서 활용되어 관련
시장이 급속도로 팽창할 것으로 전망
제1장서론
음성인식 처리 순서
제1장서론
음성 인식 과정도
제 2 장 음성인식 기술의 개요
1. 음성인식 시스템의 종류
가. 화자독립시스템과 화자종속시스템
- 인식의 대상으로 삼는 화자에 따라 화자독
립과 화자종속 인식기술로 분류
- 화자종속 음성인식은 화자독립 음성인식에
비해 인식률이 높아 실용화 하기에 유리
- 대체적으로 화자종속 시스템의 성능이 화자독립의
시스템 보다 높게 나옴
- 최근 화자독립 시스템을 구축하고 사용할 때 사용자
음성에 적합하도록 인식 모델을 변형하는 기법들이
개발(화자적응 기술), 이 시스템을 화자적응 시스템
제 2 장 음성인식 기술의 개요
1) 화자종속 시스템
- 특정 화자의 음성을 인식하기 위한 시스템
- 현재 휴대폰에 탑재되어 사용되는 Voice dialing
시스템이 대표적
- pattern matching기법 사용
※ pattern matching기법:사용자 음성을 저장, 등록,
실제 인식을 수행할 때는 입력된 음성의 패턴과
저장된 음성의 패턴을 비교 하는 기법
ex) 스프린트가 서비스하는 보이스 폰카드
(전화걸 때 사람이름만 이야기하면, 그 사람의 전화
번호를 찾아 자동으로 전화를 걸어주는 것 )
제 2 장 음성인식 기술의 개요
2) 화자독립 시스템
- 불특정 다수 화자의 음성을 인식하기 위한 시스템
- 시스템 동작전 음성 등록의 번거로움이 없음
- 다수화자의 음성을 수집하여 통계적인 모델을 학습
시키고, 학습된 모델을 이용하여 인식을 수행
- 각 화자의 특징적인 특성은 사라지고 각 화자간에
공통적으로 나타나는 특성이 부각
ex) AT&T가 수신자 부담 전화를 응용한 것으로 수신자
부담 전화를 수신자가 수신할 것인지 여부의 대답
인식하는 기능
제 2 장 음성인식 기술의 개요
1. 음성인식 시스템의 종류
나. 고립어인식 시스템과 연속어 인식 시스템
- 발음의 형태에 따라 고립어 인식 시스템과 연속어
인식 시스템으로 분류
제 2 장 음성인식 기술의 개요
1) 고립어 인식 시스템
- 짧은 음성명령이나 간단한 음성제어 등에 주로 사용
- 숫자음을 인식하여 음성버튼으로 사용하는 경우
「1」이라는 다이얼 버튼을 누르는 대신 「일」이라
말함
- 각 단어가 또박또박 발음되고 각 단어 사이에 충분한
길이의 묵음구간이 존재한다고 가정 되야함
- 인식 초점이 각 단어가 다른 단어와 얼마나 다른가에
있고 인접한 단어의 영향은 무시
- 인식률 높고 구현하기 간단해 널리 이용되고 있으나
사용자 이용하기가 불편
ex) 현 휴대폰에서 사용되는 voice dialing
제 2 장 음성인식 기술의 개요
2) 연속어 인식 시스템
- 문장 단위로 인식을 수행하는 시스템
- 문장을 인식하기 때문에 사용자가 단어 단위로 끊어
발음하지 않아도 됨
- 문장은 평상시와 같이 발음되며, 특별히 단어 사이의
묵음은 첨가되지 않음
- 연속어 경우, 한 단어 특성이 인접한 단어의 발음에
의하여 영향을 받는데, 이를 조음효과(Coarticulation
Effect)라 한다
- 조음효과는 연속어인식을 어렵게 한다
제 2 장 음성인식 기술의 개요
1. 음성인식 시스템의 종류
다. 소용량 시스템과 대용량 시스템
- 어휘수에 따라 소용량 시스템과 대용량 시스템으로
분류
제 2 장 음성인식 기술의 개요
2. 음성 특징 추출방법
가. LPC(Linear Predictive Coding) 추출
- 과거의 일정 개수의 샘플값들에 계수를 각각 곱하고
이를 총 합한 값으로 현재의 샘플값을 예측하려는
시도에서 출발
- 계수는 선형예측계수(LPC)라 하고 전달함수 입장에
보았을 때 전극(All-pole)모델을 이룸
- LPC를 추출하는 과정으로는 구간내 자기상관계수를
구하고 이를 재귀적인 방법을 통해서 빠르게 계산
- LPC계수를 기반으로 하여 음성인식에 효과적인 켑스
트럼 계수로 변환하여 사용
제 2 장 음성인식 기술의 개요
2. 음성 특징 추출방법
나. MFCC(Mel Frequency Cepstral Coefficients) 추출
- 사람의 귀가 주파수 변화에 반응하게 되는 양상이
선형적이지 않고 로그스케일과 비슷한 멜스케일을
따르는 청각적 특성 반영한 켑스트럼 계수 추출 방법
- 멜 스케일에 따르면 낮은 주파수에서 작은 변화에
민감히 반응하지만, 높은 주파수로 갈수록 민감도가
작아지므로 특징 추출시에 주파수 분석 빈도를 이와
같은 특성에 맞추는 방식
제 2 장 음성인식 기술의 개요
2. 음성 특징 추출방법
다. 고역강조(Pre-emphasis)
- 성문신호 영향을 최소화하여 음성과 잡음의 구분을
뚜렷하게 하기 위해 고주파 성분을 강조
- 하나의 차수를 갖는 전달 함수로 표현되며 시간상에
1차의 미분 형태로 구현
제 2 장 음성인식 기술의 개요
2. 음성 특징 추출방법
라. 창 함수(Windowing)
- 특징 추출 과정은 음성신호를 짧은 길이의 구간으로
나누어 분석하는 것이 일반적
- 구간으로 나누는 과정에서 구간사이의 신호의 연속
성이 반영되지 못하여 주파수 왜곡현상이 발생
- 구간 앞뒤에서의 신호의 단절로 인한 왜곡현상을
최소화하기 위해서 구간 앞뒤를 감쇠시킨 형태의
창 함수 값을 신호 성분에 곱하여 분석
제 2 장 음성인식 기술의 개요
3. 음성 인식 방법
가. VQ(Vector Quantization)
- 연속 혹은 떨어진 벡터들을 코드 북과 mapping시켜
통신하기에 적절한 digital sequence로 부호화하는
방법
- VQ의 목적은 데이터 감축으로 데이터의 충실도를
잃지 않으면서 비트율의 감소
- 스칼라 대신 벡터 코딩 방식을 사용하는 것은 데이터
감축에 있어 스칼라 대신 벡터로 조합된 신호를 코딩
하는 것이 적은 데이터 율로서 좋은 성능을 얻을 수
있기 때문
제 2 장 음성인식 기술의 개요
3. 음성 인식 방법
나. HMM (통계적 패턴 인식을 이용)
- 음성단위에 해당하는 패턴들에서 통계적인 정보를
확률모델 형태로 저장하고 미지의 입력패턴이 들어
오면 각각의 모델에서 이 패턴이 나올 수 있는 확률
계산
- 음성신호를 상태천이확률과 각 상태에서의 관찰확률
이라는 두 단계에 걸친 확률과정으로 표현
- 현재 음성인식을 위한 패턴인식 방법으로 가장 널리
사용
- 통계적 언어모델 사용될 경우 HMM방법은 음성처리
및 언어처리를 단일구조로 처리할 수 있다는 장점
제 2 장 음성인식 기술의 개요
3. 음성 인식 방법
다. DTW (템플릿 기반의 패턴 매칭 방법을 이용)
- DTW을 이용한 음성인식 시스템은 화자종속 고립어
인식시스템 구성에 주로 이용
- 인식률이 높다
- 단어 수가 증가하면 계산량이 상당히 늘어난다
제 2 장 음성인식 기술의 개요
4. 음성인식기술의 발전과정
가. 국외 발전과정
1) 1970년대
- 미국방성 주도 ARPA프로젝트 일환으로 연속음성
인식에 대한 본격적인 연구 시작
- 음성합성 시스템 개발 및 최초 상품화
2) 1980년대
- 미국 DEC사 음성 합성기 DECtalk를 비롯 다양한
음성합성 시스템을 상품화
- 공동이용 목적의 대형 음성 DB 구축을 시작
- 통계적 모델링 방법에 의한 음성인식 방식을 정착
- 고립단어인식 기술에 의한 Dictation 프로그램을
상품화
제 2 장 음성인식 기술의 개요
4. 음성인식기술의 발전과정
가. 국외 발전과정
1) 1990년대
- LDC, ELRA등 공통 DB보급기관 설립 전화교환 등
전화망을 통한 서비스를 시작
- 대용량 DB기반의 음성합성방식을 개발
- 연속음성인식기술에 의한 Dictation 프로그램을
상품화
- 다수의 음성인식 및 음성합성 칩을 개발
2) 2000년대
- Voice portal 서비스가 본격화
- 가전, 자동차, 컴퓨터, 정보단말 등의 분야에서
음성기술의 응용분야가 급속히 확산되는 추세
제 2 장 음성인식 기술의 개요
4. 음성인식기술의 발전과정
나. 국내 발전과정
1) 1980년대 ~ 1990년대 초
- 음성인식이 운영체제와 함께 출현
- 대학, 출연연구소 등에서 음성기초연구가 시작
- 'TTS'기능이 탑재된 PC광고를 대대적으로 하면서
컴퓨터와 음성인식기술이 하나로 합쳐진 다양한
실험들이 출현
2) 1990년대 중반
- 음성에 의한 증권조회 서비스와 음성통역 기초
연구가 시작
- 음성 전문기업이 등장
제 2 장 음성인식 기술의 개요
4. 음성인식기술의 발전과정
나. 국내 발전과정
1) 2000년대 초반
- 음성기술전문 및 응용기업 급증
- 정부의 관심이 집중되었으며 협회, 협의회, 지원
센터 등이 설립
- 타산업분야로 응용이 대폭 확대될 것으로 예상
2) 2000년대 중반
- 음성이 man-machine interface 주력 수단 역할
- 전 산업분야에 음성정보기술이 응용 확산
제3장결론
1. 각 국가별 음성인식 기술의 추진 동향
가. 국외기술 동향
1) 미국
- 국방부-산하 DARPA(Defense Advanced
Research project Agency)의 장기적인 지원하에
국가적인 규모의 연구개발을 체계적으로 진행
- 1992년 대학, 기업, 정보연구기관과 컨소시엄
형태로 LDC(Linguistic Data Consortium)를 구성
- 음성 및 텍스트에 관한 코퍼스 및 데이터의 수집
및 배포
제3장결론
1. 각 국가별 음성인식 기술의 추진 동향
가. 국외기술 동향
2) 유럽
- 1983년부터 ESPRIT프로젝트를 중심으로 하여 현
재까지 약 40여개의 프로젝트를 수행
- 최근 대화체 음성인식과 사회적 요구에 중심을 둔
새로운 프로젝트들이 진행중
- 텍스트와 텍스트-음성 변환 시스템, 대화 시스템
등 광범위한 연구가 진행
- EU의 지원하 유럽각국의 국가연구소, 대학, 기업
들이 컨소시엄 형태로 장기개발 계획 추진중
- 1995년에 ELRA(European Language Resources
Association)를 설립 음성언어자원을 개발 보급
제3장결론
1. 각 국가별 음성인식 기술의 추진 동향
가. 국외기술 동향
3) 일본
- 1986년이래 15년간의 장기 계획으로 자동통역
전화개방을 추진
- 1987년에는 국가 주도에 의한 인간과 기계와의
구어체 대화를 목표로 하는 “Advanced ManMachine Interface Through spoken Language"
계획이 시작
- 통산성, 우정성 등의 지원하에 산학연 컨소시엄
형태의 지속적인 연구개발 추진
- 미국 및 유럽과 같은 컨소시엄 없으나 최근 언어
데이터 공유계획 준비중
제3장결론
1. 각 국가별 음성인식 기술의 추진 동향
가. 국외기술 동향
4) 세계시장규모
- 가전, 게임, 정보통신 등의 기존 시스템 분야에
음성인식 및 합성기술이 추가되면서 고속 성장
(단위:억불)
구분
1999년
2003년
2005년
연평균증가율
음성기술산업
24
384
900
82.9
디지털가전
165
1,099
1,243
38.8
반도체
1,554
2,125
3,000
11.5
세계 시장 규모
제3장결론
1. 각 국가별 음성인식 기술의 추진 동향
나. 국내시장 기술 동향
1) 1980년도에 본격적인 음성인식에 관한 연구
2) 한국전자 통신 연구소의 자동통역시스템, 한국통신
증권정보안내시스템, 삼성전자의 음성구동 퍼스널
컴퓨터, 음성구동 셀룰러폰(삼성/LG), 음성메모장치
(공성통신)등이 개발됨
3) 음성에 의한 로봇제어에 관한 연구와 음성에 의한
자동항법 장치 등에 관한 연구도 활발히 진행
제3장결론
1. 각 국가별 음성인식 기술의 추진 동향
나. 국내시장 기술 동향
4) 1999년부터 응용개발상품 출시, 시장 형성기 진입
5) 2000년도부터 전화망에서의 시장형성, 산업으로
태동
6) 현재 음성기술산업의 비중은 타 산업 대비 저조하나
최근의 기술개발과 산업화 추세로 향후 급격히 커질
것으로 전망
제3장결론
1. 각 국가별 음성인식 기술의 추진 동향
나. 국내시장 기술 동향
7) 국내시장은 2000년 1억불 규모로 연평균 75%이상
성장할 것으로 전망
(단위:백만불)
연도
1999년
2000년
2001년
2002년
2003년
시장규모
60
107
248
389
573
국내 시장 규모
제3장결론
1. 각 국가별 음성인식 기술의 추진 동향
나. 국내시장 기술 동향
8) 시장환경 호조 및 벤처기업 열풍 등으로 90년대
말부터 100여개 업체가 창업
9) 5% 업체만이 원천기술을 보유하고 있으며 대부분
내수중심이나 일부 선도기업은 중국, 미국 등 해외
진출중
10) 음성인식 칩과 음성 인터넷 브라우저 개발, 일부
업체에서 Voice Portal 서비스 개시
제3장결론
2. 음성인식 기술이 최근 주목 받는 이유
가. 이유
1) 음성인식 기술이 상용화 단계로 올라서고, 인터넷과
결합되어 다양한 시너지 효과 창출이 기대
2) 휴대용 디바이스에 음성인식 기술이 접목되면 음성
으로 인터넷 정보 이용, 전자상거래 이용, 자유로운
이동뿐만 아니라 음성 주파수를 인식하기 때문에
보안성도 좋음
3) 인터넷을 말로써 제어함으로써 차량 이동 중이나
기타 행동의 제약을 줄여줌
제3장결론
2. 음성인식 기술이 최근 주목 받는 이유
가. 이유
4) 음성 컨텐트를 공급, 소비함으로써 유저의 다양한
필요를 충족
5) 대부분 포탈이 보이스 채팅, 음성메일, 음성 팩스,
음성개인 정보관리, 날씨와 증권정보등을 음성으로
서비스
제3장결론
3. 음성인식기술의 최신동향과 전망
- 미국에서 가장 오래된 과학기술저널인 ‘MIT 테크놀로지
리뷰지’가 21세기 과학과 기술은 선도하게 될 젋은 지성
100인을 선정하여 이들에게 과학과 기술의 발전전망에
대해 물어본 결과 “향후 10년간 음성인식 기술의 발달이
소프트웨어 분야의 가장 두드러진 특징이 될 것” 이라고
전망했다. 』
- 최근 음성인식기술은 미국 중심으로 구체적 응용분야가
개척되어오고 있고 멀티모드/멀티미디어 환경속에서의
다른 미디어와 통합에 관한 연구가 진행
제3장결론
3. 음성인식기술의 최신동향과 전망
- 다른 미디어와 통합에 관한 연구가 진행
※ 정보기기의 입출력 인터페이스, 자동차 네비게이션
시스템, 시각 장애자를 위한 서비스 시스템, 대화형
자판기, 대화형 Robot등
- 국내적으로 하루 빨리 대규모 한국어 음성데이터베이스
구축으로 많은 음성연구자들이 공동으로 이용 서로의
연구결과를 평가하고, 그 결과를 공유할 수 있는 기반이
조성되어야 할 것으로 생각
참고문헌
가. 음성인식개요
- http://kin.naver.com/browse/db_detail.php?d1id=11&dir_id=
110209&docid=325447&ts=1062477935
나. 음성인식(실시간통역기의 실용화의 시기)
- http://kin.naver.com/open100/entry.php?docid=104210
다. 음성인식 기업 코원
- http://www.cowon.com/cowon/3_3.html
라. “음성인식기술”
- 박원배 지음, 아이런닷컴[출판]
마. “음성인식”
- 이건상 지음, 한양대학교출판부[출판]
I love you so much
감사합니다^^