사 업 계 획 서

Download Report

Transcript 사 업 계 획 서

음성기술
1. 음성기술의 개요
(주)보이스피아가 보유하고 있는 음성인식 및 합성 관련기술은 크게 ①연속음성인식기술
②음성합성기술 ③화자인식기술 ④잡음처리기술로 나눌 수 있다.
KAIST 전산학과 음성인터페이스연구실에서 연구개발한 최고 수준의 원천기술을 바탕으로
창업한 당사는 보유기술의 실용화/상용화를 활발히 추진함은 물론 음성원천기술의 이전 및
훈련사업도 병행함으로써 음성 관련 기술의 산업화에 기여하고 나아가 국가 경쟁력 향상에
이바지하고자 노력하고 있다.
이하, 음성 관련기술의 중요성을 설명하고 각 기술에 대한 설명, 당사의 보유기술현황 및
추후 연구개발 예정기술에 대해서 설명한다.
2. 음성기술의 중요성
음성은 인간이 사용하는 가장 기본적인 의사 소통을 위한 수단이며, 편리함과 경제성의
측면에서 다른 방법에 비해 우수한 특성을 가진다. 인간이 행하는 음성처리는 크게 음성
생성과 음성인지의 두 가지 측면으로 나누어 볼 수 있다.
1
음성기술
음성생성이란 발화자가 청자에게 발화자가 의도한 바를 전달하기 위한 일련의 과정을
말하며, 음성인지란 상대 발화자에 의해서 발성된 음성으로부터 발화내용을 인식하는
과정을 말한다. 이러한 음성처리의 두 가지 측면에 관련된 기술들이 각각 독립적으로 음
성처리기술로서 연구되어왔다.
음성처리기술은 단순한 지식으로 이루어지지 않고 언어학, 음성학, 음운학, 생리학,
해부학 등 다양한 학문적인 배경에서 개발되고 발전된다. 따라서 음성처리 전반에 걸친
성숙된 기술은 오랜 기간의 이론적인 연구와 실용적인 구현의 반복으로 발전되어온 것
이라고 할 수 있다.
최근 음성처리기술은 개선된 기반기술에 힘입어 발전을 거듭하고 있다. 그러나 현재의
음성처리기술은 완벽하게 인간의 음성처리 능력을 모사할 수 있는 수준이 아니다.
그 근본적인 이유는 인간의 인지능력에 대한 과학적인 규명이 아직 이루어지지 않았기
때문이며 위에서 언급한 바와 같이 음성처리기술이 다양한 배경 지식을 요구하기 때문
에 쉽게 개발과 구현이 이루어지지 못하기 때문이다. 그러나 급격한 컴퓨터 처리기술의
발전과 이에 맥락을 같이하는 무선통신과 인터넷의 발전으로 사용자에 편리한 음성으로
구현되는 궁극적인 Man-Machine 인터페이스와 음성을 이용한 다양한 통신서비스와
같은 음성처리기술에 대한 요구는 지속적으로 늘어나고 있다.
2
음성기술
최근 기술 선진국에서는 국가 차원의 음성연구 지원이 이루어지고 있다. 미국의 경우 10
여년 전부터 미국방성연구기관의 지원으로 여러 기관들이 함께 연구결과를 서로 평가하는
공동 연구 체계를 지니고 있으며, 일본의 경우에도 정부기관의 지원을 받아 유력 신문사와
대형 방송국, 민간 연구기관, 기업체, 대학이 함께 하는 공동 음성연구 체제를 갖추고 있고
유럽의 경우에는 여러 나라간의 음성 공동연구 체제를 설립해두고 있다.
최근의 음성처리기술은 보다 많은 데이터와 보다 많은 지식 정보를 사용하였을 때 좋은
결과를 보여주는 특징이 있기 때문에 위와 같은 대단위의 집약적인 투자와 대형 공동 연구
체제는 반드시 필요하다고 할 수 있다.
(주)보이스피아가 보유하고 있는 음성처리기술은 음성처리의 전반적인 분야를 다루고
있으며 오랜 기간 동안 축적된 경험적 지식과 성공적인 연구결과에 기반하고 있다.
다음 절에서는 당사가 보유하고 있는 대표적인 음성처리기술에 대해 설명하고 선진국의
기술개발 현황과 비교한 뒤, 당사가 보유하고 있는 기술의 첨단성에 대해 설명하고자 한다.
3
음성기술
3. 당사 보유기술
1) 연속음성인식기술
연속음성인식기술이란 사용자가 자연스럽게 발성한 음성을 인식하는 기술이다. 연속음
성에서는 사용자가 각 단어를 연속적으로 발성하기 때문에 단어의 경계가 뚜렷하지 않고
단어 간의 조음현상이 발생한다. 또한 일반적으로 연속음성인식이란 대용량의 어휘를 화
자독립으로 인식하는 시스템을 말한다. 즉, 연속음성인식은 사용자의 발성에서 단어 간의
조음현상과 단어 내부의 조음현상 및 화자 간의 변이와 단어 간의 변이를 해결해야 하기
때문에 단순한 음향학적 정보 이외에도 음운학, 언어학적인 정보를 적극 활용해야 하는
분야이다.
연속음성인식은 고립단어인식과는 달리 분단어 모델을 사용하여 단어 후보를 인식하고
인식된 단어 후보들을 배열하여 문장을 재구성하는 과정으로 이루어진다. 이 문장 재구성
과정에서 여러가지 조음현상을 해결하지 못하면 고립단어인식기에 비해서 성능이 현저히
떨어지게 된다. 또한 대용량 어휘를 다루기 때문에 문장 재구성 작업은 계산시간 복잡도와
메모리 복잡도가 지수 복잡도를 가지게 된다. 따라서 실시간 구현을 위해서는 정교한 엔지
니어링이 요구된다.
4
음성기술
(주)보이스피아는 연속음성인식을 위한 정교한 음향 모델 및 빠르고 효율적인 문장
재구성 기술을 보유하고 있으며 다음 표에 나타낸 바와 같다.
연속 음성
인식 분야
확룔에 기반한
음향 모델링
효율적이고 빠른
문장 재구성
대어휘 기반
발음 단어 사전
언어모델
선진 각국의 기술
보유여부
DHMM(Discrete HMM)
SCHMM(Semi Continuous HMM)
CHM(Continous HMM)
THMM(Rrajectory HMM)
One Pass DP
Tree-Trellis Search
Multi Path Search
Tree Lexicon
Flat Lexicon
Probablity Lexicon
Fast Lookahead Lxicon
100K 이상의 Lexicon
Bigram
Trigram
Long Distance Language Model
Class Based Language Model
CFG Language Model
○
○
○
○
○
○
△
○
○
○
△
△
○
○
△
○
○
○ : 현재 보유기술, △ : 연구개발 예정기술
5
음성기술
2) 음성합성기술
음성합성이란 임의의 입력된 문장을 인간에게 친숙한 음성신호로 변환하는 것으로 인
간에게 친숙한 음성을 이용하여 정보를 제공함으로써 정보 습득시 특별한 훈련이 필요
없는 등 편리한 인터페이스를 제공한다. 음성합성은 명료하며 자연스러운 인간의 목소
리로 입력 문장을 음성으로 변환하여 출력하는 것을 목표로 한다. 합성음의 명료도란 합
성음이 무슨 말인지 명확하게 들리는 정도를 나타내며 이는 신호처리기술의 수준을 나
타낸다고 할 수 있다. 자연성이란 인공적이지 않고 자연스러운 정도를 나타내며 운율생
성의 기술 수준을 나타낸다. 세계적으로 합성음의 명료도의 경우 어느 정도 일정 수준에
도달하였지만 합성음의 자연성의 경우에는 아직 자연스러운 운율을 구현하기에는 무리
가 있다. 세계적으로 이러한 운율의 자연성을 확보하고자 대용량 데이터베이스를 바탕
으로 한 합성기술이 개발되었으나 엄청난 용량의 저장 공간 및 고성능의 하드웨어시스
템 그리고 많은 양의 음성 데이터베이스를 요구하는 단점이 있으며, 최근에는 다시 소용
량의 삼음소 혹은 이음소 합성기술로 회귀하는 추세이다.
6
음성기술
음성합성의 원천기술로는 언어처리기술, 운율생성기술, 신호합성기술 등이 있으며 당사
의 문서-음성변환시스템은 이 세가지 원천기술을 모두 소유하고 있다. 당사의 문서-음성
변환시스템은 이 세 가지 기술을 바탕으로 소프트웨어에 의한 실시간 합성이 가능하도록
구현되어 있으며 그 명료도 또한 뛰어난 수준이다.
(주)보이스피아의 문서-음성변환시스템은 크게 언어처리부, 운율생성부, 신호합성부로
나뉜다. 언어처리부에서는 8000 단어로 구성된 형태소 사전으로 형태소 분석을 하며,
미등록어처리, 문맥을 고려한 품사 태깅, 확률을 이용한 최적 구문 구조 생성을 통하여
입력된 문장을 발음기호로 변화하고, 운율구를 추출한다. 운율생성부에서는 세계적으로
현재 대두되고 있는 CART를 이용하여 음의 피치(높낮이), 음의 지속시간, 음의 에너지를
예측한다. 신호합성부에서는 매우 빠른 처리속도와 높은 음질을 장점으로 하는 TDPSOLA 방식의 신호합성기술을 이용하여 운율생성부의 결과를 바탕으로 합성음을 생성
한다. 또한 음성의 특징 조절이 비교적 용이하며 전 세계적으로 많이 사용하는 신호합성
방식인 sinusoidal 방식의 신호합성부도 구현이 되어 있다. (주)보이스피아의 음성합성
기술은 원천기술에 있어서 세계 최고 수준이라고 할 수 있으며 상세 내역은 다음과 같다.
7
음성기술
음성합성분야
전체 시스템
언어처리부
(syntax
analysis)
운율생성부
(prosody
generation)
신호합성부
(signal
synthesis)
선진 각국의 기술
보유여부
소프트웨어에 의한 실시간 합성
○
8000 단어 이상의 형태소 사전
○
미등록어 처리
○
문맥을 고려한 품사 태깅
○
확률에 의한 품사 태깅
○
CART를 이용한 음의 피치(음의 높낮이) 예측
○
CART를 이용한 음의 지속시간 예측
○
CART를 이용한 음의 에너지 예측
○
TD-PSOLA 방식의 신호합성 기술
○
정현파(sinusoidal)방식의 신호합성 기술
○
음운 환경을 고려한 단위음 database 제작 기술
○
소규모 단위음 database로부터 명료한 음성합성 기술
○
corpus based unit selection
△
○ : 현재 보유기술, △ : 연구개발 예정기술
8
음성기술
3) 화자인식기술
화자인식(Speaker Recoding)은 화자의 음성으로부터 화자를 인식하는 것을 말한다.
화 자 인 식 은 크게 화 자확 인 (SV : Speaker Verification) 과 화 자 식별 (SI : Speaker
Identification)로 나뉘어진다. 화자확인은 발성된 음성이 원하는 화자 인지(의뢰인,
client speaker) 아닌지(사칭자, impostor)를 구분해 내는 것으로 의뢰인에 대한 초기
등록을 요구하게 된다. 화자식별은 등록된 화자들 중 누구의 음성인지를 알아내는 것으
로 모든 등록된 화자에 대해서 비교를 수행하게 된다. 화자확인기술은 출입통제시스템
이나 원격지 데이터베이스 검색에 이용할 수 있고, 화자식별기술은 범인식별, 자동 회의
록 작성 등에 이용될 수 있다.
화자인식기술은 기존에 널리 사용되는 보안시스템인 지문인식, 홍채인식 등과는 달리
전화선이나 인터넷망을 통한 원격 인식이 가능하다는 장점이 있어, 현재 급격하게 발전
하고 있는 전자상거래 분야에서의 효과적인 보안 수단으로 이용될 수 있다.
(주)보이스피아는 다양한 환경에서의 화자확인시스템 구현기술을 보유하고 있다.
보유기술들과 성능은 다음의 표와 같다.
9
음성기술
화자인식 분야
선진 각국의 기술
보유 여부
DHM M (Discrete HM M )
○
SCHM M (semi Continuous HM M )
○
CHM M (Continous HM M )
○
THM M (Trajectory HM M )
○
문장 고정형
○
문장 자유형
○
실시간 구현
○
이동 전화 단말기 구현
○
음향 모델링
인식 방법
구현 환경
○ : 현재 보유기술, △ : 연구개발 예정기술
10
음성기술
4) 잡음처리기술
음성인식시스템은 고속주행 중인 자동차 실내, 유무선 전화망, 전시장 등 다양한 잡음
환경에서 사용된다. 잡음이 없거나 비교적 조용한 실험실 환경에서 높은 인식 성능을
나타내는 음성인식 시스템은 주위에 잡음이 존재하는 환경에서 그 성능이 급격히 저하
된다. 따라서 음성인식시스템의 성공적인 상업화를 위해서는 잡음처리기술이 매우 중요
하다. 잡음처리기술은 현재 상용화한 대부분의 음성인식시스템에 적용되고 있으며,
음성인식기의 실용화 측면에서 핵심적인 기술이다.
잡음처리기술은 선진 각국을 중심으로 활발히 연구되고 있으며, 크게 세가지 방향의
연구가 진행되고 있다.
첫째, 잡음에 강한 특징 벡터나 거리 척도을 사용하는 방법에 관한 연구이다. 이러한
방법은 음성인식시스템을 설계 단계에서 부터 입력 음성에 첨가되는 잡음에 강하도록
인식기를 제작하는 것이다. 실제로 잡음을 추정하여 제거하는 방법과는 다르게, 잡음에
영향을 적게 받는 특징 벡터나 거리 측정 방법을 사용하는 인식시스템을 설계한다.
이 기술은 조용한 환경에서도 좋은 성능을 나타내면서 잡음의 영향을 적게 받아야 한다.
11
음성기술
둘째, 잡음이 첨가된 신호로부터 잡음을 제거하는 기술에 관한 연구이다. 이 방법은 실험
실 환경에서 성공을 거둔 음성인식시스템을 잡음 환경에 대하여 강하게 만드는 방법으로서
인식시스템의 입력 전단에서 음성에 섞인 잡음을 제거하는 잡음제거시스템을 부착하는
것이다. 이 방법은 기존 음성인식시스템의 구조를 변화시키지 않는 장점이 있다.
셋째, 음성인식 모델을 잡음 환경과 일치하도록 적응시키는 방법이다. 이런한 방법은 인
식 모델을 학습할 때의 환경과 사용 환경이 비슷할 때 가장 높은 인식 성능을 나타낸다는
점에 착안하고 있다.
(주)보이스피아는 유무선 전화망 환경에 강한 잡음처리기술 및 다양한 배경 잡음에 강인
한 특징 추출 및 잡음보상기술을 보유하고 있으며 다음 표에 나타낸 바와 같다.
12
음성기술
선진 각국의 방법
SMC(Short-time Modified Coherence)
OSALPC(One-Sided Autocorrelation LPC)
MFCC(Mel-frequency Cepstral coefficient)
잡음에 강한 특징 EIH(Ensemble Interval Histogram)
ZCPA(Zero Crossing with Peak Amplitude)
추출 기술 및
거리 측정 방법 Linear Discriminant Analysis Feature
Dynamic Cepstrum and Energy
Cepstral Liftering
RPS(Root Power Sum)
Liner and Non-linear Spectral Subtraction
Kalman Filtering
배경 잡음제거
Signal Subspace
RASTA(RelAtive SpecTrAl) processing
Cepstral compensation and normalization
전화망 잡음보상
J-RASTA, RASTA-like filter
ML(Max imum likeLihood) channel estimation
Corrective Training
모델기반
Adaptation of HMM parameters
잡음처리
Rapid environmental adaptation of HMM
잡음처리 분야
○ : 현재 보유기술, △ : 연구개발 예정기술
보유여부
○
○
○
△
○
○
○
○
○
○
○
○
○
○
○
○
○
○
△
13
음성기술
4. 시장현황
1) 세계시장
가전, 게임, 정보통신 등 기존 시스템분야에 음성인식 및 합성기술이 추가되면서
고속 성장 중
세계시장 규모 : 2005년 기준 연평균 92%의 성장 전망
연도
2000년
2003년
2005년
시장규모
82억불
380억불
900억불
시장 점유율 : (2000년) 미국 70%, 기타국가 30%
(2003년) 미국 60%, 기타국가 40%
주요업체 : AT&T / Microsoft(미국), NTT(일본), 필립스(유럽)
향후 세계시장은 전화망과 내장형 솔루션이 주도할 것으로 예상
전화망(Telephony
Voice User Interface) : 서버형 솔루션
- Voice Portal 등의 시장 확대

내장형 솔루션(Embedded Solution)
- PDA,가전,장난감,자동차, 홈오토메이션용 내장형 음성칩 시장 확대
14
음성기술
2) 국내시장
80년대 학계에서 연구가 시작되어 '99년부터 응용개발상품이 하나씩 출시되는 등
시장형성기에 진입 : 2000년도부터 하나의 산업으로 태동하여 성장기에 진입
최근의 기술개발 및 산업화 추세로 향후 급격히 커질 것으로 전망
국내시장 규모 : 2000년 1억불 규모로 2001년 이후 연평균 75%이상 성장
연도
2000년
2003년
2005년
시장규모
1,390억원
7,450억원
2조원
국내업체는 시장 환경 호조 및 벤처창업 열풍으로 90년대 말부터 100 여개 업체가 창업
이중 5%업체만이 원천기술을 보유하고 있으며 대부분 내수 중심이나 일부 선도기업은
중국.미국 등에 진출 중
음성기술을 이용한 증권정보시스템, 음성다이얼시스템, 철도정보안내, 일기예보,
음성E-mail 등이 개발되어 서비스 중
음성인식 칩과 음성인터넷 브라우저 개발, 일부업체에서 Voice Portal Service 개시
15
음성기술
5. SWOT분석
■ 최고 연구기관인 KAIST음성인터페이스
연구소와의 유기적 연대로 높은 수준의
축적기술 및 지속적 발전 용이
■ 고품질 저비용의 스타상품 개발 생산으로
조기에 시장 선점 가능
■ 제품개발, 상품화과정에 필요한 자금의 부족
■ 대형의 우량 제품을 개발하기 위해선 인력과
조직에 대한 긴급한 확충 필요
Strength
Weakness
Opportunity
Threat
■ 음성정보처리기술 시장의 무한한 가능성
■ 음성인식, 음성합성, 음성변환, 화자인식,
음성코딩 등 전 분야에 대한 모든 기술
보유 및 이의 유기적 결합에 의해 세계적인
초우량 음성정보처리 회사로 성장 가능
■ 대규모 수요에 대비한 부품 확보 및 생산체제
구축에 대한 대책 필요
■ 중국, 인도, 동남아, 아프리카 등의 수출상담에
효율적으로 대처할 사내 조직 및 마케팅 비용
확충 필요
 21세기 정보통신 사회에 필수인 음성인식 및 Ubiquitous기술의 차별화된 TOTAL 솔루션 제공
 우수한 원천기술을 바탕으로의 세계 초일류제품 공급 및 그로벌스타 기업으로의 도약
16