3. 음성인식기술 활용의 4대 유형 개인별 서비스 제공(보안, 금융, 의료
Download
Report
Transcript 3. 음성인식기술 활용의 4대 유형 개인별 서비스 제공(보안, 금융, 의료
음성인식기술의 응용사례
- 음성인식 활용의 4대 유형
2012. 6. 7
정 남 준(30101149)
목차
1. 음성인식 기술의 확산
2. 음성인식 기술의 확산 배경
3. 음성인식 기술 활용의 4대 유형
4. 활용 발전 방향
5. 음성검색 서비스를 위한 요소기술
2
1. 음성인식 기술의 확산
최근 IT 업계에서 음성인식을 둘러싼 경쟁 본격화
구글, 애플, 마이크로소프트 등 주요 IT 기업이 핵심 제품과 서비스
에 음성인식 기술을 적용
음성기술은 기술보유 업체의 인수와 제휴를 통해 확보
기업명
제품 출시
음성기술 업체 인수 및 제휴
현황
구글
모바일 음성 검색(2008)
PC 음성 검색(2011)
- ‘인사이트서치’
포네틱 아츠(영) 인수(2010)
세이나우(미) 인수 (2011)
애플
아이폰 5(2011)
아이패드 3(2011)
시리(미) 인수(2010)
뉘앙스(미)와 기술제휴(2011)
MS
윈도 모바일 7(2010)
X박스 360 키넥트(2010)
텔미네트웍스(미) 인수(2007)
3
1. 음성인식 기술의 확산
음성 인식 기술이 비 IT 분야로 확대
자동차, 의료, 방송, 교육 등에도 음성인식 기술 활용이 증가 추세
미국 : 2010년 현재 의사 15만 명이 음성으로 환자의 의료 관련 정
보 입력(음성인식 전자의무기록(EHR))
2015년까지 전 세계에서 출시되는 자동차의 47% 이상이 음성인
식 기능
4
2. 음성인식 기술의 확산 배경
음성 인식률 향상에 필요한 대용량 음성데이터 저장과 처
리기술의 발달로 인식률이 획기적으로 개선
대용량 음성테이터를 보유할 수록 정확도 제고
대용량 음성데이터를 저장하고 실시간으로 처리가 가능한 네트
워크와 컴퓨팅 기술이 발달
음성 인식율 95% 구글의 ‘클라우드 서버’
성별, 연령별, 사투리로 구분한 총 2,300억 개의 영어 단어를 음성
데이터로 저장하고 이를 활용하여 음성인식을 실시간으로 처리
1일 : 한 사람이 2년 동안 쉬지 않고 이야기한 양의 데이터 수집
사용할 수록 음성데이터가 축적되어 더욱 정확한 인식 결과를 재전송
제품의 디지털화와 기능의 복잡, 다양화가 음성인식 수요를 견인
휴대폰, 게임기, 내비게이션, 어학기 등에 음성인식 기능 탑재
5
3. 음성인식기술 활용의 4대 유형
유형 1. 多기능기기의 조작
별도의 학습이나 훈련 없이 기기를 손쉽게 사용
일상에서 자주 사용하는 제품의 복잡한 기능을 쉽게 사용 도와줌
•
2010년 AT&T – 휴대폰에 ‘지난주 방영한 경찰 드라마’
•
2011년 6월 MS는 게임기 X박스 360에 TV 프로그램 음성검색 탑재
게임분야 : 전투시뮬레이션 게임에서 다양한 명령어 키가 음성으로 전
환 추세
• X박스 360용 전쟁 게임 ‘매스 이펙트 3’에서는 사용자가 음성 명령으로
적을 공격할 수 있어 현실감 제고
6
3. 음성인식기술 활용의 4대 유형
유형 2. 동시작업 수행
손을 사용하지 않고도 정보입력(모바일 기기, 물류 등)
운전 중 다른 기기를 사용해야 할 때 안전을 위해 활용
•
기아 자동차의 UVO 시스템 – MS 의 음성인식 제어 엔진 활용
•
미 공군 전투기용 음성 인식시스템 시험
보콜렉스(미) ‘Talkman’(2006)
- 헤드셋과 착용식 컴퓨터 활용, 음성으로 작업 내용을 전달하고 작업
내용을 입력
7
3. 음성인식기술 활용의 4대 유형
유형 3. 개인별 맞춤서비스 제공
개인별 서비스 제공(보안, 금융, 의료, 교육 등)
화자(話者)의 음성으로 신원이나 감정, 심리상태 등을 파악하여 본
인 인증, 신용 평가에 활용
•
관공서 출입이나 관리 대상자의 본인 확인 정차 간소화
•
2011년도 러시아 국영은행 ‘스베르뱅크’ – 신용평가 시험 도입
스베르뱅크의(러시아) 음성 신용평가 시스템(2011)
- 모든 신용 거래에 ATM을 활용하기 위하여 개발
- 본인 확인 질문에 음성으로 답해야만 거래 가능
8
3. 음성인식기술 활용의 4대 유형
개인별 서비스 제공(보안, 금융, 의료, 교육 등)
의료 및 교육 분야에서는 화자의 언어 능력 수준을 체크하여 맞춤
형 언어 교정, 치료, 외국에 교육 등에 활용
•
의료분야 : 말더듬이 등 발성 습관 교정, 언어 장애 치료
•
외국아 분야 : 억양이나 발음 교정
9
3. 음성인식기술 활용의 4대 유형
유형 4. 실시간 정보처리
긴급한 상황에서 신속한 정보처리 및 입력
콜센터, 병원 등에서 다단계 메뉴를 검색하는 불편을 해소
•
신한카드
•
M.D. 앤더슨 암센터
10
3. 음성인식기술 활용의 4대 유형
실시간 정보처리 (콜센터, 방송, 통역, 번역 등)
회의 내용을 대화 속도로 속기(速記)하기 위해 사용
•
2011년 5월 일본 중 위원은 세계 최초로 국회 발언 내용을 문자로
자동 변환
실시간으로 대용량 음성 데이터를 자막으로 만들거나 다른 언어
로 통역, 번역 할 때 사용
•
2011년 NHK는 스포츠 등의 생방송 프로그램에 자막을 부가
2009년 구글은 구글 TV의 음성이 화면의 자막으로 자동 변환
• 스마트폰용 실시간 통역 앱 개발 중
11
4. 활용 발전 방향
고객 저변을 IT 기기 소외 계층까지 확장
미쯔비시 전기
- 음성인식 엘리베이터 시스템 ‘터치리스 콜’
- PC를 음성으로 제어 할 수 있는 IBM의 ‘ViaVoice’
인텔, GE(美)
- 음성인식기술을 활용한 노인 및 장애우用 보조기기
개발 중
12
4. 활용 발전 방향
터치, 동작인식, 오감인식, 생체인식 등과 기술융합으로
과성 극대화
효
AT&T(미)의 ‘Speak4it’
- 지도 검색 앱으로 음성과 동작 인식을 결합해 정보의
정확성 제고
MS(2009)
- 사용자가 사용자의 음성 명령을 처리하고, 동공 인식
- 사용자가 보고 있는 페이지를 확대
13
5. 음성검색 서비스를 위한 요소기술
로그 데이터기반 음향모델링
음향모델링 기술
• 음성인식을 위해 불특정 다수 화자의 다양한 발음 특성을 모델링하는
것을 목적
• 대용량의 음성데이터로부터 통계적 방식으로 모델 파라미터 형태로
표현되는 참조 패턴을 생성하는 기술
좋은 성능을 갖기 위해서는 다양한 환경, 화자, 어휘로부터 얻어진 대용
량훈련데이터로 훈련된 음향모델이 필요
훈련용 음성데이터가 분포하는 환경이 실제 음성인식시스템이 사용되
는 환경에 가까울수록 훈련 환경과 실제 사용 환경의 불일치를 줄임으
로써 높은 수준의 음성인식 성능을 보장할 수 있음
데이터를 음성검색서비스를 통한 음성 로그로부터 획득 활용
음성 빅데이터를 대상으로 음향모델을 위해서는 훈련 가능한 데이터
를 선별하는 기능, 미전사 데이터를 훈련에 적용하는 기술 등이 요구
14
5. 음성검색 서비스를 위한 요소기술
대규모 코퍼스기반 언어모델링
웹 검색 도메인의 경우 대상 코퍼스와 구성 어휘의 수는 기하급수
적으로 증가
이는 언어모델의 대용량화와 지속적 확장 기능을 요구
언어모델링 기술의 최근 동향은 대용량 분산 언어모델링 기술
대용량 분산 언어모델링 기술의 특징으로는 n-gram 차수의 무제한
과 어휘 수의 무제한
구글의 경우 자체적인 클러스터링 기술을 이용하여, 무제한의 어휘
수와 n-gram 개수를 기반으로 하여 언어모델을 제공
대규모 언어모델링을 위해서는 무제한의 언어 데이터 수집 기술에
기반하여 분산 리소스를 활용한 언어모델링 기술 확보가 필수
분산 언어 모델링 아키텍쳐
15
5. 음성검색 서비스를 위한 요소기술
병렬처리 디코딩 기술
고성능 CPU 사용이 보편화 되면서 성능 저하 없이 고속 디코딩을
구현하기 위한 방법으로 병렬처리 기술을 사용하는 방식들이 제안
SIMD(Single Instruction Multiple Data) 명령어를 사용하는 방식
CPU 내에 포함된 여러 개의 연산 코어를 사용하는 멀티 코어
(Multicore) 방식
GPU(Graphic Processing Unit) 내에 포함된 수십 혹은 수백 개의 연
산 코어를 사용하는 매니 코어(Many-core) 방식
SIMD는 SSE(Streaming SIMD Extension) 명령어의 경우에는 128비트
레지스터를 사용해 4개의 단일 정밀도 부동 소수점 데이터를 동시
에 처리하는 것이 가능
GMM(Gaussian Mixture Model)
HMM(Hidden Markov Model)
16
감 사 합 니 다.