3. 음성인식기술 활용의 4대 유형 개인별 서비스 제공(보안, 금융, 의료

Transcript 3. 음성인식기술 활용의 4대 유형 개인별 서비스 제공(보안, 금융, 의료

음성인식기술의 응용사례
- 음성인식 활용의 4대 유형
2012. 6. 7
정 남 준(30101149)
목차
1. 음성인식 기술의 확산
2. 음성인식 기술의 확산 배경
3. 음성인식 기술 활용의 4대 유형
4. 활용 발전 방향
5. 음성검색 서비스를 위한 요소기술
2
1. 음성인식 기술의 확산
최근 IT 업계에서 음성인식을 둘러싼 경쟁 본격화
 구글, 애플, 마이크로소프트 등 주요 IT 기업이 핵심 제품과 서비스
에 음성인식 기술을 적용
 음성기술은 기술보유 업체의 인수와 제휴를 통해 확보
기업명
제품 출시
음성기술 업체 인수 및 제휴
현황
구글
모바일 음성 검색(2008)
PC 음성 검색(2011)
- ‘인사이트서치’
포네틱 아츠(영) 인수(2010)
세이나우(미) 인수 (2011)
애플
아이폰 5(2011)
아이패드 3(2011)
시리(미) 인수(2010)
뉘앙스(미)와 기술제휴(2011)
MS
윈도 모바일 7(2010)
X박스 360 키넥트(2010)
텔미네트웍스(미) 인수(2007)
3
1. 음성인식 기술의 확산
음성 인식 기술이 비 IT 분야로 확대
 자동차, 의료, 방송, 교육 등에도 음성인식 기술 활용이 증가 추세
 미국 : 2010년 현재 의사 15만 명이 음성으로 환자의 의료 관련 정
보 입력(음성인식 전자의무기록(EHR))
 2015년까지 전 세계에서 출시되는 자동차의 47% 이상이 음성인
식 기능
4
2. 음성인식 기술의 확산 배경
음성 인식률 향상에 필요한 대용량 음성데이터 저장과 처
리기술의 발달로 인식률이 획기적으로 개선
 대용량 음성테이터를 보유할 수록 정확도 제고
 대용량 음성데이터를 저장하고 실시간으로 처리가 가능한 네트
워크와 컴퓨팅 기술이 발달
음성 인식율 95% 구글의 ‘클라우드 서버’
 성별, 연령별, 사투리로 구분한 총 2,300억 개의 영어 단어를 음성
데이터로 저장하고 이를 활용하여 음성인식을 실시간으로 처리
 1일 : 한 사람이 2년 동안 쉬지 않고 이야기한 양의 데이터 수집
 사용할 수록 음성데이터가 축적되어 더욱 정확한 인식 결과를 재전송
제품의 디지털화와 기능의 복잡, 다양화가 음성인식 수요를 견인
 휴대폰, 게임기, 내비게이션, 어학기 등에 음성인식 기능 탑재
5
3. 음성인식기술 활용의 4대 유형
유형 1. 多기능기기의 조작
별도의 학습이나 훈련 없이 기기를 손쉽게 사용
 일상에서 자주 사용하는 제품의 복잡한 기능을 쉽게 사용 도와줌
•
2010년 AT&T – 휴대폰에 ‘지난주 방영한 경찰 드라마’
•
2011년 6월 MS는 게임기 X박스 360에 TV 프로그램 음성검색 탑재
 게임분야 : 전투시뮬레이션 게임에서 다양한 명령어 키가 음성으로 전
환 추세
• X박스 360용 전쟁 게임 ‘매스 이펙트 3’에서는 사용자가 음성 명령으로
적을 공격할 수 있어 현실감 제고
6
3. 음성인식기술 활용의 4대 유형
유형 2. 동시작업 수행
손을 사용하지 않고도 정보입력(모바일 기기, 물류 등)
 운전 중 다른 기기를 사용해야 할 때 안전을 위해 활용
•
기아 자동차의 UVO 시스템 – MS 의 음성인식 제어 엔진 활용
•
미 공군 전투기용 음성 인식시스템 시험
보콜렉스(미) ‘Talkman’(2006)
- 헤드셋과 착용식 컴퓨터 활용, 음성으로 작업 내용을 전달하고 작업
내용을 입력
7
3. 음성인식기술 활용의 4대 유형
유형 3. 개인별 맞춤서비스 제공
개인별 서비스 제공(보안, 금융, 의료, 교육 등)
 화자(話者)의 음성으로 신원이나 감정, 심리상태 등을 파악하여 본
인 인증, 신용 평가에 활용
•
관공서 출입이나 관리 대상자의 본인 확인 정차 간소화
•
2011년도 러시아 국영은행 ‘스베르뱅크’ – 신용평가 시험 도입
스베르뱅크의(러시아) 음성 신용평가 시스템(2011)
- 모든 신용 거래에 ATM을 활용하기 위하여 개발
- 본인 확인 질문에 음성으로 답해야만 거래 가능
8
3. 음성인식기술 활용의 4대 유형
개인별 서비스 제공(보안, 금융, 의료, 교육 등)
 의료 및 교육 분야에서는 화자의 언어 능력 수준을 체크하여 맞춤
형 언어 교정, 치료, 외국에 교육 등에 활용
•
의료분야 : 말더듬이 등 발성 습관 교정, 언어 장애 치료
•
외국아 분야 : 억양이나 발음 교정
9
3. 음성인식기술 활용의 4대 유형
유형 4. 실시간 정보처리
긴급한 상황에서 신속한 정보처리 및 입력
 콜센터, 병원 등에서 다단계 메뉴를 검색하는 불편을 해소
•
신한카드
•
M.D. 앤더슨 암센터
10
3. 음성인식기술 활용의 4대 유형
실시간 정보처리 (콜센터, 방송, 통역, 번역 등)
 회의 내용을 대화 속도로 속기(速記)하기 위해 사용
•
2011년 5월 일본 중 위원은 세계 최초로 국회 발언 내용을 문자로
자동 변환
 실시간으로 대용량 음성 데이터를 자막으로 만들거나 다른 언어
로 통역, 번역 할 때 사용
•
2011년 NHK는 스포츠 등의 생방송 프로그램에 자막을 부가
 2009년 구글은 구글 TV의 음성이 화면의 자막으로 자동 변환
• 스마트폰용 실시간 통역 앱 개발 중
11
4. 활용 발전 방향
고객 저변을 IT 기기 소외 계층까지 확장
미쯔비시 전기
- 음성인식 엘리베이터 시스템 ‘터치리스 콜’
- PC를 음성으로 제어 할 수 있는 IBM의 ‘ViaVoice’
인텔, GE(美)
- 음성인식기술을 활용한 노인 및 장애우用 보조기기
개발 중
12
4. 활용 발전 방향
터치, 동작인식, 오감인식, 생체인식 등과 기술융합으로
과성 극대화
효
AT&T(미)의 ‘Speak4it’
- 지도 검색 앱으로 음성과 동작 인식을 결합해 정보의
정확성 제고
MS(2009)
- 사용자가 사용자의 음성 명령을 처리하고, 동공 인식
- 사용자가 보고 있는 페이지를 확대
13
5. 음성검색 서비스를 위한 요소기술
로그 데이터기반 음향모델링
 음향모델링 기술
• 음성인식을 위해 불특정 다수 화자의 다양한 발음 특성을 모델링하는
것을 목적
• 대용량의 음성데이터로부터 통계적 방식으로 모델 파라미터 형태로
표현되는 참조 패턴을 생성하는 기술
 좋은 성능을 갖기 위해서는 다양한 환경, 화자, 어휘로부터 얻어진 대용
량훈련데이터로 훈련된 음향모델이 필요
 훈련용 음성데이터가 분포하는 환경이 실제 음성인식시스템이 사용되
는 환경에 가까울수록 훈련 환경과 실제 사용 환경의 불일치를 줄임으
로써 높은 수준의 음성인식 성능을 보장할 수 있음
 데이터를 음성검색서비스를 통한 음성 로그로부터 획득 활용
 음성 빅데이터를 대상으로 음향모델을 위해서는 훈련 가능한 데이터
를 선별하는 기능, 미전사 데이터를 훈련에 적용하는 기술 등이 요구
14
5. 음성검색 서비스를 위한 요소기술
대규모 코퍼스기반 언어모델링
 웹 검색 도메인의 경우 대상 코퍼스와 구성 어휘의 수는 기하급수
적으로 증가
 이는 언어모델의 대용량화와 지속적 확장 기능을 요구
 언어모델링 기술의 최근 동향은 대용량 분산 언어모델링 기술
 대용량 분산 언어모델링 기술의 특징으로는 n-gram 차수의 무제한
과 어휘 수의 무제한
 구글의 경우 자체적인 클러스터링 기술을 이용하여, 무제한의 어휘
수와 n-gram 개수를 기반으로 하여 언어모델을 제공
 대규모 언어모델링을 위해서는 무제한의 언어 데이터 수집 기술에
기반하여 분산 리소스를 활용한 언어모델링 기술 확보가 필수
분산 언어 모델링 아키텍쳐
15
5. 음성검색 서비스를 위한 요소기술
병렬처리 디코딩 기술
 고성능 CPU 사용이 보편화 되면서 성능 저하 없이 고속 디코딩을
구현하기 위한 방법으로 병렬처리 기술을 사용하는 방식들이 제안
 SIMD(Single Instruction Multiple Data) 명령어를 사용하는 방식
 CPU 내에 포함된 여러 개의 연산 코어를 사용하는 멀티 코어
(Multicore) 방식
 GPU(Graphic Processing Unit) 내에 포함된 수십 혹은 수백 개의 연
산 코어를 사용하는 매니 코어(Many-core) 방식
 SIMD는 SSE(Streaming SIMD Extension) 명령어의 경우에는 128비트
레지스터를 사용해 4개의 단일 정밀도 부동 소수점 데이터를 동시
에 처리하는 것이 가능
GMM(Gaussian Mixture Model)
HMM(Hidden Markov Model)
16
감 사 합 니 다.

3. 음성인식기술 활용의 4대 유형 개인별 서비스 제공(보안, 금융, 의료

Transcript 3. 음성인식기술 활용의 4대 유형 개인별 서비스 제공(보안, 금융, 의료

Directory