문자인식, 영화를 이용한 영어사전

Download Report

Transcript 문자인식, 영화를 이용한 영어사전

역할 • • • • • Web 을 이용한 사전검색 SAMI Parser Character Recognition 통합 및 테스트 카메라 HW 제작

클래스 설계 Database 설계

역할 • • • DirectShow 동영상 재생 SAMI 분석 Database 모듈 구현

How do you pronounce this word??

weird

수상한, 불가사의한, 신비로운, 두려운

What does this mean??

Out to Lunch

- 점심을 먹으러 사무실 밖으로 나간다는 의미

A : What’s wrong with that new guy you hired?

B : Why? What is the problem?

A : He seems a little strange.

I think he might be out to lunch.

A : 네가 채용한 놈 왜 그 모양이지?

B : 왜? 뭐가 문제인데?

A : 좀 이상해 보여. 그 사람 좀 모자란 거 같아.

“interesting” in movie “Notting Hill”

M : I'm sorry about the lamb.

W : No. I thought it was…really... interesting.

M : Interesting means inedible.

Global 시대! 영어는 필수 능력!!!!

 단어의 의미뿐만 아니라 발음, 상황에 따른 쓰임 까지 중 요!!

영화 or 미국 드라마를 이용하자!!!

 발음 뿐만 아니라 상황별 학습 및 재미까지!!

  좋아하는 영화를 통해 공부하므로 장기기억에 도움.

비교적 손쉽게 구할 수 있음 ( 어둠의 경로..) 

나는 모니터 보다 종이 책자가 좋다!!

 WebCam 을 연동한 문자인식!

영상 처리 웹캠을 이용한 영어문서의 인식 단어 처리 문서의 단어 추출 추출된 단어의 사전적 의미 검색 동영상 재생 해당단어가 사용된 동영상 재생

웹캠 단어 검색

DB

동영상 재생 사전적 의미 검색

CEEDicView <> CDictionary DialogBar (동영상 모듈포함) CVideoWnd MainFrame CEEDicDoc CCharacterRec ognition CMovieScript CSMIParser CFileDBWrapper <> CWordDBWrapper <> Database

영상처리

– 패턴매칭을 이용한 문자 인식과 단어 List 를 이용하여 단어를 인식 이미지 캡쳐 Adaptive Threshold 문단 제거 가운데 라인 추출 단어 영역 추출 문자 추출 후 정규화 및매칭 매칭 결과 : automated 단어사전 검 색, 결과 반환

SAMI Parsing

– 영화 자막을 Parsing 하여 “영어단어 – 시간” 을 모두 추출하여 .db 파 일로 저장하고 사용되는 단어를 database 에 등록.

영화 자막 파싱 언어 추출 영어 자막 일 경우 “단어-시간” 을 .db 파일 로 저장 database 등록

영화 및 드라마 등록 및 검색

– 영어 자막이 존재하는 영화 및 드라마를 Database 에 등록하여 단어 검색시 활용 영화 폴더 선택 존재하는 영화 및 자막파일 검색 영화 자막 존재시 자막 파싱 영어 자막 일 경우 Database 등록 사용된 단어 목록 DB 에 저장

< 영화 등록 >

“단어-시간” 정 보 .db 파일로 저장 영어 단어 입력 Database 에서 단 어가 사용된 영화 목록 추출 영화 선택 선택된 영화의 .db 파 일에서 해당 단어의 시 간 추출

< 영화 검색>

시간선택 해당 영화의 자막 파일을 열어 영화 와 자막 재생

Web 을 이용한 단어 검색

  Web Browser – COM(Component Object Model)을 바탕으로 하여 Explore의 기능을 손쉽게 이용.

사전 검색 - Naver OpenAPI – 단어의 의미가 아닌 URL 을 반환 - Web Query 를 이용하여 직접적으로 web 사전에 접근 - Naver : http://endic.naver.com/search.nhn?query_euckr=&dic_where=endic&mode=all&query=TEST - Daum : http://alldic.daum.net/dic/search_result_total.do?w=dic&q=TEST 

동영상 재생

  DirectShow 를 이용한 동영상 및 자막 재생 기능 Platform SDK, DirectX SDK, Codec Pack

      OS : Microsoft Windows XP SP2 Language : C++ Library : MFC, OpenCV, DirectX SDK 9.0C, Platform SDK 6.0

HW : Logitech QuickCam Pro 4000 + 자체 제작 LED Tools : Microsoft Visual Studio 2005 ETC : 통합 코덱 – StarCodec version. 20080604

Character Recognition

 인식률 문제  글자체에 따른 인식률 문제 – 굴림, 바탕, 돋움  빛이나 원본 문서에 따른 인식률 저하 문제 – 재시도시 인식  패턴의 문제 ( 소문자 l 과 대문자 i 가 동일 ) 

영화를 database 에 등록하는데 많은 시간이 소요됨

 손쉽고 빠르게 원하는 단어검색에 유용  해당단어의 의미뿐만 아니라, 원어민 발음, 해당 단어의 다양한 의미, 실제 사용 예 등을 학습 가능.

 차후, 스트리밍 서버 등을 구성하여 서비스 가능  Web, Database, Parser ( SMI, Automata ..) , Characeter Recoginition, 다양한 라이브러리 ( OpenCV, DirectX ) 등의 학습.

시연

 3X3 템플레이트를 이용한 여러 영문 활자체의 인식 (Recognition of Printed Multi-font Alphanumeric Characters using 3x3 Templates) 박덕원 *박종원  스마트폰 환경에서 동작하는 문자인식 솔루션 삼성소프트웨어 멤버십 김준철, 임 현, 손주호, 신원철, 양연길  실시간 문자 및 모델번호 인식기술 (Real-Time Recognition of Characters and Model Number) 심병균*이우송*한성현  카메라 문서 영상의 이진화 및 기울어짐 보정방법 (A Method for Thresholding and Correction of Skew in Camera Document lmages) 장대근* 전병태  선분 추출과 원형 정합을 이용한 여러 인쇄 활자체의 영문자와 숫자의 인식 (Recognition of Printed Multi-font Alphanumeric Characters Using Line Segment Extraction and Template Matching) 백순홈 * 박종원

도서 이름

 DATABASE SYSTEM 데이터베이스 시스템  MYSQL 5.0 레퍼런스 메뉴얼  PHP 프로그래밍 입문  DirectShow 멀티미디어 프로그래밍  윈도우프로그래밍  C++ Standard Library 튜토리얼*레퍼런스  Visual C++을 이용한 디지털 영상처리

출판사

정익사 글로벌 한빛미디어 한빛미디어 한빛미디어 정보문화사 사이텍미디어

지은이

이석호 박장규 황재호 신화선 김선우/ 신화선 공저 니콜라스M.조슈티스저 강동중/하종은 저

Q & A