슬라이드 1

Download Report

Transcript 슬라이드 1

개체명 추출 및 인식기능이 있는 Target Crawling시스템 구축
2015/3 서울대 산학협력 프로젝트
검색기술개발팀
Core Platform 개발본부
This document contains intellectual property of SK Planet, especially that of platform software dev2 team.
0
프로젝트 개요
• 내용
• Seed URL관리가 가능한 Crawling 시스템을 개발하여 웹컨텐츠를 Fetch하여 저장
•저장된 웹컨텐츠를 Parsing해서 필요한 정보 형태적/의미적/텍스트 정보 추출
•추출된 정보를 바탕으로 Feature를 추출하고 개체명 인식기에서 개체명 여부를 판단
• 필요 지식
• 네트웍 프로토콜 기본 지식: HTTP, TCP
• 필요 기본 지식 : 오픈 소스 Crawling시스템(Nutch, Scrapy등), NLP(Natural Language Processing),
IR(Information Retrieval), 개체명 인식, 기계학습
• 시스템 구축 및 개발: 오픈 소스 Crawling, Java, Python등
• 교육/훈련 효과
• IR Crawling시스템에 대해 전반적인 이해 및 경험을 얻을 수 있다.
• 개체명 인식을 통한 Natural Language Understanding문제에 대해 이해를 할 수 있다.
• 개발 인원/기간
• 2~3명, 3개월
• 기업체 담당자
• 이현수 팀장([email protected])
This document contains intellectual property of SK Planet, especially that of Search tech dev. team.
개체명 인식 개요(1)
• 개체명 인식이란?
• 문서에서 고유한 의미를 가지는 명사(인명, 지명, 브랜드명, 기관명등)나 숫자표현등을 추
출하여 개체명의 종류를 결정하는 작업
• … 철수가 나이키 신발을 신고.. (철수 : 인명, 나이키:브랜드명)
• 질의어: “봉천동 순대”, “서울대학교앞 분식집”
• 개체명 인식기능이 있는 Crawling 시스템 Flow
Seed URL등록
Fetch
저장
개체명 인식
Feature Extraction
Parsing
This document contains intellectual property of SK Planet, especially that of Search tech dev. team.
개체명 인식 개요(2)
• 개체명 인식기
• 기계학습을 통한 Classifier 구축
• Rule-Based를 통한 Classifier구축
• 제3의 방법??
This document contains intellectual property of SK Planet, especially that of Search tech dev. team.
프로젝트 세부 내용
Sprint
1: Warm-up
2: 인식기개발
개발 및 필요 역량
인식대상선정 및 관련 지식 Study
인식 방법 Ideation
3: Crawler시스템
개발
Crawler대상 선정
Crawler방안 결정
Crawler시스템 구축
컨텐츠 파싱 및 feature extraction
4: 통합 테스트
Crawler에 인식기 통합 및 테스트
5: 평가
인식률 평가
This document contains intellectual property of SK Planet, especially that of Search tech dev. team.
비고
- POI/Event등 인식대상선정
-기계학습 및 선행 지식
Study
- 오픈 소스 Crawler 테스트
Feature 선정 및 인식방안 결
정
인식기에서 선정한 Feature
Extraction
인식률 평가 방안 필요