140211 동국대 김양우교수님 연구실 발표자료

Download Report

Transcript 140211 동국대 김양우교수님 연구실 발표자료

Search engine
Network Computing System Architecture Lab
Dongguk University
MooSeon Choi
2014.02.11
Contents
1. Research Objective
2. Search engine
1. - apache Nutch
2. - apache Solr
Research Objective
BD
App Node
PKG
API Log
Monitoring
Information
Log
Information
Research Objective
BD
App Node
PKG
API Log
Monitoring
Information
Log
Information
Research Objective
API
API
API
SNS Monitoring
Gathering Social Data
Gathering Agent
Convert To Text File
Cloud Computing Environment
Hadoop Distributed
File System
Hadoop
MapReduce
Search Engine – apache Nutch
1. 투명성 : Nutch는 오픈소스다. 검색엔진의 가장 중요
한 부분이기도한 랭킹 알고리즘과 그 구현이 완전히
공개되어 있다. Nutch는 학습용 혹은 공공단체등에서
사용되는 정보의 중요도를 체크하기 위한 좋은 솔루
션이다.
2. 이해하기 쉬움 : Nutch는 검색엔진과 관련된 다양한
이론들을 포함하고 있다. 관련된 이론적인 지식을 알
고 있다면, 쉽게 접근하고 이해할 수 있다.
3. 확장성 : 다른 검색엔진들은 대부분 특화되어 있으며,
내부가 감추어져 있기 때문에 자신이 지원하는 환경
이 아닌경우 확장이 어렵거나 불가능한 경우가 많다.
소스가 공개되어 있기 때문에 쉽게 확장 가능하다
1. 새로운 WebDB를 생성한다.
2. WebDB로 부터 수집이 최초로 시작될 root
URL을 설정한다.
3. 새로운 segment의 WebDB로 부터 fetchlist를
생성한다.
4. fetchlist의 URL로부터 page를 수집한다.
5. 수집된 page로 부터 링크를 얻어오고,
WebDB의 정보를 갱신한다.
6. 3-5단계를 계속 반복한다.
7. 중요도와 links정보를 Update한다.
8. 수집한 페이지의 색인을 만든다.
9. 색인으로 부터 중복된 페이지를 제거한다.
10. 효율적 검색을 위해서 단일 색인들을 병합
한다.
Search Engine – apache Nutch
출처 : http://xlos.tistory.com/
Search Engine – apache Nutch
URL에 관한 정보를 저장
• Fetch Schedule
• Fetch Status
• Page Signature (Digest)
• Metadata
출처 : http://xlos.tistory.com/
Search Engine – apache Nutch
각 URL에 대한 incoming link들과
anchor text를 저장
출처 : http://xlos.tistory.com/
Search Engine – apache Nutch
• 실제 Page 내용
• Parsing 된 결과와 Metadata, Outlink
• indexing과 snippets을 위한 plain text
출처 : http://xlos.tistory.com/
Search Engine – apache Nutch
Crawl Cycle
Inject
Crawl Depth
Generate
Fetch
Parse
Update
Parse
Update
출처 : http://xlos.tistory.com/
Search Engine – apache Solr
Search Engine – apache Solr
Search Engine – apache Solr
Qurery
Search Engine – apache Solr
• Schema
• 색인 할 문서의 필드와 그 필드 타입을 정의
• Lucene의 Analyzer 사용
• Dynamic Field를 지원
• Copy Field를 사용하여 여러 Field를 검색 가능한 단일 Field로 묶을 수 있다.
• Query
• HTTP 인터페이스로XML/XSLT, JSON, Python, Ruby와 같은 응답 포멧 설정
• 쿼리와 필드 값에 근거한 Faceted Search 제공
• query로 검색 정렬을 정의 가능
• 용이한 검색 score 설정
• query에 특정 field에 대한 가중치 부여 가능
• Core
• query handler와 확장가능한 XML format
• unique key field에 기반하여 중복 문서 탐지
• Caching
• query 결과, 필터, 문서에 대한 캐시 설정
• 사용자 수준에서의 캐시 설정 지원
• Replication
• rsync transport를 통해 효과적인 분산 색인
• Admin interface
• cache, update, query 상태 제공
• Text Analyzer에 대한 디버거 제공
• 웹 쿼리 인터페이스 제공
Schema
Query
Core
Caching
Replication
Admin
interface
감사합니다
Network Computing System Architecture Lab
Dongguk University
MooSeon Choi
2013.11.07