인터넷검색엔진 I

Download Report

Transcript 인터넷검색엔진 I

인터넷정보원 및 학술정보자원의 활용
담당교수 : 박 양 하
9주 : 인터넷검색엔진 I
검색엔진의 의미
인터넷 검색엔진?
필요성
인터넷이 전 세계를 대상으로 한 네트워크이므로 원하는 정보를 찾
는 어려움이 존재, 이를 해결해 주는 것이 인터넷 검색엔진
개념
협의의 검색엔진 : 데이터베이스 전체 구조 가운데 논리연산과 결과
를 출력하는 기능을 담당하는 부분
광의의 검색엔진 : 인터넷에서 검색엔진을 DB와 동일한 개념으로
확대하여 로봇 등과 같은 정보수집 프로그램을 이용하여 대량으로
정보를 수집하고 하이퍼텍스트 기법을 통해 편리하게 정보를 찾아
갈 수 있도록 하는 것을 가리킴
인터넷에 등록된 제반 정보를 미리 수집하고 이를 체계적으로 수
집하여 DB로 구축한 후 사용자가 원하는 정보를 수시로 찾을 수
있도록 해주는 일종의 DB 시스템(원정보+위치정보)
2
검색엔진의 구성요소
로봇(Robot)
인터넷 상에 있는 웹사이트나 뉴스그룹 등을 주기적으로 돌아다
니며 자동으로 정보를 수집해와서 자체 정리 후 웹 서버에 데이
터 베이스로 구축하는 정보수집프로그램
Crawler, Spider, Gatherer, Worms, Scooter 등 다양한 이름으
로 사용
색인기(Indexer)
로봇이 정리한 웹 페이지의 내용을 저장하여 로봇의 재 방문 시
갱신 및 변경 정보를 수집하게끔 안내, 자체 DB의 내용 갱신
검색엔진 소프트웨어
이용자가 키워드를 입력하여 검색을 요청했을 때, 색인으로부터
조건에 맞는 정보들을 추출, 적합하다고 판단되는 순서대로 정렬
하여 브라우저의 화면에 출력하는 역할
각 검색엔진마다 각자의 방식으로 결정
3
검색결과의 평가 우선순위
키워드
태그에 포함된 단어나 구문의 내용들이 가장 큰 영향
요약
해당 웹 페이지의 내용을 요약해 보여주는 것으로 검색결과 출력
시 해당 웹 페이지에 대한 설명으로 제공
실제 방문 여부를 판단하는 중요 정보
위치 및 빈도
키워드 위치 : 제목 줄에 높은 우선순위
키워드 출현빈도 : 빈도가 높을 수록 높은 우선순위
링크우선순위
해당 페이지가 다른 외부 페이지에 얼마나 많이 링크 되었는가를
분석하여 우선순위 적용
4
검색엔진의 종류-검색방식에 따른 분류
키워드 검색엔진
로봇이 미리 수집하여 DB로 구축해 놓으면 이용자가 키워드를
입력하여 정보를 찾는 방식
로봇 검색엔진, 단어별 검색엔진으로 불림
장점
단어 몇 개 만으로 빠른 시간 안에 원하는 정보를 찾을 수 있음
키워드+연산자 활용으로 주제별 검색엔진에 비해 적중률이 높음
능동적이고 자동적 정보수집으로 DB양이 방대, 최신성이 높음
카테고리 분류체계가 명확하지 않은 정보의 검색 유리
단점
주제별 검색엔진이 보유한 정보에 비해 상대적으로 정보의 질이 낮
거나 정보의 내용 보장이 어려움
색인이 정확하지 않은 검색엔진의 경우 원하는 정보 찾기 어려움
대표적 검색엔진
네이버, 엠파스, 심마니, 알타비스타, 라이코스 등
5
검색엔진의 종류-검색방식에 따른 분류
주제별 검색엔진
이용자들이 홈페이지의 등록을 신청한 웹 사이트를 전문 서퍼들
이 직접 방문, 수작업으로 정보를 수집하여 제목이나 요약을 주
제별로 분류해 놓은 범주(category)에 저장시켜 디렉토리 서비
스를 제공할 수 있도록 DB 구축
장점
정보가 분류체계로 명확히 구분, 초보자에게 유리한 검색엔진
전문서퍼의 검증을 거쳐 양질의 정보 보유 가능성이 높음
단점
최종 검색을 위해 중간과정(대/중/소분류)을 거쳐야 하며, 잘못된
분류로 들어서면 처음부터 다시 해야하는 불편
키워드 검색엔진에 비해 상대적으로 보유하고 있는 DB 양이 적음
대표적 검색엔진
야후(yahoo), 집(ZIP!), 갤럭시(galaxy) 등
하이브리드형 검색엔진
키워드와 주제별 디렉토리 서비스를 동시에 제공, 대부분의 검색
엔진이 포함
6
검색엔진의 종류-검색방식에 따른 분류
메타 검색엔진
자체 DB 구축 없이 정보검색을 지원하는 것으로 입력된 키워드
를 가지고 여러 검색엔진을 동시에 검색하여 검색 결과를 통합
하여 제공하는 방식, 키워드 검색엔진과 유사
지능형 검색엔진이라고 하기도 함
장점
여러 검색엔진을 방문하지 않고 많은 결과를 얻을 수 있음
특정 검색엔진만 사용할 때 발생할 수 있는 누락을 줄일 수 있음
단점
기술적으로 다른 검색엔진을 활용하면서 ‘융합 가공’에 소요되는 시
간이 다소 길어짐
검색 연산자가 엔진마다 차이가 있어 정확한 검색결과를 보장 못함
대표적 검색엔진
핫봇(HOTBOT), 메타크롤러(metacrawler), 누클 등
7
검색엔진의 종류-검색방식에 따른 분류
모음형 검색엔진
자체 DB 없이 기존의 검색엔진에 대한 인터페이스를 모아놓은
검색엔진
웹 DB 뿐 아니라 색인지나 백과사전 같은, 상용 유료DB와 도서
관 목록과 같은 일반 DB를 동시에 제공해주는 일종의 슈퍼 검색
도구
장점
한 화면에서 다양한 분야의 검색엔진 사용
전문적 정보 찾을 때 유익
검색하고자 하는 대상 분야에 따라 전문 검색엔진의 이용 가능
단점
한정된 검색만 가능 (메타형과 비교해서 상대적으로)
대표적 검색엔진
퍼스트아이, iTools, 티아이 등
8
검색엔진의 종류-검색대상에 따른 분류
인명정보 검색엔진
주로 사람의 전자우편 주소, 인터넷 전자우편 주소 등을 찾아 줌
대표적 인명 검색엔진
Whowhere?. Bigfoot, Internet Address Finder, 한국인물연감 등
전화번호 검색엔진
인명별, 전화번호별, 상호별, 지역별, 주별, 우편번호 등 검색
대표적인 전화번호 검색엔진
SuperPages, 한국전화번호부 슈퍼페이지 등
지도검색엔진
대표적인 지도검색 검색엔진
컴타운, 국토지리정보원, 각종 포털의 지도검색 등
소프트웨어 검색엔진
인터넷 상 freeware, shareware 검색
대표적 검색엔진
CNET.com-Downloads, 심파일 등
9
검색엔진의 종류-검색대상에 따른 분류
신문기사 검색엔진
대표적 검색엔진
카인즈(kinds), 이데일리(edaily) 등
사전 검색엔진
특성 있는 검색엔진
웹스터, 브리태니커, Dekodic(독한, 한독 사전), Hyper Dictionary(영
어, 컴퓨터, 지식, 의학 관련 사전), one Dic(영어, 국어, 백과 및 각종
용어사전, 원클릭 통합검색), Urban Dictionary(인터넷 은어사전), 매
드딕(사용자 정의 사전서비스), 위키피디아, 사전링크 모음(고사성어,
경제영어, 부동산 용어 등 분야별 사전 검색 링크 수록) 등
기업검색엔진
대표적인 검색엔진
BIZCOP(실명제 사업자 전문검색사이트), 예스콜(업종 및 지역별 업
체정보 검색, 모바일 상담, 생활 전화번호, 무료서식 등 서비스 제공)
10
검색엔진의 종류-검색대상에 따른 분류
보고서류 검색엔진
각종 연구단체, 학술단체 등의 연구보고서 및 기술보고서, 학술
저널 등 검색
대표적 검색엔진
Los Alamos National Laboratories, Cornell Computer Science
Technical Report Collection 등
FTP 검색엔진
대표적 검색엔진
FTP Search
기타 생활정보
여행정보 : Citynet
영화정보 : 인터넷 영화 D/B, Movie Web, 한국영상자료원
음악정보 : World Wide Music
11