슬라이드 1

Download Report

Transcript 슬라이드 1

웹 문서의 구조/
검색엔진의 역사
동국대 정보통계학과
김진석
HTML
– HTML(Hyper Text Markup Language):
• 인터넷에서 문서 교환을 할 수 있게 하기 위하여 웹에서 사
용되어지는 표준화된 언어
• 인터넷의 웹 서비스에서 기본으로 이용되는 문서 양식인 하
이퍼텍스트 문서를 작성할 수 있는 언어
– HTML 문서의 특징
• 문자, 리스트, 사진 등을 포함한 온라인 문서를 제작
• 하이퍼텍스트를 통한 정보를 온라인으로 검색
• 정보 검색, 예약, 상품 주문 등 원거리 서비스를 관리하는 프
로그램 작성
HTML
• 1. HTML Tag
– <HTML> : 문서의 시작
– <HEAD> : 머리부분
– <BODY> : 본문
• 각 부분의 끝은 </tag_name>
– </HTML>, </HEAD>,…
예제
<html>
<head>
<meta http-equiv="Content-Language" content="ko">
<title>Jinseog Kim</title>
</head>
<body>
<h1><font color=#0033CC face="Gill Sans Ultra
Bold">Jinseog Kim</font>
</h1>
</body>
</html>
HTML
• 2. 웹 문서는 어떻게 만들 수 있을까?
– 메모장과 같은 텍스트 편집기를 이용한 방법
– 나모, Front Page등 웹 에디터와 같은 전용
편집기를 이용하는 방법
– 한글, MS WORD과 같은 응용프로그램을 이
용하는 방법
메타 tag
• <meta> tag: 검색과 페이지 관리에 유용한 정
보를 삽입하는 곳으로
• HTML 문서의 <HEAD> 와 <BODY>사이에
위치
• <title> </title> : title
• 두 개의 속성
– HTTP_EQUIV: 웹브라우져가 HTTP를 이용하여 웹
서버에 문서를 요청하면 웹서버가 응답(http
header block)을 하는데, 이때 필요한 정보를 포함
함
– NAME: http header에는 응답하지 않는 메타 타입
META HTTP-EQUIV=“”
•
<meta http-equiv=“expires” CONTENT=“thur, 20 jan 2007
08:11:57 GMT”>
– 문서의 유효기한 설정
– 웹로봇은 이기한이 되면 데이터베이스에서 문서를 삭제
•
<meta http-equiv= “ Content-Type" content="text/html; chars
et=EUC-KR">
– 문서에 사용되는 문자세트 지정
•
<meta http-equiv= “ Content-Script-Type”
content=“text/javascript”
– 문서에 사용되는 스크립트 언어
•
<meta http-equiv="Content-Language" content="ko">
•
<meta http-equiv=« refresh"
content=« 3;URL=http://idea.snu.ac.kr/~jskim/index.html">
– 문서에 사용되는 언어
– 지정한 시간(초)이 지나면 지정한 URL로 이동
META name=“”
• <meta name=“description”
content=“this is test page”>
– 웹 페이지에 대한 설명을 웹 crawler 에게 알리는 역
할
– google은 이를 무시
• <meta name=“keywords” content=“인터
넷, WWW, 정보통계”>
– 페이지의 주요어를 웹크롤러에게 알려줌
– 동일한 단어를 중복할 경우 검색엔진은 순위를 낮춘
다
– 법적문제 고려, ex) 디즈니
META name=“”
• <meta name=“robots” content=“noindex, follow”>
– 검색엔진이 그 페이지를 색인(indexing)하지 못하도록 방지, 그 문서
에 링크를 따라가는 것은 허용
– nofollow : 링크를 따라가는 것 방지
– noimageindex: 이미지의 색인 방지
– noimageclick: 이미지에 대한 직접적인 링크 방지 문서의 링크는 허
용
– noarchive: google이 캐시에 보관하는 것 방지
– 웹 서버에 많은 HTML 파일이 있는 경우 meta robots tag 대신
robots.txt 파일 활용하면 효율적이다
User-agent:*
Disallow: /Search/
Disallow: /Private/jskim/WorkingPaper.html
– 보안문제와는 별개, so 악의적인 웹로봇이 이용 가능
웹검색의 역사
Archie: 최초의 검색엔진
• 1990년 이전: 인터넷상에서의 자료의 교환은
주로 FTP
– 사용자의 id, passwd 필요
• Archie(1990, Alan Emtage, Bill Heelan,
and Peter J. Deutsch, then students at
McGill University in Montreal)
– ftp site들의 목록을 모아 사용자의 검색어 혹은 질의
에 맞는 검색 결과 제공
– archie는 인터넷을 돌아다니며 자료를 모아 데이터
베이스에 저장하고 검색자의 질의에 맞는 자료의 위
치를 제공
Archie Andrews, created in 1941
by Bob Montana, is a fictional character
in an American comic book series
published by Archie Comics
베로니카
• Veronica(1992, Steve Foster and
Fred Barrie at the Univ. of Nevada)
• ftp site 보다 gopher site 검색
• gopher file: plain text file
Veronica "Ronnie" Lodge ("born" April 1942) is
an adolescent fictional character
in the Archie Comics books series.
Since the Archie characters are ageless,
Lodge remains a high-school teenager
after 64 years.
저그헤드
• Jughead(1993, Rhett Jones and
the University of Utah)
• Jonzy's Universal Gopher
Hierarchy Excavation And Display
의 약자
• 베로니카는 고퍼 전체공간을 검색하는 데
반해, 저그헤드는 고퍼공간 중 지정된 영
역만을 검색한다
Forsythe Pendleton "Jughead" Jones III is
a fictional character in Archie Comics,
first appearing in December 1941.
He is the son of Forsythe II.
He has a white sheepdog named Hot Dog,
and has a younger sister,
Forsythia "Jellybean" Jones.
World Wide Web Wanderer
• First web robot or spider
• Developed by Matthew Gray at MIT
(June, 1993)
• To measure the size of the World Wide
Web
• Later in 1993, it was used to generate
an index called the “Wandex”. This is a
reason we call web robot.
ALIWEB:Web Master
•
ALIWEB (Archie Like Indexing for the WEB)
•
First announced in November 1993 by Martijn Koster, and
presented in May 1994 at the First International Conference
on the World Wide Web in Geneva,
•
ALIWEB allowed users to submit the locations of index files
on their sites which enabled the search engine to include
webpages and add user-written page descriptions and
keywords.
•
This empowered webmasters to define the terms that would
lead users to their pages, and also avoided setting bots (e.g.
the Wanderer)
•
As relatively few people submitted their sites, ALIWEB was
not very widely used.
Alnet Galaxy
1994년 1월
웹페이지검색
Gopher,
Telnet
디렉토리서비스
1994년 4월
야후에서도
같은 서비스
웹크롤러(Web Crawler)
• Brian Pinkerton at the University of
Washington(April 20, 1994).
• WebCrawler has its own database,
which enables a user to find web pages.
• America Online(June 1, 1995)  Excite
(April 1, 1997)  InfoSpace (2001)
called Excite@Home, went bankrupt.
lycos
•
Dr. Michael Mauldin of Carnegie Mellon University in 1994. It
was incorporated in 1995.
•
Lycos Inc. was formed with approximately $2M in venture
capital funding from CMGI.
•
The most visited web portal in the world in the spring of
1999.
•
Near the peak of the internet bubble in May of 2000  Terra
Networks, S.A., the internet arm of the Spanish
telecommunications giant, Telefonica, for $5.4 billion.
•
In August 2, 2004, Terra selled Lycos to Daum
Communications for $95.4 million.
•
Lycos remained in business with a new management team in
early 2006.
MetaCrawler®
•
MetaCrawler® is a metasearch engine of InfoSpace, Inc.
•
blends the top web search results from Google, Yahoo!,
Windows Live Search (formerly MSN Search), Ask.com,
About.com, MIVA, LookSmart and other popular search
engines.
•
MetaCrawler also provides images, audio, video, news,
yellow pages and white pages.
•
in 1994 at the University of Washington by then graduate
student Erik Selberg and Associate Professor Oren Etzioni.
•
Used under license by Go2Net, which was later acquired by
InfoSpace, Inc. in 2000(2001?).
•
미스다찾니, 엠파스의 열린검색서비스도 같은 유형
google
•
Larry Page and Sergey Brin
while they were students at
Stanford University
•
The company was first
incorporated as a privately
held company on
September 7, 1998.
•
"You can make money
without doing evil“
•
"Work should be
challenging and the
challenge should be fun."
google
• A patent describing part of
Google's ranking mechanism
(PageRank) was granted on
September 4, 2001
• http://dbpubs.stanford.edu:8090/pu
b/1998-8
google
• PageRank
Related algorithms
• link (network) analysis
• graph analysis
• graph mining
• Hypertext Induced Topic
Selection (HITS,)
– http://www.cs.cornell.edu/home/klein
ber/auth.pdf
How to evaluate the pages?
YouTube
• Video 검색
• http://www.youtube.com/watch?v=
sTKxh7M1ESI
• http://www.youtube.com/watch?v=
D-PkRCQ20Ec
YouTube
•
YouTube is a popular free video sharing website which lets users
upload, view, and share video clips.
•
Videos can be rated, and the average rating and the number of times
a video has been watched are both published.
•
Founded in February 2005 by three former employees of PayPal, the
San Bruno-based service utilizes Adobe Flash technology to display
video. The wide variety of site content includes movie and TV clips
and music videos, as well as amateur content such as videoblogging
and short original videos. Currently staffed by 67 employees,
•
the company was named TIME magazine's "Invention of the Year" for
2006.
•
As of summer 2006, it is owned by Google(US$1.65 billion in
Google's stock),
•
http://video.google.com
검색엔진과 마케팅전략
The Pew Internet Project
Data Memo
• www.pewinternet.org
• 미국인 대졸자의 ¼이 매일 인터넷 검색을
함(고졸자는 20%)
• 3년이상 인터넷사용자는 검색엔진도 자주
사용한다
• 남자의 33%, 여자의 25%가 매일 검색엔
진 이용
인터넷과 광고
• 검색엔진의 검색결과의 위치조정이 현수막에 비해 2~3
배 효과적(NPD)
• 영국의 경우 사용자의 81%가 검색엔진을 통해서 원하
는 웹사이트를 방문 (UK Internet User Monitor,
2000)
• 인터넷 쇼핑몰이용자의 92%가 검색엔진이용 (NPD)
• 웹사이트방문 수단으로 검색엔진 선호 (46%, IMT)
• 한국의 경우(2005, KNP)
– 90% 가 거의 매일 인터넷사용
– 평균이용시간은 4.1h
인터넷과 광고(2)
• 많은 사람들에게 자사사이트 노출
– 인기 검색어 검색시 노출 (impression)
– 검색순위에서 상위에 rank
• 모든 사람을 대상으로 하는 것이 아니라
자사site의 정보를 원하는 사람에게 노출
시킬 것 (eg) 대출, 여성화장품
많이 검색하는 단어
www.wordtracker.com (2002.12.24)
1.
2.
3.
4.
5.
6.
auto: 3958
travel: 2909
google: 2223
yahoo: 1995
jokes: 1957
…
N** 2006. xx.xx
오전4시~5시
순위
keyword
1
선물
2
오전10시~11시
검색수
순위
keyword
오후9시~10시
검색수
순위
keyword
검색수
8,159
1
선물
4,756
1
싸이월드
3,129
반윤희
641
2
마이걸
3,528
2
머리스타일사진
2,791
3
싸이월드
522
3
궁
3,147
3
싸인만들기
2,473
4
컴온베이비
429
4
다음
2,339
4
궁
2,458
5
차길진
379
5
마이걸9회
1,924
5
다음
2,344
6
다음
359
6
싸이월드
1,742
6
선물
2,066
7
궁
244
7
동반입대
1,498
7
자기테이프
1,947
8
와우플포
243
8
궁시청률
1,442
8
마이걸
1,646
9
홍아름
229
9
옥션
1,016
9
옥션
1,578
와우
189
10
955
10
컴온베이비
1,495
10
명품의종류
SERP (Search Engine
Results Page)
• SERP is the listing of web pages
returned by a search engine in
response to a keyword query.
• The results normally include a list of
web pages with titles, a link to the
page, and a short description showing
where the keywords have matched
content within the page.
• A SERP may refer to a single page of
links returned, or to the set of all links
returned for a search query.
검색 순위의 중요성
기껏해야 7번째까지만 노출
검색 순위의 중요성
모든 검색결과가 광고
Clickthrough rate (클릭율)
• CTR is a way of measuring the success of an
online advertising campaign.
• A CTR is obtained by dividing the number of
users who clicked on an ad on a web page by
the number of times the ad was delivered
(impressions).
• For example, if your banner ad was delivered
100 times (impressions delivered) and 1
person clicked on it (clicks recorded), then
the resulting CTR would be 1%
SERPs Position and
Clickthroughs
source: http://www.seo-blog.com/serps-position-and-clickthroughs.php
SERPs Position and
Clickthroughs
• The dataset contained 36,389,567 search queries
source: http://www.redcardinal.ie
검색어와 사이트랭킹
• 키워드와의 관련성
• 사용자의 방문빈도수 (인기도)
• 타 site 혹은 page에서의 link 된 정도를
측정 - 구글
키워드 Abuse
어뷰즈 제거 전
순위
키워드
1
선물
2
반윤희
21
어뷰즈 제거 전
검색수
키워드
8159
검색수
반윤희
641
641
싸이월드
522
아침거미살리고
113
미치시게사유미
111
23
리니지플레이포럼
112
아이템베이
96
24
미치시게사유미
111
컴퓨터로tv보기
93
25
마이걸
104
토랑
92
26
토랑
102
tgbox
91
27
티지박스
99
변신할때악당공격
90
28
아이템베이
96
세이클럽
87
29
컴퓨터로tv보기
93
티지박스
87
30
tgbox
91
wow
86
31
변신할때악당공격
90
야후
86
32
세이클럽
87
보배드림
85
33
wow
86
넷마블
84
Pay Per Click
• Overture