Digital Documents

Transcript Digital Documents

Digitale Dokumenter
Introduksjon til digitale dokumenter
Søkemotorer, agenter og roboter
bygget på en forelesning skrevet av Gisle
Hannemyr, bearbeidet av Runar Eggen
Høsten 2004
Høgskolen i Oslo
Hypertekst

Røttene går tilbake til Vannevar Bush og essayet «As we
may think» (1945)

http://www.csi.uottawa.ca/~dduchier/misc/vbush/awmt.html

Begrepet «hypertekst» ble skapt av Ted Nelson (1965),
som i boka Literary Machines (1981) definerer det som
«ikke-sekvensiell tekst».

Gjort til et et signifikant fenomen av Tim Berners-Lee
gjennom World Wide Web (1989).
As we may think
[…] publication has been extended far beyond
our present ability to make real use of the
record. The summation of human experience is
being expanded at a prodigious rate, and the
means we use for threading through the
consequent maze to the momentarily important
item is the same as was used in the days of
square-rigged ships. (Bush, 1945)
Digitale dokumenter

Siden WWW dukket opp på begynnelsen av 1990-tallet,
har produksjonen av hypertekst vært formidabel (alle
tall er fra 3. kvartal 2000 og må tas med en stor klype
salt):
– De mest pålitelige målingene gir nå en nedre grense for
datamengden i den ”statiske” delen av WWW på 19
Terabyte/19 millioner bøker (Inktomi)
– ”Deep web”: 7500 Terabyte (BrightPlanet)
– Library of Congress, 17 millioner bøker/ 17 Terabyte
– Lexis-Nexis: 11 Terabyte
– Dialog: 11 Terabyte
Internett og Wold Wide Web


Det er nå mer enn ti år siden Tim Berners-Lee
første gang slapp løs World Wide Web og
dermed skapte den største omveltningen siden
Gutenberg i hvordan vi reproduserer og
distribuerer informasjon.
Nå foreslår han at verden tar det neste steget
på veien mot informasjons-samfunnet.
Konseptet han nå forsøker å få aksept for er
«den semantiske veven».
Semantisk – hva betyr det?



Semantisk kommer fra det greske verbet
semaino og betyr ”betyr”.
Det semantiske nettet blir dermed nettet
med mening.
Dette henspiller på markupspråket, at
labels (merkelapper) får mening.
XML




XML står for extensible markup language.
Det er et språk for å definere markupspråk
Har dermed mange flere muligheter enn
HTML.
Dere vil lære mer om dette i Tor Arne
Dahls forelesning om XML.
Wold Wide Web og publisering



Mulighetene for å publisere digitale dokumenter innebærer så
mange endringer i forhold til tradisjonelle medier som bøker og
fjernsyn at det ikke er plass til å beskrive alle her.
Men en av de viktigste endringene som World Wide Web, sammen
med den underliggende infrastrukturen vi kaller Internett, brakte
med seg var, på godt og ondt, en enorm demokratisering i adgang til
å være «utgiver».
Før burde man helst eie et forlagshus og ha adgang til et større
distribusjonsapparat gjennom bibliotek og bokhandler for å kunne
publisere noe som hadde nedslagsfelt utenfor den nære familie og
vennekrets.
Informasjonsinfrastruktur


Infrastruktur: For å sette opp en
forretningsvirksomhet, administrasjons- eller
utdanningsprosjekt måtte man tidligere bygge
bygninger, kontorer, veier, telefonlinjer,
posttjenester og så videre.
Informasjons-infrastruktur: I dag kan man
skape en forretningsvirksomhet, et
administrasjons- eller utdanningsprosjekt ved å
bruke Internett som infrastruktur.
Dot.com-boblen





”Alle” skulle drive handel over Internett.
Hvorfor sprakk boblen?
Er den kommet tilbake, og vil den sprekke igjen?
”Brick and mortar”-bedrifter driver nå
forretningsvirksomheten sin over internett
Flyselskaper og banker har rasjonalisert ved
hjelp av Internett. Hvorfor ikke bilbiotek?
Internett og Wold Wide Web

World Wide Web (sammen med Internett) har imidlertid gitt
enhver med en datamaskin og minimale kunnskaper om å bruke et
redigeringsprogram et redskap der man bokstavelig talt for noen få
tusenlapper hadde adgang til et medium og et distribusjonsapparat
som hadde hele verden som sitt nedslagsfelt.

Resultatet har blitt en eksplosjon av publikasjoner. Legger vi
sammen det antall «sider» med tekst som i dag ligger offentlig
tilgjengelig i World Wide Web, så tilsvarer det mer enn 7 milliarder
bøker. Det er langt flere bøker enn det som for tiden befinner seg i
verdens største bibliotek, amerikanske Library of Congress.
WWW er ikke noe bibliotek


I et bibliotek er verkene i samlingen
kategorisert og katalogisert, og de
administreres av en kunnskapsrik stab som kan
hjelpe brukerne til rette i informasjonsjungelen.
Ikke noe av dette finner vi på verdensveven. Selv
slike selvsagte kategorier i
bibliotekssammenheng som «forfatter» og
«utgiver» kan det være en utfordring å finne ut
av når vi står foran en nettpublikasjon.
HTTP er en protokoll



En protokoll er en standard måte for
datamaskiner å snakke sammen på.
http:// står for hypertext transfer
protocol
Andre protokoller: ftp, mail osv.
Internett er mye mer enn web




World wide web er bare en del av
internett.
Internett er ”nettet mellom nettene”
Omfatter blant annet epost, filoverføring
(ftp), nyhetsgrupper m.m.
Internett er en gammel oppfinnelse
sammenliknet med www.
Formal definition of the Internet
The global information system that:
(i)
(ii)
(iii)
is logically linked together by a globally unique address space
based upon the Internet protocol (IP) or its subsequent
extensions/follow-ons,
is able to support communications using the transmissioncontrol protocol/Internet protocol (TCP/IP) suite or its
subsequent extensions/follow-ons and/or other IP-compatible
protocols, and
provides, uses or makes accessible either publicly or privatly,
high-level services layered on the communications and related
infrastructure described herein.”
— Federal Networking Council in a resolution, October 24, 1995
Uformell definisjon av Internett
A chaotic repository for the collective output
of the world’s digital «printing presses».
—Lynch 1997
Oversatt:
Et kaotisk lager for den samlede produksjonen
til verdens ”digitale trykkerier”.
The Resource Discovery Problem

Først formulert av Alan Emtage og Peter
Deutsch i Archie - an Electronic Directory
Service for the Internet (1992)
– Archie var en søkemotor innen ftp som kom før
de weborienterte søkemotorene.

Før en bruker kan utnytte tjenestene som
tilbys av internettsamfunnet eller aksessere
informasjonen som tilbys av slike tjenester,
må han vite om både eksistensen til
tjenestene og vertene hvor de er
tilgjengelige.
Den overdrevne betydning av agenter

I litteraturen om softwareagenter blir det ofte hevdet at
denne teknologien er i stand til å løse flere av de svært
synlige problemene som brukere av moderne
nettilkoblede datamaskiner møter, inkludert:
– informasjonsoverflods-problemet
– ressursoppdagelses-problemet
– overdrevent kompliserte brukergrensesnitt

En agent er et program som handler (agerer) for
brukeren, det vil si utfører oppgaver det har blitt pålagt.
F.eks. vil Finn.no si fra hver gang det finner en jobb som
passer med brukerens beskrivelse av hva han er
interessert i.
Status for agentene


Så langt har ikke software-agenter klart å
få så mye som ventet ut av elektroniske
kunnskapskilder.
Grunnen er antakelig at det er svært lite
semantisk informasjon elektronisk
tilgjengelig.
Tidlig eksempel på elektronisk
ressurs-gjenfinning





I 1956 vedtok delstaten Pennsylvania en lov om å endre uttrykket
“retarded child” til “exceptional child”. For å iverksette loven måtte
man lokalisere alle steder i lovtekstene hvor ordet forekom.
Først ble en student satt til å lese gjennom lovene og liste opp alle
forekomster av termen. Dessverre var unøyaktigheten for høy til å
aksepteres.
Deretter ble lovene registrert på hullkort. Det ble da en triviell
oppgave for datamaskinen å lese gjennom materialet og finne alle
forekomster av termen.
Problemet var løst. Som et biprodukt fikk Health Law Center at
University of Pittsburgh den fulle teksten av lovene i maskinlesbar
form.
Senteret fant andre og mer spennende måter å utnytte dette
materialet på. Fritekst elektroniske søkesystemer var født.
Copernic







Copernic er en agent
Søker på Internett
Søker på din egen harddisk
Søker i filer
Lager sammendrag
Fjerner irrelevant stoff som annonser fra
websider
Søkeagenten kan lastes ned gratis
Tidlig ”ressursoppdagelse”






Lexis-Nexis, Dialog – proprietary space
Archie - ftp-space (recorded pathname only)
Veronica (Very Easy Rodent Oriented Net-wide
Index of Computerized Archives) – gopherspace
WAIS (Wide Area Information Services) – self
contained, directory of servers exchange
Yahoo – manual indexing of web resources
AltaVista – first true web search engine
The Resource Discovery Problem



The resource discovery problem encompasses
not only how to find resources.
Having discovered a resource, the user needs to
assess its quality, relevance, topicality,
significance and suitability.
If the discovery process yields pointers to
several alternative resources, the user needs the
means to qualify them and to identify the
resource or resources that provide the “best
fit” for the problem at hand.
Så kom søkemotorene for web

De er radikalt forskjellige fra tidligere
systemer i og med at de:
– bruker roboter istedenfor arkivarer til
datafangst.
– Skiller mellom dataspace og search space.
– Initielt var de 100% basert på fritekstsøk.
– Kjernebegrep: URI
Løsningen på kaoset?




Roboter og søkemotorer
Roboter (spidere) går gjennom nettet og
legger inn nettsider i kjempemessige
databaser ”uberørt av menneskehånd”.
Søkemotorene søker i databasene.
Eksempler på søkemotorer: google,
kartoo, vivissimo, exalead, teoma,
alltheweb, hotbot, altavista osv...
A Resource According to RFC 2396
(Uniform Resource Identifier: URI)

A resource is anything that has identity:
– Familiar examples include an electronic document, an image, a service
(e.g., «today's weather report for Los Angeles»), and a collection of
other resources. Not all resources are network «retrievable»; e.g.,
human beings, corporations, and bound books in a library can also be
considered resources.

More complex than a database key or a Dewey identifier:
– The resource is the conceptual mapping to an entity or set of entities,
not necessarily the entity which corresponds to that mapping at any
particular instance in time. Thus, a resource can remain constant even
when its content - the entities to which it currently corresponds changes over time, provided that the conceptual mapping is not
changed in the process.
Søkemotorer

Globale søkemotorer
– Google (størst)
– Exalead (bedre søk)
– AltaVista (var først)

Metasøkemotorer
– AskJeeves
– DogPile
– MetaCrawler
Mediaorienterte s.m.
Google Image Search
ftp-søk
Mp3-søk
Emneorienterte s.m.
Cora (naturvitenskap)
Sara (statistikk)
Kulturnettsøk (kultur i Norge)
Informasjon om søkemotorer:
http://internetbrus.com/blog.php
Hvordan fungerer de



Et program, vanligvis kalt en “robot” (også
kjent som en “scooter”, “drone”, “spider” eller
“web crawler”) går gjennom Internett og
trekker ut data om ressursene som det finner
Dataene som ble trukket ut av roboten lagres i
en database på søkemotorens vertsmaskin(er)
og bearbeides og struktureres for søking
Dataene søkes i gjennom et brukergrensesnitt,
og resultatet av søkene vises som et ordnet
sett.
Virkemåten til en søkemotor
Robot (datafangst)
Søkbart datasett
Søkespesifikasjon
Filterspesifikasjon
Resultatsett
Rangering
Presentasjon
Figur 1: Anatomien til en typisk
Internett søkeportal
Søket etableres gjennom at
brukeren angir hva det skal søkes
etter (en søkespesifikasjon).
Ofte har bruken brukeren
muligheten til å begrense søket
gjennom ett eller flere filtre som
typisk er knyttet til metadata som
under datafangsten er syntetisert
ut fra dataene selv, URLen og/eller
HTML-markeringer.
Bruk av søkemotorer


De klassiske informasjonstjenestene ble typisk bygget opp for å håndtere
søkebehovene til profesjonelle søkere (for eksempel ble Dialog started
som en intern service ved Lockheed Aerospace Corporations bibliotek i
1965). Da denne tjenesten ble tilgjengelig for eksterne kunder i
begynnelsen av 1980-årene, var deres typiske bruker en profesjonell
bibliotekar som handlet på vegne av en akademisk institusjon eller en
betalende kunde som brukte systemet for profesjonell research.
Internetts søkemotorer er gratis tilgjengelige, og hovedvekten av deres
brukere anvender dem ikke for arbeidsrelaterte aktiviteter. En analyse av
loggen til den en gang så populære AltaVista-søkemaskinen foretatt høsten
1998 gav disse mest brukte termene: sex, applet, porno, mp3, chat, warez,
yahoo, playboy, xxx, hotmail (Silverstein et al 1998). En tilsvarende sjekk i
mars 1999 (Blast 1999) gav en nesten identisk liste.
Internett er blitt for stort


Internettet er blitt for stort for manuell
registrering av websider
Noen av de manuelle forsøkene har
imidlertid svært høy kvalitet, som for
eksempel Yahoo.
Hva er forskjellen -1


Forskjellen på en robot og en søkemotor
er at roboten samler inn dataene og
søkemotoren finner dem fram for deg når
du søker.
Forskjellen på katalogtjenesten Yahoo og
en søkemotor er at Yahoo er bygget opp
av mennesker.
Hva er forskjellen - 2





Forskjellen på en typisk arkiv/biblioteksdatabase
og en søkemotor er at arkiv/biblioteksbasen er
bygget ”for hånd” av bibliotekarer.
De første hybridene har imidlertid kommet.
Bibliotek- og arkivsystemer kan bruke roboter
for å fulltekstindeksere organisasjonens
dokumenter.
Forfatteren kan legge inn metadata.
Hva blir bibliotekarens rolle?
En bekymret katolikk

«Når jeg for eksempel ønsker informasjon om hva som er riktig
katolsk lære går jeg til den katolske kirkes egne websider.
Fortrinnsvis den norske katolske kirke – altså de offisielle katolske
websidene for Norge. Av og til går jeg også til New Advent, selv om
jeg vet at de en god del for konservative for min smak, de er for
eksempel litt mer rosende ovenfor en del kontroversielle paver enn
jeg ville vært, men absolutt en troverdig kilde. Det er viktig for oss
katolikker at vi får korrekt informasjon. Tenk deg for eksempel
at noen tok et offisielt pavelig dokument og fjernet ordet
“ikke”. Måten jeg vet at de nevnte webstedene er troverdige på
er at jeg ser på den informasjonen som ligger der, og måten de har
strukturert informasjonen på, og ut fra det bygges tilliten til disse
webstedene opp over tid.»
Hvordan vurdere kilder på nett





”Løkskrelling” for å se hvem som står
bak.
Er det en offentlig myndighet eller en
kilde du kjenner?
Refererer andre til kilden?
Virker stoffet gjennomarbeidet og
ortografien bra?
Vi kommer tilbake til dette på slutten av
forelesningen.
Hvordan lure søkemotorene

Meta-data
– Man kan legge inn repeterte ord.
– Man kan legge inn ord som ikke beskriver egen side.

Lenker
– Søkemotorene ser gjerne på hvor mange ganger en
side er blitt lenket til fra andre nettsteder. Hvis flere
nettsteder samarbeider om å lenke til hverandre, får
de høy rangering.

Bruke spesialister
Synliggjøring av biblioteksystemer






Biblioteksystemer AS:
<meta name="keywords" content="biblioteksystem, biblioteksystemer, samsøk,
kikkhullet, websøk, safarisøk, dugnadsbasen">
Bibliotekenes IT-senter:
<META NAME="keywords"
CONTENT="Mikromarc,service,tidsskrifter,bibliotek,biblotek,Micromarc,Library
automation software, Mikromarc, Micromark, biblioteksystem, bibliotekssystem,
biblioteksystemer, tidsskrifthåndtering, tidsskriftsystem, periodikasystem, z39.50,
Aleph, Metalib, SFX, DigiTool, NetLoan, portal, ebib, bibliotek, sentral drift,
sentraldrift,ASP, programvare, bibliotekautomatisering, biblioteksautomatisering
Win32,Windows,Win95,Windows 95, NT,WebCat,Websæk,WebOPAC, OPAC,
bibliotekscentrum, BIC, Europe, Norway, Sweden, Denmark, Iceland, Samisk, English,
Internet search, Norge, Sverige, Danmark">
<META NAME="description" CONTENT="Mikromarc library automation software.
PC/Windows/NT/Windows 2000/Windows XP/DOS, Client/Server, RDBMS">
Søk i forskjellige søkemotorer på biblioteksystem gir svært forskjellige treff.
Roboter kan manipuleres
Hva er spam?

SPAM er opprinnelig en forkortelse for SPiced hAM fra Hormel Foods. Se
http://www.spam.com

Ordets mer moderne betydning ble introdusert av Monty Python’s Flying
Circus i en sketsj der en gjeng med vikinger synger ordet ”spam” og
stanser all videre konversasjon. Se http://www.spam.com/ci/ci_in.htm

Ordet brukes nå mest om uønsket reklame-epost, (Unsolicited
Commercial Email eller UCE). Har også blitt brukt om ”index spam”, det
vil si manipulerte, verdiløse søkemotortreff)
Searching for “Bauhaus”
Keyword spam
Siden gir 66% score – ledsaget av følgende forklarende tekst:
INFORMATION CONTENT IS FOCUSED TOWARDS KEY TOPICS The text appears to
be very significant. It should be highly interesting due to high information value. It
addresses key issues such as bauhau, art, architecture, bauhau style, national socialism,
architecture movement, nazism, craft movement and craft. Relevant. Some core concepts
such as architect ludwig mie van der rohe, dessau, germany, fine art, international style,
art academy, craftsmanship, craftsman william morri and aesthetic standard are
addressed in an informative way.
Denne siden er imidlertid bare en online ordliste inneholdende drøyt 45 tusen
ord i alfabetisk rekkefølge, inklusive: art, academy, aesthetic, architect,
architecture, bauhaus, craft, craftsman, fine, germany, international, ludwig, morris,
movement, national, nazism, socialism, standard, style, van og william.
Problemer med søkemotorer

Fritekstsøk gir for dårlig
kvalifiserte data:
– Ikke vanskelig å finne materiale på
web om George W. Bush
– Vanskeligere å finne materiale der
George W. Bush er forfatteren. Kan
bruke http://www.ubka.unikarlsruhe.de/kvk.html
Søking er big business

Fast og Google
– Norske Fast tapte kampen om Internett, men gjør
det bra med søking i bedriftenes egne data som
forretningsområde

Finn.no og Notar.no
– Notar er et eiendomsmeglerfirma og de lanserte et
søk som søkte i Aftenpostens Finn.no sine
boligannonser. Dette likte Finn.no så dårlig at de
forsøkte å stenge Notar ute, både teknisk (IPadresse) og rettslig.
Kamp om faglitteraturen

OAIster er navnet på en ny søkemotor for felles
faglitteratursøk. Den utvikles ved Universitetet i
Michigan. "OAI" står for "Open Archives Initiative".

Universitetet i Michigan mistenker, ifølge
Universitetsavisa, at Google prøver å inkludere
OAIster-materiale i sitt søk uten tillatelse, slik at
Google-søket skal bli mest mulig fullstendig. Da
Chronicle of Higher Education prøvde å spørre
Google om dette, ønsket de ikke å uttale seg.
Mer enn Google






http://www.exalead.com
http://www.mooter.com
http://www.oaister.umdl.umich.edu/o/oaist
er/
http://www.teoma.com/
http://www.webbrain.com
Bærum folkebibliotek
Egenskaper







Google: stor, ikke trunkering (primitivt søk)
Exalead: avansert søk, clustering, fonetisk søk
(eks.: sannefjoor)
Webbrain:Visuell clustering
Vivissimo: Clustering
Mooter: Visuell clustering, ikke æøå
Teoma: Forslag til innsnevring, markerer
sponsede lenker
kartoo: Visuell clustering, viser sponsing,
metasøkemotor
Hvordan søker folk?





Ifølge Jansen og Pooch. A review of web
searching studies and a framework for
future research (2000)
Ca to ord per søk
De fleste ser på ti eller færre dokumenter
10 % av søk med boolske operatorer
70 % hevder de fant relevant stoff
Søkemotorer, ytelsemåling

Klassisk vurderes søkemotorer ved at
man ser på:
– Relevans: dvs. evnen i form av evne til å
finne relevante dokumenter og evne til å
ekskludere irrelevante.
– Presisjon: dvs. evnen til å rangere relevante
dokumenter først.
Søkemotorer, ytelsemåling



Når man søker på Internett er funnmengden i praksis
ubegrenset oppad. Vi må altså modifisere de klassiske
målemetidene ved å velge et begrensningspunkt (cut-off
point, eller cop, i figuren neste lysbilde).
Erfaring viser at brukere av søkemotorer sjelden
forholder seg til funn ut over side 1 (vanligvis de 10
første funn), så det ble valgt å sette avskjæringspunktet
til 10.
Dokumentene deles så inn i fire mengder. som illustrert
i tabellen på neste slide.
yes
no
Relevant
Søkemotorer, ytelsemåling
ABOVE COP
BELOW COP
F(ok)
relevant over cop
¬F(ok)
noise1
F(¬ok)
noise2
¬F(¬ok)
irrelevant below cop
(acop) = F(ok+¬ok)
(bcop) = ¬F(ok+¬ok)
(ok)
all wanted
(¬ok)
all unwanted

all resources
Relevans (1)


Relevansbegrepet er svært komplekst. Det opereres i litteraturen
med flere ulike relevansbegreper.
I forsøket ble det valgt å bruke følgende to relevanskriterier:
– Topikalitet (også kalt for innholdsrelevans)
Topikalitet er et mål for samstemmighetsrelasjonen mellom
søkeforespørsel og søkesvar. Topikalitet er uavhengig av brukerens behov
eller situasjon. Topikalitet bør derfor bedømmes av domeneeksperter.
– Kvalitet
Dette er et mål for systemets evne til å rangere høyverdige ressurser
(definert langs slike definisjoner som lødig innhold, troverdig kilde,
relevant genre) foran mindre verdige ressurser. Også kvalitet
bedømmes best av en domene-ekspert.
Topikalitet (0-1)






Siden omhandler et annet emne = 0.
Siden har marginal relevans = 0,1-0,2
Siden gir referanser til eksterne kilder med
relevant informasjon (0,3-0,4)
Siden inneholder en del relevant informasjon
0,5-0,6
Siden har et innhold som er svært relevant i
forhold til forespørselen (0,7-0,9)
Full klaff (1.0)
Kvalitet (Skala: 0-1)

Eier av nettstedet:
–
–
–
–
–






kjent som upålitelig = 0;
ukjent = 0,1;
tilsynelatende tilforlatelig kilde = 0,2;
kjent og respektert organisasjon, men med diclaimer = 0,3;
offisiell informasjon fra en kjent og respektert publisher = 0,4
Angitt byline for forfatter eller annen kilde (0,1)
Forfatters/kildes affiliasjon er angitt (0,1)
Forfatter/kilde kjent og respektert (0,1)
Dato for publisering oppgitt (0,1)
Språkføring og grammatikk av profesjonell standard (0,1)
Typografi/layout av profesjonell standard (0,1)
Relevans (++)

I litteraturen opereres med et tredje mål som vanligvis kalles for nytteverdi
(utility) eller subjektiv relevans.

Dette er et mål for relasjonen mellom brukerens situasjonsbestemte
behov for informasjonsressurser og resulatet av søket.

Nytteverdi påvirkes både av hva brukeren akter å bruke informasjonen til,
og hva slags kunnskaper brukeren har om emnet på forhånd (brukere har
for eksempel mer nytte av informasjon som gir dem ny informasjon, og
mindre nytte av å informasjon som de allerede kjenner til.)

Nytteverdi må derfor bedømmes av brukeren av informasjonen.
Test av relevans

To kjøringer:
– Kjøring 1 henter inn resultatsett for en gitt Internett
søkemotor (referanse) Typisk er dette 300
dokumenter, hvorav de fleste var irrelevante.
– For å vurdere relevans (topikalitet) ble det rett og
slett summert opp relevansscore x 10 for de ti
høyest rangerte sidene. Testsøk ble så kjørt mot
resultat-settet produsert av referanse-søkemotoren.

Det innebærer at det samme sett av sider er
rangert for hvert enkelt par tester.
Test av relevans

To søk:
– Biografi over den norske politikeren Einar
Gerhardsen.
» Bare fem kjente dokumenter på web som er
relevante.
– Bauhaus, i betydningen arkitekturretning
» Ukjent antall kjente dokumenter, mange falske
positive (rockeband, busselskap, butikker)
Test av relevans (Bauhaus)
#1
#2
#3
#4
#5
#6
#7
#8
#9
10
SUM
Referanse
(Google)
4
4
7
7
7
7
0
0
7
8
51
TESTSØKEMOTOR
3
2
0
0
0
0
0
9
10
10
34
For å vurdere innholdsrelevans (dvs. topikalitet) ble det
summert opp innholdsrelevansscore for de ti høyest
rangerte sidene. Nytteverdi er ikke testet.
Test av kvalitet

Sidene ble også evaluert for kvalitet, men
dataene ga ikke grunnlag for å trekke
noen konklusjoner.
– Sider av ulik kvalitet var distribuert helt jevnt
over hele rangeringstabellen.
– Dette var et uventet resultat for Google,
som forskeren i utgangspunktet trodde
hadde en rangeringsfunksjon som ville
favorisere kvalitet.
Presisjon
Presisjon er egentlig et mål for evne til å rangere
relevante dokumenter først, og beregnes fra følgende
formel:
P
F (ok)
(ok)
En søkemotor som plasserer samtlige relevante
dokumenter i søkemengden over avskjæringspunktet
vil ha en presisjon lik 1, en som ikke plasserer noen
der vil ha en presisjon lik 0.
Test av presisjon



Testen «Gerhardsen» gjør det relativt enkelt å
evaluere presisjon, fordi det så vidt vites bare er
fem engelskspråklige dokumenter på web som
er relevante i forhold til å gi biografiske
opplysninger om Einar Gerhardsen.
Av søkemotorene var det forøvrig bare Google
som fanget inn samtlige fem i de data vi høstet
for testen (ca. 300 sider pr. søkemotor), men
bare 3 over COP (som il si 60% presisjon).
COP er satt til 10.
Test av presisjon (Gerhardsen)
Resultat,
Referansemotor
Resultat,
TESTSØKEMOTOR
Referanse
(ok)
F(ok)
P
F(ok)
P
AllTheWeb
4
4
1.0
3
0.75
Excite
4
2
0.5
3
0.75
Google
5
3
0.6
3
0.6
The fallacy of abundance

Don Swanson:
– The fallacy of abundance is the mistake a searcher
makes when he uses a large IR system and is able to
find some useful documents.
– On a sufficiently large system […] almost any query
will retrieve some useful documents.
– The mistake is to think that just because you got
some useful documents the IR system is performing
well. What you don’t know is how many better
documents the system missed.
The games people play
Misuse of metatags
 Keyword hijacking
 Dictionary spam
 Faking link cardinality

Problemer med veven - oppsummering

Generell orientering mot visuell presentasjon

Vevens fri-for-alle blanding av genrer og formater

Juks fra vevmestre for å øke deres siders synlighet i søkemotorene

Manglende evne til å håndtere endringer og forskjellige typer
dynamisk innhold (f.eks. kortvarige sider, dynamiske databasesøk,
versjonsoverskriving)

Lite støtte for metadata

Manglende autentiseringsmekanismer og rettighetsadministrasjon
From metadata to support of online
communities


The idea behind introducing metadata is to enable an IR Owner
(e.g. the creator or publisher) to create metadata describing own
resources. The same scheme would be used by individuals (e.g.
individual shareware programmers), corporations (e.g. software
companies) and organizations (such as a user group aligned with
some development platform) to bind metadata to resources.
As with PICS, it is possible for other entities than the creator or
publisher to create metadata files. One possible scenario is that a
cooperative body such as the (fictional) Gazonk User Group
(GUG) organizes an effort to document through metadata files all
the resources on the web of value to the Gazonk using community.
Gazonk hackers searching the web can then specify to the search
engine that they are only interested in hits associated with
metadata files bearing the GUG signature.
Platform for Internet Content Selection

The PICSTM specification enables labels (metadata) to
be associated with Internet content. It was originally
designed to help parents and teachers control what
children access on the Internet, but it also facilitates
other uses for labels, including code signing and privacy.
The PICS platform is one on which other rating
services and filtering software have been built.
To forskjellige tjenester

1.
2.
3.
4.
5.
6.
7.
8.
9.
The two worlds:
Atekst
Kvasir
Intrinsic
Hosted (IS>=IRs)
Non-hosted (IS!=IRs) Yes
IRs
Presentation oriented No
IRs Structure Data oriented
Newspaper articles
Miscellaneous
Yes
Genres
Persistent and in-sync Transient/Ephemeral Yes
Persistence
None
Some
Yes
Replication
Controlled
Chaotic
No
Vocabulary
Archivists
IR owners
Yes
Agency
«To provide a service» «To generate hits»
Yes
Agenda
Source
Free for all
Partly
Quality Ass.
Table 1: Atekst and Kvasir, summary of characteristics
Viktig å huske




Internett er ikke et bibliotek
Internet er ikke en venn
Det er viktig å separere lokale kilder fra
globale
Kildekritikk er enda viktigere enn det har
vært før