IT has become Crucial

Download Report

Transcript IT has become Crucial

Del 5: Kap. 28-36
Internet and WWW Basics
How Information Technology Is Conquering the World:
Workplace, Private Life, and Society
Professor Kai A. Olsen, Universitetet i Bergen og Høgskolen i
Molde
03.01.13
1
Opplegg for forelesningene
Del 5 er stort sett grei lesning.
 Da dekker jeg bare utvalgte emner i
forelesningen.
 Skulle dere ha behov for hjelp så send epost.

Kai A. Olsen, 17.07.2015
2
Kap 28 HTML og XML

HTML


HTTP


Språk for å beskrive layout av en Web-side
Protokoll for å oversende Web-sider
XML

Språk for å lage standarder for dokument og
dataoverføring
Kai A. Olsen, 17.07.2015
3
Web mål

Berners Lee mål for WWW var:
Enkelhet
 Hypertext (linker)
 Alle skulle kunne utvikle Web-sider.
 Universelt
 Distribuert


Det fikk han til, sannsynligvis fordi han
jobbet alene (en komité ville nok laget
noe som var langt mer komplekst)
Kai A. Olsen, 17.07.2015
4
HTML – HyperText Markup Language
Et tag-språk der ideen er å omslutte data
med tags, for eksempel:
<title>IBE110</title>
 Utviklet av Tim Berners Lee ved CERN i
1991 (her tok vi innersvingen på
amerikanerne!).
 HTML beskriver layout på Web sider
 Det er enkelt, fleksibelt og kan brukes
nesten som et blankt ark.

Kai A. Olsen, 17.07.2015
5
Mer om HTML


Beskriver layout
Link-muligheten sentral (til bilder, andre sider, m.m.),
f.eks.:






<a href="http://www.uib.no/index.html">UiB</a>
Når vi klikker på denne linken (vist som UiB) vil
browseren utføre en GET-kommando for å få denne
siden
HTML er enkelt, men det er også språkets store
styrke!
HTML kan programmers av mennesker, eller av
dataprogrammer
”View Source” – viktig kommando!
Feil blir ignorert
Kai A. Olsen, 17.07.2015
6
Eksempel (kursside)
…
<h3>Eksamen</h3>
<p>Tidligere eksamensoppgaver (fra IDA 105) ligger på nettsiden. For 2007 vil vi bruke samme
eksamensform som i 2006. Oppgavene for dette året er derfor relevante. Eksamensettet vil
bestå av to deler…. (tilsvarende oppgavene i eksamenssett fra før 2006). <b> Begge deler
må bestås for at en skal kunne få bestått på eksamen! </b>Før 2006 ble det delvis brukt
andre lærebøker, likevel er kursinnholdet er ganske likt</b>
Merk! Feil
<h3>Viktig:</h3>
<ul>
<li><a href="godkjentH07.xls" target="_blank" >Oversikt godkjente øvinger (Excel)</a></li>
<li><a href="plan.doc" target="_blank" >Forelesningsplan (sist oppdatert 09.08.07) </a></li>
<li><a href="../IBE150/hjelpelarerplanh07.doc" target="_blank" >Hjelpelærerplan (felles med
IBE150)</a></li>
</ul>
…..
Kai A. Olsen, 17.07.2015
7
XML - eXtensible Markup Language,

Mens HTML kun
beskriver layout
kan vi bruke XML
til å beskrive
strukturen i
dokumenter..
 Vi får formalisert
dataoverføring.
 Men XML er bare
verktøyet.
 Vi må selv utvikle
standarder for
tagging.
Kai A. Olsen, 17.07.2015
8
Kap 29 Protokoller
Kommunikasjon er en viktig del, kanskje
den viktigste del, av moderne
databehandling
 Med det får vi tilgang til data
 Kan utføre oppgaver mot sentrale
systemer
 Kan kommunisere med andre
 Kan hente data, programvare og
oppdateringer fra nett

Kai A. Olsen, 17.07.2015
9
Kommunikasjonsprotokoll

Rutiner for å administrere og kontrollere
oversending av data:
For å kontrollere at avsenderen er den han
sier han er
 At bare mottakeren (e) får data
 At data er mottatt
 At data kommer fram akkurat slik de ble
sendt
 At data kommer fram innen rimelig tid

Kai A. Olsen, 17.07.2015
10
Nødvendig også uten datamaskinen

Telefonsamtale:
”Hallo”
 ”Dette er Nils”
 ”Ha det”


Radiosamtale (enveissamband):
”Over”
 ”Over og ut”

Kai A. Olsen, 17.07.2015
11
Pakke-svitsjet nettverk

Vi deler komplekse oppgaver (store filer) inn i mange
små, enklere oppgaver:




Store filer deles inn i mange pakker
Pakkene har fast størrelse
”Mange” er som kjent intet problem for moderne datautstyr
Fordel:





Pakkene kan sendes forskjellig vei
Mister vi en pakke, eller er det feil i en pakke, trenger vi bare å
sende denne på nytt
Enklere protokoller
Vi utnytter nettet bedre med pakke- enn med linjesvitsjing
Pakke-svitsjing er robust
Kai A. Olsen, 17.07.2015
12
Internet
IP – Internet Protocol
 Brukes av maskinene i begge ender av en
kommunikasjonsvei, og av alle mellomstasjoner
(rutere)
 32-biters adresse. 4 milliarder forskjellige adresser –
ikke nok! Ny standard (IPv6 ) bruker 128 biter
 For å kunne leses presenteres IP-adressene i
punktnotasjon, f.eks:


158.38.10.00
Kai A. Olsen, 17.07.2015
13
Domains

Vi mennesker trenger noe enklere:

Navnekonvensjon, f.eks. himolde.no, uib.no

IP adressene gis en mer brukervennlig form
med tekst, der vi deler verden inn i ”domains”
 Navneservere konverterer fra navn til IPadresser.
Kai A. Olsen, 17.07.2015
14
Lagdeling for datatransmisjon



Fra lav- til
høynivå
formalisering.
Kai A. Olsen, 17.07.2015

Nettene deles inn i
lag.
Nederst finner vi de
fysiske nettene.
Øverst
applikasjonene.
En applikasjon
trenger altså bare bry
seg med
transportlaget (TCP Transmission Control
Protocol), eller
enklere med enda
høyere lag.
Resten tas av de
underliggende
lagene.
15
Høynivå protokoller







Simple Mail Transfer Protocol (SMTP)
File Transfer Protocol (FTP)
Internet Message Access Protocol (IMAP)
Multipurpose Internet Mail Extensions (MIME)
Hypertext Transfer Protocol (HTTP)
Simple Object Access Protocol (SOAP) for å
sende XML dokumenter
JSON (Java Script Object Notation), en enkel
og fleksibel teknologi for å kommunisere
mellom datamaskiner. Basert på HTML5.
Kai A. Olsen, 17.07.2015
16
Oppgavefordeling





Om vi skal sende en ePost vil epostprogrammet bruke SMTP (høyeste nivå)
SMPT kan benytte IMAP
IMAP protokollen vil bruke TCP/IP
TCP/IP vil bruke nettverksprotokoller for å få
sendt pakkene
Nettverksprotokollene vil bruke fysiske
innretninger for å få sendt signalene (laveste
nivå)
Kai A. Olsen, 17.07.2015
17
Svakhet ved dagens epost-protokoller



Lett å endre på innhold
Lett å endre på avsenderadresse
Dette utnyttes av dem som sender SPAM,
virus m.m. til å skjule avsender eller bruke
falsk avsender
 Vi trenger sikrere protokoller for e-post
 I dag velger enkelte organisasjoner å unngå epost pga SPAM og lignende. Ingen god idé.
 Posten og andre organisasjoner tilbyr sikrere
e-post (Digipost m.m.)
Kai A. Olsen, 17.07.2015
18
Kap 30. Web protokoller





Når vi klikker på en link.
Vil ”browseren” utføre en GET-kommando,
med URL fra linken som adresse (f.eks.
www.himolde.no/index.html)
En navneserveren vil finne adressen, sende
forespørselen dit, og mailserveren vil da hente
fram og returnere Web-siden
Browseren vil så vise denne.
Overføringsprotokollen er HTTP, eller HTTPS
om en vil ha sikrere (kryptert) overføring.
Kai A. Olsen, 17.07.2015
19
HTTP (HyperText Transfer Protocol)

Bygget opp-på TCP/IP
 GET-kommando:



Ber om å få den aktuelle Web side
Siden identifisert med en URL (”Uniform Resource
Locator”)
URL identifiserer server og adresse til siden, f.eks.


http://www.ii.uib.no/persons/index.html
Visual Basic og andre språk har innebygget moduler
som kan hente Web sider for oss, om vi vil gjøre dette
fra et program
Kai A. Olsen, 17.07.2015
20
Web side (eksempel)
Kai A. Olsen, 17.07.2015
21
Kap 31. E-post, chat, SMS og tweets
Tekstbasert
 Standardiserte protokoller (kan brukes
overalt)
 Unike adresser (e-post eller
telefonnummer)
 Krever liten båndbredde
 Asynkront
 Billig eller gratis (gitt at vi har
Internettforbindelsen)

Kai A. Olsen, 17.07.2015
22
Store fordeler
Kjapt og enkelt
 Kan arkiveres
 Kan videresendes
 Kan genereres av datamaskin
 Lite forstyrrende for mottaker (i hvertfall
sammenlignet med telefon)
 Sending fra adressebok,
gruppeutsending

Kai A. Olsen, 17.07.2015
23
Eksempel



Sykehusene klager over at mange ikke møter til time.
Da kan en spørre seg hva de har gjort med det.
Her er en mulighet:




Send påminnelse på SMS to dager i forveien. Her med
opplysninger om hva det gjelder, hva en bør ta med, hvor
lenge det vil vare, etc.
Ny påminnelse to timer i forveien. Nå med kontaktinformasjon
(adresser, kart, osv.)
Eventuelle avviksmeldinger inntil rett før oppmøtetid.
Med et elektronisk bestillingssystem (som alle sykehus
har) er dette nesten kostnadsfritt.
Kai A. Olsen, 17.07.2015
24
Sammenligning av media for kommunikasjon
Kai A. Olsen, 17.07.2015
25
Kap. 32 Browsere
1991 – første Browser utviklet av Tim
Berners-Lee
 1993 Mosaic (NCSA, Marc Andreessen)
 1995 Netscape (Andreessen et al)
 1995 Internet Explorer (Microsoft, basert
på Mosaic)
 I dag også: Firefox, Safari, Opera,
Crome, …

Kai A. Olsen, 17.07.2015
26
Oppgave
Vise Web sider
 Utfører GET-kommandoer for å hente
sidene
 Presenterer sidene ut fra taginformasjonen
 Forenkle administrasjon (favoritter,
sidehistorikk, oppsett…)
 Utføre programmer (script og applets)

Kai A. Olsen, 17.07.2015
27
Surfing på Web

Nettbruk karakterisert ved:
Kort tid mellom klikkene
 Skanner sider mer enn å lese
 Trenger godt organiserte sider med lite
tekst, som understøtter kjapp navigering
 Følger linker
 Krever kjappe responstider

Kai A. Olsen, 17.07.2015
28
Skjema - form



Meget viktig funksjon
Vi kan nå bruke HTML også for inndata
Gir muligheter for en lang rekke applikasjoner:







Billettbestilling
Banksystemer
Ordresystemer
m.m.
Data fra forms blir hentet ut på serversiden
Med form-begrepet kan vi altså bruke HTML som et
grensesnitt mot andre systemer
Gir standardisering på brukersiden, grunnlaget er nå
lagt for B2C applikasjoner
Kai A. Olsen, 17.07.2015
29
Mer

Script, applets:



Cookies:


Små filer med ID som legges på din maskin. Server kan da
identifisere bruker.
Plug-ins:


En del kontroller kan gjøres i brukergrensesnittet i Browseren
Mer dynamiske brukergrensesnitt
Vi kan utvide funksjonaliteten til browseren
Sertifikater:

Browseren kan identifisere serverapplikasjonen (f.eks. et
banksystem), serveren kan identifisere bruker (en
bankkunde), kryptografert overførsel (HTTPS)
Kai A. Olsen, 17.07.2015
30
Tilstandsløs (stateless) protokoll


Serveren utfører HTTP oppgaver, uten å
”huske” hva den har gjort
F.eks:




Om vi først ber om å få se de 10 første resultater av et
søk, deretter de 10 neste
Så må serveren få beskjed om at vi vil se 11-20 i det
andre søket
En tilstandsløs protokoll er meget enkel, og vi
håndterer greit det at brukere stopper midt i en
prosess
Men vanskeliggjør applikasjoner med innlogging
osv. Vi skal komme tilbake til dette senere.
Kai A. Olsen, 17.07.2015
31
Kap. 33 Web

Inhomogene data:








Hjemmesider til personer
Hjemmesider til organisasjoner
Offisielle rapporter
Stiler, kursinnleveringer, øvingsoppgaver
Amatørorganisasjoner
Aviser
Blogger
…
Kai A. Olsen, 17.07.2015
32
Lavt formaliseringsnivå

Mesteparten av data er formalisert på
tegn/layout nivå (HTML, PDF)
 Samtidig er noe formalisert på høyt nivå
(billettbestillingssystem, banksystem)
 Vi må skille mellom systemer:



der data er lagret som tilgjengelig som f.eks. HTML
(”ekte Web”)
der data ligger i lukkede databaser og der Web
brukes kun for brukergrensesnitt
denne siste del blir stadig viktigere (bank, billett,
Facebook, YouTube, …)
Kai A. Olsen, 17.07.2015
33
Tilgjengelig/utilgjengelig


Mye er tilgjengelig for alle, men ikke alt
Mye data er lukket inne bak innloggings-prosedyrer:








Banksystemer
Bibliografiske databaser
Sosiale nett (Facebook)
Noen avisarkiv
Studieinformasjon (?)
m.m.
Her har en ofte høyere formaliseringsnivå
Men data kan være utilgjengelig for søkemotorer som
Google
Kai A. Olsen, 17.07.2015
34
Enveis linker

Vi kan linke dit vi vil, ingen sentralisering
 Men ulempen er at linken kan gå til en side
som er fjernet/endret
 Toveis linker ville rettet på dette, men ville
vært langt vanskeligere å administrere
 Vi kan være glad for at Tim Berners Lee valgte
det enkleste her også.
Kai A. Olsen, 17.07.2015
35
WWW i dag






Vi har et åpent nett der vi kan søke fritt
Data formalisert som HTML, pdf eller doc.
Det ”egentlige” WWW.
Men så bruker vi også HTML og HTTP for å ha
kommunikasjon med spesialsystemer: internett bank,
flybestilling, streaming tjenester, osv.
Her kan vi operere på et høyere formaliseringsnivå,
f.eks. vil SAS sitt Web-system forstå begrep som fra,
til, dato, tid…
Fordelen er at vi kan bruke vår standard browser for å
kommunisere med disse systemene.
Kai A. Olsen, 17.07.2015
36
Ikke åpent
Innholdet i spesial databasene er som
oftest ikke tilgjengelig.
 For eksempel vil informasjon i
Studentportalen ikke bli sett av Google’s
søkemotor.
 Da får vi den paradoksale situasjon at
universitetene og høgskolene betaler for
annonser på Google, men skjuler
informasjon slik at Google ikke finner
dette med vanlige søk.

Kai A. Olsen, 17.07.2015
37
Kap 34. Søking
Precision =
# relevant returned
# returned
Recall =
# relevant returned
# relevant in total
Kai A. Olsen, 17.07.2015
38
Web søking

Komplisert ved:




Datamengden
Inhomogen database
Naturlig språk
Forenklet ved:


At vi ofte ute etter å finne noe informasjon, og der
mye av det vi finner løser vårt informasjonsbehov
Gode søkemotorer
Kai A. Olsen, 17.07.2015
39
Søkemotorer

Basert på ord
 Tradisjonell tekstsøking: Prioritering basert på
antall forekomster av søkeordet
 Prioritering basert på betydningen av siden
(Google), definert som:




Hvor mange sider linker til denne siden?
Hvor viktige er de sidene som linker?
Andre kriterier
Prioritering basert på betaling, annonser
(Google er kritisert for å favorisere egne sider)
Kai A. Olsen, 17.07.2015
40
Eks.: Information overload
No
1.
2.
3.
4.
5.
6.
7.
8.
Query
information AND retrieval
“information retrieval”
full AND text AND information
AND retrieval
“information retrieval” AND “full text”
“full text information retrieval”
information AND overload
“information overload”
“information retrieval” AND
“information overload”
Kai A. Olsen, 17.07.2015
# returned
80,000
20,000
10,000
2,000
40
10,000
4,000
40
41
Søking
Google bruker sin PageRank algoritme
for å sortere søkeresultatet.
 I prinsippet prioriterer den sider som
mange linker til, spesielt om de som
linker til også har høy prioritet.
 I tillegg brukes et hundretall andre
faktorer.
 Det er særdeles viktig å komme høyt opp
på resultatlisten, mange scroller ikke, få
går til neste side.

Kai A. Olsen, 17.07.2015
42
Turbokforlaget
Vi oppdaget at vår side www.turbok.no
kom langt ned på Google med de
søkeordene kundene ville benytte.
 Fikk mange til å søke til oss (NRK,
kommuner)
 La inn en link fra min hjemmeside på
Høgskolen.
 Kom mye høyere opp.

Kai A. Olsen, 17.07.2015
43
SERP (Search Engine Results Page)
Antall treff
Sponsorlinker
(reklame)
Vanlige treff
(skal være
ikkekommersielle)?
Kai A. Olsen, 17.07.2015
44
Reklamelinker

Keyword pricing:
Nøkkelordene auksjoneres ut til
høystbydende
 Nielsen Norman Group betaler f.eks. 31
cent for ”usability training”
 Dvs. for hvert klikk som fører til deres site


Alternativ modell

Pris pr. view
Kai A. Olsen, 17.07.2015
45
Kai A. Olsen, 17.07.2015
46
Nytte-kostnad
Hvor mange av de som kommer til siden
(fra søkemotoren) kjøper noe?
 Hvor mye tjener vi på dette?
 Regnes opp til fortjeneste pr. klikk
 Vi kan by opp til dette
 Også en mulighet for at søkeren vil
komme tilbake direkte neste gang
(framtidige salg)

Kai A. Olsen, 17.07.2015
47
En svakhet med Googles forretningsmodell?
Kai A. Olsen, 17.07.2015
48
mer…
Kai A. Olsen, 17.07.2015
49
Annonsene integreres


Kai A. Olsen, 17.07.2015
Hvor ble
gulfargen
bak
annonsene
av?
Nå
integreres de
mer i
søkeresultat
et
50
Interne søk

Her har vi full kontroll,
vi kan ”tune” søket
 F.eks. kan vi kople
søkeord direkte til en
side.
 F.eks. om vi søker på
”informatikk-studier”
ved UiB bør vi få en
oversikt over alle
relaterte studier (dette
var ille før, bedre nå)
Kai A. Olsen, 17.07.2015
51
Google søk virker ofte bedre

Et søk i hele verden gir altså bedre resultat enn søk på
NSB!
Kai A. Olsen, 17.07.2015
52
Miniøving
Hvorfor tilbyr Google og andre
søkemotorer resultater fra sider som
ingen har betalt for?
 Dvs. hvorfor har de ikke bare ”sponsored
links”?

Kai A. Olsen, 17.07.2015
53
Generelt problem med søking



F.eks. søk etter ”Universitetet i Bergen” eller ”Høgskolen i Molde”
går greit, vi søker på et spesifikt navn og bruker samme navn i
søket som på Web-siden, 1 til 1 kopling
Søk etter bilen ”Golf”. Flere meninger av dette ordet skaper
problemer.
Jeg forsøkte å finne tilbake til eksperimenter gjort med formalisert
e-post (skjema) men ble overveldet av at ord som email, form,
schema, research er så mye benyttet. Vanskelig å beskrive mitt
informasjonsbehov med søkeord.
Kai A. Olsen, 17.07.2015
54
Filtrering

Her har vi også problemer med å formalisere
vårt ønske.
 F.eks. å blokkere pornografi.
 Mange muligheter, men virker ikke i praksis.
Kai A. Olsen, 17.07.2015
55
Informasjonskvalitet

På Web finner vi alt, fra vitenskapelige artikler
til hjemmesider for lugubre organisasjoner.
 Kan vi stole på det vi leser?
 Svaret er nei, men det kan være en fordel!
 Vi må selv vurdere troverdighet, sjekke hvem
som sier dette, finne andre kilder, osv. Det kan
være bedre enn å blindt akseptere at
læreboken, politikeren, avisen, osv. forteller
sannheten.
Kai A. Olsen, 17.07.2015
56
Miniøving

Vi skal i fellesskap lage en enkel Webside, basert på:
Direkte innskriving (Notepad)
 Direkte innskriving forenklet (uten tags)
 Endring av eksisterende Web-side (bruk av
”view source”)
 Bruk av verktøy (her Word)

Kai A. Olsen, 17.07.2015
57
Kap 35. Portaler





Organiserer informasjonen på Web
Hele Web (Yahoo)
For et firma, bransje, markedsplass, etc.
”Alt på ett sted” tanke
Data organiseres ofte i menyer, greit om vårt
informasjonsbehov kan klassifiseres på
samme måte
 Kjente organisasjoner i den fysiske verden
(f.eks. vg, nrk, tv2) forsøker å utnytte sin
posisjon til å etablere portaler
Kai A. Olsen, 17.07.2015
58
Kap. 36. Tilstedeværelse på Web



Mange har sin hjemmeside på nettet
Demokratisk at vi alle kan ha vår side her
Problemet er å skape trafikk – hvordan gjør vi det?







Kan vi gjøre linken kjent?
Kan vi bli ”utvalgt” av søkemotorene?
Lettere for VG enn for Ola Nordmann
Lettere for et hotell i Honningsvåg enn i London
Undersøkelser viser at 75% av trafikken går til noen få Web
steder
I de siste årene har noen nykommere klart å etablere seg med
kjente nettsider: Facebook, YouTube, Nettby… og også flere
blogger
Men det kan være problematisk å opprettholde trafikken over tid
Kai A. Olsen, 17.07.2015
59
Startups
IT har åpnet nye muligheter.
 Ofte kan nye firma (startups) være
flinkere til å se mulighetene enn
eksisterende firma (som kan være
opphengt i gamle rutiner)
 Mange land forsøker å stimulere
oppstartingsselskaper
 Selvfølgelig basert på suksessen til
Microsoft, Apple, Google, Facebook,
Twitter m.m.

Kai A. Olsen, 17.07.2015
60
Finland
Finland har lykkes godt med flere av sine
nye selskaper
 Start-up sauna, en inkubator for nye
firma. Finansiert av stat, universiteter og
næringslivet.
 Studenter har stått sentralt.
 Kopler sammen design og utvikling.

Kai A. Olsen, 17.07.2015
61
Eksempel: Rovio Entertainment
Utviklet suksessen
Angry Birds
 Lastet ned mer enn
600 millioner ganger
i 2011.
 Har kapital blant
annet fra Microsoft.
 500 ansatte i
Finland.

Kai A. Olsen, 17.07.2015
62