Document

Transcript Document

Technologies Web
[email protected]
Licence Miage 2005-2006
Objectifs du cours
• Donner une vue d’ensemble du web et de ses technologies
• Aborder l’architecture d’un point de vue logique
• Différencier les technologies client et serveur
• Présenter un large spectre de technologies
• Parler brièvement des web services
Plan
•
Bref présentation d’Internet et du www
–
–
•
Architecture et logiciels pour le web
–
–
–
–
–
•
HTML
CSS
JavaScript
Applets
Technologies côté serveur
–
–
–
–
–
•
Clients web
Serveurs web
Proxy Cache
CDN
HTTP
Technologies côté clients
–
–
–
–
•
Histoire d’Internet
Le W3C
Cookies
CGI
PHP
ASP/ASP.NET
Servlets et JSP
Moteurs de recherche et Web Services
Brève présentation d’Internet et du
www
Histoire d’Internet
• 1962: étude pour la création d’un réseau pour commander
l’infrastructure nucléaire américaine capable de résister a une
attaque nucléaire
 Choix d’un réseau par commutation de paquets
• 1969: construction du premier réseau physique (4 machines,
50 kbps)
• 1972: envoie du premier email (23 machines, 50kpbs)
• 1973: création de TCP/IP
• 1974: première utilisation du terme Internet
• 1979: création d’Usenet
• 1982: TCP/IP devient le standard d’Internet
• 1983: Création du Domain Name System
Histoire d’Internet - 2
•
•
•
•
•
•
•
•
•
1986: création de l’IETF
1990: création d’un système hypertext par Tim Berners-Lee
1992: le CERN présente le World Wide Web
1993: création de Mosaic, premier client pour le web
1994: création du w3c
1995: IE 1.0
1997: IE 4.0 sort, Netscape a 72%, IE 18%
1998: Netscape jette l’éponge et se fait racheter par AOL
1998: Netscape rend le code source de son navigateur
disponible sous licence open source
• 2002: Mozilla 1.0
• 2004: début de la deuxième guerre des browsers
W3C
• World Wide Web Consortium
• Crée en 1994
• 3 buts
– Accès universel au web à travers des technologies tenant compte des
différentes cultures, langues, handicapes…
– Web sémantique
– Web of trust: guider le développement du web en tenant compte des
aspects légaux, commerciaux et sociaux liés aux nouvelles
technologies.
• Rôle du w3c
– Interopérabilité: les spécifications des protocoles et langages du web
doivent pouvoir fonctionner ensembles.
– Évolution: s’assurer que de nouvelles technologies peuvent être
ajoutées au web.
– Standardisation: donner des Recommandations décrivant les
technologies du web.
W3C - Organisation
• Le w3c est accueilli par 3 organisations:
– MIT (USA)
– KEIO (Japon)
– ERCIM (France)
• 3 principes
– Neutralité: appel aux commentaires publics
– Coordination: travaux avec d’autres organismes (IETF, Unicode
Consortium…)
– Consensus: si possible, décision à l’unanimité sinon à la majorité.
• Membres du w3c:
–
–
–
–
Financent le w3c
Participent au choix des technologies futures
Who’s who de l’informatique: Microsoft, Cisco, Oracle, Apple…
Des membres institutionnels (universités)
W3C – Domaines d’activité
• Architecture
• XML, Web Services, Internationalization, URI (Uniform Resource Identifier),
DOM
• Interaction
– Compound Documents, Device independence, Graphics, HTML, CSS,
MathML, Synchronized Multimedia, Voice Browser, XForms
• Technologie et société
– Semantic Web, Platform for Privacy Preference, XML signature, XML
encryption, XML key management, Patent Policy and Standards
• WAI: Web Accessibility Initiative
– Politique et techniques pour l’accés à l’information des personnes
handicapées
Architecture et logiciels pour le web
Fonctionnement du web
Client
Serveur
Web
Client
Proxy
Cache
Client
Nom de domaine
• Il est plus facile de se rappeler d’un mot/phrase que d’une
série de chiffres…
• Les noms de domaine sont des suites alphanumériques de
caractères séparées par des points
• Chaque segment a une taille/valeur arbitraire (mais limitée)
• Le segment le plus significatif (le plus à droite) est normalisé
– com, edu, gov, info, org, net, biz…
• La transformation du nom de domaine en adresse IP se fait en
contactant un serveur de domaine (DNS)
• Les serveurs DNS sont organisés hiérarchiquement
• Au sommet se trouvent les serveurs racine
• Chaque organisation peut mettre en place son serveur
Nom de domaine - 2
Serveurs
DNS
Serveur
Web
Client
http://www.google.com
•Pour communiquer, un client doit connaître l’IP d’un serveur et un
numéro de port
•Cette adresse s’obtient auprès d’un serveur DNS (lookup)
Serveurs DNS
.
com
amazon
org
gov
biz
unice
fr
free
inria
• Une requête DNS est envoyée au serveur du domaine dont
dépend la machine
• Si le serveur n’a pas autorité il demande à son parent…
• Les réponses parcourent le chemin inverse et sont mises en
cache
Les clients web
• Variété des plateformes
– Windows, Unix, PDA…
• Variété des logiciels
– IE, Firefox, Mozilla, Opera, Lynx…
• Caractéristiques
–
–
–
–
Gestion d’HTML/XHTML
Gestion de CSS
Gestion de JavaScript
Gestion de plugins
Répartition des clients web
•
IE6
Décembre
2004
65.5%
Octobre
2005
68.9%
IE5
9.9%
5.6%
Mozilla et
Firefox
Opéra 7/8
17%
21.3%
1.8%
1.3%
Netscape
1.6%
1.6%
Source: http://www.w3schools.com/browsers/browsers_stats.asp
Répartition des clients web - 2
•
Statistiques servent a cibler ses utilisateurs
•
Information globale, pas locale. Un site web attire un certain type
d’utilisateur
•
La détection n’est pas forcément exacte
– Utilisation du User-Agent
•
La répartition évolue en fonction du temps
– Utiliser des technologies spécifiques à un navigateur est un pari sur l’avenir
•
Ne pas utiliser ces infos pour discriminer mais pour ajouter du contenu
« Un homme s’est noyé en traversant une rivière profonde de 2 mètres en
moyenne » W. I. E. Gates
Étapes pour la visualisation d’une page
web
• L’utilisateur entre une URL
• Le client web effectue une résolution DNS pour avoir l’adresse
du serveur
• Il effectue la requête http et reçoit un document
• Il analyse le document pour
– Préparer l’affichage
– Trouver les liens vers les images
• Une requête est effectuée pour downloader les images
• Cela peut se faire en parallèle ou séquentiellement
Serveurs Web
• Programmes répondant aux requêtes des clients web
• Souvent appelé serveur http ou httpd
• Écoute sur le port 80 (convention) d’une machine
• 2 types de ressources
– Statiques: ne nécessitent pas de traitement côté serveur
– Dynamiques: chaque demande de page nécessite des opérations
spécifiques du serveur
• Nombreux logiciels disponibles:
– Apache
– Internet Information Service
– Sun Java System Web Server
Parts de marcher des serveurs
(74 572 794 sites)
• Apache: 70.98%
• Microsoft IIS : 20.24%
Source: http://www.netcraft.com/
• Sun : 2.52%
• Zeus : 0.78%
Le serveur Apache
•
Serveur HTTP/1.1
•
Versions pour Windows, OS/2, Linux…
•
Utilise du pré-fork
•
Configuration du serveur en plaçant des directives dans un fichier texte.
– httpd.conf (lu au démarrage)
– .htaccess (accès au répertoire)
•
Syntaxe: Directive Valeur
•
Les directives s’appliquent à l’ensemble du serveur
•
Leur portée peut-être limitée avec des sections
– <Directory>, <DirectoryMatch>, <Files>, <FilesMatch>, <Location>,
<LocationMatch>, <VirtualHost>
Apache – Restriction d’accés
• Directives Allow,Deny
– from all
– from www.xxx.yyy.zzz
– from unice.fr
• Peut spécifier un ordre pour les directives d’accés
– order deny, allow : les deny sont évalués avant les allow
– order allow, deny : les allow sont évalués avant les deny
• Exemple
order deny,allow
deny from all
allow from .ncsa.uiuc.edu
Apache – Restriction d’accès par mot de
passe
•
Directives AllowOverride et AuthConfig doivent avoir été fixées
•
Les directives d’accès doivent être placées dans le fichier .htaccess
–
–
–
–
–
•
AuthTypeAuthentication: type d’authentification (Basic)
AuthName: Nom de la zone d’authentification
AuthUserFile: localisation du fichier des passwords (générés avec httpasswd)
AuthGroupFile: localisation du fichier de groupes (optionnel)
Require: Contraintes à satisfaire pour autoriser l’accès.
Exemple:
AuthType Basic
AuthName "By Invitation Only"
AuthUserFile /usr/local/apache/passwd/passwords
Require user rbowen sungo
•
http://httpd.apache.org/docs/howto/auth.html
Apache – Virtual Host
•
•
Permet d’avoir plusieurs serveurs sur une même machine
Virtual Host basé sur IP
– Utilise l’IP de la connexion pour déterminer le bon serveur
•
Virtual Host basé sur le nom
– Utilise le nom de domaine fourni par le client pour déterminer le serveur
•
Exemple
NameVirtualHost *
<VirtualHost *>
ServerName www.domain.tld
DocumentRoot /www/domain
</VirtualHost>
<VirtualHost *>
ServerName www.otherdomain.tld
DocumentRoot /www/otherdomain
</VirtualHost>
•
http://httpd.apache.org/docs/vhosts/name-based.html
Le proxy cache
• Pourquoi demander plusieurs fois la même chose à un
serveur?
• Certains clients web ont un cache personnel à l’utilisateur. Le
proxy travaille au niveau d’un domaine (ensemble de clients).
• Les clients demandent au proxy, le proxy demande au serveur
– Améliore la réactivité
– Diminue la charge d’un serveur
– Diminue l’utilisation de la bande passante
• Rôle du proxy cache:
– Maintenir un cache des objets récemment demandés
– Recharger ceux qui ont expiré quand ils sont demandés
– Possibilité de forcer le chargement d’une nouvelle copie si Pragma: nocache
Le proxy cache
• Fonctionnalités avancées
– Interdire l’accès au web a certaines heures/personnes
– Limiter l’accès à certains sites
– Changer le contenu (supprimer les images, ajouter des informations…)
• Qu’est-ce qui est mis en cache?
– Tout HTML
– Certains résultats de scripts CGI (si Expires header présent)
– Pas ce qui nécessite une authentification
Au final, cela dépend de la configuration, du logiciel et de http
CDN
• Content Delivery Network
• Un (très) gros serveur peut supporter plusieurs centaines de
milliers de connexions par secondes
• MAIS:
– Rien pour la latence
– Le réseau peut être un goulot d’étranglement (cf. 9/11)
• Solutions:
– Diriger un client vers un serveur « proche »
– Approcher physiquement le contenu du client
• Problèmes:
– Diriger le client
– Assurer la synchronisations des miroirs
Routage de contenu
• Donner au client le contenu disponible à l’endroit le plus approprié
• Plusieurs métriques
–
–
–
–
Proximité au sens réseau
Proximité géographique
Temps de réponse
Type d’utilisateur (payant…)
• Routage global par redirection DNS
– Sous un même nom sont regroupés plusieurs serveurs
– Le serveur DNS retourne au client la « bonne » IP
– Mais
• Risque de latence élevée pour le lookup
• La requête DNS ne contient pas d’information sur le contenu demandé
• Routage par port TCP
– La requête est redirigée par un serveur vers d’autres serveurs suivant le numéro de
port
• Routage de niveau 7
– Analyse du contenu de la requête
– Une requête peut générer plusieurs sous requêtes transparentes
• Web Cache Communication Protocol
– Un routeur intercepte les demandes des clients et les envoient à des caches
– Les caches indiquent aux routeurs (avec WCPP) quels protocoles ils servent
HTTP
• HyperText Transfer Protocol (RFC 2616 pour http/1.1)
• Permet le transfert de fichiers localisés grâce à une Universal
Resource Locator (URL)
• Utilise TCP et port 80 par défaut
• Protocole sans état
• Historiquement très simple
• Permet maintenant des dialogues complexes
– Plusieurs requêtes avec unique connexion
– Connexions "keepalive" de HTTP 1.1
Transaction HTTP
Client
Serveur
Requête HTTP
• Une requête http est un ensemble de lignes envoyées au
serveur par un client
• Elle comprend:
– Une ligne de requête comprenant 3 éléments
• Méthode à appliquer
• L’URL
• La version du protocole (par exemple HTTP/1.0)
– Les champs d’entête de la requête
• Liste optionnelle de champ:valeur
– Le corps de la requête
• Liste optionnelle commençant par une ligne vide
• Permet l’envoie de données
Requête HTTP
• Format général d’une requête HTTP
METHODE URL VERSION<crlf>
EN-TETE : Valeur<crlf>
…
EN-TETE : Valeur<crlf>
Ligne vide<crlf>
CORPS DE LA REQUETE
• Exemple
GET http://www.commentcamarche.net HTTP/1.0
Accept : text/html
If-Modified-Since : Saturday, 15-January-2000 14:37:11 GMT
User-Agent : Mozilla/4.0 (compatible; MSIE 5.0; Windows 95)
Requête HTTP
•
Commandes:
–
–
–
–
–
•
GET: requête de la ressource située à l’URL
HEAD: requête de l’entête de la ressource
POST: envoie de données au programme spécifié par URL
PUT: envoie de données à l’URL
DELETE: supression de la ressource située à l’URL
Entêtes
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
AcceptType: de contenu accepté par le browser (par exemple text/html).
Accept-Charset: Jeu de caractères attendu par le browser
Accept-Encoding: Codage de données accepté par le browser
Accept-Language: Langage attendu par le browser (anglais par défaut)
Authorization: Identification du browser auprès du serveur
Content-Encoding: Type de codage du corps de la requête
Content-Language: Type de langage du corps de la requête
Content-Length: Longueur du corps de la requête
Content-Type: Type de contenu du corps de la requête (par exemple text/html)
Date: Date de début de transfert des données
Forwarded: Utilisé par les machines intermédiaires entre le browser et le serveur
From: Permet de spécifier l'adresse e-mail du client
If-Modified-Since: le document doit être envoyé si il a été modifié depuis une certaine date
Link: relation entre deux URL
Orig-URL: URL d'origine de la requête
Referer: URL du lien à partir duquel la requête a été effectuée
User-Agent: Chaîne donnant des informations sur le client, comme le nom et la version du navigateur,
du système d'exploitation
Réponse HTTP
• Une réponse http est un ensemble de lignes envoyées au
client par le serveur
• Elle comprend:
– Une ligne de statut
• Version du protocole utilisé
• Code de statut
• La signification du code
– Les champs d’entête de la requête
• Liste optionnelle de champ:valeur
– Le corps de la réponse
• Liste optionnelle commençant par une ligne vide
• Permet l’envoie de données
Réponses HTTP/1.1
• 1xx: requête reçue, traitement en cours
• 2xx: succés, la demande a été recue, comprise et acceptée
– 200: OK
– 201: Created
– 202: Accepted …
• 3xx: redirection, une action est nécessaire pour poursuivre le
traitement
– 300: Multiple Choices
– 301: Moved permanently …
• 4xx: Erreur client, impossible a traiter ou mauvaise syntaxe
– 403: Forbidden
– 404: Not Found …
• 5xx: Erreur serveur
– 500: Internal Server Error
– 501: Not Implemented …
Réponse HTTP
• Entêtes
–
–
–
–
–
–
–
–
–
Content-Encoding: Type de codage du corps de la réponse
Content-Language: Type de langage du corps de la réponse
Content-Length: Longueur du corps de la réponse
Content-Type: Type de contenu du corps de la réponse (par exemple
text/html).
Date: Date de début de transfert des données
Expires: Date limite de consommation des données
Forwarded: Utilisé par les machines intermédiaires entre le browser et le
serveur
Location: Redirection vers une nouvelle URL associée au document
Server: Caractéristiques du serveur ayant envoyé la réponse
Types MIME
• Multipurpose Internet Mail Extension
– Originellement pour le mail, maintenant utilisé par http
• Permet d’indiquer ce que des données (des paquets de 8 bits)
représentent afin de faciliter leur utilisation
• 2 informations sont nécessaires
– Content-Transfer-Encoding: type d’encodage utilisé
– Content-Type: champs type/soustype
• Types MIME communs
– image/jpeg
– text/plain
– video/mpeg
Architecture Client-Serveur pour le
Web
Client
Serveur
CGI
HTML
XHTML
CSS
Applets
Java
ActiveX
ASP
PHP
JSP
Servlet
Java
JDBC/
ODBC
Serveur
BD
Technologies coté client
HTML
•
•
•
•
•
HyperText Markup Language
Langage utilisé pour les documents portables
Dérivé de SGML qui était plus complexe
Mélange structure et présentation
Utilise des balises
<balise> … </balise>
• Actuellement disponible dans la version 4.0
–
–
–
–
Amélioration de l’accessibilité
Meilleur séparation de la structure et de la présentation
Support des frames
Tables avancées
• Successeur: XHTML
HTML
• Exemple de document HTML
<!DOCTYPE HTML PUBLIC " -//W3C/DTD HTML 4.01
Transitional//EN" "http://www/w3.org/TR/html4/strict.dtd" >
<HTML>
<HEAD>
<TITLE> Document HTML </TITLE>
</HEAD>
<BODY>
<P> Test
</BODY>
</HTML>
HTML
• Un document HTML commence par un entête
<!DOCTYPE HTML PUBLIC " -//W3C/DTD HTML 4.01
Transitional//EN" "http://www/w3.org/TR/html4/strict.dtd" >
• Il indique quelle version d’HTML est utilisée (ici 4.01
transitional).
• Il est possible de préciser des sous-versions
– HTML 4.01 strict
– HTML 4.01 transitional
– HTML 4.01 framset
• Le reste du document se trouve encadré par les balises
<HTML> </HTML>
HTML (HEAD)
• Les balises <HEAD> </HEAD> permettent de mettre des
informations qui ne sont pas du contenu
– Titre (title)
– Mots Clefs
– Autres informations
• Les informations ne sont donc souvent pas affichées à l’écran
• Un document doit avoir un <TITLE> dans la section <HEAD>
• Des Meta-Data sont optionnelles
<META name="Auteur" content="Fabrice Huet">
• Certaines Meta-Data servent aux moteurs de recherche
<META name="keywords" lang="fr" content="Argent Rapide Viagra">
HTML (BODY)
• Le corps du document se trouve entre <BODY> </BODY>
• Autrefois possible de spécifier des informations de rendu
visuel
–
–
–
–
–
background (image de fond)
text (couleur du texte)
link (couleur d’un lien)
vlink (couleur d’un lien visité)
alink (couleur d’un lien sélectionné)
• Maintenant deprecated, utiliser des feuilles de style
HTML (BODY)
• Headings
–
–
–
–
Décrit brièvement le contenu ou le sujet d’une section
Dans un browser, change la taille de la police
6 niveaux, de H1 (plus important) à H6 (moins important)
<H1> Elephant </H1> <H6> Souris </H6>
• Paragraphes
– Permet d’indiquer un paragraphe
– <P> sans balise fermente
• Retour à la ligne
– <br>
HTML (BODY)
•
Listes
– Doivent contenir au moins un élement
– 3 possibilités: libres, ordonnées, descriptives
– On peut mélanger/imbriquer différentes listes
•
Listes libres
<UL>
<LI> Première information
<LI> Deuxième information
</UL>
•
Listes ordonnées
<OL>
<LI> Première information
<LI> Deuxième information
</OL>
•
Listes descriptives
<DL>
<DT> Première <DD> information
<DT> Deuxième <DD> information
</DL>
HTML (BODY)
• Tables:
–
–
–
–
–
Permet de ranger des informations en lignes et colonnes
Peut avoir une CAPTION (son nom)
Peut avoir un SUMMARY
Possibilité de grouper des lignes ou des colonnes
Le nombre de lignes et colonnes est déduit du code HTML
• Lignes
– Élément <TR> sans fermeture
• Cellule
– Élément <TH> pour l’entête d’une cellule
– Élément <TD> pour le contenu
HTML (BODY)
•
Liens et ancres:
– Permet de relier une ressources à une autre
– Chaque lien a 2 ancres et une direction
– Il part de l’ancre source et va à l’ancre destination
•
Création de lien
–
–
–
–
Balise <A> … </A>
Attribut href pour indiquer une source
Attribut name pour indiquer une destination
Attribut title pour donner des informations (tooltip, son…)
<A href="http://www-sop.inria.fr/"> INRIA Sophia Antipolis</A>
<A name="ancre"> Voici une ancre accessible avec #</A>
<A href="….#ancre"> On va a l’ancre</A>
•
On peut mettre href et name ensembles
•
Les ancres doivent être uniques dans un document!
HTML (BODY)
•
Objets, Images, Applets:
– Avant, utilisation de <IMG> et <APPLET>
• Limités à l’existant (comment gérer les nouveaux média)
• Applet était seulement pour les applets Java
• Problème de l’accessibilité
– Tout est remplacé par <OBJECT> mais <IMG> est toujours valide
•
Inclusion d’image par <IMG>
– On indique la localisation de l’image
– Une description courte alt
– Une description longue longdesc (optionnel)
<IMG src="toto.png" alt="la photo de toto">
•
Inclusion d’image par <OBJECT>
<OBJECT data="toto.png" type="img/png">
la photo de toto
</OBJECT>
•
Pour les applets, plus tard…
HTML (FRAME)
• Frames
–
–
–
–
Offre plusieurs vues de documents
Permet de maintenir des informations fixes et d’autres temporaires
On remplace <BODY> par <FRAMESET>
On spécifie le nombre de lignes (rows) et de colonnes (column)
<FRAMESET rows="30%, 70%" cols="50%, 50%">
…..
</FRAMESET>
– Les frames peuvent être imbriquées
– Elles peuvent être nommées pour devenir la cible de liens
– Un contenu alternatif peut être donné avec <NOFRAMES>
• Problèmes:
– Les frames définissent un rendu visuel, pas une structure
– Les frames n’ont pas d’URI
– La vue d’une page avec frames est déterminé par une séquence de
navigation et non plus une unique action
HTML (FORMS)
• Les forms permettent d’ajouter de l’interactivité
• L’interaction se fait à travers des objets control:
–
–
–
–
–
–
–
–
buttons
checkboxes
radio buttons
menus
text input
file select
hidden controls
objects controls
• Utilisation d’une balise <FORM> … </FORM>
• 2 méthodes, POST et GET
HTML (FORMS)
<FORM action="http://somesite.com/prog/adduser" method="post">
<P>
First name:
<INPUT type="text" name="firstname"><BR>
Last name:
<INPUT type="text" name="lastname"><BR>
email: <INPUT type="text" name="email"><BR>
<INPUT type="radio" name="sex" value="Male"> Male<BR>
<INPUT type="radio" name="sex" value="Female"> Female<BR>
<INPUT type="submit" value="Send"> <INPUT type="reset">
</P>
</FORM>
HTML (FORMS)
• 2 méthodes, POST et GET
• La différence concerne la façon dont les données sont
encodées
• GET est utilisé dans le cas de demandes pures (pas de
modifications des données sur le serveur).
• POST est utilisé dans le cas de stockage/maj de données
• Côté client: avec GET les données sont encodées sous forme
d’une URL. Avec POST elles sont encodées dans le corps de
la méthode
• Côté serveur: un traitement différent est nécessaire suivant
POST/GET
CSS
• Cascading Style Sheets (http://www.w3.org/TR/CSS21/)
• Famille des styles
– Décrit comment un document est présenté à l’écran
• Permet d’ajouter un style (font, couleur…) à une page web
• CSS1 et CSS2 dispo, CSS3 en préparation
• Une feuille de style se place dans la balise <HEAD>
<HEAD>
<style type= "text/css">
….
</style>
</HEAD>
<HEAD>
<link rel="stylesheet" type="text/css" href="{fichier.css}">
</HEAD>
CSS
•
Une feuille de style est constituée de règles
•
Chacune a 3 parties
– Le selector qui indique quelle partie du texte est affecté par la règle
– La property qui spécifie l’aspect du rendu qui est modifié
– La valeur qui indique la valeur de la property
•
Les règles sont appliquées de la plus spécifique à la moins spécifique
•
Exemple: appliquer un style a l’élément body (i.e. tout le document)
<HEAD>
<style type= "text/css">
body {
color: purple;
background-color: #d8da3d
}
</style>
</HEAD>
CSS (Selector)
• Les selector peuvent être des patterns extrêmement
complexes
–
–
–
–
–
–
*
>
E:link
E:visited
E[foo="warning"]
E#myID
n’importe quel élément
relation père fils
E est ancre source d’un lien non visité
E est ancre source d’un lien visité
E dont l’attribut foo est warning
E dont l’ID est myID
• Selector de type
– Match le nom d’un type d’élément du langage (H1, BODY…)
H1 {color: blue}
• Selector avec descendants
– Match B si il est contenu dans A <A> blah <B> blih </B> </A>
A B {color: blue}
CSS (Selector)
• 4 façons de matcher les attributs
–
–
–
–
[att]
[att=val]
[att~=val]
[att|=val]
attribut att
attribut ayant la valeur val
liste de mots contenant le mot val
liste de mots commençant par val
• Exemples
A[href="www-sop.inria.fr"] {color: red}
p[class~=couleur] {color: red}
• On peut simplifier ~= par .
p.couleur {color: red}
<P class="couleur">
blah blah
</P>
Javascript
• Langage de script pour pages HTML
• Crée par Netscape corp. en 1995
• RIEN A VOIR AVEC JAVA
• Orienté Objet
• Langage interprété au chargement de la page par le client
• Peut être placé n’importe où dans la page
– <script type="text/javascript"> xxxxxxx </script>
– <script src="xxx.js"></script>
Javascript – Types, variables, fonctions
•
5 types de base
–
–
–
–
–
•
Chaînes de caractères
Nombres
Booléens
Objets
Fonctions
Déclaration de variable
var maVariable = valeur
maVariable = valeur
•
Déclaration de fonction
function maFonction(argument1,argument2,etc) {
xxxxxxx
}
•
Appel de fonction
maFonction(1,2…)
•
Accés à un champs
– Notation pointée: toto.titi
Javascript – Hiérarchie d’objets
•
Ces objets sont crées par javascript automatiquement si les éléments
correspondants existent dans la page
•
Certains existent toujours
–
–
–
–
–
navigator
window
document
location
history
Javascript – Objets par défaut
• navigator
– Contient le nom et la version du navigateur, les plugins installés…
• window
– Propriétés qui s’appliquent à la fenêtre tout entière
• document
– Propriétés sur le contenu du document (titre, couleur…)
• location
– URL actuelle
• history
– URLs visitées
Javascript – Exemples
Affichage de la valeur
d’une variable
<html>
<head>
</head>
<body>
<script type="text/javascript">
var browserName=navigator.appName;
if (browserName=="Netscape") {
alert("Hi Netscape User!");
}
</script>
</body>
</html>
<html>
<head>
</head>
<body>
<script type="text/javascript">
var name = "Hege"
document.write(name)
document.write("<h1>"+name+"</h1>")
</script>
</body> </html>
Détection du nom du
navigateur
Applets Java
• Crée par Sun Microsystems
• Un plugin permet de faire tourner une machine virtuelle (JVM)
dans un navigateur
• Un client download le code java compile (.class, .jar) et
l’exécute localement
• L’applet s’exécute dans une "Sand Box", elle a des capacités
très limitées, elle ne peut pas
– Lire/Ecrire/Effacer de fichiers localement
– Créer des connexions réseau vers d’autres machines que celle dont elle
est originaire
– Crée un ClassLoader
– …..
• On peut s’affranchir de ces limitations en signant les applets
Applets Java – Cycle de vie
• Une applet passe par différentes phase
• Chargement par le browser
– Méthode init()
• Exécution
– Méthode start()
• Fin d’exécution temporaire
– Méthode stop()
• Fin d’exécution définitive
– Méthode destroy()
• Il est possible de surcharger ces méthodes pour changer les
comportements par défaut
Applet - Exemple
import java.applet.Applet;
import java.awt.Graphics;
public class Simple extends Applet {
StringBuffer buffer;
public void init() {
buffer = new StringBuffer();
addItem("initializing... ");
}
public void start() {
addItem("starting... ");
}
public void stop() {
addItem("stopping... ");
}
public void destroy() {
addItem("preparing for unloading...");
}
void addItem(String newWord) {
System.out.println(newWord);
buffer.append(newWord); repaint();
}
public void paint(Graphics g) { //Draw a Rectangle around the applet's display area.
g.drawRect(0, 0, size().width - 1, size().height - 1);
//Draw the current string inside the rectangle.
g.drawString(buffer.toString(), 5, 15);
}
}
Technologies côté serveur
Les Cookies
• Chaîne de caractère générée par le serveur et stockée par le
navigateur
• Utilisés pour maintenir des informations de navigations
• Voyagent dans les headers http
• Structure:
–
–
–
–
–
–
Nom
Valeur
Date d’expiration
Chemin de validité
Domaine de validité
Attribut de sécurité (si secure, alors SSL)
CGI
• Common Gateway Interface
• Permet l’exécution de programmes externes par un serveur
http
• Le CGI permet de faire communiquer le serveur et des
programmes pour générer des pages web
• Un programme CGI peut être écrit dans un langage qui
–
–
–
–
Peut lire des flux en entrée
Sait traiter des chaînes de caractères
Écrire des flux en sortie
Peut être exécuté sur un serveur
• Les plus utilisés sont Perl, C, C++, Java…
CGI
• On indique dans la configuration du serveur un répertoire où
se trouvent les scripts CGI
• Quand un fichier est demandé dans ces répertoires, il est
exécuté et le résultat retourné
#!/bin/sh
echo Content-type: text/html
echo
echo
echo "<HTML>"
echo "<HEAD>"
echo "</HEAD>"
echo "<BODY>"
echo "<H2>Bonjour</H2>"
echo "</BODY>"
echo "</HTML>"
• Variables d’environnement
prédéfinies
• QUERY_STRING: Données
passées au script
• REMOTE_ADDR: Adresse
Internet de la machine faisant
la requête
CGI
• Les informations entrées dans les formulaires (méthode GET)
sont automatiquement passées dans QUERY_STRING
• On peut passer manuellement des valeurs
<A HREF="/cgi-bin/script?nom=toto&action=find"> Link </A>
• QUERY_STRING contiendra nom=toto&action=find
• Si méthode POST, les données sont envoyées sur l’entrée
standard du script
PHP
•
PHP: Hypertext Processor
•
Langage de script avec syntaxe perl/C
•
Crée en 1994, actuellement en version 4
– PHP3: totalement interpreté
– PHP4: utilise un moteur de script (ZEND) pour améliorer les performances
•
PHP vient avec une énorme librairie de fonctions
10.1 Apache
10.2 Tableaux
10.3 Fonctions Aspell
10.4 Fonctions
mathématiques sur des
nombres de taille arbitraire
10.5 Fonctions de calendrier
10.6 Fonctions CCVS API
10.7 Fonctions Objets
10.8 Support COM pour
Windows
10.9 Fonctions ClibPDF
10.10 CURL
10.11 Fonctions de paiement
Cybercash
10.12 Fonctions de dates et
heures
10.13 Fonctions dba
10.14 Fonctions dBase
10.15 Fonctions dbm
10.16 Accès aux dossiers
10.17 Fonctions DOM XML
10.19 Fonction
d'exécution de
programmes
10.20 Forms Data
Format
10.21 Fonctions filePro
10.22 Système de
fichiers
10.23 FTP
10.24 Fonctions de
fonctions
10.25 Fonctions GNU
Gettext
10.26 GMP
10.27 Fonctions HTTP
10.28 Fonctions
Hyperwave
10.29 Fonctions
InterBase
10.30 Fonctions ICAP
10.31 Fonctions
Informix
10.38 Fonctions mathématiques
10.39 Fonctions MCAL
10.40 Cryptage
10.41 Hash
10.42 Fonctions diverses
10.43 fonctions mSQL
10.44 Fonctions Microsoft SQL
Server
10.45 Fonctions MySQL
10.46 Réseau
10.47 Fonctions NIS
10.48 Oracle 8 functions
10.49 Fonctions Oracle
10.50 Entrées/sorties
10.51 Ovrimos SQL
10.52 Expressions régulières
compatibles Perl
10.53 Fonctions PDF
10.54 Verisign Payflow Pro functions
10.55 Fonctions PostgreSQL
10.56 Fonctions POSIX
10.57 Pspell
10.58 GNU Readline
10.59 Fonction GNU Recode
10.60 Expressions régulières
10.61 Satellite CORBA client
extension
10.62 Sémaphores et gestion de
la mémoire partagée
10.63 Gestion des sessions
10.64 Mémoire partagée
10.65 SNMP functions
10.66 Socket
10.67 Fonctions de chaîne de
caractères
10.68 Fonctions Shockwave Flash
10.69 Sybase
10.70 ODBC
10.71 Fonctions URL
10.72 Fonctions sur les variables
10.73 WDDX functions
10.74 Analyseur syntaxique XML
10.75 XSLT
10.76 YAZ
PHP
• Le code PHP se trouve dans le fichier HTML côté serveur
• Le serveur interprète le code PHP et envoie la page modifiée
au client
• Le serveur détecte les fichiers PHP grâce a leur extension
• Intégration dans un fichier:
–
–
–
–
<? code php ?>
<?php code php ?>
<?PHP code php ?>
<SCRIPT LANGUAGE="php"> code php </SCRIPT>
• Les instructions sont séparées par ‘;’
PHP
<html>
<head>
<title>PHP Test</title>
</head>
<body>
<?php echo '<p>Hello World</p>'; ?>
</body>
</html>
Exécution par le serveur
<html>
<head>
<title>PHP Test</title>
</head>
<body>
<p>Hello World</p>
</body>
</html>
PHP
• On peut interfacer facilement PHP et les forms HTML
<form action="action.php" method="post">
<p> Your name: <input type="text" name="name" /> </p>
<p> Your age: <input type="text" name="age" />
</p>
<p> <input type="submit" />
</p>
</form>
Hi <?php echo $_POST['name']; ?>.
You are <?php echo $_POST['age']; ?> years old.
Hi Joe. You are 22 years old.
Client
Serveur
Client
ASP/ASP.net
• Active Server Pages crée par Microsoft
• Pages HTML contenant du code de script exécuté par le
serveur
• Scripts supportés par défaut: VBScript, JScript, Perl, et REXX
• ASP.net ajoute tous les langages .net (VB.net, C#, Scheme,
Smalltalk…)
Servlets et JSP
•
Réponse de Sun a CGI
•
Servlets vs CGI:
– Efficacité: la machine virtuelle tourne en permanence, les requêtes sont traitées
par des threads, non des process
– Ergonomie: Java
– Portabilité: Java
– Lourdeur: Java
•
Java Server Pages: ASP version Sun, langage de script Java
• Pages identifiées par l’extension .jsp
•
Pour développer: Java Servlet Development Kit (JSDK)
•
Nécessite l’ajout d’un module au serveur:
– Tomcat pour Apache
– Allaire JRun pour IIS
•
Les servlets sont placées dans un répertoire du serveur et sont accédées à
travers une URL.
Servlets et JSP - Fonctionnement
• JSP a un fonctionnement en 4 étapes
–
–
–
–
Requête reçue par le serveur
La page demandée est traduite en servlets
Les servlets sont compilées
Puis exécutés puis le résultat transmis au client
• Processus lourd, surtout à la première demande
• Les servlets évitent la traduction et la compilation
JSP – Cycle de vie
• Possibilité de surcharger jspInit() et jspDestroy() pour
modifier l’initialisation et la destruction
JSP
• Inclusion dans un fichier HTML avec 4 tags
– <%@ ... %> : Directives donnant des indications au moteur JSP
<%@ page import="java.util.*" %>
– <%! ... %> : Déclaration Java
<%! int i=0; %>
<%! public void jspInit() { //some initialization code } %>
– <%= ... %> : Expression Java
<%= fooBean.getName() %>
– <% ... %> : Fragment de code JSP
<% for (int i=1; i<=4; i++) { %>
<H<%=i%>> Hello </H<%=i%>>
<% } %>
• Variables pré définies
– out (javax.servlet.jsp.JspWriter) pour générer du HTML
– request (javax.servlet.http.HttpServletRequest) pour la transaction
entre le client et le serveur
JSP - Exemples
<HTML>
<BODY>
Salut! La date est <%= new java.util.Date() %>
</BODY>
</HTML>
<HTML>
<BODY>
<%
out.println(« On cherche la date »);
java.util.Date date = new java.util.Date();
%>
Salut! La date est <%= date %>
</BODY>
</HTML>
Servlets
• Se programme comme un classe Java classique
• Implémente javax.servlet.http ou sous-classe
javax.servlet.http.HttpServlet
import java.io.*;
import javax.servlet.*;
import javax.servlet.http.*;
public class HelloWorld extends HttpServlet {
public void doGet(HttpServletRequest request,
HttpServletResponse response) throws
ServletException, IOException {
PrintWriter out = response.getWriter();
out.println("Hello World");
}
}
Servlets – Cycle de vie
• Servlets permanents ou temporaires suivant configuration du
serveur
– Permanent: démarrée avec le serveur
– Temporaire: démarrée à la requête d’un client
• Un serveur communique avec une servlet à l’aide de 3
méthodes principales:
– init()
• Appelée quand la servlet est chargée
• Permet d’ouvrir des fichiers, établir des connexions…
• Garantie de se terminer avant tout autre méthode
– service()
• Chaque appel de client génère un appel a service
• Plusieurs appels concurrents possibles si plusieurs clients
– destroy()
• Appelée par le serveur quand la servlet est déchargée
• Permet le nettoyage de ressources
Servlets – Cycle de vie
• La méthode service() interprete la requête HTTP et décide
quelle autre méthode appeler.
Servlets et HTTP
• Plusieurs méthode prédéfinies dans HttpServlet
–
–
–
–
–
–
doGet()
doHead()
doDelete()
doOptions()
doPost()
doTrace()
• doGet(HttpServletRequest req, HttpServletResponse resp)
pour gérer les methodes GET
• doPut(HttpServletRequest req, HttpServletResponse resp)
pour gérer les méthodes POST
• Les paramètres sont obtenus en faisant req.getParameter(…)
Moteurs de recherche et Web
Services
Moteurs de recherches
• Permettent de trouver de l’information sur le web
• Indexent régulièrement des sites pour construirent une base
de données (possibilité de l’empêcher avec le fichier robots.txt)
• Une recherche se fait dans la base de données
 important d’avoir une BD à jour
• Actuellement 2ème génération
– 1ere génération: utilisation des mots clefs et des tags META
– 2eme génération: analyse de la structure des pages (liens entrant,
sortant) et construction d’un indice de réputation
– 3eme génération: utilisation des habitudes de recherche et meilleure
extraction d’informations contextuelles
Google et PageRank
• Google est un moteur de 2eme génération
• Utilise l’algorithme PageRank pour déterminer l’adéquation
d’une page à la demande
• PageRank est un indice de l’importance d’une page web
– Chaque lien sortant est un « vote » pour une page
– Plus une page a de votes, plus elle est importante
• Variation de l’algorithme
– Élimination des liens venant de « link farms »
– Diminution de l’importance d’un vote suivant la cible
Web services - Principes
• Accés au web traditionnellement à travers des browsers
• Web Services: API permettant à des programmes de
communiquer avec des technologies www
• Technologies clefs:
– XML, HTTP, SOAP, WSDL, UDDI
• Idée:
– Des services sont publiés sur Internet
– Des applications cherchent ces services et y accèdent
• Questions
–
–
–
–
–
Quels services sont offerts?
Comment invoque-t-on ces services?
De quelles informations ont-il besoin?
Comment fournir ces informations?
Comment les réponses sont-elles envoyées?
WSDL
• Web Service Description Language
• Fichier XML
– <definitions> contient la description des services
– <portType> groupe de méthode exposées
– <operation> méthode exposée
• <input> paramètre
• <output> valeur de retour
– <message> description du paramètre
WSDL - Exemple
<definitions name="MobilePhoneService" …… >
<portType name="MobilePhoneService_port">
<operation name="getPrice">
<input message="PhoneModel"/>
<output message="PhoneModelPrice"/>
</operation>
</portType>
<message name="ListOfPhoneModels">
<part name="models" type="tns:Vector">
</message>
<message name="PhoneModel">
<part name="model" type="xsd:String">
</message>
<message name="PhoneModelPrice">
<part name="price" type="xsd:String">
</message>
</definitions>
UDDI – SOAP
• Universal Description, Discovery and Integration
• Annuaire d’informations (WSDL) sur les WS
• Ressemble à un DNS ou un broker Corba
• En général, les WS communiquent avec SOAP
• Simple Object Access Protocol
• XML sur http
SOAP - Exemple
HTTP/1.1 200 OK Content-Type: text/xml; charset="utf-8" Content-Length:nnnn
<SOAP-ENV:Envelope
xmlns:SOAP-ENV="http://schemas.xmlsoap.org/soap/envelope/"
SOAP-ENV:encodingStyle="http://schemas.xmlsoap.org/soap/encoding/"/>
<SOAP-ENV:Body>
<m:GetLastTradePriceResponse xmlns:m="Some-URI">
<Price>14.5</Price>
</m:GetLastTradePriceResponse>
</SOAP-ENV:Body>
</SOAP-ENV:Envelope>
Références
• http://www.w3.org
• http://www.commentcamarche.net/internet/http.php3
• http://www.cookiecentral.com
•
http://www-mrim.imag.fr/ressources/docPHP4_v4c/manuel_toc.html
• http://www.apl.jhu.edu/~hall/java/Servlet-Tutorial/
• Cours de Master STIC Programmation et sécurité du Web,
Philippe Poulard :
http://disc.inria.fr/perso/philippe.poulard/cours/master