Les moteurs de recherche et le référencement de sites Conférence ENS. 23 Janvier 2006 Olivier Ertzscheid. Maître de Conférences en Sciences de l’information IUT La Roche sur.

Transcript Les moteurs de recherche et le référencement de sites Conférence ENS. 23 Janvier 2006 Olivier Ertzscheid. Maître de Conférences en Sciences de l’information IUT La Roche sur.

Les moteurs de recherche
et le
référencement de sites
Conférence ENS.
23 Janvier 2006
Olivier Ertzscheid.
Maître de Conférences en Sciences de l’information
IUT La Roche sur Yon. Université de Nantes
Contact : [email protected]
Site (blog) : http://www.affordance.info
Programme de l’intervention
• Les moteurs et outils de recherche
–
–
–
–
Typologie des outils
Les grands principes (indexation)
L’exemple de Google
Syntaxes avancées de recherche :
• La recherche au service du référencement
• Le référencement de sites
– Les basiques
– Les erreurs à éviter
– Référencement et positionnement payant
• Nouveautés
– Publications scientifiques : du « référencement » à la « visibilité » : vers
un nouveau facteur d’impact ? (Web « invisible » / Archives ouvertes /
Dublin Core )
– Blogs : enjeux pour la recherche et le référencement (RSS)
– Indexation collaborative (tags, signets partagés, folksonomies)
1. Moteurs et outils de recherche
Typologie des outils de recherche
1. Annuaires
• (Open Directory : www.dmoz.org )
2.
3.
4.
5.
Moteurs
Métamoteurs
Métarépertoires
Moteurs « sémantiques »
• Outils cartographiques
• Outils de catégorisation (clustering)
6. Presse en ligne
Recherche avançée ...
• Vous avez dit booléen ?
Fonctionnalités « veille » des outils standards
• recherche sur titre « title: »
• recherche sur nom domaine « domain:fr »
• recherche sur URL « url:equipement »
– Récupère les pages ayant le mot ou l'expression indiqué(e) dans l'URL.
Utilisez url:jardin pour trouvez toutes les pages de tous les serveurs ayant le
mot jardin à n'importe quel endroit dans le nom d'hôte, le chemin d'accès ou le
nom de fichier.
• recherche sur nom serveur « host:sncf »
– Récupère les pages de l'ordinateur indiqué. La recherche
host:www.shopping.com trouvera les pages de l'ordinateur de Shopping.com
et host:dilbert.unitedmedia.com trouvera les pages d'un ordinateur s'appelant
dilbert dans unitedmedia.com.
• recherche sur intitulés de liens « anchor: »
• recherche de sites similaires « like: »
• Consultation de la page cachée
Exemple : "cache:www.google.fr"
Reverse Searching
• Recherche des pages liantes (backlinks) Exemple :
"link:www.google.fr"
– Google n'affiche pas toutes les pages (a priori seulement celles qui
ont un PageRank suffisament élevé, supérieur ou égal à 4 semble-til).
– Google n'affiche même pas tous les résultats annoncés (environ la
moitié est donnée).
•
•
Yahoo! "link:http://www.bnf.fr »
"linkdomain:bnf.fr" identifie ainsi 240 000 pages pointant vers une
partie ou une autre du site
• Reverse searching « link: »
– existe un outil dédié www.Linkpopularity.com
Métamoteurs
•
Principal critère : nombre de moteurs interrogés
•
En ligne : www.profusion.com
•
Off-line (clients) : www.copernic.com
– possibilité d'affiner plusieurs requêtes hors
connexion
– mémorisation requêtes pour itération (veille)
– automatisation de la requète à des intervalles
définis (Veille)
– définition de l'étendue de recherche (source des
informations)
Méta-répertoires
• Répertoires de type portail donnant accès aux
outils de recherche selon leur catégorie / pays
• www.beaucoup.com / www.enfin.com /
• www.searchenginecolossus.com
– liens vers outils de recherche de plus de 228 pays
1 nouveau modèle dominant :
Logiques d ’ALLIANCE
ou l ’interrogation « multi-bases »
• La plupart des moteurs possèdent plusieurs
bases DISTINCTES
– ex : google. (directory, fulltext, group)
• location des bases par des moteurs :
– http://www.search-this.com/search_engine_decoder.asp
• fourniture de technologies par sociétés privées
à des sites « portails »
• www.Exalead.fr sur portail AOL
Quels critères ?
• Taux de couverture linguistique
– francophone, régional, international …
• « Size War »
– Bataille technologique ET marketing (« Les comptes bidons
de Google »)
– Club des milliardaires (base « web »)
• Ask Jeeves : 2.3
• Exalead : 3 (puis 5 puis 8 : projet Quaero)
• Yahoo : 4
• MSN : 5
• Google : 8
– Il faudrait ajouter bases images, news, etc …
• Fréquence d’indexation
– Prise en compte de documents récents. Vital sur « news »
Les grands critères de classement : question d ’algorithme(s)
•
Analyse du texte
– full-text + toutes ses déclinaisons (page accueil, pondérations différentes, lemmatisation …) et
ses biais (référencement, méta …)
– Tous utilisent ce type d ’indexation
•
Analyse des liens (entrants et sortants)
– révolution PageRank (Google) : indice de popularité. 1 lien = 1 vote.
•
Analyse du texte des liens « backlinks »
– prend en compte texte des liens, termes qui entourent ces liens et contenu des pages liées
•
Taux de rappel
– nombre de documents pertinents retournés divisé par le nombre de documents pertinents
existants.
•
Taux de précision
– nombre de documents pertinents retournés divisé par le nombre de documents retournés.
Extraction (fichier inverse)
Classement
Ranking
Pertinence
Outils
Elimination (mots outils)
sémantiques
Outils
Outils
statistiques linguistiques
Multilinguisme
lemmatisation
(morphologie, syntaxe)
Comparatifs / Taux recouvrement
• http://ranking.thumbshots.com/
• Jux2 (www.jux2.com)
Google : How it Works (1/2)
ou comment chercher une aiguille dans une botte de foin
•
Chaque mois
– plus de 750 ordinateurs sont reliés en un « Googlebot », le robot du moteur de
recherche
– progresse lentement sur la toile (si va trop vite planterait la plupart des serveurs
existants) et télécharge 1000 pages / sec.
– lit et indexe chaque mot et lui attribue une « valeur » basée sur son importance dans
la page.
– Cette opération dure une semaine et équivant à appeler tous les numértos de tél. de
la planète.
•
Plus de 200 ordinateurs
– analysent ensuite liens,
– comptent toutes les pages,
– évaluent leur importance et peaufinent leur classement (PAGERANK).
•
Puis, 5 centres serveurs
– arrêtent leur opération
– sont chargés avec nouvelles pages
•
La botte de foin est prête.
Google : How it Works (2/2)
•
•
Saisie requête 19h31.
+ 10 millisec.
– vérifie le « cache » = 12 ordinateurs contenant toutes pages web récemment
consultées pour vérif si question déjà posée.
– Si non ==> envoie requête vers un « mélangeur ».
•
+ 45 millisec. :
– mélangeur expédie mes mots clés vers 50 ordinateurs contenant nuée de termes qui
constituent la botte de foin : « qu ’avez vous sur ……. ? »
– chaque ordinateur répond : voici mes 75 meilleures pages, mes 25 meilleures pages
…
– mélangeur compile les pages obtenues en une liste unique d ’après le « rang » de
chaque page.
•
+85 millisec. :
– mélangeur se tourne vers botte de foin : « Je veux toutes ces pages ! Et mettez moi
les mots de la requête en gras. »
•
+ 90 millisec.
– Liste affichée sur mon écran.
Moteurs cartographiques
• KartOO (métamoteur multilingue)
http://www.kartoo.com/
– Les sites web sont reliés les uns aux autres par des
liens sémantiques générés dynamiquement
• Adresses :
– Mapstan http://search.mapstan.net/
– Webbrain :http://www.webbrain.com/
– Grokker : http://www.groxis.com/
– Plus ludique : www.musicplasma.com
Moteurs de catégorisation
• Catégorisation en temps réel ET contextuelle
– Le mot clé "chirac" proposera, par exemple, les
thèmes "President Jacques Chirac", "France",
"Nuclear Testing", "Yeltsin", "Jospin"
• (Moteur) Exalead (www.exalead.com)
• (Métamoteur) Vivissimo http://vivisimo.com/
– http://clusty.com/
• Outils (gadgets) de reformulation (mots-clés)
– Mooter. http://www.mooter.com/
– KwMap : www.kwmap.com
Les inclassables :
• Wayback Machine : www.Archive.org
• exemple : le site du sénat de 1996 à 2002
• avec un peu de chance : deeplinks intacts sur 1 ou 2 niveaux.
• Alexa : http://www.alexa.com/
– Une mine d’informations pour le référencement …
Presse en ligne / dépêches / info. factuelles
• http://www.daypop.com/
– indexe quotidiennement 7 500 sites de nouvelles et, nouveauté, intègre dans
ses recherches certains blogues d'opinion. Crawle dorénavant plus de 10
500 weblogs et utilise plus de 1000 sources d'actualités
• http://www.moreover.com/cgi-local/page?o=portal&c=Top%20stories
– Meilleur outil anglophone. recherche par mots clés ou par thématiques (plus
de 330 thèmes d'actualités supervisées par les services éditoriaux de
Moreover et plus de 430 thèmes d'actualités non supervisées)
• http://news.google.com/
– lancé début mars 2002.
– Google met à jour son index de news environ toutes les heures.
2. Le référencement
2. Le référencement de sites
Plusieurs scénarii
1. Ne rien faire
2. Se déclarer auprès des moteurs
•
formulaires des différents moteurs
3. Travailler son contenu
•
Faire des changements
4. Travailler ses métadonnées
5. Payer (référencement et positionnement)
Indexation : se faire connaître pour être reconnu ...
• Ce qu'il faut faire :
– Balises <META> permettent de contrôler l'indexation
– <META NAME="keywords" CONTENT="gâteau dessert fruit">
– votre page ne sera indexée que sur ces trois mots (panaf.org)
– infos intéressent : moteurs de recherche, lecteurs (avertis !), navigateur
– savoir qui référence sa page (et de quelle façon ...)
– rechercher les liens renvoyant vers vos pages (reverse searching)
– importance du titrage et des premiers mots (250 premiers caractères)
– éviter Javascript et imagemaps
– refus d'indexer de certains moteurs s'il y en a en début de document
– utiliser systématiquement attribut ALT
– nom de domaine personnalisé
– échange de liens
– si vous renvoyez vers certains sites, proprsez leur de renvoyer vers le vôtre
– certains robots font apparâitre en premier les sites vers lesquels pointent le plus de
liens
– « Signez » vos e-mails
– utiliser les newsgroups consacrés à l'annonce de nouveaux sites
– news:comp.infosystems.www.announce
Indexation : se faire connaître pour être reconnu ...
• Ce qu'il ne faut pas faire
– "flooding" = innonder
– dans les moteurs de recherche : remplir plusieurs déclarations
» considéré comme du Hacking
– dans les newsgroups, chat rooms ou forums
» programmes qui envoient un message automatiquement à chaque
nouveau connecté.
– "spamming"
– texte invisible (couleur du fond de page)
– texte repris dans balises meta
» pénalisé et considéré comme du Hacking par moteurs de recherche
• être conscient du "lavage d'index" plus ou moins
fréquent
• s ’abonner à une liste de discussion (référencement)
Malgré tout cela … aucune « garantie »
• Prise en compte du site et affichage par
moteurs :
– De quelques heures (Ping/blogs) à quelques …
mois !
– www.pingoat.com
• Yahoo : de 1 jour à 3 mois
• MSN.fr : indexation aléatoire
• Open Directory : 1 semaine à 1 mois
Les balises <META>
• les indispensables :
– <META NAME="keywords" CONTENT="mot-clé1, mot-clé2
...">
- Oppedahl & Larson c.
Advanced Concepts,
Etats-Unis, 23 juillet
1997 : La société
Advanced Concept
avait inséré le nom de
la société
Oppedhal&Larson dans
les balises meta de son
site. Elle a été interdite
d'utiliser ce nom sans
l'autorisation expresse
de l'entreprise
plaignante. Il s'agit,
historiquement, du
premier procès autour
des balises Meta.
•
•
•
•
•
•
•
utilisé par tous les moteurs
mots-clés séparés par une virgule
pas d'espace entre les mots-clés
minuscules pour éviter les problèmes
limité à 1000 mots-clés (sic)
éviter mots-clés bidons (cf www.aol.com)
éviter le spam CONTENT="html,html,html,html,html,html,html"
– pénalisé par moteurs de recherche
– <META NAME="description"
CONTENT="description_du_site">
- Playboy c. Calvin designer
Label, Etats-Unis, 8
septembre 1997 : ce dernier
avait copié de nombreuses
fois les mots "Playboy" et
"Playmate" dans son site afin
d'être mieux positionnés sur
ces termes. Le site web a été
considéré comme coupable.
• seuls 140 à 250 premiers mots retenus par moteurs de recherche
• astuce : reprendre un ou des mots-clés dans les titres de pages
– classement optimisé.
Les balises <META>
• les utiles
– <META NAME="author" CONTENT="nom_de_l'auteur">
• peu utilisé par moteurs qui lui préfèrent la balise <ADRESS>
• NOMADE fournit l'url après avoir entré le nom de l'auteur
– <META NAME="copyright" CONTENT="mentions_de_copyright">
– <META NAME="distribution" CONTENT="global ou local">
• destination de l'information de la page
– <META NAME="generator" CONTENT="éditeur_utilisé">
• intéresse responsables marketing des sociétés
• petit coup de pouce pour éditeurs indépendants
• attention aux balises auto-générées (démonstration IExplorer)
– <META NAME="rating" CONTENT="public_visé">
• general, restricted, mature, 14 years
Les balises <META>
• <META NAME="robots" CONTENT="instructions_pour_robots">
–
–
–
–
all (default) : indexation pages et liens
none : pas d'indexation des pages ni des liens
index / NoIndex : indexation (ou non) des pages
follow / NoFollow : permission (ou non) de suivre les liens
• <META HTTP-EQUIV="content-language" CONTENT="fr">
– très utilisé par moteurs de recherche sous l'impulsion du W3C, dans un souci
d'accessibilité.
• <META HTTP-EQUIV="reply-to » CONTENT="[email protected]">
• <META HTTP-EQUIV="reply-to" CONTENT="url_page_accueil">
Les balises <META>
• les éventuelles
• <META HTTP-EQUIV="refresh" CONTENT="x,URL">
• redirige après x secondes vers URL indiqué
• <META HTTP-EQUIV="expires" CONTENT="Wed,23Feb1999
10:49:02GMT">
• date à laquelle la page est considérée comme périmée
•
•
<META HTTP-EQUIV="Page-Enter"
CONTENT="revealTrans(Duration1.0,Transition=23)">
<META HTTP-EQUIV="Page-Exit"
CONTENT="revealTrans(Duration1.0,Transition=23)">
• Page-Enter-Exit : effet de transition à l'entrée ou à la sortie de la
page
• Duration : durée de la transition en secondes
• Transition : effet de transition (de 1 à 23)
– 23 : aléatoire, 7 : de droite à gauche, 17 : diagonale ...
Robots.txt
• Moteur vérifie d’abord sa présence à la racine
– (protocole REP : robot exclusion protocole)
– 1 seul ficher pour tout le site.
• 2 instructions :
User-agent: Googlebot
User-agent: Scooter
Disallow: /tmp/
Disallow: /rep/exemple.html
– Seuls Google et Altavista peuvent référencer
– Sauf le répertoire « tmp » et le ficher « exemple.html » dans
le répertoire « rep »
• User-agent: * : tous autorisés
Balises Méta : en mettre ou pas ?
• Etude 2002 (Abondance / 100 millions Francophone) :
– "Description" et "Keywords » : 40%
– Meta "Robots" : 20%.
– "Author » : 20% (mais ajoutée automatiquement par
un certain nombre d'éditeurs HTML / Attention
Frontpage)
– TITLE (pas une balise Meta) : 95%
• Mais : moteurs majeurs ne les prennent pas en compte …
• Tout n’est pas si simple :
– « description » : rôle faible pour le positionnement MAIS importante pour
affichage des résultats. Permet de mieux maîtriser la façon dont votre site
apparaît dans ces résultats. (Olivier Andrieu, JDN, Avril 2005)
Outils et astuces …
• Abondance toolkit : outils - gratuits - pour vérifier,
soumettre, etc …
– http://www.spider-simulator.com/ : permet de voir
comment les "spiders" (ou robots) des moteurs
prennent en compte votre site
• http://www.crawler-alert.com/
– alerte mail quand un spider/crawler visite votre site
– un fichier à installer en tête de son rép.
• Connais-toi toi-même, et les autres …
– Fichiers logs : qui vient, d’où, pour combien de temps,
sur quel mots-clés, etc …
– Démo : Google Analytics.
Critères de positionnement sur Google
•
PageRank
–
–
–
–
–
–
•
–
–
–
–
–
* Occurrence du mot-clé dans le texte de la balise
Balise <IMG>
–
–
•
* Occurrence du mot-clé dans le texte de la balise
Balises <H1> ... <H6>
–
•
* Position du mot-clé dans le titre (distance par rapport au début du
texte)
* Nombre de caractères dans le texte
* Occurrence du mot-clé dans le texte (en dehors de toute balise)
* Indice de densité des mots-clés
* Distance entre les mots-clés
* Ordre des mots-clés
Balise <A>
–
•
* Présence du mot-clé
* Position du mot-clé dans le titre (distance par rapport au début du texte)
* Rapport entre le nombre de mots-clés et le nombre de mots dans la balise
Texte du document
–
•
* Présence du mot-clé
* Position du mot-clé (distance par rapport au début du texte)
* Rapport entre le nombre de mots-clés et le nombre de mots dans la balise
Balise META keywords
–
–
–
•
* Présence du mot-clé dans le titre
* Position du mot-clé dans le titre (distance par rapport au début du texte)
* Nombre de caractères dans le titre
* Distance entre les mots-clés
* Rapport entre le nombre de mots-clés dans le titre et le nombre total de mots
Balise META description
–
–
–
•
•
* Occurrence du mot-clé dans le texte de la balise
* Présence et imbrication à l'intérieur d'une balise <A>
Autres balises
URL
–
–
–
–
•
Balise TITLE
–
–
–
–
–
•
* Nombre total de liens
* Nombre de liens contenant le mot-clé dans le texte du lien
* Rapport entre le nombre de liens et le nombre de liens contenant le mot-clé
dans le texte du lien
* PageRank de la page qui fait le lien
* Nombre de liens dans la page qui fait le lien
* Nombre de nouveaux liens depuis le dernier calcul du PageRank
•
•
Fichier
•
•
•
Site
•
* Présence du mot-clé dans l'URL
* Position du mot-clé dans l'URL (distance par rapport à la racine du site)
* Nombre de caractères de l'URL
* Nombre de niveaux de répertoires
* Date de création
* Taille du fichier en octets (ou Ko)
* Fréquence des mises à jour de la page
* Taux (ou nombre) de nouvelles pages dans le site depuis le dernier
calcul
•
* Nombre de pages du site
•
* PageRank de la page d'accueil
Pages liantes, liens internes et externes
•
* Nombre de domaines différents des pages liantes
•
* Densité des mots-clés des pages liantes
•
* Présence et position des mots-clés dans les pages liantes (dans le titre,
ou le texte)
•
* Présence des mots-clés dans les pages liées par les pages liantes (pages
similaires)
•
* Densité des mots-clés dans les pages liées par les pages liantes (pages
similaires)
•
* Nombre de liens internes (même url - même répertoire)
•
* Nombre de liens intermédiaires (même nom de domaine mais autres
répertoires)
•
* Nombre de liens externes (autres noms de domaine)
•
* Rapport entre le nombre de liens externes et le nombre total de liens
•
* Nombre de liens externes contenant le mot-clé dans le texte des liens
•
* Rapport entre le nombre de liens externes et le nombre de liens
externes contenant le mot-clé dans le texte du lien
Indexation payante ...
- Rentabiliweb c. Google,
France, mars 2003 : La société
Rentabiliweb a assigné le
moteur de recherche Google, à
l'occasion d'un procès initié en
décembre 2002 par cette
dernière contre un de ses
concurrents pour détournement
de clientèle et concurrence
déloyale. Elle accuse Google
d’avoir vendu comme mots clés
dans les campagnes
publicitaires des marques dont
elle était titulaire. La première
audience aura lieur en mars
2003 devant le Tribunal de
Grande Instance de Lyon.
• Pourquoi ?
– Modèle économique non-viable
• Soumission payante (disparue)
– surtout proposé par annuaires
– permet de voir son site rapidement évalué ==> avantage
décisif pour sites événementiels.
– Mais ne garantit pas inscription dans l’annuaire
Indexation payante
• Référencement payant
– Coté utilisateur : garantit la présence d ’un certain nombre de pages
d ’un site dans la base de données d ’un moteur de recherche et un
refresh de ces documents dans un délai court et garanti
– côté moteur : lutte contre le spam, prise en compte pages dynamiques
• Positionnement payant
– achat de mots clés pour affichage en tête de page de résultat
– Principe : obtenir une page web d'un site dans les premières
positions proposées par l'outil de recherche pour un mot clé donné.
– Résistance des mentalités (Altavista)
– Enchères inversées
– pay per click
Liens sponsorisés
- Recommandation de la
Commission fédérale du commerce
américain (FTC), août 2002 :
Commercial Alert, une association
de défense des
cyberconsommateurs créée en
1998 par l'activiste américain Ralf
Nader a porté plainte le 16 juillet
2001 auprès de la Commission
fédérale du commerce américain
(FTC) à l'encontre de huit moteurs
de recherche comme MSN de
Microsoft, Altavista, Lycos ou
Netscape, leur reprochant de
cacher la vraie nature de leurs
résultats de recherche. Selon
Commercial Alert, le classement
des résultats est une forme de
publicité déguisée puisqu'il est
vendu aux sites. La Federal Trade
Commission (FTC) a mis en garde
les moteurs de recherche sur la
pratique des liens sponsorisés qui
consiste à placer
systématiquement sur la première
page des moteurs lors d’une
requête des liens vers des sites
ayant payé pour cette place. La
FTC a recommandé aux moteurs
de recherche de signaler
clairement les liens proposés par
leurs partenaires.
Google : AdWords & AdSense
• Adwords : positionnement payant
• AdSense : Affiliation gratuite
– Sur votre site, affichage liens Adwords.
– Rémunéré au clic.
• 80 % de ses revenus (hors
capitalisation boursière)
Splendeurs et Misères du référencement …
• Dérives politiques
– UMP : achète Banlieues
– Analyse chez Jean Véronis
(aixtal.blogspot.com)
• Dérives algorithmiques
– Google Bombing
Surveiller les mots-clés
• http://buzz.yahoo.com/weekly/
• Google Zeitgeist
• + Moteurs spécialisés (Technorati)
3. Les nouveautés
Web … invisible
Le "web invisible" (deep web, hidden web) désigne la partie du web non
accessible aux moteurs de recherche classiques. Le web invisible comprend
des bases, banques de données et bibliothèques en ligne gratuites ou
payantes (White paper « The Deep Web », Bright Planet, July 2000)
Web
Web(s) invisible(s)
• + de 500 fois plus grand que web visible
• Le(s) web(s) invisible(s)
• The Opaque Web :
– les pages qui pourraient être indexées par les moteurs mais qui ne le sont pas
(limitation d'indexation du nombre de pages d'un site, fréquence d'indexation, liens
absents vers des pages ne permettant donc pas un crawling)
• The Private Web :
–
les pages webs disponibles mais volontairement exclues par les webmasters (mot de
passe, metatags ou fichiers dans la page pour que le robot du moteur ne l'indexe pas).
• The Proprietary web :
– pages seulement accessibles pour les personnes qui s'identifient. Le robot ne peut
donc pas y accéder.
• The Truly Invisible Web :
– contenu qui ne peut être indexé pour des raisons techniques. Ex : format inconnu par
le moteur (Google est l'un des rares moteurs à reconnaître autant de formats), pages
générées dynamiquement
Des Outils Spécifiques
• CompletePlanet Portails de recherche par motsclés ou annuaire thématique sur plus de 90000
bases de données ou moteurs de recherche
spécialisés (de Agriculture à Weather). Réalisé par
BrightPlanet.
• Strategic finder : métamoteur (client gratuit mais
bridé) pour interroger Web visible et invisible.
– Plug-ins : Biognome : 500 sources domaine
biotechnologies
– transport : 180 sources éconopmie du transport
Archives ouvertes
•
Disciplinaires …
– Articles : http://archivesic.ccsd.cnrs.fr/
– Thèses : http://tel.ccsd.cnrs.fr/view-thes-ciss_fr.html
– Mémoires de 3e cycle : http://memsic.ccsd.cnrs.fr/
– "moissonneur" OASIC : http://oasic.ccsd.cnrs.fr
•
Interdisciplinaires …
– OAIster http://oaister.umdl.umich.edu/o/oaister/
• moissone actuellement 351 Archives Ouvertes(3,554,124
enregistrements
• Recherche peut s'effectuer par institutions (Archives),
par mots clés, ou par descripteurs (auteur, titre, date, ...)
– DOAJ (Directory of Open Access Journals)
DublinCore
•Acteurs initiaux : bibliothécaires et informaticiens
•OCLC http://www.oclc.org/
•NCSA http://www.ncsa.uiuc.edu/
•Site http://dublincore.org
•En français : http://www-rocq.inria.fr/~vercoust/METADATA/DCfrench.html
•Mars 1995: 1ère conférence sur les métadonnées
•Objectif : établir un consensus sur les éléments essentiels des
métadonnées pour une description adéquate des ressources
accessibles dans Internet (Weibel et al., 1995).
•plus petit dénominateur commun des formats de description
•Deux utilisations possibles du DC : description des ressources à partir
d’un lien externe ou inclusion dans les ressources.
DC : exemple
<dc:title>Intersection Graphs of Jordan Arcs</dc:title>
<dc:creator>De Fraysseix, Hubert</dc:creator>
<dc:creator>Ossona De Mendez, Patrice</dc:creator>
<dc:subject>Mathematics/Combinatorics</dc:subject>
<dc:description>A family of Jordan arcs, such that two arcs are nowhere
tangent….</dc:description>
<dc:publisher>HAL - CCSd - CNRS</dc:publisher>
<dc:contributor>Patrice Ossona De Mendez <[email protected]></dc:contributor>
<dc:date>1999</dc:date>
<dc:type>ARTJOURNAL</dc:type>
<dc:format/>
<dc:identifier>ccsd-00005625 (version 1)</dc:identifier>
<dc:source>http://hal/docs/00/03/17/31/PDF/Taxi_ArcStirin.pdf</dc:source>
<dc:language>EN</dc:language>
<dc:relation/>
<dc:coverage>graph drawing; intersection representation</dc:coverage>
<dc:rights/>
La « révolution » des blogs
• Nouvelles plate-formes éditoriales
– « 1er genre éditorial né du web » (Joël Ronez)
– Caractéristiques :
•
•
•
•
Contenu. Contenu. Contenu.
Mise à jour (quotidienne)
Densité du maillage de liens (blogroll, trackbacks, A-List, Commentaires)
Syndication RSS
• Posent problèmes au moteur (algorithmie « détraquée »)
– Solution : base dédiée
• Actuellement : outil idéal en terme de positionnement et de
référencement
– Billets référencés en une heure (ou moins)
– Lisibilité de l’offre moteurs (Google Blogsearch, Technorati)
– Indexation (et référencement) « sociale »
• Tags, Signets partagés, etc …
( à suivre … )
• Sur les moteurs et le référencement
– Olivier Andrieu : http://www.abondance.com
• Sur les moteurs
– Marc Duval : http://www.dsi-info.ca
– Gary Price : http://www.searchenginewatch.com
– Jérôme Charron : http://motrech.blogspot.com/
• Sur le référencement
– Beginner’s Guide to Search Engine Optimization
• http://www.seomoz.org/beginners.php
– Sébastien Billard : http://s.billard.free.fr/
• Sur les moteurs, les archives ouvertes, et au-delà …
– Jean Véronis : http://aixtal.blogspot.com
– Urfist Info : http://www.urfist.info
– Affordance Info : http://www.affordance.info
? Questions ?
Ce support de cours est distribué sous licence « Creative Commons ». `
Il peut être modifié, diffusé et réutilisé librement à condition que cette
réutilisation :
•ne s’effectue pas dans un cadre commercial (non-commercial),
•qu’elle mentionne la source et l’auteur original (attribution)
•et que le même régime s’applique au nouveau support (share-alike).