Les moteurs de recherche et le référencement de sites Conférence ENS. 23 Janvier 2006 Olivier Ertzscheid. Maître de Conférences en Sciences de l’information IUT La Roche sur.
Download ReportTranscript Les moteurs de recherche et le référencement de sites Conférence ENS. 23 Janvier 2006 Olivier Ertzscheid. Maître de Conférences en Sciences de l’information IUT La Roche sur.
Les moteurs de recherche et le référencement de sites Conférence ENS. 23 Janvier 2006 Olivier Ertzscheid. Maître de Conférences en Sciences de l’information IUT La Roche sur Yon. Université de Nantes Contact : [email protected] Site (blog) : http://www.affordance.info Programme de l’intervention • Les moteurs et outils de recherche – – – – Typologie des outils Les grands principes (indexation) L’exemple de Google Syntaxes avancées de recherche : • La recherche au service du référencement • Le référencement de sites – Les basiques – Les erreurs à éviter – Référencement et positionnement payant • Nouveautés – Publications scientifiques : du « référencement » à la « visibilité » : vers un nouveau facteur d’impact ? (Web « invisible » / Archives ouvertes / Dublin Core ) – Blogs : enjeux pour la recherche et le référencement (RSS) – Indexation collaborative (tags, signets partagés, folksonomies) 1. Moteurs et outils de recherche Typologie des outils de recherche 1. Annuaires • (Open Directory : www.dmoz.org ) 2. 3. 4. 5. Moteurs Métamoteurs Métarépertoires Moteurs « sémantiques » • Outils cartographiques • Outils de catégorisation (clustering) 6. Presse en ligne Recherche avançée ... • Vous avez dit booléen ? Fonctionnalités « veille » des outils standards • recherche sur titre « title: » • recherche sur nom domaine « domain:fr » • recherche sur URL « url:equipement » – Récupère les pages ayant le mot ou l'expression indiqué(e) dans l'URL. Utilisez url:jardin pour trouvez toutes les pages de tous les serveurs ayant le mot jardin à n'importe quel endroit dans le nom d'hôte, le chemin d'accès ou le nom de fichier. • recherche sur nom serveur « host:sncf » – Récupère les pages de l'ordinateur indiqué. La recherche host:www.shopping.com trouvera les pages de l'ordinateur de Shopping.com et host:dilbert.unitedmedia.com trouvera les pages d'un ordinateur s'appelant dilbert dans unitedmedia.com. • recherche sur intitulés de liens « anchor: » • recherche de sites similaires « like: » • Consultation de la page cachée Exemple : "cache:www.google.fr" Reverse Searching • Recherche des pages liantes (backlinks) Exemple : "link:www.google.fr" – Google n'affiche pas toutes les pages (a priori seulement celles qui ont un PageRank suffisament élevé, supérieur ou égal à 4 semble-til). – Google n'affiche même pas tous les résultats annoncés (environ la moitié est donnée). • • Yahoo! "link:http://www.bnf.fr » "linkdomain:bnf.fr" identifie ainsi 240 000 pages pointant vers une partie ou une autre du site • Reverse searching « link: » – existe un outil dédié www.Linkpopularity.com Métamoteurs • Principal critère : nombre de moteurs interrogés • En ligne : www.profusion.com • Off-line (clients) : www.copernic.com – possibilité d'affiner plusieurs requêtes hors connexion – mémorisation requêtes pour itération (veille) – automatisation de la requète à des intervalles définis (Veille) – définition de l'étendue de recherche (source des informations) Méta-répertoires • Répertoires de type portail donnant accès aux outils de recherche selon leur catégorie / pays • www.beaucoup.com / www.enfin.com / • www.searchenginecolossus.com – liens vers outils de recherche de plus de 228 pays 1 nouveau modèle dominant : Logiques d ’ALLIANCE ou l ’interrogation « multi-bases » • La plupart des moteurs possèdent plusieurs bases DISTINCTES – ex : google. (directory, fulltext, group) • location des bases par des moteurs : – http://www.search-this.com/search_engine_decoder.asp • fourniture de technologies par sociétés privées à des sites « portails » • www.Exalead.fr sur portail AOL Quels critères ? • Taux de couverture linguistique – francophone, régional, international … • « Size War » – Bataille technologique ET marketing (« Les comptes bidons de Google ») – Club des milliardaires (base « web ») • Ask Jeeves : 2.3 • Exalead : 3 (puis 5 puis 8 : projet Quaero) • Yahoo : 4 • MSN : 5 • Google : 8 – Il faudrait ajouter bases images, news, etc … • Fréquence d’indexation – Prise en compte de documents récents. Vital sur « news » Les grands critères de classement : question d ’algorithme(s) • Analyse du texte – full-text + toutes ses déclinaisons (page accueil, pondérations différentes, lemmatisation …) et ses biais (référencement, méta …) – Tous utilisent ce type d ’indexation • Analyse des liens (entrants et sortants) – révolution PageRank (Google) : indice de popularité. 1 lien = 1 vote. • Analyse du texte des liens « backlinks » – prend en compte texte des liens, termes qui entourent ces liens et contenu des pages liées • Taux de rappel – nombre de documents pertinents retournés divisé par le nombre de documents pertinents existants. • Taux de précision – nombre de documents pertinents retournés divisé par le nombre de documents retournés. Extraction (fichier inverse) Classement Ranking Pertinence Outils Elimination (mots outils) sémantiques Outils Outils statistiques linguistiques Multilinguisme lemmatisation (morphologie, syntaxe) Comparatifs / Taux recouvrement • http://ranking.thumbshots.com/ • Jux2 (www.jux2.com) Google : How it Works (1/2) ou comment chercher une aiguille dans une botte de foin • Chaque mois – plus de 750 ordinateurs sont reliés en un « Googlebot », le robot du moteur de recherche – progresse lentement sur la toile (si va trop vite planterait la plupart des serveurs existants) et télécharge 1000 pages / sec. – lit et indexe chaque mot et lui attribue une « valeur » basée sur son importance dans la page. – Cette opération dure une semaine et équivant à appeler tous les numértos de tél. de la planète. • Plus de 200 ordinateurs – analysent ensuite liens, – comptent toutes les pages, – évaluent leur importance et peaufinent leur classement (PAGERANK). • Puis, 5 centres serveurs – arrêtent leur opération – sont chargés avec nouvelles pages • La botte de foin est prête. Google : How it Works (2/2) • • Saisie requête 19h31. + 10 millisec. – vérifie le « cache » = 12 ordinateurs contenant toutes pages web récemment consultées pour vérif si question déjà posée. – Si non ==> envoie requête vers un « mélangeur ». • + 45 millisec. : – mélangeur expédie mes mots clés vers 50 ordinateurs contenant nuée de termes qui constituent la botte de foin : « qu ’avez vous sur ……. ? » – chaque ordinateur répond : voici mes 75 meilleures pages, mes 25 meilleures pages … – mélangeur compile les pages obtenues en une liste unique d ’après le « rang » de chaque page. • +85 millisec. : – mélangeur se tourne vers botte de foin : « Je veux toutes ces pages ! Et mettez moi les mots de la requête en gras. » • + 90 millisec. – Liste affichée sur mon écran. Moteurs cartographiques • KartOO (métamoteur multilingue) http://www.kartoo.com/ – Les sites web sont reliés les uns aux autres par des liens sémantiques générés dynamiquement • Adresses : – Mapstan http://search.mapstan.net/ – Webbrain :http://www.webbrain.com/ – Grokker : http://www.groxis.com/ – Plus ludique : www.musicplasma.com Moteurs de catégorisation • Catégorisation en temps réel ET contextuelle – Le mot clé "chirac" proposera, par exemple, les thèmes "President Jacques Chirac", "France", "Nuclear Testing", "Yeltsin", "Jospin" • (Moteur) Exalead (www.exalead.com) • (Métamoteur) Vivissimo http://vivisimo.com/ – http://clusty.com/ • Outils (gadgets) de reformulation (mots-clés) – Mooter. http://www.mooter.com/ – KwMap : www.kwmap.com Les inclassables : • Wayback Machine : www.Archive.org • exemple : le site du sénat de 1996 à 2002 • avec un peu de chance : deeplinks intacts sur 1 ou 2 niveaux. • Alexa : http://www.alexa.com/ – Une mine d’informations pour le référencement … Presse en ligne / dépêches / info. factuelles • http://www.daypop.com/ – indexe quotidiennement 7 500 sites de nouvelles et, nouveauté, intègre dans ses recherches certains blogues d'opinion. Crawle dorénavant plus de 10 500 weblogs et utilise plus de 1000 sources d'actualités • http://www.moreover.com/cgi-local/page?o=portal&c=Top%20stories – Meilleur outil anglophone. recherche par mots clés ou par thématiques (plus de 330 thèmes d'actualités supervisées par les services éditoriaux de Moreover et plus de 430 thèmes d'actualités non supervisées) • http://news.google.com/ – lancé début mars 2002. – Google met à jour son index de news environ toutes les heures. 2. Le référencement 2. Le référencement de sites Plusieurs scénarii 1. Ne rien faire 2. Se déclarer auprès des moteurs • formulaires des différents moteurs 3. Travailler son contenu • Faire des changements 4. Travailler ses métadonnées 5. Payer (référencement et positionnement) Indexation : se faire connaître pour être reconnu ... • Ce qu'il faut faire : – Balises <META> permettent de contrôler l'indexation – <META NAME="keywords" CONTENT="gâteau dessert fruit"> – votre page ne sera indexée que sur ces trois mots (panaf.org) – infos intéressent : moteurs de recherche, lecteurs (avertis !), navigateur – savoir qui référence sa page (et de quelle façon ...) – rechercher les liens renvoyant vers vos pages (reverse searching) – importance du titrage et des premiers mots (250 premiers caractères) – éviter Javascript et imagemaps – refus d'indexer de certains moteurs s'il y en a en début de document – utiliser systématiquement attribut ALT – nom de domaine personnalisé – échange de liens – si vous renvoyez vers certains sites, proprsez leur de renvoyer vers le vôtre – certains robots font apparâitre en premier les sites vers lesquels pointent le plus de liens – « Signez » vos e-mails – utiliser les newsgroups consacrés à l'annonce de nouveaux sites – news:comp.infosystems.www.announce Indexation : se faire connaître pour être reconnu ... • Ce qu'il ne faut pas faire – "flooding" = innonder – dans les moteurs de recherche : remplir plusieurs déclarations » considéré comme du Hacking – dans les newsgroups, chat rooms ou forums » programmes qui envoient un message automatiquement à chaque nouveau connecté. – "spamming" – texte invisible (couleur du fond de page) – texte repris dans balises meta » pénalisé et considéré comme du Hacking par moteurs de recherche • être conscient du "lavage d'index" plus ou moins fréquent • s ’abonner à une liste de discussion (référencement) Malgré tout cela … aucune « garantie » • Prise en compte du site et affichage par moteurs : – De quelques heures (Ping/blogs) à quelques … mois ! – www.pingoat.com • Yahoo : de 1 jour à 3 mois • MSN.fr : indexation aléatoire • Open Directory : 1 semaine à 1 mois Les balises <META> • les indispensables : – <META NAME="keywords" CONTENT="mot-clé1, mot-clé2 ..."> - Oppedahl & Larson c. Advanced Concepts, Etats-Unis, 23 juillet 1997 : La société Advanced Concept avait inséré le nom de la société Oppedhal&Larson dans les balises meta de son site. Elle a été interdite d'utiliser ce nom sans l'autorisation expresse de l'entreprise plaignante. Il s'agit, historiquement, du premier procès autour des balises Meta. • • • • • • • utilisé par tous les moteurs mots-clés séparés par une virgule pas d'espace entre les mots-clés minuscules pour éviter les problèmes limité à 1000 mots-clés (sic) éviter mots-clés bidons (cf www.aol.com) éviter le spam CONTENT="html,html,html,html,html,html,html" – pénalisé par moteurs de recherche – <META NAME="description" CONTENT="description_du_site"> - Playboy c. Calvin designer Label, Etats-Unis, 8 septembre 1997 : ce dernier avait copié de nombreuses fois les mots "Playboy" et "Playmate" dans son site afin d'être mieux positionnés sur ces termes. Le site web a été considéré comme coupable. • seuls 140 à 250 premiers mots retenus par moteurs de recherche • astuce : reprendre un ou des mots-clés dans les titres de pages – classement optimisé. Les balises <META> • les utiles – <META NAME="author" CONTENT="nom_de_l'auteur"> • peu utilisé par moteurs qui lui préfèrent la balise <ADRESS> • NOMADE fournit l'url après avoir entré le nom de l'auteur – <META NAME="copyright" CONTENT="mentions_de_copyright"> – <META NAME="distribution" CONTENT="global ou local"> • destination de l'information de la page – <META NAME="generator" CONTENT="éditeur_utilisé"> • intéresse responsables marketing des sociétés • petit coup de pouce pour éditeurs indépendants • attention aux balises auto-générées (démonstration IExplorer) – <META NAME="rating" CONTENT="public_visé"> • general, restricted, mature, 14 years Les balises <META> • <META NAME="robots" CONTENT="instructions_pour_robots"> – – – – all (default) : indexation pages et liens none : pas d'indexation des pages ni des liens index / NoIndex : indexation (ou non) des pages follow / NoFollow : permission (ou non) de suivre les liens • <META HTTP-EQUIV="content-language" CONTENT="fr"> – très utilisé par moteurs de recherche sous l'impulsion du W3C, dans un souci d'accessibilité. • <META HTTP-EQUIV="reply-to » CONTENT="[email protected]"> • <META HTTP-EQUIV="reply-to" CONTENT="url_page_accueil"> Les balises <META> • les éventuelles • <META HTTP-EQUIV="refresh" CONTENT="x,URL"> • redirige après x secondes vers URL indiqué • <META HTTP-EQUIV="expires" CONTENT="Wed,23Feb1999 10:49:02GMT"> • date à laquelle la page est considérée comme périmée • • <META HTTP-EQUIV="Page-Enter" CONTENT="revealTrans(Duration1.0,Transition=23)"> <META HTTP-EQUIV="Page-Exit" CONTENT="revealTrans(Duration1.0,Transition=23)"> • Page-Enter-Exit : effet de transition à l'entrée ou à la sortie de la page • Duration : durée de la transition en secondes • Transition : effet de transition (de 1 à 23) – 23 : aléatoire, 7 : de droite à gauche, 17 : diagonale ... Robots.txt • Moteur vérifie d’abord sa présence à la racine – (protocole REP : robot exclusion protocole) – 1 seul ficher pour tout le site. • 2 instructions : User-agent: Googlebot User-agent: Scooter Disallow: /tmp/ Disallow: /rep/exemple.html – Seuls Google et Altavista peuvent référencer – Sauf le répertoire « tmp » et le ficher « exemple.html » dans le répertoire « rep » • User-agent: * : tous autorisés Balises Méta : en mettre ou pas ? • Etude 2002 (Abondance / 100 millions Francophone) : – "Description" et "Keywords » : 40% – Meta "Robots" : 20%. – "Author » : 20% (mais ajoutée automatiquement par un certain nombre d'éditeurs HTML / Attention Frontpage) – TITLE (pas une balise Meta) : 95% • Mais : moteurs majeurs ne les prennent pas en compte … • Tout n’est pas si simple : – « description » : rôle faible pour le positionnement MAIS importante pour affichage des résultats. Permet de mieux maîtriser la façon dont votre site apparaît dans ces résultats. (Olivier Andrieu, JDN, Avril 2005) Outils et astuces … • Abondance toolkit : outils - gratuits - pour vérifier, soumettre, etc … – http://www.spider-simulator.com/ : permet de voir comment les "spiders" (ou robots) des moteurs prennent en compte votre site • http://www.crawler-alert.com/ – alerte mail quand un spider/crawler visite votre site – un fichier à installer en tête de son rép. • Connais-toi toi-même, et les autres … – Fichiers logs : qui vient, d’où, pour combien de temps, sur quel mots-clés, etc … – Démo : Google Analytics. Critères de positionnement sur Google • PageRank – – – – – – • – – – – – * Occurrence du mot-clé dans le texte de la balise Balise <IMG> – – • * Occurrence du mot-clé dans le texte de la balise Balises <H1> ... <H6> – • * Position du mot-clé dans le titre (distance par rapport au début du texte) * Nombre de caractères dans le texte * Occurrence du mot-clé dans le texte (en dehors de toute balise) * Indice de densité des mots-clés * Distance entre les mots-clés * Ordre des mots-clés Balise <A> – • * Présence du mot-clé * Position du mot-clé dans le titre (distance par rapport au début du texte) * Rapport entre le nombre de mots-clés et le nombre de mots dans la balise Texte du document – • * Présence du mot-clé * Position du mot-clé (distance par rapport au début du texte) * Rapport entre le nombre de mots-clés et le nombre de mots dans la balise Balise META keywords – – – • * Présence du mot-clé dans le titre * Position du mot-clé dans le titre (distance par rapport au début du texte) * Nombre de caractères dans le titre * Distance entre les mots-clés * Rapport entre le nombre de mots-clés dans le titre et le nombre total de mots Balise META description – – – • • * Occurrence du mot-clé dans le texte de la balise * Présence et imbrication à l'intérieur d'une balise <A> Autres balises URL – – – – • Balise TITLE – – – – – • * Nombre total de liens * Nombre de liens contenant le mot-clé dans le texte du lien * Rapport entre le nombre de liens et le nombre de liens contenant le mot-clé dans le texte du lien * PageRank de la page qui fait le lien * Nombre de liens dans la page qui fait le lien * Nombre de nouveaux liens depuis le dernier calcul du PageRank • • Fichier • • • Site • * Présence du mot-clé dans l'URL * Position du mot-clé dans l'URL (distance par rapport à la racine du site) * Nombre de caractères de l'URL * Nombre de niveaux de répertoires * Date de création * Taille du fichier en octets (ou Ko) * Fréquence des mises à jour de la page * Taux (ou nombre) de nouvelles pages dans le site depuis le dernier calcul • * Nombre de pages du site • * PageRank de la page d'accueil Pages liantes, liens internes et externes • * Nombre de domaines différents des pages liantes • * Densité des mots-clés des pages liantes • * Présence et position des mots-clés dans les pages liantes (dans le titre, ou le texte) • * Présence des mots-clés dans les pages liées par les pages liantes (pages similaires) • * Densité des mots-clés dans les pages liées par les pages liantes (pages similaires) • * Nombre de liens internes (même url - même répertoire) • * Nombre de liens intermédiaires (même nom de domaine mais autres répertoires) • * Nombre de liens externes (autres noms de domaine) • * Rapport entre le nombre de liens externes et le nombre total de liens • * Nombre de liens externes contenant le mot-clé dans le texte des liens • * Rapport entre le nombre de liens externes et le nombre de liens externes contenant le mot-clé dans le texte du lien Indexation payante ... - Rentabiliweb c. Google, France, mars 2003 : La société Rentabiliweb a assigné le moteur de recherche Google, à l'occasion d'un procès initié en décembre 2002 par cette dernière contre un de ses concurrents pour détournement de clientèle et concurrence déloyale. Elle accuse Google d’avoir vendu comme mots clés dans les campagnes publicitaires des marques dont elle était titulaire. La première audience aura lieur en mars 2003 devant le Tribunal de Grande Instance de Lyon. • Pourquoi ? – Modèle économique non-viable • Soumission payante (disparue) – surtout proposé par annuaires – permet de voir son site rapidement évalué ==> avantage décisif pour sites événementiels. – Mais ne garantit pas inscription dans l’annuaire Indexation payante • Référencement payant – Coté utilisateur : garantit la présence d ’un certain nombre de pages d ’un site dans la base de données d ’un moteur de recherche et un refresh de ces documents dans un délai court et garanti – côté moteur : lutte contre le spam, prise en compte pages dynamiques • Positionnement payant – achat de mots clés pour affichage en tête de page de résultat – Principe : obtenir une page web d'un site dans les premières positions proposées par l'outil de recherche pour un mot clé donné. – Résistance des mentalités (Altavista) – Enchères inversées – pay per click Liens sponsorisés - Recommandation de la Commission fédérale du commerce américain (FTC), août 2002 : Commercial Alert, une association de défense des cyberconsommateurs créée en 1998 par l'activiste américain Ralf Nader a porté plainte le 16 juillet 2001 auprès de la Commission fédérale du commerce américain (FTC) à l'encontre de huit moteurs de recherche comme MSN de Microsoft, Altavista, Lycos ou Netscape, leur reprochant de cacher la vraie nature de leurs résultats de recherche. Selon Commercial Alert, le classement des résultats est une forme de publicité déguisée puisqu'il est vendu aux sites. La Federal Trade Commission (FTC) a mis en garde les moteurs de recherche sur la pratique des liens sponsorisés qui consiste à placer systématiquement sur la première page des moteurs lors d’une requête des liens vers des sites ayant payé pour cette place. La FTC a recommandé aux moteurs de recherche de signaler clairement les liens proposés par leurs partenaires. Google : AdWords & AdSense • Adwords : positionnement payant • AdSense : Affiliation gratuite – Sur votre site, affichage liens Adwords. – Rémunéré au clic. • 80 % de ses revenus (hors capitalisation boursière) Splendeurs et Misères du référencement … • Dérives politiques – UMP : achète Banlieues – Analyse chez Jean Véronis (aixtal.blogspot.com) • Dérives algorithmiques – Google Bombing Surveiller les mots-clés • http://buzz.yahoo.com/weekly/ • Google Zeitgeist • + Moteurs spécialisés (Technorati) 3. Les nouveautés Web … invisible Le "web invisible" (deep web, hidden web) désigne la partie du web non accessible aux moteurs de recherche classiques. Le web invisible comprend des bases, banques de données et bibliothèques en ligne gratuites ou payantes (White paper « The Deep Web », Bright Planet, July 2000) Web Web(s) invisible(s) • + de 500 fois plus grand que web visible • Le(s) web(s) invisible(s) • The Opaque Web : – les pages qui pourraient être indexées par les moteurs mais qui ne le sont pas (limitation d'indexation du nombre de pages d'un site, fréquence d'indexation, liens absents vers des pages ne permettant donc pas un crawling) • The Private Web : – les pages webs disponibles mais volontairement exclues par les webmasters (mot de passe, metatags ou fichiers dans la page pour que le robot du moteur ne l'indexe pas). • The Proprietary web : – pages seulement accessibles pour les personnes qui s'identifient. Le robot ne peut donc pas y accéder. • The Truly Invisible Web : – contenu qui ne peut être indexé pour des raisons techniques. Ex : format inconnu par le moteur (Google est l'un des rares moteurs à reconnaître autant de formats), pages générées dynamiquement Des Outils Spécifiques • CompletePlanet Portails de recherche par motsclés ou annuaire thématique sur plus de 90000 bases de données ou moteurs de recherche spécialisés (de Agriculture à Weather). Réalisé par BrightPlanet. • Strategic finder : métamoteur (client gratuit mais bridé) pour interroger Web visible et invisible. – Plug-ins : Biognome : 500 sources domaine biotechnologies – transport : 180 sources éconopmie du transport Archives ouvertes • Disciplinaires … – Articles : http://archivesic.ccsd.cnrs.fr/ – Thèses : http://tel.ccsd.cnrs.fr/view-thes-ciss_fr.html – Mémoires de 3e cycle : http://memsic.ccsd.cnrs.fr/ – "moissonneur" OASIC : http://oasic.ccsd.cnrs.fr • Interdisciplinaires … – OAIster http://oaister.umdl.umich.edu/o/oaister/ • moissone actuellement 351 Archives Ouvertes(3,554,124 enregistrements • Recherche peut s'effectuer par institutions (Archives), par mots clés, ou par descripteurs (auteur, titre, date, ...) – DOAJ (Directory of Open Access Journals) DublinCore •Acteurs initiaux : bibliothécaires et informaticiens •OCLC http://www.oclc.org/ •NCSA http://www.ncsa.uiuc.edu/ •Site http://dublincore.org •En français : http://www-rocq.inria.fr/~vercoust/METADATA/DCfrench.html •Mars 1995: 1ère conférence sur les métadonnées •Objectif : établir un consensus sur les éléments essentiels des métadonnées pour une description adéquate des ressources accessibles dans Internet (Weibel et al., 1995). •plus petit dénominateur commun des formats de description •Deux utilisations possibles du DC : description des ressources à partir d’un lien externe ou inclusion dans les ressources. DC : exemple <dc:title>Intersection Graphs of Jordan Arcs</dc:title> <dc:creator>De Fraysseix, Hubert</dc:creator> <dc:creator>Ossona De Mendez, Patrice</dc:creator> <dc:subject>Mathematics/Combinatorics</dc:subject> <dc:description>A family of Jordan arcs, such that two arcs are nowhere tangent….</dc:description> <dc:publisher>HAL - CCSd - CNRS</dc:publisher> <dc:contributor>Patrice Ossona De Mendez <[email protected]></dc:contributor> <dc:date>1999</dc:date> <dc:type>ARTJOURNAL</dc:type> <dc:format/> <dc:identifier>ccsd-00005625 (version 1)</dc:identifier> <dc:source>http://hal/docs/00/03/17/31/PDF/Taxi_ArcStirin.pdf</dc:source> <dc:language>EN</dc:language> <dc:relation/> <dc:coverage>graph drawing; intersection representation</dc:coverage> <dc:rights/> La « révolution » des blogs • Nouvelles plate-formes éditoriales – « 1er genre éditorial né du web » (Joël Ronez) – Caractéristiques : • • • • Contenu. Contenu. Contenu. Mise à jour (quotidienne) Densité du maillage de liens (blogroll, trackbacks, A-List, Commentaires) Syndication RSS • Posent problèmes au moteur (algorithmie « détraquée ») – Solution : base dédiée • Actuellement : outil idéal en terme de positionnement et de référencement – Billets référencés en une heure (ou moins) – Lisibilité de l’offre moteurs (Google Blogsearch, Technorati) – Indexation (et référencement) « sociale » • Tags, Signets partagés, etc … ( à suivre … ) • Sur les moteurs et le référencement – Olivier Andrieu : http://www.abondance.com • Sur les moteurs – Marc Duval : http://www.dsi-info.ca – Gary Price : http://www.searchenginewatch.com – Jérôme Charron : http://motrech.blogspot.com/ • Sur le référencement – Beginner’s Guide to Search Engine Optimization • http://www.seomoz.org/beginners.php – Sébastien Billard : http://s.billard.free.fr/ • Sur les moteurs, les archives ouvertes, et au-delà … – Jean Véronis : http://aixtal.blogspot.com – Urfist Info : http://www.urfist.info – Affordance Info : http://www.affordance.info ? Questions ? Ce support de cours est distribué sous licence « Creative Commons ». ` Il peut être modifié, diffusé et réutilisé librement à condition que cette réutilisation : •ne s’effectue pas dans un cadre commercial (non-commercial), •qu’elle mentionne la source et l’auteur original (attribution) •et que le même régime s’applique au nouveau support (share-alike).