Support de cours version 3h

Download Report

Transcript Support de cours version 3h

Ressources et outils de
recherche sur le web
Gabriel Gallezot
Université de Nice Sophia Antipolis
URFIST
[email protected]
Intro
Imaginez la situation suivante :
Vous êtes actuellement chercheur dans un labo. En vue de la réalisation d'un
prochain projet, le responsable du labo vous demande :
1.
3.
De surveiller un certain nombre de sites sur ce même
thème et d'être attentif à l'image de l'organisme sur le web.
De lui proposer un moyen simple de partager des
références (liens sur textes ou sites) avec les autres
membres du projet de recherche qui travaillent sur d'autres
thèmes connexes.
Push
4.
De lui fournir sur la base de la bibliographie réalisée une
dizaine de documents significatifs afin de mieux cerner ce
thème.
Pull
2.
De produire une bibliographie sur de le thème de
l'anthropocene
Plan
1. Introduction générale à la recherche
d’information
2. Outils de recherche
1. En Bu
2. Sur le web
3. Mon environnement de travail (selon
déroulement)
4. Methode Push
1
Introduction générale à la
recherche d’information
L'accès à l'information
Invariant ;-)
Source : C. Fauré
Les "techniques intellectuelles" sont des
méthodes et des outils ayant la capacité de
repérer et de retrouver l'information ;
Repérage / indexation de d'information
Référents externes
Liste
Taxinomie
Thésaurus
Ontologie (graph)
Référents internes
métadonnées
structures
taxinomie / thésaurus /
ontologie
Index
Le principe de stockage des informations dans l'index
est celui d'un annuaire inversé :
Chaque terme est associé a une liste de documents
y contenant une occurrence -> critère de rapidité
de recherche
L'index stocke les informations sur les sources dans
un format pivot : La richesse de ce format pivot, qui
structure l'index, va être garante de la qualité de
recherche.
Source : C. Fauré
Répères pour appréhender le Web
1991 (public) Tim Berners-Lee et Robert Cailliau
Système métastable (métaphore du rocher),
distribué et ouvert
Pb du web : croissance rapide, création de
désorientation du web classique => proposition
d'un web sémantique (web de données) en 1994.
Autres solutions en attendant le web de données
Les moteurs
Web 2.0
réseaux sociaux
API (Application Programming Interface, web services)
Pourquoi un moteur de recherche est-il si
rapide pour chercher dans des milliards de
pages ?
Réponse : il ne cherche pas !
Il a déjà toutes les réponses aux requêtes qui lui
sont formulées.
Chaque requête est une métadonnée
Source : C. Fauré
Moteur de recherche
et texte mining
Texte mining : art de générer automatiquement des
métadonnées.=> plusieurs méthodes
- Recherche « plein texte » (occurrences)
- Recherche associative (statistique : les vecteurs)
- Recherche linguistique (tokenisation,
lemmatisation, entity extraction)
- Recherche sémantique (structurée) : le moteur
s'appuie sur des référentiels (à partir d'un
référentiel métier par exemple)
Source : C. Fauré
Principe des moteurs
Pour trouver de l'information, certes. Mais surtout
pour :
• trouver rapidement l'information
• trouver de l'information dans des sources
diverses et hétérogènes
• rechercher dans des informations peu ou
faiblement structurées
Complémentarité des approches
Source : C. Fauré
Appréhension de
l’info
Source : Info@vis
Matching : correspondance des mots-clés d’une
requête avec les mots-clés représentant « le(s)
document(s) résultat » (système documentaire).
Watching : une « vue » des résultats introduite par
une organisation spécifique (ex. page rank,
clusterisation, recommandation, etc) (monde des
moteurs) et classements affinitaires personnalisés
(monde des réseaux sociaux)
>>>>> la question des algorithmes et des
« outils de visualisation » de l'information
http://www.davidgaliana.fr/medias-sociaux/infographie-60-secondes-sur-le-web/
Où chercher ?
• Information contenue sur les
ordinateurs individuels
P2P
• plusieurs millions
d’ordinateurs inter-connectés
• bases de données spécialisées
Web invisible
• Contenu dynamique
• Index partiel des sites
(web profond)
• Interdiction d’indexation
Web visible
et Web 2.0
(web surfacique)
•+ 1000
Milliards de
Pages web ?
•Forum de
discussion
• Contenu indexable,
• contenu taggé
À partir de source : Eric Boutin
Usages des moteurs
93 %
21 %
des internautes utilisent les moteurs
de recherche pour trouver et
accéder aux sites
du temps passé en ligne est
consacré à la recherche
46 %
57 %
des recherches concernent des
informations sur des produits
ou des services (e-commerce)
des internautes cherchent sur
le web chaque jour
50 %
du trafic d’un site vient
d’un moteur de recherche (France)
Source : A. Bouchard
Infographiclabs, 2010, GO-Gulf, 2012,
Médiamétrie, 2012
Sites les plus visités
Paul Jacionis, 05/2012
Source : A. Bouchard
Nombre de requêtes
Etude comScore, 2013
Source : A. Bouchard
La personnalisation de la recherche
« L’algorithme [de Google] utilise plus de 200 paramètres
pour affiner une requête. Cela inclut le PageRank du site
internet, la localisation géographique de l’internaute, les
liens sur lesquels il clique généralement, la façon dont il
modifie ses requêtes quand il n’est pas satisfait, ainsi que
son historique de recherche »
(T. Vanderbilt, 2013, voir également infographie)
Personnalisation sur Google (étude A. Hannak et al., 2013)
- 12 % des résultats différents
- basée surtout sur l’identification au service et sur l’adresse
IP (localisation)
Les opérateurs
(les booléens et les autres)
OR
AND
AND NOT
()
Formadoct :
http://guides-formadoct.ueb.eu/content.php?pid=111868&sid=842560
link:
site:
allinurl:
filetype:
as_qdr=d15
Fonctionnalités : http://www.google.fr/intl/fr/help/features.html
mais surtout de plus en plus
d’interfaces à comprendre, à
appréhender, à suivre, ...
Exemple avec Google
=>
La Galaxie Google
- Google Trends (comparaison de termes, de
sites) : http://trends.google.com
Ex : http://www.google.org/flutrends/
- Google Alerte : http://www.google.com/alerts
- Google Custom Search :
http://www.google.fr/cse/
- ... http://www.google.fr/intl/fr/options/
Google Knwoledge
Graph :http://insidesearch.blogspot.fr/2012/05/introducing-knowledge-graphthings-not.html
- Attention google and your memory : http://www.onlinecolleges.net/2011/09/19/googleand-your-memory/
2
Les outils de recherche
1. En Bibliothèque
2. Sur le Web
Ressources sur le web
Exemples d’outils
(panorama sur le web)
Le Web
chercher des références
et les textes associés
• Le « monde de Bibliothèques » (cat. et BN)
• Les Dictionnaires et les encyclopédies (Dico & Co)
• Les Archive Ouvertes et Revues en ligne (AO & Co)
• Les outils du « web2.0 »
• Les Moteurs
• Les outils « embarqués » (extensions navigateur)
• « son » moteur
• La méthode Push (cf stage veille)
Catalogues
Le « monde des
bibliothèques »

Dédié aux thèses : http://www.theses.fr/

Worldcat http://worldcat.org/

JournalTOC : http://www.journaltocs.ac.uk/
Ne pas oublier Amazon, chapitre.com, decitre..
Bibliothèques Numérique

Gallica :

Europeana : http://www.europeana.eu/portal/

Hathi trust : http://www.hathitrust.org/

http://gallica.bnf.fr/
Wikisource : http://fr.wikisource.org/wiki/Wikisource:Accueil
. Le projet Gutenberg (ebook): http://www.gutenberg.org/wiki/Main_Page
. Internet Archive (le web) : http://www.archive.org/
. Google book : http://books.google.com/
. Liste des Bibliothèques numériques : http://www.science.gouv.fr/fr/bibliotheques-numeriques/ et
http://signets.bnf.fr/html/categories/c_011textes_num.html
Dico & Co

Wikipedia : http://fr.wikipedia.org/wiki/Accueil

Scholarpedia :

CNRTL : Centre National de Ressources Textuelles et (Morphologies,
http://www.scholarpedia.org/
Lexicographie, Etymologie, Synonymie, Antonymie, Proxémie,
Concordance) http://www.cnrtl.fr/lexicographie/ (accès à TLFI et
d'autres dictionnaire)
OA & Co

HAL : http://hal.archives-ouvertes.fr/

Revues.org : http://www.revues.org/

Persee : http://www.persee.fr/web/guest/home/

OAIster (cf. Worldcat) : http://oaister.worldcat.org/

Base : http://www.base-search.net/

ISIDORE : http://www.rechercheisidore.fr/

OpenDOAR : http://www.opendoar.org/

Scientific commons http://www.scientificcommons.org/

DOAJ : http://www.doaj.org/
Le web2.0
Recherche « verticale »



Signets : Diigo : http://www.diigo.com/, Delicious
Ref biblio : CiteUlike http://www.citeulike.org/ ,
LibraryThing : http://www.librarything.com, Mendeley
http://www.mendeley.com …
Illustrations : Flickr http://www.flickr.com/ , youtube
http://www.youtube.com/ , … :

Présentations : PPT : http://www.slideshare.net

Tweets : search de twitter et Topsy http://topsy.com/

Transversaux (avec choix) : Qwant, socialmention,...
Les outils de recherche du web
(quelques exemples)
Moteurs « academics »
●
●
●
●
Google scholar : http://scholar.google.com
Microsoft academics search :
http://academic.research.microsoft.com/ (voir aussi
http://academic.research.microsoft.com/AcademicMap ) (ex
avec UPF)
Scirus : http://www.scirus.com
JURN http://www.jurn.org/ (Google cse on directory of free
journals)
...
Cf aussi dia AO & co
Les outils de recherche du web
(quelques exemples - suite)
MétaMoteurs
« Verticaux » selon plateforme
Ixquick http://www.eu.ixquick.com/fra/
•
Clusty : http://clusty.com/
Interfaçage
SearchCube : http://search-cube.com/
Oamos : http://www.oamos.com/
Moteurs de médias
Vidéos : http://www.blinkx.com/
Images : http://www.picsearch.com/
Sur mobile phone
●
Google googles
●
Shazam, Soundhound
●
...
choix du « vertical » :
http://socialmention.com/
• Selon les droits associés :
http://search.creativecommons.org/
Moteurs inversés
Tineye : http://www.tineye.com/
Midomi : http://www.midomi.com
Moteur collaboratifs : Blekko
Moteur « anomysé » : Duckduckgo
Moteur « vocal » : google sur chrome
Recherche dans la vidéo : Voxalead :
http://voxaleadnews.labs.exalead.com/
Moteur de réponses : Wolfram|Alpha,
https://www.wolframalpha.com


Outils “embarqués” : des extensions FireFox

Tous les outils dans un menu déroulant

Add to search : https://addons.mozilla.org/en-US/firefox/addon/3682

Ajout de fonctionnalités sur certain outils de
recherche.

...
“Sur mesure” : créer son moteur de recherche
(ex : LeMien)
sur google custom search (ex co-op) , équivalent
de l’opérateur site: multiplié à souhait :
http://www.google.com/coop/cse/
Exercices
1. Je dois me déplacer à l'université de Nouvelle Calédonie, indiquez-moi la(es)
références bibliographique(s) des ouvrages de Bruno latour, (postérieur à 2010)
que je pourrai consulter sur place.
2. Je souhaite me procurer l'article : Zalasiewicz, J., P.J. Crutzen, et W. Steffen.
2012. « Chapter 32 - The Anthropocene ». In The Geologic Time Scale, Boston:
Elsevier, p. 1033-1040. Conseillez moi !
3. Je souhaite me procurer l'article : Slaughter, Richard A. 2012. « Welcome to the
anthropocene ». Futures 44(2): 119-126.. Conseillez moi !
4. Sur Google, Je cherche des documents en pdf qui comportent le mot-clé
« énergie » sur le site du « ministère de l'environnement ».(rédigez la requête)
5. Sur Google, comment trouver des documents qui comportent le mot clés
«anthropocene» et sont datés de 2011 sur le site de l'université de Nice
6. Je cherche des images libre de droits pour illustrer mon cours sur
«anthropocene »
7. Je cherche des images similaires à http://grandquebec.com/uplfiles/ours_polaire.jpg
8. Quelle est la référence bibliographique originale du document comportant
l'extrait suivant : […] La maîtrise de l’énergie mécanique a été le fait d’artisans
et de techniciens souvent étrangers aux cercles scientifiques […]
Exercices (suite)
1. je souhaite lire l'ouvrage « l'origine des espèces » de C. Darwin comment faire ?
Conseillez-moi.
2. Je souhaite être averti par mail des nouvelles publications de la revue dont l'ISSN
est : 1869-1099 ? Conseillez-moi.
3. Quel est le titre de l’ouvrage dont l’isbn est : 9782343002538
4. Je cherche le document dont le titre est : « Conservation and social-ecological
systems in the 21st century of the Anthropocene era ».
5. Je cherche l'article de la revue « Nonprofit and Voluntary Sector Quarterly » de
l'éditeur « Sage journals » intitulé « Volunteerism Research A Review Essay »,
Conseillez-moi.
6. Je veux lire la totalité de l'ouvrage dont le titre est « The Pacific Northwest
Research Station's biodiversity initiative [...] ». Conseillez-moi.
7. Je souhaite avoir un aperçu des publications de Stevan Harnad, conseillez-moi
8. Quelle est l'invention notable de Theodore Maiman ? conseillez-moi
Vos questions
?