Description de contenu

Download Report

Transcript Description de contenu

Description de contenu
Présentation de quelques plans de classification et
thesauri
Résumés
M.L.Leclerc Gesist septembre 2001
Plan
I. Evolution des langages de description
II. Exemples de plans de classification
III. Exemples de thesauri
1V. Le résumé
Description (0)
• Les langages documentaires témoignent
d ’une longue histoire de tentatives de
rassemblement, d ’organisation , de
classification des connaissances humaines
( ou un secteur spécialisé) réalisées par
certains à la fois pour des professionnels et
pour les utilisateurs finaux.
• Les risques d ’interprétation et de
Description (1)
déformation subsistent par chacun des
acteurs surtout dans les sciences sociales.
• Des vedettes matières présentes dans les
fichiers manuels aux métadonnées
utilisées pour décrire les documents
électroniques, en passant par les plans de
classification à visée universelle, cette
recherche a revêtu des formes très variées.
Description (2)
• En dehors des zones prévues à cet effet dans
les différents formats des catalogues
bibliographiques, ( champ catégorie, champ
mot-clé) d ’autres zones peuvent donner des
informations sur le contenu ( titre, titre du
congrès, titre de l ’organisme…) mais elles
sont plus aléatoires car soumises à d ’autres
objectifs.
Description (3)
• Les grands systèmes de classification
élaborés dès le 19ème siècle ( Dewey, CDU,
Bibliothèque du Congrès..) sont des
langages documentaires entièrement
artificiels regroupant:
- la liste hiérarchique de tous les sujets
prévisibles sous les disciplines
- le codage ( notation)
Description (4)
Défauts: rigidité de la structure, pauvreté
de l ’indexation, insuffisance des relations
sémantiques…
Evolution : du livre prépondérant où
catégorie physique et intellectuelle peuvent
être confondues, explosion de la masse
d ’informations -> article, film..
Le sujet n ’est plus unique mais représenté
par une suite de concepts
Description (5)
 répertoire de concepts « descripteurs »
Souplesse et adaptation
- combinaison de sujets à partir d ’un
nombre limité de concepts
- indexeur libre pour le nombre de mots
- langage proche du langage naturel
- adapté à la logique booléenne des
machines
Description (6)
• Les différents types:
A. Listes d ’autorité
1) Pour éviter synonymie et polysémie ( un mot
pouvant avoir des sens différents)
 1 seul terme pour chaque concept et renvois
sur termes équivalents
2) pour l ’ambigüité: choix de termes clairs et
rédaction de notes explicatives.
C ’est le langage le plus simple
Description (7)
B. Thesaurus
Il ajoute 2 autres relations sémantiques:
1) relation hiérarchique ( cf classifications)
2) relation associative
C. Langage à facettes
 Pour palier au bruit généré par des
formules de recherche sans liens
syntaxiques -> tout sujet est décomposé
Description (8)
en une suite ordonnée de catégories
sémantiques fondamentales telles que objet,
processus, attribut…
combine avantages du thesaurus
(expression analytique du sujet) et des
classifications hiérarchiques ( expression
synthétique, classement)
Description (9)
Indexation automatique
1) indexation automatique ( titres, résumés)
complémentaire de l ’indexation humaine
dans les champs spécifiques - plan de
classification et mots-clés
2) indexation automatique substitut de
l ’indexation humaine
Description (10)
• Description des documents électroniques
( document, page web, site...)
 Dublin Core , format de métadonnées
assez répandu et traduit par l ’INRIA,
propose dans son élément sujet:
« …le sujet sera décrit par un ensemble de
mots-clés ou de phrases ou de codes de
classification…L ’utilisation de vocabulaire
Description (11)
ou de schémas de classification formels est
encouragée »
Agrégation de 2 types de description mais
encore longue vie pour les langages
documentaires construits...
Les catégories
Macrothesaurus ( OCDE)
http://info.uibk.ac.at/info/oecd-macroth/fr/
• Origine -> La liste commune de
descripteurs ( 1969)
• 5ème édition en 1998: efforts de plusieurs
organisations pour créer un vocabulaire
commun pour décrire et échanger
l ’information relative au développement.
Macrothesaurus ( ocde)
• Dénominateur commun aux thesauri
spécialisés , c ’est aussi un outil multilingue
( 3 langues sous la responsabilité du centre
de développement, d ’autres traductions
dans les pays ). Il est ainsi une porte
d ’entrée aux vocabulaires spécialisés dont
il maintient en commun les termes
généraux. N ’est plus mis à jour.
Plan de catégorisation Agris(1)
• http://www.fao.org/agris/IP/code.asp?InfoT
=Subject&Language=EN
• Utilisé à la fois pour le système
d ’information Agris et la base des projets
de recherche Caris.
• Il comprend 17 rubriques spécialisées dans
l ’agriculture, l ’alimentation,
l ’environnement.
Plan de catégorisation Agris (2)
• Il peut être utilisé dans la recherche et
combiné avec des mots-clés.
• Il a été utilisé dans certains centres de
documentation pour la classification des
documents sur les rayonnages.
LA CDU ( classification
décimale universelle)
• Elle est née en 1905 de l ’adaptation de la
classification Dewey par P.Otlet et H. La
Fontaine et destinée à fournir un classement
de l ’ensemble des connaissances .Sa
notation normalisée internationale ,
indépendante de tout alphabet et de toute
langue, est organisée en 10 grandes classes,
chacune de ces classes étant subdivisée
décimalement jusqu ’au degré nécessaire.
CDU (2)
• Conçue pour être un outil de
communication entre les peuples et pour
organiser l ’ensemble du savoir, son
évolution est actuellement confiée à la FID
qui a mis sur pied un consortium entre les
éditeurs. Le « Master Reference
File »version informatisée de la CDU
constitue une autorité permanente.
CDU (3)
3. Sciences Sociales
33. Economie et Science Economique
330.Economie en général
330.1 Science économique , théorie
330. 11 Phénomènes et lois économiques
330.111 Concepts de l ’économie, définitions
330.111.4 Facteurs déterminant de la production
333.111.42 Distribution des facteurs de production
Thesauri
et listes d ’autorité
Le thesaurus (1)
• Langage intermédiaire entre l ’offre et la
demande d ’information, il élimine les
incertitudes liées au bagage culturel de
l ’indexeur et du questionneur, les
synonymies pour un même concept , les
polysémies ( termes multisens) en
permettant exactitude et exhaustivité.
Le thesaurus (2)
Il permet à l ’utilisateur de se promener
dans l ’environnement immédiat du terme
sélectionné pour mieux formuler sa
recherche ou la compléter ( J.Maniez
l ’appelle « zoom »). On le désigne aussi
sous le vocable de « champ sémantique »,
en fait tout le voisinage de sens du concept
recherché.
Rameau (1)
• http://www.bnf.fr/web-bnf/infopro/rameau/
• Répertoire d ’autorité matière
encyclopédique et alphabétique unifié ->
langage d ’indexation élaboré et utilisé par
la BNF, les BU,et Bibliothèques de lecture
publique et de recherche. Il est composé
d ’un vocabulaire de termes reliés entre eux
et d ’une syntaxe ( règles pour l ’indexation)
Rameau (2)
• A la différence d ’un thesaurus, liste pas
constituée à priori mais au fur et à mesure
des besoins et grâce aux propositions de
chacun des utilisateurs professionnels.
• Réseau coopératif:langage d ’indexation
national
• Il a été constitué depuis 1980 à partir de :
Rameau (3)
 Répertoire des vedettes matières de
l ’Université Laval ( Laval RVM ) lui-même
traduit de la
 Library of Congress Subject Headings
Participation à des projets européens:
MACS (Multilingual access to subjects)
Renardus: portail pour sites web ( ex
signets)
Rameau (4)
Même si structure et voc #thesaurus,
fonctionnement similaire:
vedette
 termes exclus avec renvoi d ’équivalence
 liens de voisinage ( termes associés) ou
de hiérarchie( génériques/ spécifiques)
notes
AGROVOC ( FAO)
• http://www.fao.org/agrovoc/
• 4 ème édition trilingue en 1999 compte
16607 descripteurs et 10758 de non
descripteurs pour la version française.La
1ère édition en 1982 comptait 8660
descripteurs.Traduction en anglais et en
espagnol dans la version française.
• Il ambitionne de décrire- en plus des
catalogues bibliographiques- d ’autres
Agrovoc (2)
• bases de données ( experts, institutions..)
ainsi que des sites web.
• Contrairement au Macrothesaurus, les motsclés ne sont pas rattachés au plan de
catégorisation Agris -> impossiblité de
savoir les mots-clés dans une classe donnée.
• Attention à l ’ambigüité de certains termes:
ex « production » est choisi pour décrire la
production agricole
Meditagri
• A été conçu au départ pour compléter, dans
les domaines politique, économique et celui
de l ’éducation, Agrovoc.
• Organisé en 2 parties:
1) présentation alphabétique structurée
2) présentation permutée
http://www.iamm.fr/ist/ress_doc/isis/default
.html#thesaurus
Macrothesaurus
• La 5ème édition tient compte des évolutions
dans le monde ( 25 nouveaux pays), des
nouveaux concepts dans les ntic, contient
plus de langues…
• Il contient 5174 descripteurs et 571 non
descripteurs français.
• Enrichissement des notes explicatives
INDEXATION
Méthodes et techniques
Indexation (1)
• Au mot clé le plus précis.
• Dans l ’ordre d ’importance des thématiques
dans le document et non pas dans l ’ordre
du déroulement, le 1er-> thème principal
• Le nombre optimal de mots-clés/ référence:
penser à la recherche
Naviguer entre trop de détails générant du
bruit à la recherche et des lacunes
importantes apportant du silence.
Indexation (2)
. Bien avoir en tête le domaine couvert par le
thesaurus
. Connaître le contexte institutionnel pour ne
pas faire de contresens.
. Faire ressortir type document ( théorique…)
. Code d ’autopostage: en plus des termes
mis par l ’indexeur, la machine rajoute les
mots- clés génériques ex céréale pour blé ,
Afrique du Nord pour Algérie.
Indexation (3)
• Fréquenter les usagers pour mieux
comprendre les nouvelles thématiques, les
nouveaux enjeux.
• S ’aider du sommaire pour un document au
niveau global ou des têtes de chapitres pour
les articles .
• Mettre les mots les plus précis avec leur
libellé exact ( singulier/ pluriel,articles…)
Indexation (4)
• Bien lire l ’environnement : le champ
sémantique pour ne pas faire de contresens
Ex coopération ( coopérative) pour
coopération internationale
• Ne pas hésiter à ajouter des mots outils
comme « histoire » « donnée statistique »
qui, croisés avec les termes thématiques
apportent un surplus d ’informations.
Indexation (5)
• Ne pas toujours accepter- quand c ’est
possible- le renvoi fait par le thesaurus et
qui s ’avère pas assez spécialisé pour les
besoins du centre
• Ex: Agrovoc: aménagement du territoire
EM développement régional
• Enfin, dans cette gymnastique cérébrale,
avoir des associations d ’idées permettant
de ne pas coller aux termes du document.
Indexation (6)
• Alors que les organismes font partie du
thesaurus, les auteurs personne physique
n ’en font pas partie et se retrouvent dans le
champ « auteur cité »
• Pour les mots clés géographiques, se
conformer strictement à l ’écriture des
thesauri .Il peut y avoir des divisions
administratives.
Comparaison plan/ mots-clés
• Lorsque la question est large, intérêt pour
plan de classification qui recouvre plusieurs
mots-clés: exemple ci-dessus
catégorie E71 commerce international
mots -clés: commerce internationalmarché mondial- commerce extérieurpolitique du commerce international-...
Comparaison plan de
classification/ mots-clés
•
•
•
•
•
•
Exemple d ’une question sous Agris
#2 1141 CC = "E71 » code
#6 2179 Espagne
#9 761 commerce international mot clé
#11
70 #2 and #6
#12
7
#6 and #9
Résumé
Typologie ( selon l ’AFNOR)
le résumé descriptif est un texte concis
reflétant fidèlement, sans interprétation ni
critique, le contenu du document.Il a pour
but d ’aider le lecteur à cerner la
pertinence du document vis à vis de
l ’information recherchée. Il peut revêtir
plusieurs formes:
Résumé (2)
1.1 le résumé informatif
est une représentation abrégée du
document, renseignant sur les informations
quantitatives et qualitatives apportées par
l ’auteur
1.2 le résumé indicatif
2. Résumé critique ( Pm)
Résumé (3)
• Conseils en 2 mots:
- responsabilité du documentaliste dans la
base de données ( # résumé dans
document)
- pour la forme, langue claire et longueur
adaptée au cadre de livraison de la référence
- pour le fond: cadre général, hypothèse,
méthodes et outils, résultats.
Bibliographie (1)
I. Normes
- Norme NF Z 47-100 : Documentation - Règles pour l ’établissement
des thesaurus monolingues. Paris : AFNOR, décembre 1981
- Norme ISO 5964 : Documentation - Principes directeurs pour
l ’établissement et le développement des thesaurus multilingues.
Genève : ISO, 1985
- Norme NF Z 44-004: Documentation- Recommandations aux auteurs
des articles scientifiques et techniques pour la rédaction des résumés
Paris, Afnor,1984
Bibliographie (2)
II. Les Plans et thesauri
- Macrothésaurus pour le traitement de l ’information relative au
développement économique et social. 5ème éd. / Mis à jour par Anne
Di Lauro et Alice Watson. Paris : OCDE, 1998. 425 p. [consulté le
11.09.2001]. Disponible sur Internet :
URL : <http://info.uibk.ac.at/info/oecd-macroth/fr/>
- AGROVOC : Thésaurus agricole multilingue. 4ème éd. Rome : FAO,
2000. 657 p. [consulté le 11.09.2001]. Disponible sur Internet : URL :
<http://www.fao.org/agrovoc>
Bibliographie (3)
- Thesaurus Meditagri. 5ème éd.
Montpellier : CIHEAM-IAMM,
décembre 2000. 331 p. [Mise à jour le 14.09.2001] Disponible sur
Internet <http://www.iamm.fr/ist/ress_doc/isis/default.html#thesaurus>
- Eléments de métadonnées du Dublin Core, Version 1.1. : description
de référence [en ligne] / Trad. De Anne-Marie Vercoustre. Paris :
INRIA, 20 avril 2000 [consulté le 26/08/2001]. Disponible sur
Internet. URL : http://www.rocq.inria.fr/%7Evercoust/metadata/DCfr.1.1.html>
- AGRIS/CARIS : categorization scheme / prepared by I. PrincePerciballi. Rome : FAO, 1998 [consulté le 11.09.2001]. Disponible sur
Internet. URL :
http://www.fao.org/agris/IP/code.asp?InfoT=Subject&Language=EN
Bibliographie
Bibliographie (4)(4)
III. Quelques articles et chapîtres
- DEGEZ, D. Thésaurus. In S. CACALY (dir.). Dictionnaire
encyclopédique de l ’information et de la documentation. Paris :
Nathan, 1997. P. 577-579
- LE GUELVOUIT, A. de. Les outils de recherche du web : limites et
aléas du référencement. Documentaliste, nov-déc. 1998, p. 315-320
- MANIEZ, J.-L. L’évolution des langages documentaires.
Documentaliste, 1993, n° 4-5, p. 253-259
Vocabulaire
• Candidats descripteurs:
nouveaux mots-clés proposés
par les utilisateurs
(professionnels ou usagers) des
thesauri et pas encore validés
par le groupe responsable.
• Liste permutée : les mots clés
apparaissent à chacun des
termes qui le composent.Ainsi
Relations commerciales
internationales apparaît à
« relations », « commerciales »
et à « internationales »
• Mots-clés locaux: retenus dans
la base de données locale mais
non reconnus et exportés vers
les réseaux externes.
• Mots significatifs porteurs de
contenu #
• Mots vides: articles, adjectifs...
• Non descripteurs: mots non
retenus, équivalence avec mots
retenus. Apparaissent sur les
listes pour aider à l ’indexation
et à la recherche, souvent avec
des typographies différentes
(ex minuscules)