ISIDORE - TGIR Huma-Num

Download Report

Transcript ISIDORE - TGIR Huma-Num

Isidore
Accès unifié aux données et documents numériques des
sciences humaines et sociales
Valpré – 7 décembre 2010
ENJEUX
LE PROJET – LES ENJEUX
 Enjeux stratégiques
Un point d’accès
aux données
numériques
des SHS
Un socle : une
infrastructure
applicative
Un outil : des
usages
multiples
3
LE PROJET – LES ENJEUX
 Enjeux technologiques
Prendre en
compte
la diversité
Des besoins
« forts » en
traitement des
données
Un outil
industriel et
évolutif
4
LE PROJET – LES ENJEUX
 Enjeux organisationnels
Une maîtrise d’œuvre plurielle
publique-privée
Méthode
agile
5
MÉTHODE PROJET
Enrichissement des
données
Moteur de recherche
Gestion des référentiels
Plateforme d’intégration
Frontaux (proxy)
Démonstrateur
Intégration et IHM
6
UN PROJET CLASSIQUE ?
PRINCIPE DU PROJET
 Un projet classique en apparence
Collecter
Traiter
Diffuser
8
VISION DE LA VALORISATION DE L’INFORMATION
Contenu
RDF
Endpoint SparQL
2.0
Web
3.0
xhtml+RDFa
Linked Data
Texte …
Captation /
Extraction
Annotation
Inférence
robots
Bases
d’indexation
9
LES PARTICULARITÉS DU PROJET
 Collecter des données hétérogènes
 primaires, secondaires
 annuaires, bases de données, référentiels
 Exploiter les métadonnées
et le texte intégral
 Points durs : diversité, volumétrie
10
LES PARTICULARITÉS DU PROJET
 Traiter
Normaliser les
données
(qualité, forme,
alignement)
Enrichir
(classification, URI
pérenne, vignettes,
extraction…)
11
LES PARTICULARITÉS DU PROJET
 Diffuser avec le moteur de recherche
 recherches plein texte, multicritères et à facettes
 autocomplétion, correction orthographique
 traitements linguistiques avancés
12
LES PARTICULARITÉS DU PROJET
 Diffuser dans le Web de données
Rendre
accessible
à l’écosystème
les données
enrichies
Se préparer au
Linked/Open
Data
Permettre
l’émergence de
nouveaux outils
exploitant les
données
13
ARCHITECTURE FONCTIONNELLE GLOBALE
Sources de
données
Web : sites, flux
Collecte, traitement, indexation
COLLECTER
TRANSFORMER
ENRICHIR
indexation
INDEXER
GENERER
Diffusion
Applications
Moteur de
Service de
recherche
UI de démo
recherche AFS
génération
du RDF
Entrepôts OAI
Applications,
Web Services
Configuration
des sources
(appli
dédiée)
Gestion des
référentiels
(ITM)
Back Office
moteur
(BO-AFS)
ADMINISTRER
Web des
données
Entrepôts
RDF
rechercheisidore
SparQL endpoint
Applications de gestion de la plateforme
Isidore
14
COLLECTER, TRANSFORMER,
ENRICHIR
LA RÉPONSE
 AFS-PaF : Pipes and Filters
 industrialise la chaîne de captation et de
traitement des données
 introduit un modèle d’Unité Documentaire
évolutif et souple
 fournit un cadre de développement et de
configuration de haut niveau
16
CHAINES DE TRAITEMENT

Créer des chaines de traitement par
assemblage de modules
Sources de
données
Module
connecteur
Modules de transformation
et enrichissement
17
DES FILTRES
 Un framework qui permet de construire des modules
 50+ filtres prêts à l’emploi
 Un environnement d’exécution
18
LE DOCUMENT
 Le document
 est composite
 est dynamique
 évolue dans le temps
 est un objet à gérer
 à accéder de façon
unifiée
19
LE DOCUMENT
 Document Manager abstrait le stockage et l’accès aux
documents :
 stockage « cloud »
 créer / lire / écrire les couches
20
PAF ISIDORE
PRINCIPES GÉNÉRAUX
VUE GÉNÉRALE DE LA CHAÎNE « PAF » ISIDORE
Sources de
données
Sites Web
(sitemap)
Flux RSS
Entrepôts OAI
Calenda
Modules
Pipes&Filters
Modules
Pipes&Filters
Des sources
multiples
et des traitements
ad-hoc
spécifiques aux sources
communs
 Sites Web
 collecte par…sitemap
 extraction des données RDFa
 Flux RSS
…
Liens pérennes
Annotation
 capitalisation « illimitée »
…
 Entrepôts de publications
: articles, revues, thèses, …
…
 captation structurée : OAI-PMH, OAI-ORE
 extraction des
… métadonnées : DC
 Diverses sources structurées
Référentiels SKOS
 annuaires de personnes, ressources, sources
 conférences,
séminaires, …
Fichiers XML de configuration
Connecteurs
des connecteurs AFS et des
modules de normalisation
22
CHAÎNE DE COLLECTE ET DE TRAITEMENT
Une chaîne dédiée à la normalisation : 12 filtres
Récupération de chaque ressource listée dans le Sitemap
Extraction du RDFa
Sérialisation du RDFa
Passage dans un format pivot
Normalisation de la date
Normalisation de l’auteur
Récupération Handle et imagette
Ajout des informations sources/document
Sérialisation du XML pivot
CHAINE D’ENRICHISSEMENT
Une chaîne dédiée à l’enrichissement : 14 filtres
Classification sur la taxonomie HAL
Classification sur la taxonomie Sujets Calenda
Classification sur la taxonomie Temps Calenda
Classification sur la taxonomie Géo Calenda
Alignement des types de document
Alignement des dates sur Thésaurus W (SIAF)
Alignement des langues sur Lexvo
Enrichissement des auteurs sur HAL
Extraction des sujets sur Rameau, Pactols, Geonames
Fusion des annotations
24
PAF ISIDORE
FOCUS SUR CERTAINS POINTS
MAINTENABILITÉ - EXEMPLE
 745 sources de données
PaF des données
…
PaF des sources
Configuration des
sources Isidore
(application dédiée)
Interface Utilisateur
Fichiers XML de
définition des
sources
Moteur de recherche
dans les sources
26
LA CLASSIFICATION AUTOMATIQUE
 Classification par entrainement
 le moteur utilise les documents déjà classés pour
apprendre
 puis utilise la base d’indicateurs statistiques pour
catégoriser les 900 000 documents du corpus
27
L’ALIGNEMENT
 Alignement des contenus sur des référentiels
fr
Français
FR
français
francais
Français
Anglais
en
eng
anglais
english
EN
28
L’EXTRACTION
 Extraction sur des référentiels
Mots clefs
Est exprimé par
Chaîne de caractères
Est décrit
par
Le moteur effectue une
comparaison morphologique
Une ressource
documentaire
Est décrit
par
Pour lier le
mot-clé
au concept
Étiquette
A noter qu’un algorithme permet de
Est exprimé par
limiter le nombre d’annotations par
contextualisation
Chaîne de caractères
Est décrit
par
Organise
Concept
Un thésaurus
29
ARCHITECTURE FONCTIONNELLE GLOBALE
Sources de
données
Collecte, traitement, indexation
indexation
INDEXER
GENERER
Web : sites, flux
Diffusion
Applications
Moteur de
Service de
recherche
UI de démo
recherche AFS
génération
du RDF
Entrepôts OAI
Applications,
Web Services
Configuration
des sources
(appli
dédiée)
Gestion des
référentiels
(ITM)
Back Office
moteur
(BO-AFS)
Web des
données
Entrepôts
RDF
rechercheisidore
SparQL endpoint
Applications de gestion de la plateforme
Isidore
30
GÉNÉRER, DIFFUSER
PUBLICATION DU RDF
 Les données et enrichissements sont exportés en RDF
en bout de chaine
 Les triplets générés sont exploités
 pour retour vers les sources sous forme normalisée
 pour traiter des requêtes complexes
 pour une exposition dans le Web de données
Génération
Corpus
Fichiers de
triplets
Chargement de
l’entrepôt
Entrepôt RDF
32
NÉGOCIATION DE CONTENU
 AFS et SPARQL sont des Web Service techniques
 Ils sont enrobés dans une couche métier
 un Web Service applicatif qui permet la négociation
de contenu
Description
XML
Description
RDF
Document
33
FAVORISER L’UTILISATION
 Pas de code spécifique
 de la « configuration » : XSL et SPARQL au plus
 limiter les coûts de développement / test
 disposer d’une solution simple à faire évoluer
34
UNE AIDE À L’INTÉGRATION
35
ARCHITECTURE
ARCHITECTURE FONCTIONNELLE GLOBALE
Sources de
données
Collecte, traitement, indexation
Diffuser
indexation
Web : sites, flux
Service de
recherche AFS
Applications
UI de démo
génération
du RDF
Entrepôts OAI
rechercheisidore
Applications,
Web Services
Configuration
des sources
(appli
dédiée)
Gestion des
référentiels
(ITM)
Back Office
moteur
(BO-AFS)
Entrepôts RDF
SparQL endpoint
Applications de gestion de la plateforme
Isidore
37
ARCHITECTURE LOGIQUE
38
ARCHITECTURE PHYSIQUE
 6 serveurs : haute disponibilité
 2 frontaux : Web Services
 2 répondeurs, 1 indexeur
 1 triplestore et back-office
39
MERCI DE VOTRE ATTENTION