ISIDORE - TGIR Huma-Num
Download
Report
Transcript ISIDORE - TGIR Huma-Num
Isidore
Accès unifié aux données et documents numériques des
sciences humaines et sociales
Valpré – 7 décembre 2010
ENJEUX
LE PROJET – LES ENJEUX
Enjeux stratégiques
Un point d’accès
aux données
numériques
des SHS
Un socle : une
infrastructure
applicative
Un outil : des
usages
multiples
3
LE PROJET – LES ENJEUX
Enjeux technologiques
Prendre en
compte
la diversité
Des besoins
« forts » en
traitement des
données
Un outil
industriel et
évolutif
4
LE PROJET – LES ENJEUX
Enjeux organisationnels
Une maîtrise d’œuvre plurielle
publique-privée
Méthode
agile
5
MÉTHODE PROJET
Enrichissement des
données
Moteur de recherche
Gestion des référentiels
Plateforme d’intégration
Frontaux (proxy)
Démonstrateur
Intégration et IHM
6
UN PROJET CLASSIQUE ?
PRINCIPE DU PROJET
Un projet classique en apparence
Collecter
Traiter
Diffuser
8
VISION DE LA VALORISATION DE L’INFORMATION
Contenu
RDF
Endpoint SparQL
2.0
Web
3.0
xhtml+RDFa
Linked Data
Texte …
Captation /
Extraction
Annotation
Inférence
robots
Bases
d’indexation
9
LES PARTICULARITÉS DU PROJET
Collecter des données hétérogènes
primaires, secondaires
annuaires, bases de données, référentiels
Exploiter les métadonnées
et le texte intégral
Points durs : diversité, volumétrie
10
LES PARTICULARITÉS DU PROJET
Traiter
Normaliser les
données
(qualité, forme,
alignement)
Enrichir
(classification, URI
pérenne, vignettes,
extraction…)
11
LES PARTICULARITÉS DU PROJET
Diffuser avec le moteur de recherche
recherches plein texte, multicritères et à facettes
autocomplétion, correction orthographique
traitements linguistiques avancés
12
LES PARTICULARITÉS DU PROJET
Diffuser dans le Web de données
Rendre
accessible
à l’écosystème
les données
enrichies
Se préparer au
Linked/Open
Data
Permettre
l’émergence de
nouveaux outils
exploitant les
données
13
ARCHITECTURE FONCTIONNELLE GLOBALE
Sources de
données
Web : sites, flux
Collecte, traitement, indexation
COLLECTER
TRANSFORMER
ENRICHIR
indexation
INDEXER
GENERER
Diffusion
Applications
Moteur de
Service de
recherche
UI de démo
recherche AFS
génération
du RDF
Entrepôts OAI
Applications,
Web Services
Configuration
des sources
(appli
dédiée)
Gestion des
référentiels
(ITM)
Back Office
moteur
(BO-AFS)
ADMINISTRER
Web des
données
Entrepôts
RDF
rechercheisidore
SparQL endpoint
Applications de gestion de la plateforme
Isidore
14
COLLECTER, TRANSFORMER,
ENRICHIR
LA RÉPONSE
AFS-PaF : Pipes and Filters
industrialise la chaîne de captation et de
traitement des données
introduit un modèle d’Unité Documentaire
évolutif et souple
fournit un cadre de développement et de
configuration de haut niveau
16
CHAINES DE TRAITEMENT
Créer des chaines de traitement par
assemblage de modules
Sources de
données
Module
connecteur
Modules de transformation
et enrichissement
17
DES FILTRES
Un framework qui permet de construire des modules
50+ filtres prêts à l’emploi
Un environnement d’exécution
18
LE DOCUMENT
Le document
est composite
est dynamique
évolue dans le temps
est un objet à gérer
à accéder de façon
unifiée
19
LE DOCUMENT
Document Manager abstrait le stockage et l’accès aux
documents :
stockage « cloud »
créer / lire / écrire les couches
20
PAF ISIDORE
PRINCIPES GÉNÉRAUX
VUE GÉNÉRALE DE LA CHAÎNE « PAF » ISIDORE
Sources de
données
Sites Web
(sitemap)
Flux RSS
Entrepôts OAI
Calenda
Modules
Pipes&Filters
Modules
Pipes&Filters
Des sources
multiples
et des traitements
ad-hoc
spécifiques aux sources
communs
Sites Web
collecte par…sitemap
extraction des données RDFa
Flux RSS
…
Liens pérennes
Annotation
capitalisation « illimitée »
…
Entrepôts de publications
: articles, revues, thèses, …
…
captation structurée : OAI-PMH, OAI-ORE
extraction des
… métadonnées : DC
Diverses sources structurées
Référentiels SKOS
annuaires de personnes, ressources, sources
conférences,
séminaires, …
Fichiers XML de configuration
Connecteurs
des connecteurs AFS et des
modules de normalisation
22
CHAÎNE DE COLLECTE ET DE TRAITEMENT
Une chaîne dédiée à la normalisation : 12 filtres
Récupération de chaque ressource listée dans le Sitemap
Extraction du RDFa
Sérialisation du RDFa
Passage dans un format pivot
Normalisation de la date
Normalisation de l’auteur
Récupération Handle et imagette
Ajout des informations sources/document
Sérialisation du XML pivot
CHAINE D’ENRICHISSEMENT
Une chaîne dédiée à l’enrichissement : 14 filtres
Classification sur la taxonomie HAL
Classification sur la taxonomie Sujets Calenda
Classification sur la taxonomie Temps Calenda
Classification sur la taxonomie Géo Calenda
Alignement des types de document
Alignement des dates sur Thésaurus W (SIAF)
Alignement des langues sur Lexvo
Enrichissement des auteurs sur HAL
Extraction des sujets sur Rameau, Pactols, Geonames
Fusion des annotations
24
PAF ISIDORE
FOCUS SUR CERTAINS POINTS
MAINTENABILITÉ - EXEMPLE
745 sources de données
PaF des données
…
PaF des sources
Configuration des
sources Isidore
(application dédiée)
Interface Utilisateur
Fichiers XML de
définition des
sources
Moteur de recherche
dans les sources
26
LA CLASSIFICATION AUTOMATIQUE
Classification par entrainement
le moteur utilise les documents déjà classés pour
apprendre
puis utilise la base d’indicateurs statistiques pour
catégoriser les 900 000 documents du corpus
27
L’ALIGNEMENT
Alignement des contenus sur des référentiels
fr
Français
FR
français
francais
Français
Anglais
en
eng
anglais
english
EN
28
L’EXTRACTION
Extraction sur des référentiels
Mots clefs
Est exprimé par
Chaîne de caractères
Est décrit
par
Le moteur effectue une
comparaison morphologique
Une ressource
documentaire
Est décrit
par
Pour lier le
mot-clé
au concept
Étiquette
A noter qu’un algorithme permet de
Est exprimé par
limiter le nombre d’annotations par
contextualisation
Chaîne de caractères
Est décrit
par
Organise
Concept
Un thésaurus
29
ARCHITECTURE FONCTIONNELLE GLOBALE
Sources de
données
Collecte, traitement, indexation
indexation
INDEXER
GENERER
Web : sites, flux
Diffusion
Applications
Moteur de
Service de
recherche
UI de démo
recherche AFS
génération
du RDF
Entrepôts OAI
Applications,
Web Services
Configuration
des sources
(appli
dédiée)
Gestion des
référentiels
(ITM)
Back Office
moteur
(BO-AFS)
Web des
données
Entrepôts
RDF
rechercheisidore
SparQL endpoint
Applications de gestion de la plateforme
Isidore
30
GÉNÉRER, DIFFUSER
PUBLICATION DU RDF
Les données et enrichissements sont exportés en RDF
en bout de chaine
Les triplets générés sont exploités
pour retour vers les sources sous forme normalisée
pour traiter des requêtes complexes
pour une exposition dans le Web de données
Génération
Corpus
Fichiers de
triplets
Chargement de
l’entrepôt
Entrepôt RDF
32
NÉGOCIATION DE CONTENU
AFS et SPARQL sont des Web Service techniques
Ils sont enrobés dans une couche métier
un Web Service applicatif qui permet la négociation
de contenu
Description
XML
Description
RDF
Document
33
FAVORISER L’UTILISATION
Pas de code spécifique
de la « configuration » : XSL et SPARQL au plus
limiter les coûts de développement / test
disposer d’une solution simple à faire évoluer
34
UNE AIDE À L’INTÉGRATION
35
ARCHITECTURE
ARCHITECTURE FONCTIONNELLE GLOBALE
Sources de
données
Collecte, traitement, indexation
Diffuser
indexation
Web : sites, flux
Service de
recherche AFS
Applications
UI de démo
génération
du RDF
Entrepôts OAI
rechercheisidore
Applications,
Web Services
Configuration
des sources
(appli
dédiée)
Gestion des
référentiels
(ITM)
Back Office
moteur
(BO-AFS)
Entrepôts RDF
SparQL endpoint
Applications de gestion de la plateforme
Isidore
37
ARCHITECTURE LOGIQUE
38
ARCHITECTURE PHYSIQUE
6 serveurs : haute disponibilité
2 frontaux : Web Services
2 répondeurs, 1 indexeur
1 triplestore et back-office
39
MERCI DE VOTRE ATTENTION