De l'indexation plein texte à l'indexation sémantique Le projet RetroWeb Fabrice Estiévenart (CETIC)

Download Report

Transcript De l'indexation plein texte à l'indexation sémantique Le projet RetroWeb Fabrice Estiévenart (CETIC)

De l'indexation plein texte à l'indexation
sémantique
Le projet RetroWeb
Fabrice Estiévenart (CETIC)
Groupe de discussion CETIC - 15/12/2005
1
Objectifs – motivations - applications
• Objectifs : extraire d’un ensemble de pages HTML,
– un ensemble de données (XML)
– le schéma de ces données (XML Schema)
• Motivations
– XML = formalisme interprété et (semi-)structuré
– HTML = formalisme pour la représentation de l’information
sur Internet
• Approche générique  Applications multiples
– Interrogation « intelligente » du web
o Exemple : description: ‘SONY DSC-P30’ AND prix:<300
– Développement de tableaux de bord web personnalisés
– Rétro-ingénierie et migration de sites (semi-)statiques vers
une BD (CMS)
netvibes.com
Groupe de discussion CETIC - 15/12/2005
2
Architecture
affiche
Code HTML
<html>
…
<h1>
Life of Brian
</h1>
…
</html>
Vue Browser
Analyseur Sémantique
Règles de Mapping
{
name: title,
location: html/…/h[1]/text(),
type: string,
parent: imdb-movie,
…}
Extracteur XML
Générateur Schéma
Document XML
<root>
<imdb-movie>
…
<movie-title>
Life of Brian
</movie-title>
…
</imdb-movie>
…
</root>
Groupe de discussion CETIC - 15/12/2005
Document XML Schema
describes
3
Règles de mapping
•
Les règles de mapping font la correspondance entre :
–
X structures HTML sources :
o
o
–
<html><body><h3>Life of Brian</h3>…</body></html>
<html><body><h1>Young Frankenstein</h1>…</body></html>
Un document XML cible :
<root>
<imdb-movie><title>Life of Brian</title>…</imdb-movie>
<imdb-movie><title>Young Frankenstein</title>…</imdb-movie>
</root>
•
Une règle concerne un attribut dans un type de pages
Règle de mapping
{
property: title,
location: html/…/h[1]/text(),
type: string,
parent: imdb-movie,
…}
www.imdb.com
Groupe de discussion CETIC - 15/12/2005
4
Construction des règles : scénario
Echantillon
Type de pages
Choix Echantillon
Webpage
page
Web
page
Web
Web
page
Page
Web
Pour chaque attribut A
Web page
page
Web
Page
Web
fin
Constr. règle candidate
Règle candidate pour A
Vérification règle
Affinement règle
N
Règle OK pour A
O
Enregistrement règle
Groupe de discussion CETIC - 15/12/2005
Répertoire de règles
5
Retrozilla
• Analyseur sémantique + Extracteur XML + Générateur
schéma
• Avantages de Retrozilla
–
–
–
–
–
–
Facile : pas de langage particulier
Rapide : basé sur l’aspect visuel des pages
Flexible : uniquement les données intéressantes
Robuste : définition sur un ensemble de pages
Réutilisable : schéma prédéfini
Evolutif : différents formats de sortie
• Démo
•
•
Site : www.imdb.com
Extraire le titre, la liste des acteurs et la durée d’un film à
partir d’un échantillon de pages
Groupe de discussion CETIC - 15/12/2005
6
Intégration RetroWeb-Moteur de recherche
• Approvisionner un moteur de recherche de résultats
sémantiques extraits avec RetroWeb
Collecte
Indexation
Indexation
syntaxique
Interrogation
Indexation
sémantique
titre
DELL ÉCRAN CRT 17"
article
DELL ÉCRAN CRT 17"
contenu
Retourner aux pages
d'annonces Catégorie de mise
en vente : Computer
Randapparatuur Monitoren
DELL ÉCRAN CRT 17" Numéro
de l'objet: 5839481285 Etesvous le vendeur de cet objet ou un
enchérisseur ?
prix
59 €
temps
restant
1 jour 9 heures
quantité
12
vendeur
Stuntstore
livraison
Europe
Groupe de discussion CETIC - 15/12/2005
7
Conclusion
• Méthode outillée pour l’extraction de données XML à partir
de pages Web
–
–
Semi-automatique MAIS conviviale
Approche générique  diverses applications
• Travaux en cours et futurs
–
–
–
–
–
Détection des erreurs et réparation des règles
Définition et extraction de composants complexes
Intégration de RetroWeb dans un moteur de recherche
Analyse sémantique à partir de schémas existants (RDFOWL)
Classification (clustering) automatique de pages web sur la
base de leur structure ou de leur contenu
Groupe de discussion CETIC - 15/12/2005
8