Diapositive 1

Transcript Diapositive 1

CITALA 2009
Centre de Recherche Scientifique et Technique pour le
Développement de la Langue Arabe
C.R.S.T.D.L.A
THEME
Vers un système d’extraction d’informations pour
les textes de la presse arabophone en ligne
ArIExtract
ACHIT Abdelmadjid
[email protected]
Division Informatique Linguistique, CRSTDLA
Dr AZZOUNE Hamid [email protected]
Département d’Informatique, USTHB
3ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe CITALA2009
4 – 5 Mais 2009, Rabat, Maroc
CITALA 2009
Plan
 Introduction
 Présentation de l’extraction d’informations
 Conception du système ArIExtract
 Problèmes rencontrés dans le cas des textes arabes
 Conclusion
CITALA 2009
Introduction
CITALA 2009
Une femme à la tête de Yahoo
par Myriam Berber
Article publié le 14/01/2009 Dernière mise à jour le 15/01/2009 à 15:38 TU
L’ancienne PDG de l’éditeur américain de logiciels Autodesk Carol Bartz a été désignée,
mercredi 14 janvier 2009, à la tête du groupe internet Yahoo en remplacement de Jerry Yang.
Carol Bartz prend les rênes d’une entreprise en difficulté face au géant Google. Les spécialistes
estiment que cette nomination va relancer les discussions avortées avec Microsoft. etc
Une femme à la tête de Yahoo
CITALA 2009
par Myriam Berber
Article publié le 14/01/2009 Dernière mise à jour le 15/01/2009 à 15:38 TU
L’ancienne PDG de l’éditeur américain de
logiciels Autodesk Carol Bartz a été
désignée, mercredi 14 janvier 2009, à la
tête du groupe internet Yahoo en
remplacement de Jerry Yang. Carol Bartz
prend les rênes d’une entreprise en
difficulté face au géant Google. Les
spécialistes estiment que cette nomination
va relancer les discussions avortées avec
Microsoft. etc
Formulaire - Nomination
Titre: Une femme à la tête de Yahoo
CITALA 2009
Source: site web de RFI
Date: 14/01/2009
Date de Dernière mise à jour:15/01/2009
Horaire: 15:38
Auteur: Myriam Berber
Événement / Fait: Nomination
Responsable / cadre: Carol Bartz
Ancien poste: PDG
Ancienne organisation : l’éditeur américain de logiciels Autodesk
Nouveau poste: PDG
Nouvelle organisation: groupe internet Yahoo
En remplacement de: Jerry Yang
Date Nomination: mercredi 14 janvier 2009
CITALA 2009
chiffre d'affaires de Michelin en net recul
LEMONDE.FR avec AFP | 28.04.09 | 19h16
Le groupe français de pneumatiques Michelin a annoncé,
mardi 28 avril, une baisse de 14,2 % de son chiffre d'affaires
au premier trimestre par rapport à la même période de 2008,
à 3,512 milliards d'euros. Cette baisse traduit un recul des
volumes de ventes de 24,4 %, lié à la chute des marchés de
pneumatiques, atténué par l'amélioration moyenne du prix
des produits vendus, explique Michelin dans un communiqué.
Formulaire – communiqué d’entreprise – Chiffre d’affaires CA
CITALA 2009
Groupe / Entreprise: Michelin
Nationalité: Française
Domaine : pneumatiques
Date annonce: mardi 28 avril
Tendance du CA: en baisse
Période: premier trimestre 2009
Par rapport à la période: premier trimestre 2008
Tendance - Valeur (%): 14,2 %
Montant CA: 3,512 milliards d'euros
…etc
‫التقى رئيس الجمهورية جالل طالباني في احد القصور ضمن مجمع الفاو ببغداد‪ ،‬مساء أمس‬
‫الثالثاء رئيس الواليات المتحدة االمريكية باراك اوباما و الوفد المرافق له‪. ….‬‬
‫‪CITALA 2009‬‬
‫رئيس الجمهورية جالل طالباني يلتقي الرئيس االمريكي باراك اوباما‬
‫‪07 April, 2009 11:51:00‬‬
‫استخراج المعلومات‬
‫الجريدة‪ :‬الفيحاء‬
‫االموقع‪www.alfayhaa.tv/alfayhaa-newspaper/ :‬‬
‫الكاتب‪:‬‬
‫التاريخ‬
‫‪/‬‬
‫المقال‪:‬‬
‫‪April 07, 2009‬‬
‫الحدث‪ :‬لقاء‬
‫الشخص ‪ :1‬جالل طالباني‬
‫الوظيفة‪ :‬رئيس الجمهورية‬
‫الشخص ‪ :2‬باراك اوباما‬
‫الوظيفة‪ :‬رئيس الواليات المتحدة االمريكية‬
‫التاريخ‪ :‬مساء أمس الثالثاء‬
‫المكان‪ :‬احد القصور ضمن مجمع الفاو ببغداد‬
‫‪CITALA 2009‬‬
‫استمارة ‪ -‬لقاء سياسي‬
‫يلتقي فريقا مانشستر يونايتد و اإلنجليزيان‪ ،‬سهرة اليوم‪ ،‬في مباراة ذهاب الدور‬
‫نصف النهائي لمنافسة رابطة أبطال أوروبا‪ ،‬على ملعب ''أولد ترافورد''‬
‫بمانشستر……‬
‫‪CITALA 2009‬‬
‫رابطة أبطال أوروبا‬
‫مانشستر وأرسنال في أول معركة أوروبية‬
‫استمارة ‪ -‬مبارة رياضية‬
‫الموقع‪www.elkhabar.com :‬‬
‫الكاتب‪:‬‬
‫‪/‬‬
‫التاريخ‪:‬‬
‫‪2009/04/29‬‬
‫الحدث‪:‬‬
‫اعالن عن مبارة‬
‫الرياضة‪ :‬كرة القدم‬
‫المنافسة‪ :‬رابطة أبطال أوروبا‬
‫الفريق‪ :1‬مانشستر يونايتد‬
‫البالد‪ :‬انجليزي‬
‫الفريق‪ :2‬أرسنال‬
‫البالد‪ :‬انجليزي‬
‫الفائز‪:‬‬
‫‪/‬‬
‫النتيجة‪:‬‬
‫‪/‬‬
‫مسجلو األهداف للفريق‪/ :1‬‬
‫مسجلو األهداف للفريق‪/ :2‬‬
‫التاريخ‪ :‬سهرة اليوم‬
‫الملعب‪ :‬أولد ترافورد‬
‫المدينة‪ :‬مانسشتر‬
‫‪CITALA 2009‬‬
‫الجريدة‪ :‬الخبر‬
CITALA 2009
Présentation de
l’extraction d’informations
Définition
J. et Wilks Y. ,(2000) ]
définissent l’extraction d’informations
comme étant la structuration et la
combinaison sélective de données issues
d’un ou plusieurs documents textuels.
Pour leur part [Gaizauskas R. and Wilks
Y., 1998 ], ils définissent l’extraction
d’information comme une activité qui
consiste à remplir une source de données
structurées (base de données) à partir
d’une source de données non structurées
(texte libre).
Selon [Soderland S., Lehnert W., 1994],
un système d’extraction d’informations est
un système qui produit une représentation
de l’information textuelle pertinente dans
un domaine particulier pour une
application particulière.
Les conférences MUC définissent la tâche
d’extraction d’informations comme la tâche
consistant à extraire des informations
spécifiques et bien définies à partir de textes
écrits en langue naturelle dans des domaines
restreints, avec l'objectif spécifique de
remplir automatiquement des formulaires
prédéfinis ou des bases de données.
[Cowie
CITALA 2009
L’extraction d’information est un processus automatique permettant d’extraire des
informations pertinentes et précises à partir de documents non structurés ou semi
structurés en langage naturel et permet leur sauvegarde sous une forme structurée
du type formulaire ou base de données.
CITALA 2009
Documents textuels
non structurés
Système
d’extraction
d’informations
Documents
textuels
structurés
BD
Processus d’Extraction d’informations
Bref Historique
CITALA 2009
La réflexion sur les systèmes d’extraction d’informations fut entamée dès les années 1950, par les
travaux de certains linguistes. Par la suite, de nombreuses implantations ont été réalisées, nous
pouvons citer celle réalisé à l'université de New York au travers du Linguistic String Project [20], dont
le but était de remplir des formulaires à partir de textes médicaux (rapports de radiologie).
- Conférences
Manifestations scientifiques
- Ateliers (Workshops)
- Campagnes d’évaluation / benchmarking
Message
Conference
Understanding
NTCIR (NII Test
Collection for IR
Systems) workshop
CITALA 2009
Language-Independent Named
Entity Recognition at
Computational Natural Language
Learning (CoNLL) workshops
MUC
Automatic Content
Extraction (ACE)
NER CONLL
NTCIR
ACE
DUC
Document
understanding
Conference
Information Retrieval
and Extraction
Exercise
the Multilingual Entity
Task Conference (MET),
TIPSTER Text project
EI
conférences
IREX
TAC
PASCAL
challenge
MET
Question Answering at Cross
Language Evaluation Forum
CLEF
QA@CLEF
Question Answering at The
Text REtrieval Conference
TREC
LREC
Text Analysis
Conference
PASCAL Challenge
for Evaluating
Machine Learning for
Information
Extraction
QA@TREC
International Conference on
Language Resources and Evaluation
Les conférences MUC
MUC 1
CITALA 2009
Analyse des rapports d'opérations tactiques navales [5]
1987
MUC 2
1989
MUC 3
1991
Idem que MUC 1 [5]
Analyse des textes journalistiques traitant du terrorisme en Amérique Latine, afin
d’extraire des dépêches d’agence de presse le maximum d’informations sur des actes
terroristes comme le nom de groupes terroristes impliqués, le nom des victimes, les
types d’armes utilisées, les dates et les lieux…[15 ].
MUC 4
1992
MUC 5
1993
MUC 6
1995
MUC 7
1998
Idem que MUC 3 [ 16].
Traitement d’un corpus de nature économique (fusion, rachat, et création d’entreprises
internationales et la fabrication de circuits électroniques). [ 17]
C’est une suite de MUC 5: ont traité les changements de dirigeants à la tête des
entreprises. [18 ]
Analyse de textes journalistiques rapportant des crashs d’avion et de tirs de missiles. [
19].
Domaine d’applications
CITALA 2009
systèmes de IR
systèmes Q/R
Résumé
automatique
Domaine d’applications
de l’EI
Veille
scientifique
et technique
Extraction
de terminologies
Traduction
automatique
Structuration en sous tâches de l’extraction d’informations
CITALA 2009
Identification / reconnaissance des entités nommées
Extraction des relations entres les entités nommées
Extraction des événements
Résolution des coréférences
Déduplication
Désambiguïsation
Inférence
Fusion
Conférences MUC 6 & 7
- Named entity recognition (NE)
- Coreference Resolution (CO)
- Template Element construction (TE)
- Scenario Template production (ST)
- Template Relation construction (TR)
Tâche de l’Identification des entités nommées
CITALA 2009
Identification des
entités nommées
Identification des
noms …
Identification des
expressions temporelles
personnes
Personnages
fictifs
Identification des
expressions numériques
Lieux
Entreprises
collectifs
Entités nommées
CITALA 2009
Lieux
Acteurs
Acteurs individuels
Acteurs collectifs
Organisation
Entreprise
Institution
Filiale
Agence
Ville
Pays
Continent
Océans
Mers
Expressions temporelles Expressions numériques
Date
Montant financier
Durée
Longueur
Période
Age
Heure
Volume
Vitesse
Poids
Température
Pourcentage
U.Physiques
Exemple:
CITALA 2009
Une femme à la tête de Yahoo
par Myriam Berber
Article publié le 14/01/2009 Dernière mise à jour le 15/01/2009 à 15:38 TU
L’ancienne PDG de l’éditeur américain de
logiciels Autodesk Carol Bartz a été désignée,
mercredi 14 janvier 2009, à la tête du groupe
internet Yahoo en remplacement de Jerry Yang.
Carol Bartz prend les rênes d’une entreprise en
difficulté face au géant Google. Les spécialistes
estiment que cette nomination va relancer les
discussions avortées avec Microsoft. etc
personnes
entreprises
Expressions temporelles
Expressions de locations
Extraction des relations entre les entités nommées
CITALA 2009
-Détermination de patrons / schémas/ formules linguistiques caractéristiques de relations lexicales (étude
linguistique basée sur l’acquisition de marqueurs de relations liées à certaines notions/ concepts).
- Étude de la distribution de contextes autour des entités (étude statistique);
Le Président de la république, Mr Bouteflika a reçu, hier, à la
présidence, son homologue le Président tunisien Mr BenAli.
Actant 1 : Mr Bouteflika
Fonction : Président de la république
Actant 2 : Mr Ben Ali
Fonction: Président
Type action : Rencontre
Lieu : Présidence
Temps / Date : hier
……
Approches et méthodes d’extraction d’informations
Approches
et
méthodes d’extraction
CITALA 2009
Approche basée sur
l’analyse linguistique
Approche
apprentissage automatique
Il s’agit d’une approche basée sur les
techniques d’apprentissage
automatique.
-Elles exploitent des informations
Elle utilise un modèle de langage
morphosyntaxiques et lexicales. Ainsi, entraîné sur de larges corpus de textes
elles utilisent des marqueurs lexicaux pré-étiquetés… ce qui est long et
(ex. Mr pour Monsieur,.. ), des
coûteux.
dictionnaires de noms propres et des
dictionnaires de la langue générale.
Langue arabe:
les travaux qui ont porté sur l’utilisation
- Le développement de ces règles par des supports vecteurs machines
des experts est long et coûteux
SVM pour la reconnaissance des
entités nommées arabes. Egalement,
- La méthode de l’exploration
il y’a eu des travaux qui ont porté sur
contextuelle en est un exemple.
l’utilisation des Modèles de Markov
Cachés MMC ainsi que de la méthode
Langue arabe:
de l’entropie maximale [Benajiba &al.,
A titre d’exdemple, le travail de
2007] [Benajiba &al., 2008].
[Shaalan, 2007] qui a porté sur la
conception d’un système de
reconnaissance des entités nommées
arabes de type noms de personnes
PERA basé sur l’utilisation de règles
sous forme d’expressions régulières,
…etc.
- A base de règles contextuelles
écrites à la main
Approche hybride
Plus récemment sont apparues
des approches hybrides tirant
parti des avantages respectifs
des méthodes linguistique et
probabiliste.
Dans les systèmes de ce type,
un ensemble de règles est
généralement appris
automatiquement puis révisé
par un expert. Ou l’autre cas de
figure, l’élaboration de règles
est faite par un expert puis il y’a
extension automatique de la
couverture de ces règles.
Quelques difficultés rencontrées dans l’extraction d’informations
1. La langue naturelle est flexible. Il y a toujours plusieurs façons d’exprimer la même idée ;
CITALA 2009
2. La langue naturelle est ambiguë. Une phrase peut être interprétée de différentes manières ;
3. La langue naturelle est dynamique. Elle évolue constamment ;
4. Multilinguisme;
5. Style de textes: textes journalistiques, textes d’un email (absence de règles et de style rédactionnel)
6. L’information peut s’étendre sur plusieurs phrases;
7. Complexité du processus d’EI du fait des différentes tâches :
- Identification des entités nommées ;
- Recherche des relations entre entités ;
- Résolution des coréférences ;
- etc.
8. Évaluation difficile;
9. Données : quantité croissante, non standardisées et de types différents;
10. Limites de l’état de l’art des systèmes d’EI. ;
11. Difficulté de conception de systèmes d’EI. génériques ;
12. Peu de systèmes d’E.I. commercialisés ;
13. Trop peu d’interdisciplinarité (non informaticiens et informaticiens).
CITALA 2009
Conception du système
Nos choix :
CITALA 2009
Méthode
une méthode linguistique dite méthode d’exploration contextuelle
Textes
les textes journalistiques n’est pas fortuit. Il est motivé par le fait que
ces textes respectent un certain style rédactionnel et sont disponible en
ligne.
Objet de
l’extractio
n
événements de rencontre entre personnes et ceux décrivant des
manifestations (scientifiques, économiques, culturelles, etc.).
Relation
Rencontre
Qui?
actant1
……
Actant2
……
a rencontré
verbe
……
Qui?
Temps
Lieu
Quand?
Où?
……
…..
Présentation de la méthode d’exploration contextuelle
CITALA 2009
Origine: méthode issue des travaux de recherches effectuées par l’équipe LaLICC ( ) dirigée par le Prof. DESCLES Elle a
fait l’objet de plusieurs implémentations, notamment le résumé automatique, le filtrage d'informations selon différents points
de vue, etc.
Fondements
1. Elle est basée sur une analyse linguistique (analyse exploratoire du contexte ), permettant le repérage des entités
nommées (acteurs, lieux, temps,…) ainsi que la mise en relation des acteurs avec leur environnement dans l'espace et le
temps au moyen d'indices déclencheurs, d’indices complémentaires et de règles qui les combinent;
2. Elle a une portée sémantique et ne se base pas sur une représentation profonde du texte mais
sur une identification automatique de marqueurs linguistiques pertinents pour une tâche donnée;
3. Les indices déclencheurs sont retenus en fonction d’objectifs précis. Ils sont identifiés par une analyse exploratoire du
contexte qui permet aussi d’identifier d’autres indices linguistiques (dits indices complémentaires) eux aussi jugés pertinents
pour la tâche traitée;
4. Utilisation des règles d’Exploration Contextuelle, combinant les indices identifiés pour attribuer des étiquettes
sémantiques aux segments textuels considérés (phrases, paragraphes, etc.).
Spécification littéraire d’une règle d’exploration contextuelle
CITALA 2009
1. Spécification de l’espace de recherche
E:= Créer espace(PhraseParent de l’indicateur principal) ;
2. Spécification des listes des indicateurs et des indices complémentaires
Li := liste de verbes / adjectif/ …
3. Conditions
Concerne les contraintes d’agencements et d’ordonnancement des marqueurs ainsi que des indices complémentaires
dans l’espace de recherche considéré.
4. Actions
Attribuer une étiquette au segment textuel considéré (la phrase) ou déclencher une tâche.
Exemple:
Si nous sommes en présence d’une annotation <pays> ou <region> ou <ville> etc.
Et si elle est précédée d’une préposition de lieu de la classe PrepLieu(en, dans, à, …) OU
d’un marqueur de localisation (verbe de localisation) de la classe VStatIntrodLoc: (occuper,
recourvrir, border, entourer, barrer, …) ou VdynIntroduitLoc : (quitter, atteindre, envahir,
traverser, évacuer, …)
Alors nous sommes en présence d’une localisation<lieu>
Sinon Le reste des entités nommées de type pays, region, ville etc. seront annotés par
défaut <Actantcollectif>
Extraction des entités nommées et des relations
Reconnaissance des entités nommées EN arabes
CITALA 2009
La catégorisation d’entités nommées retenue pour la conception de notre système est la suivante:
1. acteurs ou actants (agent de l’action ou cible de l’action) :
- particulier / individuel (personnes) ou
- collectifs (entreprise, organisme, institution, …)
2. information de localisation (lieu géographique): villes, régions, pays, continents, etc.
3. information temporelle : dates, durée, période, horaire, etc.
4. information numérique : mesure, monétaire ou pourcentage, etc.
Dans notre étude, nous nous sommes inspiré de la catégorisation des EN de la conférence
MUC 7, mais aussi, d’autres études.
Quelques étiquettes sémantiques attribuées aux ENs identifiées
Type entité
N°
Etiquette associée
CITALA 2009
1
Phrase
<Phrase>
2
Acteur particulier
<ActP>
3
Acteur collectif
<ActC>
4
Exp de localisation
<Lieu>
5
Exp de localisation : ville
<Ville>
6
Exp de localisation : région
<Région>
7
Exp de localisation : pays
<Pays>
8
Exp temporelle
<Temps>
9
Exp temporelle de type durée
<Durée>
10
Exp temporelle de type horaire
<Horaire>
11
Exp temporelle de type age
<Age>
12
Exp temporelle de type date
<Date>
13
Exp numérique monétaire
<ExpMon>
14
Exp numérique de longueur
<Long>
15
Exp numérique de poids
<Poids>
16
Exp numérique de volume
<Volume>
17
Exp numérique de vitesse
<Vitesse>
18
Exp numérique de température
<Température>
19
Exp numérique de pourcentage
<Pourcentage>
20
Nom propre
<NP>
21
Titre
<Titre>
22
Nom organisation
<Org>
23
Fonctions sociales
<FS>
24
Fonctions relationnelles
<FR>
25
Nationalité
<Nat>
26
Appartenance religieuse
<App-Rel>
27
Appartenance ethnique
<App-Eth>
Reconnaissance des entités nommées de type actant
Identification basée sur la structure interne de l’entité nommée ainsi que sur l’analyse du contexte
CITALA 2009
Reconnaissance des actants particuliers
Un acteur particulier est une personne qui est caractérisé par son nom propre (‫ عبد هللا‬،‫ )محمد‬et sa fonction ( ، ‫ وزير‬،‫رئيس‬
...), son titre ( ،‫ الملك‬،‫ العاهل‬،‫ الدكتور‬،‫السيد‬...) qui pourrait aussi avoir une classe d’appartenance : nationalité ( ،‫ مغربي‬،‫جزائري‬
،‫تونسي‬...), religion ( ،‫ يهودي‬،‫ مسيحيـي‬،‫مسلم‬...). etc.
De ce fait, la reconnaissance et l’annotation des acteurs particuliers (personnes et ses attributs), nécessitent :
1. des ressources:
- un ensemble d’expressions régulières décrivant des entités selon leurs structures internes
- un lexique sous forme de dictionnaires et de classes d’indices: classe de fonctions sociales, classe d’appartenance
(nationalité, religion, ...), etc.
2. un ensemble de règles lexico sémantiques: pour l’annotation finale de l’acteur. Ces règles sont indépendantes du
domaine d’application.
Noms propres arabes:
‫ عبد هللا‬‫ أبوعلي‬‫ أم مروان‬‫ ابن بطوطة‬‫ طارق بن زياد‬‫ عبد المؤمن بن علي‬‫ سلمان الفارسي‬......‫الخ‬
‫أكد‪ ،‬أمس‪ ،‬وزير الطاقة والمناجم الجزائري السيد شكيب خليل أن مجموعة سوناطراك‬
‫تحضر حاليا إلنشاء بنك لتمويل مشاريعها االستثمارية المستقبلية‪،‬‬
‫أكد‪ ،‬أمس‪<FS> ،‬وزير الطاقة و المناجم>‪<Nat></FS‬الجزائري >‪<Titre> </Nat‬‬
‫السيد>‪<NP></Titre‬شكيب خليل >‪</NP‬أن مجموعة سوناطراك تحضر حاليا إلنشاء بنك لتمويل‬
‫مشاريعها االستثمارية المستقبلية‪...،‬‬
‫‪Règle :‬‬
‫>‪<Det>? <FS><Nat><Ponct>?<Titre>? <NomP> -----> <ActP‬‬
‫أكد‪ ،‬أمس>‪ <FS> <ActP‬وزير الطاقة و المناجم>‪<Nat></FS‬الجزائري >‪<Titre> </Nat‬‬
‫السيد>‪<NP></Titre‬شكيب خليل >‪</ActP> </NP‬أن مجموعة سوناطراك تحضر حاليا إلنشاء‬
‫بنك لتمويل مشاريعها االستثمارية المستقبلية‪...،‬‬
‫‪Cas de reconnaissance d’un actant particulier‬‬
‫‪CITALA 2009‬‬
‫‪Exemple :‬‬
Reconnaissance des actants collectifs
CITALA 2009
Pour la reconnaissance des actants collectifs (noms d’organisation, d’entreprises, filiales, groupes, administration,
institution, …) nous exploitons des lexiques et nous faisons appel aux informations concernant la structure interne des
entités en question ainsi qu’aux expressions régulières et aux règles dites d’exploration contextuelle.
Exemple :
‫ وزير الطاقة والمناجم الجزائري السيد شكيب خليل أن مجموعة سوناطراك تحضر حاليا إلنشاء بنك‬،‫ أمس‬،‫أكد‬
،‫لتمويل مشاريعها االستثمارية المستقبلية‬
</Nat> ‫<الجزائري‬Nat></FS>‫<وزير الطاقة و المناجم‬FS> ،‫ أمس‬،‫أكد‬
</TOrg> ‫<مجموعة‬TOrg>‫<أن‬/NP>‫<شكيب خليل‬NP></Titre>‫<السيد‬Titre>
...،‫< تحضر حاليا إلنشاء بنك لتمويل مشاريعها االستثمارية المستقبلية‬/Org>‫<سوناطراك‬Org>
Règle :
<Det>? <FS><Nat><Ponct>?<Titre>? <NomP> -----> <ActP>
<TOrg>? <Org> <Nat>?
-----> <ActC>
</Nat> ‫<الجزائري‬Nat></FS>‫<وزير الطاقة و المناجم‬FS> ،‫ أمس‬،‫أكد‬
</TOrg> ‫<مجموعة‬TOrg> <ActC> ‫<أن‬/NP>‫<شكيب خليل‬NP></Titre>‫<السيد‬Titre>
...،‫< تحضر حاليا إلنشاء بنك لتمويل مشاريعها االستثمارية المستقبلية‬/ActC> </Org> ‫<سوناطراك‬Org>
Cas de reconnaissance d’un actant collectif
Reconnaissance des noms de pays comme actants
CITALA 2009
Le cas des noms de pays pose problème. S’agit il d’une localisation ou bien d’un actant collectif.
Afin de lever ce problème nous avons eu recours à une règle d’exploration contextuelle:
Cas 1 : lieu géographique
.‫ سينعقد اجتماع لوزراء الخارجية المغاربة‬، ‫ بالجزائر‬،‫غدا‬
….. ‫ بان كي مون غزة‬،‫ زار األمين العام لألمم المتحدة‬،‫البارحة‬
Cas 2 : actant collectif
.‫قدمت الجزائر طلب اإلنضمام إلى المنظمة الدولية للتجارة‬
Dans notre cas, c’est une règle d’exploration contextuelle qui sera utilisé pour attribuer l’étiquette adéquate en se
basant sur le contexte linguistique de l’unité en question. Cette règle sous la forme littéraire, est la suivante:
Règle d’Exploration Contextuelle (description):
Si
l’entité nommée étiqueter par <pays> ou <ville> est précédée par une
préposition (،‫ نحو‬،‫ إلى‬،‫ب‬... ) ou par un verbe du type ( ،‫ ذهب‬،‫ انتقل‬،‫ غادر‬،‫وصل‬
،‫ بقي‬،‫مكث‬،‫زار‬... )
alors attribuer l’étiquette <Lieu>
sinon attribuer l’étiquette <ActantCollectif>
Reconnaissance d’entités de type temporelle
CITALA 2009
Dans cette tâche, nous nous intéressons à l’étiquetage des dates, des durées, des différentes
expressions temporelles. Cela permettra ultérieurement d’associer une information temporelle à la
relation extraite. Pour l’achèvement de cette tâche, nous faisons appel aux expressions régulières ainsi
qu’à des règles d’explorations contextuelles.
Détection des dates
Elles peuvent apparaîtrent sous une :
- une forme numériques (1990/01/15,1990-01-15, … ) ;
- une forme mixte (1990 ‫ جانفي‬15) ;
-seulement de mots‫))خمسة عشر جانفي ألف و تسعة مئة و تسعون‬
- les dates non absolues ("‫ مارس‬5",‫; ) ""في ماي‬
- les dates absolues (2009 ‫ جويلية‬05 ‫; )""في‬
Détection des durées
- Des durées quelconques (‫ سنوات‬3 ‫)""خالل‬
- Des intervalles temporels (‫ جويلية‬15 ‫ جوان إلى‬06 ‫)""من‬
- Des durées absolues(‫ جويلية‬05 ‫)""انطالقا من‬
- Des durées relatives au moment d’élocution (‫)""منذ عام‬
Détection des expressions temporelles
- Ce sont des expressions qui regroupent : par exemple :
- Des dates relatives, de forme particulière (‫"في بداية السنة‬،"‫"األسيوع الفارط‬،"‫; )""في القرن الماضي‬
‫تنظم أيام تكنولوجية فرنسية من ‪ 29‬نوفمبر إلى ‪ 1‬ديسمبر ‪ 2008‬بالجزائر‪ ،‬حسبما علمنا لدى وكالة "اوبيفرانس" وهي إحدى‬
‫الهيئات المبادرة بهذا اللقاء‪.‬‬
‫تنظم أيام تكنولوجية فرنسية من >‪ <Mois></Nb> 29<Nb‬نوفمبر>‪ </Mois‬إلى >‪<Mois></Nb> 1</Nb‬ديسمبر‬
‫>‪ </Nb> 2008<Nb></Mois‬بالجزائر‪ ،‬حسبما علمنا لدى وكالة "اوبيفرانس" وهي إحدى الهيئات المبادرة بهذا اللقاء‪.‬‬
‫‪Règle :‬‬
‫>‪<Jour>? <Nb> <Mois> <Nb>? -----------------------> <Date‬‬
‫تنظم أيام تكنولوجية فرنسية من>‪ <Mois></Nb> 29 <Nb><Date‬نوفمبر >‪</Date> </Mois‬إلى>‪1<Date> <Nb‬‬
‫>‪<Mois></Nb‬ديسمبر >‪ </Date> </Nb> 2008<Nb></Mois‬بالجزائر‪ ،‬حسبما علمنا لدى وكالة "اوبيفرانس"‬
‫وهي إحدى الهيئات المبادرة بهذا اللقاء‪.‬‬
‫‪Règle :‬‬
‫>‪<Det> <Date> <Det> <Date> -----------------------> <Période‬‬
‫تنظم أيام تكنولوجية فرنسية >‪ <Mois></Nb> 29<Nb><Date> <Période‬نوفمبر >‪ </Date> </Mois‬إلى‬
‫>‪<Mois></Nb> 1<Nb><Date‬ديسمبر >‪ </Période ></Date> </Nb> 2008<Nb></Mois‬بالجزائر‪ ،‬حسبما‬
‫علمنا لدى وكالة "اوبيفرانس" وهي إحدى الهيئات المبادرة بهذا اللقاء‪.‬‬
‫‪Cas de reconnaissance d’expression temporelles‬‬
‫‪CITALA 2009‬‬
‫‪Exemple :‬‬
Reconnaissance d’entités de type localisation
CITALA 2009
L’annotation de l’information spatiale, implique l’identification des noms de lieux géographiques : village, ville, pays,
continent, mer, océan, fleuve, lac, montagnes, désert, plaines, etc. ainsi que toutes les unités linguistiques (noms de
localisation, verbes de localisation, adjectif de localisation, adverbes de lieux, etc. ) pouvant marquer et indiquer un nom
de lieu ou contribuant à dénoter un nom de lieu. De la même manière, nous utiliserons des expressions régulières ainsi que
des règles d’exploration contextuelles pour leur identification.
Exemple :
267 ‫ ديسمبر بقصر المعارض مشاركة‬1 ‫ نوفمبر إلى‬26 ‫سيشهد المعرض المغاربي األول بالجزائر الذي سيقام من‬
)‫عارضا من بلدان المنطقة حسبما أشار إليه يوم األحد مسؤولو الشركة الجزائرية للمعارض والصادرات (سافيكس‬
.‫المنظمة لهذه التظاهرة‬
Règle :
<préposition> <ville> ---> <Lieu>
<préposition> <Loc> ---> <Lieu>
‫< الذي سيقام‬/Lieu></ville>‫<الجزائر‬ville></prep>‫< ب‬prep><Lieu>‫سيشهد المعرض المغاربي األول‬
‫<مشاركة‬/Lieu> </loc> ‫< قصر المعارض‬loc> </prep>‫< ب‬prep> <Lieu>‫ نوفمبر‬21 ‫ نوفمبر إلى‬12 ‫من‬
‫ عارضا من بلدان المنطقة حسبما أشار إليه يوم األحد مسؤولو الشركة الجزائرية للمعارض والصادرات‬267
.‫(سافيكس) المنظمة لهذه التظاهرة‬
Cas de reconnaissance d’expression de localisation
Reconnaissance d’entités de type numérique (EN de mesure ou monétaire)
CITALA 2009
Il peut s’agir soit d’entités de mesure soit d’entités monétaires soit des pourcentages. Un
nombre est soit un:
- numérique simple : ،‫ مليون دينار‬100 ،‫ دوالر‬15 ،‫ أورو‬10
- numérique avec virgule : %5,7
- numérique négatif : -6 %
- numérique composé : ‫أالف دينار‬7
Les classes utilisées pour l’identification et l’annotation des informations numériques sont :
- unités monétaires (‫أورو‬, ‫دينار‬,‫) دوالر‬
- unité de mesure (‫كغ‬, ‫لتر‬, ‫متر‬, ‫كم‬, …(
- de signes relatifs au pourcentage (%)
Exemple :
.‫ ماليير دج ثمن بيع مؤسسة عمومية واحدة‬3 ‫ أي معدل‬،‫ مليار دينار‬137 ‫ حصلت الخزينة العمومية على‬...
Règle :
Nous aurons à employer généralement pour
l’annotation des expressions de mesure, des
expressions régulières.
</NbL> ‫<مليار‬NbL> </Nb> 137 <Nb><ExpMon>‫ حصلت الخزينة العمومية على‬...
</Nb> 3 <Nb>< ExpMon >‫ أي معدل‬، </ExpMon></Dev>‫<دينار‬Dev>
.‫< ثمن بيع مؤسسة عمومية واحدة‬/ExpMon></Dev>‫<دج‬Dev></NbL>‫ماليير‬NbL>
Cas de reconnaissance d’une expression de mesure
Extraction des relations entre les ENs
CITALA 2009
Les règles de repérage de relations entre actants s’appuient sur des segments textuels déjà annotés
(<actant>, <Temps>, <Lieu>…).
Les règles d’annotation augmentent celles de la précédente étape de deux nouvelles formes: l’une qui
prend en compte, dans ses prémisses, des segments textuels déjà annotés et l’autre prenant en charge
les notions d’indicateur, d’indices complémentaires et d’espace de recherche selon la méthode de
l’exploration contextuelle.
Du fait, de la multitude de relations qui peuvent exister entre les entités nommées, nous nous sommes
limités aux relations liées à la notion rencontre (scientifique, politique, économique, culturelle, religieuse,
etc.).
L’objectif étant d’essayer de repérer dans les dépêches de presse, les rencontres de personnes
scientifiques, politiques, culturelles apparaissant dans les textes journalistiques et d’essayer d’extraire
toutes les informations les décrivant (les personnes qui se sont rencontrées, date, lieu, …). De ce fait,
nous tâcherons de recenser les verbes véhiculant cette notion du genre ( ، ‫ عقد‬،‫تحاور‬،....‫)لقي‬.
‫التقى الرئيس الجزائرى عبد العزيز بوتفليقة‪ ،‬اليوم‪ ،‬األمين العام لمنظمة الموءتمر االسالمى أكمل الدين‬
‫أحسان أوغلو الذى يزور الجزائر حاليا‪ .‬وبحث الرئيس بوتفليقة مع اوغلو خالل اللقاء نشاطات‬
‫المنظمة السياسية واالقتصادية واالنسانية خاصة بعد قمة داكار االخيرة التى أقرت ميثاقها … ‪.‬‬
‫‪Annotation des entités nommées‬‬
‫>‪<Phrase‬التقى >‪<FS><ActP‬الرئيس>‪ <Nat></FS‬الجزائرى>‪ <NP></Nat‬عبد العزيز‬
‫بوتفليقة >‪ <ExpT>،</ActP></NP‬اليوم >‪ <FS><ActP> ،<ExpT‬األمين العام >‪</FS‬‬
‫>‪<Org‬لمنظمة المؤتمر اإلسالمى>‪ <NP></Org‬أكمل الدين أحسان أوغلو>‪</ActP></NP‬‬
‫الذى يزور>‪ <Lieu‬الجزائر>‪ </Lieu‬حاليا >‪.</Phrase‬‬
‫‪Annotation des relations de type Rencontre‬‬
‫>‪<VRenc><RencontreRel><Phrase‬التقى >‪<FS><ActP></VRenc‬‬
‫الرئيس>‪ <Nat></FS‬الجزائرى>‪ <NP></Nat‬عبد العزيز بوتفليقة >‪،</ActP></NP‬‬
‫>‪<ExpT‬اليوم >‪ <FS><ActP> ،<ExpT‬األمين العام>‪</FS> <Org‬لمنظمة المؤتمر‬
‫اإلسالمى>‪ <NP></Org‬أكمل الدين أحسان أوغلو>‪ </ActP></NP‬الذى يزور>‪<Lieu‬‬
‫الجزائر>‪ </RencontreRel></Lieu‬حاليا >‪.</Phrase‬‬
‫‪Cas de reconnaissance d’une relation de Rencontre‬‬
‫‪CITALA 2009‬‬
‫‪Exemple :‬‬
CITALA 2009
Problèmes rencontrés dans le
cas des textes arabes
Problèmes rencontrés dans le cas des textes arabes
1.
CITALA 2009
Forme agglutinante des mots arabes : la langue arabe est une langue agglutinante. En effet, les mots
arabes, peuvent être affixés, ce qui fait que des fois il y’a des particule qui colle à certaines entités
ce qui ne facilite pas leur détection.
2. Absence de casse (indice naîf): absence de majuscules et de minuscules, dont la présence faciliter la
reconnaissance des entités nommées du type noms propres par exemple.
3. Absence de normes d’écritures des noms propres : certains noms propres en langue latines sont
retranscris en langue arabe mais sous plusieurs formes, par exemple : Poutine est réécrit en arabe :
‫ بوتن‬،‫ بوتين‬d’où la difficulté à réunir l’ensemble des formes possibles et d’où la nécessité de
normaliser l’écriture des noms propres d’origine non arabe.
4. Non voyélisation des textes arabes est source d’ambiguïtés. En effet, le mot en arabe « ‫ » مؤسسة‬sans
voyelles, peut s’interpréter selon deux sens distinct :
‫م َُؤ َس َسة‬
‫م َُؤسِ َسة‬
 entreprise
 fondatrice
5. Problèmes de délimitation des entités nommées pour deux raisons :
- mot inconnu : absence d’informations morphologiques (nécessite de disposer d’un analyseur
morphologique)
- antonomase : passage du mot de la langue au nom propre
6. problème de la ponctuation qui n’est pas respectée dans la rédaction des textes arabes.
CITALA 2009
Conclusion

Diapositive 1

Transcript Diapositive 1

Directory