Transcript Document

The 3rd International Conference on
Arabic Natural Language Processing
Three-level approach for Passage Retrieval
in Arabic Question/Answering Systems
Lahsen Abouenour1, Karim Bouzoubaa1, Paolo Rosso2
1
Mohammadia School of Engineers,
Mohamed Vth University-Agdal
Rabat - Morocco
2
Natural Language Engineering Lab.,
Universidad Politécnica
Valencia, Spain
Mohammadia School of Engineers, Rabat, Morocco - May 2009
1
Arabic Question/Answering Systems
Classical IR
User Query (keywords)
List of documents/links 2
1
?
User Checking 3
Answer to
4
User Query
???
2
Arabic Question/Answering Systems
Question/Answering
User Query (question = keywords+structure)
1
?
List of documents/links 2
User Checking
???
Answer to
3
User Query
3
Arabic Question/Answering Systems
Existing Arabic Q/A Systems
- QARAB (based on Al-Raya corpus)
- AQAS (extract answers from only structured texts)
- ArabiQA (deal with factoid questions, embeds NER module )
- QASAL (semi-automatic Q/A system for factoid questions )
Three Modules
Question
Analysis
Passage
Retrieval
Answer
Extraction
Question type
Candidate passage
Answer identification
Keywords
Passage ranking
Answer construction
Named Entities
…
…
…
4
Arabic Question/Answering Systems
Challenges of Arabic Q/A Systems
- short vowels,
- absence of capital letters,
- complex morphology,
-etc.
5
Arabic Question/Answering Systems
Question/Answering
User Query (question = keywords+structure)
1
Natural Language ( ‫ | أين توجد مدينة مراكش ؟‬Where is the city of Marrakech ?)
?
-- Keywords : Where | is | the | city | of | Marrakech
‫أين | توجد | مدينة | مراكش‬
-- Structure :
Where is the city of Marrakech ?
≠
Is Marrakech a city ?
‫أين توجد مدينة مراكش ؟‬
≠
‫هل مراكش مدينة ؟‬
6
Arabic Question/Answering Systems
Question/Answering
Passage Retrieval
2
( ‫ | أين توجد مدينة مراكش ؟‬Where is the city of Marrakech ?)
Passage 1
Xxxxx ‫( مراكش‬Marrakech)xxxxxx xx xxx xxxx
Xx xxx xxxxx xxx xxxx xxx xxxx
No answer
Xxxxx ‫( مدينة‬city) xxxxx xx xxx ‫( توجد‬exist in)
xxx
Passage N
‫( المغرب‬Morroco) xxx ‫( يوجد إقليم مراكش‬the region of
marrakech exists in) xxx Xx xxx xxxxx xxx xxxx xxx
The answer
xxxx
Xxxxx xx xxxxx xx xxx xx xxx
7
Arabic Question/Answering Systems
Question/Answering
Passage Retrieval
2
( ‫ | أين توجد مدينة مراكش ؟‬Where is the city of Marrakech ?)
Passage 1
Xxxxx ‫( مراكش‬Marrakech) xxxxxx xx xxx
xxxx Xx xxx xxxxx xxx xxxx xxx xxxx
Xxxxx ‫( مدينة‬city) xxxxx xx xxx ‫( توجد‬exist
in) xxx
(Is in | Marrakech | city)
‫مدينة | مراكش | توجد‬
Morphological
relation
Passage N
hyponymy/semantic
relation
‫( المغرب‬Morroco) xxx ‫( يوجد إقليم مراكش‬the region of
marrakech exists in) xxx Xx xxx xxxxx xxx xxxx xxx
xxxx
‫إقليم | مراكش | يوجد‬
(Is in | Marrakech | city)
Xxxxx xx xxxxx xx xxx xx xxx
8
Arabic Question/Answering Systems
Question/Answering
Passage Retrieval
2
( ‫ | أين توجد مدينة مراكش ؟‬Where is the city of Marrakech ?)
Passage 1
Passage N
Xxxxx ‫ مراكش‬xxxxxx xx xxx xxxx
Xx xxx xxxxx xxx xxxx xxx xxxx
Xxxxx ‫ مدينة‬xxxxx xx xxx ‫ توجد‬xxx
Vs
???
‫ المغرب‬xxx ‫ يوجد إقليم مراكش‬xxx
Xx xxx xxxxx xxx xxxx xxx xxxx
Xxxxx xx xxxxx xx xxx xx xxx
With respect to Morphological and Semantic Relation
relevance(P1)=relevance(PN)
What about the question structure ?
9
Arabic Question/Answering Systems
Question/Answering
Passage Retrieval
( ‫ | أين توجد مدينة مراكش ؟‬Where is the city of Marrakech ?)
2
Expected Answer: ‫ توجد مدينة مراكش في‬Question: ‫أين توجد مدينة مراكش ؟‬
(The city of Marrakech is in …)
‫في‬
‫مراكش‬
‫مدينة‬
Passage 1 structures
‫توجد‬
(Where is the city of Marrakech ?)
‫مراكش‬
‫مدينة‬
‫توجد‬
‫أين‬
Passage N structures
xxxxx
‫مراكش‬
xxxxxx
xx
xx
xxx
‫توجد‬
xxx
xxxxx
‫مدينة‬
xxxx
xx
xxxxx
‫مراكش‬
‫إقليم‬
‫يوجد‬
10
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Levels
Semantic Query Expansion (extending the list of keywords related
to the user question)
Keyword-based level (candidate passages with related keywords)
Structure-based level (candidate passages with related structure)
Semantic reasoning level (comparing CG representations)
11
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Resources & Tools
Semantic Query Expansion (Arabic WordNet, Amine Plateform)
Keyword-based PR (Yahoo API)
Structure-based PR (The Java Information Retrieval System - JIRS)
Semantic reasoning level (Amine Plateform)
12
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion
Ontology
- AWN is a free Lexical resource
- AWN contains Over than 20 000 arabic words grouped into synsets
- AWN is connected with the SUMO (Suggested Upper Merged Ontology)
- SUMO has about 2000 general concept
- SUMO Many relations between concepts (hyponymy, hypernymy, ...)
13
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion
Amine Platform
- Amine is a multi-layer platform dedicated to the development
of Intelligent Systems and Multi-Agents Systems
- Amine is an Open Source Platform
- Amine is 100 % Java implementation
- Amine provides a set of operations related to Ontologies
14
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion
Arabic WordNet
Temporary
DataBase (MySQL)
Content
Structure
Link with SUMO
Amine
Platform API
JAVA Program
Amine AWN ontology
15
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion
16
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion
Concept/Term
Global Expansion
Morphological Expansion
AAWN Ontology Expansion
1 - By synonyms
2 – By supertypes
3 – By definition
4 – By subtypes
17
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Structure-based PR
The Java Information Retrieval System (JIRS)
- a language-independent PR system
- adpated for many non-agglutinative European languages (English,
French, Spanish, Italian, ...)
- adapted for the Arabic language
- re-ranking of the retrieved passages is based on a distance density n-
gram model
URL : http://sourceforge.net/projects/jirs/
18
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Evaluation Process
CLEF Questions
1 - Manual Process
Google
TREC Questions
2 - Automatic Process
Semantic QE
Google
Yahoo
Semantic QE
JIRS
JIRS
Yahoo
Keyword-based
Semantic QE
Structure-based
The accuracy
The Mean Reciprocal Rank (MRR)
We consider only the first five returned passages
19
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Evaluation Process
The Questions
- a set of 82 of the CLEF and TREC questions
- facoid questions seeking for NE
- significant coverage : questions classified into different domains
20
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Evaluation Process
Keyword-based evaluation
Google
(CLEF)
Accuracy
MRR
Yahoo
(CLEF)
Yahoo
(TREC)
no QE
QE
no QE
QE
no QE
QE
29,26%
32,92%
1,22%
7,32%
5,02 %
6,95 %
10,15
11,25
0,99
3,25
2,04
2,88
 Accuracy and MRR have been improved after using semantic QE
21
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Evaluation Process
Structure-based evaluation
Yahoo
(CLEF)
Accuracy
MRR
Yahoo
(TREC)
no QE
QE
no QE
QE
15,85%
19,51%
2,7 %
10,81 %
5,46
7,85
0,67
4,53
 Accuracy and MRR have been improved after using semantic QE
 Compared to the keyword-based PR, the structure-based PR gives
The best Accuracy and MRR
22
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Evaluation Process
Summarize
Semantic Query Expansion
Keyword-based PR
Structure-based PR
Yes
No
Acc. 7,32%
Acc. 1,22%
MRR 3,25
MRR 0,99
Acc. 19,51%
Acc. 15,85%
MRR 7,85
MRR 5,46
23
Arabic Question/Answering Systems
Our Passage Retrieval Approach : The semantic reasoning level
Presentation
Question
Expected Answer
CG-EA
Semantic score (p1)
Generalization
CG1
P1
sub passage
(CG-P1,CG-EA)
CGi
Pi
sub passage
Semantic score (pi)
Generalization
(CG-Pi,CG-EA)
24
‫‪Arabic Question/Answering Systems‬‬
‫‪Our Passage Retrieval Approach : The semantic reasoning level‬‬
‫‪Example‬‬
‫أين تقع أعلى نقطة على سطح األرض؟ ‪TREC question:‬‬
‫) "?‪(Where is the highest point on the surface of the earth‬‬
‫‪>> Using Google Search Engine‬‬
‫‪25‬‬
‫‪Passage‬‬
‫‪Rank‬‬
‫‪ID‬‬
‫باالضافة إلى أعلى وأخفض نقطتين في األرض‪ ،‬حيث قمة افرست في جبال الهماليا ترتفع ‪ 8848‬متر عن سطح البحر وبذلك‬
‫تكون أعلى نقطة في سطح األرض‪ ،‬بينما اخفض نقطة على سطح األرض تكون قرب البحر ‪. ..‬ال تقع جزر المحيط الهادي في‬
‫أوقيانوسيا ضمن أيّ قارات‬
‫‪1‬‬
‫‪P1‬‬
‫كل نقطة على األرض عدا القطبين تقع على تقاطع خط طول ومواز‪ ،‬وهكذا يمكن أن ننسب إليها ‪ ...‬المهم أن نتذكر أنه من أجل‬
‫وصف نقطة على سطح األرض نحتاج إلى عددين‪ ،‬ولهذا ‪ ...‬على المستوي المماس للكرة في "أسفل" نقطة منها انطالقا من‬
‫"أعلى" نقطة فيها‪. ...‬‬
‫‪2‬‬
‫‪P2‬‬
‫ولتمثيل ابعاد سطح األرض على الخريطة ‪ ،‬ترسم هذه األبعاد بنسب خاصة تتناسب مع ‪ ...‬خفيف ثم يزداد اإلنحدار مع‬
‫اإلرتفاع حتى يصبح اإلرتفاع حاد عند أعلى نقطة‪. ...‬‬
‫‪3‬‬
‫‪P3‬‬
‫هواء المريخ ال يتمتع بنفس كثافة هواء األرض إذ يبلغ الضغط الجوي على سطح ‪ ....‬فهي تقع مقابل الشمس بالضبط في‬
‫سمائنا؛ إذ تظهر في الغروب‪ ،‬وتصل إلى أعلى نقطة لها‪...‬‬
‫‪4‬‬
‫‪P4‬‬
‫إذا َمثلّنا األرض بصورة كرة صغيرة قطرها ‪ 457‬ميلي متر فيكون ارتفاع أعلى ‪ ...‬كان المفروض فيه ّ‬
‫أن األرض تقع في‬
‫مركز العالم والشمس (وغيرها) تدور حول األرض‪ ... .‬حركة األرض حول الشمس باختالف مواضعها على مدارها فسرعتها‬
‫في نقطة األوج هي ‪ 29.3‬كم ‪ 5 ...‬ظهور األنوار القطبية فيما يرتفع إلى ألف كيلومتر من سطح األرض يد ّل على ّ‬
‫أن‪...‬‬
‫‪5‬‬
‫‪P5‬‬
‫أعلى نقطة في اليابسة هي قمة جبل إفرست ألنها ترتفع ‪ 8846‬مترا عن سطح البحر وتقع في جبال الهماليا ‪ ،‬والواقع أن‬
‫أطول جبل على سطح األرض هو موناكي في هاواي ‪ ،‬إذ‪...‬‬
‫‪6‬‬
‫‪P6‬‬
‫‪Arabic Question/Answering Systems‬‬
‫‪Our Passage Retrieval Approach : The semantic reasoning level‬‬
‫‪Example‬‬
‫أين تقع أعلى نقطة على سطح األرض؟ ‪TREC question:‬‬
‫) "?‪(Where is the highest point on the surface of the earth‬‬
‫)‪>> Passages Ranks after LEVEL 1 (Keyword-based) and LEVEL 2 (Structure-based‬‬
‫‪Passage‬‬
‫‪Structure Score‬‬
‫‪ID‬‬
‫باالضافة إلى أعلى وأخفض نقطتين في األرض‪ ،‬حيث قمة افرست في جبال الهماليا ترتفع ‪ 8848‬متر عن سطح البحر‬
‫وبذلك تكون أعلى نقطة في سطح األرض‪ ،‬بينما اخفض نقطة على سطح األرض تكون قرب البحر ‪. ..‬ال تقع جزر المحيط‬
‫الهادي في أوقيانوسيا ضمن أيّ قارات‪.. .‬‬
‫‪0,67‬‬
‫‪P1‬‬
‫أعلى نقطة في اليابسة هي قمة جبل إفرست ألنها ترتفع ‪ 8846‬مترا عن سطح البحر وتقع في جبال الهماليا ‪ ،‬والواقع أن‬
‫أطول جبل على سطح األرض هو موناكي في هاواي ‪ ،‬إذ‪.. .‬‬
‫‪0,63‬‬
‫‪P6‬‬
‫كل نقطة على األرض عدا القطبين تقع على تقاطع خط طول ومواز‪ ،‬وهكذا يمكن أن ننسب إليها ‪. ..‬المهم أن نتذكر أنه من‬
‫أجل وصف نقطة على سطح األرض نحتاج إلى عددين‪ ،‬ولهذا‪.. .‬‬
‫‪0,54‬‬
‫‪P2‬‬
‫هواء المريخ ال يتمتع بنفس كثافة هواء األرض إذ يبلغ الضغط الجوي على سطح ‪. ...‬فهي تقع مقابل الشمس بالضبط في‬
‫سمائنا؛ إذ تظهر في الغروب‪ ،‬وتصل إلى أعلى نقطة لها‪.. .‬‬
‫‪0,49‬‬
‫‪P4‬‬
‫ولتمثيل ابعاد سطح األرض على الخريطة ‪ ،‬ترسم هذه األبعاد بنسب خاصة تتناسب مع ‪. ..‬خفيف ثم يزداد اإلنحدار مع‬
‫اإلرتفاع حتى يصبح اإلرتفاع حاد عند أعلى نقطة‪... .‬‬
‫‪0,39‬‬
‫‪P3‬‬
‫إذا َمثلّنا األرض بصورة كرة صغيرة قطرها ‪ 457‬ميلي متر فيكون ارتفاع أعلى ‪ ...‬كان المفروض فيه ّ‬
‫أن األرض تقع في‬
‫مركز العالم والشمس (وغيرها) تدور حول األرض‪ ... .‬حركة األرض حول الشمس باختالف مواضعها على مدارها‬
‫فسرعتها في نقطة األوج هي ‪ 29.3‬كم ‪ 5 ...‬ظهور األنوار القطبية فيما يرتفع إلى ألف كيلومتر من سطح األرض يد ّل على‬
‫‪ّ 26‬‬
‫أن‪...‬‬
‫‪0,29‬‬
‫‪P5‬‬
Arabic Question/Answering Systems
Our Passage Retrieval Approach : The semantic reasoning level
Example
TREC question: ‫أين تقع أعلى نقطة على سطح األرض؟‬
(Where is the highest point on the surface of the earth?" )
The expected answer is: ... ‫تقع أعلى نقطة على سطح األرض في‬
Passage
CG-EA : [‫]نقطة‬-attr->[‫]أعلى‬,
-ala->[‫]األرض‬,
<-agnt-[‫]تقع‬-fi>[‫]مفهوم عام‬
Generalization (CG-EA, CG-P)
1
[‫]صفة‬
2
[‫]صفة‬
3
[‫]صفة‬
4
[‫]فعل‬
[0#
5
6
‫ ]نقطة‬-attr->[‫]أعلى‬,
-ala->[‫]األرض‬
[‫<]نقطة‬-agnt-[‫]حدث‬
27
‫‪Arabic Question/Answering Systems‬‬
‫‪Our Passage Retrieval Approach : The semantic reasoning level‬‬
‫‪Example‬‬
‫أين تقع أعلى نقطة على سطح األرض؟ ‪TREC question:‬‬
‫) "?‪(Where is the highest point on the surface of the earth‬‬
‫‪Semantic Score Formula‬‬
‫)‪SemanticScore(P) = ∑(weight(ci)*β(ci,π(ci)))/ ∑(weight(ci‬‬
‫‪ci  C‬‬
‫‪Semantic Score‬‬
‫‪ID‬‬
‫أعلى نقطة في اليابسة هي قمة جبل إفرست ألنها ترتفع ‪ 8846‬مترا عن سطح البحر وتقع في جبال الهماليا ‪ ،‬والواقع أن أطول جبل على سطح األرض هو موناكي في‬
‫هاواي ‪ ،‬إذ‪.. .‬‬
‫‪0,66‬‬
‫‪P6‬‬
‫باالضافة إلى أعلى وأخفض نقطتين في األرض‪ ،‬حيث قمة افرست في جبال الهماليا ترتفع ‪ 8848‬متر عن سطح البحر وبذلك تكون أعلى نقطة في سطح األرض‪ ،‬بينما‬
‫اخفض نقطة على سطح األرض تكون قرب البحر ‪. ..‬ال تقع جزر المحيط الهادي في أوقيانوسيا ضمن أ ّ‬
‫ي قارات‪.. .‬‬
‫‪0,29‬‬
‫‪P1‬‬
‫إذا َمثلّنا األرض بصورة كرة صغيرة قطرها ‪ 457‬ميلي متر فيكون ارتفاع أعلى ‪ ...‬كان المفروض فيه ّ‬
‫أن األرض تقع في مركز العالم والشمس (وغيرها) تدور حول‬
‫األرض‪ ... .‬حركة األرض حول الشمس باختالف مواضعها على مدارها فسرعتها في نقطة األوج هي ‪ 29.3‬كم ‪ 5 ...‬ظهور األنوار القطبية فيما يرتفع إلى ألف كيلومتر‬
‫من سطح األرض يد ّل على ّ‬
‫أن‪...‬‬
‫‪0,26‬‬
‫‪P5‬‬
‫‪0,20‬‬
‫‪P3‬‬
‫هواء المريخ ال يتمتع بنفس كثافة هواء األرض إذ يبلغ الضغط الجوي على سطح ‪. ...‬فهي تقع مقابل الشمس بالضبط في سمائنا؛ إذ تظهر في الغروب‪ ،‬وتصل إلى أعلى‬
‫نقطة لها‪.. .‬‬
‫‪0,19‬‬
‫‪P4‬‬
‫كل نقطة على األرض عدا القطبين تقع على تقاطع خط طول ومواز‪ ،‬وهكذا يمكن أن ننسب إليها ‪. ..‬المهم أن نتذكر أنه من أجل وصف نقطة على سطح األرض نحتاج‬
‫إلى عددين‪ ،‬ولهذا‪.. .‬‬
‫‪0,04‬‬
‫‪P2‬‬
‫‪Passage‬‬
‫ولتمثيل ابعاد سطح األرض على الخريطة ‪ ،‬ترسم هذه األبعاد بنسب خاصة تتناسب مع ‪. ..‬خفيف ثم يزداد اإلنحدار مع اإلرتفاع حتى يصبح اإلرتفاع حاد عند أعلى نقطة‬
‫‪... .‬‬
‫‪28‬‬
Conclusion & Future Work
 The keyword-based and structure-based levels of our Arabic PR approach
have improved the Accuracy and the MRR in the context of Q/A systems
 A semantic reasoning level on top of the first and second levels could impove
even more the reached performances
 Covering all CLEF and TREC questions
 Automating the semantic reasoning level module
 Conducting corresponding experiments
 Integrating more enriched releases of Arabic WordNet
29
Thank you for your attention
>> Questions
30