Transcript Document
The 3rd International Conference on
Arabic Natural Language Processing
Three-level approach for Passage Retrieval
in Arabic Question/Answering Systems
Lahsen Abouenour1, Karim Bouzoubaa1, Paolo Rosso2
1
Mohammadia School of Engineers,
Mohamed Vth University-Agdal
Rabat - Morocco
2
Natural Language Engineering Lab.,
Universidad Politécnica
Valencia, Spain
Mohammadia School of Engineers, Rabat, Morocco - May 2009
1
Arabic Question/Answering Systems
Classical IR
User Query (keywords)
List of documents/links 2
1
?
User Checking 3
Answer to
4
User Query
???
2
Arabic Question/Answering Systems
Question/Answering
User Query (question = keywords+structure)
1
?
List of documents/links 2
User Checking
???
Answer to
3
User Query
3
Arabic Question/Answering Systems
Existing Arabic Q/A Systems
- QARAB (based on Al-Raya corpus)
- AQAS (extract answers from only structured texts)
- ArabiQA (deal with factoid questions, embeds NER module )
- QASAL (semi-automatic Q/A system for factoid questions )
Three Modules
Question
Analysis
Passage
Retrieval
Answer
Extraction
Question type
Candidate passage
Answer identification
Keywords
Passage ranking
Answer construction
Named Entities
…
…
…
4
Arabic Question/Answering Systems
Challenges of Arabic Q/A Systems
- short vowels,
- absence of capital letters,
- complex morphology,
-etc.
5
Arabic Question/Answering Systems
Question/Answering
User Query (question = keywords+structure)
1
Natural Language ( | أين توجد مدينة مراكش ؟Where is the city of Marrakech ?)
?
-- Keywords : Where | is | the | city | of | Marrakech
أين | توجد | مدينة | مراكش
-- Structure :
Where is the city of Marrakech ?
≠
Is Marrakech a city ?
أين توجد مدينة مراكش ؟
≠
هل مراكش مدينة ؟
6
Arabic Question/Answering Systems
Question/Answering
Passage Retrieval
2
( | أين توجد مدينة مراكش ؟Where is the city of Marrakech ?)
Passage 1
Xxxxx ( مراكشMarrakech)xxxxxx xx xxx xxxx
Xx xxx xxxxx xxx xxxx xxx xxxx
No answer
Xxxxx ( مدينةcity) xxxxx xx xxx ( توجدexist in)
xxx
Passage N
( المغربMorroco) xxx ( يوجد إقليم مراكشthe region of
marrakech exists in) xxx Xx xxx xxxxx xxx xxxx xxx
The answer
xxxx
Xxxxx xx xxxxx xx xxx xx xxx
7
Arabic Question/Answering Systems
Question/Answering
Passage Retrieval
2
( | أين توجد مدينة مراكش ؟Where is the city of Marrakech ?)
Passage 1
Xxxxx ( مراكشMarrakech) xxxxxx xx xxx
xxxx Xx xxx xxxxx xxx xxxx xxx xxxx
Xxxxx ( مدينةcity) xxxxx xx xxx ( توجدexist
in) xxx
(Is in | Marrakech | city)
مدينة | مراكش | توجد
Morphological
relation
Passage N
hyponymy/semantic
relation
( المغربMorroco) xxx ( يوجد إقليم مراكشthe region of
marrakech exists in) xxx Xx xxx xxxxx xxx xxxx xxx
xxxx
إقليم | مراكش | يوجد
(Is in | Marrakech | city)
Xxxxx xx xxxxx xx xxx xx xxx
8
Arabic Question/Answering Systems
Question/Answering
Passage Retrieval
2
( | أين توجد مدينة مراكش ؟Where is the city of Marrakech ?)
Passage 1
Passage N
Xxxxx مراكشxxxxxx xx xxx xxxx
Xx xxx xxxxx xxx xxxx xxx xxxx
Xxxxx مدينةxxxxx xx xxx توجدxxx
Vs
???
المغربxxx يوجد إقليم مراكشxxx
Xx xxx xxxxx xxx xxxx xxx xxxx
Xxxxx xx xxxxx xx xxx xx xxx
With respect to Morphological and Semantic Relation
relevance(P1)=relevance(PN)
What about the question structure ?
9
Arabic Question/Answering Systems
Question/Answering
Passage Retrieval
( | أين توجد مدينة مراكش ؟Where is the city of Marrakech ?)
2
Expected Answer: توجد مدينة مراكش فيQuestion: أين توجد مدينة مراكش ؟
(The city of Marrakech is in …)
في
مراكش
مدينة
Passage 1 structures
توجد
(Where is the city of Marrakech ?)
مراكش
مدينة
توجد
أين
Passage N structures
xxxxx
مراكش
xxxxxx
xx
xx
xxx
توجد
xxx
xxxxx
مدينة
xxxx
xx
xxxxx
مراكش
إقليم
يوجد
10
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Levels
Semantic Query Expansion (extending the list of keywords related
to the user question)
Keyword-based level (candidate passages with related keywords)
Structure-based level (candidate passages with related structure)
Semantic reasoning level (comparing CG representations)
11
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Resources & Tools
Semantic Query Expansion (Arabic WordNet, Amine Plateform)
Keyword-based PR (Yahoo API)
Structure-based PR (The Java Information Retrieval System - JIRS)
Semantic reasoning level (Amine Plateform)
12
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion
Ontology
- AWN is a free Lexical resource
- AWN contains Over than 20 000 arabic words grouped into synsets
- AWN is connected with the SUMO (Suggested Upper Merged Ontology)
- SUMO has about 2000 general concept
- SUMO Many relations between concepts (hyponymy, hypernymy, ...)
13
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion
Amine Platform
- Amine is a multi-layer platform dedicated to the development
of Intelligent Systems and Multi-Agents Systems
- Amine is an Open Source Platform
- Amine is 100 % Java implementation
- Amine provides a set of operations related to Ontologies
14
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion
Arabic WordNet
Temporary
DataBase (MySQL)
Content
Structure
Link with SUMO
Amine
Platform API
JAVA Program
Amine AWN ontology
15
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion
16
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion
Concept/Term
Global Expansion
Morphological Expansion
AAWN Ontology Expansion
1 - By synonyms
2 – By supertypes
3 – By definition
4 – By subtypes
17
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Structure-based PR
The Java Information Retrieval System (JIRS)
- a language-independent PR system
- adpated for many non-agglutinative European languages (English,
French, Spanish, Italian, ...)
- adapted for the Arabic language
- re-ranking of the retrieved passages is based on a distance density n-
gram model
URL : http://sourceforge.net/projects/jirs/
18
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Evaluation Process
CLEF Questions
1 - Manual Process
Google
TREC Questions
2 - Automatic Process
Semantic QE
Google
Yahoo
Semantic QE
JIRS
JIRS
Yahoo
Keyword-based
Semantic QE
Structure-based
The accuracy
The Mean Reciprocal Rank (MRR)
We consider only the first five returned passages
19
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Evaluation Process
The Questions
- a set of 82 of the CLEF and TREC questions
- facoid questions seeking for NE
- significant coverage : questions classified into different domains
20
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Evaluation Process
Keyword-based evaluation
Google
(CLEF)
Accuracy
MRR
Yahoo
(CLEF)
Yahoo
(TREC)
no QE
QE
no QE
QE
no QE
QE
29,26%
32,92%
1,22%
7,32%
5,02 %
6,95 %
10,15
11,25
0,99
3,25
2,04
2,88
Accuracy and MRR have been improved after using semantic QE
21
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Evaluation Process
Structure-based evaluation
Yahoo
(CLEF)
Accuracy
MRR
Yahoo
(TREC)
no QE
QE
no QE
QE
15,85%
19,51%
2,7 %
10,81 %
5,46
7,85
0,67
4,53
Accuracy and MRR have been improved after using semantic QE
Compared to the keyword-based PR, the structure-based PR gives
The best Accuracy and MRR
22
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Evaluation Process
Summarize
Semantic Query Expansion
Keyword-based PR
Structure-based PR
Yes
No
Acc. 7,32%
Acc. 1,22%
MRR 3,25
MRR 0,99
Acc. 19,51%
Acc. 15,85%
MRR 7,85
MRR 5,46
23
Arabic Question/Answering Systems
Our Passage Retrieval Approach : The semantic reasoning level
Presentation
Question
Expected Answer
CG-EA
Semantic score (p1)
Generalization
CG1
P1
sub passage
(CG-P1,CG-EA)
CGi
Pi
sub passage
Semantic score (pi)
Generalization
(CG-Pi,CG-EA)
24
Arabic Question/Answering Systems
Our Passage Retrieval Approach : The semantic reasoning level
Example
أين تقع أعلى نقطة على سطح األرض؟ TREC question:
) "?(Where is the highest point on the surface of the earth
>> Using Google Search Engine
25
Passage
Rank
ID
باالضافة إلى أعلى وأخفض نقطتين في األرض ،حيث قمة افرست في جبال الهماليا ترتفع 8848متر عن سطح البحر وبذلك
تكون أعلى نقطة في سطح األرض ،بينما اخفض نقطة على سطح األرض تكون قرب البحر . ..ال تقع جزر المحيط الهادي في
أوقيانوسيا ضمن أيّ قارات
1
P1
كل نقطة على األرض عدا القطبين تقع على تقاطع خط طول ومواز ،وهكذا يمكن أن ننسب إليها ...المهم أن نتذكر أنه من أجل
وصف نقطة على سطح األرض نحتاج إلى عددين ،ولهذا ...على المستوي المماس للكرة في "أسفل" نقطة منها انطالقا من
"أعلى" نقطة فيها. ...
2
P2
ولتمثيل ابعاد سطح األرض على الخريطة ،ترسم هذه األبعاد بنسب خاصة تتناسب مع ...خفيف ثم يزداد اإلنحدار مع
اإلرتفاع حتى يصبح اإلرتفاع حاد عند أعلى نقطة. ...
3
P3
هواء المريخ ال يتمتع بنفس كثافة هواء األرض إذ يبلغ الضغط الجوي على سطح ....فهي تقع مقابل الشمس بالضبط في
سمائنا؛ إذ تظهر في الغروب ،وتصل إلى أعلى نقطة لها...
4
P4
إذا َمثلّنا األرض بصورة كرة صغيرة قطرها 457ميلي متر فيكون ارتفاع أعلى ...كان المفروض فيه ّ
أن األرض تقع في
مركز العالم والشمس (وغيرها) تدور حول األرض ... .حركة األرض حول الشمس باختالف مواضعها على مدارها فسرعتها
في نقطة األوج هي 29.3كم 5 ...ظهور األنوار القطبية فيما يرتفع إلى ألف كيلومتر من سطح األرض يد ّل على ّ
أن...
5
P5
أعلى نقطة في اليابسة هي قمة جبل إفرست ألنها ترتفع 8846مترا عن سطح البحر وتقع في جبال الهماليا ،والواقع أن
أطول جبل على سطح األرض هو موناكي في هاواي ،إذ...
6
P6
Arabic Question/Answering Systems
Our Passage Retrieval Approach : The semantic reasoning level
Example
أين تقع أعلى نقطة على سطح األرض؟ TREC question:
) "?(Where is the highest point on the surface of the earth
)>> Passages Ranks after LEVEL 1 (Keyword-based) and LEVEL 2 (Structure-based
Passage
Structure Score
ID
باالضافة إلى أعلى وأخفض نقطتين في األرض ،حيث قمة افرست في جبال الهماليا ترتفع 8848متر عن سطح البحر
وبذلك تكون أعلى نقطة في سطح األرض ،بينما اخفض نقطة على سطح األرض تكون قرب البحر . ..ال تقع جزر المحيط
الهادي في أوقيانوسيا ضمن أيّ قارات.. .
0,67
P1
أعلى نقطة في اليابسة هي قمة جبل إفرست ألنها ترتفع 8846مترا عن سطح البحر وتقع في جبال الهماليا ،والواقع أن
أطول جبل على سطح األرض هو موناكي في هاواي ،إذ.. .
0,63
P6
كل نقطة على األرض عدا القطبين تقع على تقاطع خط طول ومواز ،وهكذا يمكن أن ننسب إليها . ..المهم أن نتذكر أنه من
أجل وصف نقطة على سطح األرض نحتاج إلى عددين ،ولهذا.. .
0,54
P2
هواء المريخ ال يتمتع بنفس كثافة هواء األرض إذ يبلغ الضغط الجوي على سطح . ...فهي تقع مقابل الشمس بالضبط في
سمائنا؛ إذ تظهر في الغروب ،وتصل إلى أعلى نقطة لها.. .
0,49
P4
ولتمثيل ابعاد سطح األرض على الخريطة ،ترسم هذه األبعاد بنسب خاصة تتناسب مع . ..خفيف ثم يزداد اإلنحدار مع
اإلرتفاع حتى يصبح اإلرتفاع حاد عند أعلى نقطة... .
0,39
P3
إذا َمثلّنا األرض بصورة كرة صغيرة قطرها 457ميلي متر فيكون ارتفاع أعلى ...كان المفروض فيه ّ
أن األرض تقع في
مركز العالم والشمس (وغيرها) تدور حول األرض ... .حركة األرض حول الشمس باختالف مواضعها على مدارها
فسرعتها في نقطة األوج هي 29.3كم 5 ...ظهور األنوار القطبية فيما يرتفع إلى ألف كيلومتر من سطح األرض يد ّل على
ّ 26
أن...
0,29
P5
Arabic Question/Answering Systems
Our Passage Retrieval Approach : The semantic reasoning level
Example
TREC question: أين تقع أعلى نقطة على سطح األرض؟
(Where is the highest point on the surface of the earth?" )
The expected answer is: ... تقع أعلى نقطة على سطح األرض في
Passage
CG-EA : []نقطة-attr->[]أعلى,
-ala->[]األرض,
<-agnt-[]تقع-fi>[]مفهوم عام
Generalization (CG-EA, CG-P)
1
[]صفة
2
[]صفة
3
[]صفة
4
[]فعل
[0#
5
6
]نقطة-attr->[]أعلى,
-ala->[]األرض
[<]نقطة-agnt-[]حدث
27
Arabic Question/Answering Systems
Our Passage Retrieval Approach : The semantic reasoning level
Example
أين تقع أعلى نقطة على سطح األرض؟ TREC question:
) "?(Where is the highest point on the surface of the earth
Semantic Score Formula
)SemanticScore(P) = ∑(weight(ci)*β(ci,π(ci)))/ ∑(weight(ci
ci C
Semantic Score
ID
أعلى نقطة في اليابسة هي قمة جبل إفرست ألنها ترتفع 8846مترا عن سطح البحر وتقع في جبال الهماليا ،والواقع أن أطول جبل على سطح األرض هو موناكي في
هاواي ،إذ.. .
0,66
P6
باالضافة إلى أعلى وأخفض نقطتين في األرض ،حيث قمة افرست في جبال الهماليا ترتفع 8848متر عن سطح البحر وبذلك تكون أعلى نقطة في سطح األرض ،بينما
اخفض نقطة على سطح األرض تكون قرب البحر . ..ال تقع جزر المحيط الهادي في أوقيانوسيا ضمن أ ّ
ي قارات.. .
0,29
P1
إذا َمثلّنا األرض بصورة كرة صغيرة قطرها 457ميلي متر فيكون ارتفاع أعلى ...كان المفروض فيه ّ
أن األرض تقع في مركز العالم والشمس (وغيرها) تدور حول
األرض ... .حركة األرض حول الشمس باختالف مواضعها على مدارها فسرعتها في نقطة األوج هي 29.3كم 5 ...ظهور األنوار القطبية فيما يرتفع إلى ألف كيلومتر
من سطح األرض يد ّل على ّ
أن...
0,26
P5
0,20
P3
هواء المريخ ال يتمتع بنفس كثافة هواء األرض إذ يبلغ الضغط الجوي على سطح . ...فهي تقع مقابل الشمس بالضبط في سمائنا؛ إذ تظهر في الغروب ،وتصل إلى أعلى
نقطة لها.. .
0,19
P4
كل نقطة على األرض عدا القطبين تقع على تقاطع خط طول ومواز ،وهكذا يمكن أن ننسب إليها . ..المهم أن نتذكر أنه من أجل وصف نقطة على سطح األرض نحتاج
إلى عددين ،ولهذا.. .
0,04
P2
Passage
ولتمثيل ابعاد سطح األرض على الخريطة ،ترسم هذه األبعاد بنسب خاصة تتناسب مع . ..خفيف ثم يزداد اإلنحدار مع اإلرتفاع حتى يصبح اإلرتفاع حاد عند أعلى نقطة
... .
28
Conclusion & Future Work
The keyword-based and structure-based levels of our Arabic PR approach
have improved the Accuracy and the MRR in the context of Q/A systems
A semantic reasoning level on top of the first and second levels could impove
even more the reached performances
Covering all CLEF and TREC questions
Automating the semantic reasoning level module
Conducting corresponding experiments
Integrating more enriched releases of Arabic WordNet
29
Thank you for your attention
>> Questions
30