Transcript Document
The 3rd International Conference on Arabic Natural Language Processing Three-level approach for Passage Retrieval in Arabic Question/Answering Systems Lahsen Abouenour1, Karim Bouzoubaa1, Paolo Rosso2 1 Mohammadia School of Engineers, Mohamed Vth University-Agdal Rabat - Morocco 2 Natural Language Engineering Lab., Universidad Politécnica Valencia, Spain Mohammadia School of Engineers, Rabat, Morocco - May 2009 1 Arabic Question/Answering Systems Classical IR User Query (keywords) List of documents/links 2 1 ? User Checking 3 Answer to 4 User Query ??? 2 Arabic Question/Answering Systems Question/Answering User Query (question = keywords+structure) 1 ? List of documents/links 2 User Checking ??? Answer to 3 User Query 3 Arabic Question/Answering Systems Existing Arabic Q/A Systems - QARAB (based on Al-Raya corpus) - AQAS (extract answers from only structured texts) - ArabiQA (deal with factoid questions, embeds NER module ) - QASAL (semi-automatic Q/A system for factoid questions ) Three Modules Question Analysis Passage Retrieval Answer Extraction Question type Candidate passage Answer identification Keywords Passage ranking Answer construction Named Entities … … … 4 Arabic Question/Answering Systems Challenges of Arabic Q/A Systems - short vowels, - absence of capital letters, - complex morphology, -etc. 5 Arabic Question/Answering Systems Question/Answering User Query (question = keywords+structure) 1 Natural Language ( | أين توجد مدينة مراكش ؟Where is the city of Marrakech ?) ? -- Keywords : Where | is | the | city | of | Marrakech أين | توجد | مدينة | مراكش -- Structure : Where is the city of Marrakech ? ≠ Is Marrakech a city ? أين توجد مدينة مراكش ؟ ≠ هل مراكش مدينة ؟ 6 Arabic Question/Answering Systems Question/Answering Passage Retrieval 2 ( | أين توجد مدينة مراكش ؟Where is the city of Marrakech ?) Passage 1 Xxxxx ( مراكشMarrakech)xxxxxx xx xxx xxxx Xx xxx xxxxx xxx xxxx xxx xxxx No answer Xxxxx ( مدينةcity) xxxxx xx xxx ( توجدexist in) xxx Passage N ( المغربMorroco) xxx ( يوجد إقليم مراكشthe region of marrakech exists in) xxx Xx xxx xxxxx xxx xxxx xxx The answer xxxx Xxxxx xx xxxxx xx xxx xx xxx 7 Arabic Question/Answering Systems Question/Answering Passage Retrieval 2 ( | أين توجد مدينة مراكش ؟Where is the city of Marrakech ?) Passage 1 Xxxxx ( مراكشMarrakech) xxxxxx xx xxx xxxx Xx xxx xxxxx xxx xxxx xxx xxxx Xxxxx ( مدينةcity) xxxxx xx xxx ( توجدexist in) xxx (Is in | Marrakech | city) مدينة | مراكش | توجد Morphological relation Passage N hyponymy/semantic relation ( المغربMorroco) xxx ( يوجد إقليم مراكشthe region of marrakech exists in) xxx Xx xxx xxxxx xxx xxxx xxx xxxx إقليم | مراكش | يوجد (Is in | Marrakech | city) Xxxxx xx xxxxx xx xxx xx xxx 8 Arabic Question/Answering Systems Question/Answering Passage Retrieval 2 ( | أين توجد مدينة مراكش ؟Where is the city of Marrakech ?) Passage 1 Passage N Xxxxx مراكشxxxxxx xx xxx xxxx Xx xxx xxxxx xxx xxxx xxx xxxx Xxxxx مدينةxxxxx xx xxx توجدxxx Vs ??? المغربxxx يوجد إقليم مراكشxxx Xx xxx xxxxx xxx xxxx xxx xxxx Xxxxx xx xxxxx xx xxx xx xxx With respect to Morphological and Semantic Relation relevance(P1)=relevance(PN) What about the question structure ? 9 Arabic Question/Answering Systems Question/Answering Passage Retrieval ( | أين توجد مدينة مراكش ؟Where is the city of Marrakech ?) 2 Expected Answer: توجد مدينة مراكش فيQuestion: أين توجد مدينة مراكش ؟ (The city of Marrakech is in …) في مراكش مدينة Passage 1 structures توجد (Where is the city of Marrakech ?) مراكش مدينة توجد أين Passage N structures xxxxx مراكش xxxxxx xx xx xxx توجد xxx xxxxx مدينة xxxx xx xxxxx مراكش إقليم يوجد 10 Arabic Question/Answering Systems Our Passage Retrieval Approach : Presentation Levels Semantic Query Expansion (extending the list of keywords related to the user question) Keyword-based level (candidate passages with related keywords) Structure-based level (candidate passages with related structure) Semantic reasoning level (comparing CG representations) 11 Arabic Question/Answering Systems Our Passage Retrieval Approach : Presentation Resources & Tools Semantic Query Expansion (Arabic WordNet, Amine Plateform) Keyword-based PR (Yahoo API) Structure-based PR (The Java Information Retrieval System - JIRS) Semantic reasoning level (Amine Plateform) 12 Arabic Question/Answering Systems Our Passage Retrieval Approach : Presentation Semantic Query Expansion Ontology - AWN is a free Lexical resource - AWN contains Over than 20 000 arabic words grouped into synsets - AWN is connected with the SUMO (Suggested Upper Merged Ontology) - SUMO has about 2000 general concept - SUMO Many relations between concepts (hyponymy, hypernymy, ...) 13 Arabic Question/Answering Systems Our Passage Retrieval Approach : Presentation Semantic Query Expansion Amine Platform - Amine is a multi-layer platform dedicated to the development of Intelligent Systems and Multi-Agents Systems - Amine is an Open Source Platform - Amine is 100 % Java implementation - Amine provides a set of operations related to Ontologies 14 Arabic Question/Answering Systems Our Passage Retrieval Approach : Presentation Semantic Query Expansion Arabic WordNet Temporary DataBase (MySQL) Content Structure Link with SUMO Amine Platform API JAVA Program Amine AWN ontology 15 Arabic Question/Answering Systems Our Passage Retrieval Approach : Presentation Semantic Query Expansion 16 Arabic Question/Answering Systems Our Passage Retrieval Approach : Presentation Semantic Query Expansion Concept/Term Global Expansion Morphological Expansion AAWN Ontology Expansion 1 - By synonyms 2 – By supertypes 3 – By definition 4 – By subtypes 17 Arabic Question/Answering Systems Our Passage Retrieval Approach : Presentation Structure-based PR The Java Information Retrieval System (JIRS) - a language-independent PR system - adpated for many non-agglutinative European languages (English, French, Spanish, Italian, ...) - adapted for the Arabic language - re-ranking of the retrieved passages is based on a distance density n- gram model URL : http://sourceforge.net/projects/jirs/ 18 Arabic Question/Answering Systems Our Passage Retrieval Approach : Evaluation Process CLEF Questions 1 - Manual Process Google TREC Questions 2 - Automatic Process Semantic QE Google Yahoo Semantic QE JIRS JIRS Yahoo Keyword-based Semantic QE Structure-based The accuracy The Mean Reciprocal Rank (MRR) We consider only the first five returned passages 19 Arabic Question/Answering Systems Our Passage Retrieval Approach : Evaluation Process The Questions - a set of 82 of the CLEF and TREC questions - facoid questions seeking for NE - significant coverage : questions classified into different domains 20 Arabic Question/Answering Systems Our Passage Retrieval Approach : Evaluation Process Keyword-based evaluation Google (CLEF) Accuracy MRR Yahoo (CLEF) Yahoo (TREC) no QE QE no QE QE no QE QE 29,26% 32,92% 1,22% 7,32% 5,02 % 6,95 % 10,15 11,25 0,99 3,25 2,04 2,88 Accuracy and MRR have been improved after using semantic QE 21 Arabic Question/Answering Systems Our Passage Retrieval Approach : Evaluation Process Structure-based evaluation Yahoo (CLEF) Accuracy MRR Yahoo (TREC) no QE QE no QE QE 15,85% 19,51% 2,7 % 10,81 % 5,46 7,85 0,67 4,53 Accuracy and MRR have been improved after using semantic QE Compared to the keyword-based PR, the structure-based PR gives The best Accuracy and MRR 22 Arabic Question/Answering Systems Our Passage Retrieval Approach : Evaluation Process Summarize Semantic Query Expansion Keyword-based PR Structure-based PR Yes No Acc. 7,32% Acc. 1,22% MRR 3,25 MRR 0,99 Acc. 19,51% Acc. 15,85% MRR 7,85 MRR 5,46 23 Arabic Question/Answering Systems Our Passage Retrieval Approach : The semantic reasoning level Presentation Question Expected Answer CG-EA Semantic score (p1) Generalization CG1 P1 sub passage (CG-P1,CG-EA) CGi Pi sub passage Semantic score (pi) Generalization (CG-Pi,CG-EA) 24 Arabic Question/Answering Systems Our Passage Retrieval Approach : The semantic reasoning level Example أين تقع أعلى نقطة على سطح األرض؟ TREC question: ) "?(Where is the highest point on the surface of the earth >> Using Google Search Engine 25 Passage Rank ID باالضافة إلى أعلى وأخفض نقطتين في األرض ،حيث قمة افرست في جبال الهماليا ترتفع 8848متر عن سطح البحر وبذلك تكون أعلى نقطة في سطح األرض ،بينما اخفض نقطة على سطح األرض تكون قرب البحر . ..ال تقع جزر المحيط الهادي في أوقيانوسيا ضمن أيّ قارات 1 P1 كل نقطة على األرض عدا القطبين تقع على تقاطع خط طول ومواز ،وهكذا يمكن أن ننسب إليها ...المهم أن نتذكر أنه من أجل وصف نقطة على سطح األرض نحتاج إلى عددين ،ولهذا ...على المستوي المماس للكرة في "أسفل" نقطة منها انطالقا من "أعلى" نقطة فيها. ... 2 P2 ولتمثيل ابعاد سطح األرض على الخريطة ،ترسم هذه األبعاد بنسب خاصة تتناسب مع ...خفيف ثم يزداد اإلنحدار مع اإلرتفاع حتى يصبح اإلرتفاع حاد عند أعلى نقطة. ... 3 P3 هواء المريخ ال يتمتع بنفس كثافة هواء األرض إذ يبلغ الضغط الجوي على سطح ....فهي تقع مقابل الشمس بالضبط في سمائنا؛ إذ تظهر في الغروب ،وتصل إلى أعلى نقطة لها... 4 P4 إذا َمثلّنا األرض بصورة كرة صغيرة قطرها 457ميلي متر فيكون ارتفاع أعلى ...كان المفروض فيه ّ أن األرض تقع في مركز العالم والشمس (وغيرها) تدور حول األرض ... .حركة األرض حول الشمس باختالف مواضعها على مدارها فسرعتها في نقطة األوج هي 29.3كم 5 ...ظهور األنوار القطبية فيما يرتفع إلى ألف كيلومتر من سطح األرض يد ّل على ّ أن... 5 P5 أعلى نقطة في اليابسة هي قمة جبل إفرست ألنها ترتفع 8846مترا عن سطح البحر وتقع في جبال الهماليا ،والواقع أن أطول جبل على سطح األرض هو موناكي في هاواي ،إذ... 6 P6 Arabic Question/Answering Systems Our Passage Retrieval Approach : The semantic reasoning level Example أين تقع أعلى نقطة على سطح األرض؟ TREC question: ) "?(Where is the highest point on the surface of the earth )>> Passages Ranks after LEVEL 1 (Keyword-based) and LEVEL 2 (Structure-based Passage Structure Score ID باالضافة إلى أعلى وأخفض نقطتين في األرض ،حيث قمة افرست في جبال الهماليا ترتفع 8848متر عن سطح البحر وبذلك تكون أعلى نقطة في سطح األرض ،بينما اخفض نقطة على سطح األرض تكون قرب البحر . ..ال تقع جزر المحيط الهادي في أوقيانوسيا ضمن أيّ قارات.. . 0,67 P1 أعلى نقطة في اليابسة هي قمة جبل إفرست ألنها ترتفع 8846مترا عن سطح البحر وتقع في جبال الهماليا ،والواقع أن أطول جبل على سطح األرض هو موناكي في هاواي ،إذ.. . 0,63 P6 كل نقطة على األرض عدا القطبين تقع على تقاطع خط طول ومواز ،وهكذا يمكن أن ننسب إليها . ..المهم أن نتذكر أنه من أجل وصف نقطة على سطح األرض نحتاج إلى عددين ،ولهذا.. . 0,54 P2 هواء المريخ ال يتمتع بنفس كثافة هواء األرض إذ يبلغ الضغط الجوي على سطح . ...فهي تقع مقابل الشمس بالضبط في سمائنا؛ إذ تظهر في الغروب ،وتصل إلى أعلى نقطة لها.. . 0,49 P4 ولتمثيل ابعاد سطح األرض على الخريطة ،ترسم هذه األبعاد بنسب خاصة تتناسب مع . ..خفيف ثم يزداد اإلنحدار مع اإلرتفاع حتى يصبح اإلرتفاع حاد عند أعلى نقطة... . 0,39 P3 إذا َمثلّنا األرض بصورة كرة صغيرة قطرها 457ميلي متر فيكون ارتفاع أعلى ...كان المفروض فيه ّ أن األرض تقع في مركز العالم والشمس (وغيرها) تدور حول األرض ... .حركة األرض حول الشمس باختالف مواضعها على مدارها فسرعتها في نقطة األوج هي 29.3كم 5 ...ظهور األنوار القطبية فيما يرتفع إلى ألف كيلومتر من سطح األرض يد ّل على ّ 26 أن... 0,29 P5 Arabic Question/Answering Systems Our Passage Retrieval Approach : The semantic reasoning level Example TREC question: أين تقع أعلى نقطة على سطح األرض؟ (Where is the highest point on the surface of the earth?" ) The expected answer is: ... تقع أعلى نقطة على سطح األرض في Passage CG-EA : []نقطة-attr->[]أعلى, -ala->[]األرض, <-agnt-[]تقع-fi>[]مفهوم عام Generalization (CG-EA, CG-P) 1 []صفة 2 []صفة 3 []صفة 4 []فعل [0# 5 6 ]نقطة-attr->[]أعلى, -ala->[]األرض [<]نقطة-agnt-[]حدث 27 Arabic Question/Answering Systems Our Passage Retrieval Approach : The semantic reasoning level Example أين تقع أعلى نقطة على سطح األرض؟ TREC question: ) "?(Where is the highest point on the surface of the earth Semantic Score Formula )SemanticScore(P) = ∑(weight(ci)*β(ci,π(ci)))/ ∑(weight(ci ci C Semantic Score ID أعلى نقطة في اليابسة هي قمة جبل إفرست ألنها ترتفع 8846مترا عن سطح البحر وتقع في جبال الهماليا ،والواقع أن أطول جبل على سطح األرض هو موناكي في هاواي ،إذ.. . 0,66 P6 باالضافة إلى أعلى وأخفض نقطتين في األرض ،حيث قمة افرست في جبال الهماليا ترتفع 8848متر عن سطح البحر وبذلك تكون أعلى نقطة في سطح األرض ،بينما اخفض نقطة على سطح األرض تكون قرب البحر . ..ال تقع جزر المحيط الهادي في أوقيانوسيا ضمن أ ّ ي قارات.. . 0,29 P1 إذا َمثلّنا األرض بصورة كرة صغيرة قطرها 457ميلي متر فيكون ارتفاع أعلى ...كان المفروض فيه ّ أن األرض تقع في مركز العالم والشمس (وغيرها) تدور حول األرض ... .حركة األرض حول الشمس باختالف مواضعها على مدارها فسرعتها في نقطة األوج هي 29.3كم 5 ...ظهور األنوار القطبية فيما يرتفع إلى ألف كيلومتر من سطح األرض يد ّل على ّ أن... 0,26 P5 0,20 P3 هواء المريخ ال يتمتع بنفس كثافة هواء األرض إذ يبلغ الضغط الجوي على سطح . ...فهي تقع مقابل الشمس بالضبط في سمائنا؛ إذ تظهر في الغروب ،وتصل إلى أعلى نقطة لها.. . 0,19 P4 كل نقطة على األرض عدا القطبين تقع على تقاطع خط طول ومواز ،وهكذا يمكن أن ننسب إليها . ..المهم أن نتذكر أنه من أجل وصف نقطة على سطح األرض نحتاج إلى عددين ،ولهذا.. . 0,04 P2 Passage ولتمثيل ابعاد سطح األرض على الخريطة ،ترسم هذه األبعاد بنسب خاصة تتناسب مع . ..خفيف ثم يزداد اإلنحدار مع اإلرتفاع حتى يصبح اإلرتفاع حاد عند أعلى نقطة ... . 28 Conclusion & Future Work The keyword-based and structure-based levels of our Arabic PR approach have improved the Accuracy and the MRR in the context of Q/A systems A semantic reasoning level on top of the first and second levels could impove even more the reached performances Covering all CLEF and TREC questions Automating the semantic reasoning level module Conducting corresponding experiments Integrating more enriched releases of Arabic WordNet 29 Thank you for your attention >> Questions 30