School of Computing FACULTY OF ENGNEERING 27/4/2009-26 اجتماع خبراء المحلالت الحاسوبية الصرفية للغة العربية دمشق توظيف قواعد النحو والصرف في بناء محلل صرفي للغة.

Download Report

Transcript School of Computing FACULTY OF ENGNEERING 27/4/2009-26 اجتماع خبراء المحلالت الحاسوبية الصرفية للغة العربية دمشق توظيف قواعد النحو والصرف في بناء محلل صرفي للغة.

School of Computing
FACULTY OF ENGNEERING
-26 ‫اجتماع خبراء المحلالت الحاسوبية الصرفية للغة العربية دمشق‬
27/4/2009
‫توظيف قواعد النحو‬
‫والصرف في بناء محلل‬
‫صرفي للغة العربية‬
Majdi Sawalha & Eric Atwell
University of Leeds, UK
[email protected],
[email protected]
‫• المقدمة‬
‫• المحلل الصرفي للغة العربية‬
‫• دراسة تحليلية للجذور الثالثية لكلمات اللغة العربية‬
‫• مواصفات المحلل الصرفي العربي‬
‫• الخصائص اللغوية للكلمة العربية وتركيب العناوين الصرفية والنحوية‬
‫• النتائج والتقييم‬
‫• المعيار الذهبي (‪ )gold standard‬لتقييم نتائج المحلالت الصرفية والنحوية‬
‫• مجموعة معالجة اللغات الطبيعية في جامعة ليدز – المملكة المتحدة‬
‫المقدمة‬
‫• أربعة أساليب رئيسية قد تم تطبيقها لتطوير المحلالت الصرفية بشكل عام‬
‫• التحليل الصرفي المعتمد على مقطع الكلمة ()‪)Syllable-based Morphology (SBM‬‬
‫• التحليل الصرفي المعتمد على الجذر والوزن (‪)Root-Pattern Morphology‬‬
‫• التحليل الصرفي المعتمد على الجذع ( )‪)Lexeme-based Morphology (LBM‬‬
‫• استخدام قوائم الجذع وقواعد النحو والصرف وخصائص الكلمات‬
‫(جميع هذه األساليب األربعة تعتمد على قوائم معدَّة يدويا ً تحتوي على‬
‫معلومات‬
‫الجذر أو الجذع أو األوزان ) (‪)Soudi et al, 2007‬‬
‫• إضافة إلى‬
‫• اسلوب آخر للتحليل الصرفي يعتمد على خوارزميات الذكاء االصطناعي للذخائر‬
‫اللغوية المعنونة نحويا ً لبناء قاعدة بيانات للكلمات المحللة‬
‫أمثلة على المحلالت الصرفية‬
‫• المحلل الصرفي للغة العربية (‪)Buckwalter Morphological Analyzer‬‬
‫يعتمد على قوائم للكلمات ومعلوماتها الصرفية ت َّم إعدادها يدويا‪ ،‬تحتوي القوائم على قائمة الجذع‬
‫وقائمة السوابق واللواحق وجداول الصواب والخطأ لتحديد التوافيق الصحيحة التي تجمع السوابق‬
‫باللواحق للكلمات‬
‫• نظام شيرين خوجا الستخراج جذر الكلمة ( ‪) Khoja’s Stemmer‬‬
‫يعمل على إزالة أطول سابقة والحقة للكلمة‪ ،‬ثم يقوم بمقارنة ما تبقى من الكلمة بقائمة من أوزان‬
‫األسماء واألفعال الستخراج جذر الكلمة‪ .‬ويحتوي على قوائم عالمات التشكيل‪ ،‬وعالمات الترقيم‪،‬‬
‫والجذور الثالثية والرباعية‪ ،‬وأدوات التعريف‪ ،‬وقائمة تحتوي على ‪ 168‬كلمة وقف ( ‪Stop‬‬
‫‪.)Words‬‬
‫• نظام استخراج الجذور الثالثية (‪)Al-Shalabi et al, 2003‬‬
‫ال يعتمد هذا النظام على أي قوائم لغوية معدَّة يدوياً‪ ،‬بل يعتمد على حسابات رياضية بتعيين‬
‫أوزان رقمية ألحرف‬
‫الكلمة وضرب هذه األوزان بمواقع حروفها‪.‬‬
‫المحلل الصرفي للغة العربية‬
‫• الهدف ‪ :‬بناء ذخيرة لغوية معنونة (‪)Tagged Corpus‬‬
‫• بدأ تطوير المحلل الصرفي بدراسة المحلالت الصرفية المطورة سابقا ً والمنشورة‬
‫عبر الشبكة العالمية‬
‫‪ -1‬المحلل الصرفي للغة العربية (‪)Tim Buckwalter Morphological Analyzer‬‬
‫‪ -2‬نظام شيرين خوجا (‪)Khoja’s Stemmer‬‬
‫‪ -3‬نظام استخراج الجذور الثالثية للكلمات (‪)Al-Shalabi et al, 2003‬‬
‫• تم تطوير المعيار الذهبي (‪ )Gold Standard‬لمقارنة نتائج التحليل لألنظمة‬
‫المختلفة‪.‬‬
‫• ألف كلمة من نصوص القرآن الكريم (سورة العنكبوت)‪ ،‬و ألف كلمة أخرى من نصوص المجالت‬
‫والصحف من الذخيرة اللغوية العربية (‪)The Corpus of Contemporary Arabic‬‬
‫مختصين باللغة العربية ‪.‬‬
‫• قمنا باستخراج جذور الكلمات لهذه النصوص المختارة وتدقيقها من قبل‬
‫ِّ‬
‫• لم تحقق النتائج المرجوه العتمادها في تطبيقات التحليل النحوي (‪Part-of-‬‬
‫دراسة تحليلية للجذور الثالثية لكلمات اللغة‬
‫العربية‬
‫الهدف ‪ :‬فهم طبيعة جذور اللغة العربية‪ ،‬وعالقتها بمشتقاتها من الكلمات ‪.‬‬
‫ص ِّنفت الجذور الثالثية لكلمات اللغة العربية الى اثنتان وعشرين مجموعة‪.‬‬
‫•‬
‫ُ‬
‫• تحليل كلمات وجذور كلمات القرآن الكريم (‪ 45,534‬كلمة ثالثية الجذر ) ( ‪ 1610‬جذر ثالثي)‬
‫‪Intact‬‬
‫‪Intact‬‬
‫‪Compound‬‬
‫‪, 45, 2.80%‬‬
‫‪Defective‬‬
‫‪Compound‬‬
‫‪Defective,‬‬
‫‪468,‬‬
‫‪29.07%‬‬
‫‪Compound,‬‬
‫‪6.82%‬‬
‫‪Defective‬‬
‫‪Compoun‬‬
‫‪d‬‬
‫‪Defective,‬‬
‫‪32.12%‬‬
‫‪Intact,‬‬
‫‪61.06%‬‬
‫‪Intact,‬‬
‫‪1097,‬‬
‫‪68.14%‬‬
‫الجذور الثالثية للقرآن‬
‫الكريم‬
‫• تحليل الكلمات المختلفة (‪ )Word Types‬والمخزنة في القاموس (‪ 15‬معجما ً عربياً‪ 376,167 ،‬كلمة‬
‫كلمات للقرآن الكريم‬
‫مختلفة ثالثية الجذر )‬
‫‪Intact‬‬
‫‪Defective‬‬
‫‪Compound‬‬
‫‪Intact,‬‬
‫‪5368,‬‬
‫‪63.14%‬‬
‫الجذور الثالثية من‬
‫‪Compound‬‬
‫‪, 309,‬‬
‫‪3.63%‬‬
‫‪Defective,‬‬
‫‪2825,‬‬
‫‪33.23%‬‬
‫‪Intact‬‬
‫‪Compound,‬‬
‫‪2.33%‬‬
‫‪Defective,‬‬
‫‪29.42%‬‬
‫‪Defective‬‬
‫‪Compoun‬‬
‫‪d‬‬
‫‪Intact,‬‬
‫‪68.25%‬‬
‫كلمات القاموس‬
‫مواصفات المحلل الصرفي العربي‬
‫ ال ُمدخل‬‫• يقبل المحلل الصرفي النصوص أو الكلمات المفردة (مشكولة كليا ً أو جزئيا ً أو غير‬
‫مشكولة)‪.‬‬
‫• تقطع كلمات النص المدخل إلى‪ :‬كلمة عربية أو رقم أو عُملة أو عالمة ترقيم‪.‬‬
‫• معالجة الكلمات العربية ‪:‬‬
‫• استبدال الحرف المضعَّف والشَّدة الظاهرة عليه بحرفين األول ساكن والثاني متحرك بنفس حركة‬
‫الحرف األصلي‪.‬‬
‫صى‬
‫مثال‪َ :‬و َّ‬
‫صى‬
‫َو ْ‬
‫ص َ‬
‫• استبدال المد (آ) بحرفي الهمزة واأللف‪.‬‬
‫مثال‪ :‬آ َمنُوا‬
‫ءا َمنُوا‬
‫• يمكن أن تظهر حركة واحدة (حرف علَّة قصير) على أي حرف من حروف الكلمة‪.‬‬
‫كلمات الوقف ( ‪Stop‬‬
‫‪)Words‬‬
‫• يحتوي النظام على قائمة بكلمات الوقف (‪ )Stop Words‬مكونة من ‪ 1,368‬كلمة ‪.‬‬
‫• تحمل تحليالً صرفيا ً واحدا ً أينما وجدت في سياق النَّص‬
‫• وتبلغ نسبتها في أي نص من نصوص اللغة العربية حوالي ‪ %40‬من إجمالي عدد الكلمات‪.‬‬
‫صرفي عن الكلمة المراد تحليلها في هذه قائمة كلمات الوقف‪ ،‬فإذا وجدت هذه الكلمة‬
‫• يبحث المحلل ال َّ‬
‫ضمن كلمات الوقف تُعطى التحليل الصرفي المخزن في القائمة‪.‬‬
‫أنا‬
‫فأنا‬
‫نحن‬
‫فنحن‬
‫هي‬
‫فهي‬
‫هؤالء‬
‫فهؤالء‬
‫بهؤالء‬
‫لهؤالء‬
‫فبهؤالء‬
‫فلهؤالء‬
‫الذي‬
‫فالذي‬
‫كالذي‬
‫بالذي‬
‫للذي‬
‫فكالذي‬
‫على‬
‫فعلى‬
‫علينا‬
‫فعلينا‬
‫عليها‬
‫فعليها‬
‫عند‬
‫عندي‬
‫عندنا‬
‫عنده‬
‫عندها‬
‫عندهما‬
‫الزوائد والسوابق واللواحق‬
‫• اعتمادا ً على كتب قواعد اللغة العربية فقد ت َّم حصر‬
‫• الزوائد في بداية الكلمة (‪( )Proclitics‬كحروف العطف والجر والنداء وأدوات التعريف)‬
‫• السوابق (‪ )Prefixes‬كأحرف المضارعة وحرف األمر‬
‫• اللواحق (‪ )Suffixes‬كأحرف المثنى والجمع المذكر والمؤنث السالمين‪.‬‬
‫• الزوائد في نهاية الكلمة (‪ )Enclitics‬كالضمائر المتَّصلة‬
‫•ت َّم توليد جميع الزوائد الممكنة وكان عددها كبيراً‪ ،‬والتحقق من صحتها من خالل‬
‫فحصها عن طريق تحليل كلمات الذخائر اللغوية‪.‬‬
‫• القرآن الكريم‬
‫• الذخيرة اللغوية العربية ()‪)Corpus of Contemporary Arabic (CCA‬‬
‫• الذخيرة اللغوية العربية المطورة بجامعة بنسلفانيا (‪)Penn Arabic Treebank‬‬
‫• نصوص خمسة عشر معجما ً عربيا ً التي تم استخدامها في بناء القاموس‬
‫الزوائد والسوابق واللواحق‬
‫• بلغ عدد السوابق ‪ 215‬سابقة‪.‬‬
‫السابقة‬
‫ف‬
‫فبال‬
‫فست‬
‫وال‬
‫ولت‬
‫سن‬
‫وبم‬
‫مثال‬
‫فقام‬
‫فبالصدق‬
‫فستذكرون‬
‫والسماء‬
‫ولتجدنهم‬
‫سنجزي‬
‫وبمراجعة‬
‫ج‪1‬‬
‫ف‬
‫ف‬
‫ف‬
‫و‬
‫و‬
‫س‬
‫و‬
‫العنوان الصرفي‬
‫‪p--t--------------‬‬‫‪p--t--------------‬‬‫‪p--t--------------‬‬‫‪p--t--------------‬‬‫‪p--t--------------‬‬‫‪p--i--------------‬‬‫‪p--t---------------‬‬
‫ج‪2‬‬
‫العنوان الصرفي‬
‫ج‪3‬‬
‫العنوان الصرفي‬
‫ب‬
‫س‬
‫ال‬
‫ل‬
‫ن‬
‫ب‬
‫‪p--r-----g--------‬‬‫‪p--i--------------‬‬‫‪r---d-----d-------‬‬‫‪p--y--------------‬‬‫‪r---s-npf---------‬‬‫‪p--r-----g---------‬‬
‫ال‬
‫ت‬
‫‪r---d-----d-------‬‬‫‪r---s-nus----------‬‬
‫ت‬
‫‪r---s-nus----------‬‬
‫م‬
‫‪r---f--------------‬‬
‫• بلغ عدد اللواحق ‪ 127‬الحقة‪.‬‬
‫الالحقة‬
‫اتية‬
‫تموهما‬
‫هما‬
‫يون‬
‫هم‬
‫ها‬
‫هن‬
‫مثال‬
‫ج‪1‬‬
‫ات‬
‫تم‬
‫هما‬
‫ي‬
‫هم‬
‫ها‬
‫هن‬
‫العنوان الصرفي‬
‫‪r---l-fp-??----?--‬‬‫‪r---&-mps??----h--‬‬‫‪r---&-ndt??----h--‬‬‫‪r---j-------------‬‬‫‪r---&-mpt??----h--‬‬‫‪r---&-fst??----h--‬‬‫‪r---&-fpt??----h---‬‬
‫ج‪2‬‬
‫ي‬
‫و‬
‫ج‪3‬‬
‫العنوان الصرفي‬
‫ة‬
‫‪r---j-------------‬‬‫‪ r---l-mp-n?----?---‬هما‬
‫ون‬
‫‪r---l-mp-n?----?---‬‬
‫العنوان الصرفي‬
‫‪r---b-fs-??-------‬‬‫‪r---&-ndt??----h---‬‬
‫الزوائد والسوابق واللواحق‬
‫•يقوم النظام بتقسيم الكلمة إلى ثالثة‬
‫أجزاء بأطوال مختلفة‪،‬‬
‫•يبحث عن الجزء األول في قائمة السوابق‬
‫•يبحث عن الجزء الثالث بقائمة اللواحق‪.‬‬
‫•يتم اختيار تحليالت الكلمة التي تمت‬
‫مطابقة‪ .‬السابقة والالحقة لجزئيها معا ً‪.‬‬
‫•يتم تعيين التحليل الصرفي المرفق في‬
‫القوائم لهذه األجزاء‪.‬‬
‫الكلمة الجزء‬
‫الجزء‬
‫يَ ْع َملُ َ‬
‫ون‬
‫يَ ْع َملُ َ‬
‫ون‬
‫َي ْع َملُ َ‬
‫ون‬
‫يَ ْع َملُ َ‬
‫ون‬
‫يَ ْع َملُ َ‬
‫ون‬
‫يَ ْع َملُ َ‬
‫ون‬
‫يَ ْع َملُ َ‬
‫ون‬
‫َي ْع َملُ َ‬
‫ون‬
‫يَ ْع َملُ َ‬
‫ون‬
‫يَ ْع َملُ َ‬
‫ون‬
‫يَ ْع َملُ َ‬
‫ون‬
‫يَ ْع َملُ َ‬
‫ون‬
‫َي ْع َملُ َ‬
‫ون‬
‫يَ ْع َملُ َ‬
‫ون‬
‫يَ ْع َملُ َ‬
‫ون‬
‫يَ ْع َملُ َ‬
‫ون‬
‫يَ ْع َملُ َ‬
‫ون‬
‫َي ْع َملُ َ‬
‫ون‬
‫يَ ْع َملُ َ‬
‫ون‬
‫يعملون‬
‫يعملو‬
‫يعمل‬
‫يعم‬
‫يع‬
‫ي‬
‫عملون‬
‫عملو‬
‫عمل‬
‫عم‬
‫ع‬
‫ملون‬
‫ملو‬
‫مل‬
‫م‬
‫لون‬
‫لو‬
‫ل‬
‫ون‬
‫ي‬
‫ي‬
‫ي‬
‫ي‬
‫ي‬
‫يع‬
‫يع‬
‫يع‬
‫يع‬
‫يعم‬
‫يعم‬
‫يعم‬
‫يعمل‬
‫تحليل السوابق‬
‫واللواحق‬
‫الجزء الثالث‬
‫ن‬
‫ون‬
‫لون‬
‫ملون‬
‫عملون‬
‫ن‬
‫ون‬
‫لون‬
‫ملون‬
‫ن‬
‫ون‬
‫لون‬
‫ن‬
‫ون‬
‫تحليل مقبول‬
‫تحليل غير مقبول‬
‫تحليل مقبول‬
‫تحليل غير مقبول‬
‫تحليل غير مقبول‬
‫تحليل غير مقبول‬
‫تحليل مقبول‬
‫تحليل غير مقبول‬
‫تحليل مقبول‬
‫تحليل غير مقبول‬
‫تحليل غير مقبول‬
‫تحليل غير مقبول‬
‫تحليل غير مقبول‬
‫تحليل غير مقبول‬
‫تحليل غير مقبول‬
‫تحليل غير مقبول‬
‫تحليل غير مقبول‬
‫تحليل غير مقبول‬
‫تحليل غير مقبول‬
‫الجذر أو الجذع‬
‫• يستخدم النظام قائمة لجذور اللغة العربية احتوت على أكثر من ‪ 12,000‬جذراً‪ ،‬تم‬
‫استخراجها من تحليل خمسة عشر معجما ً عربيا ً‪.‬‬
‫• يبحث النظام عن الجزء الثاني في قائمة الجذور‪.‬‬
‫• يتم اختيار التحليل الذي يطابق السوابق واللواحق والجذر معا ً‪.‬‬
‫الكلمة الجزء األول الجزء الثاني الجزء الثالث‬
‫َي ْع َملُ َ‬
‫يعملون‬
‫ون‬
‫َي ْع َملُ َ‬
‫ون‬
‫يَ ْع َملُ َ‬
‫ون‬
‫يَ ْع َملُ َ‬
‫ون‬
‫ي‬
‫ي‬
‫يعمل‬
‫ون‬
‫عملون‬
‫عمل‬
‫ون‬
‫تحليل الزوائد‬
‫تحليل الزوائد واللواحق‬
‫تحليل مقبول‬
‫تحليل مقبول‬
‫تحليل غير مقبول‬
‫تحليل غير مقبول‬
‫تحليل مقبول‬
‫تحليل مقبول‬
‫تحليل غير مقبول‬
‫تحليل مقبول‬
‫وزن الكلمة‬
‫• تت ُّم عملية اشتقاق الكلمات المختلفة من الجذر من خالل اتباع أوزان محددة‪ ،‬تحمل‬
‫هذه األوزان خواصا ً لغوية هي نفسها للكلمة المشتقة‪.‬‬
‫• ُز ِّود المحلل الصرفي بقائمة من األوزان تم استخراجها من كتب قواعد اللغة العربية‬
‫والنحو والصرف‪.‬‬
‫• تحتوي قائمة أوزان األفعال على ‪ 2730‬وزنا ً‬
‫• تحتوي قائمة أوزان األسماء على ‪ 390‬وزنا ً‬
‫تم تعيين التحليل الصرفي لكل وزن ‪.‬‬
‫?‪v-p---nsf---an?-st‬‬
‫فَعَ•لت‬
‫أفعال َوى‬
‫‪nw----??-??----?qt-‬‬
‫فَعَلنَا‬
‫?‪v-p---npf---an?-st‬‬
‫افعيالل‬
‫‪nw----??-??----?qt-‬‬
‫فَعَلتَ‬
‫?‪v-p---mss---an?-st‬‬
‫فاعوالء‬
‫‪nw----??-??----?qt-‬‬
‫فَعَلت‬
‫?‪v-p---fss---an?-st‬‬
‫فعلعالن‬
‫‪nw----??-??----?qt-‬‬
‫فَعَلت َما‬
‫?‪v-p---nds---an?-st‬‬
‫فعَّيالء‬
‫‪nw----??-??----?qt-‬‬
‫وزن الكلمة‪ :‬الطريقة األولى (الكلمة‬
‫وجذرها)‬
‫• تعتمد هذه الطريقة على الكلمة نفسها وجذرها كمدخل للبرنامج‪.‬‬
‫•يتم استبدال حروف الجذر في الكلمة بالحروف (ف‪ ،‬ع‪ ،‬ل‪ ] ،‬ل [)‪.‬‬
‫• التتم هذه العملية بهذه السهولة !!!؟‬
‫• بعض حروف الجذر قد يطرأ عليها تغيير كاإلدغام واإلقالب واإلعالل واإلبدال‪.‬‬
‫•يجب على البرنامج أن يستخرج الوزن الصحيح لهذه الكلمات ومعالجة‬
‫هذه الحاالت‪.‬‬
‫•يتم البحث عن الوزن المستخرج في قوائم األوزان‪ ،‬فإن وجد تعطى الكلمة التحليل‬
‫الصرفي المعيين لهذا الوزن‬
‫وزن الكلمة‪ :‬الطريقة األولى (الكلمة‬
‫وجذرها)‬
‫وزن الكلمة ‪ :‬الطريقة الثانية‬
‫• تعتمد هذه الطريقة الثانية بشكل أساسي على قوائم األوزان ‪.‬‬
‫• استرشدت هذه الطريقة بخوارزمية مطابقة األوزان ( ‪Pattern Matching‬‬
‫)‪. )Alqrainy, 2008( )Algorithm (PMA‬‬
‫• تعمل هذه الخوارزمية على مطابقة الكلمة مع وزنها للكلمات المشكولة جزئيا ً بالحركة الظاهرة على‬
‫آخر الكلمة فقط وبدون إجراء أي تحليل للسوابق واللواحق‪.‬‬
‫• يقوم النظام بالبحث عن جميع األوزان المساوية في الطول للكلمة المحللة بعد أن تم‬
‫إزالة الزوائد من بدايتها ونهايتها‪.‬‬
‫• مثاًل‪ :‬كلمة (كتب) تطابق االوزان (فَ ْعل‪ ،‬فَعَل‪ ،‬فَعُل‪ ،‬فَ ِّعل‪ ،‬فُ ْعل‪ ،‬فُعَل‪ ،‬فُعُل‪ ،‬فُ ِّعل‪ ،‬فِّ ْعل) ‪.‬‬
‫• الخطوة الثانية‪ :‬يتم استبدال حروف الكلمة المقابلة للحروف (ف‪ ،‬ع‪ ،‬ل‪ ] ،‬ل [) في‬
‫الوزن‪.‬‬
‫• وبعد ذلك يتم البحث عن هذه األوزان الناتجة عن دمج الكلمة والوزن معا ً في قائمة‬
‫األوزان‪.‬‬
‫• فإن وجدت يكون هذا وزنا ً محتمالً للكلمة ويمثل التحليل الصرفي المرفق مع الوزن‬
‫وزن الكلمة ‪ :‬الطريقة الثانية‬
‫المثال األول‬
‫صرفي‬
‫العنوان ال َّ‬
‫الكلمة‬
‫الوزن‬
‫َي ْع َملُو َن‬
‫َي ْفعُلُو َن‬
‫?‪v-c---mpt--ian?-st‬‬
‫يَ ْع َملُو َن‬
‫يَ ْف ِّعلُو َن‬
‫?‪v-c---mpt--ian?-st‬‬
‫َي ْع َملُو َن‬
‫َي ْف َعلُو َن‬
‫?‪v-c---mpt--ian?-st‬‬
‫يَ ْع َملُو َن‬
‫يَ ْفعَلُو َن‬
‫?‪v-c---mpt--ian?-st‬‬
‫يَ ْع َملُو َن‬
‫يَ ْفعُلُو َن‬
‫?‪v-c---mpt--ian?-st‬‬
‫يَ ْع َملُو َن‬
‫يَ ْف ِّعلُو َن‬
‫?‪v-c---mpt--ian?-st‬‬
‫يَ ْع َملُو َن‬
‫يُ ْف ِّعلُو َن‬
‫?‪v-c---mpt--ian?-at‬‬
‫يَ ْع َملُو َن‬
‫يُ ْف َعلُو َن‬
‫?‪v-c---mpt--ipn?-tt‬‬
‫يَ ْع َملُو َن‬
‫يُ ْفعَلُو َن‬
‫?‪v-c---mpt--ipn?-at‬‬
‫وزن الكلمة ‪ :‬الطريقة الثانية‬
‫المثال الثاني‬
‫كتب‬
‫كتب‬
‫كتب‬
‫كتب‬
‫كتب‬
‫كتب‬
‫كتب‬
‫كتب‬
‫كتب‬
‫كتب‬
‫كتب‬
‫كتب‬
‫كتب‬
‫كتب‬
‫كتب‬
‫كتب‬
‫فَ َع َل‬
‫فَ ِّع َل‬
‫فَعُ َل‬
‫فَ ِّع َل‬
‫فُ ِّع َل‬
‫فَ ْعل‬
‫فَعَل‬
‫فَعُل‬
‫فَ ِّعل‬
‫فُ ْعل‬
‫فُعَل‬
‫فُعُل‬
‫فُ ِّعل‬
‫فِّ ْعل‬
‫فِّ ِّعل‬
‫فَ ِّعل‬
‫?‪v-p---mst---an?-st‬‬
‫‪v-p---mst---an?-st‬‬‫‪v-p---mst---an?-st‬‬‫‪v-p---mst---an?-st‬‬‫‪v-p---mst---pn?-tt‬‬‫‪nw----??-??----?st‬‬‫‪nw----??-??----?st‬‬‫‪nw----??-??----?st‬‬‫‪nw----??-??----?st‬‬‫‪nw----??-??----?st‬‬‫‪nw----??-??----?st‬‬‫‪nw----??-??----?st‬‬‫‪nw----??-??----?st‬‬‫‪nw----??-??----?st‬‬‫‪nw----??-??----?st‬‬‫‪ny----??-??----?st-‬‬
‫التَّشكيل‬
‫• يعتبر التَّشكيل من الخصائص المهمة حيث يفيد في تحديد بعض الخصائص اللغوية للكلمة العربية؛‬
‫• وجود التَّشكيل في آخر الكلمة (الفتحة أو الضمة أو الكسرة أو السكون) يفيد في تحديد الحالة اإلعرابية للكلمة‪.‬‬
‫• وجود الحركة في بداية الكلمة (الضمة أو الفتحة أو الكسرة) يفيد في تحديد بناء الفعل للمعلوم أو المجهول‪.‬‬
‫• وجود الحركات األخرى كالشَّدة على الكلمة يح ُّل بعض اللُّبس في تحليل الكلمات‪.‬‬
‫•يقوم النظام بإضافة الحركات التي ظهرت على الوزن المشكول المطابق الى الكلمة‬
‫الكلمة‬
‫المحللة‬
‫كتب‬
‫األوزان فَ ْعل‬
‫فَعَل‬
‫فِّ ِّعل‬
‫فِّ ْعل‬
‫فُ ِّعل‬
‫فُعُل‬
‫فُعَل‬
‫فُ ْعل‬
‫فَ ِّعل‬
‫فَعُل‬
‫فَعَل‬
‫التَّشكيل َكتْب‬
‫َكتَب‬
‫ِّكتِّب‬
‫ِّكتْب‬
‫ُكتِّب‬
‫ُكتُب‬
‫ُكتَب‬
‫ُكتْب‬
‫َكتِّب‬
‫َكتُب‬
‫َكتَب‬
‫وتركيب العناوين الصرفية‬
‫والنحوية‬
‫صممت مجموعة العناوين الصرفية والنحوية ( ‪Morphological features‬‬
‫• ُ‬
‫سمها‬
‫‪ )part-of-speech tag set‬اعتمادا ً على الخصائص اللغوية للكلمة كما ق َّ‬
‫علماء اللغة العربية وقواعدها‪.‬‬
‫• الهدف‪:‬‬
‫• إلستخدامها في بناء المحلل النحوي للغة العربية‪.‬‬
‫• لعنونة الذخائر اللغوية بشكل تفصيلي يعكس الخصائص اللغوية والصرفية لكلماتها‬
‫• لتمكيننا من دراسة وتحليل وتقييم نتائج المحلالت الصرفية والنحوية للغة العربية بشكل مباشر‪.‬‬
‫•صممت مجموعة العناويين ( ‪ )Tag set‬بتجميع تسعة عشر خاصية لغوية للكلمة في‬
‫عنوان واحد‪.‬‬
‫الخصائص اللغوية للكلمة العربية‬
‫وتركيب العناوين الصرفية‬
‫والنحوية‬
‫الموقع‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪5‬‬
‫‪6‬‬
‫‪7‬‬
‫‪8‬‬
‫‪9‬‬
‫‪10‬‬
‫‪11‬‬
‫‪12‬‬
‫‪13‬‬
‫‪14‬‬
‫‪15‬‬
‫‪16‬‬
‫‪17‬‬
‫‪18‬‬
‫‪19‬‬
‫الخصائص اللغوية‬
‫أَقسام الكالم الرئيسيَّة‬
‫أقسام الكالم الفرعيَّة (االسم)‬
‫أقسام الكالم الفرعيَّة (الفعل)‬
‫أقسام الكالم الفرعيَّة (الحرف)‬
‫أقسام الكالم الفرعيَّة (أخرى)‬
‫أقسام الكالم الفرعيَّة (عالمات‬
‫الجنس‬
‫العدد‬
‫الشخص‬
‫الحالة اإلعرابية لالسم‬
‫التَّعريف والتَّنكير‬
‫الحالة اإلعرابية للفعل‬
‫المعلوم والمجهول‬
‫التَّوكيد‬
‫التَّعدية‬
‫العاقل وغير العاقل‬
‫المجرد والمزيد‬
‫َّ‬
‫عدد الحروف األصلية‬
‫تركيب أحرف الفعل‬
‫‪Main Part-of-Speech‬‬
‫)‪Subcategory (Noun‬‬
‫)‪Subcategory (Verb‬‬
‫)‪Subcategory (Particle‬‬
‫)‪Subcategory (Residual‬‬
‫)‪Subcategory (Punctuation‬‬
‫‪Gender‬‬
‫‪Number‬‬
‫‪Person‬‬
‫‪Case‬‬
‫‪Definiteness‬‬
‫‪Mood‬‬
‫‪Active / Passive‬‬
‫‪Emphasized‬‬
‫‪Transitivity‬‬
‫‪Humanness‬‬
‫‪Stripped or augmented‬‬
‫‪Root letters‬‬
‫‪Internal Structure‬‬
‫الخصائص اللغوية للكلمة العربية‬
‫وتركيب العناوين الصرفية‬
‫والنحوية‬
‫• يتكون العنوان الصرفي والنحوي من تسعة عشر رمزا ً‬
‫• كل رمز يمثل قيمة أو متغير ينتمي إلى إحدى الخصائص الصرفية أو النحوية‪.‬‬
‫• يع ُّد موقع الرمز في العنوان مهما ً في تحديد هذه الخاصية اللغوية‪.‬‬
‫• تمثل هذه القيم أو المتغيرات برمز واحد من حروف اللغة اإلنجليزية الصغيرة‪.‬‬
‫• فمثال الرمز (‪ )v‬في الموقع األول من العنوان يرمز إلى الفعل‪.‬‬
‫• الرمز (‪ )n‬في الموقع الثاني يرمز إلى اسم العلم‪.‬‬
‫• يمثل الجنس في الموقع السابع من العنوان حيث يرمز الحرف (‪ )m‬الى المذكر والحرف (‪ )f‬الى‬
‫المؤنث‪.‬‬
‫• إذا كانت الخاصية اللغوية غير متوافقة مع الكلمة فالرمز (‪( )-‬الشرطة) يمثلها‪.‬‬
‫•يستخدم الرمز (؟) (عالمة السؤال) لترمز إلى أن الخاصية اللغوية تنطبق على الكلمة‬
‫ولكن غير محددة‬
‫وتركيب العناوين الصرفية‬
‫والنحوية‬
‫المثال‪ :‬جملة من الذخيرة اللغوية العربية ( ‪) Penn Arabic Treebank‬‬
‫‪ v-p---mst---ano-stb‬فعل فعل ماضي مذكر مفرد الغَا ِّئب َم ْب ِّني لل َم ْعلُوم َ‬
‫غيْر ُمؤكَّد ُمتَعدِّي‬
‫تم‬
‫ثالثي مضعف‬
‫اعداد‬
‫‪ no----ms-ni-----bt‬اسم مصدر مذكر مفرد مرفوع نَ ِّك َرة َمزيْد ِّب َحرفَيْن ثالثي‬‫الوثائق ‪ nw----fb-ad----ntt-‬اسم اسم معرب مؤنث جمع تكسير منصوب َم ْع ِّرفَة َ‬
‫غي ِّْر عَاقِّل َمزيْد‬
‫المتوفرة‬
‫‪ ns----fs-gd-----tt‬اسم صفه مشبهة مؤنث مفرد مجرور َم ْع ِّرفَة َمزيْد ِّبث َالث َ ِّة ُح ُروف‬‫ب‬
‫‪ p--r-----g--------‬حرف حرف جر مجرور‬‫كثرة‬
‫‪ ns----fb-gi-----at‬اسم صفه مشبهة مؤنث جمع تكسير مجرور نَ ِّك َرة َمزيْد ِّب َحرف ثالثي‬‫حول‬
‫‪ nh----nu-ai-----st‬اسم ظرف مؤنث‪/‬مذكر غير محدد منصوب نَ ِّك َرة ُم َج َّرد ثالثي‬‫أول‬
‫‪ nm----nu-gi-----st‬اسم اسم عدد مؤنث‪/‬مذكر غير محدد مجرور نَ ِّك َرة ُم َج َّرد ثالثي‬‫رحلة‬
‫‪ nw----fs-gi-----at‬اسم اسم معرب مؤنث مفرد مجرور نَ ِّك َرة َمزيْد بِّ َحرف ثالثي‬‫طيران‬
‫‪ no----nu-gi-----bt‬اسم مصدر مؤنث‪/‬مذكر غير محدد مجرور نَ ِّك َرة َمزيْد ِّب َحرفَيْن ثالثي‬‫عثمانية‬
‫‪ nr----fu-gi----htq‬اسم اسم منسوب مؤنث غير محدد مجرور نَ ِّك َرة عاقِّل َمز ْيد بِّثَالث َ ِّة‬‫فوق‬
‫‪ nh----nu-ai-----st‬اسم ظرف مؤنث‪/‬مذكر غير محدد منصوب نَ ِّك َرة ُم َج َّرد ثالثي‬‫‪ nw----fb-gd----nat‬اسم اسم معرب مؤنث جمع تكسير مجرور َم ْع ِّرفَة َ‬‫البالد‬
‫عاقِّل َمزيْد‬
‫غي ِّْر َ‬
‫العربية‬
‫‪ nr----fu-gd----hbt-‬اسم اسم منسوب مؤنث غير محدد مجرور َم ْع ِّرفَة عاقِّل َمزيْد‬
‫النتائج والتقييم‬
‫• المعيار الذهبي (‪ )gold standard‬لتقييم نتائج المحلالت الصرفية‬
‫والنحوية‬
‫• تستخدم المعايير الذهبية لتقييم وقياس دقة األنظمة المحوسبة‪.‬‬
‫•يمكن استخدامها للمقارنة بين عدَّة أنظمة أو خوارزميات طورت لحل مشكلة معيَّنة‪.‬‬
‫• تظهر الحاالت التي تنجح أو تفشل األنظمة ال ُمقيَّمة بتحديد التحليل المناسب‬
‫للمدخالت‪.‬‬
‫• إليجاد أوجه الشبه أو اإلختالف في نتائج التحليل مبينة الحاالت التي تتفق عليها‬
‫والتي تختلف فيها األنظمة المحوسبة‪.‬‬
‫• لبناء معيار ذهبي لتقييم األنظمة المحوسبة‪ ،‬يجب تحديد‪:‬‬
‫• موضوع المشكلة التي تقوم هذه األنظمة على حلها‬
‫• تحديد الذخيرة اللغوية التي ستستخدم لبناء المعيار الذهبي‬
‫• تحديد تنسيقة أو ترتيبه وحجمه‪،‬‬
‫‪ )standard‬لتقييم نتائج‬
‫المحلالت الصرفية والنحوية‬
‫• موضوع مشكلة البحث‬
‫• تقييم المحلالت الصرفية والنحوية للغة العربية‪( ،‬يجب أن يتوفر التحليل الصرفي والنحوي لجميع‬
‫كلمات المعيار الذهبي)‪.‬‬
‫• الذخيرة اللغوية‬
‫• يوجد العديد من الذخائر اللغوية العربية التي تم بنائها مسبقاً‪ ،‬ويعتمد معضمها على نصوص مقتبسة‬
‫من المجالت والصحف‪.‬‬
‫• لبناء معيار ذهبي واسع التطبيق يجب علينا اختيار نصوص عربية من مصادر واشكال ومجاالت‬
‫متعددة‬
‫• ومن نصوص مشكولة كليا ً أو جزئيا ً أو غير مشكولة‪.‬‬
‫• الذخائر اللغوية المقترح استخدامها لبناء المعيار الذهبي‪.‬‬
‫• نصوص القرآن الكريم المشكولة وغير المشكولة‪.‬‬
‫• ونصوص الذخيرة اللغوية العربية ()‪)Corpus of Contemporary Arabic (CCA‬‬
‫( ‪)Al-Sulaiti & Atwell, 2006‬‬
‫‪ )standard‬لتقييم نتائج‬
‫المحلالت الصرفية والنحوية‬
‫• تنسيق المعيار الذهبي‬
‫• سيحتوي المعيار الذهبي على التحليل الصرفي والنحوي لكل كلمة من كلمات الذخيرة اللغوية‬
‫المستخدمة في بنائه‬
‫• يظهر التحليل النحوي والصرفي والكلمة معا ً في سطر واحد (العناويين الصرفية والنحوية للكلمة)‬
‫• يمكن إضافة جذر الكلمة ووزنها لهذا التحليل‪.‬‬
‫• استخدام ملفات ‪ XML‬لتخزين محتوى المعيار الذهبي‪.‬‬
‫• حجم المعيار الذهبي‬
‫• يتم اختيار المعيار الذهبي بحجم كبير نسبيا ً بحيث يغطي معظم الحاالت المتوقعة من المحلالت‬
‫الصرفية والنحوية أن تكون قادرة على تحليلها‪.‬‬
‫• يقاس حجم المعيار الذهبي بعدد الكلمات التي يحتويها‪.‬‬
‫المعيار الذهبي‬
‫‪Morphochallenge 2009‬‬
‫‪http://www.cis.hut.fi/morphochallenge2009/‬‬
‫مكون من نصوص القرآن الكريم كامالً ‪.‬‬
‫• ت َّم بتطوير معيار ذهبي َّ‬
‫• الستخدامه لفحص المحلالت الصرفية في مسابقة ( ‪Morphochallenge‬‬
‫‪ )2009‬لبناء محلل صرفي لعدة لغات من ضمنها اللغة العربية ‪.‬‬
‫• حجم المعيار الذهبي ‪ 78,004‬كلمات ‪.‬‬
‫• زود المعيار الذهبي بالتحليل الصرفي الكامل للكلمة‪ ،‬حسب التحليل الصرفي لكلمات‬
‫القرآن الكريم في قاعدة البيانات الصرفية للقرآن الكريم المطورة بجامعة حيفا ( ‪Dror‬‬
‫‪.)et al, 2004‬‬
Morphochallenge 2009 ِ‫المعيارِالذهبي‬
+Noun +Triptotic +Sg +Masc +Gen‫ سم‬+Prep‫ ب‬None ‫سم‬
‫ا‬
+Noun +ProperName +Gen +Def‫لَله‬None None
‫ا ا‬
‫نِر ا‬
‫عَل ا‬
+Noun +Triptotic +Adjective +Sg +Masc +Gen +Def‫حمان‬
‫رحمِف‬
‫ا‬
‫رحمِف ِع ا‬
+Noun +Triptotic +Adjective +Sg +Masc +Gen +Def‫يلِر ِحيم‬
‫ا‬
‫حمدِف ا‬
+Noun +Triptotic +Sg +Masc +Nom +Def‫علِحمد‬
‫ا‬
+Noun +ProperName +Gen +Def‫ لَله‬+Prep‫ل‬None None
‫ا‬
‫ر ا‬
‫ا‬
‫ببِف ا‬
+Noun +Triptotic +Sg +Masc +Gen‫ رببِفعلِربب‬+Noun +Triptotic +Sg +Masc +Pron +Dependent +1P +Sg, ‫علِربب‬
‫ا ا ا ا‬
+Noun +Triptotic +Pl +Masc +Obliquus +Def‫علمِفاعلِعالم‬
‫ا ا‬
‫نِر ا‬
‫عَل ا‬
+Noun +Triptotic +Adjective +Sg +Masc +Gen +Def‫حمان‬
‫رحمِف‬
‫ا‬
‫ا‬
+Noun +Triptotic +Adjective +Sg +Masc +Gen +Def‫رحمِف ِعيلِر ِحيم‬
‫ا‬
‫ا‬
+Verb +Triptotic +ActPart +Sg +Masc +Gen‫ملكِف اعل اِما ِلك‬
‫ا‬
‫يومِف ا‬
+Noun +Triptotic +Sg +Masc +Gen‫علِيوم‬
+Noun +Triptotic +Sg +Masc +Gen +Def‫علِدين‬
ِ ‫دينِف‬
ِ
+Particle +Pron +Dependent +2P +Sg +Masc‫ءِ اييا‬None None
‫ا‬
+Verb +Imp +Act +1P +Pl +Masc/Fem‫عبدِف اع ال اِنعبد‬
+Particle +Pron +Dependent +2P +Sg +Masc‫ ءِ اييا‬+Particle +Conjunction‫ اِو‬None None
‫عينِي ْس ات ْف ِعل اِن ا‬
‫عونِي ْس ات ْف ِعل اِن ا‬
‫ ا‬+Verb +Imp +Act +1P +Pl +Masc/Fem, ‫ست ِعين‬
‫ا‬
+Verb +Imp +Act +1P +Pl +Masc/Fem‫ست ِعين‬
‫ا‬
‫ا‬
+Verb +Imperative +2P +Sg +Masc +Pron +Dependent +1P +Pl‫ِهد‬
ِ ِ ‫هديِف اعل‬
‫ا‬
+Noun +Triptotic +Sg +Masc +Acc +Def‫الِصراط‬
ِ ‫صرطِف اع‬
ِ
ْ
‫ا‬
‫ا‬
‫ا‬
ْ
+Verb +Triptotic +ActPart +Sg +Masc +Acc +Def‫قومِيستف ِعلِمست ِقيم‬
+Noun +Triptotic +Sg +Masc +Acc‫الِص اراط‬
ِ ‫صرطِف اع‬
ِ
‫ا‬
‫ا‬
+Pron +Relative +Pl +Masc‫ين‬
ِ ‫لل ِذ‬None None
‫ا‬
+Verb +Perf +Act +2P +Sg +Masc‫مت‬
ِ ‫نعمِي ْف اعل اِء انع ا‬
‫ا‬
‫ا‬
+Particle +Pron +Dependent +3P +Pl +Masc‫علي‬None None
‫ا‬
‫غيرِف ا‬
+Noun +Triptotic +Sg +Masc +Gen‫علِغير‬
‫ا‬
‫ا‬
+Verb +Triptotic +PassPart +Sg +Masc +Gen +Def‫غضبِف اعل اِمغضوب‬
+Particle +Pron +Dependent +3P +Pl +Masc‫ اع الي‬None None
‫ا‬
+Particle +Negative‫ ِل‬+Particle +Conjunction‫ اِو‬None None
‫ا‬
‫ضللِف اع ال ا‬
+Verb +Triptotic +ActPart +Pl +Masc +Obliquus +Def‫ِضالل‬
ِ‫ِب ْس ِم‬
ِِ ّ
‫الل‬
ِ ِ ‫َّالر ْحم اـ‬
‫ن‬
ِ ِ ‫َّالر ِح‬
‫يم‬
ْ
ِ‫ال اح ْمد‬
ِِ ّ
‫لل‬
ِ ِ ّ ‫ار‬
‫ب‬
ْ
‫ا‬
ِ ‫ال اعال ِم ا‬
‫ين‬
ِ ِ ‫َّالر ْحم‬
‫ـن‬
ِ ِ ‫َّالر ِح‬
‫يم‬
ِ ِ ‫امـا ِل‬
‫ك‬
‫اي ْو ِ ِم‬
ّ
ِ ِ ‫الد‬
‫ين‬
ِ
‫اكا‬
ِ ‫ِا َّي‬
ِ‫ان ْعبد‬
‫وا َّي ا‬
ِ‫اك‬
ِ
ِ‫ان ْس ات ِعين‬
‫اهد انا‬
ِ
‫اطا‬
ِّ
ِ ‫الص ار‬
‫الم ا‬
ِ ‫ست ِق ا‬
‫يم‬
‫اطا‬
ِ ‫ِص ار‬
َّ
ِ ‫ال ِذ ا‬
‫ين‬
ِ ‫َا انع ا‬
‫مت‬
‫اع الي ِه ْ ِم‬
ِِ ‫اغ‬
‫ير‬
‫ا‬
ِ ِ ‫المغض‬
‫وب‬
ْ‫اع الي ِه ِم‬
‫او اِل‬
ّ َّ
ِ ‫الض ِال ا‬
‫ين‬
University of Leeds,
NLP Group
Arabic Language research
http://www.comp.leeds.ac.uk/nlp
http://www.comp.leeds.ac.uk/arabic
• Dr. Eric Atwell (Group Leader) http://www.comp.leeds.ac.uk/eric
• Dr. Latifa Al-Sulaiti ( Corpus of Contemporary Arabic)
• Dr. Andrew Roberts (open-source concordance tool for analysis of Arabic
corpus texts, aConCorde)
•Dr.Bayan Abu Shawar (A Corpus Based Approach to Generalise a Chatbot
System)
• Noorhan Abbas (Integrating the Qur'an into the NLTK Natural Language
Tool Kit)
•Amal Alsaif (An Automatic analyser of Discourse structure for Arabic)
•Majdi Sawalha (Part of Speech Tagging Systems for Arabic Language Text )
http://www.comp.leeds.ac.uk/sawalha
•Abdul-Baquee Sharaf (A Computational Model for Knowledge
Representation of the Quran)