Diapositive 1

Download Report

Transcript Diapositive 1

‫الجوانب التقييسية للمعاجم الحاسوبية‬
‫أ د‪ .‬عبد المجيد بن حمادو‬
‫مدير مخبر "ميراكل" جامعة صفاقس – تونس‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪1‬‬
‫‪ ‬يتطرق هذا البحث إلى موضوع تقييس بناء المعاجم‬
‫الحاسوبية بصفة عامة والعربية منها بصفة خاصة‪.‬‬
‫‪ ‬جانب حساس ومهم للغاية نظرا للمزايا التي يوفرها التقييس‬
‫لهذه المعاجم من ‪:‬‬
‫‪ ‬تيسير إثراء المضمون والهيكل‬
‫‪ ‬انتشار أوسع‬
‫‪ ‬ضمان مواكبة التطور السريع للتكنولوجيا‪.‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪2‬‬
‫ما هو التقييس ؟ وما هي أهدافه ؟‬
‫‪‬‬
‫التقييس هو عمل يهدف إلى االعتراف رسميا بمواصفات‬
‫تقنية لمنتج أو لخدمة ما بقرار توافقي تحت إشراف منظمة‬
‫معترف بها وتتسم باالستمرارية‪.‬‬
‫‪‬‬
‫هذه المنظمة يمكن أن تكون محلية ‪:‬‬
‫‪‬‬
‫‪BSI, ANSI, DIN , AFNOR , INNORPI ,MSA‬‬
‫أو عالمية مثل‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪ISO, IEC, CEN, W3C, OASI .‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪3‬‬
‫من أهم األهداف العامة للتقييس نذكر ‪:‬‬
‫‪ ‬تسهيل التبادل واإلثراء‪.‬‬
‫‪ ‬ضمان جودة المنتج أو الخدمة‪.‬‬
‫‪ ‬ضمان أكبر قدر ممكن من السالمة‪.‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪4‬‬
‫‪ .2‬تقييس الموارد‬
‫المعجمية ‪:‬‬
‫‪‬‬
‫‪ 1.2‬ما هي الموارد المعجمية التي يمكن تقييسها ؟‬
‫‪‬‬
‫يمكن تصنيف الموارد المعجمية التي يمكن تقييسها إلى أربعة أصناف أساسية ‪:‬‬
‫‪‬‬
‫قواعد البيانات المعجمية‪،‬‬
‫‪‬‬
‫قواعد البيانات المصطلحية‪،‬‬
‫‪‬‬
‫المعاجم المختلفة لالستعمال البشري‬
‫)‪(MRD: Machine Readable Dictionaries‬‬
‫‪‬‬
‫ومعاجم المعالجة اآللية للغات الطبيعية‬
‫)‪(NLP: Natural Language Processing‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪5‬‬
‫‪ ‬وتجدر اإلشارة إلى أن أهم الموارد المعجمية المتوفرة بالنسبة إلى‬
‫اللغة العربية تتمثل في المعاجم اللغوية لالستعمال البشري (القاموس‬
‫المحيط‪ ،‬لسان العرب‪ ،‬الصحاح‪ ،‬المحيط‪ ،‬محيط المحيط‪ ،‬الوسيط‪،‬‬
‫الرائد‪ ،‬الغني‪.)...،‬‬
‫‪ ‬البعض من هذه المعاجم متوفر في نسخ إلكترونية على الشابكة أو‬
‫على أقراص مضغوطة‪.‬‬
‫‪ ‬أغلب هذه النسخ مزودة بآليات بحث بسيطة وغير متطورة‬
‫‪ ‬ال تحافظ على نفس النمط في سرد المعلومات‬
‫‪ ‬وترتب الكلمات بصفة مختلفة ‪ :‬فمنها من يعتمد ترتيبا ً ألفبائيا ً مع‬
‫اإلشارة إلى جذورالكلمات ومنها من يرتب الكلمات باالعتماد على‬
‫مخارج الحروف ومنها من يعتمد على ترتيب الجذور‪.‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪6‬‬
‫‪ ‬والسؤال الذي يطرح نفسه هو‪:‬‬
‫‪ ‬كيف يمكن استغالل هذا التنوع على مستوى الهيكلة‬
‫والمضمون في بناء معجم حاسوبي عربي جديد؟‬
‫‪ ‬الجواب على هذا السؤال يمر حتما بتوحيد المعاجم المتوفرة‬
‫هيكال ومضمونا‪.‬‬
‫‪ ‬ومن هنا تأتي أهمية التقييس كضامن لهذا التوجه‪.‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪7‬‬
‫‪ 2.2 ‬مزايا تقييس الموارد المعجمية ‪:‬‬
‫‪ ‬مزايا تقييس الموارد المعجمية متعددة نذكر أهمها ‪:‬‬
‫‪ ‬إمكانية استعمال المعجم ألغراض لغوية أو مصطلحية أو‬
‫للمعالجة اآللية للغة باعتماد نفس البنية‪.‬‬
‫‪ ‬االستغالل حسب حاجيات المستعمل‪.‬‬
‫‪ ‬تيسير عملية تبادل المعاجم بين األشخاص والمؤسسات قصد‬
‫اإلثراء واالستغالل المشترك‪.‬‬
‫‪ ‬دمج المعاجم قصد توليد معاجم متعددة اللغات للترجمة اآللية‪.‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪8‬‬
‫‪ ‬تبادل األدوات الحاسوبية مثل ‪:‬‬
‫‪ ‬البحث عن المعلومات داخل قواعد البيانات والمعاجم‪.‬‬
‫‪ ‬المدقق اإلمالئي‪.‬‬
‫‪ ‬المحلل الصرفي‪.‬‬
‫‪ ‬المشكل اآللي‪.‬‬
‫‪ ‬المصنف اآللي‪.‬‬
‫‪ ‬نظم احتساب البيانات اإلحصائية‪.......،‬‬
‫‪ ‬االستفادة المشتركة من المهارات المعجمية األساسية‬
‫المتواجدة‪.‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪9‬‬
‫‪ .3‬مقياس ‪LMF‬‬
‫‪ ‬يمثل المقياس العالمي ‪" (Lexical Markup Framework( LMF‬إيزو‬
‫‪ "24613‬أرضية لتوصيف قواعد البيانات والمعاجم الحاسوبية أحادية اللغة أو‬
‫متعددة اللغات الستعماالت بشرية أو للمعالجة اآللية للغات الطبيعية‪.‬‬
‫‪ ‬بدأ العمل على هذا المقياس منذ صائفة ‪.2003‬‬
‫‪ ‬وفي بداية ‪ 2004‬قررت مجموعة ‪ ISO/37 /SC4‬بعث مشروع رسمي يعنى‬
‫بتطوير هذا المقياس‪.‬‬
‫‪ ‬ومنذ ذلك التاريخ وقع التصويت على ‪ 14‬نسخة (مسودة) لهذا المقياس و‬
‫المسودة ‪ 15‬هي في مرحلة متقدمة وسيقع التصويت عليها في شهر سبتمبر‪،‬‬
‫‪ ‬والمتوقع أن تكون األخيرة قبل تبني المقياس نهائيا‪.‬‬
‫‪ ‬وتشارك في المجموعة ‪ 16‬دولة‪.‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪10‬‬
‫‪ ‬يمتاز مقياس ‪LMF‬‬
‫‪ ‬بمرونته و تغطيته لمختلف مستويات اللغة (الصرفي‪ ،‬النحوي‪ ،‬الداللي‪)...،‬‬
‫‪ ‬بشموليته اللغوية حيث يمكن اعتماده لكل اللغات بدون تمييز‪.‬‬
‫‪ ‬يرتكز مقياس ‪ LMF‬على نموذج متكون من ‪:‬‬
‫‪ ‬أ‪ -‬نواة أساسي (‪ )core package‬يحتوي على مجموعة مداخل‬
‫‪ ‬يحتوي كل مدخل (بسيط‪ /‬مركب‪ /‬حرف) على ‪:‬‬
‫‪ ‬المعلومات الصرفية النحوية األساسية (الجنس‪ ،‬قسم الكالم‪).،‬‬
‫‪ ‬طريقة (أو طرق) كتابة المدخل أو نطقه‪.‬‬
‫‪ ‬معناه أو معانيه (تعريف المدخل‪ ،‬أمثلة وشواهد‪)..،‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪11‬‬
‫)‪ (core package‬النواة األساسي‬
‫معجم‬
‫*‪0..‬‬
‫معنى‬
‫*‪1..‬‬
‫*‪0..‬‬
‫*‪0..‬‬
‫‪..‬تعريف‪،‬‬
‫مدخل معجمي‬
‫‪..*1‬‬
‫كتابة المدخل‬
‫مالحظة هامة‪ :‬وقع االقتصار على هذا العدد القليل من المعلومات إلمكانية‬
‫تطبيق النموذج على جميع اللغات (القاسم المشترك)‪.‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪12‬‬
‫صصة (‪ )extension packages‬يمكن‬
‫‪ ‬ب ‪ -‬وحدات اختيارية متخ ّ‬
‫إضافتها للنواة حسب الحاجة إليها‪:‬‬
‫‪ ‬وحدات صيغميّة‪.‬‬
‫‪ ‬وحدات تركيبيّة (نحوية)‪.‬‬
‫‪ ‬وحدات دالليّة‪...،‬‬
‫‪ ‬ج ‪ -‬مجموعة أصناف صرفية نحويّة مناسبة للّغة المعتمدة يقع اختيارها‬
‫من بين القائمة التي يوفرها سجل مرجعي مقيّس‪ :‬الجنس‪ ،‬قسم الكالم‪...،‬‬
‫(‪)http://syntax.inist.fr/Data Category Registry – ISO12620‬‬
‫‪ ‬هذه األصناف تستعمل لتعبئة مختلف مكونات نمط ‪.LMF‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪13‬‬
‫صصة لنمط ‪)LMF Packages( LMF‬‬
‫وحدات اختيارية متخ ّ‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪14‬‬
‫‪ .4‬منهجية إعداد معجم حاسوبي عربي حسب مقياس‬
‫‪LMF‬‬
‫‪ ‬تتم عملية بناء معجم حاسوبي حسب مقياس ‪ LMF‬بدمج النواة األساسي بصفر أو‬
‫بعدة وحدات اختيارية متخصصة وبتحيد مجموعة أصناف نحويّة مناسبة للّغة‬
‫العربية‪.‬‬
‫‪ ‬عملية الدمج تتم باتباع المراحل التالية حسب توصيات فريق اللجنة التقنية‬
‫‪ISO TC37/SC4‬‬
‫‪ ‬أ‪ .‬دراسة المعاجم (العربية) المتداولة (الورقية والحاسوبية) قصد استبيان‪:‬‬
‫‪ ‬المكونات األساسية لمداخلها‪.‬‬
‫‪ ‬طرق ترتيب المداخل (هيكلتها)‪.‬‬
‫هذه المرحلة مهمة بالنسبة للمراحل المتبقية ألنها تساعد على تحديد‬
‫مكونات المعجم باعتماد منهج توحيد البيانات المعجمية المتوفرة‪.‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪15‬‬
‫‪ ‬ب‪ .‬تحديد مكونات النواة األساسي ‪.‬‬
‫صصة (‪ )extension packages‬التي‬
‫‪ ‬ج‪ .‬تحديد الوحدات المتخ ّ‬
‫سيقع دمجها مع النواة‪.‬‬
‫صصة وقع اختيارها‪ .‬يحدد هذا‬
‫‪ ‬د‪ .‬وضع نموذج لكل وحدة متخ ّ‬
‫النموذج المكونات األساسية للوحدة والعالقات بينها‪.‬‬
‫‪ ‬ه‪ .‬اختيار األصناف الصرفية والنحويّة المناسبة للعربية من بين‬
‫القائمة التي يوفرها سجل مرجعي مقيّس ( ‪Data Category‬‬
‫‪.)ISO 12620 Registry‬‬
‫‪ ‬و‪ .‬تعمير النموذج المتحصل عليه بهذه األصناف ‪.‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪16‬‬
‫مراحل بناء المعاجم العربي المقيس‬
‫إضافة أصناف‬
‫ص‪/‬ن جديدة‬
‫تسجيل‬
‫السّجل المقيّس‬
‫‪CDR‬‬
‫‪ LMF‬نواة أساسي‬
‫الوحدات المتخصصة‬
‫تكوين أصناف‬
‫مختارة‬
‫اختيار‬
‫‪DCS‬‬
‫‪CDR : Data Category‬‬
‫‪Registry‬‬
‫‪DCS : Data Category‬‬
‫‪Selection‬‬
‫دمج المكونات‬
‫معجم حاسوبي مطابق لمقياس ‪LMF‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪17‬‬
‫‪ .5‬عرض موجز للمشاريع واإلنجازات الدولية‬
‫‪ ‬عدة مشاريع وقع إنجازها أو هي بصدد اإلنجاز بالنسبة إلى‬
‫لغات عدة ‪ :‬الفرنسية‪ ،‬اإليطالية‪ ،‬اإلنكليزية‪ ،‬العربية‪ ،‬البنغالية‪،‬‬
‫التايلندية واللغات اآلسيوية‪.‬‬
‫‪ ‬أ‪ .‬مشروع "مورفالو" ‪ MORPHALOU‬للغة الفرنسية‬
‫(‪.)www.cnrtl.fr‬‬
‫يتمثل هذا المشروع في بناء قاعدة بيانات معجمية للفرنسية‬
‫حسب مقياس ‪ .LMF‬ويقع االهتمام حاليا بالجانب النحوي‪.‬‬
‫مضمون هذا المعجم يعتمد على مكنز اللغة الفرنسية‬
‫(‪.)Trésor de la Langue Française‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪18‬‬
‫‪ ‬ج‪ .‬معجم اللغة البنغالية‬
‫‪ICGL2998MichaelMaxwell[1].pdf :‬‬
‫‪ ‬د‪ .‬مشروع إنجاز بيئة مناسبة لبناء معاجم مقيسة للغات اآلسيوية‬
‫[‪]T. Tokunaga et al.‬‬
‫‪ ‬ه‪ .‬إنجاز معجم للغة التايلندية يهتم بالجانب الداللي‬
‫]‪[T. Charoenporn2007‬‬
‫‪ ‬و‪ .‬بناء قاعدة لمعالجة معاجم اللغة اإليطالية حسب مقياس ‪LMF‬‬
‫‪http://www.senso‬‬‫‪comune.it/documents/WorkshopAIIA2007/AIIAS‬‬
‫‪ensoComune.pdf‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪19‬‬
‫‪ .6‬مساهمة مخبر "ميراكل" في تطوير ‪ LMF‬للعربية‬
‫‪ ‬بمخبر "ميراكل" فريق بحث يشتغل على موضوع تقييس الموارد المعجمية العربية‬
‫وتصميمها‪.‬‬
‫‪‬‬
‫هذا الفريق باتصال دائم مع اللجنة التقنية‬
‫‪ISO TC37/SC4‬‬
‫‪ ‬يساهم بآرائه وخبرته في تطوير مقياس ‪ LMF‬حسب خصائص اللغة العربية‪.‬‬
‫سجل المقيّس الذي يعتمد عليه نمط‬
‫‪ ‬إضافة أصناف صرفية نحويّة خاصة بالعربيّة لل ّ‬
‫المجزوم‪ ،‬جمع التكسير‪....،‬‬
‫‪ :LMF‬المرفوع‪ ،‬المنصوب‪،‬‬
‫ْ‬
‫‪ ‬تصميم وإضافة وحدة صوتمية (‪(honological package‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪20‬‬
‫أهم اإلنجازا‬
‫مكونات نمط ‪ LMF‬الحتواء خصائص‬
‫‪ ‬تغيير بعض الروابط بين ّ‬
‫اللغة العربية (رسالة ماجستير)‪.‬‬
‫‪ ‬إنجاز ّأول قاعدة بيانات معجميّة للّغة العربيّة ‪ ArabicLDB‬مطابقة‬
‫كليا لمقياس‪ LMF‬مزودة بوحدة إختيارية صرفية (رسالة دكتوراه)‪.‬‬
‫‪ ‬تصميم وحدة تركيبيّة (نحوية) إلضافتها إلى القاعدة المعجمية‬
‫(رسالة دكتوراه)‪.‬‬
‫‪ ‬إنجاز آلية متطورة للبحث عن البيانات المعجميّة داخل القاعدة‬
‫تعمل على ثالثة مستويات (رسالة ماجستير) ‪:‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪21‬‬
‫‪ ‬البحث البسيط عن الكلمة داخل المعجم يمكن المستعمل من‬
‫عرض الخصائص الصرفية والنحوية للكلمة‪ ،‬المعنى (أو‬
‫المعاني)‪ ،‬األمثلة والشواهد‪...،‬‬
‫‪ ‬البحث الموجه يتمتع فيه المستعمل بالمساندة الكافية للوصول‬
‫إلى غايته مثل تصحيح الكلمة المدخلة‪..،‬‬
‫‪ ‬البحث المتطور يمكن المستعمل من استرجاع بيانات متطورة‬
‫تهم مجموعة من الكلمات أوكل المعجم مثل معلومات‬
‫إحصائية‪ ،‬قائمة الكلمات التي لها نفس الجذر‪ ،‬واإلبحار داخل‬
‫المعجم باستغالل مختلف الروابط بين الكلمات‪...،‬‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪22‬‬
‫واجهة البحث البسيط عن الكلمة داخل المعجم‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪23‬‬
‫أهم المنشورا‬

BACCAR F., KHEMAKHEM A., GARGOURI B., HADDAR K., BEN
HAMADOUA. (2008). "LMF standardized model for the editorial electronic
dictionaries of Arabic", NLPCS 2008, 12-13 june, Barcelone

BACCAR F., KHEMAKHEM A., GARGOURI B., HADDAR K ,.BEN
HAMADOUA.(2008) Modélisation normalisée LMF des dictionnaires
électroniques éditoriaux de l’arabe. TAL conference, 9-13, Juin 2008,
Avignon

Khemakhem A., Gargouri B., Abdelwahed A., Francopoulo G (2007).
Modélisation des paradigmes de flexion des verbes arabes selon la
norme LMF - ISO 24613. TAL conference, 5 - 8 juin 2007, Toulouse.

Ben Abderrahmen M., Gargouri B., Jmaiel M. (2007). LMF-QL: A graphical
Tool to Query LMF databases. Third Language & Technology
Conference: Human Language Technologies as a Challenge for
Computer Science and Linguistics October 5-7 2007, Poznań, Poland..

Ben Abderrahmen M., Chaari. F, Gargouri B., Jmaiel M. (2006). Des
services orientés besoin pour l’exploitation des bases lexicales
normalisées. MCSEAI’06, 07-09 Décembre 2006, Agadir, Maroc.
24
2008 ‫ ماي‬5-7 ‫الرياض‬
‫ورشة عمل خبراء المعجم العربي‬
‫الخاتمة‬
‫االستئناس بمنهجية مقيسة لتصميم معجم حاسوبي للغة العربية‬
‫يكن أن يضمن ‪:‬‬
‫‪ ‬استعماله للمعالجة الحاسوبية للغة العربية‬
‫‪ ‬قابلية للتطوير واإلثراء بعد إنجاز اللمشروع (إستمررارية)‬
‫‪ ‬دمجه بسهولة بمعاجم أخرى ليصبح متعدد اللغات‬
‫ورشة عمل خبراء المعجم العربي‬
‫الرياض ‪ 5-7‬ماي ‪2008‬‬
‫‪25‬‬