Diapositive 1
Download
Report
Transcript Diapositive 1
الجوانب التقييسية للمعاجم الحاسوبية
أ د .عبد المجيد بن حمادو
مدير مخبر "ميراكل" جامعة صفاقس – تونس
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
1
يتطرق هذا البحث إلى موضوع تقييس بناء المعاجم
الحاسوبية بصفة عامة والعربية منها بصفة خاصة.
جانب حساس ومهم للغاية نظرا للمزايا التي يوفرها التقييس
لهذه المعاجم من :
تيسير إثراء المضمون والهيكل
انتشار أوسع
ضمان مواكبة التطور السريع للتكنولوجيا.
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
2
ما هو التقييس ؟ وما هي أهدافه ؟
التقييس هو عمل يهدف إلى االعتراف رسميا بمواصفات
تقنية لمنتج أو لخدمة ما بقرار توافقي تحت إشراف منظمة
معترف بها وتتسم باالستمرارية.
هذه المنظمة يمكن أن تكون محلية :
BSI, ANSI, DIN , AFNOR , INNORPI ,MSA
أو عالمية مثل:
ISO, IEC, CEN, W3C, OASI .
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
3
من أهم األهداف العامة للتقييس نذكر :
تسهيل التبادل واإلثراء.
ضمان جودة المنتج أو الخدمة.
ضمان أكبر قدر ممكن من السالمة.
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
4
.2تقييس الموارد
المعجمية :
1.2ما هي الموارد المعجمية التي يمكن تقييسها ؟
يمكن تصنيف الموارد المعجمية التي يمكن تقييسها إلى أربعة أصناف أساسية :
قواعد البيانات المعجمية،
قواعد البيانات المصطلحية،
المعاجم المختلفة لالستعمال البشري
)(MRD: Machine Readable Dictionaries
ومعاجم المعالجة اآللية للغات الطبيعية
)(NLP: Natural Language Processing
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
5
وتجدر اإلشارة إلى أن أهم الموارد المعجمية المتوفرة بالنسبة إلى
اللغة العربية تتمثل في المعاجم اللغوية لالستعمال البشري (القاموس
المحيط ،لسان العرب ،الصحاح ،المحيط ،محيط المحيط ،الوسيط،
الرائد ،الغني.)...،
البعض من هذه المعاجم متوفر في نسخ إلكترونية على الشابكة أو
على أقراص مضغوطة.
أغلب هذه النسخ مزودة بآليات بحث بسيطة وغير متطورة
ال تحافظ على نفس النمط في سرد المعلومات
وترتب الكلمات بصفة مختلفة :فمنها من يعتمد ترتيبا ً ألفبائيا ً مع
اإلشارة إلى جذورالكلمات ومنها من يرتب الكلمات باالعتماد على
مخارج الحروف ومنها من يعتمد على ترتيب الجذور.
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
6
والسؤال الذي يطرح نفسه هو:
كيف يمكن استغالل هذا التنوع على مستوى الهيكلة
والمضمون في بناء معجم حاسوبي عربي جديد؟
الجواب على هذا السؤال يمر حتما بتوحيد المعاجم المتوفرة
هيكال ومضمونا.
ومن هنا تأتي أهمية التقييس كضامن لهذا التوجه.
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
7
2.2 مزايا تقييس الموارد المعجمية :
مزايا تقييس الموارد المعجمية متعددة نذكر أهمها :
إمكانية استعمال المعجم ألغراض لغوية أو مصطلحية أو
للمعالجة اآللية للغة باعتماد نفس البنية.
االستغالل حسب حاجيات المستعمل.
تيسير عملية تبادل المعاجم بين األشخاص والمؤسسات قصد
اإلثراء واالستغالل المشترك.
دمج المعاجم قصد توليد معاجم متعددة اللغات للترجمة اآللية.
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
8
تبادل األدوات الحاسوبية مثل :
البحث عن المعلومات داخل قواعد البيانات والمعاجم.
المدقق اإلمالئي.
المحلل الصرفي.
المشكل اآللي.
المصنف اآللي.
نظم احتساب البيانات اإلحصائية.......،
االستفادة المشتركة من المهارات المعجمية األساسية
المتواجدة.
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
9
.3مقياس LMF
يمثل المقياس العالمي " (Lexical Markup Framework( LMFإيزو
"24613أرضية لتوصيف قواعد البيانات والمعاجم الحاسوبية أحادية اللغة أو
متعددة اللغات الستعماالت بشرية أو للمعالجة اآللية للغات الطبيعية.
بدأ العمل على هذا المقياس منذ صائفة .2003
وفي بداية 2004قررت مجموعة ISO/37 /SC4بعث مشروع رسمي يعنى
بتطوير هذا المقياس.
ومنذ ذلك التاريخ وقع التصويت على 14نسخة (مسودة) لهذا المقياس و
المسودة 15هي في مرحلة متقدمة وسيقع التصويت عليها في شهر سبتمبر،
والمتوقع أن تكون األخيرة قبل تبني المقياس نهائيا.
وتشارك في المجموعة 16دولة.
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
10
يمتاز مقياس LMF
بمرونته و تغطيته لمختلف مستويات اللغة (الصرفي ،النحوي ،الداللي)...،
بشموليته اللغوية حيث يمكن اعتماده لكل اللغات بدون تمييز.
يرتكز مقياس LMFعلى نموذج متكون من :
أ -نواة أساسي ( )core packageيحتوي على مجموعة مداخل
يحتوي كل مدخل (بسيط /مركب /حرف) على :
المعلومات الصرفية النحوية األساسية (الجنس ،قسم الكالم).،
طريقة (أو طرق) كتابة المدخل أو نطقه.
معناه أو معانيه (تعريف المدخل ،أمثلة وشواهد)..،
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
11
) (core packageالنواة األساسي
معجم
*0..
معنى
*1..
*0..
*0..
..تعريف،
مدخل معجمي
..*1
كتابة المدخل
مالحظة هامة :وقع االقتصار على هذا العدد القليل من المعلومات إلمكانية
تطبيق النموذج على جميع اللغات (القاسم المشترك).
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
12
صصة ( )extension packagesيمكن
ب -وحدات اختيارية متخ ّ
إضافتها للنواة حسب الحاجة إليها:
وحدات صيغميّة.
وحدات تركيبيّة (نحوية).
وحدات دالليّة...،
ج -مجموعة أصناف صرفية نحويّة مناسبة للّغة المعتمدة يقع اختيارها
من بين القائمة التي يوفرها سجل مرجعي مقيّس :الجنس ،قسم الكالم...،
()http://syntax.inist.fr/Data Category Registry – ISO12620
هذه األصناف تستعمل لتعبئة مختلف مكونات نمط .LMF
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
13
صصة لنمط )LMF Packages( LMF
وحدات اختيارية متخ ّ
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
14
.4منهجية إعداد معجم حاسوبي عربي حسب مقياس
LMF
تتم عملية بناء معجم حاسوبي حسب مقياس LMFبدمج النواة األساسي بصفر أو
بعدة وحدات اختيارية متخصصة وبتحيد مجموعة أصناف نحويّة مناسبة للّغة
العربية.
عملية الدمج تتم باتباع المراحل التالية حسب توصيات فريق اللجنة التقنية
ISO TC37/SC4
أ .دراسة المعاجم (العربية) المتداولة (الورقية والحاسوبية) قصد استبيان:
المكونات األساسية لمداخلها.
طرق ترتيب المداخل (هيكلتها).
هذه المرحلة مهمة بالنسبة للمراحل المتبقية ألنها تساعد على تحديد
مكونات المعجم باعتماد منهج توحيد البيانات المعجمية المتوفرة.
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
15
ب .تحديد مكونات النواة األساسي .
صصة ( )extension packagesالتي
ج .تحديد الوحدات المتخ ّ
سيقع دمجها مع النواة.
صصة وقع اختيارها .يحدد هذا
د .وضع نموذج لكل وحدة متخ ّ
النموذج المكونات األساسية للوحدة والعالقات بينها.
ه .اختيار األصناف الصرفية والنحويّة المناسبة للعربية من بين
القائمة التي يوفرها سجل مرجعي مقيّس ( Data Category
.)ISO 12620 Registry
و .تعمير النموذج المتحصل عليه بهذه األصناف .
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
16
مراحل بناء المعاجم العربي المقيس
إضافة أصناف
ص/ن جديدة
تسجيل
السّجل المقيّس
CDR
LMFنواة أساسي
الوحدات المتخصصة
تكوين أصناف
مختارة
اختيار
DCS
CDR : Data Category
Registry
DCS : Data Category
Selection
دمج المكونات
معجم حاسوبي مطابق لمقياس LMF
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
17
.5عرض موجز للمشاريع واإلنجازات الدولية
عدة مشاريع وقع إنجازها أو هي بصدد اإلنجاز بالنسبة إلى
لغات عدة :الفرنسية ،اإليطالية ،اإلنكليزية ،العربية ،البنغالية،
التايلندية واللغات اآلسيوية.
أ .مشروع "مورفالو" MORPHALOUللغة الفرنسية
(.)www.cnrtl.fr
يتمثل هذا المشروع في بناء قاعدة بيانات معجمية للفرنسية
حسب مقياس .LMFويقع االهتمام حاليا بالجانب النحوي.
مضمون هذا المعجم يعتمد على مكنز اللغة الفرنسية
(.)Trésor de la Langue Française
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
18
ج .معجم اللغة البنغالية
ICGL2998MichaelMaxwell[1].pdf :
د .مشروع إنجاز بيئة مناسبة لبناء معاجم مقيسة للغات اآلسيوية
[]T. Tokunaga et al.
ه .إنجاز معجم للغة التايلندية يهتم بالجانب الداللي
][T. Charoenporn2007
و .بناء قاعدة لمعالجة معاجم اللغة اإليطالية حسب مقياس LMF
http://www.sensocomune.it/documents/WorkshopAIIA2007/AIIAS
ensoComune.pdf
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
19
.6مساهمة مخبر "ميراكل" في تطوير LMFللعربية
بمخبر "ميراكل" فريق بحث يشتغل على موضوع تقييس الموارد المعجمية العربية
وتصميمها.
هذا الفريق باتصال دائم مع اللجنة التقنية
ISO TC37/SC4
يساهم بآرائه وخبرته في تطوير مقياس LMFحسب خصائص اللغة العربية.
سجل المقيّس الذي يعتمد عليه نمط
إضافة أصناف صرفية نحويّة خاصة بالعربيّة لل ّ
المجزوم ،جمع التكسير....،
:LMFالمرفوع ،المنصوب،
ْ
تصميم وإضافة وحدة صوتمية ((honological package
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
20
أهم اإلنجازا
مكونات نمط LMFالحتواء خصائص
تغيير بعض الروابط بين ّ
اللغة العربية (رسالة ماجستير).
إنجاز ّأول قاعدة بيانات معجميّة للّغة العربيّة ArabicLDBمطابقة
كليا لمقياس LMFمزودة بوحدة إختيارية صرفية (رسالة دكتوراه).
تصميم وحدة تركيبيّة (نحوية) إلضافتها إلى القاعدة المعجمية
(رسالة دكتوراه).
إنجاز آلية متطورة للبحث عن البيانات المعجميّة داخل القاعدة
تعمل على ثالثة مستويات (رسالة ماجستير) :
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
21
البحث البسيط عن الكلمة داخل المعجم يمكن المستعمل من
عرض الخصائص الصرفية والنحوية للكلمة ،المعنى (أو
المعاني) ،األمثلة والشواهد...،
البحث الموجه يتمتع فيه المستعمل بالمساندة الكافية للوصول
إلى غايته مثل تصحيح الكلمة المدخلة..،
البحث المتطور يمكن المستعمل من استرجاع بيانات متطورة
تهم مجموعة من الكلمات أوكل المعجم مثل معلومات
إحصائية ،قائمة الكلمات التي لها نفس الجذر ،واإلبحار داخل
المعجم باستغالل مختلف الروابط بين الكلمات...،
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
22
واجهة البحث البسيط عن الكلمة داخل المعجم
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
23
أهم المنشورا
BACCAR F., KHEMAKHEM A., GARGOURI B., HADDAR K., BEN
HAMADOUA. (2008). "LMF standardized model for the editorial electronic
dictionaries of Arabic", NLPCS 2008, 12-13 june, Barcelone
BACCAR F., KHEMAKHEM A., GARGOURI B., HADDAR K ,.BEN
HAMADOUA.(2008) Modélisation normalisée LMF des dictionnaires
électroniques éditoriaux de l’arabe. TAL conference, 9-13, Juin 2008,
Avignon
Khemakhem A., Gargouri B., Abdelwahed A., Francopoulo G (2007).
Modélisation des paradigmes de flexion des verbes arabes selon la
norme LMF - ISO 24613. TAL conference, 5 - 8 juin 2007, Toulouse.
Ben Abderrahmen M., Gargouri B., Jmaiel M. (2007). LMF-QL: A graphical
Tool to Query LMF databases. Third Language & Technology
Conference: Human Language Technologies as a Challenge for
Computer Science and Linguistics October 5-7 2007, Poznań, Poland..
Ben Abderrahmen M., Chaari. F, Gargouri B., Jmaiel M. (2006). Des
services orientés besoin pour l’exploitation des bases lexicales
normalisées. MCSEAI’06, 07-09 Décembre 2006, Agadir, Maroc.
24
2008 ماي5-7 الرياض
ورشة عمل خبراء المعجم العربي
الخاتمة
االستئناس بمنهجية مقيسة لتصميم معجم حاسوبي للغة العربية
يكن أن يضمن :
استعماله للمعالجة الحاسوبية للغة العربية
قابلية للتطوير واإلثراء بعد إنجاز اللمشروع (إستمررارية)
دمجه بسهولة بمعاجم أخرى ليصبح متعدد اللغات
ورشة عمل خبراء المعجم العربي
الرياض 5-7ماي 2008
25