تعريب الحاسبات رمز المادة : عال 428 - التعرف الضوئي على الحروف العربية ( )A-OCR بحث الطالبان : عقيل عبداهلل بوشفيع . عبداهلل إبراهيم البراهيم 425102832 427103907

Download Report

Transcript تعريب الحاسبات رمز المادة : عال 428 - التعرف الضوئي على الحروف العربية ( )A-OCR بحث الطالبان : عقيل عبداهلل بوشفيع . عبداهلل إبراهيم البراهيم 425102832 427103907

‫تعريب الحاسبات‬
‫رمز المادة‪ :‬عال ‪428 -‬‬
‫التعرف الضوئي على‬
‫الحروف العربية (‪)A-OCR‬‬
‫بحث الطالبان‪:‬‬
‫عقيل عبداهلل بوشفيع‪ .‬عبداهلل إبراهيم البراهيم‬
‫‪425102832‬‬
‫‪427103907‬‬
‫مقدمة‬
‫•تعريف تقنية التعرف الضوئي على الحروف(‪:)OCR‬‬
‫عملية تحويل النصوص المكتوبة مباشرة إلى نظام التعرف أو المطبوعة (آليًا أو بخط‬
‫اليد) على الورق التق ليدي إلى مستندات إلكترونية ق ابلة للتعديل والتحرير باستخدام‬
‫البرمجيات التي تسمح للمستخدم بذلك‪ ،‬ويتم إدخال الصورة النصية إلى برنامج التعرف‬
‫الضوئي للحروف باستخدام ماسح ضوئي معين‪.‬‬
‫•أنواع التعرف الضوئي على الحروف‪:‬‬
‫•التعرف الضوئي غير المباشر (‪)Off-Line‬‬
‫يتم إدخال الصور النصية المكتوبة يدويا أو المطبوعة آلياً باستخدام ماسح ضوئي معين إلى برنامج‬
‫التعرف الضوئي على الحروف ومن ثم يتم تحويل هذه الصورة النصية بعد مرورها بمجموعة من‬
‫العمليات إلى مستند إلكتروني ق ابل للتحرير والتعديل‪.‬‬
‫•التعرف الضوئي المباشر (‪)On-Line‬‬
‫يتم التعرف على الحروف العربية (أو غير العربية) المكتوبة ‪-‬بخط اليد باستخدام وسائل إدخال‬
‫معينة‪ -‬مباشرة أثناء اإلدخال من قبل نظام التعرف على الحروف العربية‪.‬‬
‫تاريخ التعرف الضوئي على الحروف‬
‫•المحاولة البدائية األولى‪:‬‬
‫•في عام ‪1870‬م‪ ،‬اخترع جيم كاري ماسح ضوئي يعمل عن طريق الخاليا الضوئية‪.‬‬
‫•في عام ‪ 1929‬م‪ ،‬حصل العالم غوستاف توشك (‪ )Gustav Tauschek‬على براءة اختراع في‬
‫عملية التعرف الضوئي للحروف في ألمانيا‪.‬‬
‫•وفي عام ‪1933‬م‪ ،‬حصل العالم هندل (‪ )Handel‬على براءة اختراع أيضاً في هذا المجال في‬
‫أمريكا‪.‬‬
‫•أول نظام تم تثبيته كان في مجلة (‪.)Reader’s Digest‬‬
‫•بداية محاوالت التعرف الضوئي للحروف العربية‪:‬‬
‫•أما من ناحية اللغة العربية ف لألسف بدأ التفكير متأخراً عن كيفية التعرف الضوئي على النصوص‬
‫العربية فكانت في أوائل الثمانيات ‪ -‬أي بعد بداية الغرب بثالثين سنة ‪ -‬مع أن اللغة العربية‬
‫مهمة ألنها اللغة التي بتحدثها ‪ 240‬مليون شخص كما أن تتيح التعرف على عده لغات متشابه مثل‬
‫األردية والكردية والف ارسية ‪ .‬وتوال التطور عن التعرف النصوص العربية إال وقتنا الحاضر حتى‬
‫وصلت الدقة في التعرف إال ‪ . %95‬والبد أن نشكر شركات التي اهتمت لهذا التطور ومنها صخر‪,‬‬
‫ريد ايرس وغيرها من الشركات التي اهتمت في هذه التقنية المهمة‬
‫مميزات التعرف الضوئي على الحروف‬
‫‪ ‬تعتبير بديل آخر لطريقة إدخال البيانات إلى الحاسب اآللي بدالً من‬
‫استخدام لوحة المف اتيح التق ليدية‪.‬‬
‫‪ ‬سهولة الحصول على نسخة طبق األصل من مستند مطبوع أو مكتوب‬
‫ومن دون أي مجهود يذكر‪.‬‬
‫‪ ‬سهولة التعديل وتحرير المستند وذالك بعد تحويله إال مستند‬
‫الكتروني ومثال على ذالك مايكروسوفت ورد‪.‬‬
‫‪ ‬إمكانية إضافة الرسم البياني والصور والوسائط المتعددة مثل شروحات‬
‫الفيديو بكل سهوله إال المستند االلكتروني‪.‬‬
‫‪ ‬سرعة تبادل المستندات االلكترونية وتوفير الوقت والتكلفة من‬
‫عمليات الشحن ونق ل المستندات الورقية‪.‬‬
‫‪ ‬توفير وحدات التخزين بحيث يمكن تخزين مئات من المستندات‬
‫االلكترونية في قرص صلب بحجم كف اليد‬
‫نظام وخطوات عمل (‪ )A-OCR‬الغير مباشر‬
‫•بالنسبة للمستخدم النهائي لتقنية التعرف الضوئي على الحروف العربية فيتكون النظام من‪ :‬المستندات‬
‫الورقية والتي يتم مسحها ضوئيًا باستخدام ماسح ضوئي ومن ثم يتم تحويلها إلى مستند إلكتروني عن طريق‬
‫برنامج التعرف الضوئي على الحروف المثبت على الحاسب اآللي‪.‬‬
‫•أما طريقة عمل هذه التقنية بالتفصيل فتتم عن طريق الخطوات اآلتية‪:‬‬
‫•تحويل المستند الورقي إلى صورة إلكترونية‪.‬‬
‫•تمثيل الصورة المأخوذة بالماسح الضوئي إلى الخريطة الثنائية‪.‬‬
‫•خطوات ما قبل المعالجة‪.‬‬
‫•عملية التقطيع‪.‬‬
‫•استخالص النصوص‪.‬‬
‫•خطوات ما بعد المعالجة‪.‬‬
‫الحصول على صورة المستند الورقي‬
‫‪‬‬
‫الحصول على صورة المستند الورقي بالماسح الضوئي‪.‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫يتم الحصول على صورة طبق األصل من المستند المطبوع عن طريق استخدام الماسح الضوئي‪،‬‬
‫يقوم الماسح الضوئي باستخدام آلية نق ل معينة (من خالل استخدام عدسات) وجهاز استشعار‬
‫والذي يقوم بتحويل شدة استضاءة الضوء إلى درجات التدرج للون الرمادي للحصول على‬
‫التمثيل المبدأي للمستند‪.‬‬
‫غالبًا في الماسحات المتطورة الحديثة ما يتم تحويل الصورة الممسوحة المتدرجة في اللون إلى‬
‫صورتين ثنائيتين‪ .‬تسمى هذه العملية بالعتبة (‪ )Thresholding‬حيث تؤدي هذه العملية‬
‫إلى إنتاج صورة نهائية أفضل من التمثيل ألمبدأي للصورة‬
‫خوارزميات عملية العتبة (‪:)Thresholding‬‬
‫‪‬‬
‫‪‬‬
‫الخوارزمية العامة (‪.)Global Method‬‬
‫الخوارزمية المتبنية او المتكيفة (‪.)Adaptive Method‬‬
‫تقنية العتبة‬
‫الصورة األصلية‪ ،‬كما هو واضح بأن الصورة تحتوي‬
‫على التدرج اللوني للون الرمادي‪.‬‬
‫الصورة السابقة بعد تطبيق‬
‫‪(Thresholding with a Global Method).‬‬
‫الصورة األصلية بعد تطبيق‬
‫‪(Thresholding with an adaptive Method).‬‬
‫التمثيل الثنائي للصورة‬
‫•‬
‫تمثل الصورة في الحاسب اآللي بطريقتين‪:‬‬
‫• التمثيل المتجه (‪.)Vector‬‬
‫• التمثيل بخريطة البكسيل (‪.)Pixels Map‬‬
‫•‬
‫تقنية التعرف الضوئي على الحروف تعمل على التمثيل الثاني (‪)Pixel Map‬‬
‫التمثيل الثنائي للصورة‬
‫‪‬‬
‫يتم تحويل خريطة البيكسالت إلى خريطة ثنائية (‪.)1 ،0‬‬
‫‪ ‬تحويل الخط المطبوع (باللون األسود غالبًا) إلى الرقم واحد‪.‬‬
‫‪ ‬الخلفية البيضاء (الورقة) إلى الصفر‪.‬‬
‫‪ ‬السبب والهدف‪ :‬أن التعامل مع األرق ام أسهل من التعامل مع خريطة البيكسالت‪.‬‬
‫ماقبل المعالجة‬
‫‪ ‬هذه العملية من أهم خطوات عملية التعرف الضوئي على الحروف حيث تتم فيها‬
‫مجموعة من الخطوات الرئيسية‪:‬‬
‫‪‬‬
‫تنقية الصورة من الشوائب‪ :‬الصورة التي نحصل عليها من الماسح الضوئي ليست نظيفة‬
‫بالكامل‪.‬‬
‫‪ ‬تحتوي على بيانات زائدة (شوائب)‪ ،‬ولكي تتم عملية التعرف بشكل صحيح يجب أن تتم إزالة‬
‫هذه البيانات المضلِلَةُ لعملية التعرف الضوئي على الحروف‪.‬‬
‫‪‬‬
‫التنحيف‪ :‬الهدف الرئيسي من هذه العملية هو إيجاد هيكل الحرف أو الكلمة ككل‪.‬‬
‫‪ ‬مفيدة جداً في حالة كون المستند الورقي قديم والخط المستخدم فيه ذو سماكة متوسطة‬
‫إلى شديدة‪ ،‬ففي هذه الحالة تصعب على عملية التعرف الضوئي على الحروف إيجاد الهيكل‬
‫الصحيح للحرف‬
‫‪ ‬تتم عملية التنحيف من خالل حذف النق اط العرضية الزائدة الواصلة بين نقطتين‪ ،‬لتتم عملية‬
‫تمثيل الحرف بعدد أق ل من النق اط التي كان يمثل بها سابقًا‪.‬‬
‫ماقبل المعالجة‬
‫‪‬‬
‫إزالة التشويش‪ :‬إزالة جميع الحواف السوداء المرافقة للنص أو تلك النقط الزائدة الناتجة‬
‫من سوء عملية التصوير أو وجود عوالق على لوح الماسح الضوئي‪.‬‬
‫‪‬‬
‫مثال على تقنيات إزالة التشويش‪ :‬تقنية الجزاء المتصلة والتي تؤدي إلى حذف األجزاء المعزولة‪.‬‬
‫‪ ‬عميلة التنعيم (المالسة)‪ :‬تتضمن عملية التنعيم عمليتي إزالة التشويش وعملية التنحيف‪ ،‬حيث‬
‫يتم تحديد نقطة معينة من خالل اإلستف ادة من النق اط الثمان المجاورة لها‪.‬‬
‫ما قبل المعالجة‬
‫‪ ‬تعديل الحروف‪ :‬يتم تحديد وتقدير الميالن الصحيح للحروف وتحديد الحروف بأحجام معينة‪.‬‬
‫‪‬‬
‫‪‬‬
‫نظرا للخصائص التي تتميز بها اللغة العربية‬
‫هذه الخطوة تعتبر معقدة نوعًا ما بالنسبة للغة العربية؛ وذلك ً‬
‫والتي منها تعدد أشكال الحرف حسب موقعه من المقطع‪.‬‬
‫عاملُ بها الحروف العربية من ناحية تعديلها من نظام إلى آخر‪ ،‬فعلى سبيل المثال‪:‬‬
‫تختلف الطريقة التي تُ َ‬
‫معاملة (ي) و( ى) كحرف واحد أو معاملة الحروف { (أ)‪(،‬إ)‪( ،‬آ)‪(،‬ا) } كحرف (ا)‪.‬‬
‫‪ ‬تحديد األجزاء المتصلة‪ :‬هذه الخطوة من أهم الخطوات حتى يتم تحضير الصورة لعملية التقطيع والتي تَ ْشتَرط‬
‫أن تكون الصورة مهيأة على نمط معين وهو أن تكون الكلمات واألحرف المنفردة موجودة في سطور‪.‬‬
‫‪ ‬الهدف من هذه الخطوة هو أن يتم تقسيم الجمل إلى كلمات ومن ثم تقسيم الكلمات إلى أجزاء أصغر بحيث‬
‫تكون الحروف المتصلة في جزء والمعزولة في جزء آخر ‪.‬‬
‫التقطيع‬
‫‪‬‬
‫‪‬‬
‫تقوم بفصل الكلمات والحروف من أجل تسهيل عملية التعرف على كل حرف لحده‪.‬‬
‫تعتبر عملية التقطيع صعبة في اللغة العربية ما إذا ق ارنها بعملية التقطيع للغة اإلنجليزية‪.‬‬
‫‪ ‬األخطاء التي قد نواجهها في عملية التقطيع‪:‬‬
‫‪ ‬التقطيع أكثر من الالزم‪ ،‬والتقطيع في األماكن الخطأ‪.‬‬
‫تقنيات التقطيع‬
‫‪‬‬
‫المدرج اإلحصائي لإلسق اط العمودي‪:‬‬
‫‪‬‬
‫استخدام الحد األعلى المحلّي كنقطة قطع‪.‬‬
‫استخالص الخصائص‬
‫‪‬‬
‫بعد إتمام عملية التقطيع يتم استخالص الخصائص العامة للجزء الذي يراد تحويله إلى نص إلكتروني‪.‬‬
‫‪‬‬
‫من الخصائص الممكنة‪:‬‬
‫‪ ‬الخصائص التركيبية مثل شكل الجزء‪.‬‬
‫‪ ‬التحويل‪ :‬ويقصد به‪ :‬تحويل الجزء إلى متجهات مستقيمة بزوايا محددة‪.‬‬
‫‪ ‬التطابقية‪ :‬ويقصد به مق ارنة الجزء نقطة نقطة مع شكل محفوظ سلف ا‪.‬‬
‫التصنيف‬
‫‪ ‬يقصد بالتصنيف هو عملية تحديد الحرف وذلك بناءً على مجموعة من الخصائص‪.‬‬
‫‪ .1‬الخصائص اإلحصائية مثل‪:‬‬
‫‪ .i‬الطول‬
‫‪ .ii‬العرض‬
‫‪ .iii‬الكثافة في االتجاه الرأسي‪.‬‬
‫‪ .iv‬الكثافة في االتجاه األفقي‪.‬‬
‫‪.2‬‬
‫الخصائص التركيبية‪ :‬تتضمن شكل الرمز الناتج و تركيبه‪.‬‬
‫ما بعد المعالجة‬
‫‪ ‬يتم من خاللها التعرف على الكلمات في النص كلمة تلو األخرى ويكون‬
‫ذالك من مق ارنة الحروف التي تكوِن الكلمة بحروف الكلمات المختزنة‬
‫داخل قواميس برنامج التعرف الضوئي‪ .‬والبد أن يكون برنامج التعرف‬
‫الضوئي يحتوي على نفس اللغة المراد التعرف عليها ‪ .‬وبع ذالك تأتي‬
‫عملية التصحيح حيث يقوم البرنامج بأخذ الكلمات المتعرف عليها ويقوم‬
‫بوضعها في ملف خاص في البرنامج وأما الحروف التي لم يتعرف عليها أو‬
‫المشكوك في صحتها يقوم البرنامج بإبرازها أو يقوم بتصحيحها‪ .‬حيث إن‬
‫عمليه التصحيح هي األغلب وتكون هذه العملية بأخذ الكلمة المشككة‬
‫من صحتها ومق ارنتها مع كلمة مشابهة لها في الق اموس الخاص بالبرنامج‬
‫وإن اختلفت في حرف أو حرفين‪ ,‬وإذا كان االختالف كبيرا يقوم البرنامج‬
‫بإدخال الكلمة إلى المعجم وذالك بعد موافقة المستخدم بذالك ‪ .‬وأخيرا‬
‫تأتي مرحله التنسيق حيث يقوم برنامج التعرف الضوئي بتحويل النص الذي‬
‫تم مسحه ومق ارنته إال ملف مثل ملف ات ) ‪.(PDF,WORD,RTF‬‬
‫أمثلة‬
‫أمثلة‬
‫لصم هللا ارحر ارحبح و الصالد‪ ،‬المال! على اشر! االلباء و الرسلبر صمبلال ولليا وحدبمد ا صحث و على اله‬
‫! شثد عالح التثلولوحيا لطور ا صلحوطا ‪ -5‬ال!نر سو ات الصاصية وقد شل هدا النطور حبع الصحاالت األلكنرولبة وسعها صحال الحاثم! االلى‪ -‬و‬
‫وطالل األن! ال و الشمارعة وطرق لنل العباالت والنر اسلى لبلى االثر اد ادت‪ ،‬ولم يقصر ثدا التطإر على الحاالت األلكنر ولية وإلحا خل ايصا العيد صر‬
‫الحاالت االحرف صنل و!ماحلى الواصئت وال!ئل و الحاالت الحرلبة‪ ،‬عير ها العلب وال!نر لطاال عا! لعرص! عر مده النطورات ثى ص احلى تللبة‬
‫احتياحاتا اليوصبه وتثيل ا! ور ال الحيايخة وخوجمر وصمانلى الر احة للح!نر‪ .‬فل لدحاله وتعالى ب صحكح كناله العطيم )والحيل والبعال و الحمبر لتركبو‬
‫ما و!يخة ويخللى ط ال ت!لموت‪) ،‬ورد ابحلى‪ .‬آبة ‪ 2‬د(‬
‫ب هدا الححت صب ! الفمق إحدف ننمبات الحمالم! االب و النس لدات !مد سو ات عدبدبر ونطإرت حف‪ -‬اصححت على صا هـس علية لمحى وضحا‬
‫الحاصر اال و رر‪ -‬نعببما النعر! الصب‪ -‬على الحرو! السكنود ة او الطثوعة‪ ،‬ما نعر! الللعة االلحلبربة )!ه ول !د!‪ 5‬ح ح ول دح ‪ 4‬ح‪ +‬حم!)ح ا‪ +‬ح‬
‫"راه( ونحنصر الالحر! )ول ح ه( !مبثو! النر كير ثى هدا الت على علبة النعر! الصولى لحرو! اللعة العردبة‬
‫بسر ان الرحن الرميم والمالة والسك م على أمثرف األنياء م الس سليق سينا وتبيا وحبيمنا مسر وعار أله‬
‫ومحبه أجسق » ويمد‬
‫لقد مثهد عالم التكنولوبيا تطو‪.‬امثحوظا فى الشر منوات الماضية وقد شمل هذا التطور جيع المجاالت‬
‫اإللكترونية ومنها مجل الحاسب اهتن و وسلئل االتممال والمتاركة وطرق نقل البيانت والتراسك ين األفراد‪...‬‬
‫الخ ‪،‬‬
‫ولم يقصر مذا التطو ر على المجاالت اإللكت ونية وإنما شمل أيضا العية من المجاالت األخرق مثل وسائك‬
‫المواممطت والنقل والمجاالت الحرية و غيرها السد واثكير ‪ .‬لطالما كان لفرض من هذه التطوب ات مي من أجل‬
‫عية احياجاثا اليومية وتهيل أمورنا المياية وتوني وسئد الب احة طبشر‪ ،‬قل سبحانه وتعالى في يد محكم‬
‫لختابه‬
‫العنفيم ( فى <لغنين فى طبثك ق التيق لثزلبئها ذزبثة ذنئئ فا أل ثنهلئوئ ) (مورة الخحد‪ ،‬آية ‪2‬ء)‬
‫ذر مذا البسر سر في ثاقس احدن تمنات الحامب‬
‫سرو ما مى علبأل في وقنا الحافر أال ومى تغبأ‬
‫بطغأ اإلنجلمزبأ (وه ذأدىه ءءكا ‪0‬ى»ء»ءء«‪1‬كا‬
‫البحك علئ سلبأ النعرفد الضونى لحروفد اطغأ‬
‫ا‪8‬ر والنى بدأسز مذ سنى امذ عدبد‪ :‬ونطو رمذ حنى ا~‬
‫النعرف الضوذر علب ‪ .‬الحروفد المكنربأ أو المطبوعأ‪ ،‬ما نعرف‬
‫ا»ءأدءم ) وتحنمس باالمرف (‪6‬كا‪ .)9‬سبكون الن كبز فى مذا‬
‫المريأ‬
‫أمثلة‬
‫<_‪ .‬وب ب ب _< ااء‪:،‬ا‪-‬نبأد‪«:.‬‬
‫‪ ..‬دذد‪.‬وإ ‪.‬ذ‪ :.‬أكد ذ‪.‬ن ‪..‬إ‬
‫»ى ءن‬
‫ية ء‪»_،‬لمب م >‪<..‬مث ‪>.‬‬
‫معوق ات عملية التعرف الضوئي على‬
‫الحروف‬
‫‪ ‬جودة النص ‪ :‬ويكون جودة النص سواء كان مطبوع أو مكتوب من أهم‬
‫العوامل المؤثرة على التعرف الضوئي فعلى سبيل المثل النصوص المطبوعة التي‬
‫حجمها اصغر من ‪ 10‬أنش أو تحتوني على خاصية المائل أو الغامق أو التسطير‪.‬‬
‫‪ ‬جوده الورق‪ :‬فجودة الورق لها تأثير مباشر على التعرف الضوئي ف الصحف‬
‫واألوراق المطبوعة القديمة ووجود قطرات من الحبر على الورق و الورق ذو‬
‫الخلفية الملونة وغيرها من األمور التي تخص الورق ‪ .‬كلها عوامل تؤثر على نتيجة‬
‫المسح ضوئي‪.‬‬
‫‪ ‬خصائص اللغة العربية‪:‬‬
‫‪ ‬كثرة النق اط في اللغة العربية مثل كلمه (العنزي) قد يمسحها الماسح إلى‬
‫كلمة (الع تري)‪.‬‬
‫‪ ‬اختالف طريقه الكتابة من شخص إلى آخر فكمله (محمد) على سبيل المثال‬
‫قد تكتب (محمد) فيتعرف عليها بشكل خاطئ الن الماسح يقوم بتقسيمها إال‬
‫أوال حرف الحاء ثانيا حرف الميم ثالثا حرف الميم واخبر الدال فتتكون لنا‬
‫كلمه (حمميد)‪.‬‬