تعريب الحاسبات رمز المادة : عال 428 - التعرف الضوئي على الحروف العربية ( )A-OCR بحث الطالبان : عقيل عبداهلل بوشفيع . عبداهلل إبراهيم البراهيم 425102832 427103907
Download
Report
Transcript تعريب الحاسبات رمز المادة : عال 428 - التعرف الضوئي على الحروف العربية ( )A-OCR بحث الطالبان : عقيل عبداهلل بوشفيع . عبداهلل إبراهيم البراهيم 425102832 427103907
تعريب الحاسبات
رمز المادة :عال 428 -
التعرف الضوئي على
الحروف العربية ()A-OCR
بحث الطالبان:
عقيل عبداهلل بوشفيع .عبداهلل إبراهيم البراهيم
425102832
427103907
مقدمة
•تعريف تقنية التعرف الضوئي على الحروف(:)OCR
عملية تحويل النصوص المكتوبة مباشرة إلى نظام التعرف أو المطبوعة (آليًا أو بخط
اليد) على الورق التق ليدي إلى مستندات إلكترونية ق ابلة للتعديل والتحرير باستخدام
البرمجيات التي تسمح للمستخدم بذلك ،ويتم إدخال الصورة النصية إلى برنامج التعرف
الضوئي للحروف باستخدام ماسح ضوئي معين.
•أنواع التعرف الضوئي على الحروف:
•التعرف الضوئي غير المباشر ()Off-Line
يتم إدخال الصور النصية المكتوبة يدويا أو المطبوعة آلياً باستخدام ماسح ضوئي معين إلى برنامج
التعرف الضوئي على الحروف ومن ثم يتم تحويل هذه الصورة النصية بعد مرورها بمجموعة من
العمليات إلى مستند إلكتروني ق ابل للتحرير والتعديل.
•التعرف الضوئي المباشر ()On-Line
يتم التعرف على الحروف العربية (أو غير العربية) المكتوبة -بخط اليد باستخدام وسائل إدخال
معينة -مباشرة أثناء اإلدخال من قبل نظام التعرف على الحروف العربية.
تاريخ التعرف الضوئي على الحروف
•المحاولة البدائية األولى:
•في عام 1870م ،اخترع جيم كاري ماسح ضوئي يعمل عن طريق الخاليا الضوئية.
•في عام 1929م ،حصل العالم غوستاف توشك ( )Gustav Tauschekعلى براءة اختراع في
عملية التعرف الضوئي للحروف في ألمانيا.
•وفي عام 1933م ،حصل العالم هندل ( )Handelعلى براءة اختراع أيضاً في هذا المجال في
أمريكا.
•أول نظام تم تثبيته كان في مجلة (.)Reader’s Digest
•بداية محاوالت التعرف الضوئي للحروف العربية:
•أما من ناحية اللغة العربية ف لألسف بدأ التفكير متأخراً عن كيفية التعرف الضوئي على النصوص
العربية فكانت في أوائل الثمانيات -أي بعد بداية الغرب بثالثين سنة -مع أن اللغة العربية
مهمة ألنها اللغة التي بتحدثها 240مليون شخص كما أن تتيح التعرف على عده لغات متشابه مثل
األردية والكردية والف ارسية .وتوال التطور عن التعرف النصوص العربية إال وقتنا الحاضر حتى
وصلت الدقة في التعرف إال . %95والبد أن نشكر شركات التي اهتمت لهذا التطور ومنها صخر,
ريد ايرس وغيرها من الشركات التي اهتمت في هذه التقنية المهمة
مميزات التعرف الضوئي على الحروف
تعتبير بديل آخر لطريقة إدخال البيانات إلى الحاسب اآللي بدالً من
استخدام لوحة المف اتيح التق ليدية.
سهولة الحصول على نسخة طبق األصل من مستند مطبوع أو مكتوب
ومن دون أي مجهود يذكر.
سهولة التعديل وتحرير المستند وذالك بعد تحويله إال مستند
الكتروني ومثال على ذالك مايكروسوفت ورد.
إمكانية إضافة الرسم البياني والصور والوسائط المتعددة مثل شروحات
الفيديو بكل سهوله إال المستند االلكتروني.
سرعة تبادل المستندات االلكترونية وتوفير الوقت والتكلفة من
عمليات الشحن ونق ل المستندات الورقية.
توفير وحدات التخزين بحيث يمكن تخزين مئات من المستندات
االلكترونية في قرص صلب بحجم كف اليد
نظام وخطوات عمل ( )A-OCRالغير مباشر
•بالنسبة للمستخدم النهائي لتقنية التعرف الضوئي على الحروف العربية فيتكون النظام من :المستندات
الورقية والتي يتم مسحها ضوئيًا باستخدام ماسح ضوئي ومن ثم يتم تحويلها إلى مستند إلكتروني عن طريق
برنامج التعرف الضوئي على الحروف المثبت على الحاسب اآللي.
•أما طريقة عمل هذه التقنية بالتفصيل فتتم عن طريق الخطوات اآلتية:
•تحويل المستند الورقي إلى صورة إلكترونية.
•تمثيل الصورة المأخوذة بالماسح الضوئي إلى الخريطة الثنائية.
•خطوات ما قبل المعالجة.
•عملية التقطيع.
•استخالص النصوص.
•خطوات ما بعد المعالجة.
الحصول على صورة المستند الورقي
الحصول على صورة المستند الورقي بالماسح الضوئي.
يتم الحصول على صورة طبق األصل من المستند المطبوع عن طريق استخدام الماسح الضوئي،
يقوم الماسح الضوئي باستخدام آلية نق ل معينة (من خالل استخدام عدسات) وجهاز استشعار
والذي يقوم بتحويل شدة استضاءة الضوء إلى درجات التدرج للون الرمادي للحصول على
التمثيل المبدأي للمستند.
غالبًا في الماسحات المتطورة الحديثة ما يتم تحويل الصورة الممسوحة المتدرجة في اللون إلى
صورتين ثنائيتين .تسمى هذه العملية بالعتبة ( )Thresholdingحيث تؤدي هذه العملية
إلى إنتاج صورة نهائية أفضل من التمثيل ألمبدأي للصورة
خوارزميات عملية العتبة (:)Thresholding
الخوارزمية العامة (.)Global Method
الخوارزمية المتبنية او المتكيفة (.)Adaptive Method
تقنية العتبة
الصورة األصلية ،كما هو واضح بأن الصورة تحتوي
على التدرج اللوني للون الرمادي.
الصورة السابقة بعد تطبيق
(Thresholding with a Global Method).
الصورة األصلية بعد تطبيق
(Thresholding with an adaptive Method).
التمثيل الثنائي للصورة
•
تمثل الصورة في الحاسب اآللي بطريقتين:
• التمثيل المتجه (.)Vector
• التمثيل بخريطة البكسيل (.)Pixels Map
•
تقنية التعرف الضوئي على الحروف تعمل على التمثيل الثاني ()Pixel Map
التمثيل الثنائي للصورة
يتم تحويل خريطة البيكسالت إلى خريطة ثنائية (.)1 ،0
تحويل الخط المطبوع (باللون األسود غالبًا) إلى الرقم واحد.
الخلفية البيضاء (الورقة) إلى الصفر.
السبب والهدف :أن التعامل مع األرق ام أسهل من التعامل مع خريطة البيكسالت.
ماقبل المعالجة
هذه العملية من أهم خطوات عملية التعرف الضوئي على الحروف حيث تتم فيها
مجموعة من الخطوات الرئيسية:
تنقية الصورة من الشوائب :الصورة التي نحصل عليها من الماسح الضوئي ليست نظيفة
بالكامل.
تحتوي على بيانات زائدة (شوائب) ،ولكي تتم عملية التعرف بشكل صحيح يجب أن تتم إزالة
هذه البيانات المضلِلَةُ لعملية التعرف الضوئي على الحروف.
التنحيف :الهدف الرئيسي من هذه العملية هو إيجاد هيكل الحرف أو الكلمة ككل.
مفيدة جداً في حالة كون المستند الورقي قديم والخط المستخدم فيه ذو سماكة متوسطة
إلى شديدة ،ففي هذه الحالة تصعب على عملية التعرف الضوئي على الحروف إيجاد الهيكل
الصحيح للحرف
تتم عملية التنحيف من خالل حذف النق اط العرضية الزائدة الواصلة بين نقطتين ،لتتم عملية
تمثيل الحرف بعدد أق ل من النق اط التي كان يمثل بها سابقًا.
ماقبل المعالجة
إزالة التشويش :إزالة جميع الحواف السوداء المرافقة للنص أو تلك النقط الزائدة الناتجة
من سوء عملية التصوير أو وجود عوالق على لوح الماسح الضوئي.
مثال على تقنيات إزالة التشويش :تقنية الجزاء المتصلة والتي تؤدي إلى حذف األجزاء المعزولة.
عميلة التنعيم (المالسة) :تتضمن عملية التنعيم عمليتي إزالة التشويش وعملية التنحيف ،حيث
يتم تحديد نقطة معينة من خالل اإلستف ادة من النق اط الثمان المجاورة لها.
ما قبل المعالجة
تعديل الحروف :يتم تحديد وتقدير الميالن الصحيح للحروف وتحديد الحروف بأحجام معينة.
نظرا للخصائص التي تتميز بها اللغة العربية
هذه الخطوة تعتبر معقدة نوعًا ما بالنسبة للغة العربية؛ وذلك ً
والتي منها تعدد أشكال الحرف حسب موقعه من المقطع.
عاملُ بها الحروف العربية من ناحية تعديلها من نظام إلى آخر ،فعلى سبيل المثال:
تختلف الطريقة التي تُ َ
معاملة (ي) و( ى) كحرف واحد أو معاملة الحروف { (أ)(،إ)( ،آ)(،ا) } كحرف (ا).
تحديد األجزاء المتصلة :هذه الخطوة من أهم الخطوات حتى يتم تحضير الصورة لعملية التقطيع والتي تَ ْشتَرط
أن تكون الصورة مهيأة على نمط معين وهو أن تكون الكلمات واألحرف المنفردة موجودة في سطور.
الهدف من هذه الخطوة هو أن يتم تقسيم الجمل إلى كلمات ومن ثم تقسيم الكلمات إلى أجزاء أصغر بحيث
تكون الحروف المتصلة في جزء والمعزولة في جزء آخر .
التقطيع
تقوم بفصل الكلمات والحروف من أجل تسهيل عملية التعرف على كل حرف لحده.
تعتبر عملية التقطيع صعبة في اللغة العربية ما إذا ق ارنها بعملية التقطيع للغة اإلنجليزية.
األخطاء التي قد نواجهها في عملية التقطيع:
التقطيع أكثر من الالزم ،والتقطيع في األماكن الخطأ.
تقنيات التقطيع
المدرج اإلحصائي لإلسق اط العمودي:
استخدام الحد األعلى المحلّي كنقطة قطع.
استخالص الخصائص
بعد إتمام عملية التقطيع يتم استخالص الخصائص العامة للجزء الذي يراد تحويله إلى نص إلكتروني.
من الخصائص الممكنة:
الخصائص التركيبية مثل شكل الجزء.
التحويل :ويقصد به :تحويل الجزء إلى متجهات مستقيمة بزوايا محددة.
التطابقية :ويقصد به مق ارنة الجزء نقطة نقطة مع شكل محفوظ سلف ا.
التصنيف
يقصد بالتصنيف هو عملية تحديد الحرف وذلك بناءً على مجموعة من الخصائص.
.1الخصائص اإلحصائية مثل:
.iالطول
.iiالعرض
.iiiالكثافة في االتجاه الرأسي.
.ivالكثافة في االتجاه األفقي.
.2
الخصائص التركيبية :تتضمن شكل الرمز الناتج و تركيبه.
ما بعد المعالجة
يتم من خاللها التعرف على الكلمات في النص كلمة تلو األخرى ويكون
ذالك من مق ارنة الحروف التي تكوِن الكلمة بحروف الكلمات المختزنة
داخل قواميس برنامج التعرف الضوئي .والبد أن يكون برنامج التعرف
الضوئي يحتوي على نفس اللغة المراد التعرف عليها .وبع ذالك تأتي
عملية التصحيح حيث يقوم البرنامج بأخذ الكلمات المتعرف عليها ويقوم
بوضعها في ملف خاص في البرنامج وأما الحروف التي لم يتعرف عليها أو
المشكوك في صحتها يقوم البرنامج بإبرازها أو يقوم بتصحيحها .حيث إن
عمليه التصحيح هي األغلب وتكون هذه العملية بأخذ الكلمة المشككة
من صحتها ومق ارنتها مع كلمة مشابهة لها في الق اموس الخاص بالبرنامج
وإن اختلفت في حرف أو حرفين ,وإذا كان االختالف كبيرا يقوم البرنامج
بإدخال الكلمة إلى المعجم وذالك بعد موافقة المستخدم بذالك .وأخيرا
تأتي مرحله التنسيق حيث يقوم برنامج التعرف الضوئي بتحويل النص الذي
تم مسحه ومق ارنته إال ملف مثل ملف ات ) .(PDF,WORD,RTF
أمثلة
أمثلة
لصم هللا ارحر ارحبح و الصالد ،المال! على اشر! االلباء و الرسلبر صمبلال ولليا وحدبمد ا صحث و على اله
! شثد عالح التثلولوحيا لطور ا صلحوطا -5ال!نر سو ات الصاصية وقد شل هدا النطور حبع الصحاالت األلكنرولبة وسعها صحال الحاثم! االلى -و
وطالل األن! ال و الشمارعة وطرق لنل العباالت والنر اسلى لبلى االثر اد ادت ،ولم يقصر ثدا التطإر على الحاالت األلكنر ولية وإلحا خل ايصا العيد صر
الحاالت االحرف صنل و!ماحلى الواصئت وال!ئل و الحاالت الحرلبة ،عير ها العلب وال!نر لطاال عا! لعرص! عر مده النطورات ثى ص احلى تللبة
احتياحاتا اليوصبه وتثيل ا! ور ال الحيايخة وخوجمر وصمانلى الر احة للح!نر .فل لدحاله وتعالى ب صحكح كناله العطيم )والحيل والبعال و الحمبر لتركبو
ما و!يخة ويخللى ط ال ت!لموت) ،ورد ابحلى .آبة 2د(
ب هدا الححت صب ! الفمق إحدف ننمبات الحمالم! االب و النس لدات !مد سو ات عدبدبر ونطإرت حف -اصححت على صا هـس علية لمحى وضحا
الحاصر اال و رر -نعببما النعر! الصب -على الحرو! السكنود ة او الطثوعة ،ما نعر! الللعة االلحلبربة )!ه ول !د! 5ح ح ول دح 4ح +حم!)ح ا +ح
"راه( ونحنصر الالحر! )ول ح ه( !مبثو! النر كير ثى هدا الت على علبة النعر! الصولى لحرو! اللعة العردبة
بسر ان الرحن الرميم والمالة والسك م على أمثرف األنياء م الس سليق سينا وتبيا وحبيمنا مسر وعار أله
ومحبه أجسق » ويمد
لقد مثهد عالم التكنولوبيا تطو.امثحوظا فى الشر منوات الماضية وقد شمل هذا التطور جيع المجاالت
اإللكترونية ومنها مجل الحاسب اهتن و وسلئل االتممال والمتاركة وطرق نقل البيانت والتراسك ين األفراد...
الخ ،
ولم يقصر مذا التطو ر على المجاالت اإللكت ونية وإنما شمل أيضا العية من المجاالت األخرق مثل وسائك
المواممطت والنقل والمجاالت الحرية و غيرها السد واثكير .لطالما كان لفرض من هذه التطوب ات مي من أجل
عية احياجاثا اليومية وتهيل أمورنا المياية وتوني وسئد الب احة طبشر ،قل سبحانه وتعالى في يد محكم
لختابه
العنفيم ( فى <لغنين فى طبثك ق التيق لثزلبئها ذزبثة ذنئئ فا أل ثنهلئوئ ) (مورة الخحد ،آية 2ء)
ذر مذا البسر سر في ثاقس احدن تمنات الحامب
سرو ما مى علبأل في وقنا الحافر أال ومى تغبأ
بطغأ اإلنجلمزبأ (وه ذأدىه ءءكا 0ى»ء»ءء«1كا
البحك علئ سلبأ النعرفد الضونى لحروفد اطغأ
ا8ر والنى بدأسز مذ سنى امذ عدبد :ونطو رمذ حنى ا~
النعرف الضوذر علب .الحروفد المكنربأ أو المطبوعأ ،ما نعرف
ا»ءأدءم ) وتحنمس باالمرف (6كا .)9سبكون الن كبز فى مذا
المريأ
أمثلة
<_ .وب ب ب _< ااء:،ا-نبأد«:.
..دذد.وإ .ذ :.أكد ذ.ن ..إ
»ى ءن
ية ء»_،لمب م ><..مث >.
معوق ات عملية التعرف الضوئي على
الحروف
جودة النص :ويكون جودة النص سواء كان مطبوع أو مكتوب من أهم
العوامل المؤثرة على التعرف الضوئي فعلى سبيل المثل النصوص المطبوعة التي
حجمها اصغر من 10أنش أو تحتوني على خاصية المائل أو الغامق أو التسطير.
جوده الورق :فجودة الورق لها تأثير مباشر على التعرف الضوئي ف الصحف
واألوراق المطبوعة القديمة ووجود قطرات من الحبر على الورق و الورق ذو
الخلفية الملونة وغيرها من األمور التي تخص الورق .كلها عوامل تؤثر على نتيجة
المسح ضوئي.
خصائص اللغة العربية:
كثرة النق اط في اللغة العربية مثل كلمه (العنزي) قد يمسحها الماسح إلى
كلمة (الع تري).
اختالف طريقه الكتابة من شخص إلى آخر فكمله (محمد) على سبيل المثال
قد تكتب (محمد) فيتعرف عليها بشكل خاطئ الن الماسح يقوم بتقسيمها إال
أوال حرف الحاء ثانيا حرف الميم ثالثا حرف الميم واخبر الدال فتتكون لنا
كلمه (حمميد).