لماذا ما وراء البيانات؟

Download Report

Transcript لماذا ما وراء البيانات؟

‫‪The Effect of Metadata in‬‬
‫‪Discovering Web Resources‬‬
‫تأثير ما وراء البيانات على الوصول إلى‬
‫مصادر المعلومات المتاحه على الشبكة‬
‫العنكبوتية‬
‫د‪.‬خالد عبد الفتاح محمد‬
‫كلية األداب – جامعة المنيا‬
‫موضوع الدراسة‬
‫ي ِِؤثر استخدام ما وراء البيانات على‬
‫إلى أى مدى ِ‬
‫الوصول إلى مصادر الويب وذلك من خالل اإلجابة‬
‫على ثالث تساؤالت رئيسية‪:‬‬
‫‪‬‬
‫‪‬‬
‫ما هى أنواع ما وراء البيانات المستخدمة فى وصف مصادر‬
‫الويب؟‬
‫إلى أى مدى يؤثر استخدام ما وراء البيانات فى صفحات الويب‬
‫حيث يؤدى إلى تكشيفها من خالل أكثر من محرك بحث؟‬
‫تابع التساؤالت‬
‫‪‬‬
‫هل يؤثر استخدام ما وراء البيانات على ترتيب صفحات‬
‫الويب المسترجعة من خالل محركات البحث العالمية؟‬
‫لماذا ما وراء البيانات؟‬
‫ألنها أحد األدوات األساسية لوصف مصادر الويب‬
‫حيث يرى البعض أنها أحد الحلول األساسية لفهرسة‬
‫وتكشيف مصادر الويب‪ .‬كما أن العديد من‬
‫المحركات العالمية تعلن أنها تعطى أولوية للصفحات‬
‫التى تتضمن ما وراء بيانات عند تكشيف صفحات‬
‫الويب ‪.‬‬
‫الدراسات السابقة‬
‫‪‬‬
‫‪‬‬
‫توجد العديد من الدراسات التى تناولت موضوع ما وراء‬
‫البيانات‪ .‬وقد ركزت هذه الدراسات بصفة عامة على‪:‬‬
‫تحليل معدالت استخدامها فى وصف صفحات الويب‬
‫مثال )‪ (Carven, 2000‬جمع عينة عشوائية مكونة من ‪628‬‬
‫صفحة ألختبار استخدام ميتا تاج‪.‬‬
‫تابع الدراسات السابقة‬
‫‪‬أنواع ما وراء البيانات المستخدمة فى وصف‬
‫الصفحات وأنواع الحقول المستخدمة فى عملية‬
‫الوصف‪.‬‬
‫مثال‪ :‬قامت جماعة االهتمام بدبلن المحورى‬
‫بإعداد استبيان وإرساله إلى ‪ 29‬مكتبة فى ‪ 9‬دول‬
‫مختلفة للسؤال عن مدى استخدام معيار دبلن‬
‫المحورى فى وصف المصادر اإللكترونية فى تلك‬
‫المكتبات وعدد وأسماء الحقول التى يغلب‬
‫استخدامها‬
‫تابع الدراسات السابقة‬
‫‪‬إلى أى مدى تؤثر ما وراء البيانات على الترتيب فى‬
‫محركات البحث‪.‬‬
‫مثال‪:‬‬
‫‪ (Henshaw, 2001) ‬أختبرت مدى تاثير الميتا تاج‬
‫على استرجاعية مقاالت من مجلة ‪ First Monday‬فى‬
‫سبع محركات بحث عالمية ومدى تأثير إضافة الميتا‪ -‬تاج‬
‫على ترتيب الصفحات‪.‬‬
‫تابع الدراسات السابقة‬
‫‪‬سهولة وإمكانية االستخدام‪.‬‬
‫مثال‪:‬‬
‫قام )‪ (Swetland et al., 2000‬بدراسة‬
‫قدرة طلبة من الصف الرابع والخامس‬
‫على وصف صفحات الويب التى قاموا‬
‫بإعدادها ألنفسهم باستخدام معيار دبلن‬
‫منهج الدراسة‬
‫‪‬‬
‫المنهج الوصفى التحليلى‬
‫‪‬‬
‫المنهج التجريبى‬
‫الخطوات‬
‫‪.1‬اختيار االستفسارات ‪(GLIS, DC, TEI, RDF,‬‬
‫)‪CIMI‬‬
‫‪.2‬اختيار المحركات ‪(AltaVista, HotBot,‬‬
‫)‪Infoseek‬‬
‫‪.3‬البحث واألسترجاع‬
‫‪.4‬التحليل والتجريب‬
‫التحليل والتجريب‬
‫‪‬‬
‫‪‬‬
‫وتم تقسيم عملية التحليل والتجريب إلى مرحلتين‬
‫أساسيتين‪:‬‬
‫المرحلة األولى‪:‬التحليل‬
‫وتم فى هذه المرحلة تحليل نتائج االسترجاع للتعرف‬
‫على معدالت استخدام ما وراء البيانات وأنواع الحقول‬
‫المستخدمة فى وصف صفحات الويب‪ ،‬هذا إلى جانب‬
‫تكشيف تلك الصفحات من جانب أكثر من محرك بحث‪.‬‬
‫تابع التحليل والتجريب‬
‫‪‬‬
‫المرحلة الثانية التجريب‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫فصل الصفحات التى ال تحتوى ما وراء بيانات‪.‬‬
‫إعداد نسختين من كل صفحة تتضمن ما وراء بيانات‬
‫( أربعة حقول أساسية)‪.‬‬
‫تحويل وتسجيل الملفات ‪FTP and SE Registration‬‬
‫إعادة عملية البحث واالسترجاع‪.‬‬
‫مقارنة الترتيب النهائى للنسخ المختلفة‪.‬‬
‫نتائج الدراسة‬
‫التداخل والتكرار‬
Query
Num.
Non
Overl
Overlap
Total
1
27
3
30
2
24
6
30
3
24
6
30
4
22
8
30
5
23
7
30
Mean
6
150

Figure (1)Overlapped verses non
Overlapped Pages
20%
Non Overlapped
Overalpped
80%
‫أوضحت الدراسة أن عالقة األرتباط‬
‫)‪ (Correlation = .38‬بين ترتيب الصفحات‬
‫المكررة فى المحركات الثالثة هى عالقة ضعيفة مما‬
‫يعنى أن محركات البحث متفقة على ترتيب الصفحات‬
‫المكررة فى المناطق الثالثة المحددة‪.‬‬
‫أنواع ما وراء البيانات‬
Figure 2: Metadat Use
Meta Tags
33%
No Metadata
52%
Meta Tags
Dublin Core
Dublin Core
15%
No Metadata
‫استخدام ما وراء البيانات فى المكررات‬
Figure 3: Using Metadata in the
Overlapping Documents
32%
49%
Meta Tags
Dublin Core
No Metadata
19%
‫تأثير ما وراء البيانات‬
7
6
5
4
DC
Meta-Tag
3
No-Meta
2
1
0
Infoseek
AltaVista
HotBot
Average
‫تأثير ما وراء البيانات على محركات البحث‬
7
6
5
Infoseek
4
AltaVista
3
HotBot
2
Average
1
0
DC
Meta-Tag
No-Meta
‫متوسط عدد الحقول المستخدمة‬
‫‪St. Dev.‬‬
‫‪Mean‬‬
‫‪2.58029‬‬
‫‪8.2381‬‬
‫‪DC‬‬
‫‪3.76702‬‬
‫‪3.0526‬‬
‫‪Meta‬‬‫‪Tags‬‬
‫أن واع ال ح قول ال م س تخدمة‬
100%
50%
Meta-tag
Dublin Core
0%
Meta-tag
Descr Subje
Title
iption ct
Date
84% 84% 100% 13%
Creat
or
9%
Dublin Core 100% 100% 100% 45% 85%
‫متوسط ترتيب النسخ المختلفة‬
Minimum
Rank
Maximum
Rank
Mean
Original Document
1
14
5.95
With Dublin Core
1
10
5.28
With Meta-Tags
1
10
5.024
metadata_Ave_wth
1
14
5.1547
‫تأثير ما وراء البيانات‬
F i g u re (4 ) W i n e rs o f th e R u n
17 %
N O -M E T
DC
62%
21%
M e t a -T a g s