لماذا ما وراء البيانات؟
Download
Report
Transcript لماذا ما وراء البيانات؟
The Effect of Metadata in
Discovering Web Resources
تأثير ما وراء البيانات على الوصول إلى
مصادر المعلومات المتاحه على الشبكة
العنكبوتية
د.خالد عبد الفتاح محمد
كلية األداب – جامعة المنيا
موضوع الدراسة
ي ِِؤثر استخدام ما وراء البيانات على
إلى أى مدى ِ
الوصول إلى مصادر الويب وذلك من خالل اإلجابة
على ثالث تساؤالت رئيسية:
ما هى أنواع ما وراء البيانات المستخدمة فى وصف مصادر
الويب؟
إلى أى مدى يؤثر استخدام ما وراء البيانات فى صفحات الويب
حيث يؤدى إلى تكشيفها من خالل أكثر من محرك بحث؟
تابع التساؤالت
هل يؤثر استخدام ما وراء البيانات على ترتيب صفحات
الويب المسترجعة من خالل محركات البحث العالمية؟
لماذا ما وراء البيانات؟
ألنها أحد األدوات األساسية لوصف مصادر الويب
حيث يرى البعض أنها أحد الحلول األساسية لفهرسة
وتكشيف مصادر الويب .كما أن العديد من
المحركات العالمية تعلن أنها تعطى أولوية للصفحات
التى تتضمن ما وراء بيانات عند تكشيف صفحات
الويب .
الدراسات السابقة
توجد العديد من الدراسات التى تناولت موضوع ما وراء
البيانات .وقد ركزت هذه الدراسات بصفة عامة على:
تحليل معدالت استخدامها فى وصف صفحات الويب
مثال ) (Carven, 2000جمع عينة عشوائية مكونة من 628
صفحة ألختبار استخدام ميتا تاج.
تابع الدراسات السابقة
أنواع ما وراء البيانات المستخدمة فى وصف
الصفحات وأنواع الحقول المستخدمة فى عملية
الوصف.
مثال :قامت جماعة االهتمام بدبلن المحورى
بإعداد استبيان وإرساله إلى 29مكتبة فى 9دول
مختلفة للسؤال عن مدى استخدام معيار دبلن
المحورى فى وصف المصادر اإللكترونية فى تلك
المكتبات وعدد وأسماء الحقول التى يغلب
استخدامها
تابع الدراسات السابقة
إلى أى مدى تؤثر ما وراء البيانات على الترتيب فى
محركات البحث.
مثال:
(Henshaw, 2001) أختبرت مدى تاثير الميتا تاج
على استرجاعية مقاالت من مجلة First Mondayفى
سبع محركات بحث عالمية ومدى تأثير إضافة الميتا -تاج
على ترتيب الصفحات.
تابع الدراسات السابقة
سهولة وإمكانية االستخدام.
مثال:
قام ) (Swetland et al., 2000بدراسة
قدرة طلبة من الصف الرابع والخامس
على وصف صفحات الويب التى قاموا
بإعدادها ألنفسهم باستخدام معيار دبلن
منهج الدراسة
المنهج الوصفى التحليلى
المنهج التجريبى
الخطوات
.1اختيار االستفسارات (GLIS, DC, TEI, RDF,
)CIMI
.2اختيار المحركات (AltaVista, HotBot,
)Infoseek
.3البحث واألسترجاع
.4التحليل والتجريب
التحليل والتجريب
وتم تقسيم عملية التحليل والتجريب إلى مرحلتين
أساسيتين:
المرحلة األولى:التحليل
وتم فى هذه المرحلة تحليل نتائج االسترجاع للتعرف
على معدالت استخدام ما وراء البيانات وأنواع الحقول
المستخدمة فى وصف صفحات الويب ،هذا إلى جانب
تكشيف تلك الصفحات من جانب أكثر من محرك بحث.
تابع التحليل والتجريب
المرحلة الثانية التجريب
فصل الصفحات التى ال تحتوى ما وراء بيانات.
إعداد نسختين من كل صفحة تتضمن ما وراء بيانات
( أربعة حقول أساسية).
تحويل وتسجيل الملفات FTP and SE Registration
إعادة عملية البحث واالسترجاع.
مقارنة الترتيب النهائى للنسخ المختلفة.
نتائج الدراسة
التداخل والتكرار
Query
Num.
Non
Overl
Overlap
Total
1
27
3
30
2
24
6
30
3
24
6
30
4
22
8
30
5
23
7
30
Mean
6
150
Figure (1)Overlapped verses non
Overlapped Pages
20%
Non Overlapped
Overalpped
80%
أوضحت الدراسة أن عالقة األرتباط
) (Correlation = .38بين ترتيب الصفحات
المكررة فى المحركات الثالثة هى عالقة ضعيفة مما
يعنى أن محركات البحث متفقة على ترتيب الصفحات
المكررة فى المناطق الثالثة المحددة.
أنواع ما وراء البيانات
Figure 2: Metadat Use
Meta Tags
33%
No Metadata
52%
Meta Tags
Dublin Core
Dublin Core
15%
No Metadata
استخدام ما وراء البيانات فى المكررات
Figure 3: Using Metadata in the
Overlapping Documents
32%
49%
Meta Tags
Dublin Core
No Metadata
19%
تأثير ما وراء البيانات
7
6
5
4
DC
Meta-Tag
3
No-Meta
2
1
0
Infoseek
AltaVista
HotBot
Average
تأثير ما وراء البيانات على محركات البحث
7
6
5
Infoseek
4
AltaVista
3
HotBot
2
Average
1
0
DC
Meta-Tag
No-Meta
متوسط عدد الحقول المستخدمة
St. Dev.
Mean
2.58029
8.2381
DC
3.76702
3.0526
MetaTags
أن واع ال ح قول ال م س تخدمة
100%
50%
Meta-tag
Dublin Core
0%
Meta-tag
Descr Subje
Title
iption ct
Date
84% 84% 100% 13%
Creat
or
9%
Dublin Core 100% 100% 100% 45% 85%
متوسط ترتيب النسخ المختلفة
Minimum
Rank
Maximum
Rank
Mean
Original Document
1
14
5.95
With Dublin Core
1
10
5.28
With Meta-Tags
1
10
5.024
metadata_Ave_wth
1
14
5.1547
تأثير ما وراء البيانات
F i g u re (4 ) W i n e rs o f th e R u n
17 %
N O -M E T
DC
62%
21%
M e t a -T a g s