Transcript k-means
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
العنقدة (التجميع)
-1ما هي العنقدة.
-2المتطلبات النموذجية لعملية العنقدة.
-3أنواع البيانات في العناقيد .
-4تهيئة البيانات.
-5الطرق الرئيسية في العنقدة و أهم الخوارزميات .
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
إن عملية العنقدة هي عملية تجميع الكائنات أو العناصر التي تمتلك صفات و
سمات متشابهة ضمن مجموعات تدعى العناقيد.
تعتبر عملية العنقدة (التجميع) إحدى الطرق الرئيسية في عملية التنقيب في
البيانات،و يمكن أن تستخدم كأداة قائمة بذاتها الكتساب نظرة ثاقبة على كيفية
توزع البيانات و مراقبة خصائص كل مجموعة ،والتركيز على مجموعة معينة
من المجموعات و ذلك لمزيد من التحليل و يمكن أن تكون بمثابة خطوة تمهيدية
أو ابتدائية لعمل تقنيات أخرى مثل التوصيف و التصنيف .
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
تصنف العنقدة في مجال التعلم الغير استشرافي أي دون إعطاء أي
معلومات مسبقا عن الفئات أو السمات لهذا السبب يعتبر التجميع هو
شكل من أشكال التعلم عن طريق المالحظة بدال من التعلم من خالل
األمثلة .
يمكن لعملية العنقدة أن تستخدم للكشف
عن الحاالت الشاذة .
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
قابلية التدرج .
القدرة على التعامل مع أنواع مختلفة من السمات.
اكتشاف العناقيد ذات األشكال العشوائية .
متطلبات الحد األدنى لمجال المعرفة لتحديد معلومات اإلدخال.
القدرة على التعامل مع البيانات التي تحتوي ضجيج .
العناقيد اإلضافية وعدم الحساسية لترتيب السجالت المدخلة .
تعدد األبعاد.
التجميع على أساس القيد.
تفسيرها وقابليتها لالستخدام.
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
مصفوفة البيانات ( : )Data Matrixالتي تمثل ( )nغرض مع المتحول ( )pالذي
يمثل المعيار او السمات .
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
مصفوفة االختالف :و هي مصفوفة المسافات التي تخزن فيها التقاربات المتاحة
لجميع األزواج من األغراض (: )n
) d(i,jيمثل مقياس االختالف بين األغراض iو j
العدد ( d)i,jغير سالب و هو يتقارب إلى الصفر عندما تكون درجة التشابه عالية أو
يكون الغرضان متقاربان و يتباعد عن الصفر عندما يكونان مختلفان .
معظم خوارزمات العنقدة تتم على مصفوفة االختالف بعد تمثيل البيانات باستخدام
مصفوفة البيانات .
في التنقيب في البياناتK-means مشروع تحسين خوارزمية
: أنواع البيانات
Interval-Scaled Variables
Binary Variables
Categorical Variables
Ordinal Variables
Ratio-Scaled Variables
Variables of Mixed Types
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
: Interval-Scaled Variables و هي البيانات من نوع مجال أي لهذا النمط من
البيانات حد أعلى و حد أدنى يعبر عن مجال القيم التي يمكن أن تأخذه الواصفات
للبيانات مثال :الطول أو العمر أو الوزن أو درجات الحرارة و غيرها :
حساب الوسطي لجميع الكائنات حسب العالقة
نقوم بحساب وسطي االنحراف المطلق ( )mean absolute deviationالذي يعطى بالعالقة :
نقوم بحساب قيمة ( )z-scoreالذي يعطي بالعالقة :
و هي القيمة التي من خاللها يمكن حساب المسافات بين األغراض في مجموعة
البيانات المطلوبة و يتم تشكيل المصفوفة عدم التشابه
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
:Binary Variables و هي المتحوالت التي تمتلك حاليتن فقط ( )0,1الحالة 0تعني
ان المتحول غائب أو ال يتمتع بصفة معينة و الحالة 1تعني أن المتحول حاضر أي أنه
يتمتع بصفة معينة و هناك نوعين من المتحوالت الثنائية :
المتناظرة(: )symmetric
حيث ( )r,sهما عدد مرات االختالف
حيث ( )qهي عدد مرات التشابه بأن الغرضان يتمتعان بنفس السمة
حيث ( )tهي عدد مرات التشابه بأن الغرضان ال يتمتعان بنفس السمة
الغير متناظرة (:)asymmetric
بعد تمثيل البيانات نقوم بتشكيل مصفوفة عدم التشابه .
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
:Categorical Variables و هي تعميم لحالة المتحوالت الثنائية فهي تمتلك إمكانية
أن تأخد أكثر من حالتين من األمثلةعلة هذا النوع من المتحوالت األلوان .
حساب عدم التشابه يعطى بالعالقة :
حيث أن :
M هو عدد مرات التشابه بين الغرضين أي يكون الغرضين في نفس الحالة.
P هو العدد الكلي لعدم التشابه بين الغرضين.
نقوم بتشكيل مصفوفة عدم التشابه
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
:Ordinal Variables و هي تشابه المتحوالت Categorical Variablesو لكن في
هذه الحالة يؤخذ الترتيب بعين االعتبار مثال درجات التقدير (دكتوراة ,ماجستير,إجازة
,مساعد) من أجل تمثيل هذه السمات يتم تمثيلها قيم عددية تدل على التصنيف فمثال
تعطى قيمة 1للمساعد و 2لإلجازة و 3للماجستير و 4للدكتوراة فيصبح لدينا مجال
التصنيف هو } {1…..Mو M=4و من ثم نقوم بتحويل المجال ] [1,Mإلى المجال من
] [0,1و ذلك من خالل العالقة التالية :
نقوم بمعالجة المتحوالت الناتجة و كأنها متحوالت المجال و نقوم بحساب المسافات و
تشكيل مصفوفة عدم التشابه.
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
:Ratio-Scaled Variables و هي المتحوالت التي تعطي قياسات مفيدة في
Bt
) Aeحيث A,B
المجاالت الغير خطية مثل المجال األسي حسب الصيغة (
هي ثوابت موجبة و tتعبر عن الزمن عادة من أشهر األمثلة نمو نوع من البكتريا مع
مرور الزمن أو الزمن الالزم الضمحالل عنصر مشع
هناك ثالثة طرق لحساب عدم التشابه بالنسبة لهذا النوع :
معالجة Ratio-Scaled Variablesكما تعالج Scaled Variablesو لكن هذه
الطريقة ال ينصح بها ألن المجال ممكن أن يتعرض للتشوه و تصبح القيم غير دقيقة
تطبيق التحويل اللوغاريتمي و من ثم معالجتها بطريقة . Interval
معالجتها مثل متحوالت Ordinalو معالجة تصنيفاتها مثل .Interval
الطريقتان الثانية و الثالثة هما الطريقتان األفضل اعتمادا على التطبيق المعطى .
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
: Variables of Mixed Types و هذا النوع هو الموجود غالبا في قواعد البيانات
الحقيقة أي يكون لدينا خليط من جميع األنواع من البيانات و تعرف عملية عدم التشابه
بالعالقة التالية:
بعد االنتهاء من تمثيل البيانات يتم أنشاء مصفوفة عدم التشابه .
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
الطرق الرئيسية في العنقدة :
طرق التقسيم
الطرق الهرمية
الطرق المعتمدة على الكثافة
الطرق الشبكية
الطرق المعتمدة على النماذج
التجميع المتعدد األبعاد
الطرق المعتمدة على القيود
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
طرق التقسيم :تقوم بتقسيم البيانات المؤلفة من ( )nكائن (غرض) إلى ( )Kقسم حيث
يمثل كل قسم عنقود فهي تجمع البيانات في Kعنقود التي تحقق المتطلبات التالية :
كل عنقود يجب أن تحتوي على األقل كائنا واحد .
كل كائن (غرض) يجب ان ينتمي إلى عنقود واحد فقط.
أهم الخوارزميات :
-1 خوارزمية (. )K-means
-2 خوارزمية (. )K-mediods
-3 خوارزمية .CLARA
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
ألية عمل خوارزمية (: )k-means
الدخل :
Kعدد العناقيد
Dقاعدة البيانات التي تحتوي nسجل
الخرج :
مجموعة من العناقيد عددها K
الطريقة :
تحديد kمركزا للعناقيد و يتم التحديد بشكل عشوائي.
حساب المسافة بين كل نقطة و بين جميع المراكز و يتم ذلك باستخدام البعد اإلقليدي
ربط كل نقطة من النقاط مع المركز األقرب لها.
حساب المراكز الجديدة للعناقيد (مركز الثقل)
تكرر الخطوات 2و 3و 4حتى نصل إلى مرحلة تصبح فيها المراكز ثابتة ال يحدث فيها أي تغير أي
حالة االستقرار.
نهاية الخوارزمية .
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
خوارزمية ()K-mediods
الدخل :
Kعدد العناقيد
Dمجموعة البيانات التي تحوي nكائن (غرض)
الخرج A :مجموعة من العناقيد عددها K
الطريقة :
اختيار Kغرض من مجموعة البيانات Dبشكل عشوائي و التي تمثل المراكز االبتدائية
كرر:
ضم األغراض المتبقية إلى العنقود بحسب قربها من المراكز.
اختيار غرض بشكل عشوائي ()O1
حساب الكلفة الكلية ( )Sلعملية تبديل المراكز ) ( Omمع ( .)O1
إذا كان ( )S<0بدل ) (Omمع ( )O1من أجل تشكيل مجموعة جديدة من المراكز(k-
)medoids
الوصول إلى حالة االستقرار
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
خوارزمية : CLARA
ألية عمل هذاالخوارزمية تقوم على التالي :بدال من تطبيق عملية التجميع على كامل
مجموعة البيانات يتم أخذ عينة تعبر عن البيانات و من ثم تطبيق خوارزميات
)K-means,K-mediods( و بعد االنتهاء يتنج لدنيا مراكز العناقيد الملطوبة و من ثم
تتم عملية ضم باقي البينانات الموجودة في قاعدة البيانات إلى العناقيد المناسبة و إن
خوارزمية ( )CLARAتستطيع التعامل مع مجموعات من البيانات أكبر بكثير من
خوارزميات ( )K-means,K-medoidsو إن فعالية و كفاءة خوارزمية ()CLARA
تعتمد على حجم العينة .
تعقيد هذه الخوارزمية هو
حيث sهو حجم العينة و kهو عدد العناقيد و nهو العدد الكلي للكائنات
)) O ( ks k ( n k
2
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
الطرق الهرمية :ينتج عن هذه الطريقة تحليل هرمي لمجموعة للبيانات المعطاة و
طريقة التحليل الهرمي أما أن تكون كتلية او توزيعية اعتمادا على الصيغة المطلوبة في
التحليل الهرمي فالطريقة الكتلية و التي تسمى ( )bottom-upتبدأمن العناصر
الموجودة و تشكل مجموعات منفصلة و من ثم تقوم تباعا بدمج العناصر القريبة من
بعضها إلى أن يتم دمج جميع المجموعات في مجموعة واحدة أما الطريقة التوزيعية و
التي تدعى ( )top-downالتي تبدأ بجمع الكائنات في عنقود واحد و عند البدء
بعمليات التكرار ينقسم العنقود إلى عناقيد أصغر منه حتى يصبح كل كائن من الكائنات
في عنقود وحيد .
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
الطرق المعتمدة على الكثافة :معظم أساليب العنقدة تعتمد على أساس المسافة بين
الكائنات .يمكن لمثل هذه األساليب أن توجد التجمعات الكروية الشكل و تواجه صعوبة
في اكتشاف المجموعات من األشكال العشوائية وقد تم تطوير أساليب تجميع أخرى
على أساس مفهوم الكثافة الفكرة العامة منها هو النمو المتواصل للعنقود يمكن
استخدامها لتصفية الضجيج (القيم الشاذة) واكتشاف عناقيد من الشكل اللعشوائي.
من أهم الطرق المتبعة في هذا النوع من العنقدة :
DBSCAN
OPTICS
DENCLUE
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
خوارزمية ( : )DBSCANتحتاج هذه الخوارزمية إلى معاملين هما ( ) نصف القطر للدائرة التي
تمثل الكثافة للنقطة و ( )minPtsالحد األدنى من عدد النقاط للبدء بتشكيل العنقود فهذه الحوارزمية
تعتمد مبدأ الوصول و االتصال بالكثافة تبدأ هذه الخوارزمية باختيار نقطة غير مزارة و يتم ايجاد
النقاط التي تحقق ( )فإذا كان عدد النقاط المحققة للمسافة مع النقطة المختارة عشوائيا أكبر من
( )minPtsيتم البدء بتشكيل العنقود و إذا وجدت نقاط لم تحقق فأنها تعتبر نقاط شاذة بالنسبة للنقطة
المختارة وطبعا هذه النقطة الشاذة الحقا ممكن ان تنتمي إلى عنقود أخر .
حيث يمثل نصف قطر الدائرة و( )minPts=3و كل من النقاط ( )p-m-o-rتعتبر نقاط مركزية
أو أغراض مركزية ألن كل نقطة من النقاط تمتلك ثالث نقاط في مجالها حسب ( .) -neighborhood
النقطة qنستطيع الوصول إليها بشكل مباشر بالكثافة من النقطة mو mايضا نستطيع الوصول لها
عن طريق . p
نستطيع الوصول إلى qمن pبشكل غير مباشر ألن qنصل إلها من mبشكل مباشر و mنصل إليها
من pبشكل مباشر .
النقاط ( )o,s,rكلها نقاط متصلة بالكثافة
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
الطرق المعتمدة على النماذج :تفترض هذه الطريقة نموذجا لكل عنقود من العناقيد
والعثور على أفضل البيانات المناسبة لكل نموذج مفترض .خوارزميات هذا النوع
تحدد العناقيد عن طريق إنشاء دالة الكثافة التي تعكس التوزيع المكاني لنقاط
البيانات و أيضا تعطي طريقة لتحديد عدد العناقيد تلقائيا استنادا إلى اإلحصاءات
القياسية و تأخد بعين االعتبار الضجيج والقيم الشاذة وبالتالي تعتبر من أساليب
التجميع القوية.
من هم الخوارزميات :
: )Expectation-Maximization( EM
COBWEB
SOM
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
التجميع المتعدد األبعاد :البيانات المتعدد االبعاد لها أهمية خاصة في
التحليل العنقودي ألن العديد من التطبيقات تتطلب تحليل األغراض التي
تحتوي على عدد كبير من الميزات أو أبعاد .على سبيل المثال ،قد تحتوي
الوثائق والنصوص على اآلالف من المصطلحات أو الكلمات الرئيسية
فإن تجميع بيانات عالية األبعاد يمثل تحديا كبيرا .كما ازداد عدد األبعاد
تصبح البيانات متفرقة على نحو متزايد بحيث يصبح قياس المسافة بين
أزواج من النقاط بال معنى ومتوسط كثافة النقاط في أي مكان في البيانات
تصبح منخفضة .لذلك يحتاج إلى منهجية تجميع مختلفة لتتالئم مع بيانات
عالية األبعاد.
مشروع تحسين خوارزمية K-meansفي التنقيب في البيانات
الطرق المعتمدة على القيود :في هذه الطريقة يتم تجميع البيانات في عناقيد اعتمادا
على القيود المفروضة من قبل المستخدم او التطبيق المستخدم إن القيود المفروضة
من قبل المستخدم أو التطبيق هي تعبر عن تصور المستخدم للعناقيد الناتجة من
عملية التجميع و خصائصها.