Transcript k-means

‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫العنقدة (التجميع)‬
‫‪ -1‬ما هي العنقدة‪.‬‬
‫‪ -2‬المتطلبات النموذجية لعملية العنقدة‪.‬‬
‫‪ -3‬أنواع البيانات في العناقيد ‪.‬‬
‫‪ -4‬تهيئة البيانات‪.‬‬
‫‪ -5‬الطرق الرئيسية في العنقدة و أهم الخوارزميات ‪.‬‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪ ‬إن عملية العنقدة هي عملية تجميع الكائنات أو العناصر التي تمتلك صفات و‬
‫سمات متشابهة ضمن مجموعات تدعى العناقيد‪.‬‬
‫‪ ‬تعتبر عملية العنقدة (التجميع) إحدى الطرق الرئيسية في عملية التنقيب في‬
‫البيانات‪،‬و يمكن أن تستخدم كأداة قائمة بذاتها الكتساب نظرة ثاقبة على كيفية‬
‫توزع البيانات و مراقبة خصائص كل مجموعة‪ ،‬والتركيز على مجموعة معينة‬
‫من المجموعات و ذلك لمزيد من التحليل و يمكن أن تكون بمثابة خطوة تمهيدية‬
‫أو ابتدائية لعمل تقنيات أخرى مثل التوصيف و التصنيف ‪.‬‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪ ‬تصنف العنقدة في مجال التعلم الغير استشرافي أي دون إعطاء أي‬
‫معلومات مسبقا عن الفئات أو السمات لهذا السبب يعتبر التجميع هو‬
‫شكل من أشكال التعلم عن طريق المالحظة بدال من التعلم من خالل‬
‫األمثلة ‪.‬‬
‫‪ ‬يمكن لعملية العنقدة أن تستخدم للكشف‬
‫عن الحاالت الشاذة ‪.‬‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫قابلية التدرج ‪.‬‬
‫القدرة على التعامل مع أنواع مختلفة من السمات‪.‬‬
‫اكتشاف العناقيد ذات األشكال العشوائية ‪.‬‬
‫متطلبات الحد األدنى لمجال المعرفة لتحديد معلومات اإلدخال‪.‬‬
‫القدرة على التعامل مع البيانات التي تحتوي ضجيج ‪.‬‬
‫العناقيد اإلضافية وعدم الحساسية لترتيب السجالت المدخلة ‪.‬‬
‫تعدد األبعاد‪.‬‬
‫التجميع على أساس القيد‪.‬‬
‫تفسيرها وقابليتها لالستخدام‪.‬‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪ ‬مصفوفة البيانات (‪ : )Data Matrix‬التي تمثل (‪ )n‬غرض مع المتحول (‪ )p‬الذي‬
‫يمثل المعيار او السمات ‪.‬‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫مصفوفة االختالف ‪ :‬و هي مصفوفة المسافات التي تخزن فيها التقاربات المتاحة‬
‫لجميع األزواج من األغراض (‪: )n‬‬
‫)‪ d(i,j‬يمثل مقياس االختالف بين األغراض ‪ i‬و ‪j‬‬
‫العدد (‪ d)i,j‬غير سالب و هو يتقارب إلى الصفر عندما تكون درجة التشابه عالية أو‬
‫يكون الغرضان متقاربان و يتباعد عن الصفر عندما يكونان مختلفان ‪.‬‬
‫معظم خوارزمات العنقدة تتم على مصفوفة االختالف بعد تمثيل البيانات باستخدام‬
‫مصفوفة البيانات ‪.‬‬
‫ في التنقيب في البيانات‬K-means ‫مشروع تحسين خوارزمية‬
: ‫ أنواع البيانات‬
Interval-Scaled Variables
Binary Variables
Categorical Variables
Ordinal Variables
Ratio-Scaled Variables
Variables of Mixed Types






‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪ : Interval-Scaled Variables ‬و هي البيانات من نوع مجال أي لهذا النمط من‬
‫البيانات حد أعلى و حد أدنى يعبر عن مجال القيم التي يمكن أن تأخذه الواصفات‬
‫للبيانات مثال ‪ :‬الطول أو العمر أو الوزن أو درجات الحرارة و غيرها ‪:‬‬
‫‪ ‬حساب الوسطي لجميع الكائنات حسب العالقة‬
‫‪ ‬نقوم بحساب وسطي االنحراف المطلق (‪ )mean absolute deviation‬الذي يعطى بالعالقة ‪:‬‬
‫‪ ‬نقوم بحساب قيمة (‪ )z-score‬الذي يعطي بالعالقة ‪:‬‬
‫‪ ‬و هي القيمة التي من خاللها يمكن حساب المسافات بين األغراض في مجموعة‬
‫البيانات المطلوبة و يتم تشكيل المصفوفة عدم التشابه‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪ :Binary Variables ‬و هي المتحوالت التي تمتلك حاليتن فقط (‪ )0,1‬الحالة ‪ 0‬تعني‬
‫ان المتحول غائب أو ال يتمتع بصفة معينة و الحالة ‪ 1‬تعني أن المتحول حاضر أي أنه‬
‫يتمتع بصفة معينة و هناك نوعين من المتحوالت الثنائية ‪:‬‬
‫‪ ‬المتناظرة(‪: )symmetric‬‬
‫حيث (‪ )r,s‬هما عدد مرات االختالف‬
‫حيث (‪ )q‬هي عدد مرات التشابه بأن الغرضان يتمتعان بنفس السمة‬
‫حيث (‪ )t‬هي عدد مرات التشابه بأن الغرضان ال يتمتعان بنفس السمة‬
‫‪ ‬الغير متناظرة (‪:)asymmetric‬‬
‫‪ ‬بعد تمثيل البيانات نقوم بتشكيل مصفوفة عدم التشابه ‪.‬‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪ :Categorical Variables ‬و هي تعميم لحالة المتحوالت الثنائية فهي تمتلك إمكانية‬
‫أن تأخد أكثر من حالتين من األمثلةعلة هذا النوع من المتحوالت األلوان ‪.‬‬
‫‪ ‬حساب عدم التشابه يعطى بالعالقة ‪:‬‬
‫‪ ‬حيث أن ‪:‬‬
‫‪ M ‬هو عدد مرات التشابه بين الغرضين أي يكون الغرضين في نفس الحالة‪.‬‬
‫‪ P ‬هو العدد الكلي لعدم التشابه بين الغرضين‪.‬‬
‫‪‬‬
‫‪ ‬نقوم بتشكيل مصفوفة عدم التشابه‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪ :Ordinal Variables ‬و هي تشابه المتحوالت ‪ Categorical Variables‬و لكن في‬
‫هذه الحالة يؤخذ الترتيب بعين االعتبار مثال درجات التقدير (دكتوراة ‪ ,‬ماجستير‪,‬إجازة‬
‫‪ ,‬مساعد) من أجل تمثيل هذه السمات يتم تمثيلها قيم عددية تدل على التصنيف فمثال‬
‫تعطى قيمة ‪ 1‬للمساعد و ‪ 2‬لإلجازة و ‪ 3‬للماجستير و ‪ 4‬للدكتوراة فيصبح لدينا مجال‬
‫التصنيف هو }‪ {1…..M‬و ‪M=4‬و من ثم نقوم بتحويل المجال ]‪ [1,M‬إلى المجال من‬
‫]‪ [0,1‬و ذلك من خالل العالقة التالية ‪:‬‬
‫‪ ‬نقوم بمعالجة المتحوالت الناتجة و كأنها متحوالت المجال و نقوم بحساب المسافات و‬
‫تشكيل مصفوفة عدم التشابه‪.‬‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪ :Ratio-Scaled Variables ‬و هي المتحوالت التي تعطي قياسات مفيدة في‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪Bt‬‬
‫‪ ) Ae‬حيث ‪A,B‬‬
‫المجاالت الغير خطية مثل المجال األسي حسب الصيغة (‬
‫هي ثوابت موجبة و ‪ t‬تعبر عن الزمن عادة من أشهر األمثلة نمو نوع من البكتريا مع‬
‫مرور الزمن أو الزمن الالزم الضمحالل عنصر مشع‬
‫هناك ثالثة طرق لحساب عدم التشابه بالنسبة لهذا النوع ‪:‬‬
‫معالجة ‪ Ratio-Scaled Variables‬كما تعالج ‪ Scaled Variables‬و لكن هذه‬
‫الطريقة ال ينصح بها ألن المجال ممكن أن يتعرض للتشوه و تصبح القيم غير دقيقة‬
‫تطبيق التحويل اللوغاريتمي و من ثم معالجتها بطريقة ‪. Interval‬‬
‫معالجتها مثل متحوالت ‪ Ordinal‬و معالجة تصنيفاتها مثل ‪.Interval‬‬
‫الطريقتان الثانية و الثالثة هما الطريقتان األفضل اعتمادا على التطبيق المعطى ‪.‬‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪ : Variables of Mixed Types ‬و هذا النوع هو الموجود غالبا في قواعد البيانات‬
‫الحقيقة أي يكون لدينا خليط من جميع األنواع من البيانات و تعرف عملية عدم التشابه‬
‫بالعالقة التالية‪:‬‬
‫‪ ‬بعد االنتهاء من تمثيل البيانات يتم أنشاء مصفوفة عدم التشابه ‪.‬‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪ ‬الطرق الرئيسية في العنقدة ‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫طرق التقسيم‬
‫الطرق الهرمية‬
‫الطرق المعتمدة على الكثافة‬
‫الطرق الشبكية‬
‫الطرق المعتمدة على النماذج‬
‫التجميع المتعدد األبعاد‬
‫الطرق المعتمدة على القيود‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫طرق التقسيم ‪ :‬تقوم بتقسيم البيانات المؤلفة من (‪ )n‬كائن (غرض) إلى (‪ )K‬قسم حيث‬
‫يمثل كل قسم عنقود فهي تجمع البيانات في ‪ K‬عنقود التي تحقق المتطلبات التالية ‪:‬‬
‫كل عنقود يجب أن تحتوي على األقل كائنا واحد ‪.‬‬
‫كل كائن (غرض) يجب ان ينتمي إلى عنقود واحد فقط‪.‬‬
‫أهم الخوارزميات ‪:‬‬
‫‪ -1 ‬خوارزمية (‪. )K-means‬‬
‫‪ -2 ‬خوارزمية (‪. )K-mediods‬‬
‫‪ -3 ‬خوارزمية ‪.CLARA‬‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫ألية عمل خوارزمية (‪: )k-means‬‬
‫الدخل ‪:‬‬
‫‪ K‬عدد العناقيد‬
‫‪ D‬قاعدة البيانات التي تحتوي ‪ n‬سجل‬
‫الخرج ‪:‬‬
‫مجموعة من العناقيد عددها ‪K‬‬
‫الطريقة ‪:‬‬
‫تحديد ‪ k‬مركزا للعناقيد و يتم التحديد بشكل عشوائي‪.‬‬
‫حساب المسافة بين كل نقطة و بين جميع المراكز و يتم ذلك باستخدام البعد اإلقليدي‬
‫ربط كل نقطة من النقاط مع المركز األقرب لها‪.‬‬
‫حساب المراكز الجديدة للعناقيد (مركز الثقل)‬
‫تكرر الخطوات ‪ 2‬و ‪ 3‬و ‪ 4‬حتى نصل إلى مرحلة تصبح فيها المراكز ثابتة ال يحدث فيها أي تغير أي‬
‫حالة االستقرار‪.‬‬
‫نهاية الخوارزمية ‪.‬‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫خوارزمية (‪)K-mediods‬‬
‫الدخل ‪:‬‬
‫‪ K‬عدد العناقيد‬
‫‪ D‬مجموعة البيانات التي تحوي ‪ n‬كائن (غرض)‬
‫الخرج ‪ A :‬مجموعة من العناقيد عددها ‪K‬‬
‫الطريقة ‪:‬‬
‫اختيار ‪ K‬غرض من مجموعة البيانات ‪ D‬بشكل عشوائي و التي تمثل المراكز االبتدائية‬
‫كرر‪:‬‬
‫ضم األغراض المتبقية إلى العنقود بحسب قربها من المراكز‪.‬‬
‫اختيار غرض بشكل عشوائي (‪)O1‬‬
‫حساب الكلفة الكلية (‪ )S‬لعملية تبديل المراكز )‪ ( Om‬مع ( ‪.)O1‬‬
‫إذا كان (‪ )S<0‬بدل )‪ (Om‬مع ( ‪ )O1‬من أجل تشكيل مجموعة جديدة من المراكز(‪k-‬‬
‫‪)medoids‬‬
‫الوصول إلى حالة االستقرار‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪ ‬خوارزمية ‪: CLARA‬‬
‫‪ ‬ألية عمل هذاالخوارزمية تقوم على التالي ‪ :‬بدال من تطبيق عملية التجميع على كامل‬
‫مجموعة البيانات يتم أخذ عينة تعبر عن البيانات و من ثم تطبيق خوارزميات‬
‫‪ )K-means,K-mediods( ‬و بعد االنتهاء يتنج لدنيا مراكز العناقيد الملطوبة و من ثم‬
‫تتم عملية ضم باقي البينانات الموجودة في قاعدة البيانات إلى العناقيد المناسبة و إن‬
‫خوارزمية (‪ )CLARA‬تستطيع التعامل مع مجموعات من البيانات أكبر بكثير من‬
‫خوارزميات (‪ )K-means,K-medoids‬و إن فعالية و كفاءة خوارزمية (‪)CLARA‬‬
‫تعتمد على حجم العينة ‪.‬‬
‫‪ ‬تعقيد هذه الخوارزمية هو‬
‫‪ ‬حيث ‪ s‬هو حجم العينة و ‪ k‬هو عدد العناقيد و ‪ n‬هو العدد الكلي للكائنات‬
‫)) ‪O ( ks  k ( n  k‬‬
‫‪2‬‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪ ‬الطرق الهرمية ‪ :‬ينتج عن هذه الطريقة تحليل هرمي لمجموعة للبيانات المعطاة و‬
‫طريقة التحليل الهرمي أما أن تكون كتلية او توزيعية اعتمادا على الصيغة المطلوبة في‬
‫التحليل الهرمي فالطريقة الكتلية و التي تسمى (‪ )bottom-up‬تبدأمن العناصر‬
‫الموجودة و تشكل مجموعات منفصلة و من ثم تقوم تباعا بدمج العناصر القريبة من‬
‫بعضها إلى أن يتم دمج جميع المجموعات في مجموعة واحدة أما الطريقة التوزيعية و‬
‫التي تدعى (‪ )top-down‬التي تبدأ بجمع الكائنات في عنقود واحد و عند البدء‬
‫بعمليات التكرار ينقسم العنقود إلى عناقيد أصغر منه حتى يصبح كل كائن من الكائنات‬
‫في عنقود وحيد ‪.‬‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫الطرق المعتمدة على الكثافة ‪ :‬معظم أساليب العنقدة تعتمد على أساس المسافة بين‬
‫الكائنات‪ .‬يمكن لمثل هذه األساليب أن توجد التجمعات الكروية الشكل و تواجه صعوبة‬
‫في اكتشاف المجموعات من األشكال العشوائية وقد تم تطوير أساليب تجميع أخرى‬
‫على أساس مفهوم الكثافة الفكرة العامة منها هو النمو المتواصل للعنقود يمكن‬
‫استخدامها لتصفية الضجيج (القيم الشاذة) واكتشاف عناقيد من الشكل اللعشوائي‪.‬‬
‫من أهم الطرق المتبعة في هذا النوع من العنقدة ‪:‬‬
‫‪DBSCAN‬‬
‫‪OPTICS‬‬
‫‪DENCLUE‬‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪ ‬خوارزمية (‪ : )DBSCAN‬تحتاج هذه الخوارزمية إلى معاملين هما ( ‪ ) ‬نصف القطر للدائرة التي‬
‫تمثل الكثافة للنقطة و (‪ )minPts‬الحد األدنى من عدد النقاط للبدء بتشكيل العنقود فهذه الحوارزمية‬
‫تعتمد مبدأ الوصول و االتصال بالكثافة تبدأ هذه الخوارزمية باختيار نقطة غير مزارة و يتم ايجاد‬
‫النقاط التي تحقق ( ‪ )‬فإذا كان عدد النقاط المحققة للمسافة مع النقطة المختارة عشوائيا أكبر من‬
‫(‪ )minPts‬يتم البدء بتشكيل العنقود و إذا وجدت نقاط لم تحقق فأنها تعتبر نقاط شاذة بالنسبة للنقطة‬
‫المختارة وطبعا هذه النقطة الشاذة الحقا ممكن ان تنتمي إلى عنقود أخر ‪.‬‬
‫‪ ‬حيث ‪ ‬يمثل نصف قطر الدائرة و(‪ )minPts=3‬و كل من النقاط (‪ )p-m-o-r‬تعتبر نقاط مركزية‬
‫أو أغراض مركزية ألن كل نقطة من النقاط تمتلك ثالث نقاط في مجالها حسب ( ‪.) -neighborhood‬‬
‫‪ ‬النقطة ‪ q‬نستطيع الوصول إليها بشكل مباشر بالكثافة من النقطة ‪m‬و ‪ m‬ايضا نستطيع الوصول لها‬
‫عن طريق ‪. p‬‬
‫‪ ‬نستطيع الوصول إلى ‪ q‬من ‪ p‬بشكل غير مباشر ألن ‪ q‬نصل إلها من ‪ m‬بشكل مباشر و ‪ m‬نصل إليها‬
‫من ‪ p‬بشكل مباشر ‪.‬‬
‫‪ ‬النقاط (‪ )o,s,r‬كلها نقاط متصلة بالكثافة‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫الطرق المعتمدة على النماذج‪ :‬تفترض هذه الطريقة نموذجا لكل عنقود من العناقيد‬
‫والعثور على أفضل البيانات المناسبة لكل نموذج مفترض‪ .‬خوارزميات هذا النوع‬
‫تحدد العناقيد عن طريق إنشاء دالة الكثافة التي تعكس التوزيع المكاني لنقاط‬
‫البيانات و أيضا تعطي طريقة لتحديد عدد العناقيد تلقائيا استنادا إلى اإلحصاءات‬
‫القياسية و تأخد بعين االعتبار الضجيج والقيم الشاذة وبالتالي تعتبر من أساليب‬
‫التجميع القوية‪.‬‬
‫من هم الخوارزميات ‪:‬‬
‫‪: )Expectation-Maximization( EM‬‬
‫‪COBWEB‬‬
‫‪SOM‬‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪ ‬التجميع المتعدد األبعاد‪ :‬البيانات المتعدد االبعاد لها أهمية خاصة في‬
‫التحليل العنقودي ألن العديد من التطبيقات تتطلب تحليل األغراض التي‬
‫تحتوي على عدد كبير من الميزات أو أبعاد‪ .‬على سبيل المثال‪ ،‬قد تحتوي‬
‫الوثائق والنصوص على اآلالف من المصطلحات أو الكلمات الرئيسية‬
‫فإن تجميع بيانات عالية األبعاد يمثل تحديا كبيرا‪ .‬كما ازداد عدد األبعاد‬
‫تصبح البيانات متفرقة على نحو متزايد بحيث يصبح قياس المسافة بين‬
‫أزواج من النقاط بال معنى ومتوسط ​​كثافة النقاط في أي مكان في البيانات‬
‫تصبح منخفضة‪ .‬لذلك يحتاج إلى منهجية تجميع مختلفة لتتالئم مع بيانات‬
‫عالية األبعاد‪.‬‬
‫مشروع تحسين خوارزمية ‪ K-means‬في التنقيب في البيانات‬
‫‪ ‬الطرق المعتمدة على القيود‪ :‬في هذه الطريقة يتم تجميع البيانات في عناقيد اعتمادا‬
‫على القيود المفروضة من قبل المستخدم او التطبيق المستخدم إن القيود المفروضة‬
‫من قبل المستخدم أو التطبيق هي تعبر عن تصور المستخدم للعناقيد الناتجة من‬
‫عملية التجميع و خصائصها‪.‬‬