داده کاوی

Download Report

Transcript داده کاوی

‫وپول مرجع دانشگاه ومدرسه‬
‫از ‪WWW.pupuol.COM54‬‬
‫به نام خدا‬
‫‪Data Mining Using Learning‬‬
‫‪Automata‬‬
‫داده کاوی با استفاده از اتوماتای‬
‫یادگیر‬
‫وپول مرجع دانشگاه ومدرسه‬
‫‪WWW.pupuol.COM‬‬
‫مصطفی نعمتی‪ -‬نوید بذرکار – بهمن ‪90‬‬
A year spent in artificial intelligence is enough to make one believe in
God.
“Alan perlis”
54 ‫از‬
‫برگفته از مقاالت‬
Data Mining Using Learning Automata, M. R. Aghaebrahimi, S. H.
Zahiri, and M. Amiri
Learning automata based classifier, Seyed-Hamid Zahiri.
Classification Rule Discovery Using Learning Automata- Seyed-Hamid
Zahiri
54 ‫از‬
‫فهرست‬
‫چکیده مقاله‬
‫داده کاوی‬
‫اتوماتای یادگیر‬
‫داده کاوی با استفاده از اتوماتای یادگیر‬
‫نتایج آزمایشات‬
‫ٌ‬
‫منابع و ماخذ‬
‫از ‪54‬‬
‫چکیده مقاله‬
‫در این مقاله یک کاوش کننده داده )‪ (data miner‬بر پایه اتوماتای یادگیر پیشنهاد‬
‫شده است که ‪ LA-miner‬نام گذاری شده است‪.‬‬
‫‪ LA-miner‬قواعد طبقه بندی را از مجموعه داده ها ( ‪ )data set‬به طور خودکار‬
‫استخراج می کند‪.‬‬
‫از ‪54‬‬
‫چکیده مقاله‬
‫الگوریتم پیشنهادی بر پایه بهینه سازی که از اتوماتای یادگیر استفاده می کند بنا‬
‫نهاده شده است‪.‬‬
‫نتایج عملی نشان می دهد که عملکرد ‪ LA-miner‬پیشنهاد شده قابل مقایسه و در‬
‫بعض ی مواقع بهتر از ‪( Ant-miner‬الگوریتم کاوش کننده بر مبنای الگوریتم بهینه‬
‫سازی کلونی مورچه ها) و ‪( CNZ‬الگوریتم معروف داده کاوی برای طبقه بندی)‬
‫است‪.‬‬
‫از ‪54‬‬
‫داده کاوی‬
‫چرا داده کاوی؟‬
‫تعریف داده کاوی‬
‫کاربردهای داده کاوی‬
‫از ‪54‬‬
‫‪Data Mining‬‬
‫چرا داده کاوی؟‬
‫دالیل پیدایش داده کاوی‪:‬‬
‫توسعه تکنولوژيهای ذخیره و بازيابی اطالعات‪.‬‬
‫افزايش روزافزون حجم اطالعات ذخیره شده‪.‬‬
‫آرشيوهای اطالعاتی‪ ،‬به دليل حجم بسيار زياد‪ ،‬غالبا به مقبره های اطالعات تبديل می‬
‫شوند‪.‬‬
‫علیرغم هزينه های سنگین در بخش تکنولوژی اطالعات‪ ،‬بسياری از تصميمها همچنان‬
‫در فقر اطالعاتی اتخاذ می گردند و از قابليتهای بالقوه اطالعات ذخیره شده استفاده‬
‫نمی شود‪.‬‬
‫از ‪54‬‬
‫چرا داده کاوی؟‬
‫‪(VLBI) Europe's Very Long Baseline Interferometry‬دارای ‪ 16‬تلسکوپ‬
‫است که هر کدام از آن ها بالغ بر ‪ 1 Gigabit/second‬داده های نجومی در هر‬
‫دوره ‪ 25‬روزه تولید می کنند‪.‬‬
‫‪ o‬آنالیز این داده ها یک مشکل بزرگ است‪.‬‬
‫از ‪54‬‬
‫چرا داده کاوی؟‬
‫حجم عظیم داده ها در وب‬
‫جستجوی ‪ Google‬در ‪ 4‬بیلیون صفحه شامل صدها ترابایت می باشد‪.‬‬
‫پایگاه داده های امروزی بسیار حجیم هستند‪(.‬حجم هایی نظیر‪ Gigabytes‬و ‪terabytes‬‬
‫)‬
‫بیش از ‪entities/records/rows 1,000,000‬‬
‫از ‪54‬‬
‫چرا داده کاوی؟‬
‫سازمانهایی موفقند که بتوانند حداقل ‪ %7‬داده هایشان را تحلیل کنند ‪.‬‬
‫تحقیقات انجام یافته نشان داده است که سازمانها کمتر از یک درصد داده هایشان‬
‫را برای تحلیل استفاده می کنند ‪ .‬به عبارت دیگر در حالی که غرق در داده ها هستند‬
‫تشنه دانش می باشند‪.‬‬
‫بنابراین به دانش کشف از داده ها نیاز‬
‫از ‪54‬‬
‫تعریف داده کاوی‬
‫داده کاوی به دانش استخراج از داده ها اشاره دارد و هسته اصلی آن در فصل مشترک‬
‫یادگیری ماشین‪ ،‬آمار و پایگاه داده است‪.‬‬
‫از ‪54‬‬
‫فرایند داده کاوی‬
‫از ‪54‬‬
‫وظایف اساس ی در داده کاوی‬
‫طبقه بندی ‪ : Classification‬تخمین کالس یک قلم‬
‫خوشه بندی ‪ : Clustering‬یافتن خوشه ها در داده‬
‫استخراج روابط انجمنی ‪ : Associations‬مثال غالبا ‪A & B & C‬رخ می دهند‬
‫بصری سازی ‪ : Visualization‬برای تسهیل کشف انسان‬
‫خالصه سازی ‪ : Summarization‬توصیف یک گروه‬
‫کشف انحراف ‪: Deviation Detection‬یافتن تغییرات‬
‫تخمین ‪ : Estimation‬پیش بینی یک مقدار پیوسته‬
‫تحلیل پیوند ‪: Link Analysis‬یافتن ارتباطات‬
‫… ‪54‬‬
‫از‬
‫طبقه بندی‬
‫یادگیری روش ی برای تخمین کالس نمونه از روی نمونه های (طبقه بندی شده) پیش برچسب‬
‫خورده‪.‬‬
‫روشهای متنوع ‪:‬‬
‫آمار‬
‫درختهای تصمیم گیری‬
‫شبکه های عصبی‬
‫اتوماتای یادگیر‬
‫‪...‬‬
‫از ‪54‬‬
Illustrating Classification Task
54 ‫از‬
‫طبقه بندی‬
‫پس از دريافت تعدادی نمونه آموزش ی‪ ،‬يادگیرنده بايد دسته نمونه های جديد را مشخص نمايد‪.‬‬
‫مثال‪:‬‬
‫يک شرکت با بيش از ‪ 100000‬مشتری يک کاتالوگ با هزينه سنگین چاپ و توزيع می کند‪.‬‬
‫‪ ‬لزوم ارسال انتخابی کاتالوگ (نه برای همه)‬
‫‪ ‬دسته بندی‪ :‬با توجه به سوابق ارسال کاتالوگها و پاسخ مشتريان‪ ،‬چه افرادی احتماال در گروه ”عالقه‬
‫مند به محصول معرفی شده“ قرار می گیرند؟‬
‫‪ ‬کاهش هزينه ها‬
‫از ‪54‬‬
‫کاربردهای داده کاوی‬
‫حوزه های اصلی شامل کاربردهای علمی‪ ،‬تجاری و امنيتی می باشد‪.‬‬
‫در تمام حوزه ها با حجم بسيار زياد اطالعات و خصايص متعدد مواجهيم‪.‬‬
‫کاهش شديد هزينه ها‪ ،‬افزايش درآمدها و نجات زندگی انسانها از دستاوردهای داده کاوی در هريک از‬
‫حوزه های کاربردی آن است‪.‬‬
‫کاربردهای تجاری‪ :‬تشخيص صحت ادعای خسارت در بيمه‪ ،‬تشخيص سوء استفاده از کارتهای اعتباری‪،‬‬
‫تحليل اطالعات مشتريان يک سازمان‪...،‬‬
‫کاربردهای علمی‪ :‬حوزه های پزشکی‪ ،‬جغرافيائی و اقليمی‪ ،‬فضا و سفرهای فضائی‬
‫کاربردهای امنيتی‪ :‬مبارزه با تروريسم‪ ،‬مقابله با نفوذگران به شبکه های کامپيوتری‬
‫از ‪54‬‬
‫اتوماتای یادگیر‬
‫‪Learning Automata‬‬
‫يک اتوماتاي يادگیر را ميتوان بصورت يک ش ئ مجرد )‪ )Abstract Object‬که داراي تعداد متناهي‬
‫عمل است‪ ،‬در نظر گرفت‪.‬‬
‫اتوماتاي يادگیر با انتخاب يک عمل از مجموعه عمل هاي خود و ِاعمال آن بر محيط‪ ،‬عمل ميکند‪.‬‬
‫عمل مذکور توسط يک محيط تصادفي ارزيابي ميشود و اتوماتا از پاسخ محيط براي انتخاب عمل بعدي‬
‫خود استفاده ميکند‪.‬‬
‫در طي اين فرايند اتوماتا ياد ميگیرد که عمل بهينه را انتخاب نمايد‪.‬‬
‫از ‪54‬‬
‫اتوماتای یادگیر‬
‫رابطه بین اتوماتای یادگیر و محیط‬
‫از ‪54‬‬
‫اتوماتای یادگیر‬
‫یکی از مزایای اتوماتای یادگیر این است که به دانش مهمی از محیطی که در آن عمل می کند‪ ،‬و یا به هر‬
‫دانش تحلیلی از تابعی که باید بهینه شود نیاز ندارد‪.‬‬
‫یک اتوماتای یادگیر و محیط به طور کلی به ترتیب به وسیله > ‪<A,Q, R, L‬و > ‪<A, R,D‬تعریف‬
‫می شود که‪:‬‬
‫} ‪ : A= { α1, α2,…, αr‬مجوعه همه عمل اتوماتا است‪.‬‬
‫‪ r‬تعداد کل عمل ها است‪.‬در حقیقت ‪ A‬مجموعه خروجی های اتوماتا و همچنین مجموعه ورودی های‬
‫محیط است‪.‬‬
‫از ‪54‬‬
‫اتوماتای یادگیر‬
‫‪ R‬دامنه پاسخ های محیط است‪.‬‬
‫{‪ D = {d1, d2 ,…, dr‬مجوعه پاداش احتماالت است (مجوعه احتمال های جریمه)‬
‫‪.‬‬
‫که‬
‫پاداش احتماالت برای اتوماتا ناشناخته است‪.‬‬
‫‪ Q ‬حالت های اتوماتا است که به طور‬
‫تعریف می شود‪.‬‬
‫بردار احتمال عمل نامیده می شود‪.‬‬
‫بردار تخمین پاداش احتمال برای نمونه ‪ k‬است‪.‬‬
‫از ‪54‬‬
‫اتوماتای یادگیر‬
‫‪ T‬الگوریتم یادگیری یا شمای تقویت است که به وسیله اتوماتا به منظور به روز کردن حاالت خود‬
‫استفاده می شود‪.‬در حقیقت ‪:‬‬
‫از ‪54‬‬
‫اتوماتای یادگیر‬
‫در هر نمونه ‪ ،k‬اتوماتا یک عمل )‪α(k‬را از مجموعه اعمال ‪ A‬انتخاب می کند‪.‬این انتخاب بستگی به‬
‫بردار عمل جاری )‪P(k‬دارد‪.‬عمل انتخاب شده )‪ α(k‬ورودی محیط شده و محیط یک پاسخ تصادفی‬
‫)‪ β(k‬می دهد‪،‬که به عنوان ورودی اتوماتا محسوب می شود که مقدار مورد انتظار اتوماتا )‪di(k‬‬
‫است‪.‬‬
‫اگر ‪ α(k)= αi‬سپس اتوماتا )‪ Q(k+1‬را با استفاده از شمای پاداش ‪ L‬محاسبه می کند‪.‬این رویه‬
‫تا زمانی که عمل بهینه بر محیط پیدا شود ادامه می یابد‪.‬‬
‫از ‪54‬‬
‫داده کاوی با اتوماتای یادگیر‬
‫در این مقاله یک کاوش کننده داده )‪ ) data miner‬بر پایه اتوماتای یادگیر پیشنهاد شده است‬
‫که ‪ LA-miner‬نام گذاری شده است‪.‬‬
‫‪ LA-miner‬قواعد طبقه بندی را از مجموعه داده ها )‪ )data set‬به طور خودکار استخراج می‬
‫کند‪.‬‬
‫الگوریتم پیشنهادی بر پایه بهینه سازی که از اتوماتای یادگیر استفاده می کند بنا نهاده شده است‪.‬‬
‫از ‪54‬‬
‫داده کاوی با اتوماتای یادگیر‬
‫نتایج عملی نشان می دهد که عملکرد ‪ LA-miner‬پیشنهاد شده قابل مقایسه و در بعض ی مواقع بهتر‬
‫از ‪( Ant-miner‬الگوریتم کاوش کننده بر مبنای الگوریتم بهینه سازی کلونی مورچه ها) و ‪CNZ‬‬
‫(الگوریتم معروف داده کاوی برای طبقه بندی) است‪.‬‬
‫از ‪54‬‬
‫طبقه بندی کننده‬
‫طبقه بندی کننده بر مبنای اتوماتای یادگیر بر دو قسمت اصلی بنا نهاده شده است که شامل‪:‬‬
‫‪ hyperplane .1‬تصمیم گیری (‪)Decision hyperplanes‬‬
‫‪ .2‬تابع بهینه سازی که از اتوماتای یادگیر استفاده می کند‪)Function optimization(.‬‬
‫از ‪54‬‬
‫‪ Hyperplane‬تصمیم گیری‬
‫فرم کلی یک ‪ hyperplane‬به صورت زیر است‪:‬‬
‫که در آن‪:‬‬
‫بردار ویژگی افزوده (‪)augmented feature‬‬
‫ضرایب تعیین کننده ابر صفحه در فضای ‪ n‬بعدی ویژگی ها‬
‫در حالت کلی یک تعداد از ‪ hyperplane‬وجود دارد که فضای ویژگی (‪ )feature space‬را به‬
‫ناحیه های مختلفی‪ ،‬که هر ناحیه باید با یک کالس مجزا شناسایی شود جدا می شود‪.‬‬
‫از ‪54‬‬
‫‪ Hyperplane‬تصمیم گیری‬
‫یک مثال ساده‪:‬‬
‫شامل ‪ 6‬کالس‪ ،‬که به وسیله ‪ 3‬خط تصمیم کد گذاری شده اند‪.‬‬
‫از ‪54‬‬
‫تابع بهینه سازی با استفاده از اتوماتای یادگیر‬
‫در این الگوریتم ابتدا فضای جواب ناآگاهانه به ‪ hyper-cube ،r‬که هر کدام مطابق با یک عمل‬
‫اتوماتای یادگیر است‪ ،‬تقسیم می شود‪.‬‬
‫سپس با استفاده پیوسته از الگوریتم پیگرد ( ‪ )Pursuit algorithm‬احتماالت عمل ها و تخمین‬
‫پاداش احتماالت در هر دوره با محاسبه مقدار تابع از یک نمونه انتخابی تصادفی مطابق با حالت جاری‬
‫عمل بروز می شوند‪.‬‬
‫از ‪54‬‬
‫تابع بهینه سازی با استفاده از اتوماتای یادگیر‬
‫اگر تخمین یک پاداش احتمال از یک آستانه از قبل تعریف شده( ‪)predefined threshold‬‬
‫کوچکتر باشد‪ hyper-cube ،‬متناظر آنگاه بر طبق نمونه های مقدار آن تابع محاسبه می شود‪.‬‬
‫اگر هر دو مقدار میانگین و واریانس مقادیر این تابع به اندازه کافی کوچک باشند این ‪hyper-cube‬‬
‫پایدار و بالاستفاده در نظرگرفته می شود‪.‬سپس این ‪ hyper-cube‬خارج می شود و بهینه سازی با‬
‫‪ hyper-cube ،r-1‬باقی مانده ادامه می یابد‪.‬‬
‫از ‪54‬‬
‫تابع بهینه سازی با استفاده از اتوماتای یادگیر‬
‫در غیر این صورت این ‪ hyper-cube‬به عنوان ناپایدار درنظر گرفته می شود و افزایش و کاهش‬
‫(قله و دره) این تابع در این از نمونه های داخل آن تخمین زده می شود‪.‬‬
‫سپس این ‪ hyper-cube‬به تعدادی زیر ‪ hyper-cube‬که هرکدام فقط شامل نمونه های‬
‫صعودی یا نزو لی هستند تقسیم می شوند و ‪ hyper-cube‬اصلی به وسیله بهترین پاداش زیر‬
‫‪ hyper-cube‬جایگزین می شود و ‪ hyper-cube‬های دیگر بالاستفاده در نظر گرفته شده و‬
‫خارج می شود‪.‬‬
‫از ‪54‬‬
‫تابع بهینه سازی با استفاده از اتوماتای یادگیر‬
‫این رویه تا زمانی که یک شرط دقیق از قبل تعریف شده ارضا شود تکرا می شود‪.‬سپس ‪hyper-‬‬
‫‪ cube‬اصلی خارج می شود و یا به چندین مقدار که شامل شبه بهینه سراسری است همگرا می شود‪.‬‬
‫مانند دیگر الگوریتم های بهینه سازی غیرقطعی‪ ،‬هدف این روش پیدا کردن یک توافق(سازش) بین‬
‫کاوش و استخراج است‪.‬به عنوان مثال همگرا شدن به نزدیک ترین بهینه محلی و کشف رفتار تابع به‬
‫منظور کشف ناحیه سراسری است‪.‬‬
‫برنامه زمانبندی تابع بهینه سازی برپایه اتوماتای یادگیر دراسالید بعد داده شده است‪.‬‬
‫از ‪54‬‬
‫از ‪54‬‬
‫الگوریتم‬
‫از ‪54‬‬
‫الگوریتم‬
‫از ‪54‬‬
‫الگوریتم‬
‫از ‪54‬‬
‫الگوریتم‬
‫از ‪54‬‬
‫الگوریتم‬
‫از ‪54‬‬
‫الگوریتم‬
‫از ‪54‬‬
‫الگوریتم‬
‫از ‪54‬‬
‫الگوریتم‬
‫از ‪54‬‬
‫داده کاوی با اتوماتای یادگیر‬
‫دانش کشف شده توسط ‪ LA-miner‬در قالب قاعده های ‪ if-then‬نمایش داده می شود‪.‬‬
‫ً‬
‫‪ Antecedent‬رول ها شامل مجموعه ای از شرایط است که معموال توسط توسط عملگر اتصال‬
‫ً‬
‫منطقی )‪ )AND‬به هم متصل شده اند‪.‬هر شرط معموال به یک ترم (گزاره) اشاره می کند‪.‬‬
‫‪Consequent‬رول (قسمت ‪ )Then‬کالس های پیش بینی شده برای نمونه هایی که قسمت‬
‫‪ antecedent‬رول ها را ارضا می کنند را مشخص می کند‪.‬‬
‫از ‪54‬‬
‫‪ LA-miner‬پیشنهاد شده‬
‫‪ LA-miner‬پیشنهادی ما برپایه الگوریتم تابع بهینه سازی طراحی شده است که از روش اتوماتای‬
‫یادگیر استفاده می کند‪.‬برای توضیح اینکه چطور ‪ LA-miner‬رول های ‪ if-then‬را استخراج می‬
‫کند‪،‬ساختار یک رول را در نظر بگیرید‪:‬‬
‫)‪IF ( att1 is quant1) AND (att2 is quant2 ) AND … (attn is quantn‬‬
‫‪to Class j‬‬
‫(‪)training point‬‬
‫)‪i atti ( i = 1,2,...,n‬‬
‫‪.‬‬
‫از ‪54‬‬
‫‪x belongs‬‬
‫‪THEN‬‬
‫) ‪x = (att1, att2 ,..., attn‬‬
‫نتایج محاسباتی و مقایسه‬
‫در این بخش ارزیابی عملکرد ‪ LA-miner‬پیشنهاد شده بررس ی شده است‪.‬همچنین نتایج مقایسه با‬
‫‪ Ant-miner‬و ‪ CNZ‬ارائه شده است‪.‬‬
‫‪ Ant-miner‬یک الگوریتم برای طبقه بندی قواعد کشف شده است که کلونی مورچه های بهینه‬
‫سازی شده را بکار می برد‪.‬‬
‫‪ CNZ‬یک الگوریتم مشهور طبقه بندی قواعد کشف شده است‪.‬‬
‫از ‪54‬‬
‫مجموعه داده ها (‪)Data Sets‬‬
‫داده های زنبق (‪)Iris‬‬
‫داده های زنبق شامل ‪ 50‬اندازه گیری از ‪ 4‬ویژگی از هر سه نوع گونه ی‬
‫زنبق خاردار (‪،)Iris setosa‬‬
‫‪Iris setosa‬‬
‫زنبق رنگارنگ )‪(Iris versicolor‬‬
‫زنبق ورجینیکا ( ‪)Iris virginica‬‬
‫‪Iris virginica‬‬
‫‪Iris versicolor‬‬
‫ویژگی ها طول کاسبرگ )‪ ،)sepal length‬عرض کاسبرگ (‪،)sepal width‬طول گلبرگ ( ‪ )Petal length‬و‬
‫عرض گلبرگ ( ‪ )petal width‬است‪.‬‬
‫از ‪54‬‬
‫مجموعه داده ها (‪)Data Sets‬‬
‫داده های شراب (‪)Wine data‬‬
‫داده های ‪wine‬شاما آنالیز شیمیایی رشد شراب در ناحیه یکسان از ایتالیا اما گرفته شده از موجودات‬
‫ذره بینی گوناگون است‪.‬برای طبقه بندی ‪ 13‬ویژگی پیوسته در دسترس است‪.‬تعداد کالس ها ‪3‬و تعداد نمونه‬
‫های هر کالس به ترتیب ‪ 71 ،59‬و ‪ 48‬است‪.‬‬
‫داده های سرطان (‪)Cancer data‬‬
‫این پایگاه داده سرطان سینه از بیمارستان دانشگاه ‪Wisconsin‬به دست آمده است‪ 683.‬نمونه‬
‫سرطان سینه به دو کالس ‪Benign‬و ‪Malignant‬با ‪ 9‬بعد فضای ویژگی تقسیم شده اند‪.‬‬
‫از ‪54‬‬
‫نتایج آزمایش ها‬
‫‪ Ant-miner ،LA-miner‬و ‪ CNZ‬بر روی مجموعه داده های باال تست شده اند‪.‬‬
‫‪ 50‬درصد از هر محک به عنوان ‪ training points‬و مابقی ‪ testing data‬است‪.‬‬
‫آزمایش ده بار برای هر محک انجام شده و میانگین نتایج گزارش شده است‪.‬‬
‫از ‪54‬‬
‫نتایج آزمایش ها‬
‫جدول ‪ 1‬نمره تشخیص )‪ (recognition score‬به دست آمده از ‪ Rule-Set‬که توسط سه‬
‫‪ data miner‬استخراج شده برای ‪ training points‬را نشان می دهد‪.‬‬
‫از ‪54‬‬
‫نتایج آزمایش ها‬
‫جدول ‪ score of recognition 2‬به دست آمده به وسیله سه الگوریتم را برای ‪testing‬‬
‫‪ points‬را بر حسب درصد نشان می دهد‪.‬‬
‫از ‪54‬‬
‫نتیجه گیری‬
‫نتایج مقایسه نشان می دهد که ‪ LA-miner ،recognition score‬پیشنهاد شده قابل‬
‫مقایسه (حتی مواقعی بهتر از) ‪ Ant-miner‬و ‪ CNZ‬برای فاز های ‪training‬و ‪testing‬‬
‫است‪.‬عالوه بر این میانگین تعاد رول های به دست آمده به ویسیه ‪ LA-miner‬کمتر از دو ‪data‬‬
‫‪ miner‬دیگر است‪.‬‬
‫از ‪54‬‬
‫منابع‬
Data Mining Using Learning Automata, M. R. Aghaebrahimi, S. H.
Zahiri, and M. Amiri
Learning automata based classifier, Seyed-Hamid Zahiri.
Classification Rule Discovery Using Learning Automata- Seyed-Hamid
Zahiri
54 ‫از‬
www.Prozhe.com
‫پایان‬
54 ‫از‬