Transcript داده کاوی
وپول مرجع دانشگاه ومدرسه
از WWW.pupuol.COM54
به نام خدا
Data Mining Using Learning
Automata
داده کاوی با استفاده از اتوماتای
یادگیر
وپول مرجع دانشگاه ومدرسه
WWW.pupuol.COM
مصطفی نعمتی -نوید بذرکار – بهمن 90
A year spent in artificial intelligence is enough to make one believe in
God.
“Alan perlis”
54 از
برگفته از مقاالت
Data Mining Using Learning Automata, M. R. Aghaebrahimi, S. H.
Zahiri, and M. Amiri
Learning automata based classifier, Seyed-Hamid Zahiri.
Classification Rule Discovery Using Learning Automata- Seyed-Hamid
Zahiri
54 از
فهرست
چکیده مقاله
داده کاوی
اتوماتای یادگیر
داده کاوی با استفاده از اتوماتای یادگیر
نتایج آزمایشات
ٌ
منابع و ماخذ
از 54
چکیده مقاله
در این مقاله یک کاوش کننده داده ) (data minerبر پایه اتوماتای یادگیر پیشنهاد
شده است که LA-minerنام گذاری شده است.
LA-minerقواعد طبقه بندی را از مجموعه داده ها ( )data setبه طور خودکار
استخراج می کند.
از 54
چکیده مقاله
الگوریتم پیشنهادی بر پایه بهینه سازی که از اتوماتای یادگیر استفاده می کند بنا
نهاده شده است.
نتایج عملی نشان می دهد که عملکرد LA-minerپیشنهاد شده قابل مقایسه و در
بعض ی مواقع بهتر از ( Ant-minerالگوریتم کاوش کننده بر مبنای الگوریتم بهینه
سازی کلونی مورچه ها) و ( CNZالگوریتم معروف داده کاوی برای طبقه بندی)
است.
از 54
داده کاوی
چرا داده کاوی؟
تعریف داده کاوی
کاربردهای داده کاوی
از 54
Data Mining
چرا داده کاوی؟
دالیل پیدایش داده کاوی:
توسعه تکنولوژيهای ذخیره و بازيابی اطالعات.
افزايش روزافزون حجم اطالعات ذخیره شده.
آرشيوهای اطالعاتی ،به دليل حجم بسيار زياد ،غالبا به مقبره های اطالعات تبديل می
شوند.
علیرغم هزينه های سنگین در بخش تکنولوژی اطالعات ،بسياری از تصميمها همچنان
در فقر اطالعاتی اتخاذ می گردند و از قابليتهای بالقوه اطالعات ذخیره شده استفاده
نمی شود.
از 54
چرا داده کاوی؟
(VLBI) Europe's Very Long Baseline Interferometryدارای 16تلسکوپ
است که هر کدام از آن ها بالغ بر 1 Gigabit/secondداده های نجومی در هر
دوره 25روزه تولید می کنند.
oآنالیز این داده ها یک مشکل بزرگ است.
از 54
چرا داده کاوی؟
حجم عظیم داده ها در وب
جستجوی Googleدر 4بیلیون صفحه شامل صدها ترابایت می باشد.
پایگاه داده های امروزی بسیار حجیم هستند(.حجم هایی نظیر Gigabytesو terabytes
)
بیش از entities/records/rows 1,000,000
از 54
چرا داده کاوی؟
سازمانهایی موفقند که بتوانند حداقل %7داده هایشان را تحلیل کنند .
تحقیقات انجام یافته نشان داده است که سازمانها کمتر از یک درصد داده هایشان
را برای تحلیل استفاده می کنند .به عبارت دیگر در حالی که غرق در داده ها هستند
تشنه دانش می باشند.
بنابراین به دانش کشف از داده ها نیاز
از 54
تعریف داده کاوی
داده کاوی به دانش استخراج از داده ها اشاره دارد و هسته اصلی آن در فصل مشترک
یادگیری ماشین ،آمار و پایگاه داده است.
از 54
فرایند داده کاوی
از 54
وظایف اساس ی در داده کاوی
طبقه بندی : Classificationتخمین کالس یک قلم
خوشه بندی : Clusteringیافتن خوشه ها در داده
استخراج روابط انجمنی : Associationsمثال غالبا A & B & Cرخ می دهند
بصری سازی : Visualizationبرای تسهیل کشف انسان
خالصه سازی : Summarizationتوصیف یک گروه
کشف انحراف : Deviation Detectionیافتن تغییرات
تخمین : Estimationپیش بینی یک مقدار پیوسته
تحلیل پیوند : Link Analysisیافتن ارتباطات
… 54
از
طبقه بندی
یادگیری روش ی برای تخمین کالس نمونه از روی نمونه های (طبقه بندی شده) پیش برچسب
خورده.
روشهای متنوع :
آمار
درختهای تصمیم گیری
شبکه های عصبی
اتوماتای یادگیر
...
از 54
Illustrating Classification Task
54 از
طبقه بندی
پس از دريافت تعدادی نمونه آموزش ی ،يادگیرنده بايد دسته نمونه های جديد را مشخص نمايد.
مثال:
يک شرکت با بيش از 100000مشتری يک کاتالوگ با هزينه سنگین چاپ و توزيع می کند.
لزوم ارسال انتخابی کاتالوگ (نه برای همه)
دسته بندی :با توجه به سوابق ارسال کاتالوگها و پاسخ مشتريان ،چه افرادی احتماال در گروه ”عالقه
مند به محصول معرفی شده“ قرار می گیرند؟
کاهش هزينه ها
از 54
کاربردهای داده کاوی
حوزه های اصلی شامل کاربردهای علمی ،تجاری و امنيتی می باشد.
در تمام حوزه ها با حجم بسيار زياد اطالعات و خصايص متعدد مواجهيم.
کاهش شديد هزينه ها ،افزايش درآمدها و نجات زندگی انسانها از دستاوردهای داده کاوی در هريک از
حوزه های کاربردی آن است.
کاربردهای تجاری :تشخيص صحت ادعای خسارت در بيمه ،تشخيص سوء استفاده از کارتهای اعتباری،
تحليل اطالعات مشتريان يک سازمان...،
کاربردهای علمی :حوزه های پزشکی ،جغرافيائی و اقليمی ،فضا و سفرهای فضائی
کاربردهای امنيتی :مبارزه با تروريسم ،مقابله با نفوذگران به شبکه های کامپيوتری
از 54
اتوماتای یادگیر
Learning Automata
يک اتوماتاي يادگیر را ميتوان بصورت يک ش ئ مجرد ) )Abstract Objectکه داراي تعداد متناهي
عمل است ،در نظر گرفت.
اتوماتاي يادگیر با انتخاب يک عمل از مجموعه عمل هاي خود و ِاعمال آن بر محيط ،عمل ميکند.
عمل مذکور توسط يک محيط تصادفي ارزيابي ميشود و اتوماتا از پاسخ محيط براي انتخاب عمل بعدي
خود استفاده ميکند.
در طي اين فرايند اتوماتا ياد ميگیرد که عمل بهينه را انتخاب نمايد.
از 54
اتوماتای یادگیر
رابطه بین اتوماتای یادگیر و محیط
از 54
اتوماتای یادگیر
یکی از مزایای اتوماتای یادگیر این است که به دانش مهمی از محیطی که در آن عمل می کند ،و یا به هر
دانش تحلیلی از تابعی که باید بهینه شود نیاز ندارد.
یک اتوماتای یادگیر و محیط به طور کلی به ترتیب به وسیله > <A,Q, R, Lو > <A, R,Dتعریف
می شود که:
} : A= { α1, α2,…, αrمجوعه همه عمل اتوماتا است.
rتعداد کل عمل ها است.در حقیقت Aمجموعه خروجی های اتوماتا و همچنین مجموعه ورودی های
محیط است.
از 54
اتوماتای یادگیر
Rدامنه پاسخ های محیط است.
{ D = {d1, d2 ,…, drمجوعه پاداش احتماالت است (مجوعه احتمال های جریمه)
.
که
پاداش احتماالت برای اتوماتا ناشناخته است.
Q حالت های اتوماتا است که به طور
تعریف می شود.
بردار احتمال عمل نامیده می شود.
بردار تخمین پاداش احتمال برای نمونه kاست.
از 54
اتوماتای یادگیر
Tالگوریتم یادگیری یا شمای تقویت است که به وسیله اتوماتا به منظور به روز کردن حاالت خود
استفاده می شود.در حقیقت :
از 54
اتوماتای یادگیر
در هر نمونه ،kاتوماتا یک عمل )α(kرا از مجموعه اعمال Aانتخاب می کند.این انتخاب بستگی به
بردار عمل جاری )P(kدارد.عمل انتخاب شده ) α(kورودی محیط شده و محیط یک پاسخ تصادفی
) β(kمی دهد،که به عنوان ورودی اتوماتا محسوب می شود که مقدار مورد انتظار اتوماتا )di(k
است.
اگر α(k)= αiسپس اتوماتا ) Q(k+1را با استفاده از شمای پاداش Lمحاسبه می کند.این رویه
تا زمانی که عمل بهینه بر محیط پیدا شود ادامه می یابد.
از 54
داده کاوی با اتوماتای یادگیر
در این مقاله یک کاوش کننده داده ) ) data minerبر پایه اتوماتای یادگیر پیشنهاد شده است
که LA-minerنام گذاری شده است.
LA-minerقواعد طبقه بندی را از مجموعه داده ها ) )data setبه طور خودکار استخراج می
کند.
الگوریتم پیشنهادی بر پایه بهینه سازی که از اتوماتای یادگیر استفاده می کند بنا نهاده شده است.
از 54
داده کاوی با اتوماتای یادگیر
نتایج عملی نشان می دهد که عملکرد LA-minerپیشنهاد شده قابل مقایسه و در بعض ی مواقع بهتر
از ( Ant-minerالگوریتم کاوش کننده بر مبنای الگوریتم بهینه سازی کلونی مورچه ها) و CNZ
(الگوریتم معروف داده کاوی برای طبقه بندی) است.
از 54
طبقه بندی کننده
طبقه بندی کننده بر مبنای اتوماتای یادگیر بر دو قسمت اصلی بنا نهاده شده است که شامل:
hyperplane .1تصمیم گیری ()Decision hyperplanes
.2تابع بهینه سازی که از اتوماتای یادگیر استفاده می کند)Function optimization(.
از 54
Hyperplaneتصمیم گیری
فرم کلی یک hyperplaneبه صورت زیر است:
که در آن:
بردار ویژگی افزوده ()augmented feature
ضرایب تعیین کننده ابر صفحه در فضای nبعدی ویژگی ها
در حالت کلی یک تعداد از hyperplaneوجود دارد که فضای ویژگی ( )feature spaceرا به
ناحیه های مختلفی ،که هر ناحیه باید با یک کالس مجزا شناسایی شود جدا می شود.
از 54
Hyperplaneتصمیم گیری
یک مثال ساده:
شامل 6کالس ،که به وسیله 3خط تصمیم کد گذاری شده اند.
از 54
تابع بهینه سازی با استفاده از اتوماتای یادگیر
در این الگوریتم ابتدا فضای جواب ناآگاهانه به hyper-cube ،rکه هر کدام مطابق با یک عمل
اتوماتای یادگیر است ،تقسیم می شود.
سپس با استفاده پیوسته از الگوریتم پیگرد ( )Pursuit algorithmاحتماالت عمل ها و تخمین
پاداش احتماالت در هر دوره با محاسبه مقدار تابع از یک نمونه انتخابی تصادفی مطابق با حالت جاری
عمل بروز می شوند.
از 54
تابع بهینه سازی با استفاده از اتوماتای یادگیر
اگر تخمین یک پاداش احتمال از یک آستانه از قبل تعریف شده( )predefined threshold
کوچکتر باشد hyper-cube ،متناظر آنگاه بر طبق نمونه های مقدار آن تابع محاسبه می شود.
اگر هر دو مقدار میانگین و واریانس مقادیر این تابع به اندازه کافی کوچک باشند این hyper-cube
پایدار و بالاستفاده در نظرگرفته می شود.سپس این hyper-cubeخارج می شود و بهینه سازی با
hyper-cube ،r-1باقی مانده ادامه می یابد.
از 54
تابع بهینه سازی با استفاده از اتوماتای یادگیر
در غیر این صورت این hyper-cubeبه عنوان ناپایدار درنظر گرفته می شود و افزایش و کاهش
(قله و دره) این تابع در این از نمونه های داخل آن تخمین زده می شود.
سپس این hyper-cubeبه تعدادی زیر hyper-cubeکه هرکدام فقط شامل نمونه های
صعودی یا نزو لی هستند تقسیم می شوند و hyper-cubeاصلی به وسیله بهترین پاداش زیر
hyper-cubeجایگزین می شود و hyper-cubeهای دیگر بالاستفاده در نظر گرفته شده و
خارج می شود.
از 54
تابع بهینه سازی با استفاده از اتوماتای یادگیر
این رویه تا زمانی که یک شرط دقیق از قبل تعریف شده ارضا شود تکرا می شود.سپس hyper-
cubeاصلی خارج می شود و یا به چندین مقدار که شامل شبه بهینه سراسری است همگرا می شود.
مانند دیگر الگوریتم های بهینه سازی غیرقطعی ،هدف این روش پیدا کردن یک توافق(سازش) بین
کاوش و استخراج است.به عنوان مثال همگرا شدن به نزدیک ترین بهینه محلی و کشف رفتار تابع به
منظور کشف ناحیه سراسری است.
برنامه زمانبندی تابع بهینه سازی برپایه اتوماتای یادگیر دراسالید بعد داده شده است.
از 54
از 54
الگوریتم
از 54
الگوریتم
از 54
الگوریتم
از 54
الگوریتم
از 54
الگوریتم
از 54
الگوریتم
از 54
الگوریتم
از 54
الگوریتم
از 54
داده کاوی با اتوماتای یادگیر
دانش کشف شده توسط LA-minerدر قالب قاعده های if-thenنمایش داده می شود.
ً
Antecedentرول ها شامل مجموعه ای از شرایط است که معموال توسط توسط عملگر اتصال
ً
منطقی ) )ANDبه هم متصل شده اند.هر شرط معموال به یک ترم (گزاره) اشاره می کند.
Consequentرول (قسمت )Thenکالس های پیش بینی شده برای نمونه هایی که قسمت
antecedentرول ها را ارضا می کنند را مشخص می کند.
از 54
LA-minerپیشنهاد شده
LA-minerپیشنهادی ما برپایه الگوریتم تابع بهینه سازی طراحی شده است که از روش اتوماتای
یادگیر استفاده می کند.برای توضیح اینکه چطور LA-minerرول های if-thenرا استخراج می
کند،ساختار یک رول را در نظر بگیرید:
)IF ( att1 is quant1) AND (att2 is quant2 ) AND … (attn is quantn
to Class j
()training point
)i atti ( i = 1,2,...,n
.
از 54
x belongs
THEN
) x = (att1, att2 ,..., attn
نتایج محاسباتی و مقایسه
در این بخش ارزیابی عملکرد LA-minerپیشنهاد شده بررس ی شده است.همچنین نتایج مقایسه با
Ant-minerو CNZارائه شده است.
Ant-minerیک الگوریتم برای طبقه بندی قواعد کشف شده است که کلونی مورچه های بهینه
سازی شده را بکار می برد.
CNZیک الگوریتم مشهور طبقه بندی قواعد کشف شده است.
از 54
مجموعه داده ها ()Data Sets
داده های زنبق ()Iris
داده های زنبق شامل 50اندازه گیری از 4ویژگی از هر سه نوع گونه ی
زنبق خاردار (،)Iris setosa
Iris setosa
زنبق رنگارنگ )(Iris versicolor
زنبق ورجینیکا ( )Iris virginica
Iris virginica
Iris versicolor
ویژگی ها طول کاسبرگ ) ،)sepal lengthعرض کاسبرگ (،)sepal widthطول گلبرگ ( )Petal lengthو
عرض گلبرگ ( )petal widthاست.
از 54
مجموعه داده ها ()Data Sets
داده های شراب ()Wine data
داده های wineشاما آنالیز شیمیایی رشد شراب در ناحیه یکسان از ایتالیا اما گرفته شده از موجودات
ذره بینی گوناگون است.برای طبقه بندی 13ویژگی پیوسته در دسترس است.تعداد کالس ها 3و تعداد نمونه
های هر کالس به ترتیب 71 ،59و 48است.
داده های سرطان ()Cancer data
این پایگاه داده سرطان سینه از بیمارستان دانشگاه Wisconsinبه دست آمده است 683.نمونه
سرطان سینه به دو کالس Benignو Malignantبا 9بعد فضای ویژگی تقسیم شده اند.
از 54
نتایج آزمایش ها
Ant-miner ،LA-minerو CNZبر روی مجموعه داده های باال تست شده اند.
50درصد از هر محک به عنوان training pointsو مابقی testing dataاست.
آزمایش ده بار برای هر محک انجام شده و میانگین نتایج گزارش شده است.
از 54
نتایج آزمایش ها
جدول 1نمره تشخیص ) (recognition scoreبه دست آمده از Rule-Setکه توسط سه
data minerاستخراج شده برای training pointsرا نشان می دهد.
از 54
نتایج آزمایش ها
جدول score of recognition 2به دست آمده به وسیله سه الگوریتم را برای testing
pointsرا بر حسب درصد نشان می دهد.
از 54
نتیجه گیری
نتایج مقایسه نشان می دهد که LA-miner ،recognition scoreپیشنهاد شده قابل
مقایسه (حتی مواقعی بهتر از) Ant-minerو CNZبرای فاز های trainingو testing
است.عالوه بر این میانگین تعاد رول های به دست آمده به ویسیه LA-minerکمتر از دو data
minerدیگر است.
از 54
منابع
Data Mining Using Learning Automata, M. R. Aghaebrahimi, S. H.
Zahiri, and M. Amiri
Learning automata based classifier, Seyed-Hamid Zahiri.
Classification Rule Discovery Using Learning Automata- Seyed-Hamid
Zahiri
54 از
www.Prozhe.com
پایان
54 از