یادگیری مفهوم Instructor : Saeed Shiry & Mitchell Ch. 2 مفهوم چیست ؟ دسته بندی مغز برای اشیاء ، حوادث ، یا ایده ها که دارای.

Download Report

Transcript یادگیری مفهوم Instructor : Saeed Shiry & Mitchell Ch. 2 مفهوم چیست ؟ دسته بندی مغز برای اشیاء ، حوادث ، یا ایده ها که دارای.

‫یادگیری مفهوم‬
Instructor : Saeed Shiry
&
Mitchell Ch. 2
1
‫مفهوم چیست ؟‬
‫دسته بندی مغز برای اشیاء‪ ،‬حوادث‪ ،‬یا ایده ها که دارای مجموعه مشترکی‬
‫از ویژگیها هستند‪.‬‬
‫مفاهیم ما را در دسته بندی اشیاء و رویدادها کمک می کنند‬
‫مثال ‪ :‬مفهوم کتاب چیست ؟‬
‫مسلما معادل دانستن کتاب با مجموعه ای از کاغذ گویای مفهوم کتاب نیست‪.‬‬
‫مثال یک دسته کاغذ باید دارای جلد هم باشند‪ .‬اما این نیز کافی نیست‪.‬‬
‫بسیاری از اسامی که ما بکار میبریم نظیر خانه‪ ،‬کشور‪ ،‬کودک و غیره‬
‫برای بیان مفاهیم است‪.‬‬
‫برای یادگیری یک مفهوم باید بر ویژگیهای مشترک تاکید کرده و ویژگیهای نامربوط حذف شود‬
‫‪2‬‬
‫یادگیری مفهوم در انسان چگونه است ؟‬
‫‪ ‬مکتب فکری (‪: )Clark Hall‬‬
‫تئوری نسبت دادن محرک– پاسخ(‪:)stimulus-response association‬‬
‫برطبق این تئوری ما یک مفهوم را به مجموعه ای از محرکها که معرف آن هستند نسبت می‬
‫دهیم‬
‫سگ ‪ :‬پوزه – چهارپا – دم – صدای خاص ‪..... -‬‬
‫‪ ‬مکتب فکری ()‪: )Rosh (1978‬‬
‫مفاهیم طبیعی روزمره از طریق مثالهای متعدد یاد گرفته می شوند ونه از طریق قوانین‬
‫سگ ‪ :‬با دیدن تعداد زیادی سگ‬
‫در طول سالیان متمادی ما محرک های مختلفی دریافت میکنیم که نحوه پاسخ ما به آنها بستگی به‬
‫عالئق‪ ،‬باورها‪ ،‬ارزش ها و تجربیات ما دارد‪ .‬ایجادمفهوم نوعی از تفکر است که ما را در‬
‫شناخت بهتر دنیای اطرافمان کمک میکند‪.‬‬
‫‪3‬‬
‫یادگیری مفهوم‬
‫‪‬‬
‫‪‬‬
‫عبارت است از بدست آوردن یک مفهوم کلی از روی‬
‫مثالهای مثبت و منفی‪.‬‬
‫این کار از طریق جستجو در فضای فرضیه های ممکن از‬
‫قبل دانسته برای پیدا کردن بهترین فرضیه منطبق بر داده های‬
‫آموزشی انجام می شود ‪.‬‬
‫در عمل با موارد زیادی از یادگیری مواجه هستیم که در آن یک مفهوم کلی از روی مثالهای‬
‫آموزشی یادگرفته میشود‪ .‬چنین مفاهیمی را میتوان توسط یک تابع بولی نشان داد‪ .‬از این رو‬
‫در این فصل الگوریتمهایی را یاد می گیریم که یک تابع بولی را از روی مثالهای آموزشی یاد‬
‫می گیرند ‪.‬‬
‫‪4‬‬
‫یادگیری مفهوم‪ :‬یادگیری یک تابع بولی از روی مثالهای آموزشی‬
‫مثال‬
‫‪‬‬
‫مفهوم هدف ‪:‬‬
‫یادگیری روزهایی از هفته که شخص از ورزش آبی لذت برده‬
‫است‬
‫‪ ‬نمایش فرضیه‪ :‬یک نمایش ساده برای فرضیه میتواند ترکیب تمام ویژگیهای‬
‫موجود در مثالها باشد‬
‫‪5‬‬
‫>‪<sky,temp,humidity,wind,water,forcast‬‬
‫نمایش فرضیه‬
‫‪‬‬
‫برای هرویژگی ‪:‬‬
‫‪‬‬
‫آنرا با ”؟“ نشان می دهیم اگر هر مقداری برای آن قابل قبول باشد(‪)don’t care‬‬
‫‪‬‬
‫نشان می دهیم اگر هیچ مقداری برای آن قابل قبول نباشد‬
‫آنرا با‬
‫آنرا با یک مقدار مشخص نشان می دهیم (مثل گرم) اگر این مقدارحتمی باشد‬
‫‪‬‬
‫اگر مثالی مثل ‪ x‬تمامی قیود فرضیه ‪ h‬را برآورده کند آنگاه ‪ h‬آنرا یک مثال‬
‫مثبت تعیین میکند یعنی‪h(x) =1 :‬‬
‫مثال فرضیه < ?‪ > ?,cold,high,?,?,‬برای مجموعه مثال فوق یک فرضیه‬
‫غلط است‬
‫‪h(x)=0‬‬
‫عمومی ترین فرضیه ‪ > ?,?,?,?,?,? < :‬تمام روزها یک مثال مثبت هستند‬
‫هیچ روزی مثال مثبت نخواهد بود‬
‫‪6‬اختصاصی ترین فرضیه ‪:‬‬
‫تعاریف‬
‫‪‬‬
‫‪‬‬
‫نمونه(‪:)instance‬‬
‫مفهوم هدف)‪:)target concept‬تابعی که باید یاد گرفته شود (در این فصل با‬
‫مجموعه ای از ویژگیها که مفهوم را تعریف می کنند‪.‬‬
‫توابع بولی کار داریم)‬
‫}‪C : x {0,1‬‬
‫در جدول مثال فوق داریم‪:‬‬
‫‪if EnjoySport=No‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪C(x)=0‬‬
‫‪C(x)=1 if EnjoySport=Yes‬‬
‫آموزشی‪ D:‬مجموعه مثالهای مثبت یا منفی‬
‫مثالهای‬
‫خروجی یادگیر‪:‬فرضیه ای مثل ‪ h‬بنحویکه )‪ h(x)=c(x‬باشد (برای تمامی ‪x‬ها)‬
‫ورودی یادگیر‪:‬مجموعه ای از مثالهای آموزشی ‪ x‬به همراه مقدارتابع هدف برای‬
‫آنها >(‪<x,c(x‬‬
‫مجموعه تمام فرضیه ها را با ‪ H‬نشان می دهیم‬
‫‪7‬‬
‫این مجموعه بستگی به انتخاب نوع نمایش فرضیه خواهد داشت‪.‬‬
‫فرض اساسی یادگیری استنتاجی‬
‫‪‬‬
‫‪‬‬
‫‪8‬‬
‫هر تابعی که بتواند تقریب خوبی از تابع هدف برای یک مجموعه‬
‫آموزشی به اندازه کافی بزرگ باشد قادر خواهد بود که تابع هدف‬
‫را در مورد مثالهای مشاهده نشده هم تقریب بزند‪.‬‬
‫از آنجائیکه در این نوع از یادگیری تنها اطالعات موجود مجموعه‬
‫مثالهای آموزشی است لذا در بهترین حالت یک الگوریتم یادگیری‬
‫میتواند فرضیه ای را ارئه دهد که تابع هدف را بر روی مثالهای‬
‫آموزشی تقریب بزند‪.‬‬
‫یادگیری مفهوم بعنوان جستجو‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫میتوان به مسئله یادگیری مفهوم بعنوان جستجو در فضای بزرگی از‬
‫فرضیه ها نگاه کرد‪ .‬این فضا بصورت غیر صریح با نحوه نمایش‬
‫فرضیه ها تعریف میشود‪.‬‬
‫انتخاب نحوه نمایش فرضیه‪ ،‬فضای فرضیه های قابل نمایش و قابل‬
‫یادگیری را مشخص خواهد کرد‪.‬‬
‫در مثال قبل‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪9‬‬
‫‪5120 =5.4.4.4.4.4‬‬
‫تعداد کل فرضیه ها برابر است با‪:‬‬
‫‪3*2*2*2*2*2=96‬‬
‫تعداد کل نمونه های ممکن برای مثال فوق ‪:‬‬
‫با توجه به اینکه تهی برای تمامی مثالها مقدار منفی خواهد داشت تعداد فرضیه‬
‫های با معنا عبارتند از‪1+(4.3.3.3.3.3)=973 :‬‬
‫ترتیب کلی به جزئی فرضیه ها‬
‫‪‬‬
‫الگوریتمهای یادگیری زیادی مبنای جستجوی خود را بر پایه ساختار‬
‫مرتب سازی‪ ،‬کلی به جزئی فرضیه ها بنا نهاده اند‬
‫‪ ‬مثال ‪:‬‬
‫چون ‪ h2‬قید کمتری دارد تعداد بیشتری از نمونه ها را مثبت ارزیابی‬
‫می کند‪.‬‬
‫هر نمونه ای که ‪ h1‬آنرا مثبت ارزیابی کند ‪ h2‬نیز مثبت خواهد‬
‫دانست‪ ،‬بنابراین ‪ h2‬از‪ h1‬کلی تر است‪.‬‬
‫‪10‬‬
‫تعریف‬
‫‪‬‬
‫اگر ‪ hj‬و‪ hk‬دو تابع بولی تعریف شده روی ‪ x‬باشند آنگاه ‪hj‬‬
‫اگروفقط اگر‪:‬‬
‫کلی تر یا برابر ‪ hk‬است‬
‫‪‬‬
‫‪ ‬همچنین ‪ hj‬منحصرا کلی تراز ‪ hk‬نامیده می شود‬
‫اگر‬
‫‪11‬‬
‫مثال‬
‫‪12‬‬
‫الگوریتم ‪FIND-S‬‬
‫‪‬‬
‫این الگوریتم به دنبال فرضیه ‪( Maximally Specific‬اختصاصی حداکثر)می گردد‪.‬‬
‫‪‬‬
‫مراحل الگوریتم‬
‫‪:‬‬
‫‪h‬را با اختصاصی ترین فرضیه در ‪ H‬شروع می کنیم‪.‬‬
‫به ازاء هر نمونه آموزشی مثبت ‪ x‬اگر هر یک از قیود ویژگیهای ‪ ai‬موجود در ‪ h‬با ‪x‬‬
‫سازگار بود عملی انجام نمی دهیم در غیر اینصورت ‪ ai‬در ‪ h‬را با قیدی کلی تر که با ‪x‬‬
‫سازگار باشد جایگزین می کنیم‪.‬‬
‫‪h‬را بعنوان فرضیه معرفی می کنیم‪.‬‬
‫‪.1‬‬
‫‪.2‬‬
‫‪.3‬‬
‫مثال‪:‬‬
‫مثال اول مثبت است از آنجائیکه قید تهی نمی تواند برای آن‬
‫صحیح باشد لذا ‪ h‬را طوری عوض میکنیم که با مثال اول‬
‫سازگار باشد‪.‬‬
‫مثال دوم هم مثبت است برای اینکه ‪ h‬بتواند برای آن هم‬
‫سازگار باشد باید هر قیدی از آن که باعث ناسازگاری است با ?‬
‫جایگزین شود‪.‬‬
‫مثال سوم منفی است از آن صرفنظر میکنیم‪.‬‬
‫‪13‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3 h =h2‬‬
‫‪4‬‬
‫نمونه های منفی چه میشوند؟‬
‫‪ ‬تا زمانیکه فضای فرضیه ‪ H‬در برگیرنده مفهوم هدف یعنی ‪C‬‬
‫باشد و همچنین به شرط آنکه مثالهای آموزشی دارای غلط‬
‫نباشند‪ ،‬نیازی به در نظر گرفتن مثالهای منفی نیست زیرا‪:‬‬
‫‪ h ‬اختصاصی ترین فرضیه از ‪ H‬است که با مثالهای مثبت‬
‫سازگار است‪ .‬چون ‪ C‬هم جزئی از ‪ H‬است لذا باید ‪C h‬‬
‫اما ‪ C‬هرگز مثالهای منفی را شامل نخواهد شد لذا ‪ h‬هم همینطور‬
‫خواهد بود ( بنا به تعریف رابطه)‪ .‬لذا نیازی به اصالح ‪ h‬در‬
‫برخورد با مثالهای منفی نیست‪.‬‬
‫‪14‬‬
‫‪ FIND-S‬به سئوالت زیر نمی تواند پاسخ دهد ‪:‬‬
‫آیا این الگوریتم به مفهوم صحیح رسیده است‪ .‬آیا فرضیه سازگار دیگری وجود‬
‫دارد؟‬
‫آیا اختصاصی ترین فرضیه خوب است ؟‬
‫نسبت به نویز بسیار حساس است‪ .‬این الگوریتم نمیتواند خطا را کشف کند‪.‬‬
‫اگر چندین فرضیه اختصاصی حداکثر وجود داشت یا نداشت چه می شود ؟‬
‫‪.1‬‬
‫‪.2‬‬
‫‪.3‬‬
‫‪.4‬‬
‫برای رفع مشکالت ‪ FIND-S‬از الگوریتم حذف کاندید(‪)Candidate-Elimination‬‬
‫استفاده می شود‬
‫‪15‬‬
‫ویژگی الگوریتم حذف کاندید‬
‫‪ ‬این الگوریتم برخی از محدودیت های ‪ Find_S‬را برطرف‬
‫میکند‪ .‬این الگوریتم توصیفی در مورد مجموعه همه‬
‫فرضیه های سازگار با مثالهای آموزشی را ارائه می دهد‬
‫بدون آنکه تک تک اعضاء آنرا مشخص کند (این الگوریتم به‬
‫سئواالت ‪1‬و‪ 4‬پاسخ می دهد)‪.‬‬
‫‪ ‬این الگوریتم نیز از مفهوم مرتب سازی کلی به جزئی استفاده‬
‫میکند‪.‬‬
‫اگرچه هر دو الگوریتم برای مثالهای عملی نیز استفاده شده اند اما‬
‫کاربرد آنها در عمل بسیار محدود است زیرا در صورت وجود‬
‫نویز در داده های آموزشی بسیار ضعیف عمل میکنند‪.‬‬
‫‪16‬‬
‫تعاریف‬
‫‪‬‬
‫سازگاری‪:‬‬
‫‪‬‬
‫‪: Version Space‬‬
‫می گوییم فرضیه ‪ h‬با مثالهای آموزشی سازگاراست اگر وفقط اگر‬
‫این فضا عبارتست از مجموعه تمام فرضیه هایی از‪H‬‬
‫که با مثالهای ‪ D‬سازگار هستند‬
‫‪‬‬
‫‪17‬‬
‫الگوریتم ‪ :List-Then-Eliminate‬یک راه حل ساده برای‬
‫بدست آوردن ‪ VS‬این است که تمام فرضیه های ‪ H‬را‬
‫لیست کرده و سپس هر فرضیه ای که ناسازگار با مثالهای‬
‫آموزشی است را از آن حذف کنیم‪ .‬باقیمانده ‪ VS‬خواهد‬
‫بود‪ ( .‬فقط برای ‪ H‬کوچک عملی است)‬
‫فضای ‪Version Space‬‬
‫‪‬‬
‫‪‬‬
‫راه حل دیگر برای پیدا کردن ‪ VS‬محدود کردن آن بین محدوده‬
‫] کلی ترین فرضیه ‪ ,‬اختصاصی ترین فرضیه[ است‪.‬‬
‫اثبات می شود ‪ VS‬مجموعه ای است شامل ‪ S,G‬واعضای که‬
‫بین آن دو قرار می گیرند‬
‫‪G‬‬
‫‪S‬‬
‫‪18‬‬
‫تعاریف‬
‫‪ ‬حد کلی ‪ : G‬برای فضای فرضیه ‪ H‬و فضای آموزشی ‪ ،D‬حد کلی ‪ G‬برابر‬
‫است با مجموعه ای از اعضاء ‪ H‬که بصورت ‪ Maximally General‬با ‪ D‬سازگار‬
‫هستند‬
‫‪‬‬
‫حد اختصاصی‬
‫‪ S‬برابر است با ‪:‬‬
‫‪19‬‬
‫‪:S‬برای فضای فرضیه ‪ H‬و فضای آموزشی ‪،D‬حد اختصاصی‬
‫الگوریتم حذف کاندید ‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪ G‬را با فرضیه ‪ Maximally General‬مقدار دهی می کنیم‬
‫‪ S‬را با فرضیه ‪ Maximally Specific‬مقدار دهی می کنیم‬
‫برای مثالهای آموزشی عملیات زیر را تکرار می کنیم‬
‫اگر‪ D‬یک مثال مثبت باشد ‪:‬‬
‫‪‬‬
‫از‪ G‬هر فرضیه ناسازگار با آن را حذف می کنیم‬
‫از‪ S‬هر فرضیه ناسازگار با آن را حذف می کنیم وبدنبال آن‪:‬‬
‫‪‬‬
‫از ‪ S‬تمام فرضیه هایی که عمومی تراز سایر فرضیه های آن باشند را حذف می کنیم ‪.‬‬
‫‪‬‬
‫‪20‬‬
‫الگوریتم حذف کاندید (ادامه) ‪:‬‬
‫اگر ‪ D‬یک مثال منفی باشد ‪:‬‬
‫‪‬‬
‫‪‬‬
‫از‪ S‬هر فرضیه ناسازگار با آن را حذف می کنیم‬
‫به ازاء هر فرضیه ‪ g‬متعلق به ‪ G‬که با ‪ d‬ناسازگاراست مراحل زیر را انجام می دهیم ‪:‬‬
‫‪ g )1‬را از‪ G‬حذف می کنیم‬
‫‪ )2‬به ‪ G‬فرضیه هایی با تخصیص حداقل اضافه می کنیم به نحویکه ‪:‬‬
‫با ‪ d‬سازگار بوده و اختصاصی تراز اعضاء ‪ S‬نباشد‬
‫‪ )3‬از ‪ G‬فرضیه هایی را که از سایراعضاء آن اختصاصی تر هستند را حذف می کنیم‬
‫‪21‬‬
‫الگوریتم حذف کاندید‬
‫‪22‬‬
‫الگوریتم حذف کاندید‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪23‬‬
‫در واقع این الگوریتم با دیدن هر مثال جدید مرزهای ‪ VS‬را‬
‫طوری تغییر میدهد که ضمن حفظ سازگاری با نمونه های قبلی‬
‫با نمونه های جدید نیز سازگار گردند‪.‬‬
‫برای یک مثال مثبت اعضا ‪ S‬حداقل تعمیم را پیدا میکنند تا‬
‫عضو جدید را شامل شوند‪ .‬همچنین اعضائی از ‪ G‬که با عضو‬
‫جدید سازگار نیستند حذف میشوند‪.‬‬
‫برای یک مثال منفی اعضا ‪ G‬اختصاصی تر میشوند تا نمونه‬
‫های منفی را شامل نشوند‪ .‬البته باید سازگاری با نمونه های‬
‫قبلی حفظ شود‪ .‬همچنین اعضائی از ‪ S‬که به اشتباه عضو منفی‬
‫را شامل میشوند حذف میگردند‪.‬‬
‫مثال‬
‫>?‪G0=<?,?,?,?,?,‬‬
‫‪G1=G0‬‬
‫‪G2=G1‬‬
‫>?‪G3=<?,?,?,?,?,same> <sun,?,?,?,?,?> <?,warm,?,?,?,‬‬
‫برای مثال سوم هم باید ‪G2‬تغییر کند تا دیگرآنرا‬
‫>?‪G4= <sun,?,?,?,?,?> <?,warm,?,?,?,‬‬
‫شامل نشود‪ .‬لذا باید ‪G2‬اختصاصی تر شود که‬
‫چندین حالت مختلف برای آن وجود دارد‪.‬‬
‫>?‪S4= <sun,warm,?,strong,?,‬‬
‫برای مثال چهارم هم باید ‪S0‬تغییر کند تا آنرا شامل شود‪.‬‬
‫‪S3=S2‬‬
‫برای مثال دوم هم باید ‪S0‬تغییر کند تا آنرا شامل شود‪S2= < sun,warm,?,strong,warm,same > .‬‬
‫برای اولین مثال باید ‪S0‬تغییر کند تا آنرا شامل شود‪S1= < sun,warm,normal,strong,warm,same > .‬‬
‫<=‪S0‬‬
‫>‬
‫‪24‬‬
‫در واقع ‪ S‬خالصه مثالهای مثبت و ‪ G‬خالصه مثالهای منفی قبلی است‪ .‬هر فرضیه عمومی تر از‪ S‬شامل مثالهای‬
‫قبلی خواهد شد و هر فرضیه اختصاصی تر از ‪ G‬با مثالهای قبلی سازگار خواهد بود‪.‬‬
‫تمامی فرضیه های ممکن‪VS:‬‬
‫‪‬‬
‫برای مثال فوق فرضیه های متعددی بین ‪ G ,S‬قرار خواهند‬
‫گرفت‪:‬‬
‫>?‪G4= <sun,?,?,?,?,?> <?,warm,?,?,?,‬‬
‫>?‪<sun,?,?,strong,?,?> <sun,Warm,?,?,?,?> <?,warm,?,Strong,?,‬‬
‫>?‪S4= <sun,warm,?,strong,?,‬‬
‫با افزایش مثالهای آموزشی ‪ G‬و ‪S‬به هم نزدیکتر خواهند شد‪.‬‬
‫‪25‬‬
‫شرط خاتمه الگوریتم حذف کاندید‬
‫‪‬‬
‫الگوریتم وقتی متوقف می شود که ‪:‬‬
‫مثالها تمام شده باشند یا تعداد فرضیه های باقیمانده صفرشده باشد‬
‫‪‬‬
‫‪26‬‬
‫در حالت کلی ممکن است تعداد فرضیه های باقیمانده بصورت‬
‫زیر باشد ‪:‬‬
‫صفر‪ :‬تعریف سازگاری برای الگوریتم وجود ندارد‬
‫یک ‪ :‬الگوریتم همگرا شده‬
‫بیشتراز دو‪ :‬تمام توضیف های کلی پیدا شده‬
‫مثال‬
Japanese Economy Car ‫یادگیری مفهوم‬
Country of Origin, Manufacturer, :‫ویژگی ها‬
Color, Decade, Type
:‫مثالها‬
Origin
Manufacturer
Color
Decade
Type
Japan
Honda
Blue
1980
Economy Positive
Japan
Toyota
Green
1970
Sports
Japan
Toyota
Blue
1990
Economy Positive
USA
Chrysler
Red
1980
Economy Negative



Example Type
Negative
27
Japan
Honda
White
1980
Economy Positive
‫ادامه مثال‬
‫} )? ‪G = { (?, ?, ?, ?,‬‬
‫} )‪S = { (Japan, Honda, Blue, 1980, Economy‬‬
‫‪‬‬
‫مثال اول مثبت است‪:‬‬
‫‪‬‬
‫مثال دوم منفی است لذا باید ‪ G‬اختصاصی تر شود تا آنرا شامل‬
‫نگردد‪.‬‬
‫‪G ={ (?, Honda, ?, ?, ?),(?, ?, Blue, ?, ?), (?, ?, ?, 1980, ?),‬‬
‫} )‪(?, ?, ?, ?, Economy‬‬
‫} )‪S = { (Japan, Honda, Blue, 1980, Economy‬‬
‫‪28‬‬
‫ادامه مثال‬
‫‪‬‬
‫‪‬‬
‫مثال سوم مثبت است‪:‬‬
‫)‪(Japan, Toyota, Blue, 1990, Economy‬‬
‫لذا فرضیه های ناسازگار با آن از ‪ G‬حذف میشود و ‪ S‬تعمیم می یابد تا‬
‫آنرا در بر بگیرد‬
‫} )‪G { (?, ?, Blue, ?, ?), (?, ?, ?, ?, Economy‬‬
‫} )‪S = { (Japan, ?, Blue, ?, Economy‬‬
‫‪29‬‬
‫ادامه مثال‬
‫ اختصاصی تر میشود تا آنرا در بر‬G ‫مثال چهارم منفی است لذا‬
.‫نگیرد‬
G = { (?, ?,Chrysler,
Blue, ?, ?), (Japan,
?, ?, Economy)
}
(USA,
Red,?, 1980,
Economy)

S = { (Japan, ?, Blue, ?, Economy) }
30
‫ادامه مثال‬
‫‪‬‬
‫‪‬‬
‫مثال پنجم مثبت است‪:‬‬
‫)‪(Japan, Toyota, Blue, 1990, Economy‬‬
‫لذا فرضیه های ناسازگار با آن از ‪ G‬حذف میشود و ‪ S‬تعمیم می یابد تا انرا در بر بگیرد‬
‫} )‪G = { (Japan, ?, ?, ?, Economy‬‬
‫} )‪S = { (Japan, ?, ?, ?, Economy‬‬
‫هر دو محدوده ‪ G‬و ‪ S‬به هم رسیده اند‬
‫و مثال دیگری وجود ندارد لذا میگوئیم‬
‫الگوریتم همگرا شده است‪.‬‬
‫‪31‬‬
‫ادامه مثال‬
:‫فرض کنید دو نمونه دیگر هم داشته باشیم‬
Japan
Toyota
Green
1980
Economy Positive
Japan
Honda
Red
1990
Economy Negative

G = { (Japan, ?, ?, ?, Economy) }
S = { (Japan, ?, ?, ?, Economy) }
(Japan, Toyota, Green, 1980, Economy) ‫مثال ششم‬
.‫مثبت بوده و با فرضیه سازگار است‬
‫اما مثال هفتم با فرضیه ها سازگار نیست و الگوریتم نمیتواند‬
.‫فرضیه سازگاری با داده پیدا نماید‬


G cannot be specialized.
S cannot be generalized.
The version space collapses.
Conclusion :No conjunctive hypothesis is consistent with the data set.
32
‫سئوال‬
‫‪‬‬
‫به نظر شما اگر فضای فرضیه را در مثالهای فوق وسیعتر کرده ومثال‬
‫امکان ترکیب عطفی ‪ ،‬فصلی و نقیض فرضیه ها را هم بدهیم چه اتفاقی‬
‫خواهد افتاد ؟ فضای فرضیه بسیار بزرگ خواهد بود‬
‫برای مثال اگر سه مثال مثبت ‪ x3,x2,x1‬ودو مثال منفی ‪ x5,x4‬وجود‬
‫داشته باشد الگوریتم حذف کاندید به فضای زیر همگرا خواهد شد ‪:‬‬
‫‪‬‬
‫مشکل اینست که در این صورت الگوریتم فقط مثالها رایاد خواهد گرفت‬
‫(حفظ خواهد کرد)و قادر به تعمیم نخواهد بود‪.‬‬
‫‪‬‬
‫‪33‬‬
‫آیا الگوریتم حذف کاندید به مفهوم صحیح‬
‫همگرا خواهد شد؟‬
‫‪‬‬
‫بله! به شرطی که ‪:‬‬
‫‪ ‬خطائی در مثالهای آموزشی نباشد‬
‫‪ H ‬شامل فرضیه ای باشد که بتواند بدرستی مفهوم هدف را توصیف‬
‫کند‬
‫وقتی که ‪ S‬و ‪ G‬به یک فرضیه واحد همگراشوند مفهوم یادگرفته شده‬
‫است‪.‬‬
‫اگر مثالها دارای خطا باشند ممکن است الگوریتم هدف را از ‪ VS‬حذف‬
‫کرده و درصورت وجود مثال زیاد در نهایت به مجموعه تهی همگرا‬
‫خواهند شد‪.‬‬
‫استفاده از مفاهیمی که بصورت جزئی یاد‬
‫گرفته شده اند‬
‫‪‬‬
‫اگر ‪ VS‬به یک فرضیه واحد همگرا نشود گفته میشود که مفهوم بصورت جزئی یاد گرفته شده‬
‫است‪ .‬با این وجود میتوان مثالهای جدید را با این ‪ VS‬ارزیابی کرد‪.‬‬
‫مثال‪:‬‬
‫‪‬‬
‫مثال ‪ A‬توسط تمام فرضیه ها مثبت ارزیابی میشود‪ ( .‬کافی است فقط مثبت بودن اعضا ‪ S‬بررسی‬
‫شود) پس میتوان آنرا با اطمینان دسته بندی کرد‪.‬‬
‫مثال ‪ B‬توسط تمام فرضیه ها منفی ارزیابی میشود‪ ( .‬کافی است فقط مثبت بودن اعضا ‪ G‬بررسی‬
‫شود) پس میتوان آنرا با اطمینان دسته بندی کرد‪.‬‬
‫مثال ‪ C‬توسط نیمی از فرضیه ها مثبت و توسط نیمی دیگر منفی ارزیابی میشود‪ .‬لذا نیمتوان با‬
‫اطمینان در باره دسته بندی آن صحبت کرد‪.‬‬
‫مثال ‪ D‬توسط ‪ 2‬فرضیه مثبت و توسط ‪ 4‬فرضیه منفی ارزیابی میشود‪ .‬یک راه این است که رای‬
‫اکثریت پذیرفته شود‪.‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫بایاس استقراء (‪)Inductive Bias‬‬
‫‪‬‬
‫‪‬‬
‫‪36‬‬
‫یک ویژگی یادگیری استقرایی این است که باید دارای فرض نهادینه ای‬
‫در مورد فضای فرضیه باشد در غیراین صورت یادگیری غیر ممکن‬
‫خواهد بود‪ .‬یک سیستم یادگیری که هیچ پیش فرضی در مورد ماهیت‬
‫تابع هدف نداشته باشد قادر به دسته بندی داده های مشاهده شده نخواهد‬
‫بود در حقیقت تنها دلیل اینکه الگوریتم حذف کاندید قابلیت تعمیم داشت‬
‫این بود که فرض کرده بود ‪ ،‬می توان تابع هدف را با ترکیب عطفی‬
‫ویژگی ها نشان داد ‪ .‬به این فرض که در مورد فضای فرضیه اعمال‬
‫می شود بایاس می گویند‬
‫بعنوان مثال بایاس ‪ FIND-S‬فضای ‪ H‬بصورت ترکیب عطفی ویژگیها‬
‫تعریف شده ودارای مفهوم ‪ C‬می باشد ‪.‬‬
‫بایاس استقراء (‪)Inductive Bias‬‬
‫‪‬‬
‫همانگونه که گفته شد الگوریتم حذف کاندید در صورتی به‬
‫مفهوم صحیح همگرا خواهد شد که مثالهای یادگیری صحیح‬
‫بوده و فضای فرضیه دربرگیرنده مفهوم بوده باشد‪.‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫اما اگر فضای فرضیه مفهوم هدف را در بر نگرفته باشد چه؟‬
‫آیا میتوان برای پزهیز از مشکل فوق فضای فرضیه را طوری‬
‫انتخاب کرد که تمامی فرضیه های ممکن را دربر بگیرد؟‬
‫تاثیر اندازه فضای فرضیه در قابلیت تعمیم الگوریتم چیست؟‬
‫رابطه بین اندازه فضای فرضیه و تعداد مثالهای آموزشی چیست؟‬
‫یادگیری بدون بایاس‬
‫‪ ‬یک راه اطمینان ازوجود مفهوم هدف در فضای فرضیه این است که این فضا را آنقدر‬
‫بزرگ در نظر بگیریم که همه فرضیه های ممکن راشامل شود‪.‬‬
‫‪ :Power Set of X ‬اگر ‪ X‬تمامی مثالهای یادگیری باشد‪،‬مجموعه تمامی زیرمجموعه‬
‫های ‪ X‬را ‪ power set‬آن میگویند‪.‬‬
‫‪ ‬در مثال قبلی ‪ X‬تعداد ‪ 96‬عضوداشت که مجموعه توانی آن ‪ 296‬عضو خواهد داشت!‬
‫‪ ‬دقت شودکه در مثال قبل ‪ H‬فقط ‪ 973‬عضو داشت که بخش کوچکی از مجموعه فوق را‬
‫تشکیل میدهد‪.‬‬
‫‪ ‬گسترش ‪H‬‬
‫میتوان ‪ H‬را طوری تغییر داد که حالتهای عطفی‪ ،‬فصلی و نقیض را هم دربر بگیرد‪ .‬در‬
‫اینصورت میتوان فرضیه عطفی‬
‫را بصورت زیر نوشت‪.‬‬
‫مشکل یادگیری بدون بایاس‬
‫‪‬‬
‫با تغییر فضای فرضیه میتوان به فرضیه ای رسید که مثالهای زیر را دربرگیرد‪.‬‬
‫‪‬‬
‫علیرغم موفقیت الگوریتم در یادگیری مثالهای فوق‪ ،‬الگوریتم قادر به تعمیم نبوده و صرفا‬
‫مثالهای آموزشی را حفظ خواهد کرد‪.‬‬
‫برای مثال اگر مجموعه آموزشی دارای مثالهای مثبت ‪ x1,x2,x3‬و مثالهای منفی ‪x4,x5‬‬
‫باشد فضای ‪ VS‬به مجموعه زیر تبدل خواهد شد‪.‬‬
‫‪‬‬
‫چنین فرضیه ای قادر به دسته بندی مثالهای نادیده نخواهد بود‪.‬‬
‫‪‬‬
‫یک خاصیت اصلی یادگیری استقرائی‬
‫یک سیستم یادگیر که هیچ پیش فرضی در مورد ماهیت تابع هدف‬
‫نداشته باشد قادر به دسته بندی داده های مشاهده نشده نخواهد‬
‫بود‪.‬‬
‫‪ ‬در حقیقت تنها دلیل اینکه الگوریتم حذف کاندید قدرت تعمیم به‬
‫مثالهای نادیده را داشت این بود که فرض شده بود تابع هدف را‬
‫میتوان با ترکیب عطفی ویژگی ها نشان داد!‬
Model Selection &
Generalization





Learning is an ill-posed problem; data is not
sufficient to find a unique solution
The need for inductive bias, assumptions
about H
Generalization: How well a model performs
on new data
Overfitting: H more complex than C or f
Underfitting: H less complex than C or f
41
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Triple Trade-Off

There is a trade-off between three factors
(Dietterich, 2003):
 Complexity of H, c (H),
Training set size, N,
 Generalization error, E, on new data
As N, E
As c (H), first E and then E



42
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
‫تمرین‬
‫‪‬‬
‫‪‬‬
‫تمرینهای شماره ‪ 3‬و ‪ 4‬و ‪ 5‬و‪ 9‬از فصل دوم کتاب‬
‫مقاله های زیر در دو صفحه خالصه شود‪:‬‬