یادگیری مفهوم Instructor : Saeed Shiry & Mitchell Ch. 2 مفهوم چیست ؟ دسته بندی مغز برای اشیاء ، حوادث ، یا ایده ها که دارای.
Download
Report
Transcript یادگیری مفهوم Instructor : Saeed Shiry & Mitchell Ch. 2 مفهوم چیست ؟ دسته بندی مغز برای اشیاء ، حوادث ، یا ایده ها که دارای.
یادگیری مفهوم
Instructor : Saeed Shiry
&
Mitchell Ch. 2
1
مفهوم چیست ؟
دسته بندی مغز برای اشیاء ،حوادث ،یا ایده ها که دارای مجموعه مشترکی
از ویژگیها هستند.
مفاهیم ما را در دسته بندی اشیاء و رویدادها کمک می کنند
مثال :مفهوم کتاب چیست ؟
مسلما معادل دانستن کتاب با مجموعه ای از کاغذ گویای مفهوم کتاب نیست.
مثال یک دسته کاغذ باید دارای جلد هم باشند .اما این نیز کافی نیست.
بسیاری از اسامی که ما بکار میبریم نظیر خانه ،کشور ،کودک و غیره
برای بیان مفاهیم است.
برای یادگیری یک مفهوم باید بر ویژگیهای مشترک تاکید کرده و ویژگیهای نامربوط حذف شود
2
یادگیری مفهوم در انسان چگونه است ؟
مکتب فکری (: )Clark Hall
تئوری نسبت دادن محرک– پاسخ(:)stimulus-response association
برطبق این تئوری ما یک مفهوم را به مجموعه ای از محرکها که معرف آن هستند نسبت می
دهیم
سگ :پوزه – چهارپا – دم – صدای خاص ..... -
مکتب فکری (): )Rosh (1978
مفاهیم طبیعی روزمره از طریق مثالهای متعدد یاد گرفته می شوند ونه از طریق قوانین
سگ :با دیدن تعداد زیادی سگ
در طول سالیان متمادی ما محرک های مختلفی دریافت میکنیم که نحوه پاسخ ما به آنها بستگی به
عالئق ،باورها ،ارزش ها و تجربیات ما دارد .ایجادمفهوم نوعی از تفکر است که ما را در
شناخت بهتر دنیای اطرافمان کمک میکند.
3
یادگیری مفهوم
عبارت است از بدست آوردن یک مفهوم کلی از روی
مثالهای مثبت و منفی.
این کار از طریق جستجو در فضای فرضیه های ممکن از
قبل دانسته برای پیدا کردن بهترین فرضیه منطبق بر داده های
آموزشی انجام می شود .
در عمل با موارد زیادی از یادگیری مواجه هستیم که در آن یک مفهوم کلی از روی مثالهای
آموزشی یادگرفته میشود .چنین مفاهیمی را میتوان توسط یک تابع بولی نشان داد .از این رو
در این فصل الگوریتمهایی را یاد می گیریم که یک تابع بولی را از روی مثالهای آموزشی یاد
می گیرند .
4
یادگیری مفهوم :یادگیری یک تابع بولی از روی مثالهای آموزشی
مثال
مفهوم هدف :
یادگیری روزهایی از هفته که شخص از ورزش آبی لذت برده
است
نمایش فرضیه :یک نمایش ساده برای فرضیه میتواند ترکیب تمام ویژگیهای
موجود در مثالها باشد
5
><sky,temp,humidity,wind,water,forcast
نمایش فرضیه
برای هرویژگی :
آنرا با ”؟“ نشان می دهیم اگر هر مقداری برای آن قابل قبول باشد()don’t care
نشان می دهیم اگر هیچ مقداری برای آن قابل قبول نباشد
آنرا با
آنرا با یک مقدار مشخص نشان می دهیم (مثل گرم) اگر این مقدارحتمی باشد
اگر مثالی مثل xتمامی قیود فرضیه hرا برآورده کند آنگاه hآنرا یک مثال
مثبت تعیین میکند یعنیh(x) =1 :
مثال فرضیه < ? > ?,cold,high,?,?,برای مجموعه مثال فوق یک فرضیه
غلط است
h(x)=0
عمومی ترین فرضیه > ?,?,?,?,?,? < :تمام روزها یک مثال مثبت هستند
هیچ روزی مثال مثبت نخواهد بود
6اختصاصی ترین فرضیه :
تعاریف
نمونه(:)instance
مفهوم هدف):)target conceptتابعی که باید یاد گرفته شود (در این فصل با
مجموعه ای از ویژگیها که مفهوم را تعریف می کنند.
توابع بولی کار داریم)
}C : x {0,1
در جدول مثال فوق داریم:
if EnjoySport=No
C(x)=0
C(x)=1 if EnjoySport=Yes
آموزشی D:مجموعه مثالهای مثبت یا منفی
مثالهای
خروجی یادگیر:فرضیه ای مثل hبنحویکه ) h(x)=c(xباشد (برای تمامی xها)
ورودی یادگیر:مجموعه ای از مثالهای آموزشی xبه همراه مقدارتابع هدف برای
آنها >(<x,c(x
مجموعه تمام فرضیه ها را با Hنشان می دهیم
7
این مجموعه بستگی به انتخاب نوع نمایش فرضیه خواهد داشت.
فرض اساسی یادگیری استنتاجی
8
هر تابعی که بتواند تقریب خوبی از تابع هدف برای یک مجموعه
آموزشی به اندازه کافی بزرگ باشد قادر خواهد بود که تابع هدف
را در مورد مثالهای مشاهده نشده هم تقریب بزند.
از آنجائیکه در این نوع از یادگیری تنها اطالعات موجود مجموعه
مثالهای آموزشی است لذا در بهترین حالت یک الگوریتم یادگیری
میتواند فرضیه ای را ارئه دهد که تابع هدف را بر روی مثالهای
آموزشی تقریب بزند.
یادگیری مفهوم بعنوان جستجو
میتوان به مسئله یادگیری مفهوم بعنوان جستجو در فضای بزرگی از
فرضیه ها نگاه کرد .این فضا بصورت غیر صریح با نحوه نمایش
فرضیه ها تعریف میشود.
انتخاب نحوه نمایش فرضیه ،فضای فرضیه های قابل نمایش و قابل
یادگیری را مشخص خواهد کرد.
در مثال قبل:
9
5120 =5.4.4.4.4.4
تعداد کل فرضیه ها برابر است با:
3*2*2*2*2*2=96
تعداد کل نمونه های ممکن برای مثال فوق :
با توجه به اینکه تهی برای تمامی مثالها مقدار منفی خواهد داشت تعداد فرضیه
های با معنا عبارتند از1+(4.3.3.3.3.3)=973 :
ترتیب کلی به جزئی فرضیه ها
الگوریتمهای یادگیری زیادی مبنای جستجوی خود را بر پایه ساختار
مرتب سازی ،کلی به جزئی فرضیه ها بنا نهاده اند
مثال :
چون h2قید کمتری دارد تعداد بیشتری از نمونه ها را مثبت ارزیابی
می کند.
هر نمونه ای که h1آنرا مثبت ارزیابی کند h2نیز مثبت خواهد
دانست ،بنابراین h2از h1کلی تر است.
10
تعریف
اگر hjو hkدو تابع بولی تعریف شده روی xباشند آنگاه hj
اگروفقط اگر:
کلی تر یا برابر hkاست
همچنین hjمنحصرا کلی تراز hkنامیده می شود
اگر
11
مثال
12
الگوریتم FIND-S
این الگوریتم به دنبال فرضیه ( Maximally Specificاختصاصی حداکثر)می گردد.
مراحل الگوریتم
:
hرا با اختصاصی ترین فرضیه در Hشروع می کنیم.
به ازاء هر نمونه آموزشی مثبت xاگر هر یک از قیود ویژگیهای aiموجود در hبا x
سازگار بود عملی انجام نمی دهیم در غیر اینصورت aiدر hرا با قیدی کلی تر که با x
سازگار باشد جایگزین می کنیم.
hرا بعنوان فرضیه معرفی می کنیم.
.1
.2
.3
مثال:
مثال اول مثبت است از آنجائیکه قید تهی نمی تواند برای آن
صحیح باشد لذا hرا طوری عوض میکنیم که با مثال اول
سازگار باشد.
مثال دوم هم مثبت است برای اینکه hبتواند برای آن هم
سازگار باشد باید هر قیدی از آن که باعث ناسازگاری است با ?
جایگزین شود.
مثال سوم منفی است از آن صرفنظر میکنیم.
13
1
2
3 h =h2
4
نمونه های منفی چه میشوند؟
تا زمانیکه فضای فرضیه Hدر برگیرنده مفهوم هدف یعنی C
باشد و همچنین به شرط آنکه مثالهای آموزشی دارای غلط
نباشند ،نیازی به در نظر گرفتن مثالهای منفی نیست زیرا:
h اختصاصی ترین فرضیه از Hاست که با مثالهای مثبت
سازگار است .چون Cهم جزئی از Hاست لذا باید C h
اما Cهرگز مثالهای منفی را شامل نخواهد شد لذا hهم همینطور
خواهد بود ( بنا به تعریف رابطه) .لذا نیازی به اصالح hدر
برخورد با مثالهای منفی نیست.
14
FIND-Sبه سئوالت زیر نمی تواند پاسخ دهد :
آیا این الگوریتم به مفهوم صحیح رسیده است .آیا فرضیه سازگار دیگری وجود
دارد؟
آیا اختصاصی ترین فرضیه خوب است ؟
نسبت به نویز بسیار حساس است .این الگوریتم نمیتواند خطا را کشف کند.
اگر چندین فرضیه اختصاصی حداکثر وجود داشت یا نداشت چه می شود ؟
.1
.2
.3
.4
برای رفع مشکالت FIND-Sاز الگوریتم حذف کاندید()Candidate-Elimination
استفاده می شود
15
ویژگی الگوریتم حذف کاندید
این الگوریتم برخی از محدودیت های Find_Sرا برطرف
میکند .این الگوریتم توصیفی در مورد مجموعه همه
فرضیه های سازگار با مثالهای آموزشی را ارائه می دهد
بدون آنکه تک تک اعضاء آنرا مشخص کند (این الگوریتم به
سئواالت 1و 4پاسخ می دهد).
این الگوریتم نیز از مفهوم مرتب سازی کلی به جزئی استفاده
میکند.
اگرچه هر دو الگوریتم برای مثالهای عملی نیز استفاده شده اند اما
کاربرد آنها در عمل بسیار محدود است زیرا در صورت وجود
نویز در داده های آموزشی بسیار ضعیف عمل میکنند.
16
تعاریف
سازگاری:
: Version Space
می گوییم فرضیه hبا مثالهای آموزشی سازگاراست اگر وفقط اگر
این فضا عبارتست از مجموعه تمام فرضیه هایی ازH
که با مثالهای Dسازگار هستند
17
الگوریتم :List-Then-Eliminateیک راه حل ساده برای
بدست آوردن VSاین است که تمام فرضیه های Hرا
لیست کرده و سپس هر فرضیه ای که ناسازگار با مثالهای
آموزشی است را از آن حذف کنیم .باقیمانده VSخواهد
بود ( .فقط برای Hکوچک عملی است)
فضای Version Space
راه حل دیگر برای پیدا کردن VSمحدود کردن آن بین محدوده
] کلی ترین فرضیه ,اختصاصی ترین فرضیه[ است.
اثبات می شود VSمجموعه ای است شامل S,Gواعضای که
بین آن دو قرار می گیرند
G
S
18
تعاریف
حد کلی : Gبرای فضای فرضیه Hو فضای آموزشی ،Dحد کلی Gبرابر
است با مجموعه ای از اعضاء Hکه بصورت Maximally Generalبا Dسازگار
هستند
حد اختصاصی
Sبرابر است با :
19
:Sبرای فضای فرضیه Hو فضای آموزشی ،Dحد اختصاصی
الگوریتم حذف کاندید :
Gرا با فرضیه Maximally Generalمقدار دهی می کنیم
Sرا با فرضیه Maximally Specificمقدار دهی می کنیم
برای مثالهای آموزشی عملیات زیر را تکرار می کنیم
اگر Dیک مثال مثبت باشد :
از Gهر فرضیه ناسازگار با آن را حذف می کنیم
از Sهر فرضیه ناسازگار با آن را حذف می کنیم وبدنبال آن:
از Sتمام فرضیه هایی که عمومی تراز سایر فرضیه های آن باشند را حذف می کنیم .
20
الگوریتم حذف کاندید (ادامه) :
اگر Dیک مثال منفی باشد :
از Sهر فرضیه ناسازگار با آن را حذف می کنیم
به ازاء هر فرضیه gمتعلق به Gکه با dناسازگاراست مراحل زیر را انجام می دهیم :
g )1را از Gحذف می کنیم
)2به Gفرضیه هایی با تخصیص حداقل اضافه می کنیم به نحویکه :
با dسازگار بوده و اختصاصی تراز اعضاء Sنباشد
)3از Gفرضیه هایی را که از سایراعضاء آن اختصاصی تر هستند را حذف می کنیم
21
الگوریتم حذف کاندید
22
الگوریتم حذف کاندید
23
در واقع این الگوریتم با دیدن هر مثال جدید مرزهای VSرا
طوری تغییر میدهد که ضمن حفظ سازگاری با نمونه های قبلی
با نمونه های جدید نیز سازگار گردند.
برای یک مثال مثبت اعضا Sحداقل تعمیم را پیدا میکنند تا
عضو جدید را شامل شوند .همچنین اعضائی از Gکه با عضو
جدید سازگار نیستند حذف میشوند.
برای یک مثال منفی اعضا Gاختصاصی تر میشوند تا نمونه
های منفی را شامل نشوند .البته باید سازگاری با نمونه های
قبلی حفظ شود .همچنین اعضائی از Sکه به اشتباه عضو منفی
را شامل میشوند حذف میگردند.
مثال
>?G0=<?,?,?,?,?,
G1=G0
G2=G1
>?G3=<?,?,?,?,?,same> <sun,?,?,?,?,?> <?,warm,?,?,?,
برای مثال سوم هم باید G2تغییر کند تا دیگرآنرا
>?G4= <sun,?,?,?,?,?> <?,warm,?,?,?,
شامل نشود .لذا باید G2اختصاصی تر شود که
چندین حالت مختلف برای آن وجود دارد.
>?S4= <sun,warm,?,strong,?,
برای مثال چهارم هم باید S0تغییر کند تا آنرا شامل شود.
S3=S2
برای مثال دوم هم باید S0تغییر کند تا آنرا شامل شودS2= < sun,warm,?,strong,warm,same > .
برای اولین مثال باید S0تغییر کند تا آنرا شامل شودS1= < sun,warm,normal,strong,warm,same > .
<=S0
>
24
در واقع Sخالصه مثالهای مثبت و Gخالصه مثالهای منفی قبلی است .هر فرضیه عمومی تر از Sشامل مثالهای
قبلی خواهد شد و هر فرضیه اختصاصی تر از Gبا مثالهای قبلی سازگار خواهد بود.
تمامی فرضیه های ممکنVS:
برای مثال فوق فرضیه های متعددی بین G ,Sقرار خواهند
گرفت:
>?G4= <sun,?,?,?,?,?> <?,warm,?,?,?,
>?<sun,?,?,strong,?,?> <sun,Warm,?,?,?,?> <?,warm,?,Strong,?,
>?S4= <sun,warm,?,strong,?,
با افزایش مثالهای آموزشی Gو Sبه هم نزدیکتر خواهند شد.
25
شرط خاتمه الگوریتم حذف کاندید
الگوریتم وقتی متوقف می شود که :
مثالها تمام شده باشند یا تعداد فرضیه های باقیمانده صفرشده باشد
26
در حالت کلی ممکن است تعداد فرضیه های باقیمانده بصورت
زیر باشد :
صفر :تعریف سازگاری برای الگوریتم وجود ندارد
یک :الگوریتم همگرا شده
بیشتراز دو :تمام توضیف های کلی پیدا شده
مثال
Japanese Economy Car یادگیری مفهوم
Country of Origin, Manufacturer, :ویژگی ها
Color, Decade, Type
:مثالها
Origin
Manufacturer
Color
Decade
Type
Japan
Honda
Blue
1980
Economy Positive
Japan
Toyota
Green
1970
Sports
Japan
Toyota
Blue
1990
Economy Positive
USA
Chrysler
Red
1980
Economy Negative
Example Type
Negative
27
Japan
Honda
White
1980
Economy Positive
ادامه مثال
} )? G = { (?, ?, ?, ?,
} )S = { (Japan, Honda, Blue, 1980, Economy
مثال اول مثبت است:
مثال دوم منفی است لذا باید Gاختصاصی تر شود تا آنرا شامل
نگردد.
G ={ (?, Honda, ?, ?, ?),(?, ?, Blue, ?, ?), (?, ?, ?, 1980, ?),
} )(?, ?, ?, ?, Economy
} )S = { (Japan, Honda, Blue, 1980, Economy
28
ادامه مثال
مثال سوم مثبت است:
)(Japan, Toyota, Blue, 1990, Economy
لذا فرضیه های ناسازگار با آن از Gحذف میشود و Sتعمیم می یابد تا
آنرا در بر بگیرد
} )G { (?, ?, Blue, ?, ?), (?, ?, ?, ?, Economy
} )S = { (Japan, ?, Blue, ?, Economy
29
ادامه مثال
اختصاصی تر میشود تا آنرا در برG مثال چهارم منفی است لذا
.نگیرد
G = { (?, ?,Chrysler,
Blue, ?, ?), (Japan,
?, ?, Economy)
}
(USA,
Red,?, 1980,
Economy)
S = { (Japan, ?, Blue, ?, Economy) }
30
ادامه مثال
مثال پنجم مثبت است:
)(Japan, Toyota, Blue, 1990, Economy
لذا فرضیه های ناسازگار با آن از Gحذف میشود و Sتعمیم می یابد تا انرا در بر بگیرد
} )G = { (Japan, ?, ?, ?, Economy
} )S = { (Japan, ?, ?, ?, Economy
هر دو محدوده Gو Sبه هم رسیده اند
و مثال دیگری وجود ندارد لذا میگوئیم
الگوریتم همگرا شده است.
31
ادامه مثال
:فرض کنید دو نمونه دیگر هم داشته باشیم
Japan
Toyota
Green
1980
Economy Positive
Japan
Honda
Red
1990
Economy Negative
G = { (Japan, ?, ?, ?, Economy) }
S = { (Japan, ?, ?, ?, Economy) }
(Japan, Toyota, Green, 1980, Economy) مثال ششم
.مثبت بوده و با فرضیه سازگار است
اما مثال هفتم با فرضیه ها سازگار نیست و الگوریتم نمیتواند
.فرضیه سازگاری با داده پیدا نماید
G cannot be specialized.
S cannot be generalized.
The version space collapses.
Conclusion :No conjunctive hypothesis is consistent with the data set.
32
سئوال
به نظر شما اگر فضای فرضیه را در مثالهای فوق وسیعتر کرده ومثال
امکان ترکیب عطفی ،فصلی و نقیض فرضیه ها را هم بدهیم چه اتفاقی
خواهد افتاد ؟ فضای فرضیه بسیار بزرگ خواهد بود
برای مثال اگر سه مثال مثبت x3,x2,x1ودو مثال منفی x5,x4وجود
داشته باشد الگوریتم حذف کاندید به فضای زیر همگرا خواهد شد :
مشکل اینست که در این صورت الگوریتم فقط مثالها رایاد خواهد گرفت
(حفظ خواهد کرد)و قادر به تعمیم نخواهد بود.
33
آیا الگوریتم حذف کاندید به مفهوم صحیح
همگرا خواهد شد؟
بله! به شرطی که :
خطائی در مثالهای آموزشی نباشد
H شامل فرضیه ای باشد که بتواند بدرستی مفهوم هدف را توصیف
کند
وقتی که Sو Gبه یک فرضیه واحد همگراشوند مفهوم یادگرفته شده
است.
اگر مثالها دارای خطا باشند ممکن است الگوریتم هدف را از VSحذف
کرده و درصورت وجود مثال زیاد در نهایت به مجموعه تهی همگرا
خواهند شد.
استفاده از مفاهیمی که بصورت جزئی یاد
گرفته شده اند
اگر VSبه یک فرضیه واحد همگرا نشود گفته میشود که مفهوم بصورت جزئی یاد گرفته شده
است .با این وجود میتوان مثالهای جدید را با این VSارزیابی کرد.
مثال:
مثال Aتوسط تمام فرضیه ها مثبت ارزیابی میشود ( .کافی است فقط مثبت بودن اعضا Sبررسی
شود) پس میتوان آنرا با اطمینان دسته بندی کرد.
مثال Bتوسط تمام فرضیه ها منفی ارزیابی میشود ( .کافی است فقط مثبت بودن اعضا Gبررسی
شود) پس میتوان آنرا با اطمینان دسته بندی کرد.
مثال Cتوسط نیمی از فرضیه ها مثبت و توسط نیمی دیگر منفی ارزیابی میشود .لذا نیمتوان با
اطمینان در باره دسته بندی آن صحبت کرد.
مثال Dتوسط 2فرضیه مثبت و توسط 4فرضیه منفی ارزیابی میشود .یک راه این است که رای
اکثریت پذیرفته شود.
بایاس استقراء ()Inductive Bias
36
یک ویژگی یادگیری استقرایی این است که باید دارای فرض نهادینه ای
در مورد فضای فرضیه باشد در غیراین صورت یادگیری غیر ممکن
خواهد بود .یک سیستم یادگیری که هیچ پیش فرضی در مورد ماهیت
تابع هدف نداشته باشد قادر به دسته بندی داده های مشاهده شده نخواهد
بود در حقیقت تنها دلیل اینکه الگوریتم حذف کاندید قابلیت تعمیم داشت
این بود که فرض کرده بود ،می توان تابع هدف را با ترکیب عطفی
ویژگی ها نشان داد .به این فرض که در مورد فضای فرضیه اعمال
می شود بایاس می گویند
بعنوان مثال بایاس FIND-Sفضای Hبصورت ترکیب عطفی ویژگیها
تعریف شده ودارای مفهوم Cمی باشد .
بایاس استقراء ()Inductive Bias
همانگونه که گفته شد الگوریتم حذف کاندید در صورتی به
مفهوم صحیح همگرا خواهد شد که مثالهای یادگیری صحیح
بوده و فضای فرضیه دربرگیرنده مفهوم بوده باشد.
اما اگر فضای فرضیه مفهوم هدف را در بر نگرفته باشد چه؟
آیا میتوان برای پزهیز از مشکل فوق فضای فرضیه را طوری
انتخاب کرد که تمامی فرضیه های ممکن را دربر بگیرد؟
تاثیر اندازه فضای فرضیه در قابلیت تعمیم الگوریتم چیست؟
رابطه بین اندازه فضای فرضیه و تعداد مثالهای آموزشی چیست؟
یادگیری بدون بایاس
یک راه اطمینان ازوجود مفهوم هدف در فضای فرضیه این است که این فضا را آنقدر
بزرگ در نظر بگیریم که همه فرضیه های ممکن راشامل شود.
:Power Set of X اگر Xتمامی مثالهای یادگیری باشد،مجموعه تمامی زیرمجموعه
های Xرا power setآن میگویند.
در مثال قبلی Xتعداد 96عضوداشت که مجموعه توانی آن 296عضو خواهد داشت!
دقت شودکه در مثال قبل Hفقط 973عضو داشت که بخش کوچکی از مجموعه فوق را
تشکیل میدهد.
گسترش H
میتوان Hرا طوری تغییر داد که حالتهای عطفی ،فصلی و نقیض را هم دربر بگیرد .در
اینصورت میتوان فرضیه عطفی
را بصورت زیر نوشت.
مشکل یادگیری بدون بایاس
با تغییر فضای فرضیه میتوان به فرضیه ای رسید که مثالهای زیر را دربرگیرد.
علیرغم موفقیت الگوریتم در یادگیری مثالهای فوق ،الگوریتم قادر به تعمیم نبوده و صرفا
مثالهای آموزشی را حفظ خواهد کرد.
برای مثال اگر مجموعه آموزشی دارای مثالهای مثبت x1,x2,x3و مثالهای منفی x4,x5
باشد فضای VSبه مجموعه زیر تبدل خواهد شد.
چنین فرضیه ای قادر به دسته بندی مثالهای نادیده نخواهد بود.
یک خاصیت اصلی یادگیری استقرائی
یک سیستم یادگیر که هیچ پیش فرضی در مورد ماهیت تابع هدف
نداشته باشد قادر به دسته بندی داده های مشاهده نشده نخواهد
بود.
در حقیقت تنها دلیل اینکه الگوریتم حذف کاندید قدرت تعمیم به
مثالهای نادیده را داشت این بود که فرض شده بود تابع هدف را
میتوان با ترکیب عطفی ویژگی ها نشان داد!
Model Selection &
Generalization
Learning is an ill-posed problem; data is not
sufficient to find a unique solution
The need for inductive bias, assumptions
about H
Generalization: How well a model performs
on new data
Overfitting: H more complex than C or f
Underfitting: H less complex than C or f
41
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Triple Trade-Off
There is a trade-off between three factors
(Dietterich, 2003):
Complexity of H, c (H),
Training set size, N,
Generalization error, E, on new data
As N, E
As c (H), first E and then E
42
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
تمرین
تمرینهای شماره 3و 4و 5و 9از فصل دوم کتاب
مقاله های زیر در دو صفحه خالصه شود: