Transcript Slide 1
دسته بندی نیمه نظارتی
زهره کریمی
Introduction to semi-supervised Learning, Xiaojin Zhu and Andrew B. Goldberg,
University of Wisconsin, Madison, 2009.
1
فهرست مطالب
روش های یادگیری نیمه نظارتی
مدل های Mixtureو روش EM
روش Co-Training
روش های مبتنی بر گراف
روش های مبتنی بر SVM
یادگیری نیمه نظارتی انسان
تئوری
2
انواع روش های یادگیری
یادگیری بدون ناظر
خوشه بندی
کاهش ابعاد
کشف outlier
یادگیری نظارتی
دسته بندی
رگرسیون
یادگیری نیمه نظارتی
3
یادگیری نیمه نظارتی
انواع روش های نیمه نظارتی
دسته بندی نیمه نظارتی
خوشه بندی نیمه نظارتی
مثال :دو نمونه خاص در یک دسته قرار می گیرند.
رگرسیون با استفاده از داده های برچسب دار و بدون برچسب
کاهش بعد با استفاده از داده های برچسب دار و بدون برچسب
4
انگیزه استفاده از یادگیری نیمه نظارتی
دالیل عملی
داده بدون برچسب به تعداد زیاد و با هزینه کم در دسترس است
Natural Language Processing
protein 3D structure prediction
Spam filtering
دالیل تئوری
رسیدن به سطح یکسان کارایی با تعداد داده های بدون برچسب کمتر
به وجود آوردن مدل محاسباتی شبیه یادگیری انسان
5
یادگیری نیمه نظارتی
6
انواع روش های یادگیری نیمه نظارتی
روش های Inductive
پیشگویی برچسب نمونه هایی که تاکنون مشاهده نشده اند؛
امتحان کالس ی
روش های Transductive
پیشگویی بر چسب نمونه هایی که در مجموعه آموزش بکار رفته اند؛
امتحان take-home
7
نکته مهم
در نظرگرفتن فرضیاتی در مورد ارتباط توزیع حاشیه ای ) P(xو توزیع شرطی
)P(y|x
ارتباط مستقیم کارایی به صحت فرض در نظرگرفته شده
8
9
Self-training
self-teaching or bootstrapping
از پیشگویی های خود برای آموزش خود استفاده می کند
10
)Self-training models (2
مزایا
سادگی
عدم وابستگی به مدل دسته بندی
اشکال
تقویت اشتباه در مراحل یادگیری
حساس به Outlier
فرض :پیشگویی دسته بندی کننده با اطمینان باالیی صحیح است.
در هنگامی که دسته ها در خوشه های جداگانه ای باشند ممکن است
11
Self-training models (3)
12
Self-training models (4)
13
روش های یادگیری نیمه نظارتی
مدل های Mixtureو روش EM
روش Co-Training
روش های مبتنی بر گراف
روش های مبتنی بر SVM
یادگیری نیمه نظارتی انسان
تئوری
14
Mixture Model
جمع وزن دار چند تابع چگالی احتمال
15
Mixture models
داده بدون برچسب حاوی اطالعاتی در مورد نحوه ترکیب داده های دسته های
گوناگون است.
با دانستن نحوه توزیع داده های هر دسته ،می توان آن ها را از یکدیگر جدا
کرد.
16
Generative Models
محاسبه ) p(y|xبا استفاده از روش های Generative
روش هایی که به صورت صریح یا ضمنی توزیع احتمال توام ورودی و
خروجی را مشخص می کنند
با نمونه برداری از آن ها می توان داده هایی را در فضای نمونه تولید
کرد
نمونه ها:
Gaussian Mixture Model, Multinomial Mixture Model,
Hidden Markov Model
17
Generative Models
مجهوالت
پارامترهای مدل (مثال میانگین و کوواریانس در توزیع گوس ی)
احتمال هر دسته
)Maximum likelihood estimate (MLE
18
Mixture modelsدر یادگیری بانظارت
اغلب راه حل تحلیلی برای حل این مسئله وجود دارد
19
Mixture modelsدر دسته بندی نیمه نظارتی
Marginal probability
راه حل تحلیلی برای حل MLEدر دسته بندی نیمه نظارتی وجود ندارد
20
بهینه سازی با استفاده از الگوریتم EM
21
الگوریتم EM
گام :E
22
الگوریتم EM
گام :M
23
الگوریتم EM
روش ی برای یافتن بهینه محلی
حساس به مقدار اولیه
ایده آن شبیه الگوریتم K-means
24
نمونه ای از EM
25
فرضیات مدل های Mixture
داده واقعا بر اساس mixture modelاست یعنی تعداد
مولفه ها و ) p(x|yصحیح است.
26
فرضیات مدل های Mixture
27
فرضیات مدل های Mixture
فرضیات مدل های Mixture
فرضیات مدل های Mixture
راه های بهبود
استفاده از دانش دامنه
اهمیت کمتر به داده های بدون برچسب
30
مدل های Generative
قابل شناسایی ()Identifiable
GMM
بهینه محلی
شروع تصادفی
31
قابل شناسایی بودن مدل
) P(x|yیکنواخت
) P(xیکنواخت در ][0,1
داده های برچسب دار
برچسب x=0.5؟
32
روش Cluster-then-label
دسته بندی نیمه نظارتی با استفاده از روش های خوشه بندی بدون نظارت
33
Cluster-then-label روش
34
روش های یادگیری نیمه نظارتی
مدل های Mixtureو روش EM
روش Co-Training
روش های مبتنی بر گراف
روش های مبتنی بر SVM
یادگیری نیمه نظارتی انسان
تئوری
35
دو دید از یک کاربرد
Named Entity Recogniton
Web Page Classification
کلماتی در خود صفحه
ارجاع دهنده به صفحهhyperlink کلماتی در
36
Co-Training
Named entity Classification
Location
37
Co-Training
Named entity Classification
Location
Location
38
Co-Training
Named entity Classification
Location
Location
39
Co-Training
دو دسته بندی کننده را یاد می گیرد :هر دسته بندی کننده روی یک دید
نمونه هایی را که در یک مدل دسته بندی با اطمینان باال دسته بندی شده اند به
داده های آموزش مدل دسته بندی دیگر اضافه می کند.
40
Co-Training
فرضیات
هر viewبه تنهایی برای دسته بندی کافی باشد
دو viewبه صورت شرطی با توجه به برچسب داده شده مستقل از هم باشند
41
کاربردها
Web-page classification
متن صفحه :کلمات رخ داده در صفحه
متن :hyperlinkکلمات رخ داده در hyperlinkها به صفحه مورد نظر
Classify Speech phonemes
سیگنال Audio
سیگنال videoنمایش دهنده حرکت لب ها
42
Co-training
ایده Cotraining
دو دسته بندی کننده در مورد داده های بدون برچسب با یکدیگر توافق دارند.
تعداد زیادی توابع در فضای فرضیه نیستند که در مورد داده های بدون برچسب
با یکدیگر سازگار باشند لذا فضای فرضیه مورد نظر کوچک خواهد بود.
این تعداد از توابع اگر داده های بدون برچسب را به خوبی برازش دهند منجر به
overfitنخواهد شد.
43
Regularized Risk Minimization Framework (1)
•The squared loss
c(x, y, f (x)) = (y − f (x))2
•0/1 loss
c(x, y, f (x)) = 0 if y = f (x), and 1 otherwise
• c(x, y = healthy, f (x) = diseased) = 1 and
c(x, y = diseased, f (x) = healthy) = 100
44
Regularized Risk Minimization Framework (2)
45
Multiview Learning
MULTIVIEW LEARNING
دید استk مدل بر اساسk هدف تولید
Individual Regularized Risk
Semi-Supervised regularizer
The semi-supervised regularizer:
مدل را روی داده های بدون برچسب اندازه گیری می کندk میزان عدم توافق
46
فرض در الگوریتم Multiview learning
مجموعه فرضیه ها با یکدیگر موافق باشند و عالوه بر آن
emprical riskآن ها کوچک باشد
47