)2( دسته بندی نیمه نظارتی زهره کریمی Introduction to semi-supervised Learning, Xiaojin Zhu and Andrew B.

Download Report

Transcript )2( دسته بندی نیمه نظارتی زهره کریمی Introduction to semi-supervised Learning, Xiaojin Zhu and Andrew B.

)2( ‫دسته بندی نیمه نظارتی‬
‫زهره کریمی‬
Introduction to semi-supervised Learning, Xiaojin Zhu and Andrew B. Goldberg,
University of Wisconsin, Madison, 2009.
1
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫روش های یادگیری نیمه نظارتی‬
‫مدل های ‪ Mixture‬و روش ‪EM‬‬
‫روش ‪Co-Training‬‬
‫روش های مبتنی بر گراف‬
‫روش های مبتنی بر ‪SVM‬‬
‫یادگیری نیمه نظارتی انسان‬
‫تئوری‬
‫‪2‬‬
Co-Training
 Named entity Classification
Location
3
Co-Training
 Named entity Classification
Location
Location
4
Co-Training
 Named entity Classification
Location
Location
5
‫‪Co-Training‬‬
‫‪ ‬دو دسته بندی کننده را یاد می گیرد‪ :‬هر دسته بندی کننده روی یک دید‬
‫‪ ‬نمونه هایی را که در یک مدل دسته بندی با اطمینان باال دسته بندی شده اند به‬
‫داده های آموزش مدل دسته بندی دیگر اضافه می کند‪.‬‬
‫‪6‬‬
‫‪Co-Training‬‬
‫‪ ‬فرضیات‬
‫‪ ‬هر ‪ view‬به تنهایی برای دسته بندی کافی باشد‬
‫‪ ‬دو ‪ view‬به صورت شرطی با توجه به برچسب داده شده مستقل از هم باشند‬
‫‪7‬‬
‫کاربردها‬
‫‪Web-page classification ‬‬
‫‪ ‬متن صفحه‪ :‬کلمات رخ داده در صفحه‬
‫‪ ‬متن ‪ :hyperlink‬کلمات رخ داده در ‪ hyperlink‬ها به صفحه مورد نظر‬
‫‪Classify Speech phonemes ‬‬
‫‪ ‬سیگنال ‪Audio‬‬
‫‪ ‬سیگنال ‪ video‬نمایش دهنده حرکت لب ها‬
‫‪8‬‬
Multiview learning (1)
•The squared loss
c(x, y, f (x)) = (y − f (x))2
•0/1 loss
c(x, y, f (x)) = 0 if y = f (x), and 1 otherwise
• c(x, y = healthy, f (x) = diseased) = 1 and
c(x, y = diseased, f (x) = healthy) = 100
9
Multiview learning (2)
10
Multiview Learning (3)
 MULTIVIEW LEARNING
‫ دید است‬k ‫ مدل بر اساس‬k ‫هدف تولید‬
Individual Regularized Risk
Semi-Supervised regularizer
 The semi-supervised regularizer:
‫ مدل را روی داده های بدون برچسب اندازه گیری می کند‬k ‫میزان عدم توافق‬
11
‫)‪Multiview learning(4‬‬
‫فرض‪ :‬مجموعه فرضیه ها با یکدیگر موافق باشند و عالوه بر آن‬
‫‪ emprical risk‬آن ها کوچک باشد‬
‫‪12‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫روش های یادگیری نیمه نظارتی‬
‫مدل های ‪ Mixture‬و روش ‪EM‬‬
‫روش ‪Co-Training‬‬
‫روش های مبتنی بر گراف‬
‫روش های مبتنی بر ‪SVM‬‬
‫یادگیری نیمه نظارتی انسان‬
‫تئوری‬
‫‪13‬‬
‫دسته بندی نیمه نظارتی مبتنی بر گراف (‪)1‬‬
‫نمونه های برچسب دار و بدون برچسب متناظر با راس های گراف‬
‫شباهت بین هر دو نمونه متناظر با وزن یال بین دو راس‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫گراف متصل کامل‬
‫‪‬‬
‫گراف ‪kNN‬‬
‫‪‬‬
‫گراف ‪NN‬‬
‫‪14‬‬
‫دسته بندی نیمه نظارتی مبتنی بر گراف (‪)2‬‬
‫‪15‬‬
‫چارچوب ‪Regularization‬‬
‫‪ ‬تابع برچسب ‪ f‬روی گراف‬
‫)‪ (1‬پیشگویی برچسب ‪ f‬نزدیک به برچسب داده های‬
‫برچسب دار باشد‬
‫‪ loss function‬‬
‫)‪ f (2‬روی کل گراف هموار باشد (با توجه به‬
‫‪)regularization framework‬‬
‫‪ special graph-based regularization‬‬
‫‪16‬‬
‫)‪Mincut (1‬‬
‫‪ ‬نمونه های با برچسب مثبت معادل راس های ‪source‬‬
‫‪ ‬نمونه های با برچسب مثبت معادل راس های ‪sink‬‬
‫‪ ‬هدف‪ ،‬یافتن مجموعه کمینه ای از یال ها است که ‪ source‬را از ‪ sink‬جدا‬
‫می کند‬
‫‪17‬‬
Mincut (2)
3
4
v1
1
5
2

18
v0
Mincut (3)
 Cost Function
 Regularizer
 Mincut Regularized Risk problem
19
Harmonic Function (1)
20
Harmonic Function (2)
21
Harmonic Function (3)
‫ راه حل تکراری‬
‫ راه حل بسته‬
 unnormalized graph Laplacian matrix L
W is an (l + u) × (l + u) weight matrix, whose i, j -th element is the edge
weight wij
22
Harmonic Function (4)
 unnormalized graph Laplacian matrix
23
‫)‪Manifold Regularization (1‬‬
‫‪ ‬مسائل روش های موجود‬
‫‪ Transductive‬بودن‬
‫‪ ‬فقط امکان برچسب گذاری داده های بدون برچسب‬
‫موجود‬
‫‪ ‬حساس بودن به نویز‬
‫‪ ‬فرض ‪ f (x) = y‬برای داده های برچسب دار‬
‫‪24‬‬
Manifold Regularization (2)
‫ بودن‬Inductive 
‫ پایدار بودن در محیط های نویزی‬
25
Manifold Regularization (3)
 normalized graph Laplacian matrix L
‫ نرمال و غیرنرمال‬Laplacian ‫ توان هایی از ماتریس‬
26
‫فرض روش های مبتنی بر گراف (‪)1‬‬
‫‪27‬‬
‫فرض روش های مبتنی بر گراف (‪)2‬‬
‫‪Spectral graph theory‬‬
‫‪28‬‬
)3( ‫فرض روش های مبتنی بر گراف‬
The graph has k connected components if and only if λ1 = . . . = λk = 0.
The corresponding eigenvectors are constant on individual connected
components, and zero elsewhere.
 a smaller eigenvalue corresponds to a smoother eigenvector
over the graph
29
Graph Spectrum
30
‫فرض روش های مبتنی بر گراف (‪)4‬‬
‫‪ Regularization term‬‬
‫اگر مقدار ‪ ai‬یا ‪ λi‬نزدیک به صفر باشد ‪ Regularization term‬کمینه خواهد بود‪ .‬به‬
‫عبارت دیگر‪ f ،‬ترجیح می دهد که از پایه های هموار (با ‪ λi‬کوچک ) استفاده کند‪.‬‬
‫‪31‬‬
)5( ‫فرض روش های مبتنی بر گراف‬
Regularization term ‫ کمینه‬،k-connected component ‫ در گراف‬
32
‫فرض روش های مبتنی بر گراف (‪)6‬‬
‫‪ ‬کارایی حساس به ساختار گراف و وزن ها‬
‫‪33‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫روش های یادگیری نیمه نظارتی‬
‫مدل های ‪ Mixture‬و روش ‪EM‬‬
‫روش ‪Co-Training‬‬
‫روش های مبتنی بر گراف‬
‫روش های مبتنی بر ‪SVM‬‬
‫یادگیری نیمه نظارتی انسان‬
‫تئوری‬
‫‪34‬‬
‫شهود‬
geometric margin. :margin ‫فاصله از مرز تصمیم تا‬
35
Support Vector Machines
36
Support Vector Machines
 The signed geometric margin: The distance from the decision
boundary to the closest labeled instance
 decision boundary
 Maximum margin hyperplane must be unique
37
Non-Separable Case (1)
38
Non-Separable Case (2)
 lie inside the margin,
but on the correct side of the decision
boundary
 lie on the wrong side of the
decision boundary and are misclassified
 are correctly classified
39
Non-Separable Case (3)
40
Non-Separable Case (4)
41
S3VM (1)
42
S3VM (2)
 the majority (or even all) of the unlabeled instances are
predicted in only one of the classes
43
S3VM (3)
 Convex function
 The S3VM objective function is non-convex
 The research in S3VMs has focused on how to efficiently find
a near-optimum solution
44
Logistic regression
 SVM and S3VM are non-probabilistic models
 probabilistic model
 conditional log likelihood
 Gaussian distribution as the prior on w:
Logistic regression
 Logistic loss
 regularizer
Logistic regression
Entropy Regularizer
 Logistic Regression+Entropy Regulizer For SemiSupervised
Learning
 Intuition
 if the two classes are well-separated, then the classification on
any unlabeled instance should be confident: it either clearly
belongs to the positive class, or to the negative class.
Equivalently, the posterior probability p(y|x) should be either
close to 1, or close to 0.
 Entropy
Semi-supervised Logistic Regression
 entropy regularizer for logistic regression
Entropy Regularizer
Entropy Regularization ‫ و‬S3VM ‫فرض روش های‬