Học bán giám sát dựa trên đồ thị

Download Report

Transcript Học bán giám sát dựa trên đồ thị

Học bán giám sát sử dụng
giải thuật lan truyền nhãn trên đồ
thị
Trần Mai Vũ
1
Công trình liên quan
Bài báo nền:
X. Zhu and Z. Ghahramani. Learning from labeled and unlabeled data with label propagation. Technical
Report CMU-CALD-02-107, Carnegie Mellon University, Pittsburgh, 2002.
X. Zhu, Z. Ghahramani, and J. Lafferty. Combining active learning and semi-supervised learning using
Gaussian fields and harmonic functions. In ICML-2003 Workshop on the Continuum from Labeled to
Unlabeled Data in Machine Learning, pages 912–912,Washington, DC, 2003a.
X. Zhu, Z. Ghahramani, and J. Lafferty. Semi-supervised learning using Gaussian fields and harmonic
functions. In Twentieth International Conference on Machine Learning, pages 912–912,Washington,
DC, 2003b. AAAI Press.
X. Zhu, J. Lafferty, and Z. Ghahramani. Semi-supervised learning: From Gaussian fields to Gaussian
processes. Technical Report CMU-CS-03-175, Carnegie Mellon University, Pittsburgh, 2003c
D. Zhou, O. Bousquet,T. N. Lal, J. Weston, and B. Scholkopf. Learning with local and global consistency.
In S. Thrun, L. Saul, and B. Sch¨olkopf, editors, Advances in Neural Information Processing Systems 16,
pages 321–328. MIT Press, Cambridge, MA, 2004.
D. Zhou, J. Huang, and B. Scholkopf. Learning from labeled and unlabeled data on a directed graph. In
L. De Raedt and S. Wrobel, editors, Proceedings of the Twenty-second International Conference on
Machine Learning, 2005a.
D. Zhou, B. Scholkopf, and T. Hofmann. Semi-supervised learning on directed graphs. In L. K. Saul,Y.
Weiss, and L. Bottou, editors, Advances in Neural Information Processing Systems 18, pages 1633–
1640, Cambridge, MA, 2005b. MIT Press.
•
•
•
•
•
•
•
2
Công trình liên quan

M. Belkin, I. Matveeva, and P. Niyogi. Regression and regularization on large graphs. In Proceedings of
the Seventeenth Annual Conference on Learning Theory, 2004a.

M. Belkin, I. Matveeva, and P. Niyogi. Regularization and semi-supervised learning on large graphs. In
Proceedings of the Seventeenth Annual Conference on Computational Learning Theory, pages 624–
638, Banff, Canada, 2004b.
Sách:

Zhu, X. (2005). Semi-supervised learning with graphs. Doctoral dissertation, Carnegie Mellon
University

Xiaojin Zhu and Andrew B. Goldberg. Introduction to Semi-Supervised Learning. Morgan &
Claypool, 2009.

O. Chapelle and B. Schölkopf and A. Zien, Semi-Supervised Learning, MIT Press, 2006
Bài báo mô hình ứng dụng:

Celikyilmaz, A. & Thint, M., & Huang, Z.(2009) A Graph-based Semi-Supervised Learning for QuestionAnswering. ACL-2009, Main Conference, Singapore

Jinxiu Chen, Donghong Ji, Chew L. Tan, and Zhengyu Niu. 2006. Relation extraction using label
propagation based semi-supervised learning. In Proceedings of ACL’06, pages 129–136.
3
Học bán giám sát
Học bán giám sát là với cả dữ liệu có nhãn và không nhãn
Ký hiệu:
Tập có nhãn XL U YL = {(x1, y1), . . . , (xL , yL)}
Tập chưa có nhãn XU={xL+1,…,xL+U}
Nhãn thật sự của XU:YU={yL+1,…,yL+U}
Nhãn dự đoán của XU: ῩU={ẏL+1,…, ẏL+U}


-
4
Học bán giám sát
Giả thuyết Cluster: Nếu các điểm nằm cùng một cụm thì
các điểm đấy có thể nằm cùng một lớp.

O. Chapelle and B. Schölkopf and A. Zien, Semi-Supervised Learning, MIT Press, 2006
5
Học bán giám sát
6
Học bán giám sát
Giả thuyết Manifold: Dữ liệu nhiều chiều nằm trong nhiều
bản dữ liệu ít chiều.

O. Chapelle and B. Schölkopf and A. Zien, Semi-Supervised Learning, MIT Press, 2006
7
Học bán giám sát
Giả thuyết Cluster/Manifold: Nếu các điểm cùng nằm một
cụm và trên một bản dữ liệu thì có thể cùng một lớp

8
Học bán giám sát
9
Học bán giám sát dựa trên đồ thị

Tư tưởng chính: Xây dựng đồ thị G<V,E> từ tập dữ liệu
X L U XU



Các đỉnh là các dữ liệu có nhãn và không có nhãn
Cạnh giữa 2 đỉnh thể hiện sự tượng tự giữa 2 đỉnh
Các giải thuật


10
Nhóm giải thuật dựa trên lan truyền nhãn (Szummer and
Jaakkola, 2002b; Zhu and Ghahramani, 2002;Zhou et al., 2004;
Zhu et al., 2003b)
Nhóm giải thuật cải tiến sử dụng chuẩn hóa đồ thị dựa vào đồ
thị Laplace (Belkin and Niyogi, 2003b; Joachims, 2003; Zhou et
al., 2004; Zhu et al., 2003b; Belkin et al.,2004b; Delalleau et al.,
2005)
Xây dựng đồ thị

Đồ thị đầy đủ: đồ thị đầy đủ có các cạnh với trọng số là độ
tương đồng giữa tất cả các node



Độ tương đồng sử dụng một số độ đo tương đồng “cục bộ” như:
Euclidean, Cosine,…
Thường sử dụng Gaussian Kernel:
Đồ thị thưa: mỗi node chỉ có liên kết đến một số node



11
Đồ thị kNN
Đồ thị ϵNN
Đồ thị trọng số tanh
Thuật toán gán nhãn

Lan truyền nhãn [Zhu and Ghahramani, 2002]

12
Tư tưởng: Từ các node 1,2,…,l đã có nhãn, mỗi node bắt đầu
sẽ gán chính nhãn của nó có các node láng giềng, quá trình này
sẽ lặp cho đến khi hội tụ
Thuật toán gán nhãn
13
Thuật toán gán nhãn
14
Thuật toán gán nhãn


Thuật toán hội tụ khi vector dự đoán không thay đổi
Thuật toán không làm thay đổi nhãn của các dữ liệu đã
gắn nhãn
15
Thuật toán gán nhãn

Thuật toán cải tiến Zhu 02:


16
Gán Wii=0 thay cho Wii=1
Cho phép nhãn của dữ liệu đã gắn nhãn thay đổi ῩL≠YL
Thuật toán gán nhãn

Thuật toán “lan truyền” nhãn [Zhou et al., 2004]

17
Tư tưởng: tải mỗi bước lặp node i sẽ nhận thêm các đóng góp
của láng giềng j
Thuật toán gán nhãn

Từ truyền dẫn qua quy nạp




Phân lớp một dữ liệu mới với độ phức tạp O(n)
Tư tưởng: Giả sử có ẏ1,…, ẏn đã được tính toán bằng một
trong các giải thuật trên, chúng ta tính toán ẏ của dữ liệu mới
dựa vào các nhãn đã có.
Nhóm tác giả [Delalleau et al., 2005] đưa ra công thức quy
nạp đơn giản với thời gian tính toán là tuyến tính.
WX là một hàm được sinh ra từ ma trận W với X=(x1,..,xn)


18
WX : hàm kNN
WX : Gaussian kernel
Công việc tiếp theo


Các phương pháp gắn nhãn và tối ưu sử dụng chuẩn hóa
đồ thị Laplace
Nghiên cứu một số mô hình cụ thể



Celikyilmaz, A. & Thint, M., & Huang, Z.(2009) A Graph-based SemiSupervised Learning for Question-Answering. ACL-2009, Main
Conference, Singapore
Jinxiu Chen, Donghong Ji, Chew L. Tan, and Zhengyu Niu. 2006.
Relation extraction using label propagation based semi-supervised
learning. In Proceedings of ACL’06, pages 129–136.
Thử nghiệm trên dữ liệu cụ thể
19
XIN CẢM ƠN
20