Transcript Slide 1

Hoàng Hải Hưng
Nguyễn Hồng Điệp
Nội dung
1
Giới thiệu
2
Mô hình T-Lex
3
Các điểm yếu của T-Lex
4
Phương pháp tấn công
1
Giới thiệu
2
Mô hình T-Lex
3
Các điểm yếu của T-Lex
4
Phương pháp tấn công
Giới thiệu
Tấn công
Không có chủ ý
• Lỗi đường truyền
•Mất mát thông tin
khi nén
•Đổi dịnh dạng
…
Có chủ ý
• Dựa trên các
thuộc tính thống kê
1
Giới thiệu
2
Mô hình T-Lex
3
Các điểm yếu của T-Lex
4
Phương pháp tấn công
Hệ thống ẩn dữ liệu T-Lex
T-Lex (Tyrannosaurus Lex) là hệ thống ẩn dữ
liệu dựa trên mô hình thay thế từ vựng
Vấn đề cơ bản là phải giữ nguyên ý nghĩa của
câu
Hệ thống ẩn dữ liệu T-Lex
(10011011010)2
Chuỗi văn bản
cần nhúng
Chuỗi nhị phân
Nén Huffman
Nhúng vào văn
bản
Hệ thống ẩn dữ liệu T-Lex
little
(101)2
Ho Chi Minh city is a
little
Ho Chi Minh city is a great little town
1
Giới thiệu
2
Mô hình T-Lex
3
Các điểm yếu của T-Lex
4
Phương pháp tấn công
Tấn công hệ thống ADL text cấp
độ từ
Yếu điểm pp ADL cấp độ từ.
Mô hình hóa ngôn ngữ bằng thống kê (n-grams)
Tấn công
Yếu điểm pp ADL văn bản dựa
trên thay thế từ đồng nghĩa.
Văn bản sau khi thay thế từ đồng nghĩa.
 Không phù hợp với cách sử dụng ngôn ngữ (tiếng
Anh) thông thường. Ví dụ:
• soon afterwards dispatched
• soon subsequently dispatched
 Không phù hợp với thể loại vàc phong cách tác giả
trong văn bản.
1
Giới thiệu
2
Mô hình T-Lex
3
Các điểm yếu của T-Lex
4
Phương pháp tấn công
Mô hình hóa ngôn ngữ N-Grams
Một mô hình ngôn ngữ là một mô hình thống kê
ước lượng xác suất của chuỗi các từ độ dài n
(n-gram).
Nguồn ([1])
Ex: P(thi rớt) = p(rớt /thi) * p(thi)
P(W) = ?
P(w) = r(w)/N
 R(w) số lần xuất hiện của n-grams w.
 N số lượng N-gram cho trong văn bản huấn luyện.
Stanford Research Institute
Language Modeling (SRILM)
Toolkit [3]
Tham số
 Loại n-gram được sử dụng.
 Loại giải thuật discounting được sử dụng. GoodTuring, absolute, Witten-Bell, và Kneser-Ney - chỉnh
sửa.
 Tùy chọn một từ điển xác định trước.
 Loại bỏ các từ không phổ biến (stop-word) hay là xem
chúng như token xác định.
 Có loại bỏ trường hợp đặc biệt trong văn bản nhập.
(ảnh: http://www.speech.sri.com/images/logo_sri.gif)
Huấn luyện mô hình ngôn ngữ
thống kê
Thay thế giá trị được gán cho 3 tham số quan
trọng của SRILM để lấy 8 mô hình ngôn ngữ
khác nhau. 3 tham số đó là:
 Từ vựng : đóng hay mở.
 Model order: bình thường hoặc bỏ qua
 Cắt bỏ tần số n-gram : có hoặc loại bỏ n-grams xuất
hiện 1 lần.
Vector đặc trưng của câu
Thống kê từ (số lượng từ, các từ không thuộc từ
điển, các từ xác suất bằng 0).
Chiều dài ngữ cảnh n-gram nhỏ nhất , và lớn
nhất.
Các thống kê về ước lượng xác suất cho n-gram
trong câu (mean, min, max)
Các thống kê mô hình cho xác suất của n-gram
trong câu (min, max).
Tổng xác suất của câu.
Ví dụ
Manfred Bender scored from a header in the
80th minute, four transactions after coming on.
Kết quả - vector đặc trưng cho câu trên
 Word statistics (Number of words (12), Out Of
Vocabulary (OOV) words (2), Zero probability words
(0) )
 Mimimum n-gram context length matchihg the model
(1), and maximum (3) respectively
 Statistics of model probability estimations for n-grams
in the sentence (mean, min, max) (0.165, 0,0.827586)
Cách thức tấn công
Mục tiêu tấn công.
 Phân lớp câu có ẩn dữ liệu/ không ẩn dữ liệu
Phương pháp :Học máy SVM (support vector
machine).
 Sử dụng thư viện libsvm (nguồn [2])
Kết quả đạt được
Kết quả:
Độ chính xác khi
phân vào lớp :
 Có dữ liệu mật là
84.9%
 Không ẩn dữ liệu
38.6% ,
Độ phủ (recall) cao
nhưng độ chính
xác(precision) thấp.
Tài liệu tham khảo
 [1] Cuneyt M. Taskiran, Umut Topkara, Mercan
Topkara, and Edward J. Delp, "Attacks on Lexical
Natural Language Steganography Systems , "
Proceedings- Spie The International Society For Optical
Engineering, Vol. 6072, 2006
 [2] Thư viện libsvm,
http://www.csie.ntu.edu.tw/~cjlin/libsvm/
 [3] Stanford Research Institue Language Model Toolkit,
 http://www.speech.sri.com/projects/srilm/
 [4] Stanford Log-linear Part-Of-Speech Tagger,
http://nlp.stanford.edu/software/tagger.shtml