Transcript Slide 1
Hoàng Hải Hưng
Nguyễn Hồng Điệp
Nội dung
1
Giới thiệu
2
Mô hình T-Lex
3
Các điểm yếu của T-Lex
4
Phương pháp tấn công
1
Giới thiệu
2
Mô hình T-Lex
3
Các điểm yếu của T-Lex
4
Phương pháp tấn công
Giới thiệu
Tấn công
Không có chủ ý
• Lỗi đường truyền
•Mất mát thông tin
khi nén
•Đổi dịnh dạng
…
Có chủ ý
• Dựa trên các
thuộc tính thống kê
1
Giới thiệu
2
Mô hình T-Lex
3
Các điểm yếu của T-Lex
4
Phương pháp tấn công
Hệ thống ẩn dữ liệu T-Lex
T-Lex (Tyrannosaurus Lex) là hệ thống ẩn dữ
liệu dựa trên mô hình thay thế từ vựng
Vấn đề cơ bản là phải giữ nguyên ý nghĩa của
câu
Hệ thống ẩn dữ liệu T-Lex
(10011011010)2
Chuỗi văn bản
cần nhúng
Chuỗi nhị phân
Nén Huffman
Nhúng vào văn
bản
Hệ thống ẩn dữ liệu T-Lex
little
(101)2
Ho Chi Minh city is a
little
Ho Chi Minh city is a great little town
1
Giới thiệu
2
Mô hình T-Lex
3
Các điểm yếu của T-Lex
4
Phương pháp tấn công
Tấn công hệ thống ADL text cấp
độ từ
Yếu điểm pp ADL cấp độ từ.
Mô hình hóa ngôn ngữ bằng thống kê (n-grams)
Tấn công
Yếu điểm pp ADL văn bản dựa
trên thay thế từ đồng nghĩa.
Văn bản sau khi thay thế từ đồng nghĩa.
Không phù hợp với cách sử dụng ngôn ngữ (tiếng
Anh) thông thường. Ví dụ:
• soon afterwards dispatched
• soon subsequently dispatched
Không phù hợp với thể loại vàc phong cách tác giả
trong văn bản.
1
Giới thiệu
2
Mô hình T-Lex
3
Các điểm yếu của T-Lex
4
Phương pháp tấn công
Mô hình hóa ngôn ngữ N-Grams
Một mô hình ngôn ngữ là một mô hình thống kê
ước lượng xác suất của chuỗi các từ độ dài n
(n-gram).
Nguồn ([1])
Ex: P(thi rớt) = p(rớt /thi) * p(thi)
P(W) = ?
P(w) = r(w)/N
R(w) số lần xuất hiện của n-grams w.
N số lượng N-gram cho trong văn bản huấn luyện.
Stanford Research Institute
Language Modeling (SRILM)
Toolkit [3]
Tham số
Loại n-gram được sử dụng.
Loại giải thuật discounting được sử dụng. GoodTuring, absolute, Witten-Bell, và Kneser-Ney - chỉnh
sửa.
Tùy chọn một từ điển xác định trước.
Loại bỏ các từ không phổ biến (stop-word) hay là xem
chúng như token xác định.
Có loại bỏ trường hợp đặc biệt trong văn bản nhập.
(ảnh: http://www.speech.sri.com/images/logo_sri.gif)
Huấn luyện mô hình ngôn ngữ
thống kê
Thay thế giá trị được gán cho 3 tham số quan
trọng của SRILM để lấy 8 mô hình ngôn ngữ
khác nhau. 3 tham số đó là:
Từ vựng : đóng hay mở.
Model order: bình thường hoặc bỏ qua
Cắt bỏ tần số n-gram : có hoặc loại bỏ n-grams xuất
hiện 1 lần.
Vector đặc trưng của câu
Thống kê từ (số lượng từ, các từ không thuộc từ
điển, các từ xác suất bằng 0).
Chiều dài ngữ cảnh n-gram nhỏ nhất , và lớn
nhất.
Các thống kê về ước lượng xác suất cho n-gram
trong câu (mean, min, max)
Các thống kê mô hình cho xác suất của n-gram
trong câu (min, max).
Tổng xác suất của câu.
Ví dụ
Manfred Bender scored from a header in the
80th minute, four transactions after coming on.
Kết quả - vector đặc trưng cho câu trên
Word statistics (Number of words (12), Out Of
Vocabulary (OOV) words (2), Zero probability words
(0) )
Mimimum n-gram context length matchihg the model
(1), and maximum (3) respectively
Statistics of model probability estimations for n-grams
in the sentence (mean, min, max) (0.165, 0,0.827586)
Cách thức tấn công
Mục tiêu tấn công.
Phân lớp câu có ẩn dữ liệu/ không ẩn dữ liệu
Phương pháp :Học máy SVM (support vector
machine).
Sử dụng thư viện libsvm (nguồn [2])
Kết quả đạt được
Kết quả:
Độ chính xác khi
phân vào lớp :
Có dữ liệu mật là
84.9%
Không ẩn dữ liệu
38.6% ,
Độ phủ (recall) cao
nhưng độ chính
xác(precision) thấp.
Tài liệu tham khảo
[1] Cuneyt M. Taskiran, Umut Topkara, Mercan
Topkara, and Edward J. Delp, "Attacks on Lexical
Natural Language Steganography Systems , "
Proceedings- Spie The International Society For Optical
Engineering, Vol. 6072, 2006
[2] Thư viện libsvm,
http://www.csie.ntu.edu.tw/~cjlin/libsvm/
[3] Stanford Research Institue Language Model Toolkit,
http://www.speech.sri.com/projects/srilm/
[4] Stanford Log-linear Part-Of-Speech Tagger,
http://nlp.stanford.edu/software/tagger.shtml