Transcript Slide 1

Hoàng Hải Hưng
Nguyễn Hồng Điệp
Nội dung
1
Giới thiệu về tấn công hệ thống
ADL
2
Mô hình ADL T-Lex
3
Phương pháp tấn công
Nội dung
1
Giới thiệu về tấn công hệ thống
ADL
2
Mô hình ADL T-Lex
3
Phương pháp tấn công
Giới thiệu
Tấn công
Không có chủ ý
• Lỗi đường truyền
•Mất mát thông tin
khi nén
•Đổi dịnh dạng
…
Có chủ ý
• Dựa trên các
thuộc tính thống kê
Nội dung
1
Giới thiệu về tấn công hệ thống
ADL
2
Mô hình ADL T-Lex
3
Phương pháp tấn công
Hệ thống ẩn dữ liệu T-Lex
T-Lex (Tyrannosaurus Lex) là hệ thống ẩn dữ
liệu dựa trên mô hình thay thế từ vựng
Vấn đề cơ bản là phải giữ nguyên ý nghĩa của
câu
Hệ thống ẩn dữ liệu T-Lex
(10011011010)2
Chuỗi văn bản
cần nhúng
Chuỗi nhị phân
Nén Huffman
Nhúng vào văn
bản
Hệ thống ẩn dữ liệu T-Lex
little
(101)2
Ho Chi Minh city is a
little
Ho Chi Minh city is a great little town
Nội dung
1
Giới thiệu về tấn công hệ thống
ADL
2
Mô hình ADL T-Lex
3
Phương pháp tấn công
Tấn công hệ thống ADL text cấp
độ từ
1
Yếu điểm phương pháp ADL
cấp độ từ.
2
Mô hình hóa ngôn ngữ bằng
thống kê (n-grams)
3
Tấn công
Yếu điểm pp ADL văn bản dựa
trên thay thế từ đồng nghĩa.
Văn bản sau khi thay thế từ đồng nghĩa.
 Không phù hợp với cách sử dụng ngôn ngữ (tiếng
Anh) thông thường. Ví dụ:
• soon afterwards dispatched
• soon subsequently dispatched
 Không phù hợp với thể loại và phong cách tác giả
trong văn bản.
=> khác so với cách sử dụng phổ biến
Mô hình ngôn ngữ N-Grams
Là một mô hình thống kê ước lượng xác suất
của chuỗi các từ độ dài n (n-gram).
Nguồn ([1])
Ex: P(thi rớt) = p(rớt /thi) * p(thi)
P(W) = ?
P(w) = r(w)/N
r(w) số lần xuất hiện của n-grams w.
N số lượng N-gram cho trong văn bản huấn luyện.
Stanford Research Institute
Language Modeling (SRILM)
Toolkit [3]
Tham số
 Loại n-gram được sử dụng.
 Loại giải thuật discounting được sử dụng. GoodTuring, absolute, Witten-Bell, và Kneser-Ney - chỉnh
sửa.
 Tùy chọn một từ điển xác định trước.
 Loại bỏ các từ không phổ biến (stop-word) hay là xem
chúng như token xác định.
 Có loại bỏ trường hợp đặc biệt trong văn bản nhập.
(ảnh: http://www.speech.sri.com/images/logo_sri.gif)
OUTPUT-Vector đặc trưng của
câu
Thống kê từ (số lượng từ, các từ không thuộc từ
điển, các từ xác suất bằng 0).
Chiều dài ngữ cảnh n-gram nhỏ nhất , và lớn
nhất.
Các thống kê về ước lượng xác suất cho n-gram
trong câu (mean, min, max)
Các thống kê mô hình cho xác suất của n-gram
trong câu (min, max).
Tổng xác suất của câu.
Ví dụ
Manfred Bender scored from a header in the
80th minute, four transactions after coming on.
Kết quả - vector đặc trưng cho câu trên
 Word statistics (Number of words (12), Out Of
Vocabulary (OOV) words (2), Zero probability words
(0) )
 Mimimum n-gram context length matchihg the model
(1), and maximum (3) respectively
 Statistics of model probability estimations for n-grams
in the sentence (mean, min, max) (0.165, 0,0.827586)
Cách thức tấn công
Mục tiêu tấn công.
 Phân lớp câu có ẩn dữ liệu/ không ẩn dữ liệu
Phương pháp :Học máy SVM (support vector
machine).
 Sử dụng thư viện libsvm (nguồn [2])
Kết quả đạt được
Kết quả:
Độ chính xác khi
phân vào lớp :
 Có dữ liệu mật là
84.9%
 Không ẩn dữ liệu
38.6% ,
Độ phủ (recall) cao
nhưng độ chính
xác(precision) thấp.
Tài liệu tham khảo
 [1] Cuneyt M. Taskiran, Umut Topkara, Mercan
Topkara, and Edward J. Delp, "Attacks on Lexical
Natural Language Steganography Systems , "
Proceedings- Spie The International Society For Optical
Engineering, Vol. 6072, 2006
 [2] Thư viện libsvm,
http://www.csie.ntu.edu.tw/~cjlin/libsvm/
 [3] Stanford Research Institue Language Model Toolkit,
 http://www.speech.sri.com/projects/srilm/
 [4] Stanford Log-linear Part-Of-Speech Tagger,
http://nlp.stanford.edu/software/tagger.shtml