iii. một thuật toán gom cụm dữ liệu dựa vào quan hệ dung sai trong

Download Report

Transcript iii. một thuật toán gom cụm dữ liệu dựa vào quan hệ dung sai trong

GOM CỤM DỮ LIỆU DỰA VÀO
QUAN HỆ DUNG SAI
Nguyễn Văn Phúc - Trần Tuấn Minh
Khoa Công nghệ thông tin – Đại học Đà Lạt
[email protected], [email protected]
NỘI
DUNG
Mở
đầu
Quan hệ
dung sai
Thuật toán gom cụm
dữ liệu dựa vào
quan hệ dung sai
trong KG metric
Kết quả
thử nghiệm
Kết
luận
I. Mở đầu



Gom cụm dữ liệu là phương pháp học không có giám sát, dựa
vào độ tương tự của các đối tượng trong một tập để thực hiện
gom các đối tượng thành các cụm, sao cho các đối tượng
trong cùng một cụm thì tương tự nhiều và ít tương tự với các
đối tượng thuộc cụm khác.
Trong các phương pháp gom cụm, phương pháp phân hoạch
khá phổ biến mà đặc trưng là thuật toán K-Means,
DBSCAN,...
Phương pháp DBSCAN sẽ tách tập các đối tượng thành các
nhiễu và các cụm đôi một rời nhau, là các tập chứa các đối
tượng có mật độ tập trung theo ngưỡng Eps và MinPts

Trong bài này đưa ra một thuật toán gom các đối tượng thành
các cụm đôi một rời nhau, có thể có hình dạng bất kỳ nhưng
các đối tượng không nhất thiết phải tập trung với mật độ cao.

Xuất phát từ một quan hệ dung sai, thành lập quan hệ tương
đương xác định bởi quan hệ liên thông của các đối tượng.
Quan hệ tương đương này tách không gia đã cho thành các
lớp tương đương, đó cũng chính là các cụm tạo ra mà mỗi
cụm gồm các đối tượng liên thông với nhau.

Một cụm chỉ có một đối tượng ta gọi là nhiễu. Thuật toán dựa
vào tính chất của quan hệ dung sai và áp dụng vào các không
gian có sử dụng độ đo khoảng cách.
II. Quan hệ dung sai
II.1 Định nghĩa :
Cho U là một tập khác  gồm một số hữu hạn các đối tượng.
Quan hệ hai ngôi R trên U gọi là quan hệ dung sai trên U nếu
R có 2 tính chất:
 Phản xạ : xRx; x  U
 Đối xứng : xRy  yRx; x,y U.
II.2 Định nghĩa :
Cho R là quan hệ dung sai trên U. Đặt :
Tx = {y  U : y R x} ; x  U
Tx gọi là tập dung sai của x.
Nhận xét :
 x  Tx ; x  U
 x  Ty  y  Tx ; x,y  U.
 x R y  x,y  Tx  Ty; x,y  U.
Tx
Tx Ty
x
y
Ty
II.3 Định lý:
Cho tập hữu hạn U  . R là quan hệ dung sai trên U. Ta định
nghĩa một quan hệ hai ngôi R trên U như sau:
x, y U : x R y  u1 ,, un U : x  u1 , y  un , ui 1 Tu ; i  1,n  1
(Dây chuyền các tập dung sai giao từng cặp kế cận khác rỗng nối x và y)
R gọi là quan hệ liên thông trên U theo R.
i
i.
ii.
Ta có quan hệ liên thông R là
quan hệ tương đương trên U.
Với mọi x  U, ký hiệu :
[x]R = {y  U : x R y} là lớp
tương đương trên U có đại diện là
x theo quan hệ tương đương R .
Ta có: Tx  [x]R
II.4 Định nghĩa:
 Với mọi x  U : ta gọi [x]R là thành phần liên thông trên U
theo R .
 Đặt UR = U/R = {[x]R : x  U }: Tập hợp tất cả các lớp tương
đương trên U xác định bởi quan hệ tương đương R .
Nhận xét :
Khi đó UR là một phân hoạch của U gồm tất cả các thành
phần liên thông trên U theo quan hệ dung sai R.
Ta còn nói quan hệ dung sai R tách U thành các thành
phần liên thông.
II.5 Định lý:
Một thành phần liên thông [x]R trên U có dạng :
 Hoặc là tập dung sai Tx , xU

n
Hoặc là :
[ x] R   Txi
i
với

Txi    Tx j
 j i

   ; i  1 n


Chứng minh
Lấy x  U, ta có thể viết :
[x]R = {x1,x2,..., xn}, trong đó xi xj nếu i  j
ta có : x  T
n
R
i 1
xi
II.6 Thuật toán gom cụm dựa vào quan hệ dung sai
Input U, R
Output : các cụm đôi một rời nhau.
Mô tả :
do
{
Lấy x U;
A = {x};
Với mọi y  (U\A) :
Nếu (Ty A) :
A = A{y};
A là cụm hay nhiễu;
U = U\A;
}
whlie (U  );
III. MỘT THUẬT TOÁN GOM CỤM DỮ LIỆU
DỰA VÀO QUAN HỆ DUNG SAI TRONG KG METRIC
III.1 Định nghĩa:
 Trong không gian metric hữu hạn (U,d). Với  > 0 cho trước,
ta nói x, y  U có quan hệ gần nhau theo d với mức  khi
d(x,y)  .
 Ký hiệu R là quan hệ gần nhau theo d mức  của 2 phần tử.
Nhận xét:
 x, y  U : x R y  d(x,y)  .
 Khi đó, quan hệ R là quan hệ dung sai trên U, nên tách U
thành các lớp liên thông đôi một rời nhau.
III.2 Định nghĩa ( cụm, nhiễu)
Cho không gian metric hữu hạn (U,d), và  > 0. R là
quan hệ gần nhau theo d mức  trên U. Khi đó R là quan hệ
dung sai trên U.
Ta nói một cụm trong U theo R là một thành phần liên thông
trên U xác định bới quan hệ R.
Trong trường hợp một cụm chỉ có một phần tử, ta gọi phần tử đó
là nhiễu.
Theo III.1, quan hệ gần nhau theo d mức  tách U thành các cụm
đôi một rời nhau và các nhiễu, các phần tử trong một cụm gồm
những đối tượng liên thông được với nhau. Hai đối tượng thuộc
2 cụm khác nhau sẽ không liên thông được với nhau.
Ghi chú:
- Hai đối tượng thuộc 2 cụm khác nhau thì không gần nhau mức  .
- Hai đối tượng thuộc một cụm thì liên thông được với nhau, nhưng chưa chắc đã gần nhau
mức .
III.3 Mô tả thuật toán gom cụm theo quan hệ dung sai (QHDS)
(thuật toán II.6 trở thành)
Input : (U,d),  > 0
Output : Các cụm đôi một rời nhau
Mô tả :
do
{
Lấy x U;
A = {x};
Với mọi y  (U\A) :
Nếu (d(y,A) < ) :
A = A {y};
A là cụm hay nhiễu;
U = U\A;
}
whlie (U  );
Ví dụ 1:
Cho tập U gồm các điểm trong mặt phẳng như hình 1 :
 Kết quả gom cụm theo thuật toán DBSCAN với  = 1.5 > 0; MinPts = 2 là : 2 cụm
Màu đỏ, 2 nhiễu màu đỏ.
 Kết quả gom cụm theo thuật toán QHDS với  = 1.5 > 0: 2 cụm màu đỏ và 1 cụm
màu xanh
hình 1
Ví dụ 2:

Cho tập U gồm các điểm trong mặt phẳng như hình 2 :
Với  = 1.5 > 0; MinPts = 2 :
Kết quả gom cụm theo thuật toán DBSCAN và thuật toán QHDS là giống
nhau : 3 cụm Màu đỏ
hình 2
IV. Kết quả thử nghiệm
Chương trình thử nghiệm chạy trên PC tốc độ 2.26GHz, dung lượng bộ nhớ RAM
2GB, bộ nhớ Cache L2 2MB với 4 bộ dữ liệu: Gausian, Real data [5], và 2 bộ dữ
liệu thử. Để dễ dàng minh họa kết quả, các tập dữ liệu được sử dụng có 2 chiều.
 Kết quả thực nghiệm QHDS khi so sánh với DBSCAN được cho trong bảng 1:

10.000
0.0574
03022
5
Real data
1
11.989
0.0160
675616
10
Real data
2
20.000
0.0156
135244
15
Số cluster
1
31
Thời gian
115 giây
Số cluster
Tập dữ liệu
Gausian
Sample 1
Sample 2
Số mẫu tin
728
0.0362
308324
5
168
0.0634
728079
5
5
6
5
107 giây
445 giây
0.593 giây
0.031 giây
10
49
6
6
5
Thời gian
107 giây
103 giây
452 giây
0.521 giây
0.039 giây
Số cluster
10
49
6
6
5
Thời gian
63 giây
48 giây
322 giây
0.346 giây
0.037 giây
Eps
MinPts
DBSCAN
QHDS
QHDS kết
hợp cây R*

Hình sau cho thấy các cụm được phát hiện trong tập dữ liệu Real data 1 bằng cách
sử dụng thuật toán DBSCAN (hình 3.a) và QHDS (hình 3.b). Những điểm được tô
màu nâu đỏ biểu diễn cho các đối
V. Kết luận



Bài báo giới thiệu một thuật toán gom cụm dữ liệu dựa vào
quan hệ liên thông giữa 2 đối tượng. Hai đối tượng liên thông
với nhau khi có một dây chuyền các tập dung sai giao từng
cặp kế cận khác rỗng nối 2 đối tượng đó. Các tập dung sai xác
định từ quan hệ dung sai.
Quan hệ liên thông 2 đối tượng là một quan hệ tương đương,
nên sẽ tách các tập đối tượng thành các lớp tương đương mà ta
gọi là thành phần liên thông.
Sử dụng trong không gian metric với quan hệ dung sai của 2
phần tử gần nhau mức  ta có thuật toán gom cụm dữ liệu,
gom các đối tượng liên thông với nhau vào cùng một cụm.
Q&A