基因微陣列分類系統 指導教授: 張玉盈 教授 組 員: 陳昭瑋 李進旗 何榮倫 陳勇達 Outline  目的  系統簡介  演算法說明  DEMO.

Download Report

Transcript 基因微陣列分類系統 指導教授: 張玉盈 教授 組 員: 陳昭瑋 李進旗 何榮倫 陳勇達 Outline  目的  系統簡介  演算法說明  DEMO.

基因微陣列分類系統
指導教授: 張玉盈 教授
組
員: 陳昭瑋 李進旗
何榮倫 陳勇達
Outline
 目的
 系統簡介
 演算法說明
 DEMO
2
目的




生物資訊是最近非常熱門的一個研究方向
生物資訊其最終目標是要完全了解人類所有
基因的秘密。
生物資訊中,微陣列(microarray)是用來了
解基因表現的重要工具。
藉由針對微陣列設計分類系統,可以幫助
醫學界更精準地判斷基因相關的疾病。
3
系統簡介



利用微陣列設計分類系統
微陣列(Microarray)
二維陣列
一維:基因
一維:條件
陣列所記錄的值,即某個基因在某個
condition下所表現的程度。
4
Classification

Classification是從兩組已知分類結果的資料
中,找出能夠用來區分分類的classifier,之
後便利用此classifier來預測新資料的所屬分
類。
TEST
A組
classifier
TEST的分類結果
B組

本專題使用的classifier為eJEP。
5
演算法

Preprocessing(將輸入資料轉換成有用資料)

P-tree(Pattern tree) Construction and merge

Using the P-tree to Mine eJEPs
(Essential Jumping Emerging Patterns)

Compute similarity by score function

將輸入資料分類到應屬的Class
6
Preprocessing


Normal Data
Name
Test1
Test2
Test3
Label
Gene1
4.3
0
70
N
Gene2
6.9
1.3
92
N
Gene3
11.2
0.4
65
N
Cancer Data
Name
Test1
Test2
Test3
Label
Gene1
5.5
-1.4
153
C
Gene2
2.7
0.5
95
C
Gene3
3.8
-0.7
102
C
7
Normal Data
Normal Class(Class D1)
Name Test1 Test2 Test3
Label
Name
a
b
c
Gene1
4.3
0
70
N
Gene1
0
1
0
Gene2
6.9
1.3
92
N
Gene2
1
1
0
Gene3
11.2
0.4
65
N
Gene3
1
1
0
Cancer Data
Cancer Class(Class D2)
Name
Test1
Test2
Test3
Label
Name
a
b
c
Gene1
5.5
-1.4
153
C
Gene1
1
0
1
Gene2
2.7
0.5
95
C
Gene2
0
1
0
Gene3
3.8
-0.7
102
C
Gene3
0
0
1
Name
Cut
Point
>=
<
Test1
5
a=1
a=0
Test2
0
b=1
b=0
Test3
100
c=1
c=0
8
Class D1
Preprocessing
Name
a
b
c
Gene1
0
1
0
Gene2
1
1
0
Gene3
1
1
0
D1
b
a b
a b
Class D2
Name
a
b
c
Gene1
1
0
1
Gene2
0
1
0
Gene3
0
0
1
D2
a c
b
c
9
P-tree Construction and merge



A pattern tree (P-tree) is an ordered
multiway tree structure.
The ordered is item’s supports-rationdescending order.
Nodes will be merged, which ensures
the complete set of eJEPs are generated.
10
P-tree Construction and merge
data class 1={{a,c,d,e},{a},{b,e},{b,c,d,e}}
data class 2={{a,b},{c,e},{a,b,c,d},{d,e}}
the supports-ratio-descending order: e > a > b > c >d
Data class 1={{e,a,c,d},{a},{e,b},{e,b,c,d}}
Data class 2={{a,b},{e,c},{a,b,c,d},{d,e}}
Construct the P-tree
11
P-tree Construction and merge
12
P-tree Construction and merge
13
P-tree Construction and merge
14
P-tree Construction and merge
15
P-tree Construction and merge
16
P-tree Construction and merge
17
eJEP

eJEP定義 :
a
b
b
a
a b可以互換


根據定義我們就可以找出eJEP
這裡定義μ=1
18
e 3 2 a 2 2 b 2 2 c 2 2 d 2 2
b02 c 11d11
c 01d01
c 11d11
d11
d01
d10
d11
eJEP:
a 10b20 c 21d21
c 10d10
d21
c 10d10
d10
d20
{e,a}
(1:0)
{e,b}
(2:0)
{e,c,d} (2:0)
{a,b}
(0:2)
19
Similarity

Score Function

where eJEP(Ci) are all the eJEPs in Ci


The eJEPs-Classifier determines the
class label as the class where s
obtains the largest Ci
SUPP(X) 代表X在Class中出現次數
20
Class1(D1)
eacd
a
be
bcde
eJEPs in Class1(D1)
ea
eb
ecd
Class2(D2)
a
e
a
e
b
c
bcd
d
eJEPs in Class2(D2)
ab
Testing Data s = {e, a, b, c}
score(D1) = supp( {e, a} ) +supp( {e, b} ) =1+2=3
score(D2) = supp( {a,b} )=2
Thus, the class label of Data s is D1
21
DEMO前的說明
Demo用的microarray資料是急性白血病
的分類,有:
(1) 急性髓細胞白血病(AML)
(2) 急性淋巴細胞白血病(ALL)


我們要由系統來偵測出所輸入資料的急性
白血病分類,AML 或者 ALL。
Microarray資料來源:
http://www.broad.mit.edu/
22
視窗介面
23
視窗介面
視窗介面
視窗介面
視窗介面
DEMO 時間