How to use CORUM-GO-BOND

Download Report

Transcript How to use CORUM-GO-BOND

蛋白質相關介紹
大綱
 蛋白質交互作用與複合體
 各種編號
 資料庫介紹
 工具介紹
蛋白質交互作用與複合體
 蛋白質會彼此結合在一起而形成蛋白質複合體
(protein complex)以執行特殊功能。
 蛋白質的結合稱作蛋白質與蛋白質交互作用
(protein-protein interactions;PPI)。
 許多學者研究蛋白質複合體是從圖論的觀點出發,
主要是相互作用網路中密度高之區域極可能是蛋白
質複合體 。
 目前尚未有其他先進探討蛋白質複合體中內部的關
連性,故本文對真實的複合體做了密度和連通度的
驗證 。
蛋白質間交互作用相關研究
 蛋白質是細胞中功能執行的最終產物,因此蛋白質體
學其著重的議題是在討論蛋白質在細胞中所扮演的生
理功能。由於蛋白質的功能發揮往往是經過數個蛋白
質之間交互作用而達成,所以建立蛋白質間交互作用
(protein-protein interaction)和蛋白質間交互作用網路
(protein-protein interaction network)是目前研究蛋白
質體學的起始課題
蛋白質編號
目前常見的三種編號
Gene ID
Uniport
Protein GI
604
P41182
gi728952
9759
P56524
gi259016348
資料庫
 目前常用資料庫有:
 BOND (protein GI)
 MIPS (Uniprot) and (Gene ID or Entrez ID)
 NCBI
 Biogrid (Gene ID or Entrez ID)
 DIP
 Gene Ontology (GO)
 GNS
 BLAST
 NCBI - Batch
BOND
 BOND為一個提供蛋白質複合體與複合體中蛋白質的GO生
物功能的資料庫
 目前人類的蛋白質複合體數量為653個
 提供資料格式如下表,左表為Go Annotator資料,右表為DB
Cross Reference資料
BOND的編號
BINDID
GI
GOID
GOName
BINDID
GI
GOID
GOName
12824
4505911
3677
DNA binding
12824
4505911
3677
DNA binding
12824
4505911
5524
ATP binding
12824
4505911
5524
ATP binding
12824
4505911
5634
nucleus
12824
4505911
5634
nucleus
12824
4505911
6281
DNA repair
12824
4505911
6281
DNA repair
12824
4505911
6298
mismatch repair
12824
4505911
6298
mismatch repair
12824
4505911
6355
regulation of transcription,
DNA-dependent
12824
4505911
6355
regulation of transcription,
DNA-dependent
12824
4505911
45786
negative regulation of cell
cycle
12824
4505911
45786
negative regulation of cell
cycle
一個蛋白值擁有多
個功能
所擁有的GO功能
BOND(使用方法)
 網址:http://bond.unleashedinformatics.com/Action?pg=1001
BOND(主頁面)
BOND(搜尋結果)
BOND(儲存)
Mips
 網址: http://mips.helmholtz-muenchen.de/genre/proj/corum/
Mips(資料格式)
依照分號切割欄位
Mips欄位(EX)
 Mips編號;複合體名稱;;物種;uniport ID(子單元);Gene ID(子單元)
 1;BCL6-HDAC4 complex;;Human;P41182
P56524;604
9759;
DIP
 DIP 為一個提供蛋白質相互作用的資料庫
 提供資料格式如下表:
node A
SwissProt
id
node B
SwissProt
id
node A
GI code
node B id
P34991
16777215
DIP:17013N
Cul1p
Q13616
3139077
Skp1p
P34991
16777215
DIP:27532N
IkBbeta
Q15653
703118
IkBalpha
P25963
10092619
DIP:17012N
Skp1p
node A
GUE id
edge id
node A id
DIP:18671E
DIP:17012N
Skp1p
DIP:44805E
DIP:17012N
DIP:44780E
DIP:139N
node A
PIR id
A39935
node B
GUE id
P34991
node B
PIR id
node B
GI code
16777215
頁面
網址:http://dip.doe-mbi.ucla.edu/dip/Main.cgi
NCBI
 完整名稱為美國國家生物資訊中心,是一個完整的生
物料庫,除了許多的生物資料和工具之外,也提供論
文下載。
 網址:http://www.ncbi.nlm.nih.gov/
NCBI
BioGrid
 BioGrid 是一個公開的蛋白質與蛋白質相互作用資料庫
 BioGrid的資料量是DIP的數倍之多
 提供資料格式如下表:
INTER
ACTOR
_A
INTERA
CTOR_B
OFFICIA
L_SYMB
OL_A
OFFICI
AL_SY
MBOL_
B
ALIASES_FOR_A
ALIASES_F
OR_B
EXPER
IMENT
AL_SY
STEM
SOURCE
PUB
MED
_ID
ORGAN
ISM_A_I
D
ORGAN
ISM_B_I
D
EG1134
EG1146
CHRNA1
CHRNG
ACHRA|ACHRD|CHR
NA|CMS2A|FCCMS|S
CCMS
ACHRG|
MGC133376
Invitro
Kreienka
mp HJ
(1995)
76959
10
9606
9606
EG70
EG7454
ACTC
WAS
CMD1R|ACTC1
IMD2|
THC|WASP
Invivo
Scott MP
(2002)
12029
088
9606
9606
EG2039
EG70
EPB49
ACTC
DMT
CMD1R|AC
TC1
Invivo
Khanna R
(2002)
12011
427
9606
9606
主要使用的兩個欄位,每行代表兩者有交互作用
 網址:http://thebiogrid.org/download.php
物種:9606為人類
BioGrid
Gene Ontology
 基本上GO 主要由三個分支組成
 Molecular Function
 Biological Process
 Cellular Component
Gene Ontology
在GO format 底下四個資料夾 function 、
process、comnpent、defs
按右鍵另存新檔下載
找到Homo sapiens
GO Annotations
下按
載右
鍵
另
存
新
檔
工具
 GNS:編號轉換
 NCBI:編號轉換,蛋白質序列下載
 Blast:序列比對
GNS
 http://bioagent.iis.sinica.edu.tw/GeneAlias/#
How to Use
 A. Search Methods
 (1) FullText︰
 目標︰ 訊息包含關鍵字的基因。
 檢索字段︰ 全部基因訊息專欄
 預訂透過︰ MySQL FullText

 使用情況︰
 1. 使用者想要知道某種話或者片語用於描述基因多重要。
 2. 使用者不知道哪種訊息話或者片語並且想要看看是否這與任何基因有
關。
 (2) Exact Match︰
 目標︰ 搜尋選擇的專欄誰的完全適合那些使用者所輸入的關鍵字。

 檢索字段︰ 選擇專欄
 預訂透過︰ 基因符號

 使用情況︰
 1. 使用者想要查特殊的基因訊息。 (例如︰使用基因象徵尋找基因Id)
 (3) Blurred Match︰
 目標︰ 在被選擇的專欄中搜尋使用者輸入的關鍵字。
 檢索字段︰ 選擇專欄
 預訂透過︰ 基因符號
 使用情況︰
 1. 使用者想要用模糊搜尋來尋找某些關鍵字。
 B. Search Hints

(1) 逐筆搜尋︰
 1. 使用逗號 “,” 同時做多搜尋。 (例如︰A2M,AACS)

(2) 批量搜尋︰
 1. 上載檔案形式︰ 正文檔案。
 2. 關鍵字限制︰ 20000個關鍵字。
Select Batch Search
Batch Search
Column
Selected
Selected : Uniprot/Swissprot
可製作.txt檔來上傳,格式可自行分辨,或是指定
選擇想轉制的格式
Upload Text Data File
Results
NCBI-batch
 Select the database : Gene
 Upload the text file
 Press the ‘retrieve’ button
 http://www.ncbi.nlm.nih.gov/sites/batchentrez?db=Nucleotide
Protein-轉換and序列下載
Database選擇Protein
錯誤表
建議最好記下來
下載蛋白質序列
對應的編號
下載選擇FASTA
Blast(安裝流程)
 1.到C槽建立一個資料夾
C:\ncbi-blastn\
 2.把軟體放進此資料夾(blast-2.2.13-ia32-win32)
 3.開記事本鍵入
[NCBI]
Data="C:\ncbi-blast\data"
 4.並以ncbi.ini型式存入c:\WINDOWS裡
Blast(安裝流程)
 5.點擊軟體(blast-2.2.13-ia32-win32.exe)執行安裝
 6.設定參數
控制台系統進階環境變數系統變數下選擇
Path編輯在變數值內加入;c:\ncbi-blast即可開始
使用NCBI Blastn
Blast使用方式
 以146490為範例,利用NCBI Blast軟體的blastp指
令對所抓取的複合體序列進行序列比對。
Blast(批次處理)
 一筆一筆輸入太沒效率了,所以建立bat檔來做處理。
 執行時只需將fasta檔放入相同的資料夾即可
變更區域
Blast(批次處理)
 執行順序:Format->Score->1-6
 每個bat檔皆須修改