Bài giảng thực hành Bioinformatic

Download Report

Transcript Bài giảng thực hành Bioinformatic

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA SINH HỌC
THỰC TẬP BIOINFORMATICS
ĐẠI CƯƠNG
NGÀNH CÔNG NGHỆ SINH HỌC
BÀI 2 - Khai thác cơ sở dữ liệu PubMed, Nucleotide,
Protein trong NCBI
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 1
Chọn cơ
sở dữ liệu
Chọn từ khóa
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 2
Nhập
từ khóa
Chọn cơ sở
dữ liệu
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 3
Dạng hiển thị
Nhập
từ khóa
Số mục bài
tìm được
Tên
tác
giả
Số PMID
Tên tạp
chí, năm
xuất bản,
tập, số
trang
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 4
Nơi công tác của tác
giả (Viện, Trường)
Tóm tắt nội
dung bài báo
Liên kết đến tạp
chí gốc
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 5
• Ví dụ: tìm các bài báo của tác giả Pandey
viết về H5N1 đăng tải trong năm 2012
Hãy xác định từ khóa cho yêu cầu tìm
kiếm trên
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 6
Tìm kiếm
nâng cao
Kết hợp từ
khóa và thẻ
Số mục bài
trong 1 trang
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 7
MỘT SỐ THẺ THƯỜNG DÙNG
Thẻ
Giới hạn phạm vi tìm kiếm
[AB]
Tóm tắt - abstract
[AU]
Tên tác giả - author name
[DP]
Ngày xuất bản - publication date
[CY]
Nơi phát xuất bản tạp chí - country
[IP]
Số phát hành của tạp chí
[IS]
International Standard Serial Number of Journal (ISSN)
[LA]
Ngôn ngữ của bài báo - language
[PG]
Số trang - page number
[TI]
Tựa đề - title word
[VI]
Tập (số) – volume
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 8
Bài tập
1. Cho biết có bao nhiêu bài báo của tác giả
Peter được đăng tải năm 2006, có bao nhiêu
bài báo của tác giả trên viết về enzyme trong
năm 2006?
2. Trong CSDL PubMed, cho biết có bao nhiêu
bài báo được đăng trên tạp chí Bioinformatics
được đăng tải? Có bao nhiêu bài từ đầu năm
2010 đến nay? có bao nhiêu bài được đăng
trong năm 2008 VÀ năm 2009? Hiển thị kết
quả dưới dạng có tóm tắt (abstract) và lưu về
máy.
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 9
TÌM KIẾM CÁC TRÌNH TỰ SINH HỌC
• Trình tự sinh học: acid nucleic và protein
• Dùng trong nghiên cứu: SHPT, di truyền,
sinh hóa, phân loại sinh vật, đa dạng tài
nguyên…
• Các cơ sở dữ liệu trình tự lớn trên thế
giới: Genbank, EMBL, DDBJ
• Trong NCBI:
– Entrez Nucleotide: trình tự acid nucleic
– Entrez Protein: trình tự protein
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 10
Entrez Nucleotide
Nhập từ khóa
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 11
Giới hạn phạm
vi tìm kiếm
Số mục
bài tìm
được
Mô tả đặc điểm (tên)
trình tự acid nucleic
Mã số truy cập
(accession)
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 12
Dạng hiển thị
Mã số
accession
Chiều dài
Dang trình tự
Ngày cập nhật
Tên trình tự
Số lần cập nhật
Nguồn gốc
trình tự
Tên tác giả
tạp chí, đăng
tải trình tự
Mô tả đặc điểm
trình tự
Trình tự DNA
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 13
Mã số
Accession
Click vào để lưu
trình tự vào máy
Trình tự dưới
dạng FASTA
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 14
Entrez Protein
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 15
Số aa
Trình tự
các aa
Coding
sequence
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 16
•
Sử dụng công cụ Entrez, tìm hiểu thông
tin của trình tự AY626143, AAV34204,
XP_780558, NM_001035410,
NM_002666, P19835
– Trình tự này có tên gì?
– Nguồn gốc từ loài nào?
– PMID của bài báo công bố trình tự trong cơ
sở dữ liệu PubMed?
– Trình tự này được cập nhật mấy lần?
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 17
1. Có bao nhiêu trình tự enzyme
neuraminidase của virus cúm A có chiều
dài 449 amino acid? Download những
trình tự này về máy dưới dạng FASTA,
GI list và GenPept
Bài 2 - Khai thác PubMed, Nucleotide, Protein trong NCBI
Slide 18