Tuần 1 - Minh Quan Bioinformatic

Download Report

Transcript Tuần 1 - Minh Quan Bioinformatic

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA SINH HỌC
THỰC TẬP BIOINFORMATICS
ĐẠI CƯƠNG
NGÀNH CÔNG NGHỆ SINH HỌC
CBGD: Nguyễn Thái Minh Quân
Võ Trí Nam
NỘI DUNG THỰC TẬP
• Bài 1: Cơ sở dữ liệu sinh học và phương pháp
khai thác thông tin trên internet
• Bài 2: Khai thác cơ sở dữ liệu PubMed,
Nucleotide, Protein trong NCBI
• Bài 3: Thiết kế mồi (primer)
• Bài 4: So sánh các trình tự sinh học
• Bài 5: Vẽ cây phát sinh loài
• Bài 6: Bài tập tổng hợp
Bài 1 - CSDL SH và PP khai thác thông tin
Slide 2
Internet là gì ?
• Internet là tập hợp các tất cả các máy tính trên thế giới,
mà chúng có thể kết nối với nhau và trao đổi thông tin lẫn
nhau.
• 2004 - 160 triệu máy chủ kết nối giữa 150 nước, trên 55
triệu trang web, trên 600 triệu người truy cập vào Internet
mỗi ngày
Bài 1 - CSDL SH và PP khai thác thông tin
Slide 3
Bioinformatics là gì?
• Bioinformatics cổ điển: sử dụng máy tính để lưu trữ,
truy vấn, phân tích cấu trúc phân tử sinh học
• Bioinformatics hiện đại
– Theo NCBI: Sự kết hợp giữa Công nghệ Sinh học và Công
nghệ thông tin với mục tiêu giúp hiểu biết và khám phá
những nguyên lí trong Sinh học
– Human Genome Project
– Genomics, Functional Genomics, Proteomics, Medical
Informatics
Bài 1 - CSDL SH và PP khai thác thông tin
Slide 4
SƠ LƯỢC LỊCH SỬ
• 1960s: CSDL đầu tiên về trình tự protein
• 1960s - 1970s: Phát triển thuật giải để
phân tích dữ liệu
• 1980s: thành lập CSDL GenBank và một
số CSDL khác (EMBL, DDBJ, …)
• 1990s: Sự phát triển chóng mặt của
GenBank và PDB
• 1991: Thuật ngữ Bioinformatics xuất hiện
Bài 1 - CSDL SH và PP khai thác thông tin
Slide 5
Bioinformatics là gì? (tt)
• Xây dựng các cơ sở dữ liệu
• Phát triển các thuật giải và các phương pháp
thống kê
• Sử dụng các công cụ tin sinh học được xây
dựng để phân tích và thông dịch nguồn dữ liệu
sinh học
Bài 1 - CSDL SH và PP khai thác thông tin
Slide 6
BÀI 1 - CƠ SỞ DỮ LIỆU SINH HỌC VÀ PHƯƠNG PHÁP
KHAI THÁC THÔNG TIN
Mục đích – nguyên tắc:
1.
•
•
Sự bùng nổ thông tin trong sinh học
Cơ sở dữ liệu sinh học: trao đổi thông tin, quản lý, khai thác, nghiên
cứu kho dữ liệu sinh học khổng lồ của sự sống trên hành tinh này
2.
Khai thác thông tin sinh học
•
Nhiều lĩnh vực: dữ liệu về môi trường, đa dạng sinh học, đa dạng di
truyền; dữ liệu về nguồn gen: DNA, RNA; dữ liệu về protein: trình tự,
cấu trúc, chức năng…
Nội dung:
•
–
–
–
NCBI (National Center for Biotechnology Information
EMBL (European Molecular Biology Laboratory)
ExPASy (Expert Protein Analysis System)
Bài 1 - CSDL SH và PP khai thác thông tin
Slide 7
PHƯƠNG PHÁP KHAI THÁC THÔNG TIN
• Tìm kiếm các trang web chứa thông tin
mình đang cần
• Lựa chọn từ khóa và nhờ những công cụ
tìm kiếm hay cỗ máy tìm kiếm những trang
web có chứa từ khóa của mình
• Nguyên tắc:
Thông tin
cần tìm
Xác định
từ khóa
Chọn cách
tìm kiếm
Lọc
thông tin
Bài 1 - CSDL SH và PP khai thác thông tin
KẾT QUẢ
CẦN TÌM
Slide 8
• Lựa chọn từ khóa
– Đặc trưng cho thông tin cần tìm (đối tượng, phương
pháp), không chứa từ thông thường (in, of, for…)
– Dùng linh hoạt từ khóa (OR)
– Dùng dấu nháy kép (“ “) đối với một cụm từ
– Dùng các toán tử lôgic AND, OR, NOT
• Lưu ý khác
– số lượng từ khóa
– Từ quan trọng thường đứng trước,
– Dùng chức năng find (Ctrl-F) để tìm từ khóa trong
trang web
– Dùng chữ HOA thích hợp, cho phép dùng dấu đại
diện *
Bài 1 - CSDL SH và PP khai thác thông tin
Slide 9
• Ví dụ: tìm các bài báo của tác giả Pandey
viết về H5N1 đăng tải trong năm 2012
Hãy xác định từ khóa cho yêu cầu tìm
kiếm trên
Bài 1 - CSDL SH và PP khai thác thông tin
Slide 10
BÀI 1 - TÌM KIẾM THÔNG TIN TRÊN INTERNET
Tìm hình ảnh
Nhập từ
khóa
Bài 1 - CSDL SH và PP khai thác thông tin
Slide 11
BÀI 1 - TÌM KIẾM THÔNG TIN TRÊN INTERNET
Bài 1 - CSDL SH và PP khai thác thông tin
Slide 12
BÀI 1 - TÌM KIẾM THÔNG TIN TRÊN INTERNET
Nhập
từ khóa
Lựa chọn
ngôn ngữ
Bài 1 - CSDL SH và PP khai thác thông tin
Slide 13
BÀI 1 - TÌM KIẾM THÔNG TIN TRÊN INTERNET
Giới hạn tìm kiếm
trong các trang
web, miền
Chọn loại
tài liệu
Bài 1 - CSDL SH và PP khai thác thông tin
Slide 14
Bài 1 - CSDL SH và PP khai thác thông tin
Slide 15
Bài tập
1. Sinh viên thực hành tìm kiếm địa chỉ các cơ sở
dữ liệu (ngân hàng dữ liệu) sau: NCBI, EMBL,
DDBJ, Protein Data Bank, SwissProt, …
2. Tìm các trang web cho phép thực hiện việc
thiết kế mồi (primer)
3. Tìm một slide bài giảng về giới thiệu
bioinformatics
4. Tìm một đoạn video khoa học về sinh học
Bài 1 - CSDL SH và PP khai thác thông tin
Slide 16