חילוק שלמים השארית MOD
Download
Report
Transcript חילוק שלמים השארית MOD
ביואינפורמטיקה
מחשבים בשירות הביולוגיה בעידן ה omics -
דר' ליאורה סטריכמן-אלמשנו
GeneCards database
המחלקה לגנטיקה מולקולרית
מכון וייצמן למדע
http://genecards.weizmann.ac.il
מהלך ההרצאה
• הקדמה (קצת ביולוגיה)
• פרויקט הגנום האנושי
• פיתוח כלים חישוביים
• מאגרי מידע
מהלך ההרצאה
• הקדמה (קצת ביולוגיה)
• פרויקט הגנום האנושי
• פיתוח כלים חישוביים
• מאגרי מידע
קצת ביולוגיה -מתאים ועד DNA
• כל גוף חי מורכב מתאים
• לתאים שונים מבנה ותפקוד שונים
שאלות
• איך פועל התא?
• מה גורם להבדל בין תאים שונים?
קצת ביולוגיה -מתאים ועד DNA
מהו ? DNA
תא
• DeoxyriboNucleic Acid = DNA
• אבני בניין -בסיסים (נוקלאוטידים) :
• ארבעה סוגיםC ,G ,T,A :
גן
• שרשרת באורך של 3ביליון בסיסים
באדם
DNA
• נמצא (כמעט) בכל תאי הגוף
• סדר הבסיסים מכתיב את הוראות
ההפעלה של התא
גנים
חלבונים
• היחידה התפקודית ב DNAהיא הגן
חלבון
Slide taken from DOE Human Genome Program website
• גנים מכילים הוראות ליצירת חלבונים
• החלבון מבצע את רוב הפעולות בתאים
מבנה הגן- קצת ביולוגיה
גן מקודד לחלבון
terminator
promoter
intron
intron
DNA
exon
exon
exon
nX103 GGATATAAACTGACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAAGG
מבנה הגן- קצת ביולוגיה
גן מקודד לחלבון
terminator
promoter
intron
intron
DNA
exon
exon
exon
nX103 GGATATAAACTGACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAAGG
transcription
שעתוק
hnRNA
ACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAA
מבנה הגן- קצת ביולוגיה
גן מקודד לחלבון
terminator
promoter
intron
intron
DNA
exon
exon
exon
nX103 GGATATAAACTGACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAAGG
transcription
שעתוק
hnRNA
ACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAA
processing and splicing
חיתוך ועבוד
mRNA
ACGATGCCGTTGCAATTCTAGATAAATAAA
מבנה הגן- קצת ביולוגיה
גן מקודד לחלבון
CDS
start
CDS
stop terminator
promoter
intron
intron
DNA
exon
exon
exon
nX103 GGATATAAACTGACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAAGG
transcription
שעתוק
hnRNA
ACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAA
processing and splicing
חיתוך ועבוד
mRNA
ACGATGCCGTTGCAATTCTAGATAAATAAA
translation
protein
תרגום
קצת ביולוגיה -מבנה הגן
הקוד
הגנטי
- DNAרצף בסיסים
הקוד הגנטי DNA/RNA
חלבון -רצף חומצות
אמיניות
Slide taken from DOE Human Genome Program website
מוטציה- קצת ביולוגיה
גן מקודד לחלבון
CDS
start
CDS
stop
intron
intron
DNA
exon
exon
exon
nX103 GGATATAAACTGACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAAGG
transcription
שעתוק
hnRNA
ACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAA
processing and splicing
חיתוך ועבוד
mRNA
ACGATGCCGTTGCAATTCTAGATAAATAAA
translation
protein
תרגום
מוטציה- קצת ביולוגיה
גן מקודד לחלבון
CDS
start
CDS
stop
intron
intron
DNA
exon
exon
exon
nX103 GGATATAAACTGACGATGCCGGTACCTTAGTTGTAAGTAATCTTTCAGTTCTAGATAAATAAAGG
*
C T
transcription שעתוק
hnRNA
*
ACGATGCCGGTACCTTAGTTGTAAGTAATCTTTCAGTTCTAGATAAATAAA
processing and splicing
mRNA
*
ACGATGCCGTTGTAATTCTAGATAAATAAA
translation
protein
חיתוך ועבוד
תרגום
קצת ביולוגיה -הגדרות
• גנום -כל החומר הגנטי של אורגניזם מסויים (מורכב מ )DNA
• 3ביליון נוקלאוטידים בגנום האנושי
• רק כ 1.5% -מהגנום האנושי מקודד לחלבון
• מה תפקיד רוב ה DNAבגנום האנושי?
• גנים שאינם מקודדים לחלבון
• מכיל רצפי בקרה
• מכיל רצף בעל תפקיד לא ידוע (")"junk DNA
• ביטוי -שעתוק של גן ל RNA -
• ריצוף -קריאת סדר הבסיסים בDNA -
מהלך ההרצאה
• הקדמה (קצת ביולוגיה)
• פרויקט הגנום האנושי
• פיתוח כלים חישוביים
• מאגרי מידע
פרויקט הגנום האנושי -מטרות
פרויקט של משרד האנרגיה האמריקני ( )DOEוה 2003-1990 NIH -
עלות -מעל 3 X 109 USD
מטרות:
• ריצוף כל הגנום האנושי
• זיהוי כל הגנים בגנום האנושי
IBM supercomputer at Oak Ridge
http://www.doegenomes.org
פרויקט הגנום האנושי omics -
- Genomicsמבנה ותפקוד הגנום
- Comparative genomicsהשוואת רצפי DNAבין אורגניזמים שונים -המשותף,
השונה
גנומים שרוצפו:
מחיידקים( 232 :כל גנום > 103בסיסים)
מאורגניזמים יותר גבוהים 34 :גמורים מתוך ( 252הרוב > ,106הרבה > 108
בסיסים)
- Transcriptomicsאנליזה של רצפים מתבטאים
6מיליון רצפים מאדם ב dbEST
- Proteomicsאנליזה של מבנה ותפקוד של חלבונים -יישומים לתכנון תרופות
לפחות כ 30X103 -חלבונים באדם
פרויקט הגנום האנושי -ריצוף הגנום
איך לרצף 3ביליון בסיסים ?
• בעיה -
• אפשר לקרוא רק כ 400בסיסים בקריאה אחת רציפה
• פתרון -
• שבירת השרשרת למקטעים קטנים יותר (בערך 8X106מקטעים)
• חפיפה בין מקטעים כדי להשלים את ה "פאזל"
• בעיה -
5
4
• שגיאות ריצוף
• פתרון -
• 6-8חזרות על כל מקטע (בערך 60X106מקטעים)
3
2
1
פרויקט הגנום האנושי -ריצוף הגנום
• בעיה -
• רצפים חוזרים -אפשרויות שונות להרכבה
*
אפשרות א'
אפשרות ב'
7
7
6
*
2
*
*
5
4
3
2
5
4
3
6
*
• בעיה -
• רצפים פשוטים
1
4
3
*
1
פרויקט הגנום האנושי -ריצוף הגנום
Celera
HGP
-שוברים את כל הגנום ללא שלב ביניים
ממפים "שלד" של רצפים גדולים לפי נקודותציון
הרכבת הפאזל בעייתית בגלל חזרות -יותר מהיר ,יותר זול
אותם שוברים למקטעים קטנים מרצפים את המקטעים ,ממפים חזרה לשלד -מקל על האנליזה ,יותר מדוייק
http://www.bio.davidson.edu/courses/genomics/method/shotgun.html
ריצוף הגנום- פרויקט הגנום האנושי
GTTCGCAGGACGGGCGACGGCCCTCTGGCCCTGGCCTCAGAACTTCCAAACCTCCGACCAGCGCTACGTC
CTTTACCCGAACAACTTTCAATTCCAGTACGATGTCAGCTCGGCCGCGCAGCCCGGCTGCTCAGTCCTCG
ACGAGGCCTTCCAGCGCTATCGTGACCTGCTTTTCGGTTCCGGGTCTTGGCCCCGTCCTTACCTCACAGG
GAAACGGCATACACTGGAGAAGAATGTGTTGGTTGTCTCTGTAGTCACACCTGGATGTAACCAGCTTCCT
ACTTTGGAGTCAGTGGAGAATTATACCCTGACCATAAATGATGACCAGTGTTTACTCCTCTCTGAGACTG
TCTGGGGAGCTCTCCGAGGTCTGGAGACTTTTAGCCAGCTTGTTTGGAAATCTGCTGAGGGCACATTCTT
TATCAACAAGACTGAGATTGAGGACTTTCCCCGCTTTCCTCACCGGGGCTTGCTGTTGGATACATCTCGC
CATTACCTGCCACTCTCTAGCATCCTGGACACTCTGGATGTCATGGCGTACAATAAATTGAACGTGTTCC
ACTGGCATCTGGTAGATGATCCTTCCTTCCCATATGAGAGCTTCACTTTTCCAGAGCTCATGAGAAAGGG
GTCCTACAACCCTGTCACCCACATCTACACAGCACAGGATGTGAAGGAGGTCATTGAATACGCACGGCTC
CGGGGTATCCGTGTGCTTGCAGAGTTTGACACTCCTGGCCACACTTTGTCCTGGGGACCAGGTATCCCTG
GATTACTGACTCCTTGCTACTCTGGGTCTGAGCCCTCTGGCACCTTTGGACCAGTGAATCCCAGTCTCAA
TAATACCTATGAGTTCATGAGCACATTCTTCTTAGAAGTCAGCTCTGTCTTCCCAGATTTTTATCTTCAT
CTTGGAGGAGATGAGGTTGATTTCACCTGCTGGAAGTCCAACCCAGAGATCCAGGACTTTATGAGGAAGA
AAGGCTTCGGTGAGGACTTCAAGCAGCTGGAGTCCTTCTACATCCAGACGCTGCTGGACATCGTCTCTTC
TTATGGCAAGGGCTATGTGGTGTGGCAGGAGGTGTTTGATAATAAAGTAAAGATTCAGCCAGACACAATC
ATACAGGTGTGGCGAGAGGATATTCCAGTGAACTATATGAAGGAGCTGGAACTGGTCACCAAGGCCGGCT
TCCGGGCCCTTCTCTCTGCCCCCTGGTACCTGAACCGTATATCCTATGGCCCTGACTGGAAGGATTTCTA
CGTAGTGGAACCCCTGGCATTTGAAGGTACCCCTGAGCAGAAGGCTCTGGTGATTGGTGGAGAGGCTTGT
ATGTGGGGAGAATATGTGGACAACACAAACCTGGTCCCCAGGCTCTGGCCCAGAGCAGGGGCTGTTGCCG
AAAGGCTGTGGAGCAACAAGTTGACATCTGACCTGACATTTGCCTATGAACGTTTGTCACACTTCCGCTG
מהלך ההרצאה
• הקדמה (קצת ביולוגיה)
• פרויקט הגנום האנושי
• פיתוח כלים חישוביים
• מאגרי מידע
פיתוח כלים חישוביים -ניבוי גנים
שיטות לניבוי גנים:
• הגנים מהווים חלק קטן מהגנום אבל פונקציונלי (רצפים מקודדים מהווים כ 1.5% -מהגנום
האנושי)
• לפי תכונות הרצף ()ab initio
• על סמך ראיות ()evidence-based
• לפי ביטוי (קיום RNAשל הגן)
• לפי דימיון לרצפים ממינים אחרים
פיתוח כלים חישוביים -ניבוי גנים
לפי תכונות הרצף (:)ab initio
CDS
stop terminator
exon
CDS
start
intron
exon
intron
exon
promoter
DNA
GGATATAAACTGACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGGTAAATAAAGG
mRNA
ATGCCGTTGCAATTCTAG
• גודל אקסונים קטן (כ 200 -בסיסים) יחסית לאינטרונים
• גודל גן ממוצע
• מרחק ממוצע ידוע בין אלמנטים שונים
• עליה באחוז CGיחסית לשאר הגנום (בעיקר באזור הפרומוטר)
• רצף מקודד לחלבון
ניבוי גנים- פיתוח כלים חישוביים
:Evidence based prediction
של אותו גןmRNA קיום- • ביטוי
מופקדים במאגרי נתוניםmRNA • רצפי
• חלקם שלמים ובאיכות גבוהה
) חלקיים ועם אחוז שגיאה גבוהESTs מיליון6( • רובם
DNA
GGATATAAACTGACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAAGTAAATAAAGG
mRNA
ACGATGCCGTTGCAATTCTAAGTAAATAAA
ACGATGCTGTTGCAATTCTAAGTAAATAAA
CTAAGTAAATAAA
פיתוח כלים חישוביים -ניבוי גנים
:Evidence based prediction
• מידת שימור בין אורגניזמים שונים
• לאו בהכרח רצף מתבטא
• מוטציות במקומות חשובים פונקציונלית יהיו פחות נסבלים (גנים או אלמנטים)
• דמיון פחות מ( 100% -מידת הדמיון תלויה במרחק בין המינים)
פיתוח כלים חישוביים -תכנות דינמי
תכנות דינמי (:)dynamic programming
• שיטה לפשט חישובים מורכבים על ידי חלוקת הבעיה לתת בעיות קטנות יותר
• תת הבעיה הראשונה הופכת טריויאלית על ידי הקלט
• הפתרונות נשמרים ועוזרים לפתור את תת הבעיות הבאות
• חוזרים על התהליך עד פתרון כל תת הבעיות
• בסיום ניתן הפתרון הכללי
• חסכון בזכרון -שומרים רק את הפתרונות האחרונים
• נפוץ באנליזות ביולוגיות
• דוגמא :השוואת רצפים ()pairwise alignment
פיתוח כלים חישוביים -תכנות דינמי
השוואת רצפים (:Smith-Waterman algorithm )pairwise alignment
• בכל שלב של ההתאמה קיימות רק שלש אפשרויות:
• .1הארכה בשני הרצפים -התאמה או לא
• .2הארכת הרצף ראשון ויצירת רווח ( )gapבשני
• .3הארכת הרצף השני ויצירת רווח ( )gapבראשון
2
1
3
ATG-GCTT
ATGGCTT
ATGGCTT
?|||
?|||
?|||
ATGCTTA
ATG-CTTA
ATGCTTA
פיתוח כלים חישוביים -תכנות דינמי
השוואת רצפים (:Smith-Waterman algorithm )pairwise alignment
• בכל שלב של ההתאמה קיימות רק שלש אפשרויות:
3
• .1הארכה בשני הרצפים -התאמה או לא
• .2הארכת הרצף ראשון ויצירת רווח ( )gapבשני
• .3הארכת הרצף השני ויצירת רווח ( )gapבראשון
• לכל מצב פונקצית שקלול (:)weight function
2
1
ATG-GCTT
ATGGCTT
ATGGCTT
?|||
?|||
?|||
ATGCTTA
ATG-CTTA
ATGCTTA
;)1. W(A3,B3) = eq/dif_score(A3,B3
• התאמה ( / )2+חוסר התאמה ()2-
;)2. W(A3,-) = gap_open/extend(A3,-
• הכנסת רווח ( / )1-הארכת רווח ()0
)3. W(-,B3) = gap_open/extend(-,B3
פיתוח כלים חישוביים -תכנות דינמי
השוואת רצפים (:Smith-Waterman algorithm )pairwise alignment
• בכל שלב של ההתאמה קיימות רק שלש אפשרויות:
3
• .1הארכה בשני הרצפים -התאמה או לא
• .2הארכת הרצף ראשון ויצירת רווח ( )gapבשני
• .3הארכת הרצף השני ויצירת רווח ( )gapבראשון
• לכל מצב פונקצית שקלול (:)weight function
2
1
ATG-GCTT
ATGGCTT
ATGGCTT
?|||
?|||
?|||
ATGCTTA
ATG-CTTA
ATGCTTA
;)1. W(A3,B3) = eq/dif_score(A3,B3
• התאמה ( / )2+חוסר התאמה ()2-
;)2. W(A3,-) = gap_open/extend(A3,-
• הכנסת רווח ( / )1-הארכת רווח ()0
)3. W(-,B3) = gap_open/extend(-,B3
• הציון בכל שלב יהיה maxשל סכום המצב לפני הארכה וציון השקלול של הארכה
• כל מה שצריך הוא -פונקצית השקלול ,שני הרצפים
ATGGCTT
|||| ||
AT-GCTTA
פיתוח כלים חישוביים BLAST -
Basic Local Alignment Search Tool
• שיטה היוריסטית (מסתמכת על "כללי אצבע") ,משתמשת בחישובים סטטיסטיים של
Karlin and Altschul
• מהירה פי 100מ Smith Waterman algorithm
השלבים:
• יוצרים אינדקס של הרצפים נגדם מחפשים (ב )database -על ידי רשימות מילים באורכים
שונים
• השאילתה מחולקת למילים בצורה דומה בזמן החיפוש
…a. ATGGCTTA: ATG,TGG,GGC,CTT
…b. ATGCTTAG: ATG,TGC,GCT,CTT
• משווים את רשימות המילים כדי למצוא התאמות מדויקות
• לכל מילה שנמצאה התאמה -מרחיבים את ההתאמה ( )alignmentלשני הכוונים תוך
שימוש בפונקצית ציון ( ,)scoring functionעד שההתאמה יורדת מתחת לסף מסויים
ATGGCTTA
GCTTA
CTT
|||| |||
|||||
|||
ATG-CTTAG
GCTTA
CTT
השוואת רצפים- פיתוח כלים חישוביים
:DNA - לmRNA השוואת- ביטוי- Evidence based prediction
UCSC browser views of BRCA1 mRNA/EST to genomic alighment :
One exon from one mRNA with human genomic DNA:
השוואת רצפים- פיתוח כלים חישוביים
: השוואת רצפים ממינים שונים- Evidence based prediction
UCSC browser views of BRCA1 human to other species comparison:
One exon from mouse with human genomic DNA:
הצורך- פיתוח כלים חישוביים
CCTCCGAGAGGGGAGACCAGCGGGCCATGACAAGCTCCAGGCTTTGGTTTTCGCTGCTGCTGGCGGCAGC
GTTCGCAGGACGGGCGACGGCCCTCTGGCCCTGGCCTCAGAACTTCCAAACCTCCGACCAGCGCTACGTG
GTTTACCCGAACAACTTTCAATTCCAGTACGATGTCAGCTCGGCCGCGCAGCCCGGCTGCTCAGTCCTCG
ACGAGGCCTTCCAGCGCTATCGTGACCTGCTTTTCGGTTCCGGGTCTTGGCCCCGTCCTTACCTCACAGG
GAAACGGCATACACTGGAGAAGAATGTGTTGGTTGTCTCTGTAGTCACACCTGGATGTAACCAGCTTCCT
ACTTTGGAGTCAGTGGAGAGGTATACCCTGACCATAAATGATGACCAGTGTTTACTCCTCTCTGAGACTG
TCTGGGGAGCTCTCCGAGGTCTGGAGACTTTTAGCCAGCTTGTTTGGAAATCTGCTGAGGGCACATTCTT
TATCAACAAGACTGAGATTGAGGACTTTCCCCGCTTTCCTCACCGGGGCTTGCTGTTGGATACATCTCGC
CATTACCTGCCACTCTCTAGCATCCTGGACACTCTGGATGTCATGGCGTACAATAAATTGAACGTGTTCC
ACTGGCATCTGGTAGATGATCCTTCCTTCCCATATGAGAGCTTCACTTTTCCAGAGCTCATGAGAAAGGG
GTCCTACAACCCTGTCACCCACATCTACACAGCACAGGATGTGAAGGAGGTCATTGAATACGCACGGCTC
CGGGGTATCCGTGTGCTTGCAGAGTTTGACACTCCTGGCCACACTTTGTCCTGGGGACCAGGTATCCCTG
GATTACTGACTCCTTGCTACTCTGGGTCTGAGCCCTCTGGCACCTTTGGACCAGTGAATCCCAGTCTCAA
TAATACCTATGAGTTCATGAGCACATTCTTCTTAGAAGTCAGCTCTGTCTTCCCAGATTTTTATCTTCAT
CTTGGAGGAGATGAGGTTGATTTCACCTGCTGGAAGTCCAACCCAGAGATCCAGGACTTTATGAGGAAGA
AAGGCTTCGGTGAGGACTTCAAGCAGCTGGAGTCCTTCTACATCCAGACGCTGCTGGACATCGTCTCTTC
TTATGGCAAGGGCTATGTGGTGTGGCAGGAGGTGTTTGATAATAAAGTAAAGATTCAGCCAGACACAATC
ATACAGGTGTGGCGAGAGGATATTCCAGTGAACTATATGAAGGAGCTGGAACTGGTCACCAAGGCCGGCT
TCCGGGCCCTTCTCTCTGCCCCCTGGTACCTGAACCGTATATCCTATGGCCCTGACTGGAAGGATTTCTA
CGTAGTGGAACCCCTGGCATTTGAAGGTACCCCTGAGCAGAAGGCTCTGGTGATTGGTGGAGAGGCTTGT
ATGTGGGGAGAATATGTGGACAACACAAACCTGGTCCCCAGGCTCTGGCCCAGAGCAGGGGCTGTTGCCG
AAAGGCTGTGGAGCAACAAGTTGACATCTGACCTGACATTTGCCTATGAACGTTTGTCACACTTCCGCTG
פיתוח כלים חישוביים -דוגמאות נוספות
אנליזה של פולימורפיזם (:)SNP
• 2.5מיליון SNPבין שני גנומים אנושיים
• 10מיליון סך הכל מופקדים ב dbSNP -
• אנליזה של תדירויות SNPבאוכלוסיות שונות ,אנליזות של קשר סטטיסטי למחלות
אנליזה של ביטוי:
• הבדלים בביטוי בין תאים מרקמות שונות
• הבדלים בביטוי בין תאים נורמלים ולא (סרטניים)
• כל ניסוי -עשרות אלפי נקודות
Mullikin - Studying genetic vatiation II - computational techniques (in NHGRI
course “Current Topics in Genome Analysis 2005”) - SNPs
מהלך ההרצאה
• הקדמה (קצת ביולוגיה)
• פרויקט הגנום האנושי
• פיתוח כלים חישוביים
• מאגרי מידע
מאגרי מידע
NCBI databases:
http://www.ncbi.nlm.nih.gov/
Golden path UCSC genome browser:
http://genome.ucsc.edu/cgi-bin/hgGateway
Ensembl genome browser:
http://www.ensembl.org/
GeneCards database:
http://genecards.weizmann.ac.il
NCBI - מאגרי מידע
http://www.ncbi.nlm.nih.gov/
http://www.ncbi.nlm.nih.gov/
NCBI - מאגרי מידע
http://www.ncbi.nlm.nih.gov/
NCBI - מאגרי מידע
Gene database:
מידע אודות הגן
http://www.ncbi.nlm.nih.gov/
NCBI - מאגרי מידע
PubMed database:
מאמרים בנושא
http://www.ncbi.nlm.nih.gov/
NCBI - מאגרי מידע
OMIM database:
מידע אודות המחלה
http://www.ncbi.nlm.nih.gov/
NCBI - מאגרי מידע
: לייצוג מידע ביולוגיNCBI המודל של
- ASN.1
Abstract Sequence Notation 1 language (similar to Backus-Naur form)
International Standards Organization standard (ISO 8824, 8825)
)coding standards( :קידוד
SQL ,XML ,C++ ,C
Some services cpu in 2003:
BLAST computer farm - 50 intel (Linux) 2ways 1.6 GHz 4GB = 100cpus
PubMed backend servers - 12 intel (Linux) 8ways 700MHz 8GB = 96 cpus
http://ncbi.nih.gov/IEB/ToolBox/SDKDOCS/OVERVIEW.HTML
UCSC - מאגרי מידע
Golden Path UCSC genome browser
http://genome.ucsc.edu/cgi-bin/hgGateway
Ensembl - מאגרי מידע
http://www.ensembl.org
GeneCards - מאגרי מידע
GeneCards
דף הבית
http://genecards.weizmann.ac.il
GeneCards - מאגרי מידע
GeneCards
תוצאות חיפוש
http://genecards.weizmann.ac.il
GeneCards - מאגרי מידע
GeneCards
מבט על גן
http://genecards.weizmann.ac.il
GeneCards - מאגרי מידע
GeneCards
מחלות- מבט על גן
http://genecards.weizmann.ac.il
GeneCards - מאגרי מידע
GeneCards
ספרות- מבט על גן
http://genecards.weizmann.ac.il
מקורות
Reference/sources of information:
DOE - www.doegenomes.org
HGP - www.ornl.gov/sci/techresources/Human_Genome/home.shtml
Current Topics in Genome Analysis 2005 - Baxevanis/Wolfsberg/Green at
NHGRI (http://www.genome.gov/COURSE2005/index.cfm) NCBI Databases:
www.ncbi.nlm.nih.gov
GeneCards - genecards.weizmann.ac.il
UCSC - genome.ucsc.edu/cgi-bin/hgGateway
Ensembl - http://www.ensembl.org
NHGRI - הרצאות מתוך הקורס ב
נמצאים בתיקיה נפרדתPDF קבצי
יש עוד הרצאות
Current Topics in Genome Analysis 2005 Baxevanis/Wolfsberg/Green at NHGRI
(http://www.genome.gov/COURSE2005/index.cfm)
מציאת מידע ברצפים
UCSC, NCBI, Ensembl
אנוטציה כל אחד לעצמו- כולם מתחילים מרצף הגנוםassembled at NCBI - גנום האדם והעכברproteome browser גםUCSC יש ב-
human gene sorter -
Wolfsberg - Mining genomic sequence data (in NHGRI course “Current Topics in
Genome Analysis 2005”)
פרויקט הגנום -לפני ואחרי
לפני :חיפוש גן הקשור במחלה/מבצע תפקיד מסויים בתא
דוגמא :שיבוט הגן ל -CFTR -מחלה מונוגנית (תורשה פשוטה)
:)1989-1980( -
תאחיזה במשפחות ושיטות מולקולריות -לכרומוזום 7 מיפוי על ידי שיבוט רצפים מהאזור ,בנית מפה פיסיקלית ,ריצוף -חיפוש גנים -הגן זוהה ושובט ()1989
http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=219700
פרויקט הגנום -לפני ואחרי
אחרי :חיפוש גן הקשור במחלה/מבצע תפקיד מסויים בתא
שיבוט הגן למחלה מונוגנית (תורשה פשוטה) BRCA2 -
-תאחיזה ( )1994לכרומוזום 13משפחות באיסלנד
זיהוי הגן ומוטציות בחולים ()1995 ככל שמתקדם פרויקט הגנום -יותר מרקרים לתאחיזה ,אין צורך במיפוי פיסיקלי -הרצףקיים וכולל גנים ידועים ,ניבוי ,שונות גנטית ,רצפים מתבטאים (כל זה היה צריך לבד)
-היום הדגש על מחלות מורכבות
http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=600185
פרויקט הגנום -לפני ואחרי
לפני :חיפוש גן הקשור
במחלה/מבצע תפקיד מסויים בתא
אחרי :חקר רשתות של גנים
הקשורים בתהליך מסויים
גן לפי דימיון מאורגניזם אחר או תאחיזה
למחלה
תאים במצב מסויים (אנשים/טיפול מסויים)
• שיבוט ,ריצוף ,חיפוש מוטציות
• בדיקת ביטוי ברקמות שונותRNA:
מתאים ,בדיקה מול הגן
• בדיקת ביטוי מול אלפי רצפים מתבטאים
• אנליזה ברמת רשתות -אילו רצפים
מתבטאים באותם תנאים ( clustering
)algorithms
• ניסויים לבדיקת תפקיד הגן:
• הוספה לתאים בתרבית KO ,בעכבר
* רמת גן בודד או גנים ספורים
* עבודה טכנית רבה
* מיחשוב מינימלי (אם בכלל)
* אם יש רצף -כבר יש ,SNPביטויalt. ,
splice
* רמה מערכתית -כל הגנים בתהליך מסויים
* מיכשור מתקדם לעבודה בנפח גבוה
* כלים חישוביים לניתוח התוצאות
אתגר חישובי -ניתוח כמויות גדולות של
מידע
דוגמאות לניסויים -מיקרוצ'יפ
עשרות אלפי גנים על מיקרוצ'יפ אחד ,בכל ניסוי נבדקים כולם במספר תנאים
(תאים שונים ,אנשים שונים ,תאים בחשיפה לתנאים שונים)
אנליזות כוללות clusteringשל הגנים למציאת גנים בעלי התנהגות דומה
פרויקט הגנום -השלב הבא
Genomes To Life - GTL
• יתמקד בנסיון להבין כיצד פועל תא ואורגניזם שלם (בתחילה בחידקים)
• כמות ומורכבות המידע הדרוש לאנליזה של מערכות ביולוגיות מאתגרת את המערכות
הקיימות כפי שעשה פרויקט הגנום בזמנו
• דבר זה יביא לפתוח כלים חישוביים וטכנולוגיות מתקדמות יותר
• מטרות כלליות
• חקר תפקיד גנים
• שונות גנטית >-התאמת טיפול לחולה
http://www.doegenomes.org
פיתוח כלים חישוביים HMM -
Hidden Markov Model
• מודל סטטיסטי ,בדרך כלל מיועד לניתוח דיבור ,משמש לזיהוי תבניות ברצפים ביולוגיים
• ( a finite state machine - HMMמכונה עם מספר סופי של מצבים) -אנלוגי ל
pinball machine
• יש מספר סופי של מצבים
• קופץ ממצב למצב תוך ייצור פלט
• ההסתברות לעבור ממצב אחד לשני מוגדרת מראש וגם ההסתברות ליצירת פלט מסויים
במעבר
• כך עובר דרך רצף מצבים תוך ייצור רצף של פלטים
• hiddenמשום שרואים רק את הפלט ולא אילו מצבים יצרו אותו
השאלות:
.1מהו רצף המצבים הכי סביר לייצור פלט מסויים
.2מהי הסתברות המסלול הזה (בהתחשב בכל המסלולים האפשריים)
HMM - פיתוח כלים חישוביים
M - match
d1
d2
d3
d4
D - delete
I - insert
i0
i1
i2
i3
i4
התחלה
m1
m2
m3
m4
סיום
training set בונים על
HMM.pdf (Eddy) להוסיף מ
פיתוח כלים חישוביים -תכנות דינמי
Basic Local Alighment Search Tool
שוברים את ה query -למילים
)Qeury (RNA
)Subject (DNA
מחפשים התאמה למילה Wבאורך מסויים ( ,)7דורשים דימיון מסויים )100%( T
W
מאריכים את המילה לשני הכוונים ,מנסים להגיע ל scoreמסויים S
mismatch
( gapsהשמטות ,הוספות) -עונש על פתיחה ,פחות על הרחבה
gap