חילוק שלמים השארית MOD

Download Report

Transcript חילוק שלמים השארית MOD

‫ביואינפורמטיקה‬
‫מחשבים בשירות הביולוגיה בעידן ה ‪omics -‬‬
‫דר' ליאורה סטריכמן‪-‬אלמשנו‬
‫‪GeneCards database‬‬
‫המחלקה לגנטיקה מולקולרית‬
‫מכון וייצמן למדע‬
‫‪http://genecards.weizmann.ac.il‬‬
‫מהלך ההרצאה‬
‫• הקדמה (קצת ביולוגיה)‬
‫• פרויקט הגנום האנושי‬
‫• פיתוח כלים חישוביים‬
‫• מאגרי מידע‬
‫מהלך ההרצאה‬
‫• הקדמה (קצת ביולוגיה)‬
‫• פרויקט הגנום האנושי‬
‫• פיתוח כלים חישוביים‬
‫• מאגרי מידע‬
‫קצת ביולוגיה ‪ -‬מתאים ועד ‪DNA‬‬
‫• כל גוף חי מורכב מתאים‬
‫• לתאים שונים מבנה ותפקוד שונים‬
‫שאלות‬
‫• איך פועל התא?‬
‫• מה גורם להבדל בין תאים שונים?‬
‫קצת ביולוגיה ‪ -‬מתאים ועד ‪DNA‬‬
‫מהו ‪? DNA‬‬
‫תא‬
‫• ‪DeoxyriboNucleic Acid = DNA‬‬
‫• אבני בניין ‪ -‬בסיסים (נוקלאוטידים) ‪:‬‬
‫• ארבעה סוגים‪C ,G ,T,A :‬‬
‫גן‬
‫• שרשרת באורך של ‪ 3‬ביליון בסיסים‬
‫באדם‬
‫‪DNA‬‬
‫• נמצא (כמעט) בכל תאי הגוף‬
‫• סדר הבסיסים מכתיב את הוראות‬
‫ההפעלה של התא‬
‫גנים‬
‫חלבונים‬
‫• היחידה התפקודית ב ‪ DNA‬היא הגן‬
‫חלבון‬
‫‪Slide taken from DOE Human Genome Program website‬‬
‫• גנים מכילים הוראות ליצירת חלבונים‬
‫• החלבון מבצע את רוב הפעולות בתאים‬
‫ מבנה הגן‬- ‫קצת ביולוגיה‬
‫גן מקודד לחלבון‬
terminator
promoter
intron
intron
DNA
exon
exon
exon
nX103 GGATATAAACTGACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAAGG
‫ מבנה הגן‬- ‫קצת ביולוגיה‬
‫גן מקודד לחלבון‬
terminator
promoter
intron
intron
DNA
exon
exon
exon
nX103 GGATATAAACTGACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAAGG
transcription
‫שעתוק‬
hnRNA
ACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAA
‫ מבנה הגן‬- ‫קצת ביולוגיה‬
‫גן מקודד לחלבון‬
terminator
promoter
intron
intron
DNA
exon
exon
exon
nX103 GGATATAAACTGACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAAGG
transcription
‫שעתוק‬
hnRNA
ACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAA
processing and splicing
‫חיתוך ועבוד‬
mRNA
ACGATGCCGTTGCAATTCTAGATAAATAAA
‫ מבנה הגן‬- ‫קצת ביולוגיה‬
‫גן מקודד לחלבון‬
CDS
start
CDS
stop terminator
promoter
intron
intron
DNA
exon
exon
exon
nX103 GGATATAAACTGACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAAGG
transcription
‫שעתוק‬
hnRNA
ACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAA
processing and splicing
‫חיתוך ועבוד‬
mRNA
ACGATGCCGTTGCAATTCTAGATAAATAAA
translation
protein
‫תרגום‬
‫קצת ביולוגיה ‪ -‬מבנה הגן‬
‫הקוד‬
‫הגנטי‬
‫‪ - DNA‬רצף בסיסים‬
‫הקוד הגנטי ‪DNA/RNA‬‬
‫חלבון ‪ -‬רצף חומצות‬
‫אמיניות‬
‫‪Slide taken from DOE Human Genome Program website‬‬
‫ מוטציה‬- ‫קצת ביולוגיה‬
‫גן מקודד לחלבון‬
CDS
start
CDS
stop
intron
intron
DNA
exon
exon
exon
nX103 GGATATAAACTGACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAAGG
transcription
‫שעתוק‬
hnRNA
ACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGATAAATAAA
processing and splicing
‫חיתוך ועבוד‬
mRNA
ACGATGCCGTTGCAATTCTAGATAAATAAA
translation
protein
‫תרגום‬
‫ מוטציה‬- ‫קצת ביולוגיה‬
‫גן מקודד לחלבון‬
CDS
start
CDS
stop
intron
intron
DNA
exon
exon
exon
nX103 GGATATAAACTGACGATGCCGGTACCTTAGTTGTAAGTAATCTTTCAGTTCTAGATAAATAAAGG
*
C T
transcription ‫שעתוק‬
hnRNA
*
ACGATGCCGGTACCTTAGTTGTAAGTAATCTTTCAGTTCTAGATAAATAAA
processing and splicing
mRNA
*
ACGATGCCGTTGTAATTCTAGATAAATAAA
translation
protein
‫חיתוך ועבוד‬
‫תרגום‬
‫קצת ביולוגיה ‪ -‬הגדרות‬
‫• גנום ‪ -‬כל החומר הגנטי של אורגניזם מסויים (מורכב מ ‪)DNA‬‬
‫• ‪ 3‬ביליון נוקלאוטידים בגנום האנושי‬
‫• רק כ‪ 1.5% -‬מהגנום האנושי מקודד לחלבון‬
‫• מה תפקיד רוב ה ‪ DNA‬בגנום האנושי?‬
‫• גנים שאינם מקודדים לחלבון‬
‫• מכיל רצפי בקרה‬
‫• מכיל רצף בעל תפקיד לא ידוע ("‪)"junk DNA‬‬
‫• ביטוי ‪ -‬שעתוק של גן ל ‪RNA -‬‬
‫• ריצוף ‪ -‬קריאת סדר הבסיסים ב‪DNA -‬‬
‫מהלך ההרצאה‬
‫• הקדמה (קצת ביולוגיה)‬
‫• פרויקט הגנום האנושי‬
‫• פיתוח כלים חישוביים‬
‫• מאגרי מידע‬
‫פרויקט הגנום האנושי ‪ -‬מטרות‬
‫פרויקט של משרד האנרגיה האמריקני (‪ )DOE‬וה ‪2003-1990 NIH -‬‬
‫עלות ‪ -‬מעל ‪3 X 109 USD‬‬
‫מטרות‪:‬‬
‫• ריצוף כל הגנום האנושי‬
‫• זיהוי כל הגנים בגנום האנושי‬
‫‪IBM supercomputer at Oak Ridge‬‬
‫‪http://www.doegenomes.org‬‬
‫פרויקט הגנום האנושי ‪omics -‬‬
‫‪ - Genomics‬מבנה ותפקוד הגנום‬
‫‪ - Comparative genomics‬השוואת רצפי ‪ DNA‬בין אורגניזמים שונים ‪ -‬המשותף‪,‬‬
‫השונה‬
‫גנומים שרוצפו‪:‬‬
‫מחיידקים‪( 232 :‬כל גנום > ‪ 103‬בסיסים)‬
‫מאורגניזמים יותר גבוהים‪ 34 :‬גמורים מתוך ‪( 252‬הרוב > ‪ ,106‬הרבה > ‪108‬‬
‫בסיסים)‬
‫‪ - Transcriptomics‬אנליזה של רצפים מתבטאים‬
‫‪ 6‬מיליון רצפים מאדם ב ‪dbEST‬‬
‫‪ - Proteomics‬אנליזה של מבנה ותפקוד של חלבונים ‪ -‬יישומים לתכנון תרופות‬
‫לפחות כ ‪ 30X103 -‬חלבונים באדם‬
‫פרויקט הגנום האנושי ‪ -‬ריצוף הגנום‬
‫איך לרצף ‪ 3‬ביליון בסיסים ?‬
‫• בעיה ‪-‬‬
‫• אפשר לקרוא רק כ ‪ 400‬בסיסים בקריאה אחת רציפה‬
‫• פתרון ‪-‬‬
‫• שבירת השרשרת למקטעים קטנים יותר (בערך ‪ 8X106‬מקטעים)‬
‫• חפיפה בין מקטעים כדי להשלים את ה "פאזל"‬
‫• בעיה ‪-‬‬
‫‪5‬‬
‫‪4‬‬
‫• שגיאות ריצוף‬
‫• פתרון ‪-‬‬
‫• ‪ 6-8‬חזרות על כל מקטע (בערך ‪ 60X106‬מקטעים)‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫פרויקט הגנום האנושי ‪ -‬ריצוף הגנום‬
‫• בעיה ‪-‬‬
‫• רצפים חוזרים ‪ -‬אפשרויות שונות להרכבה‬
‫*‬
‫אפשרות א'‬
‫אפשרות ב'‬
‫‪7‬‬
‫‪7‬‬
‫‪6‬‬
‫*‬
‫‪2‬‬
‫*‬
‫*‬
‫‪5‬‬
‫‪4‬‬
‫‪3‬‬
‫‪2‬‬
‫‪5‬‬
‫‪4‬‬
‫‪3‬‬
‫‪6‬‬
‫*‬
‫• בעיה ‪-‬‬
‫• רצפים פשוטים‬
‫‪1‬‬
‫‪4‬‬
‫‪3‬‬
‫*‬
‫‪1‬‬
‫פרויקט הגנום האנושי ‪ -‬ריצוף הגנום‬
‫‪Celera‬‬
‫‪HGP‬‬
‫‪ -‬שוברים את כל הגנום ללא שלב ביניים‬
‫ ממפים "שלד" של רצפים גדולים לפי נקודות‬‫ציון‬
‫ הרכבת הפאזל בעייתית בגלל חזרות‬‫‪ -‬יותר מהיר‪ ,‬יותר זול‬
‫ אותם שוברים למקטעים קטנים‬‫ מרצפים את המקטעים‪ ,‬ממפים חזרה לשלד‬‫‪ -‬מקל על האנליזה‪ ,‬יותר מדוייק‬
‫‪http://www.bio.davidson.edu/courses/genomics/method/shotgun.html‬‬
‫ ריצוף הגנום‬- ‫פרויקט הגנום האנושי‬
GTTCGCAGGACGGGCGACGGCCCTCTGGCCCTGGCCTCAGAACTTCCAAACCTCCGACCAGCGCTACGTC
CTTTACCCGAACAACTTTCAATTCCAGTACGATGTCAGCTCGGCCGCGCAGCCCGGCTGCTCAGTCCTCG
ACGAGGCCTTCCAGCGCTATCGTGACCTGCTTTTCGGTTCCGGGTCTTGGCCCCGTCCTTACCTCACAGG
GAAACGGCATACACTGGAGAAGAATGTGTTGGTTGTCTCTGTAGTCACACCTGGATGTAACCAGCTTCCT
ACTTTGGAGTCAGTGGAGAATTATACCCTGACCATAAATGATGACCAGTGTTTACTCCTCTCTGAGACTG
TCTGGGGAGCTCTCCGAGGTCTGGAGACTTTTAGCCAGCTTGTTTGGAAATCTGCTGAGGGCACATTCTT
TATCAACAAGACTGAGATTGAGGACTTTCCCCGCTTTCCTCACCGGGGCTTGCTGTTGGATACATCTCGC
CATTACCTGCCACTCTCTAGCATCCTGGACACTCTGGATGTCATGGCGTACAATAAATTGAACGTGTTCC
ACTGGCATCTGGTAGATGATCCTTCCTTCCCATATGAGAGCTTCACTTTTCCAGAGCTCATGAGAAAGGG
GTCCTACAACCCTGTCACCCACATCTACACAGCACAGGATGTGAAGGAGGTCATTGAATACGCACGGCTC
CGGGGTATCCGTGTGCTTGCAGAGTTTGACACTCCTGGCCACACTTTGTCCTGGGGACCAGGTATCCCTG
GATTACTGACTCCTTGCTACTCTGGGTCTGAGCCCTCTGGCACCTTTGGACCAGTGAATCCCAGTCTCAA
TAATACCTATGAGTTCATGAGCACATTCTTCTTAGAAGTCAGCTCTGTCTTCCCAGATTTTTATCTTCAT
CTTGGAGGAGATGAGGTTGATTTCACCTGCTGGAAGTCCAACCCAGAGATCCAGGACTTTATGAGGAAGA
AAGGCTTCGGTGAGGACTTCAAGCAGCTGGAGTCCTTCTACATCCAGACGCTGCTGGACATCGTCTCTTC
TTATGGCAAGGGCTATGTGGTGTGGCAGGAGGTGTTTGATAATAAAGTAAAGATTCAGCCAGACACAATC
ATACAGGTGTGGCGAGAGGATATTCCAGTGAACTATATGAAGGAGCTGGAACTGGTCACCAAGGCCGGCT
TCCGGGCCCTTCTCTCTGCCCCCTGGTACCTGAACCGTATATCCTATGGCCCTGACTGGAAGGATTTCTA
CGTAGTGGAACCCCTGGCATTTGAAGGTACCCCTGAGCAGAAGGCTCTGGTGATTGGTGGAGAGGCTTGT
ATGTGGGGAGAATATGTGGACAACACAAACCTGGTCCCCAGGCTCTGGCCCAGAGCAGGGGCTGTTGCCG
AAAGGCTGTGGAGCAACAAGTTGACATCTGACCTGACATTTGCCTATGAACGTTTGTCACACTTCCGCTG
‫מהלך ההרצאה‬
‫• הקדמה (קצת ביולוגיה)‬
‫• פרויקט הגנום האנושי‬
‫• פיתוח כלים חישוביים‬
‫• מאגרי מידע‬
‫פיתוח כלים חישוביים ‪ -‬ניבוי גנים‬
‫שיטות לניבוי גנים‪:‬‬
‫• הגנים מהווים חלק קטן מהגנום אבל פונקציונלי (רצפים מקודדים מהווים כ‪ 1.5% -‬מהגנום‬
‫האנושי)‬
‫• לפי תכונות הרצף (‪)ab initio‬‬
‫• על סמך ראיות (‪)evidence-based‬‬
‫• לפי ביטוי (קיום ‪ RNA‬של הגן)‬
‫• לפי דימיון לרצפים ממינים אחרים‬
‫פיתוח כלים חישוביים ‪ -‬ניבוי גנים‬
‫לפי תכונות הרצף (‪:)ab initio‬‬
‫‪CDS‬‬
‫‪stop terminator‬‬
‫‪exon‬‬
‫‪CDS‬‬
‫‪start‬‬
‫‪intron‬‬
‫‪exon‬‬
‫‪intron‬‬
‫‪exon‬‬
‫‪promoter‬‬
‫‪DNA‬‬
‫‪GGATATAAACTGACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAGGTAAATAAAGG‬‬
‫‪mRNA‬‬
‫‪ATGCCGTTGCAATTCTAG‬‬
‫• גודל אקסונים קטן (כ ‪ 200 -‬בסיסים) יחסית לאינטרונים‬
‫• גודל גן ממוצע‬
‫• מרחק ממוצע ידוע בין אלמנטים שונים‬
‫• עליה באחוז ‪ CG‬יחסית לשאר הגנום (בעיקר באזור הפרומוטר)‬
‫• רצף מקודד לחלבון‬
‫ ניבוי גנים‬- ‫פיתוח כלים חישוביים‬
:Evidence based prediction
‫ של אותו גן‬mRNA ‫ קיום‬- ‫• ביטוי‬
‫ מופקדים במאגרי נתונים‬mRNA ‫• רצפי‬
‫• חלקם שלמים ובאיכות גבוהה‬
‫) חלקיים ועם אחוז שגיאה גבוה‬ESTs ‫ מיליון‬6( ‫• רובם‬
DNA
GGATATAAACTGACGATGCCGGTACCTTAGTTGCAAGTAATCTTTCAGTTCTAAGTAAATAAAGG
mRNA
ACGATGCCGTTGCAATTCTAAGTAAATAAA
ACGATGCTGTTGCAATTCTAAGTAAATAAA
CTAAGTAAATAAA
‫פיתוח כלים חישוביים ‪ -‬ניבוי גנים‬
‫‪:Evidence based prediction‬‬
‫• מידת שימור בין אורגניזמים שונים‬
‫• לאו בהכרח רצף מתבטא‬
‫• מוטציות במקומות חשובים פונקציונלית יהיו פחות נסבלים (גנים או אלמנטים)‬
‫• דמיון פחות מ‪( 100% -‬מידת הדמיון תלויה במרחק בין המינים)‬
‫פיתוח כלים חישוביים ‪ -‬תכנות דינמי‬
‫תכנות דינמי (‪:)dynamic programming‬‬
‫• שיטה לפשט חישובים מורכבים על ידי חלוקת הבעיה לתת בעיות קטנות יותר‬
‫• תת הבעיה הראשונה הופכת טריויאלית על ידי הקלט‬
‫• הפתרונות נשמרים ועוזרים לפתור את תת הבעיות הבאות‬
‫• חוזרים על התהליך עד פתרון כל תת הבעיות‬
‫• בסיום ניתן הפתרון הכללי‬
‫• חסכון בזכרון ‪ -‬שומרים רק את הפתרונות האחרונים‬
‫• נפוץ באנליזות ביולוגיות‬
‫• דוגמא‪ :‬השוואת רצפים (‪)pairwise alignment‬‬
‫פיתוח כלים חישוביים ‪ -‬תכנות דינמי‬
‫השוואת רצפים (‪:Smith-Waterman algorithm )pairwise alignment‬‬
‫• בכל שלב של ההתאמה קיימות רק שלש אפשרויות‪:‬‬
‫• ‪ .1‬הארכה בשני הרצפים ‪ -‬התאמה או לא‬
‫• ‪ .2‬הארכת הרצף ראשון ויצירת רווח (‪ )gap‬בשני‬
‫• ‪ .3‬הארכת הרצף השני ויצירת רווח (‪ )gap‬בראשון‬
‫‪2‬‬
‫‪1‬‬
‫‪3‬‬
‫‪ATG-GCTT‬‬
‫‪ATGGCTT‬‬
‫‪ATGGCTT‬‬
‫?|||‬
‫?|||‬
‫?|||‬
‫‪ATGCTTA‬‬
‫‪ATG-CTTA‬‬
‫‪ATGCTTA‬‬
‫פיתוח כלים חישוביים ‪ -‬תכנות דינמי‬
‫השוואת רצפים (‪:Smith-Waterman algorithm )pairwise alignment‬‬
‫• בכל שלב של ההתאמה קיימות רק שלש אפשרויות‪:‬‬
‫‪3‬‬
‫• ‪ .1‬הארכה בשני הרצפים ‪ -‬התאמה או לא‬
‫• ‪ .2‬הארכת הרצף ראשון ויצירת רווח (‪ )gap‬בשני‬
‫• ‪ .3‬הארכת הרצף השני ויצירת רווח (‪ )gap‬בראשון‬
‫• לכל מצב פונקצית שקלול (‪:)weight function‬‬
‫‪2‬‬
‫‪1‬‬
‫‪ATG-GCTT‬‬
‫‪ATGGCTT‬‬
‫‪ATGGCTT‬‬
‫?|||‬
‫?|||‬
‫?|||‬
‫‪ATGCTTA‬‬
‫‪ATG-CTTA‬‬
‫‪ATGCTTA‬‬
‫;)‪1. W(A3,B3) = eq/dif_score(A3,B3‬‬
‫• התאמה (‪ / )2+‬חוסר התאמה (‪)2-‬‬
‫;)‪2. W(A3,-) = gap_open/extend(A3,-‬‬
‫• הכנסת רווח (‪ / )1-‬הארכת רווח (‪)0‬‬
‫)‪3. W(-,B3) = gap_open/extend(-,B3‬‬
‫פיתוח כלים חישוביים ‪ -‬תכנות דינמי‬
‫השוואת רצפים (‪:Smith-Waterman algorithm )pairwise alignment‬‬
‫• בכל שלב של ההתאמה קיימות רק שלש אפשרויות‪:‬‬
‫‪3‬‬
‫• ‪ .1‬הארכה בשני הרצפים ‪ -‬התאמה או לא‬
‫• ‪ .2‬הארכת הרצף ראשון ויצירת רווח (‪ )gap‬בשני‬
‫• ‪ .3‬הארכת הרצף השני ויצירת רווח (‪ )gap‬בראשון‬
‫• לכל מצב פונקצית שקלול (‪:)weight function‬‬
‫‪2‬‬
‫‪1‬‬
‫‪ATG-GCTT‬‬
‫‪ATGGCTT‬‬
‫‪ATGGCTT‬‬
‫?|||‬
‫?|||‬
‫?|||‬
‫‪ATGCTTA‬‬
‫‪ATG-CTTA‬‬
‫‪ATGCTTA‬‬
‫;)‪1. W(A3,B3) = eq/dif_score(A3,B3‬‬
‫• התאמה (‪ / )2+‬חוסר התאמה (‪)2-‬‬
‫;)‪2. W(A3,-) = gap_open/extend(A3,-‬‬
‫• הכנסת רווח (‪ / )1-‬הארכת רווח (‪)0‬‬
‫)‪3. W(-,B3) = gap_open/extend(-,B3‬‬
‫• הציון בכל שלב יהיה ‪ max‬של סכום המצב לפני הארכה וציון השקלול של הארכה‬
‫• כל מה שצריך הוא ‪ -‬פונקצית השקלול‪ ,‬שני הרצפים‬
‫‪ATGGCTT‬‬
‫|||| ||‬
‫‪AT-GCTTA‬‬
‫פיתוח כלים חישוביים ‪BLAST -‬‬
‫‪Basic Local Alignment Search Tool‬‬
‫• שיטה היוריסטית (מסתמכת על "כללי אצבע")‪ ,‬משתמשת בחישובים סטטיסטיים של‬
‫‪Karlin and Altschul‬‬
‫• מהירה פי ‪ 100‬מ ‪Smith Waterman algorithm‬‬
‫השלבים‪:‬‬
‫• יוצרים אינדקס של הרצפים נגדם מחפשים (ב‪ )database -‬על ידי רשימות מילים באורכים‬
‫שונים‬
‫• השאילתה מחולקת למילים בצורה דומה בזמן החיפוש‬
‫…‪a. ATGGCTTA: ATG,TGG,GGC,CTT‬‬
‫…‪b. ATGCTTAG: ATG,TGC,GCT,CTT‬‬
‫• משווים את רשימות המילים כדי למצוא התאמות מדויקות‬
‫• לכל מילה שנמצאה התאמה ‪ -‬מרחיבים את ההתאמה (‪ )alignment‬לשני הכוונים תוך‬
‫שימוש בפונקצית ציון (‪ ,)scoring function‬עד שההתאמה יורדת מתחת לסף מסויים‬
‫‪ATGGCTTA‬‬
‫‪GCTTA‬‬
‫‪CTT‬‬
‫|||| |||‬
‫|||||‬
‫|||‬
‫‪ATG-CTTAG‬‬
‫‪GCTTA‬‬
‫‪CTT‬‬
‫ השוואת רצפים‬- ‫פיתוח כלים חישוביים‬
:DNA -‫ ל‬mRNA ‫ השוואת‬- ‫ ביטוי‬- Evidence based prediction
UCSC browser views of BRCA1 mRNA/EST to genomic alighment :
One exon from one mRNA with human genomic DNA:
‫ השוואת רצפים‬- ‫פיתוח כלים חישוביים‬
:‫ השוואת רצפים ממינים שונים‬- Evidence based prediction
UCSC browser views of BRCA1 human to other species comparison:
One exon from mouse with human genomic DNA:
‫ הצורך‬- ‫פיתוח כלים חישוביים‬
CCTCCGAGAGGGGAGACCAGCGGGCCATGACAAGCTCCAGGCTTTGGTTTTCGCTGCTGCTGGCGGCAGC
GTTCGCAGGACGGGCGACGGCCCTCTGGCCCTGGCCTCAGAACTTCCAAACCTCCGACCAGCGCTACGTG
GTTTACCCGAACAACTTTCAATTCCAGTACGATGTCAGCTCGGCCGCGCAGCCCGGCTGCTCAGTCCTCG
ACGAGGCCTTCCAGCGCTATCGTGACCTGCTTTTCGGTTCCGGGTCTTGGCCCCGTCCTTACCTCACAGG
GAAACGGCATACACTGGAGAAGAATGTGTTGGTTGTCTCTGTAGTCACACCTGGATGTAACCAGCTTCCT
ACTTTGGAGTCAGTGGAGAGGTATACCCTGACCATAAATGATGACCAGTGTTTACTCCTCTCTGAGACTG
TCTGGGGAGCTCTCCGAGGTCTGGAGACTTTTAGCCAGCTTGTTTGGAAATCTGCTGAGGGCACATTCTT
TATCAACAAGACTGAGATTGAGGACTTTCCCCGCTTTCCTCACCGGGGCTTGCTGTTGGATACATCTCGC
CATTACCTGCCACTCTCTAGCATCCTGGACACTCTGGATGTCATGGCGTACAATAAATTGAACGTGTTCC
ACTGGCATCTGGTAGATGATCCTTCCTTCCCATATGAGAGCTTCACTTTTCCAGAGCTCATGAGAAAGGG
GTCCTACAACCCTGTCACCCACATCTACACAGCACAGGATGTGAAGGAGGTCATTGAATACGCACGGCTC
CGGGGTATCCGTGTGCTTGCAGAGTTTGACACTCCTGGCCACACTTTGTCCTGGGGACCAGGTATCCCTG
GATTACTGACTCCTTGCTACTCTGGGTCTGAGCCCTCTGGCACCTTTGGACCAGTGAATCCCAGTCTCAA
TAATACCTATGAGTTCATGAGCACATTCTTCTTAGAAGTCAGCTCTGTCTTCCCAGATTTTTATCTTCAT
CTTGGAGGAGATGAGGTTGATTTCACCTGCTGGAAGTCCAACCCAGAGATCCAGGACTTTATGAGGAAGA
AAGGCTTCGGTGAGGACTTCAAGCAGCTGGAGTCCTTCTACATCCAGACGCTGCTGGACATCGTCTCTTC
TTATGGCAAGGGCTATGTGGTGTGGCAGGAGGTGTTTGATAATAAAGTAAAGATTCAGCCAGACACAATC
ATACAGGTGTGGCGAGAGGATATTCCAGTGAACTATATGAAGGAGCTGGAACTGGTCACCAAGGCCGGCT
TCCGGGCCCTTCTCTCTGCCCCCTGGTACCTGAACCGTATATCCTATGGCCCTGACTGGAAGGATTTCTA
CGTAGTGGAACCCCTGGCATTTGAAGGTACCCCTGAGCAGAAGGCTCTGGTGATTGGTGGAGAGGCTTGT
ATGTGGGGAGAATATGTGGACAACACAAACCTGGTCCCCAGGCTCTGGCCCAGAGCAGGGGCTGTTGCCG
AAAGGCTGTGGAGCAACAAGTTGACATCTGACCTGACATTTGCCTATGAACGTTTGTCACACTTCCGCTG
‫פיתוח כלים חישוביים ‪ -‬דוגמאות נוספות‬
‫אנליזה של פולימורפיזם (‪:)SNP‬‬
‫• ‪ 2.5‬מיליון ‪ SNP‬בין שני גנומים אנושיים‬
‫• ‪ 10‬מיליון סך הכל מופקדים ב ‪dbSNP -‬‬
‫• אנליזה של תדירויות ‪ SNP‬באוכלוסיות שונות‪ ,‬אנליזות של קשר סטטיסטי למחלות‬
‫אנליזה של ביטוי‪:‬‬
‫• הבדלים בביטוי בין תאים מרקמות שונות‬
‫• הבדלים בביטוי בין תאים נורמלים ולא (סרטניים)‬
‫• כל ניסוי ‪ -‬עשרות אלפי נקודות‬
‫‪Mullikin - Studying genetic vatiation II - computational techniques (in NHGRI‬‬
‫‪course “Current Topics in Genome Analysis 2005”) - SNPs‬‬
‫מהלך ההרצאה‬
‫• הקדמה (קצת ביולוגיה)‬
‫• פרויקט הגנום האנושי‬
‫• פיתוח כלים חישוביים‬
‫• מאגרי מידע‬
‫מאגרי מידע‬
NCBI databases:
http://www.ncbi.nlm.nih.gov/
Golden path UCSC genome browser:
http://genome.ucsc.edu/cgi-bin/hgGateway
Ensembl genome browser:
http://www.ensembl.org/
GeneCards database:
http://genecards.weizmann.ac.il
NCBI - ‫מאגרי מידע‬
http://www.ncbi.nlm.nih.gov/
http://www.ncbi.nlm.nih.gov/
NCBI - ‫מאגרי מידע‬
http://www.ncbi.nlm.nih.gov/
NCBI - ‫מאגרי מידע‬
Gene database:
‫מידע אודות הגן‬
http://www.ncbi.nlm.nih.gov/
NCBI - ‫מאגרי מידע‬
PubMed database:
‫מאמרים בנושא‬
http://www.ncbi.nlm.nih.gov/
NCBI - ‫מאגרי מידע‬
OMIM database:
‫מידע אודות המחלה‬
http://www.ncbi.nlm.nih.gov/
NCBI - ‫מאגרי מידע‬
:‫ לייצוג מידע ביולוגי‬NCBI ‫המודל של‬
- ASN.1
Abstract Sequence Notation 1 language (similar to Backus-Naur form)
International Standards Organization standard (ISO 8824, 8825)
)coding standards( :‫קידוד‬
SQL ,XML ,C++ ,C
Some services cpu in 2003:
BLAST computer farm - 50 intel (Linux) 2ways 1.6 GHz 4GB = 100cpus
PubMed backend servers - 12 intel (Linux) 8ways 700MHz 8GB = 96 cpus
http://ncbi.nih.gov/IEB/ToolBox/SDKDOCS/OVERVIEW.HTML
UCSC - ‫מאגרי מידע‬
Golden Path UCSC genome browser
http://genome.ucsc.edu/cgi-bin/hgGateway
Ensembl - ‫מאגרי מידע‬
http://www.ensembl.org
GeneCards - ‫מאגרי מידע‬
GeneCards
‫דף הבית‬
http://genecards.weizmann.ac.il
GeneCards - ‫מאגרי מידע‬
GeneCards
‫תוצאות חיפוש‬
http://genecards.weizmann.ac.il
GeneCards - ‫מאגרי מידע‬
GeneCards
‫מבט על גן‬
http://genecards.weizmann.ac.il
GeneCards - ‫מאגרי מידע‬
GeneCards
‫ מחלות‬- ‫מבט על גן‬
http://genecards.weizmann.ac.il
GeneCards - ‫מאגרי מידע‬
GeneCards
‫ ספרות‬- ‫מבט על גן‬
http://genecards.weizmann.ac.il
‫מקורות‬
Reference/sources of information:
DOE - www.doegenomes.org
HGP - www.ornl.gov/sci/techresources/Human_Genome/home.shtml
Current Topics in Genome Analysis 2005 - Baxevanis/Wolfsberg/Green at
NHGRI (http://www.genome.gov/COURSE2005/index.cfm) NCBI Databases:
www.ncbi.nlm.nih.gov
GeneCards - genecards.weizmann.ac.il
UCSC - genome.ucsc.edu/cgi-bin/hgGateway
Ensembl - http://www.ensembl.org
NHGRI - ‫הרצאות מתוך הקורס ב‬
‫ נמצאים בתיקיה נפרדת‬PDF ‫קבצי‬
‫יש עוד הרצאות‬
Current Topics in Genome Analysis 2005 Baxevanis/Wolfsberg/Green at NHGRI
(http://www.genome.gov/COURSE2005/index.cfm)
‫מציאת מידע ברצפים‬
UCSC, NCBI, Ensembl
‫ אנוטציה כל אחד לעצמו‬- ‫ כולם מתחילים מרצף הגנום‬assembled at NCBI - ‫ גנום האדם והעכבר‬proteome browser ‫ גם‬UCSC ‫ יש ב‬-
human gene sorter -
Wolfsberg - Mining genomic sequence data (in NHGRI course “Current Topics in
Genome Analysis 2005”)
‫פרויקט הגנום ‪ -‬לפני ואחרי‬
‫לפני‪ :‬חיפוש גן הקשור במחלה‪/‬מבצע תפקיד מסויים בתא‬
‫דוגמא‪ :‬שיבוט הגן ל ‪ -CFTR -‬מחלה מונוגנית (תורשה פשוטה)‬
‫‪:)1989-1980( -‬‬
‫ תאחיזה במשפחות ושיטות מולקולריות ‪ -‬לכרומוזום ‪7‬‬‫ מיפוי על ידי שיבוט רצפים מהאזור‪ ,‬בנית מפה פיסיקלית‪ ,‬ריצוף ‪ -‬חיפוש גנים‬‫‪ -‬הגן זוהה ושובט (‪)1989‬‬
‫‪http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=219700‬‬
‫פרויקט הגנום ‪ -‬לפני ואחרי‬
‫אחרי‪ :‬חיפוש גן הקשור במחלה‪/‬מבצע תפקיד מסויים בתא‬
‫שיבוט הגן למחלה מונוגנית (תורשה פשוטה) ‪BRCA2 -‬‬
‫‪ -‬תאחיזה (‪ )1994‬לכרומוזום ‪ 13‬משפחות באיסלנד‬
‫ זיהוי הגן ומוטציות בחולים (‪)1995‬‬‫ ככל שמתקדם פרויקט הגנום ‪ -‬יותר מרקרים לתאחיזה‪ ,‬אין צורך במיפוי פיסיקלי ‪ -‬הרצף‬‫קיים וכולל גנים ידועים‪ ,‬ניבוי‪ ,‬שונות גנטית‪ ,‬רצפים מתבטאים (כל זה היה צריך לבד)‬
‫‪ -‬היום הדגש על מחלות מורכבות‬
‫‪http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=600185‬‬
‫פרויקט הגנום ‪ -‬לפני ואחרי‬
‫לפני‪ :‬חיפוש גן הקשור‬
‫במחלה‪/‬מבצע תפקיד מסויים בתא‬
‫אחרי‪ :‬חקר רשתות של גנים‬
‫הקשורים בתהליך מסויים‬
‫גן לפי דימיון מאורגניזם אחר או תאחיזה‬
‫למחלה‬
‫תאים במצב מסויים (אנשים‪/‬טיפול מסויים)‬
‫• שיבוט‪ ,‬ריצוף‪ ,‬חיפוש מוטציות‬
‫• בדיקת ביטוי ברקמות שונות‪RNA:‬‬
‫מתאים‪ ,‬בדיקה מול הגן‬
‫• בדיקת ביטוי מול אלפי רצפים מתבטאים‬
‫• אנליזה ברמת רשתות ‪ -‬אילו רצפים‬
‫מתבטאים באותם תנאים ( ‪clustering‬‬
‫‪)algorithms‬‬
‫• ניסויים לבדיקת תפקיד הגן‪:‬‬
‫• הוספה לתאים בתרבית‪ KO ,‬בעכבר‬
‫* רמת גן בודד או גנים ספורים‬
‫* עבודה טכנית רבה‬
‫* מיחשוב מינימלי (אם בכלל)‬
‫* אם יש רצף ‪ -‬כבר יש ‪ ,SNP‬ביטוי‪alt. ,‬‬
‫‪splice‬‬
‫* רמה מערכתית ‪ -‬כל הגנים בתהליך מסויים‬
‫* מיכשור מתקדם לעבודה בנפח גבוה‬
‫* כלים חישוביים לניתוח התוצאות‬
‫אתגר חישובי ‪ -‬ניתוח כמויות גדולות של‬
‫מידע‬
‫דוגמאות לניסויים ‪ -‬מיקרוצ'יפ‬
‫עשרות אלפי גנים על מיקרוצ'יפ אחד‪ ,‬בכל ניסוי נבדקים כולם במספר תנאים‬
‫(תאים שונים‪ ,‬אנשים שונים‪ ,‬תאים בחשיפה לתנאים שונים)‬
‫אנליזות כוללות ‪ clustering‬של הגנים למציאת גנים בעלי התנהגות דומה‬
‫פרויקט הגנום ‪ -‬השלב הבא‬
‫‪Genomes To Life - GTL‬‬
‫• יתמקד בנסיון להבין כיצד פועל תא ואורגניזם שלם (בתחילה בחידקים)‬
‫• כמות ומורכבות המידע הדרוש לאנליזה של מערכות ביולוגיות מאתגרת את המערכות‬
‫הקיימות כפי שעשה פרויקט הגנום בזמנו‬
‫• דבר זה יביא לפתוח כלים חישוביים וטכנולוגיות מתקדמות יותר‬
‫• מטרות כלליות‬
‫• חקר תפקיד גנים‬
‫• שונות גנטית ‪ >-‬התאמת טיפול לחולה‬
‫‪http://www.doegenomes.org‬‬
‫פיתוח כלים חישוביים ‪HMM -‬‬
‫‪Hidden Markov Model‬‬
‫• מודל סטטיסטי‪ ,‬בדרך כלל מיועד לניתוח דיבור‪ ,‬משמש לזיהוי תבניות ברצפים ביולוגיים‬
‫• ‪( a finite state machine - HMM‬מכונה עם מספר סופי של מצבים) ‪ -‬אנלוגי ל‬
‫‪pinball machine‬‬
‫• יש מספר סופי של מצבים‬
‫• קופץ ממצב למצב תוך ייצור פלט‬
‫• ההסתברות לעבור ממצב אחד לשני מוגדרת מראש וגם ההסתברות ליצירת פלט מסויים‬
‫במעבר‬
‫• כך עובר דרך רצף מצבים תוך ייצור רצף של פלטים‬
‫• ‪ hidden‬משום שרואים רק את הפלט ולא אילו מצבים יצרו אותו‬
‫השאלות‪:‬‬
‫‪ .1‬מהו רצף המצבים הכי סביר לייצור פלט מסויים‬
‫‪ .2‬מהי הסתברות המסלול הזה (בהתחשב בכל המסלולים האפשריים)‬
HMM - ‫פיתוח כלים חישוביים‬
M - match
d1
d2
d3
d4
D - delete
I - insert
i0
i1
i2
i3
i4
‫התחלה‬
m1
m2
m3
m4
‫סיום‬
training set ‫בונים על‬
HMM.pdf (Eddy) ‫להוסיף מ‬
‫פיתוח כלים חישוביים ‪ -‬תכנות דינמי‬
‫‪Basic Local Alighment Search Tool‬‬
‫שוברים את ה ‪ query -‬למילים‬
‫)‪Qeury (RNA‬‬
‫)‪Subject (DNA‬‬
‫מחפשים התאמה למילה ‪ W‬באורך מסויים (‪ ,)7‬דורשים דימיון מסויים ‪)100%( T‬‬
‫‪W‬‬
‫מאריכים את המילה לשני הכוונים‪ ,‬מנסים להגיע ל ‪ score‬מסויים ‪S‬‬
‫‪mismatch‬‬
‫‪( gaps‬השמטות‪ ,‬הוספות) ‪ -‬עונש על פתיחה‪ ,‬פחות על הרחבה‬
‫‪gap‬‬