Will my mutation be deleterious? Classifying point mutations at the protein interface

Download Report

Transcript Will my mutation be deleterious? Classifying point mutations at the protein interface

Will my mutation be deleterious?
Classifying point mutations
at the protein interface
by SVM, Rosetta and Foldx
Elad Mezuman
Ora Furman
‫בתוכנית‬
‫‪‬‬
‫רקע‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫שיטות‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪SVM‬‬
‫סריקה לאלאנין‬
‫הערכת ביצועים‬
‫ה ‪ Dataset‬שלי‬
‫תוצאות‬
‫‪‬‬
‫‪‬‬
‫מוטיבציה‬
‫פונקציות אנרגיה‬
‫למידה‬
‫העולם אליו אני נכנס‬
‫ביצועים התחלתיים‬
‫ביצועים בעקבות ‪ RFE‬ואופטימיזציה‬
‫משקלים‬
‫מסקנות‬
‫צעדים להמשך‬
‫קצת מוטיבציה!‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫שמענו כבר על החשיבות של האינטראקציות‬
‫והבנת המבנה של קומפלקסים חלבונים‬
‫נרצה כלים לנתח את המבנה‪ ,‬אשר באמצעותם‬
‫נוכל‪ ,‬למשל‪ ,‬למצוא את החומצות האמינו‬
‫הקריטיות לקישור מוצלח בין החלבונים‬
‫ע"פ מספר מחקרים‪ ,‬רק מספר מצומצם של‬
‫חומצות האמינו בממשק תורם משמעותית‬
‫לאנרגיית הקישור החופשית שם‬
1bxi: Im9-DNase interaction
‫פונקצית אנרגיה‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫האנרגיה החופשית הינה מדד ליציבות החלבונים‬
‫קיימים מודלים כמותיים להערכת האנרגיה של קישור בין‬
‫חלבונים‬
‫המודל הפשוט מתאר את אנרגית הקישור של שני‬
‫חלבונים כצירוף ליניארי של פרמטרים שונים הלקוחים הן‬
‫מכימיה פיזקלית והן מאנליזות סטטסטיות על חלבונים‬
‫ידועים‪:‬‬
‫‪G  Wi Ei‬‬
‫‪‬‬
‫הפרמטרים כוללים למשל‪ ,‬כוחות משיכה (‪ )Eatr‬ודחייה‬
‫(‪ )Erep‬קשרי מימן (‪ )Ehbnd‬בין כל האטומים בממשק‬
‫שני יהודים שלוש דעות‬
‫‪‬‬
‫אלגוריתמים חישוביים שונים‪ ,‬לדוגמא ‪ Foldx‬ו‬
‫‪ ,Rosetta‬מציעים פונקציות אנרגיה שונות וחיזויים‬
‫שונים‪ ,‬על אף שהמודל הפיזיקלי דומה (צירוף לינארי‬
‫של מושגי אנרגיה)‬
‫כיצד הותאמו המשקלים בפונקצית האנרגיה?‬
‫‪‬‬
‫לבעיות שונות הותאמו משקלים אופטימלים‪ ,‬על סמך‬
‫נתונים ניסיוניים‪ ,‬למשל בשיטה הבאה‪:‬‬
‫‪2‬‬
‫‪‬‬
‫‪‬‬
‫) ‪( j )   i Wi Ei‬‬
‫‪predicted‬‬
‫‪ (G‬‬
‫‪j‬‬
‫‪arg min‬‬
‫‪W‬‬
‫ב ‪ Foldx‬בחרו לפתור את הבעיה ע"י ריצה על כל הערכים בין ‪0‬‬
‫ל ‪ 2‬בקפיצות של ‪0.2‬‬
‫ב ‪ ,Optimized Rosetta‬בחרו לפתור את הבעיה באמצעות‬
‫‪conjugated-gradient-base optimization methods‬‬
‫למידה לצורך הכרעה‬
‫‪‬‬
‫אנו מחפשים פונקציה שבהינתן וקטור (= סט של‬
‫תכונות) המתאר את המוטציה תיתן תשובה‪" :‬הרסנית"‬
‫או "לא הרסנית"‬
‫‪N‬‬
‫‪‬‬
‫על מנת ליצור את הפונקציה אנו נשתמש בידע מוקדם‪,‬‬
‫ידע נסיוני‪ ,‬האם המוטציה הרסנית או לא‬
‫‪f : R   1‬‬
‫‪( x1 , y1 ),...., ( xm , ym )  R N   1‬‬
‫אם יש את התוכנות למה צריך אותי?‬
‫‪‬‬
‫עובדה‪ :‬התוכנות לא מספקות תוצאות מספיק‬
‫טובות!‬
‫(‪)Accuracy: Foldx=65%, Rosetta=66%,Optimized Rosetta=71%‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫שילוב בין התוכנות והוספת ידע נוסף‬
‫בנית פתרון ספציפי לשאלה שלנו‬
‫מעבר לבעיית הכרעה מבעיית רגרסיה (הסבר‬
‫בהמשך)‬
‫שימוש בכלים חישוביים מתקדמים‬
‫בתוכנית‬
‫‪‬‬
‫רקע‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫שיטות‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪SVM‬‬
‫סריקה לאלאנין‬
‫הערכת ביצועים‬
‫ה ‪ Dataset‬שלי‬
‫תוצאות‬
‫‪‬‬
‫‪‬‬
‫מוטיבציה‬
‫פונקציות אנרגיה‬
‫למידה‬
‫העולם אליו אני נכנס‬
‫ביצועים התחלתיים‬
‫ביצועים בעקבות ‪ RFE‬ואופטימיזציה‬
‫משקלים‬
‫מסקנות‬
‫צעדים להמשך‬
‫מישור מפריד‬
‫‪ ‬אנו מחפשים מישור מפריד‬
‫(נשים לב שמישור מפריד הוא סט משקולות)‬
‫•סוג ‪+1‬‬
‫•סוג ‪-1‬‬
‫‪‬‬
‫אבל איזה מישור מפריד נבחר ?‬
‫‪SVM – Support Vector Machine‬‬
‫‪‬‬
‫נבחר את המישור המפריד הממקסם את השוליים‬
‫•סוג ‪+1‬‬
‫•סוג ‪-1‬‬
‫‪‬‬
‫אינטואיטיבי ומראה הצלחה אמפירית בהרבה תחומים‬
‫כיצד נעריך את הביצועים?‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫נשתמש במדדים הבאים‪:‬‬
‫דיוק – בכמה דוגמאות דייקנו בהערכה שלנו מתוך כל‬
‫הדוגמאות‪:‬‬
‫‪Accuracy = TP  TNTP  TN‬‬
‫‪FP  FN‬‬
‫רגישות – כמה דוגמאות חיוביות תפסנו מתוך כל‬
‫החיוביות‪.‬‬
‫‪TP‬‬
‫‪Sensitivity= TP  FN‬‬
‫ספציפיות – כמה דוגמאות שליליות תפסנו מתוך כל‬
‫הדוגמאות‬
‫‪TN‬‬
‫=‪Specificity‬‬
‫‪FP  TN‬‬
‫כיצד נבחן את תוצאות הלמידה‬
‫‪‬‬
‫‪‬‬
‫בעיה‪ :‬אנו רוצים להשתמש במירב הידע המוקדם‬
‫שיש לנו אך מצד שני אנו רוצים לבדוק את החיזוי‬
‫שלנו על דוגמאות שלא למדנו בעזרתן‬
‫פתרון אפשרי‪Leave-1-Out Cross ,‬‬
‫‪Validation‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫נוציא מסט הדוגמאות שלנו דוגמא אחת (במקרה‬
‫שלנו קומפלקס חלבוני) ונלמד על כל שאר הדוגמאות‬
‫נעריך את הביצועים על הדוגמא אותה הוצאנו‬
‫נחזור על התהליך עבור כל אחת מהדוגמאות‬
‫נקודת הפתיחה‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪ Dataset‬של מוטציות נקודתיות לאלאנין מ‬
‫‪ :ProTherm‬נתונים נסיונים על השינוי באנרגיה‬
‫החופשית כתוצאה ממוטציה לאלאנין‬
‫שינוי של מעל ‪ 1 kcal/mol‬נחשב להרסני‬
‫הנתונים כוללים ‪ 18‬קומפלקסים חלבוניים ובהן כ‬
‫‪ 220‬מוטציות בממשק‬
Will my mutation be Deleterious?
Alanine Scanning
‫הכנת הנתונים ל ‪SVM‬‬
‫‪‬‬
‫לכל מוטציה נכין וקטור עם התכונות הידועות לנו עליה‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫הערכות מ ‪Foldx‬‬
‫הערכות מ ‪Rosetta‬‬
‫נתוני שמירות‪ ,‬עד כמה הח‪.‬א קבורה – כמה שכנים יש לה‬
‫ננרמל את הנתונים על בסיס תכונות (‪)features‬‬
‫‪x‬‬
‫‪‬‬
‫‪Z  score ( x) ‬‬
‫בתוכנית‬
‫‪‬‬
‫רקע‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫שיטות‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪SVM‬‬
‫סריקה לאלאנין‬
‫הערכת ביצועים‬
‫ה ‪ Dataset‬שלי‬
‫תוצאות‬
‫‪‬‬
‫‪‬‬
‫מוטיבציה‬
‫פונקציות אנרגיה‬
‫למידה‬
‫העולם אליו אני נכנס‬
‫ביצועים התחלתיים‬
‫ביצועים בעקבות ‪ RFE‬ואופטימיזציה‬
‫משקלים‬
‫מסקנות‬
‫צעדים להמשך‬
Start Point - Accuracy
0.9
Foldx
0.85
Rosetta
0.8
Accuracy
Optimized Rosetta
0.75
0.7
0.65
0.6
0.55
0.5
0
0.1
0.2
Delta from 1
0.3
0.4
Start Point - Accuracy
0.9
Foldx
0.85
Rosetta
0.8
Accuracy
Optimized Rosetta
0.75
0.7
0.65
0.6
0.55
0.5
0
0.1
0.2
Delta from 1
0.3
0.4
Start Point
0.9
0.85
0.8
0.75
0.7
0.65
0.6
0.55
0.5
Foldx
Specificity
Rosetta
Optimized Rosetta
Sensitivity
Accuracy
SVM Performance
0.9
Foldx
Foldx SVM
Rosetta
Rosetta SVM
0.8
Foldx + Rosetta (SVM)
0.7
0.6
0.5
Specificity
Sensitivity
Accuracy
Accuracy
Repeated Feature Elimination
0.9
0.85
0.8
0.75
0.7
0.65
0.6
0.55
0.5
#1 training set
#2 training set
#1 - independent accuracy
#2 - independent accuracy
18
13
# of features
8
3
Final Weights (Normalized)
-1
R VdW attractive
Solvation hydrophobic
Electrostatic kon
# of neighbours
R Solvation
Backbone Hbnd
Entropy sidechain
Sidechain Hbnd
Backbone clash
Water Bridge
R VdW repulsive
Torsonial Clash
VdW
-0.5
0
0.5
1
?‫לאיזה תוצאות הגענו‬
Roc Curve
True/False Histogram
40
TPR
35
30
FALSE
TRUE
25
20
15
10
5
<=
-4
<=
-3
<=
-2
<=
-1
<=
0
<=
1
<=
2
<=
3
<=
4
<=
5
<=
6
<=
7
M
or
e
0
FPR
Specificity
Sensitivity
Accurac
y
Optimized Rosetta
73%
79%
75%
SVM
84%
77%
75%
‫מסקנות עד כה‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫ניתן להגיע לשיפור בחיזוי הרסניות המוטציה‬
‫סט הנתונים לא גדול ולכן קשה לעשות הערכת‬
‫ביצועים טובה‬
‫השילוב בין ‪ features‬ממקורות שונים מוכיח‬
‫את עצמו‪ ,‬לא כולם תורמים לפתרון הבעיה‬
‫צעדים להמשך‬
‫‪‬‬
‫ולדיציה‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫אנליזת המודל‪:‬‬
‫‪‬‬
‫‪‬‬
‫הרחבת מאגר הנתונים‬
‫שימוש בשיטות ולידציה נוספות‬
‫ניתוח המשקלים שהתקבלו על מנת להבין את המרכיבים‬
‫המשפיעים על האינטראקציה‬
‫אופטימיזציה נוספת של ה ‪:SVM‬‬
‫‪‬‬
‫בחינת שימוש בשיטות נוספות להורדת המימד‬
‫תודות‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫אורה פורמן‬
‫ברק רווה ושאר קבוצתה של אורה‬
‫טומי קפלן‬
‫לכם על ההקשבה‪...‬‬
‫לים‪...‬‬
Backup
Van der Waals Energy Term:
Foldx vs. Rosetta
Foldx
Rosetta