Will my mutation be deleterious? Classifying point mutations at the protein interface
Download
Report
Transcript Will my mutation be deleterious? Classifying point mutations at the protein interface
Will my mutation be deleterious?
Classifying point mutations
at the protein interface
by SVM, Rosetta and Foldx
Elad Mezuman
Ora Furman
בתוכנית
רקע:
שיטות
SVM
סריקה לאלאנין
הערכת ביצועים
ה Datasetשלי
תוצאות
מוטיבציה
פונקציות אנרגיה
למידה
העולם אליו אני נכנס
ביצועים התחלתיים
ביצועים בעקבות RFEואופטימיזציה
משקלים
מסקנות
צעדים להמשך
קצת מוטיבציה!
שמענו כבר על החשיבות של האינטראקציות
והבנת המבנה של קומפלקסים חלבונים
נרצה כלים לנתח את המבנה ,אשר באמצעותם
נוכל ,למשל ,למצוא את החומצות האמינו
הקריטיות לקישור מוצלח בין החלבונים
ע"פ מספר מחקרים ,רק מספר מצומצם של
חומצות האמינו בממשק תורם משמעותית
לאנרגיית הקישור החופשית שם
1bxi: Im9-DNase interaction
פונקצית אנרגיה
האנרגיה החופשית הינה מדד ליציבות החלבונים
קיימים מודלים כמותיים להערכת האנרגיה של קישור בין
חלבונים
המודל הפשוט מתאר את אנרגית הקישור של שני
חלבונים כצירוף ליניארי של פרמטרים שונים הלקוחים הן
מכימיה פיזקלית והן מאנליזות סטטסטיות על חלבונים
ידועים:
G Wi Ei
הפרמטרים כוללים למשל ,כוחות משיכה ( )Eatrודחייה
( )Erepקשרי מימן ( )Ehbndבין כל האטומים בממשק
שני יהודים שלוש דעות
אלגוריתמים חישוביים שונים ,לדוגמא Foldxו
,Rosettaמציעים פונקציות אנרגיה שונות וחיזויים
שונים ,על אף שהמודל הפיזיקלי דומה (צירוף לינארי
של מושגי אנרגיה)
כיצד הותאמו המשקלים בפונקצית האנרגיה?
לבעיות שונות הותאמו משקלים אופטימלים ,על סמך
נתונים ניסיוניים ,למשל בשיטה הבאה:
2
) ( j ) i Wi Ei
predicted
(G
j
arg min
W
ב Foldxבחרו לפתור את הבעיה ע"י ריצה על כל הערכים בין 0
ל 2בקפיצות של 0.2
ב ,Optimized Rosettaבחרו לפתור את הבעיה באמצעות
conjugated-gradient-base optimization methods
למידה לצורך הכרעה
אנו מחפשים פונקציה שבהינתן וקטור (= סט של
תכונות) המתאר את המוטציה תיתן תשובה" :הרסנית"
או "לא הרסנית"
N
על מנת ליצור את הפונקציה אנו נשתמש בידע מוקדם,
ידע נסיוני ,האם המוטציה הרסנית או לא
f : R 1
( x1 , y1 ),...., ( xm , ym ) R N 1
אם יש את התוכנות למה צריך אותי?
עובדה :התוכנות לא מספקות תוצאות מספיק
טובות!
()Accuracy: Foldx=65%, Rosetta=66%,Optimized Rosetta=71%
שילוב בין התוכנות והוספת ידע נוסף
בנית פתרון ספציפי לשאלה שלנו
מעבר לבעיית הכרעה מבעיית רגרסיה (הסבר
בהמשך)
שימוש בכלים חישוביים מתקדמים
בתוכנית
רקע:
שיטות
SVM
סריקה לאלאנין
הערכת ביצועים
ה Datasetשלי
תוצאות
מוטיבציה
פונקציות אנרגיה
למידה
העולם אליו אני נכנס
ביצועים התחלתיים
ביצועים בעקבות RFEואופטימיזציה
משקלים
מסקנות
צעדים להמשך
מישור מפריד
אנו מחפשים מישור מפריד
(נשים לב שמישור מפריד הוא סט משקולות)
•סוג +1
•סוג -1
אבל איזה מישור מפריד נבחר ?
SVM – Support Vector Machine
נבחר את המישור המפריד הממקסם את השוליים
•סוג +1
•סוג -1
אינטואיטיבי ומראה הצלחה אמפירית בהרבה תחומים
כיצד נעריך את הביצועים?
נשתמש במדדים הבאים:
דיוק – בכמה דוגמאות דייקנו בהערכה שלנו מתוך כל
הדוגמאות:
Accuracy = TP TNTP TN
FP FN
רגישות – כמה דוגמאות חיוביות תפסנו מתוך כל
החיוביות.
TP
Sensitivity= TP FN
ספציפיות – כמה דוגמאות שליליות תפסנו מתוך כל
הדוגמאות
TN
=Specificity
FP TN
כיצד נבחן את תוצאות הלמידה
בעיה :אנו רוצים להשתמש במירב הידע המוקדם
שיש לנו אך מצד שני אנו רוצים לבדוק את החיזוי
שלנו על דוגמאות שלא למדנו בעזרתן
פתרון אפשריLeave-1-Out Cross ,
Validation
נוציא מסט הדוגמאות שלנו דוגמא אחת (במקרה
שלנו קומפלקס חלבוני) ונלמד על כל שאר הדוגמאות
נעריך את הביצועים על הדוגמא אותה הוצאנו
נחזור על התהליך עבור כל אחת מהדוגמאות
נקודת הפתיחה
Datasetשל מוטציות נקודתיות לאלאנין מ
:ProThermנתונים נסיונים על השינוי באנרגיה
החופשית כתוצאה ממוטציה לאלאנין
שינוי של מעל 1 kcal/molנחשב להרסני
הנתונים כוללים 18קומפלקסים חלבוניים ובהן כ
220מוטציות בממשק
Will my mutation be Deleterious?
Alanine Scanning
הכנת הנתונים ל SVM
לכל מוטציה נכין וקטור עם התכונות הידועות לנו עליה:
הערכות מ Foldx
הערכות מ Rosetta
נתוני שמירות ,עד כמה הח.א קבורה – כמה שכנים יש לה
ננרמל את הנתונים על בסיס תכונות ()features
x
Z score ( x)
בתוכנית
רקע:
שיטות
SVM
סריקה לאלאנין
הערכת ביצועים
ה Datasetשלי
תוצאות
מוטיבציה
פונקציות אנרגיה
למידה
העולם אליו אני נכנס
ביצועים התחלתיים
ביצועים בעקבות RFEואופטימיזציה
משקלים
מסקנות
צעדים להמשך
Start Point - Accuracy
0.9
Foldx
0.85
Rosetta
0.8
Accuracy
Optimized Rosetta
0.75
0.7
0.65
0.6
0.55
0.5
0
0.1
0.2
Delta from 1
0.3
0.4
Start Point - Accuracy
0.9
Foldx
0.85
Rosetta
0.8
Accuracy
Optimized Rosetta
0.75
0.7
0.65
0.6
0.55
0.5
0
0.1
0.2
Delta from 1
0.3
0.4
Start Point
0.9
0.85
0.8
0.75
0.7
0.65
0.6
0.55
0.5
Foldx
Specificity
Rosetta
Optimized Rosetta
Sensitivity
Accuracy
SVM Performance
0.9
Foldx
Foldx SVM
Rosetta
Rosetta SVM
0.8
Foldx + Rosetta (SVM)
0.7
0.6
0.5
Specificity
Sensitivity
Accuracy
Accuracy
Repeated Feature Elimination
0.9
0.85
0.8
0.75
0.7
0.65
0.6
0.55
0.5
#1 training set
#2 training set
#1 - independent accuracy
#2 - independent accuracy
18
13
# of features
8
3
Final Weights (Normalized)
-1
R VdW attractive
Solvation hydrophobic
Electrostatic kon
# of neighbours
R Solvation
Backbone Hbnd
Entropy sidechain
Sidechain Hbnd
Backbone clash
Water Bridge
R VdW repulsive
Torsonial Clash
VdW
-0.5
0
0.5
1
?לאיזה תוצאות הגענו
Roc Curve
True/False Histogram
40
TPR
35
30
FALSE
TRUE
25
20
15
10
5
<=
-4
<=
-3
<=
-2
<=
-1
<=
0
<=
1
<=
2
<=
3
<=
4
<=
5
<=
6
<=
7
M
or
e
0
FPR
Specificity
Sensitivity
Accurac
y
Optimized Rosetta
73%
79%
75%
SVM
84%
77%
75%
מסקנות עד כה
ניתן להגיע לשיפור בחיזוי הרסניות המוטציה
סט הנתונים לא גדול ולכן קשה לעשות הערכת
ביצועים טובה
השילוב בין featuresממקורות שונים מוכיח
את עצמו ,לא כולם תורמים לפתרון הבעיה
צעדים להמשך
ולדיציה:
אנליזת המודל:
הרחבת מאגר הנתונים
שימוש בשיטות ולידציה נוספות
ניתוח המשקלים שהתקבלו על מנת להבין את המרכיבים
המשפיעים על האינטראקציה
אופטימיזציה נוספת של ה :SVM
בחינת שימוש בשיטות נוספות להורדת המימד
תודות
אורה פורמן
ברק רווה ושאר קבוצתה של אורה
טומי קפלן
לכם על ההקשבה...
לים...
Backup
Van der Waals Energy Term:
Foldx vs. Rosetta
Foldx
Rosetta