Will my mutation be deleterious? Classifying point mutations at the protein interface
Download ReportTranscript Will my mutation be deleterious? Classifying point mutations at the protein interface
Will my mutation be deleterious? Classifying point mutations at the protein interface by SVM, Rosetta and Foldx Elad Mezuman Ora Furman בתוכנית רקע: שיטות SVM סריקה לאלאנין הערכת ביצועים ה Datasetשלי תוצאות מוטיבציה פונקציות אנרגיה למידה העולם אליו אני נכנס ביצועים התחלתיים ביצועים בעקבות RFEואופטימיזציה משקלים מסקנות צעדים להמשך קצת מוטיבציה! שמענו כבר על החשיבות של האינטראקציות והבנת המבנה של קומפלקסים חלבונים נרצה כלים לנתח את המבנה ,אשר באמצעותם נוכל ,למשל ,למצוא את החומצות האמינו הקריטיות לקישור מוצלח בין החלבונים ע"פ מספר מחקרים ,רק מספר מצומצם של חומצות האמינו בממשק תורם משמעותית לאנרגיית הקישור החופשית שם 1bxi: Im9-DNase interaction פונקצית אנרגיה האנרגיה החופשית הינה מדד ליציבות החלבונים קיימים מודלים כמותיים להערכת האנרגיה של קישור בין חלבונים המודל הפשוט מתאר את אנרגית הקישור של שני חלבונים כצירוף ליניארי של פרמטרים שונים הלקוחים הן מכימיה פיזקלית והן מאנליזות סטטסטיות על חלבונים ידועים: G Wi Ei הפרמטרים כוללים למשל ,כוחות משיכה ( )Eatrודחייה ( )Erepקשרי מימן ( )Ehbndבין כל האטומים בממשק שני יהודים שלוש דעות אלגוריתמים חישוביים שונים ,לדוגמא Foldxו ,Rosettaמציעים פונקציות אנרגיה שונות וחיזויים שונים ,על אף שהמודל הפיזיקלי דומה (צירוף לינארי של מושגי אנרגיה) כיצד הותאמו המשקלים בפונקצית האנרגיה? לבעיות שונות הותאמו משקלים אופטימלים ,על סמך נתונים ניסיוניים ,למשל בשיטה הבאה: 2 ) ( j ) i Wi Ei predicted (G j arg min W ב Foldxבחרו לפתור את הבעיה ע"י ריצה על כל הערכים בין 0 ל 2בקפיצות של 0.2 ב ,Optimized Rosettaבחרו לפתור את הבעיה באמצעות conjugated-gradient-base optimization methods למידה לצורך הכרעה אנו מחפשים פונקציה שבהינתן וקטור (= סט של תכונות) המתאר את המוטציה תיתן תשובה" :הרסנית" או "לא הרסנית" N על מנת ליצור את הפונקציה אנו נשתמש בידע מוקדם, ידע נסיוני ,האם המוטציה הרסנית או לא f : R 1 ( x1 , y1 ),...., ( xm , ym ) R N 1 אם יש את התוכנות למה צריך אותי? עובדה :התוכנות לא מספקות תוצאות מספיק טובות! ()Accuracy: Foldx=65%, Rosetta=66%,Optimized Rosetta=71% שילוב בין התוכנות והוספת ידע נוסף בנית פתרון ספציפי לשאלה שלנו מעבר לבעיית הכרעה מבעיית רגרסיה (הסבר בהמשך) שימוש בכלים חישוביים מתקדמים בתוכנית רקע: שיטות SVM סריקה לאלאנין הערכת ביצועים ה Datasetשלי תוצאות מוטיבציה פונקציות אנרגיה למידה העולם אליו אני נכנס ביצועים התחלתיים ביצועים בעקבות RFEואופטימיזציה משקלים מסקנות צעדים להמשך מישור מפריד אנו מחפשים מישור מפריד (נשים לב שמישור מפריד הוא סט משקולות) •סוג +1 •סוג -1 אבל איזה מישור מפריד נבחר ? SVM – Support Vector Machine נבחר את המישור המפריד הממקסם את השוליים •סוג +1 •סוג -1 אינטואיטיבי ומראה הצלחה אמפירית בהרבה תחומים כיצד נעריך את הביצועים? נשתמש במדדים הבאים: דיוק – בכמה דוגמאות דייקנו בהערכה שלנו מתוך כל הדוגמאות: Accuracy = TP TNTP TN FP FN רגישות – כמה דוגמאות חיוביות תפסנו מתוך כל החיוביות. TP Sensitivity= TP FN ספציפיות – כמה דוגמאות שליליות תפסנו מתוך כל הדוגמאות TN =Specificity FP TN כיצד נבחן את תוצאות הלמידה בעיה :אנו רוצים להשתמש במירב הידע המוקדם שיש לנו אך מצד שני אנו רוצים לבדוק את החיזוי שלנו על דוגמאות שלא למדנו בעזרתן פתרון אפשריLeave-1-Out Cross , Validation נוציא מסט הדוגמאות שלנו דוגמא אחת (במקרה שלנו קומפלקס חלבוני) ונלמד על כל שאר הדוגמאות נעריך את הביצועים על הדוגמא אותה הוצאנו נחזור על התהליך עבור כל אחת מהדוגמאות נקודת הפתיחה Datasetשל מוטציות נקודתיות לאלאנין מ :ProThermנתונים נסיונים על השינוי באנרגיה החופשית כתוצאה ממוטציה לאלאנין שינוי של מעל 1 kcal/molנחשב להרסני הנתונים כוללים 18קומפלקסים חלבוניים ובהן כ 220מוטציות בממשק Will my mutation be Deleterious? Alanine Scanning הכנת הנתונים ל SVM לכל מוטציה נכין וקטור עם התכונות הידועות לנו עליה: הערכות מ Foldx הערכות מ Rosetta נתוני שמירות ,עד כמה הח.א קבורה – כמה שכנים יש לה ננרמל את הנתונים על בסיס תכונות ()features x Z score ( x) בתוכנית רקע: שיטות SVM סריקה לאלאנין הערכת ביצועים ה Datasetשלי תוצאות מוטיבציה פונקציות אנרגיה למידה העולם אליו אני נכנס ביצועים התחלתיים ביצועים בעקבות RFEואופטימיזציה משקלים מסקנות צעדים להמשך Start Point - Accuracy 0.9 Foldx 0.85 Rosetta 0.8 Accuracy Optimized Rosetta 0.75 0.7 0.65 0.6 0.55 0.5 0 0.1 0.2 Delta from 1 0.3 0.4 Start Point - Accuracy 0.9 Foldx 0.85 Rosetta 0.8 Accuracy Optimized Rosetta 0.75 0.7 0.65 0.6 0.55 0.5 0 0.1 0.2 Delta from 1 0.3 0.4 Start Point 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 Foldx Specificity Rosetta Optimized Rosetta Sensitivity Accuracy SVM Performance 0.9 Foldx Foldx SVM Rosetta Rosetta SVM 0.8 Foldx + Rosetta (SVM) 0.7 0.6 0.5 Specificity Sensitivity Accuracy Accuracy Repeated Feature Elimination 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 #1 training set #2 training set #1 - independent accuracy #2 - independent accuracy 18 13 # of features 8 3 Final Weights (Normalized) -1 R VdW attractive Solvation hydrophobic Electrostatic kon # of neighbours R Solvation Backbone Hbnd Entropy sidechain Sidechain Hbnd Backbone clash Water Bridge R VdW repulsive Torsonial Clash VdW -0.5 0 0.5 1 ?לאיזה תוצאות הגענו Roc Curve True/False Histogram 40 TPR 35 30 FALSE TRUE 25 20 15 10 5 <= -4 <= -3 <= -2 <= -1 <= 0 <= 1 <= 2 <= 3 <= 4 <= 5 <= 6 <= 7 M or e 0 FPR Specificity Sensitivity Accurac y Optimized Rosetta 73% 79% 75% SVM 84% 77% 75% מסקנות עד כה ניתן להגיע לשיפור בחיזוי הרסניות המוטציה סט הנתונים לא גדול ולכן קשה לעשות הערכת ביצועים טובה השילוב בין featuresממקורות שונים מוכיח את עצמו ,לא כולם תורמים לפתרון הבעיה צעדים להמשך ולדיציה: אנליזת המודל: הרחבת מאגר הנתונים שימוש בשיטות ולידציה נוספות ניתוח המשקלים שהתקבלו על מנת להבין את המרכיבים המשפיעים על האינטראקציה אופטימיזציה נוספת של ה :SVM בחינת שימוש בשיטות נוספות להורדת המימד תודות אורה פורמן ברק רווה ושאר קבוצתה של אורה טומי קפלן לכם על ההקשבה... לים... Backup Van der Waals Energy Term: Foldx vs. Rosetta Foldx Rosetta