(رگرسیون اجزای اصلی) پی-سی

Download Report

Transcript (رگرسیون اجزای اصلی) پی-سی

‫شبکه آموزشی پژوهشی ایران – مادسیج‬
‫‪madsg.com‬‬
‫‪1‬‬
Principal component regression
(PCR)‫رگرسیون اجزای اصلی‬
2
‫مقدمه‬
‫(روشهای مبتنی برتحلیل فاکتور)‬
‫‪ ‬تحلیل فاکتور قدرتمندترین تکنیک در حوزه کمومتریکس می باشد‪.‬تحلیل فاکتور تکنیک چند متغیره ایست‬
‫جهت کاهش ابعاد داده ها با استفاده از حداقل تعداد بردارهای عمود برهم(فاکتورها) که حاوی کلیه‬
‫اطالعات مفید ومهم می باشند‪.‬‬
‫‪ ‬دوروش برگشت خطی جزء اصلی (‪)PCR‬و حداقل مربعات جزئی(‪ )PLS‬از روشهای غیر مستقیم مبتنی بر‬
‫فاکتور می باشند‪.‬‬
‫‪3‬‬
‫تعریفی از فاکتور در ‪PCR‬‬
‫(جزء اصلی)‬
‫‪ ‬یک فاکتور ‪ ،‬ترکیبی خطی از متغیرهای اصلی موجود در ماتریس می باشد‪.‬‬
‫‪ ‬در این روش ثابت شده است که میتوان بجای ماتریس ‪ ،J*J‬متغیرهای آن را بصورت ترکیبی‬
‫خطی از‪ J‬فاکتور تعریف نمود ودر نتیجه متغیرهای جدیدی برای ماتریس بوجود آورد‪.‬‬
‫‪4‬‬
PCR ‫روش‬
Principal component analysis ‫) یا‬PCA( ‫ تحلیل اجزای اصلی‬:‫مرحله اول‬
) MLR) Multiple Linear Regression ‫ رگرسیون‬:‫مرحله دوم‬
5
‫‪ ‬مرحله اول ‪PCA :‬‬
‫شامل یافتن فاکتورهای مناسب برای ماتریس ‪A‬می باشد‪.‬بردارهای ویژه مناسبترین فاکتورها‬
‫برای یک ماتریس هستند زیرا به بهترین نحو اطالعات موجود درآن را تعریف و در نتیجه به‬
‫کمک آنها می توان اطالعات زائد راحذف نمود‪ .‬با انتخاب بردارهای ویژه مناسب فضای‬
‫جدیدی ایجاد میشود که از تصویرماتریس ‪A‬در آن می توان ماتریس جدیدی بدست آورد که‬
‫ماتریس‪T‬می نامیم‪.‬‬
‫‪ ‬مرحله دوم‪ :‬رگرسیون خطی چندگانه ‪MLR‬روی ماتریس جدید ‪T‬‬
‫‪6‬‬
‫مقادیر ویژه (‪)eigenvalues‬‬
‫‪‬‬
‫هربردار ویژه( ‪ ،(eigenvector‬یک مقدار خاص دارد که به آن(مقدار ویژه) ‪ eigenvalue‬می‬
‫گویند‪.‬‬
‫‪‬‬
‫‪ Eigenvalue‬مربوط به یک ‪ ،eigenvector‬مساوی با جمع مربعات داده های قابل‬
‫مشاهده روی آن ‪eigenvector‬می باشد‪.‬‬
‫‪‬‬
‫‪ ،Eigenvalue‬یک اندازه گیری از واریانس کل بدست آمده برای تمام نقاطی است که فاصله‬
‫زیادی از ‪ ،eigenvector‬ندارند‪.‬‬
‫‪7‬‬
‫درک بهتر ‪PCA‬‬
‫‪8‬‬
‫ماتریس ‪ 30*2‬در یک فضای دو بعدی‬
‫‪9‬‬
‫معیارهای برای یافتن مولفه های اصلی‬
‫معیار اول(آزمون‬
‫اسکری)‪:‬مقدار بردار ویژه اول (واریانس توضیح داده شده توسط بردار ویژه اول)‪ ،‬حدود‪ ، 5‬مقدار‬
‫ویژه بردار دوم حدود‪1.2‬و مقدار بردار سوم به بعد کمتر از ‪ 1‬می باشد‪ .‬یعنی در ابتدا میزان کاهش اهمیت سریع بوده و‬
‫سپس سرعت کاهش قطع می شود‪ .‬نقطه شکستگی‪ ،‬حداکثر تعدادمولفه های اساس ی را که باید در نظر گرفته شودرا‬
‫نشان می دهد‪ .‬یک ‪ PC‬کمتر از عددی که شکستگی را نشان می دهد نیز می تواند مفید باشد‪.‬بنابراین در نمودار زیر می‬
‫توان مولفه اول یا دو مولفه اول را می توان در نظر گرفت‪.‬‬
‫‪10‬‬
‫معیار دوم (ارزش ویژه)‪ :‬مولفه هایی را که مقدار ویژه بزگتر از‪ 1‬را نشان می دهند را در نظر گرفته‬
‫واز سایر مولفه ها صرفه نظر می کنیم‪.‬‬
‫معیارسوم(واریانس)‪ :‬مولفه هایی که درصد بیشتری از پراکندگی(واریانس) را نشان می دهندبرای‬
‫ادامه کفایت می کنند‪ ،‬معمول مولفه اول بیشترین واریانس را در نظر می گیرد‪.‬‬
‫‪11‬‬
‫‪PCA‬‬
‫‪PCA‬مبتنی بر ترکیبی از ماتریس داده های‪ ،A‬درون ماتریس های ‪T‬و‪ P‬می باشد‪ .‬دو ماتریس ‪T‬و‪ ،P‬اورتوگونال‬
‫هستند‪.‬‬
‫در صورتیکه ‪ ،V‬ماتریس بردارهای ویژه باشد‪ ،‬از تصویر‪ ، A‬بر روی فضای تعریف شده توسط ‪ ،V‬به ماتریس‬
‫‪ ،T‬با ابعاد کوچکتر از ماتریس‪ ،A‬دست یافت‪:‬‬
‫‪A V=T‬‬
‫ماتریس ‪T‬را ماتریس اسکور می گویند که ترکیبی خطی از ستونهای ماتریس ‪A‬می باشد‪.‬‬
‫اگر متغیرهای موجود در ماتریس ‪A‬را بصورت ترکیبی خطی از اسکورها تعریف نمود‪ ،‬ماتریس لودینگ ‪P‬خواهیم‬
‫داشت که اعضای آن کسینوس زوایای بین بردارهای ویژه ومحورهای مربوط به متغیرهابوده ومقادیرشان از‬
‫‪1‬تا‪ 1+‬می باشد‪.‬درواقع ماتریس ‪P‬ارتباط بین مختصات اصلی ومختصات جدید را نشان می دهد‪:‬‬‫‪A=TV’ P‬‬
‫‪12‬‬
‫مرحله دوم ‪:PCR‬‬
‫رگرسیون ماتریس ‪ ،Y‬بر روی ماتریس ‪ ،T‬می باشد‪:‬‬
‫‪Y=Tß+Ey‬‬
‫مقدار ماتریس ‪،ß‬توسط روش حداقل مربعات تخمین زده می شود‪.‬‬
‫در مرحله پیشگویی‪ ،‬طیف ‪A‬نمونه مجهول در ‪V‬ضرب می شود وبردار ‪T‬بدست می آید‪.‬سپس با ضرب کردن‬
‫‪T‬در‪ ß‬بدست آمده در مرحله کالیبراسیون ‪ ،‬بردار ‪Y‬برای نمونه مجهول حاصل می شود‪.‬‬
‫تعداد درجات آزادی برای‪:PCR‬‬
‫‪d.f. PCR=N-F-1‬‬
‫‪13‬‬
PCR
14
‫مراحل ‪PCR‬‬
‫‪ ،PCR‬یک روش چند مرحله ای است که در زیر بیان شده است‪:‬‬
‫‪-1‬داده ها‬
‫‪-2‬پیش تیمار اختیاری‬
‫‪-3‬پیش تیمار اجباری‬
‫‪-4‬پیداکردن همه فاکتورها‬
‫‪-5‬نگهداشتن فاکتورهای مهم وچشمگیر‬
‫‪-6‬تولید دوباره داده های مهم( ‪)PC‬ها‬
‫‪-7‬رسم کردن کالیبراسیون‬
‫‪15‬‬
‫پیش تیمار اختیاری‬
‫‪artificial removal ‬‬
‫تصحیح خط اصلی یک طیف می باشد‪.‬به ازای هر چیز اضافه ای که غیر از جذب مورد نظر‪،‬وجود‬
‫دارد وما بتوانیم آن را حذف نماییم ‪ ،‬می توان تعداد درجات آزادی ای که در اختیار مدل قرار داد‬
‫تا اینکه ارتباط بین غلظتهاوجذبها را فیت کند و باعث دقت بال و خطی شدن بیشتر در‬
‫کالیبراسیون شود‪ ،‬بیشتر کرد‪.‬‬
‫‪Mean centering ‬‬
‫تفریق تمام داده ها در هر طول موج از هر طیف‪ ،‬از مقدار میانگین جذب‪.‬‬
‫این جابجایی اصل واساسیست برای سیستم مختصات جدید تا سری داده ها را ‪center‬نماییم‪.‬‬
‫‪scaling and weighting ‬‬
‫تعداد زیادی روش برای این دو عمل وجود دارند‪ .‬این دو شامل ضرب کردن همه طیف ها توسط یک‬
‫فاکتورمقیاس بندی است برای هر طول موج‪ .‬این دو بخاطر افزایش یا کاهش دادن تاثیر روی‬
‫کالیبراسیون ‪ ،‬انجام می شوند‪.‬‬
‫دو نوع ‪scaling‬داریم‪auto scaling -2 normalization or variance scaling -1:‬‬
‫‪16‬‬
‫نرمالیزه کردن داده ها‬
‫بعداز نرمالیزه کردن‬
‫‪17‬‬
‫قبل از نرمالیزه کردن‬
‫پیش تیمار اجباری(‪)mandatory pretreatment‬‬
‫این نوع پیش تیماربرای بسیاری از الگوریتم ها برای محاسبه ‪eigenvector‬ها ‪ ،‬بسیار ضروری می‬
‫باشد‪.‬بیشتر الگوریتم ها به مربع کردن داده های ماتریس نیاز دارند‪ .‬با ضرب کردن ‪Transpose‬‬
‫ماتریس ‪ ،A‬در قبل یابعد خود ماتریس ‪ ،A‬اینکار انجام می شود‪.‬‬
‫‪D= AT.A‬‬
‫‪or‬‬
‫‪D=A.AT‬‬
‫‪18‬‬
‫چارچوب کلی برای کالیبراسیون در ‪PCR‬‬
‫‪19‬‬
‫سری آموزش ی )‪(training set‬‬
‫یک سری داده ها شامل اندازه گیریهایی روی یک سری نمونه های معلوم برای کالیبراسیون استفاده‬
‫می شود که سری آموزش ی نامیده می شود‪.‬‬
‫این سری آموزش ی شامل یک ماتریس جذب طیفهایی است که اندازه گیری می شودو همچنین ماتریس‬
‫غلظت شامل مقادیرغلظتی اندازه گیری شده توسط یک روش استاندارد مستقل و قابل قبول می‬
‫باشد‪ .‬داده های موجود در سری آموزش ی برای کالیبراسیون استفاده می شودتا از آن برای اندازه‬
‫گیری غلظتهای اجزای نمونه مجهول استفاده شود‪ .‬سری اموزش ی باید‪:‬‬
‫‪ ‬شامل همه اجزای پیش بینی شده باشد‪.‬‬
‫‪ ‬گستره ی غلظتی مورد نظر را داشته باشد‪.‬‬
‫‪ ‬محدوده شرایط مورد نظررا داشته باشد‪.‬‬
‫‪ ‬حاوی نمونه های غیر وابسته باشد‪.‬‬
‫هدف از ایجاد کالیبراسیون پیداکردن بهترین نماینده برای اینکه داده های اندازه گیری شده‬
‫وپارامترهای پیش بینی شده باهم فیت شود‪.‬‬
‫‪20‬‬
‫سری ارزیابی (‪)validation set‬‬
‫مجموعه ای از داده هاست که برای کالیبراسیون استفاده نمی شود‪.‬آنها ذخیره نگهداشته می شوند تا‬
‫اینکه برای تخمین عملکرد کالیبراسیون (ارزیابی مدل سازی)‪ ،‬استفاده شود‪.‬‬
‫نمونه ها در اینجا بعنوان‬
‫نمونه های ارزیابی نامیده می شوند وهر دوی ماتریسهای غلظت وجذب مربوط به این داده ها ‪ ،‬بعنوان سری‬
‫ارزیابی نامیده می شود‪.‬ما با نمونه های ارزیابی طوری رفتار می کنیم که گویا آنها نمونه های مجهول می‬
‫باشند‪.‬از کالیبراسیون سری آموزش ی برای تخمین زدن غلظتهای اجزای نمونه های ارزیابی استفاده می کنیم‪.‬‬
‫سپس مقادیر غلظتهای پیش بینی شده را با غلظتهای واقعی شان مقایسه می کنیم‪.‬سپس از همین‬
‫مدل(عملکرد پیش بینی کالیبراسیون)‪ ،‬برای تخمین نمونه های مجهول واقعی استفاده می کنیم‪.‬برای اثبات‬
‫اینکه نمونه های ارزیابی بعنوان نماینده خوبی از همه نمونه های مجهولی که به آنها برمی خوریم‪ ،‬هستند‪،‬‬
‫مرحله ارزیابی ‪ ،‬تخمین قابل قبولی از عملکرد کالیبراسیون روی نمونه های مجهول دیگر‪ ،‬فراهم خواهد کرد‪.‬‬
‫‪21‬‬
‫ارزیابی متقاطع‪Cross-validation‬‬
‫رایجترین تکنیک اعتبارسنجی است که در این تکنیک‪ ،‬در هر بار یکی یا یک گروه کوچک از داده ها کنار گذاشته و‬
‫سپس برای هر مجموعه داده که باقی مانده‪ ،‬مدلی ایجاد گردیده و پاسخ برای داده های کنار گذاشته شده از‬
‫روی مدل پیش بینی می شود‪ .‬مجذور تفاوت های میان پاسخ واقعی و پاسخ پیش بینی شده برای هر داده کنار‬
‫گذاشته شده با عبارت ‪( PRESS‬مجموع مربعات باقیمانده پیشبینی) بیان می شود‪ .‬از‪ PRESS‬نهایی‪ ،‬مقادیر‬
‫‪ R2‬و ‪( SDEP‬انحراف استاندارد خطای پیشبینی) محاسبه میشوند‪.‬‬
‫)‪Calibrate, find y=f(x‬‬
‫‪estimate coefficients‬‬
‫‪22‬‬
‫ارزیابی مدل به کمک پارامترهای آماری‬
‫برخي از این شاخص هاي ك ّمي كه پارامترهاي آماری میباشند‪ ،‬عبارتند از‪:‬‬
‫‪‬‬
‫آماره ‪،R‬‬
‫‪‬‬
‫آماره ‪،R2‬‬
‫‪‬‬
‫آماره ‪،t‬‬
‫‪‬‬
‫آزمون فیشر‪،‬‬
‫‪‬‬
‫مجموع مربعات باقیمانده ها‪،‬‬
‫‪‬‬
‫میانگین مربع خطاها‪،‬‬
‫‪‬‬
‫خطاي استاندارد پیش بیني‪،‬‬
‫‪‬‬
‫خطاي نسبي پیش بینی‬
‫‪‬‬
‫خطاي مطلق میانگین‬
‫‪23‬‬
‫آزمون فیشر یا آماره ‪:F‬‬
‫آزمون‪ F‬در واقع آزمون معنی دار بودن آماری در تحلیل رگرسیون ساده و چندمتغیره است و برابر با‬
‫نسبت میانگین مربعات رگرسیون )‪ (MSR‬به میانگین مربعات باقیماندهها )‪ (MSE‬است‪ .‬بیان‬
‫ریاض ی آن عبارتست از‪:‬‬
‫=‬
‫‪ :SSreg‬مجموع مجذورات رگرسیون‬
‫‪ :SSres‬مجموع مجذورات باقیماندهها‬
‫‪ :DFreg‬درجه آزادی رگرسیون‬
‫‪ :DFres‬درجه آزادی باقیماندهها‬
‫‪24‬‬
‫=‪F‬‬
‫‪ ‬مجموع مربعات باقي مانده ها ‪:(PRESS)1‬‬
‫برابر مجموع مجذورات تفاوت بین مقدار كميت مشاهده شده‬
‫ومقدار تخمین زده شده‬
‫است‪.‬‬
‫‪Predictive Residual Sum of Squares‬‬
‫‪‬‬
‫‪1‬‬
‫خطاي استاندارد پيشبيني‪:(SEP)2‬‬
‫‪2 Standard Error of Prediction‬‬
‫=‬
‫‪25‬‬
‫کاربرد روش تحليل اجزاي اصلی)‪(PCR‬‬
‫‪‬‬
‫کاهش تعداد متغیرها‬
‫‪‬‬
‫يافتن ساختار ارتباطي بین متغیرها که درحقيقت همان دسته بندي متغیرها‬
‫است(‪.( PCA‬‬
‫‪ ‬پردازش تصاویر‬
‫‪ ‬بیوتکنولوژی وشیمی‬
‫‪ ‬علوم کامپیوتر‬
‫‪26‬‬
27
‫چکیده‪:‬‬
‫‪ ‬روشهای کمومتریکس مانند ‪ ،PCR‬روش بسیار مناسبی است برای تعیین پارامترهای ماتریکس از تابش‬
‫پراکنده شده‬
‫‪ ،PCR ‬برای تعیین ‪H ،C‬و ‪ O‬در نمونه های آبی وآلی استفاده می شود‪.‬از تلفیق این اطالعات در مورد‬
‫ماتریکس نمونه با پارامترهای بنیادین می توانیم مقدار روی موجود درنمونه های مایع مورد نظر را تعیین‬
‫نماییم‪.‬‬
‫‪ ‬با استفاده از این روش می توان یک پیش بینی صحیح ودقیقی از غلظتهای عنصر در ماتریکسهای قویا متغیر‬
‫نمود‪.‬‬
‫‪ ‬درمورد آنالیز غلظتهای کم ‪Zn‬در نمونه های مایع ‪ ،‬حالل فاکتور بسیار مهمی برای جذب اشعه فلوروسانس‬
‫خواهد بود‪.‬‬
‫‪28‬‬
‫روشهای تخمین فلوروسانس اشعه ایکس پاشنده)‪)EDXRF‬‬
‫‪ -1‬تخمین طیفهای فلوروسانس اشعه ایکس پاشنده با تعیین شدتهای شبکه آغاز می شود در این روش مستقیما‬
‫از روشهای تجربی برای محاسبه غلظتهای عنصر استفاده می شود‪.‬‬
‫‪ -2‬روش دیگر استفاده از پارامترهای بنیادین هستند که مبتنی بر الگوریتم پیشرفته شرمن می باشد‪.‬‬
‫‪.‬‬
‫‪29‬‬
‫بخش تجربی‬
‫‪4 ‬گرم از نمونه ها وزن شد و به آنها حاللهای مختلف اضافه شد‪.‬‬
‫‪ ‬روغن های آنالیز شده در این مقاله روغن های صنعتی ای هستند که شامل هیچگونه ناخالص ی نیستند‪.‬‬
‫‪ ‬اندازه گیریها بااستفاده از یک ‪ ،Spectro X-LAB 2000 EDXRF‬انجام شد‪.‬نمونه توسط ‪Mo‬‬
‫‪ ،secondary target‬برانگیخته شدند‪.‬‬
‫‪ ‬ولتاژ مورد نیاز برای تولید اشعه ایکس ‪ 35 kV‬وزمان اندازه گیری ‪ 200 s‬بود‪.‬‬
‫‪ ‬برای آنالیز عنصری یک آنالیزور عنصری برای ‪CHNSO‬از ‪(Carlo erba‬مدل‪ (1106‬استفاده شد‪.‬‬
‫‪ ‬محاسبات توسط پارامترهای بنیادین با استفاده از نرم افزار ‪X-LABPRO‬و ‪PCR‬توسط‬
‫‪QUANT‬انجام شد‪.‬‬
‫‪30‬‬
31
32
‫استانداردهای استفاده شده برای کالیبراسیون‬
‫‪33‬‬
‫نمونه های مجهول استفاده شده برای ارزیابی‬
‫‪34‬‬
‫مدل کالیبراسیون ‪ :‬پارامترهای بنیادین تلفیق شده با تصحیح ماتریکس‬
‫‪35‬‬
‫مدل کالیبراسیون ‪:‬پارامترهای بنیادین تلفیق شده با تصحیح ماتریکس توسط‬
‫‪PCR‬‬
‫‪36‬‬
‫مدل کالیبراسیون ‪:‬پارامترهای بنیادین تلفیق شده با تصحیح ماتریکس توسط ‪PCR‬‬
‫‪37‬‬
‫مقایسه روشهای مختلف برای تصحیح ماتریکس‬
(root mean square error of cross validation)
RMSECV=
38
‫نتیجه گیری‬
‫‪ ‬مقایسه ای که در جدول صفحه قبل نشان داده شد‪،‬نشان دادکه ایمپروهایی با استفاده از روش ‪،PCR‬‬
‫برای تصحیح ماتریکس وجود خواهد داشت‪.‬‬
‫‪ ‬تلفیق پارامترهای بنیادین با تصحیح ماتریکس مبتنی بر پیش بینی غلظتهای عناصر ماتریکس توسط ‪،PCR‬‬
‫کوچکترین خطای اندازه گیری را خواهد داشت‪.‬‬
‫‪39‬‬
‫مزایای ‪PCR‬‬
‫‪‬‬
‫رگرسیون ضرایب‪ ،‬بیشتر پایدارند که این بدلیل اورتوگونال بودن ‪ ،eigenvectores‬با همدیگر‬
‫می باشد‪.‬‬
‫‪‬‬
‫اولین بردار ویژه در برگیرنده بیشترین حجم اطالعات موجود در یک ماتریس است‪.‬بردارهای بعدی‬
‫به ترتیب اطالعات کمتری راتوصیف می کند‪.‬حذف تعدادی از فاکتورهای آخر که در رابطه با‬
‫مقادیر ویژه صفرو مثبت نزدیک صفر می باشند‪ ،‬موجب حذف وابستگی خطی وکاهش نوفه شده‬
‫ودر عین حال صدمه ای به اطالعات مفید نمی رساند‪.‬‬
‫‪‬‬
‫حذف فاکتورهای مربوط به نویزها‪ ،‬از مزایای مهم استفاده از بردارهای ویژه بعنوان فاکتور می‬
‫باشند‪.‬‬
‫‪‬‬
‫‪ ،PCR‬در حضور نویز ‪ ،‬مزاحمتهای شیمیایی وفیزیکی وبرهمکنش آنالیت ها از کارایی بسیار بیشتری‬
‫نسبت به روشهای ‪CLS‬و‪ MLR‬برخوردار می باشد‪.‬‬
‫‪40‬‬
‫محدودیت ‪PCR‬‬
‫‪‬‬
‫‪PCR‬در مرحله تعیین فاکتورها‪ ،‬تنها از ماتریس اطالعات طیفی استفاده می کندواطالعات موجود‬
‫درماتریس غلظت را نادیده گرفته ودر مدل سازی شرکت نمی کند‪.‬فاکتورهای تعیین شده‪ ،‬برای‬
‫تشریح ماتریس ‪A‬بسیار سودمند بوده ولی ممکن است برای مدل سازی ‪Y‬مطلوب نباشد وبنابراین‬
‫تضمینی نیست که توانایی خوبی برای پیشگویی غلظت نمونه های مجهول داشته باشد‪.‬‬
‫‪41‬‬
THANK YOU
42