(رگرسیون اجزای اصلی) پی-سی
Download
Report
Transcript (رگرسیون اجزای اصلی) پی-سی
شبکه آموزشی پژوهشی ایران – مادسیج
madsg.com
1
Principal component regression
(PCR)رگرسیون اجزای اصلی
2
مقدمه
(روشهای مبتنی برتحلیل فاکتور)
تحلیل فاکتور قدرتمندترین تکنیک در حوزه کمومتریکس می باشد.تحلیل فاکتور تکنیک چند متغیره ایست
جهت کاهش ابعاد داده ها با استفاده از حداقل تعداد بردارهای عمود برهم(فاکتورها) که حاوی کلیه
اطالعات مفید ومهم می باشند.
دوروش برگشت خطی جزء اصلی ()PCRو حداقل مربعات جزئی( )PLSاز روشهای غیر مستقیم مبتنی بر
فاکتور می باشند.
3
تعریفی از فاکتور در PCR
(جزء اصلی)
یک فاکتور ،ترکیبی خطی از متغیرهای اصلی موجود در ماتریس می باشد.
در این روش ثابت شده است که میتوان بجای ماتریس ،J*Jمتغیرهای آن را بصورت ترکیبی
خطی از Jفاکتور تعریف نمود ودر نتیجه متغیرهای جدیدی برای ماتریس بوجود آورد.
4
PCR روش
Principal component analysis ) یاPCA( تحلیل اجزای اصلی:مرحله اول
) MLR) Multiple Linear Regression رگرسیون:مرحله دوم
5
مرحله اول PCA :
شامل یافتن فاکتورهای مناسب برای ماتریس Aمی باشد.بردارهای ویژه مناسبترین فاکتورها
برای یک ماتریس هستند زیرا به بهترین نحو اطالعات موجود درآن را تعریف و در نتیجه به
کمک آنها می توان اطالعات زائد راحذف نمود .با انتخاب بردارهای ویژه مناسب فضای
جدیدی ایجاد میشود که از تصویرماتریس Aدر آن می توان ماتریس جدیدی بدست آورد که
ماتریسTمی نامیم.
مرحله دوم :رگرسیون خطی چندگانه MLRروی ماتریس جدید T
6
مقادیر ویژه ()eigenvalues
هربردار ویژه( ،(eigenvectorیک مقدار خاص دارد که به آن(مقدار ویژه) eigenvalueمی
گویند.
Eigenvalueمربوط به یک ،eigenvectorمساوی با جمع مربعات داده های قابل
مشاهده روی آن eigenvectorمی باشد.
،Eigenvalueیک اندازه گیری از واریانس کل بدست آمده برای تمام نقاطی است که فاصله
زیادی از ،eigenvectorندارند.
7
درک بهتر PCA
8
ماتریس 30*2در یک فضای دو بعدی
9
معیارهای برای یافتن مولفه های اصلی
معیار اول(آزمون
اسکری):مقدار بردار ویژه اول (واریانس توضیح داده شده توسط بردار ویژه اول) ،حدود ، 5مقدار
ویژه بردار دوم حدود1.2و مقدار بردار سوم به بعد کمتر از 1می باشد .یعنی در ابتدا میزان کاهش اهمیت سریع بوده و
سپس سرعت کاهش قطع می شود .نقطه شکستگی ،حداکثر تعدادمولفه های اساس ی را که باید در نظر گرفته شودرا
نشان می دهد .یک PCکمتر از عددی که شکستگی را نشان می دهد نیز می تواند مفید باشد.بنابراین در نمودار زیر می
توان مولفه اول یا دو مولفه اول را می توان در نظر گرفت.
10
معیار دوم (ارزش ویژه) :مولفه هایی را که مقدار ویژه بزگتر از 1را نشان می دهند را در نظر گرفته
واز سایر مولفه ها صرفه نظر می کنیم.
معیارسوم(واریانس) :مولفه هایی که درصد بیشتری از پراکندگی(واریانس) را نشان می دهندبرای
ادامه کفایت می کنند ،معمول مولفه اول بیشترین واریانس را در نظر می گیرد.
11
PCA
PCAمبتنی بر ترکیبی از ماتریس داده های ،Aدرون ماتریس های Tو Pمی باشد .دو ماتریس Tو ،Pاورتوگونال
هستند.
در صورتیکه ،Vماتریس بردارهای ویژه باشد ،از تصویر ، Aبر روی فضای تعریف شده توسط ،Vبه ماتریس
،Tبا ابعاد کوچکتر از ماتریس ،Aدست یافت:
A V=T
ماتریس Tرا ماتریس اسکور می گویند که ترکیبی خطی از ستونهای ماتریس Aمی باشد.
اگر متغیرهای موجود در ماتریس Aرا بصورت ترکیبی خطی از اسکورها تعریف نمود ،ماتریس لودینگ Pخواهیم
داشت که اعضای آن کسینوس زوایای بین بردارهای ویژه ومحورهای مربوط به متغیرهابوده ومقادیرشان از
1تا 1+می باشد.درواقع ماتریس Pارتباط بین مختصات اصلی ومختصات جدید را نشان می دهد:A=TV’ P
12
مرحله دوم :PCR
رگرسیون ماتریس ،Yبر روی ماتریس ،Tمی باشد:
Y=Tß+Ey
مقدار ماتریس ،ßتوسط روش حداقل مربعات تخمین زده می شود.
در مرحله پیشگویی ،طیف Aنمونه مجهول در Vضرب می شود وبردار Tبدست می آید.سپس با ضرب کردن
Tدر ßبدست آمده در مرحله کالیبراسیون ،بردار Yبرای نمونه مجهول حاصل می شود.
تعداد درجات آزادی برای:PCR
d.f. PCR=N-F-1
13
PCR
14
مراحل PCR
،PCRیک روش چند مرحله ای است که در زیر بیان شده است:
-1داده ها
-2پیش تیمار اختیاری
-3پیش تیمار اجباری
-4پیداکردن همه فاکتورها
-5نگهداشتن فاکتورهای مهم وچشمگیر
-6تولید دوباره داده های مهم( )PCها
-7رسم کردن کالیبراسیون
15
پیش تیمار اختیاری
artificial removal
تصحیح خط اصلی یک طیف می باشد.به ازای هر چیز اضافه ای که غیر از جذب مورد نظر،وجود
دارد وما بتوانیم آن را حذف نماییم ،می توان تعداد درجات آزادی ای که در اختیار مدل قرار داد
تا اینکه ارتباط بین غلظتهاوجذبها را فیت کند و باعث دقت بال و خطی شدن بیشتر در
کالیبراسیون شود ،بیشتر کرد.
Mean centering
تفریق تمام داده ها در هر طول موج از هر طیف ،از مقدار میانگین جذب.
این جابجایی اصل واساسیست برای سیستم مختصات جدید تا سری داده ها را centerنماییم.
scaling and weighting
تعداد زیادی روش برای این دو عمل وجود دارند .این دو شامل ضرب کردن همه طیف ها توسط یک
فاکتورمقیاس بندی است برای هر طول موج .این دو بخاطر افزایش یا کاهش دادن تاثیر روی
کالیبراسیون ،انجام می شوند.
دو نوع scalingداریمauto scaling -2 normalization or variance scaling -1:
16
نرمالیزه کردن داده ها
بعداز نرمالیزه کردن
17
قبل از نرمالیزه کردن
پیش تیمار اجباری()mandatory pretreatment
این نوع پیش تیماربرای بسیاری از الگوریتم ها برای محاسبه eigenvectorها ،بسیار ضروری می
باشد.بیشتر الگوریتم ها به مربع کردن داده های ماتریس نیاز دارند .با ضرب کردن Transpose
ماتریس ،Aدر قبل یابعد خود ماتریس ،Aاینکار انجام می شود.
D= AT.A
or
D=A.AT
18
چارچوب کلی برای کالیبراسیون در PCR
19
سری آموزش ی )(training set
یک سری داده ها شامل اندازه گیریهایی روی یک سری نمونه های معلوم برای کالیبراسیون استفاده
می شود که سری آموزش ی نامیده می شود.
این سری آموزش ی شامل یک ماتریس جذب طیفهایی است که اندازه گیری می شودو همچنین ماتریس
غلظت شامل مقادیرغلظتی اندازه گیری شده توسط یک روش استاندارد مستقل و قابل قبول می
باشد .داده های موجود در سری آموزش ی برای کالیبراسیون استفاده می شودتا از آن برای اندازه
گیری غلظتهای اجزای نمونه مجهول استفاده شود .سری اموزش ی باید:
شامل همه اجزای پیش بینی شده باشد.
گستره ی غلظتی مورد نظر را داشته باشد.
محدوده شرایط مورد نظررا داشته باشد.
حاوی نمونه های غیر وابسته باشد.
هدف از ایجاد کالیبراسیون پیداکردن بهترین نماینده برای اینکه داده های اندازه گیری شده
وپارامترهای پیش بینی شده باهم فیت شود.
20
سری ارزیابی ()validation set
مجموعه ای از داده هاست که برای کالیبراسیون استفاده نمی شود.آنها ذخیره نگهداشته می شوند تا
اینکه برای تخمین عملکرد کالیبراسیون (ارزیابی مدل سازی) ،استفاده شود.
نمونه ها در اینجا بعنوان
نمونه های ارزیابی نامیده می شوند وهر دوی ماتریسهای غلظت وجذب مربوط به این داده ها ،بعنوان سری
ارزیابی نامیده می شود.ما با نمونه های ارزیابی طوری رفتار می کنیم که گویا آنها نمونه های مجهول می
باشند.از کالیبراسیون سری آموزش ی برای تخمین زدن غلظتهای اجزای نمونه های ارزیابی استفاده می کنیم.
سپس مقادیر غلظتهای پیش بینی شده را با غلظتهای واقعی شان مقایسه می کنیم.سپس از همین
مدل(عملکرد پیش بینی کالیبراسیون) ،برای تخمین نمونه های مجهول واقعی استفاده می کنیم.برای اثبات
اینکه نمونه های ارزیابی بعنوان نماینده خوبی از همه نمونه های مجهولی که به آنها برمی خوریم ،هستند،
مرحله ارزیابی ،تخمین قابل قبولی از عملکرد کالیبراسیون روی نمونه های مجهول دیگر ،فراهم خواهد کرد.
21
ارزیابی متقاطعCross-validation
رایجترین تکنیک اعتبارسنجی است که در این تکنیک ،در هر بار یکی یا یک گروه کوچک از داده ها کنار گذاشته و
سپس برای هر مجموعه داده که باقی مانده ،مدلی ایجاد گردیده و پاسخ برای داده های کنار گذاشته شده از
روی مدل پیش بینی می شود .مجذور تفاوت های میان پاسخ واقعی و پاسخ پیش بینی شده برای هر داده کنار
گذاشته شده با عبارت ( PRESSمجموع مربعات باقیمانده پیشبینی) بیان می شود .از PRESSنهایی ،مقادیر
R2و ( SDEPانحراف استاندارد خطای پیشبینی) محاسبه میشوند.
)Calibrate, find y=f(x
estimate coefficients
22
ارزیابی مدل به کمک پارامترهای آماری
برخي از این شاخص هاي ك ّمي كه پارامترهاي آماری میباشند ،عبارتند از:
آماره ،R
آماره ،R2
آماره ،t
آزمون فیشر،
مجموع مربعات باقیمانده ها،
میانگین مربع خطاها،
خطاي استاندارد پیش بیني،
خطاي نسبي پیش بینی
خطاي مطلق میانگین
23
آزمون فیشر یا آماره :F
آزمون Fدر واقع آزمون معنی دار بودن آماری در تحلیل رگرسیون ساده و چندمتغیره است و برابر با
نسبت میانگین مربعات رگرسیون ) (MSRبه میانگین مربعات باقیماندهها ) (MSEاست .بیان
ریاض ی آن عبارتست از:
=
:SSregمجموع مجذورات رگرسیون
:SSresمجموع مجذورات باقیماندهها
:DFregدرجه آزادی رگرسیون
:DFresدرجه آزادی باقیماندهها
24
=F
مجموع مربعات باقي مانده ها :(PRESS)1
برابر مجموع مجذورات تفاوت بین مقدار كميت مشاهده شده
ومقدار تخمین زده شده
است.
Predictive Residual Sum of Squares
1
خطاي استاندارد پيشبيني:(SEP)2
2 Standard Error of Prediction
=
25
کاربرد روش تحليل اجزاي اصلی)(PCR
کاهش تعداد متغیرها
يافتن ساختار ارتباطي بین متغیرها که درحقيقت همان دسته بندي متغیرها
است(.( PCA
پردازش تصاویر
بیوتکنولوژی وشیمی
علوم کامپیوتر
26
27
چکیده:
روشهای کمومتریکس مانند ،PCRروش بسیار مناسبی است برای تعیین پارامترهای ماتریکس از تابش
پراکنده شده
،PCR برای تعیین H ،Cو Oدر نمونه های آبی وآلی استفاده می شود.از تلفیق این اطالعات در مورد
ماتریکس نمونه با پارامترهای بنیادین می توانیم مقدار روی موجود درنمونه های مایع مورد نظر را تعیین
نماییم.
با استفاده از این روش می توان یک پیش بینی صحیح ودقیقی از غلظتهای عنصر در ماتریکسهای قویا متغیر
نمود.
درمورد آنالیز غلظتهای کم Znدر نمونه های مایع ،حالل فاکتور بسیار مهمی برای جذب اشعه فلوروسانس
خواهد بود.
28
روشهای تخمین فلوروسانس اشعه ایکس پاشنده))EDXRF
-1تخمین طیفهای فلوروسانس اشعه ایکس پاشنده با تعیین شدتهای شبکه آغاز می شود در این روش مستقیما
از روشهای تجربی برای محاسبه غلظتهای عنصر استفاده می شود.
-2روش دیگر استفاده از پارامترهای بنیادین هستند که مبتنی بر الگوریتم پیشرفته شرمن می باشد.
.
29
بخش تجربی
4 گرم از نمونه ها وزن شد و به آنها حاللهای مختلف اضافه شد.
روغن های آنالیز شده در این مقاله روغن های صنعتی ای هستند که شامل هیچگونه ناخالص ی نیستند.
اندازه گیریها بااستفاده از یک ،Spectro X-LAB 2000 EDXRFانجام شد.نمونه توسط Mo
،secondary targetبرانگیخته شدند.
ولتاژ مورد نیاز برای تولید اشعه ایکس 35 kVوزمان اندازه گیری 200 sبود.
برای آنالیز عنصری یک آنالیزور عنصری برای CHNSOاز (Carlo erbaمدل (1106استفاده شد.
محاسبات توسط پارامترهای بنیادین با استفاده از نرم افزار X-LABPROو PCRتوسط
QUANTانجام شد.
30
31
32
استانداردهای استفاده شده برای کالیبراسیون
33
نمونه های مجهول استفاده شده برای ارزیابی
34
مدل کالیبراسیون :پارامترهای بنیادین تلفیق شده با تصحیح ماتریکس
35
مدل کالیبراسیون :پارامترهای بنیادین تلفیق شده با تصحیح ماتریکس توسط
PCR
36
مدل کالیبراسیون :پارامترهای بنیادین تلفیق شده با تصحیح ماتریکس توسط PCR
37
مقایسه روشهای مختلف برای تصحیح ماتریکس
(root mean square error of cross validation)
RMSECV=
38
نتیجه گیری
مقایسه ای که در جدول صفحه قبل نشان داده شد،نشان دادکه ایمپروهایی با استفاده از روش ،PCR
برای تصحیح ماتریکس وجود خواهد داشت.
تلفیق پارامترهای بنیادین با تصحیح ماتریکس مبتنی بر پیش بینی غلظتهای عناصر ماتریکس توسط ،PCR
کوچکترین خطای اندازه گیری را خواهد داشت.
39
مزایای PCR
رگرسیون ضرایب ،بیشتر پایدارند که این بدلیل اورتوگونال بودن ،eigenvectoresبا همدیگر
می باشد.
اولین بردار ویژه در برگیرنده بیشترین حجم اطالعات موجود در یک ماتریس است.بردارهای بعدی
به ترتیب اطالعات کمتری راتوصیف می کند.حذف تعدادی از فاکتورهای آخر که در رابطه با
مقادیر ویژه صفرو مثبت نزدیک صفر می باشند ،موجب حذف وابستگی خطی وکاهش نوفه شده
ودر عین حال صدمه ای به اطالعات مفید نمی رساند.
حذف فاکتورهای مربوط به نویزها ،از مزایای مهم استفاده از بردارهای ویژه بعنوان فاکتور می
باشند.
،PCRدر حضور نویز ،مزاحمتهای شیمیایی وفیزیکی وبرهمکنش آنالیت ها از کارایی بسیار بیشتری
نسبت به روشهای CLSو MLRبرخوردار می باشد.
40
محدودیت PCR
PCRدر مرحله تعیین فاکتورها ،تنها از ماتریس اطالعات طیفی استفاده می کندواطالعات موجود
درماتریس غلظت را نادیده گرفته ودر مدل سازی شرکت نمی کند.فاکتورهای تعیین شده ،برای
تشریح ماتریس Aبسیار سودمند بوده ولی ممکن است برای مدل سازی Yمطلوب نباشد وبنابراین
تضمینی نیست که توانایی خوبی برای پیشگویی غلظت نمونه های مجهول داشته باشد.
41
THANK YOU
42