IN THE NAME OF GOD

Download Report

Transcript IN THE NAME OF GOD

‫معادالت برآورد تعمیم یافته )‪)GEE‬‬
‫مدل های خطی ‪1‬‬
‫استاد مربوطه ‪ :‬دکتر ریحانه ریخته گران‬
‫ارائه کننده ‪ :‬مریم سعیدی‬
‫فیروزه خیامیم‬
‫‪93/10/30‬‬
‫در یک مدل رگرسيوني چهار فرض زیر را در نظر میگيریم‪:‬‬
‫‪‬خطاها نااریب اند‪.‬‬
‫‪‬واریانس خطاها ثابت است‪.‬‬
‫‪‬خطاها ناهمبسته اند‪.‬‬
‫‪‬خطاها دارای توزیع نرمال هستند‪.‬‬
‫‪E ( i )  0‬‬
‫‪var( i )   2‬‬
‫‪cov(i ,  j )  0‬‬
‫) ‪N (0, 2 In‬‬
‫‪ε‬‬
‫‪2‬‬
‫‪‬‬
‫اگر به اشتباه واریانس خطا را برابر با ‪In‬‬
‫را در نظر بگيریم‪ ،‬در‬
‫‪2‬‬
‫ˆ‬
‫‪‬‬
‫صورتي كه در مدل واقعي واریانس به فرم ‪ V‬باشد‪،‬دراینصورت برآورد ‪‬‬
‫نااریب است‪،‬اما دیگر یک برآوردگر ‪ BLUE‬نيست و برآورد‬
‫میباشد‪.‬‬
‫گر ‪s 2‬‬
‫هم اریب‬
‫در صورتی که‬
‫واریانس نامعلوم باشد‬
‫مشاهدات از توزیع‬
‫نرمال و معلوم‬
‫مشاهدات از خانواده‬
‫نمایي‬
‫مشاهدات غير نرمال‬
‫و همبسته‬
‫روش حداقل مربعات‬
‫تعميم یافته(‪)GLS‬‬
‫روش ماكزیمم‬
‫درستنمایي مدل خطي‬
‫تعميم یافته‬
‫روش شبه درستنمایي‬
‫بر مبناي مدل خطي‬
‫تعميم یافته(‪)GEE‬‬
‫مدل های خطی تعمیم یافته)‪:(GLM‬‬
‫‪‬در رگرسیون خطی معمولی‪ ،‬به دنبال ایجاد ارتباط خطی بين‬
‫متغير پاسخ و مجموعه ای از متغيرهای توضيح دهنده هستيم‪.‬‬
‫در بسياری از موارد این کار تحت فرض نرمال بودن داده ها و‬
‫نيز استقالل آنها انجام می شود‪ ،‬ولی در عمل حالتهایی وجود‬
‫دارند که در آن مشاهدات غیر نرمال بوده و یا به هم وابسته‬
‫اند‪.‬‬
‫در مدلهای خطی تعميم یافته (‪)GLM‬‬
‫ارتباط بين ميانگين پاسخ و متغيرهای توضيحی ‪ ،‬توسط تابعي از ميانگين بيان‬
‫میشود‪.‬این مدل را تحت فرض اینکه داده ها مستقل و دارای توزیعی از خانواده‬
‫نمایی هستند‪،‬میتوان نوشت‪.‬‬
‫‪‬در بسياری از مسائل کاربردی متغير پاسخ توزیع پيوسته غير نرمال دارد و‬
‫استفاده از مدلهای خطی امکان پذیر نيست‪.‬در چنين مواقعی‪ ،‬از برازش‬
‫مدلهای خطی تعميم یافته برای تحليل دادهها میتوان استفاده کرد‪.‬‬
‫در یک مدل رگرسيون خطی‪ ،‬فرضهای زیر‪:‬‬
‫‪ (1‬استقالل مشاهدات‬
‫‪ (2‬وجود رابطه ی خطی بين مشاهدات و متغيرهای توضيحی‬
‫‪ (3‬ثابت بودن واریانس مشاهدات‬
‫برای درست بودن نتایج الزامی است‪،‬‬
‫اما در یک مدل خطی تعميم یافته شرایط ‪2‬و ‪ 3‬با شرایط زیر جایگزین می شوند‪:‬‬
‫در مدل های خطی تعميم یافته دو موضوع مهم وجود دارد‪:‬‬
‫‪ )1‬توزیع متغیر تصادفی‬
‫‪ )2‬مدلی که میانگین متغیر پاسخ را به متغیرهای توضیحی‬
‫‪xi‬‬
‫ارتباط میدهد‪.‬‬
‫ساختار مدلهای خطی تعمیم یافته‪:‬‬
‫مدلهای خطی تعميم یافته دارای ویژگی های کلی زیر هستند‪:‬‬
‫‪‬متغيرهای پاسخ ‪ Y i , i  1,..., n‬مستقل با ميانگينهای‬
‫واریانسهای ‪ 1 ,...,  n‬میباشند‪.‬‬
‫‪ 1 ,..., n‬و‬
‫‪‬متغير ‪ yi‬دارای توزیعی از خانواده نمایی است‪.‬‬
‫‪‬قسمت پيشگوئی کننده خطی مدل بصورت ‪   0  1x 1  ...  k x k‬تعریف‬
‫میشود که شامل متغيرهای توضيحی ‪ x 1 ,..., x k‬میباشد‪.‬در واقع متغيرهای‬
‫توضيحی را که به عنوان پيشگو کننده ها در مدل بکار رفته اند‪،‬مشخص میکند‪.‬‬
‫‪ ‬ميانگين ‪ i‬را ميتوان توسط یک تابع معلوم یکنوا و مشتق پذیر از ميانگين‪،‬به نام‬
‫تابع پيوند‪،‬مدلسازی کرد‪.‬این تابع‪،‬ميانگين پاسخ را در پيش گویی کننده خطی برای‬
‫مقادیر ‪i  1,..., n‬به صورت‪ i  g (i ) ،‬بيان ميکند‪،‬‬
‫که در واقع چگونگی ارتباط ميانگين پاسخ را با متغيرهای توضيحی در معادله‬
‫پيشگویی کننده خطی‪،‬مشخص ميکند‪.‬همچنين داریم‪i  E (yi )  g1(i )  g 1(xi  ) ،‬‬
‫‪‬واریانس ‪ y‬تابعی از ميانگين آن است‪.‬در مدلهای خطی تعميم یافته فرض خانواده‬
‫نمایی ایجاب ميکند که واریانس مؤلفه های ‪ y‬بر حسب ميانگين با تابع‬
‫) ‪  i2  var(yi )  vi   (i‬مشخص شود‪.‬که در آن ‪ ‬تابع واریانس است و‬
‫توسط تابع احتمالی خاص تعيين میگردد‪.‬‬
‫وابستگی واریانس به ميانگين‪،‬شاخص برتری ‪GLM‬ها نسبت به رگرسيون چندگانه‬
‫است‪.‬‬
‫در توصيف مدل خطی تعميم یافته برای هر متغير پاسخ با توزیعی از خانواده‬
‫های نمایی‪ ،‬تابع چگالی به فرم زیر می باشد‪:‬‬
‫}) ‪f (y)  f(yi i , )  exp{ 1 (yi i  (i ))  c(y,‬‬
‫که توابع )‪  (.‬و )‪ c(.,.‬مشخص و پارامترهای ‪  ,i‬ناشناخته‬
‫هستند‪ .‬اغلب ‪  ,i‬به ترتيب پارامتر طبيعی (یا پارامتر کانونی) و پارامتر‬
‫مقياس ناميده می شوند‪،‬این خانواده یک خانواده نمایی دو پارامتری ناميده‬
‫میشود‪.‬‬
‫ و گرفتن مشتقات اول ودوم‬ f(yi i ,  ) dy  1 ‫با توجه به ویژگی‬
:‫ از دو طرف معادله بدست می آوریم‬ ‫نسبت به‬
1

 [yi  (i )] f (yi i ,  ) dyi  0
1
2

{

[y


(

)]
 (i )}f(yi i ,  ) dy i  0
i
i

:‫که از آن به طور مستقيم این نتایج حاصل می شود‬
i  E (yi )   (i )
g 1 (.)   (.)
 i2  var(yi )   (i )   ( 1 ( i ))   ( i )
‫برآورد حداکثر درستنمایی‪:‬‬
‫برآورد پارامترهای رگرسيونی معموالً به روش حداکثر درستنمایی انجام می شوند‪،‬‬
‫با فرض استقالل مشاهدات لگاریتم درستنمایی به صورت زیر بدست می آید‪:‬‬
‫‪N‬‬
‫) ‪ (i )] c (yi , ‬‬
‫‪i 1‬‬
‫‪N‬‬
‫‪i‬‬
‫‪1‬‬
‫‪[y‬‬
‫‪‬‬
‫‪‬‬
‫‪L ( , ) ‬‬
‫‪i 1‬‬
‫معادالت امتيازی از برابر صفر قرار دادن مشتق اول از لگاریتم درستنمایی به فرم‬
‫زیر بدست می آید‪:‬‬
‫‪i‬‬
‫‪s ( )  ‬‬
‫‪[yi  (i )]  0‬‬
‫‪i 1 ‬‬
‫‪N‬‬
‫چون ) ‪ i   (i‬و) ‪  i   (i )   (i‬داریم‪:‬‬
‫‪i‬‬
‫‪i‬‬
‫‪i‬‬
‫‪‬‬
‫) ‪  (i‬‬
‫‪ i‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫بنابر این معادالت امتيازی به فرم زیر بدست می آید‪:‬‬
‫‪i‬‬
‫‪s ( )  ‬‬
‫‪[yi  (i )]  0‬‬
‫‪i 1 ‬‬
‫‪N‬‬
‫‪i 1‬‬
‫‪s ( )  ‬‬
‫‪ i [yi  i ]  0‬‬
‫‪i 1 ‬‬
‫‪N‬‬
‫در کل برای حل معادالت امتيازی به الگوریتم های عددی مانند حداقل مربعات وزنی‬
‫شده مکرر‪،‬نيوتن رافسون و امتيازی فيشر نياز داریم‪.‬‬
‫چون واریانس ‪ ، var(yi )   i‬یک برآورد واضح از‪ ‬بصورت زیر بدست می‬
‫آید‪:‬‬
‫‪N‬‬
‫‪2‬‬
‫ˆ‬
‫‪[y‬‬
‫‪‬‬
‫‪‬‬
‫]‬
‫) ‪ i i  i (ˆi‬‬
‫‪i 1‬‬
‫‪1‬‬
‫ˆ‬
‫‪‬‬
‫‪N p‬‬
‫شبه درستنمایي‬
‫در مواردی که اطالعات درست و کافی از فرم توزیع داده ها وجود ندارد‪،‬‬
‫در اینصورت به دليل مشخص نبودن توزیع‪ ،‬امکان ساختن تابع درستنمایی‬
‫و استفاده از تکنيکهای مربوط به حداکثر درستنمایی وجود ندارد‪ .‬در این‬
‫مواقع روش های استنباطی که بدون داشتن فرض هایی راجع به توزیع ‪ ،‬به‬
‫خوبی روش درستنمایی عمل می کند‪،‬با عنوان شبه درست نمایی بکار گرفته‬
‫می شود‪.‬‬
‫درشبه درستنمایی ميانگين پاسخ به عنوان تابعی از متغير کمکی بيان می‬
‫شود و فرض براین است که واریانس تابعی از ميانگين است‪.‬‬
‫معادله برآورد شبه درستنمایی‬
‫را كه‬
‫مشاهدات‬
‫تابع شبه امتياز به صورت‪:‬‬
‫در نظر بگيرید‪.‬‬
‫و‬
‫لگاریتم تابع شبه درستنمایی به فرم‬
‫كه اگر لگاریتم تابع شبه درستنمایی را به کار ببریم برآورد ‪ j‬‬
‫ازمعادله برآورد شبه درستنمایی كه به فرم‬
‫زیراست‪ ،‬بدست می آید‪:‬‬
‫یعني‬
‫) ‪Q ( , y) n Q (i , yi‬‬
‫‪‬‬
‫‪0‬‬
‫‪ j‬‬
‫‪ j‬‬
‫‪i 1‬‬
‫‪n‬‬
‫‪Q ( i , yi ) i‬‬
‫‪( y i  i ) i‬‬
‫(‬
‫‪) ‬‬
‫(‬
‫‪)0‬‬
‫‪‬‬
‫‪ j‬‬
‫‪ j‬‬
‫‪ j‬‬
‫‪i 1‬‬
‫) ‪i 1 V ( y i‬‬
‫‪n‬‬
‫مقایسه شبه درستنمایی و مدلهای خطی تعمیم یافته‬
‫در مدلهای خطی تعميم یافته‪،‬یک توزیع خاص از خانواده نمایي برای پاسخ ‪ y i‬در نظر‬
‫گرفته میشود ولی در روش شبه درستنمایی تنها فرض‪ ،‬ارتباط تابعی بين ميانگين و‬
‫واریانس ‪ y i‬در نظر گرفته ميشود‪ .‬معادالت برآورد شبه درستنمایی برای ‪ ‬بصورت‬
‫‪j  1,..., p‬‬
‫‪y i  i i‬‬
‫(‬
‫‪)  0,‬‬
‫‪‬‬
‫‪i 1 V ( i )  j‬‬
‫‪n‬‬
‫و در مقایسه با آن‪،‬معادالت درستنمایی مدل خطی تعميم یافته به صورت‬
‫‪j  1,..., p‬‬
‫‪i‬‬
‫‪i  j‬‬
‫‪i‬‬
‫‪‬‬
‫‪‬‬
‫‪x ij‬‬
‫‪ j‬‬
‫‪ j  j‬‬
‫‪ j‬‬
‫‪( y i  i ) i‬‬
‫(‬
‫‪)  0,‬‬
‫‪‬‬
‫‪ j‬‬
‫) ‪i 1 V ( y i‬‬
‫‪n‬‬
‫و ) ‪ var( y i )  V (i‬برقرار‬
‫است وچون‬
‫هستند معادالت برآورد شبه درستنمایی صورتی شبيه با معادالت درستنمایی در‬
‫مدلهای خطی تعميم یافته دارند‪.‬‬
‫معادالت برآورد تعمیم یافته‬
‫وقتی مشاهدات غير نرمال و همبسته هستند استفاده از روش شبه‬
‫درستنمایی بر مبنای مدل خطی تعميم یافته با عنوان معادالت برآورد تعميم‬
‫یافته ‪ GEE‬استفاده ميشود‪ .‬معادالت برآوردگر تعميم یافته توسط زیگر و‬
‫ليانگ در سال ‪ 1986‬معرفی شدند‪،‬که تحليل داده های طولی را آسان کرده‬
‫و برآوردی کارا و نااریب برای پارامترهای رگرسيونی ارائه می کنند‪.‬‬
‫درروش ‪GEE‬همبستگی بين مشاهدات با در نظر گرفتن ماتریس هاي‬
‫همبستگی مبنای مختلف مدلسازی میشود که درست برآورد شدن این‬
‫ماتریس های همبستگی در بهبود کارایی ضرایب رگرسيونی مؤثر است‪.‬‬
‫برآورد ضرایب رگرسيونی و مؤلفه های واریانس در این روش با در نظر‬
‫گرفتن ساختاری از ماتریس همبستگی مبنا توسط اميد ریاضی و واریانس‬
‫توزیع فرضی جامعه بدست می آید‪.‬‬
‫یک چهار چوب بنيادی برای پيدا کردن معادالت برآوردگر تعميم یافته به شکل‬
‫زیر است‪.‬فرض کنيد‪:‬‬
‫‪y  (y ,..., y )‬‬
‫‪ini‬‬
‫که بردار‪ n i  1‬بعدی به عنوان متغير پاسخ برای فرد ‪i‬ام و‬
‫‪i1‬‬
‫‪i‬‬
‫‪Xi  (xi 1,...., xini )‬‬
‫ماتریسهاي توضيح دهنده‪ ni  p‬بعدی برای ‪i‬امين فرد است‪.‬‬
‫بردارميانگين شرطی متغير پاسخ ‪ y ij‬روی توضيح دهنده های‪Xi‬‬
‫بصورت‬
‫) ‪μi  (i 1,..., ini‬‬
‫شبه درستنمایي‪ ،‬واریانس شرطي متغيير پاسخ ‪ y ij‬روی توضيح دهنده های‪Xi‬‬
‫را به صورت ) ‪ (ij‬‬
‫مدل سازی می كندد‪ ،‬بطوریکه ‪‬‬
‫پارامتر پراکندگی نامعلوم است‪.‬‬
‫تابع واریانس‬
‫و‪‬‬
 (.)
corr(yij , yik )   (ij , ik , α)
yi
Xi
var(yi ) V i  A Ri A
1/2
i
1/2
i
Ai  diag ( (ij ))
Ri
xi
α
corr(yij , yik )
Ri
Vi
xi
yi
‫‪ GEE‬توسط شبه معادله امتيازی که بصورت زیر است تعریف‬
‫می شود‪:‬‬
‫‪N‬‬
‫‪i‬‬
‫‪)V i 1 ( )[yi  i ]  0‬‬
‫‪‬‬
‫( ‪s ( , )  ‬‬
‫‪i 1‬‬
‫كه درعمل ‪ ‬توسط برآوردگر سازگار ˆ‪ ‬جایگزین شده و برآوردگر ‪‬‬
‫که با ‪ ˆgee‬نمایش داده می شود‪،‬از حل معادالت برآوردگر تعميم یافته‬
‫که مقدار ‪ ‬در آن با مقدار ˆ‪ ‬جایگزین شده‪ ،‬حاصل می شود‪ .‬که ‪ ˆgee‬در‬
‫صورت معلوم بودن ‪ ‬بصورت مجانبی کاراست‪.‬‬
‫یک بردآوردگر مقاوم برای ‪ Vˆgee ,V‬است این برآوردگر در شرایطی‬
‫که تابع واریانس به صورت صحيح معرفی نشده است‪،‬برآوردگری‬
‫سازگار می باشد‪.‬‬
‫انتخاب ماتریس همبستگی مبنا‬
‫ماتریس همبستگی ) ‪ R i (‬بر طبق شرایطی مانند کارایی و رابطه ی ميان داده‬
‫ها انتخاب می شود‪ .‬و در صورتي كه براي ماتریس همبستگي ساختاري در‬
‫نظر نگيریم در این صورت الزم است )‪ n (n  1‬پارامتر برآورد شود‪.‬‬
‫‪2‬‬
‫ساختارهمبستگي مستقل‬
‫ساده ترین شکل ماتریس همبستگی‪،‬ماتریس همانی است که داده های مشاهده‬
‫شده در هر واحد آزمایشی مستقل هستند‪.‬در این حالت هيچگونه پارامتر کمکی‬
‫به مدل اضافه نمی شود‪ ،‬یعنی‬
‫)‪Ri ( )  I (i  1,..., N‬‬
‫ساختار همبستگی تغییر پذیر‬
‫در تعميم ساده از ساختار همبستگي مستقل فرض بر این است كه مشاهدات‬
‫درون هر گروه دارای همبستگی یکسانی هستند‪.‬در این حالت یک پارامتر‬
‫کمکی وارد مدل می شود‪.‬در این جا ‪ ‬یک مقدار عددی و ماتریس‬
‫همبستگی دارای ساختار زیر می شود‪:‬‬
‫‪Ri ( )  R ( ) i  1,..., N‬‬
‫‪T‬‬
‫‪T‬‬
‫‪T‬‬
‫‪2 ‬‬
‫‪‬‬
‫ˆ‬
‫ˆ‬
‫ˆ‬
‫‪r‬‬
‫‪r‬‬
‫‪‬‬
‫‪r‬‬
‫‪1‬‬
‫‪‬‬
‫‪‬‬
‫‪t 1  1 it i ‬‬
‫‪t 1 it‬‬
‫‪‬‬
‫‪‬‬
‫ˆ‬
‫‪ ‬‬
‫)‪T (T 1‬‬
‫‪ˆ i 1 ‬‬
‫‪‬‬
‫‪T‬‬
‫ساختار همبستگی اتو رگرسیو مرتبه اول )‪AR (1‬‬
‫در حالتی که مشاهدات درون واحد ها از نظر زماني همبسته باشند ساختار‬
‫همبستگی اتو رگرسيو مرتبه اول مناسب مي باشد‪ .‬در این هنگام فرض می‬
‫شود که ساختار همبستگی به صورت‬
‫‪t ‬‬
‫‪Corr ( y it y i )  ‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪T 0‬‬
‫‪T T‬‬
‫‪‬‬
‫‪rˆi ,t rˆi ,t 0‬‬
‫‪rˆi ,t rˆi ,t T‬‬
‫‪1‬‬
‫‪‬‬
‫‪‬‬
‫‪t‬‬
‫‪‬‬
‫‪1‬‬
‫‪t‬‬
‫‪‬‬
‫‪1‬‬
‫‪ˆ   ‬‬
‫‪,...,‬‬
‫ˆ‬
‫‪T‬‬
‫‪T‬‬
‫‪ i 1 ‬‬
‫‪T‬‬
Refrence
Book: models for discrete longitudinal data:
Thanks for your attention