IN THE NAME OF GOD
Download
Report
Transcript IN THE NAME OF GOD
معادالت برآورد تعمیم یافته ))GEE
مدل های خطی 1
استاد مربوطه :دکتر ریحانه ریخته گران
ارائه کننده :مریم سعیدی
فیروزه خیامیم
93/10/30
در یک مدل رگرسيوني چهار فرض زیر را در نظر میگيریم:
خطاها نااریب اند.
واریانس خطاها ثابت است.
خطاها ناهمبسته اند.
خطاها دارای توزیع نرمال هستند.
E ( i ) 0
var( i ) 2
cov(i , j ) 0
) N (0, 2 In
ε
2
اگر به اشتباه واریانس خطا را برابر با In
را در نظر بگيریم ،در
2
ˆ
صورتي كه در مدل واقعي واریانس به فرم Vباشد،دراینصورت برآورد
نااریب است،اما دیگر یک برآوردگر BLUEنيست و برآورد
میباشد.
گر s 2
هم اریب
در صورتی که
واریانس نامعلوم باشد
مشاهدات از توزیع
نرمال و معلوم
مشاهدات از خانواده
نمایي
مشاهدات غير نرمال
و همبسته
روش حداقل مربعات
تعميم یافته()GLS
روش ماكزیمم
درستنمایي مدل خطي
تعميم یافته
روش شبه درستنمایي
بر مبناي مدل خطي
تعميم یافته()GEE
مدل های خطی تعمیم یافته):(GLM
در رگرسیون خطی معمولی ،به دنبال ایجاد ارتباط خطی بين
متغير پاسخ و مجموعه ای از متغيرهای توضيح دهنده هستيم.
در بسياری از موارد این کار تحت فرض نرمال بودن داده ها و
نيز استقالل آنها انجام می شود ،ولی در عمل حالتهایی وجود
دارند که در آن مشاهدات غیر نرمال بوده و یا به هم وابسته
اند.
در مدلهای خطی تعميم یافته ()GLM
ارتباط بين ميانگين پاسخ و متغيرهای توضيحی ،توسط تابعي از ميانگين بيان
میشود.این مدل را تحت فرض اینکه داده ها مستقل و دارای توزیعی از خانواده
نمایی هستند،میتوان نوشت.
در بسياری از مسائل کاربردی متغير پاسخ توزیع پيوسته غير نرمال دارد و
استفاده از مدلهای خطی امکان پذیر نيست.در چنين مواقعی ،از برازش
مدلهای خطی تعميم یافته برای تحليل دادهها میتوان استفاده کرد.
در یک مدل رگرسيون خطی ،فرضهای زیر:
(1استقالل مشاهدات
(2وجود رابطه ی خطی بين مشاهدات و متغيرهای توضيحی
(3ثابت بودن واریانس مشاهدات
برای درست بودن نتایج الزامی است،
اما در یک مدل خطی تعميم یافته شرایط 2و 3با شرایط زیر جایگزین می شوند:
در مدل های خطی تعميم یافته دو موضوع مهم وجود دارد:
)1توزیع متغیر تصادفی
)2مدلی که میانگین متغیر پاسخ را به متغیرهای توضیحی
xi
ارتباط میدهد.
ساختار مدلهای خطی تعمیم یافته:
مدلهای خطی تعميم یافته دارای ویژگی های کلی زیر هستند:
متغيرهای پاسخ Y i , i 1,..., nمستقل با ميانگينهای
واریانسهای 1 ,..., nمیباشند.
1 ,..., nو
متغير yiدارای توزیعی از خانواده نمایی است.
قسمت پيشگوئی کننده خطی مدل بصورت 0 1x 1 ... k x kتعریف
میشود که شامل متغيرهای توضيحی x 1 ,..., x kمیباشد.در واقع متغيرهای
توضيحی را که به عنوان پيشگو کننده ها در مدل بکار رفته اند،مشخص میکند.
ميانگين iرا ميتوان توسط یک تابع معلوم یکنوا و مشتق پذیر از ميانگين،به نام
تابع پيوند،مدلسازی کرد.این تابع،ميانگين پاسخ را در پيش گویی کننده خطی برای
مقادیر i 1,..., nبه صورت i g (i ) ،بيان ميکند،
که در واقع چگونگی ارتباط ميانگين پاسخ را با متغيرهای توضيحی در معادله
پيشگویی کننده خطی،مشخص ميکند.همچنين داریمi E (yi ) g1(i ) g 1(xi ) ،
واریانس yتابعی از ميانگين آن است.در مدلهای خطی تعميم یافته فرض خانواده
نمایی ایجاب ميکند که واریانس مؤلفه های yبر حسب ميانگين با تابع
) i2 var(yi ) vi (iمشخص شود.که در آن تابع واریانس است و
توسط تابع احتمالی خاص تعيين میگردد.
وابستگی واریانس به ميانگين،شاخص برتری GLMها نسبت به رگرسيون چندگانه
است.
در توصيف مدل خطی تعميم یافته برای هر متغير پاسخ با توزیعی از خانواده
های نمایی ،تابع چگالی به فرم زیر می باشد:
}) f (y) f(yi i , ) exp{ 1 (yi i (i )) c(y,
که توابع ) (.و ) c(.,.مشخص و پارامترهای ,iناشناخته
هستند .اغلب ,iبه ترتيب پارامتر طبيعی (یا پارامتر کانونی) و پارامتر
مقياس ناميده می شوند،این خانواده یک خانواده نمایی دو پارامتری ناميده
میشود.
و گرفتن مشتقات اول ودوم f(yi i , ) dy 1 با توجه به ویژگی
: از دو طرف معادله بدست می آوریم نسبت به
1
[yi (i )] f (yi i , ) dyi 0
1
2
{
[y
(
)]
(i )}f(yi i , ) dy i 0
i
i
:که از آن به طور مستقيم این نتایج حاصل می شود
i E (yi ) (i )
g 1 (.) (.)
i2 var(yi ) (i ) ( 1 ( i )) ( i )
برآورد حداکثر درستنمایی:
برآورد پارامترهای رگرسيونی معموالً به روش حداکثر درستنمایی انجام می شوند،
با فرض استقالل مشاهدات لگاریتم درستنمایی به صورت زیر بدست می آید:
N
) (i )] c (yi ,
i 1
N
i
1
[y
L ( , )
i 1
معادالت امتيازی از برابر صفر قرار دادن مشتق اول از لگاریتم درستنمایی به فرم
زیر بدست می آید:
i
s ( )
[yi (i )] 0
i 1
N
چون ) i (iو) i (i ) (iداریم:
i
i
i
) (i
i
بنابر این معادالت امتيازی به فرم زیر بدست می آید:
i
s ( )
[yi (i )] 0
i 1
N
i 1
s ( )
i [yi i ] 0
i 1
N
در کل برای حل معادالت امتيازی به الگوریتم های عددی مانند حداقل مربعات وزنی
شده مکرر،نيوتن رافسون و امتيازی فيشر نياز داریم.
چون واریانس ، var(yi ) iیک برآورد واضح از بصورت زیر بدست می
آید:
N
2
ˆ
[y
]
) i i i (ˆi
i 1
1
ˆ
N p
شبه درستنمایي
در مواردی که اطالعات درست و کافی از فرم توزیع داده ها وجود ندارد،
در اینصورت به دليل مشخص نبودن توزیع ،امکان ساختن تابع درستنمایی
و استفاده از تکنيکهای مربوط به حداکثر درستنمایی وجود ندارد .در این
مواقع روش های استنباطی که بدون داشتن فرض هایی راجع به توزیع ،به
خوبی روش درستنمایی عمل می کند،با عنوان شبه درست نمایی بکار گرفته
می شود.
درشبه درستنمایی ميانگين پاسخ به عنوان تابعی از متغير کمکی بيان می
شود و فرض براین است که واریانس تابعی از ميانگين است.
معادله برآورد شبه درستنمایی
را كه
مشاهدات
تابع شبه امتياز به صورت:
در نظر بگيرید.
و
لگاریتم تابع شبه درستنمایی به فرم
كه اگر لگاریتم تابع شبه درستنمایی را به کار ببریم برآورد j
ازمعادله برآورد شبه درستنمایی كه به فرم
زیراست ،بدست می آید:
یعني
) Q ( , y) n Q (i , yi
0
j
j
i 1
n
Q ( i , yi ) i
( y i i ) i
(
)
(
)0
j
j
j
i 1
) i 1 V ( y i
n
مقایسه شبه درستنمایی و مدلهای خطی تعمیم یافته
در مدلهای خطی تعميم یافته،یک توزیع خاص از خانواده نمایي برای پاسخ y iدر نظر
گرفته میشود ولی در روش شبه درستنمایی تنها فرض ،ارتباط تابعی بين ميانگين و
واریانس y iدر نظر گرفته ميشود .معادالت برآورد شبه درستنمایی برای بصورت
j 1,..., p
y i i i
(
) 0,
i 1 V ( i ) j
n
و در مقایسه با آن،معادالت درستنمایی مدل خطی تعميم یافته به صورت
j 1,..., p
i
i j
i
x ij
j
j j
j
( y i i ) i
(
) 0,
j
) i 1 V ( y i
n
و ) var( y i ) V (iبرقرار
است وچون
هستند معادالت برآورد شبه درستنمایی صورتی شبيه با معادالت درستنمایی در
مدلهای خطی تعميم یافته دارند.
معادالت برآورد تعمیم یافته
وقتی مشاهدات غير نرمال و همبسته هستند استفاده از روش شبه
درستنمایی بر مبنای مدل خطی تعميم یافته با عنوان معادالت برآورد تعميم
یافته GEEاستفاده ميشود .معادالت برآوردگر تعميم یافته توسط زیگر و
ليانگ در سال 1986معرفی شدند،که تحليل داده های طولی را آسان کرده
و برآوردی کارا و نااریب برای پارامترهای رگرسيونی ارائه می کنند.
درروش GEEهمبستگی بين مشاهدات با در نظر گرفتن ماتریس هاي
همبستگی مبنای مختلف مدلسازی میشود که درست برآورد شدن این
ماتریس های همبستگی در بهبود کارایی ضرایب رگرسيونی مؤثر است.
برآورد ضرایب رگرسيونی و مؤلفه های واریانس در این روش با در نظر
گرفتن ساختاری از ماتریس همبستگی مبنا توسط اميد ریاضی و واریانس
توزیع فرضی جامعه بدست می آید.
یک چهار چوب بنيادی برای پيدا کردن معادالت برآوردگر تعميم یافته به شکل
زیر است.فرض کنيد:
y (y ,..., y )
ini
که بردار n i 1بعدی به عنوان متغير پاسخ برای فرد iام و
i1
i
Xi (xi 1,...., xini )
ماتریسهاي توضيح دهنده ni pبعدی برای iامين فرد است.
بردارميانگين شرطی متغير پاسخ y ijروی توضيح دهنده هایXi
بصورت
) μi (i 1,..., ini
شبه درستنمایي ،واریانس شرطي متغيير پاسخ y ijروی توضيح دهنده هایXi
را به صورت ) (ij
مدل سازی می كندد ،بطوریکه
پارامتر پراکندگی نامعلوم است.
تابع واریانس
و
(.)
corr(yij , yik ) (ij , ik , α)
yi
Xi
var(yi ) V i A Ri A
1/2
i
1/2
i
Ai diag ( (ij ))
Ri
xi
α
corr(yij , yik )
Ri
Vi
xi
yi
GEEتوسط شبه معادله امتيازی که بصورت زیر است تعریف
می شود:
N
i
)V i 1 ( )[yi i ] 0
( s ( , )
i 1
كه درعمل توسط برآوردگر سازگار ˆ جایگزین شده و برآوردگر
که با ˆgeeنمایش داده می شود،از حل معادالت برآوردگر تعميم یافته
که مقدار در آن با مقدار ˆ جایگزین شده ،حاصل می شود .که ˆgeeدر
صورت معلوم بودن بصورت مجانبی کاراست.
یک بردآوردگر مقاوم برای Vˆgee ,Vاست این برآوردگر در شرایطی
که تابع واریانس به صورت صحيح معرفی نشده است،برآوردگری
سازگار می باشد.
انتخاب ماتریس همبستگی مبنا
ماتریس همبستگی ) R i (بر طبق شرایطی مانند کارایی و رابطه ی ميان داده
ها انتخاب می شود .و در صورتي كه براي ماتریس همبستگي ساختاري در
نظر نگيریم در این صورت الزم است ) n (n 1پارامتر برآورد شود.
2
ساختارهمبستگي مستقل
ساده ترین شکل ماتریس همبستگی،ماتریس همانی است که داده های مشاهده
شده در هر واحد آزمایشی مستقل هستند.در این حالت هيچگونه پارامتر کمکی
به مدل اضافه نمی شود ،یعنی
)Ri ( ) I (i 1,..., N
ساختار همبستگی تغییر پذیر
در تعميم ساده از ساختار همبستگي مستقل فرض بر این است كه مشاهدات
درون هر گروه دارای همبستگی یکسانی هستند.در این حالت یک پارامتر
کمکی وارد مدل می شود.در این جا یک مقدار عددی و ماتریس
همبستگی دارای ساختار زیر می شود:
Ri ( ) R ( ) i 1,..., N
T
T
T
2
ˆ
ˆ
ˆ
r
r
r
1
t 1 1 it i
t 1 it
ˆ
)T (T 1
ˆ i 1
T
ساختار همبستگی اتو رگرسیو مرتبه اول )AR (1
در حالتی که مشاهدات درون واحد ها از نظر زماني همبسته باشند ساختار
همبستگی اتو رگرسيو مرتبه اول مناسب مي باشد .در این هنگام فرض می
شود که ساختار همبستگی به صورت
t
Corr ( y it y i )
T 0
T T
rˆi ,t rˆi ,t 0
rˆi ,t rˆi ,t T
1
t
1
t
1
ˆ
,...,
ˆ
T
T
i 1
T
Refrence
Book: models for discrete longitudinal data:
Thanks for your attention