Logistic Regression Instructor : Saeed Shiry & ایده اصلی     2 دسته بندی کننده بیزی برای محاسبه ) P(Y|X الزم دارد تا مقادیر ) P(Y و) P(X|Y را یاد.

Download Report

Transcript Logistic Regression Instructor : Saeed Shiry & ایده اصلی     2 دسته بندی کننده بیزی برای محاسبه ) P(Y|X الزم دارد تا مقادیر ) P(Y و) P(X|Y را یاد.

Logistic Regression
Instructor : Saeed Shiry
&
1
‫ایده اصلی‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫دسته بندی کننده بیزی برای محاسبه )‪ P(Y|X‬الزم دارد تا‬
‫مقادیر )‪ P(Y‬و)‪ P(X|Y‬را یاد بگیرد‪.‬‬
‫چرا مستقیما )‪ P(Y|X‬یاد گرفته نشود؟‬
‫لجستیک رگراسیون مقدار احتمال فوق را محاسبه میکند‪.‬‬
‫دسته بندی کننده بیزی یک دسته بندی مولد است در حالیکه‬
‫لجستیک رگراسیون یک دسته بندی کننده ‪discriminative‬‬
‫است‪.‬‬
‫مقدمه‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪3‬‬
‫بر خالف نامش این روش برای دسته بندی مورد استفاده قرار‬
‫میگیرد نه رگراسیون‪.‬‬
‫برای حالت ‪ K = 2‬این مدل بسیار ساده بوده و از یک تابع‬
‫خطی بهره می جوید‪.‬‬
‫بردار ورودی بصورت > ‪ < X1 … Xn‬و بردارخروجی ‪Y‬‬
‫بولین در نظر گرفته میشود‪.‬‬
‫تمام ‪ Xi‬ها از ‪ Y‬مستقل فرض شده و مقدار )‪P(Xi | Y = yk‬‬
‫گوسی در نظر گرفته میشود‪N(μik,σi) .‬‬
‫همچنین توزیع )‪ P(Y‬بصورت برنولی در نظر گرفته میشود‪.‬‬
‫مقایسه با رگراسیون خطی‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪4‬‬
‫برای مدل کردن متغیرهائی که مقادیر محدودی به خود میگیرند‬
‫بهتر از رگراسیون خطی عمل میکند زیرا مدل خطی هر مقداری را‬
‫در خروجی تولید میکند درحالی که برای چنین متغیرهائی مقادیر‬
‫محدودی مورد نیاز است‪.‬‬
‫در رگراسیون خطی مقدار متغیر مورد نظر از ترکیب خطی‬
‫متغیرهای مستقل بدست می آید در حالیکه در لجستیک رگراسیون‬
‫از ترکیب خطی تابع ‪ logit‬استفاده میشود‪.‬‬
‫در رگراسیون خطی پارامترها به روش ‪ least squares‬بدست‬
‫می آیند در حالیکه این روش برای لجستیک رگراسیون فاقد کارائی‬
‫بوده و از روش ‪ maximum likelihood estimation‬برای‬
‫پیدا کردن پارامترها استفاده میشود‪.‬‬
‫‪logistic function‬‬
‫‪‬‬
‫‪5‬‬
‫مقدار این تابع و مشتق آن توسط روابط زیر تعریف میشود‪:‬‬
‫احتمال تعلق به دسته ها‬
‫‪‬‬
‫احتمال تعلق به هر دسته را میتوان بصورت تابع لجستیک در‬
‫نظر گرفت‪:‬‬
‫‪‬‬
‫ضرایب ‪ w‬با استفاده از ‪ gradient ascent‬تعیین میشود‪.‬‬
‫‪6‬‬
‫احتمال تعلق به دسته ها‬
‫‪‬‬
‫‪7‬‬
‫برای مقادیر پیوسته رابطه بصورت زیر است‬
‫فرضیات رابطه قبل‬
‫‪‬‬
‫‪8‬‬
‫برای بدست آوردن رابطه فوق از فرض گوسی بودن توزیع‬
‫احتمال استفاده شده است‪:‬‬
‫سایر نتایج‬
‫‪9‬‬
‫‪Discriminant functions‬‬
‫‪ ‬مدل ‪ LR‬یک مرز خطی‬
‫بین دو دسته تعیین میکند‪.‬‬
‫‪ ‬برای مرز دو دسته داریم‪:‬‬
‫‪‬‬
‫‪10‬‬
‫از اینرو خواهیم داشت‪:‬‬
‫برای حالت چند کالسه‬
‫‪11‬‬
‫بدست آوردن وزنها‬
‫‪‬‬
‫فرض میشود که تعداد ‪ L‬داده آموزشی داشته باشیم‪.‬‬
‫‪‬‬
‫برای بدست آوردن وزنها میتوان از ‪maximum‬‬
‫‪ likelihood estimate‬استفاده کرد‪:‬‬
‫‪‬‬
‫باید وزنهای >‪ W=<w0, ... wn‬طوری انتخاب شوند که‬
‫مقدار درستنمائی داده ماکزیمم شود‪.‬‬
‫بجای رابطه فوق از درست نمائی شرطی استفاده میشود‪:‬‬
‫‪‬‬
‫‪12‬‬
‫‪Expressing Conditional Log‬‬
‫‪Likelihood‬‬
‫‪‬‬
‫میتوان برای محاسبه مقدار فوق از ‪ log‬عبارت فوق استفاده‬
‫نمود‪.‬‬
‫با فرض اینکه ‪ Y‬فقط یکی از دو مقدار ‪ 0‬یا ‪ 1‬را دارد خواهیمداشت‪:‬‬
‫‪13‬‬
‫‪Maximizing Conditional Log‬‬
‫‪Likelihood‬‬
‫‪‬‬
‫هیچ راه حل بسته ای برای ماکزیمم کردن درست نمائی شرطی‬
‫وجود ندارد‪.‬‬
‫‪‬‬
‫استفاده از تکنیک نزول گرادیان یکی از راه حل های موجود‬
‫است‪:‬‬
‫‪14‬‬
‫‪Maximize Conditional Log‬‬
‫‪Likelihood: Gradient Ascent‬‬
‫‪‬‬
‫تغییرات وزن تا زمانی ادامه می یابد که مقدار آن خیلی ناچیز‬
‫شود‪.‬‬
‫توجه شود که عبارت داخل پرانتز بسادگی اختالف بین مقدار هدف و مقدار تابع احتمال آن است‬
‫مقادیر اولیه وزنها صفر در نظر گرفته میشود و مقادیر نهائی از تکرار عبارت زیر بدست می آید‬
‫‪15‬‬
‫مشکالت استفاده از ‪ML‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪16‬‬
‫به خاطر ماهیت ‪ concave‬بودن تابع )‪ l(W‬رابطه فوق حتما‬
‫ماکزیمم ‪ global‬را پیدا خواهد کرد‪.‬‬
‫استفاده از ‪ ML‬می تواند برای داده های جدا پذیر خطی به‬
‫‪ over fitting‬شدید منجر شود‪.‬‬
‫دلیل این امر این است که راه حل ‪ ML‬وقتی اتفاق می افتد که‬
‫‪ σ = 0.5‬و یا ‪ wTφ =0‬شده و منجر به بزرگ شدن وزنها‬
‫میشود‪.‬‬
‫این امر حتی وقتی که تعداد داده ها نسبت به تعداد پارامترها‬
‫زیاد باشد روی خواهد داد‪.‬‬
‫‪Regularization in Logistic‬‬
‫‪Regression‬‬
‫‪‬‬
‫برای پرهیز از ‪ over fitting‬میتوان از عبارت رگوالریزیشن‬
‫استفاده نمود‪ .‬این جمله طوری اضافه میشود که وزنهای بزرگ‬
‫را جریمه نماید‪:‬‬
‫میزان تاثیر جمله جریمه را تعیین میکند‬
‫‪‬‬
‫‪‬‬
‫‪17‬‬
‫با افزودن این جمله تابع هدفی که باید ماکزیمم شود بصورت‬
‫‪ MAP‬در می آید زیرا تخمین ‪ MAP‬بردار وزن دارای فرم‬
‫کلی زیر است‪.‬‬
‫که در آن )‪ P(W‬دارای توزیع گوسی با میانگین صفر و‬
‫است‪.‬‬
‫واریانس‬
‫استفاده از ‪MAP‬‬
‫‪‬‬
‫با افزودن ترم جریمه میتوان مطابق حالت قبل عمل یافتن وزنها‬
‫را با مشتق گیری و روش صعود گرادیان انجام داد‪:‬‬
‫‪modified gradient descent rule:‬‬
‫‪18‬‬
‫‪MLE vs MAP‬‬
‫‪‬‬
‫‪19‬‬
‫دو روش ‪ MlE‬و ‪ MAP‬هر یک از روابط زیر برای پیدا‬
‫کردن وزنها استفاده میکنند‪.‬‬
‫‪Logistic Regression for functions‬‬
‫‪with Many Discrete Values‬‬
‫‪‬‬
‫برای حالت غیر بولین که ‪ Y‬هر مقدار‬
‫داشته باشد داریم‪:‬‬
‫‪‬‬
‫در نتیجه قانون تغییر وزنها بصورت زیر در می آید‬
‫‪20‬‬
‫مشاهده میشود که حالت بولین حالت خاصی از روابط فوق است‪.‬‬
‫را میتواند‬
‫‪Generative Classifiers‬‬
‫‪‬‬
‫‪‬‬
‫‪21‬‬
‫در اغلب مسایل عملی بدلیل پیچیدگی زیاد و یا وجود عدم‬
‫قطعیت نمی توان مدل ریاضی مشخصی را بدست آورد‪ .‬در‬
‫چنین شرایطی می توان از مدل های احتماالتی استفاده نمود که‬
‫در آنها دانش اولیه بصورت تابع چگالی احتمال مدل شده و با‬
‫مشاهده داده مقدار احتمال ثانویه محاسبه میشود‪.‬‬
‫نمونه هائی از مدلهای مولد‪:‬‬
‫‪mixture model‬‬
‫‪Bayesian networks‬‬
‫‪hidden‬‬
‫‪Markov models‬‬
Use Naïve Bayes or Logisitic
Regression?
‫ را محاسیه میکند‬P(Y|X) ‫الجستیک رگراسیون مستقیما مقدار‬
.‫ را محاسبه میکند‬P(Y) and P(X|Y) ‫ ابتدا مقادیر‬،‫درحالیکه بیزین ساده‬
‫ هم برقرار باشد الجستیک‬Gaussian Naive Bayes ‫نشان داده میشود که وقتی تعداد داده های آموزشی زیاد باشد و شرایط‬
.‫ در حالت حدی به دسته بندی مشابهی میرسند‬Gaussian Naive Bayes ‫رگراسیون و‬
.‫ برقرار نباشد الجستیک رگراسیون نتایج بهتری بوجود می آورد‬Gaussian Naive Bayes ‫در حالیتکه شرط‬
.‫همگرایی الجستیک رگراسیون کند تر است‬
)‫ نمونه بازای هر دسته‬50 ( ‫در الجستیک رگراسیون باید تعداد نمونه ها زیاد باشد‬
















when conditional independence assumptions incorrect
• LR is less biased – does not assume cond indep.
• therefore expected to outperform GNB when both given infinite training data
Number of parameters:
• NB: 4n +1
• LR: n+1
convergence rate of parameter estimates – how many
training examples needed to assure good estimates?
• GNB order log n )where n = # of attributes in X(
• LR order n
GNB converges more quickly to its
(perhaps less
accurate) asymptotic estimates
22
‫آیا دسته بندی کننده بیزی خطی است؟‬
‫‪‬‬
‫‪‬‬
‫‪23‬‬
‫وقتی بردار ‪ X‬دارای ویژگی های گسسته باشد الگوریتم بیز را‬
‫میتوان بصورت یک دسته بندی کننده خطی در نظر گرفت‪.‬‬
‫برای حالت پیوسته نیز اگر واریانس هر ویژگی مستقل از‬
‫کالس در نظر گرفته شود میتوان آنرا خطی در نظر گرفت‪.‬‬
‫)‪(i.e., if sik = si‬‬
‫‪Probabilistic Generative‬‬
‫‪Models‬‬
‫‪‬‬
‫در نگرش بیزین احتمال شرطی )‪ p(x|Ck‬و احتمال اولیه‬
‫)‪ p(Ck‬از روی داده های آموزشی یادگرفته شده و برای‬
‫ساختن احتمال ثانویه )‪ p(Ck|x‬بکار میروند‪.‬‬
‫‪‬‬
‫برای ورودی های پیوسته تابع چگالی احتمال شرطی کالسی‬
‫بصورت گوسی فرض میشود‪:‬‬
‫‪24‬‬
‫‪Probabilistic Generative‬‬
‫‪Models‬‬
‫‪‬‬
‫برای حالت دو کالسه داریم‪:‬‬
‫‪‬‬
‫در این رابطه با فرض اینکه تمامی کالسها ماتریس کوواریانس‬
‫یکسانی دارند جمالت مرتبه ‪ 2‬از ‪ x‬حذف شده و رابطه‬
‫بصورت خطی در می آید‪.‬‬
‫‪25‬‬