Logistic Regression Instructor : Saeed Shiry & ایده اصلی 2 دسته بندی کننده بیزی برای محاسبه ) P(Y|X الزم دارد تا مقادیر ) P(Y و) P(X|Y را یاد.
Download
Report
Transcript Logistic Regression Instructor : Saeed Shiry & ایده اصلی 2 دسته بندی کننده بیزی برای محاسبه ) P(Y|X الزم دارد تا مقادیر ) P(Y و) P(X|Y را یاد.
Logistic Regression
Instructor : Saeed Shiry
&
1
ایده اصلی
2
دسته بندی کننده بیزی برای محاسبه ) P(Y|Xالزم دارد تا
مقادیر ) P(Yو) P(X|Yرا یاد بگیرد.
چرا مستقیما ) P(Y|Xیاد گرفته نشود؟
لجستیک رگراسیون مقدار احتمال فوق را محاسبه میکند.
دسته بندی کننده بیزی یک دسته بندی مولد است در حالیکه
لجستیک رگراسیون یک دسته بندی کننده discriminative
است.
مقدمه
3
بر خالف نامش این روش برای دسته بندی مورد استفاده قرار
میگیرد نه رگراسیون.
برای حالت K = 2این مدل بسیار ساده بوده و از یک تابع
خطی بهره می جوید.
بردار ورودی بصورت > < X1 … Xnو بردارخروجی Y
بولین در نظر گرفته میشود.
تمام Xiها از Yمستقل فرض شده و مقدار )P(Xi | Y = yk
گوسی در نظر گرفته میشودN(μik,σi) .
همچنین توزیع ) P(Yبصورت برنولی در نظر گرفته میشود.
مقایسه با رگراسیون خطی
4
برای مدل کردن متغیرهائی که مقادیر محدودی به خود میگیرند
بهتر از رگراسیون خطی عمل میکند زیرا مدل خطی هر مقداری را
در خروجی تولید میکند درحالی که برای چنین متغیرهائی مقادیر
محدودی مورد نیاز است.
در رگراسیون خطی مقدار متغیر مورد نظر از ترکیب خطی
متغیرهای مستقل بدست می آید در حالیکه در لجستیک رگراسیون
از ترکیب خطی تابع logitاستفاده میشود.
در رگراسیون خطی پارامترها به روش least squaresبدست
می آیند در حالیکه این روش برای لجستیک رگراسیون فاقد کارائی
بوده و از روش maximum likelihood estimationبرای
پیدا کردن پارامترها استفاده میشود.
logistic function
5
مقدار این تابع و مشتق آن توسط روابط زیر تعریف میشود:
احتمال تعلق به دسته ها
احتمال تعلق به هر دسته را میتوان بصورت تابع لجستیک در
نظر گرفت:
ضرایب wبا استفاده از gradient ascentتعیین میشود.
6
احتمال تعلق به دسته ها
7
برای مقادیر پیوسته رابطه بصورت زیر است
فرضیات رابطه قبل
8
برای بدست آوردن رابطه فوق از فرض گوسی بودن توزیع
احتمال استفاده شده است:
سایر نتایج
9
Discriminant functions
مدل LRیک مرز خطی
بین دو دسته تعیین میکند.
برای مرز دو دسته داریم:
10
از اینرو خواهیم داشت:
برای حالت چند کالسه
11
بدست آوردن وزنها
فرض میشود که تعداد Lداده آموزشی داشته باشیم.
برای بدست آوردن وزنها میتوان از maximum
likelihood estimateاستفاده کرد:
باید وزنهای > W=<w0, ... wnطوری انتخاب شوند که
مقدار درستنمائی داده ماکزیمم شود.
بجای رابطه فوق از درست نمائی شرطی استفاده میشود:
12
Expressing Conditional Log
Likelihood
میتوان برای محاسبه مقدار فوق از logعبارت فوق استفاده
نمود.
با فرض اینکه Yفقط یکی از دو مقدار 0یا 1را دارد خواهیمداشت:
13
Maximizing Conditional Log
Likelihood
هیچ راه حل بسته ای برای ماکزیمم کردن درست نمائی شرطی
وجود ندارد.
استفاده از تکنیک نزول گرادیان یکی از راه حل های موجود
است:
14
Maximize Conditional Log
Likelihood: Gradient Ascent
تغییرات وزن تا زمانی ادامه می یابد که مقدار آن خیلی ناچیز
شود.
توجه شود که عبارت داخل پرانتز بسادگی اختالف بین مقدار هدف و مقدار تابع احتمال آن است
مقادیر اولیه وزنها صفر در نظر گرفته میشود و مقادیر نهائی از تکرار عبارت زیر بدست می آید
15
مشکالت استفاده از ML
16
به خاطر ماهیت concaveبودن تابع ) l(Wرابطه فوق حتما
ماکزیمم globalرا پیدا خواهد کرد.
استفاده از MLمی تواند برای داده های جدا پذیر خطی به
over fittingشدید منجر شود.
دلیل این امر این است که راه حل MLوقتی اتفاق می افتد که
σ = 0.5و یا wTφ =0شده و منجر به بزرگ شدن وزنها
میشود.
این امر حتی وقتی که تعداد داده ها نسبت به تعداد پارامترها
زیاد باشد روی خواهد داد.
Regularization in Logistic
Regression
برای پرهیز از over fittingمیتوان از عبارت رگوالریزیشن
استفاده نمود .این جمله طوری اضافه میشود که وزنهای بزرگ
را جریمه نماید:
میزان تاثیر جمله جریمه را تعیین میکند
17
با افزودن این جمله تابع هدفی که باید ماکزیمم شود بصورت
MAPدر می آید زیرا تخمین MAPبردار وزن دارای فرم
کلی زیر است.
که در آن ) P(Wدارای توزیع گوسی با میانگین صفر و
است.
واریانس
استفاده از MAP
با افزودن ترم جریمه میتوان مطابق حالت قبل عمل یافتن وزنها
را با مشتق گیری و روش صعود گرادیان انجام داد:
modified gradient descent rule:
18
MLE vs MAP
19
دو روش MlEو MAPهر یک از روابط زیر برای پیدا
کردن وزنها استفاده میکنند.
Logistic Regression for functions
with Many Discrete Values
برای حالت غیر بولین که Yهر مقدار
داشته باشد داریم:
در نتیجه قانون تغییر وزنها بصورت زیر در می آید
20
مشاهده میشود که حالت بولین حالت خاصی از روابط فوق است.
را میتواند
Generative Classifiers
21
در اغلب مسایل عملی بدلیل پیچیدگی زیاد و یا وجود عدم
قطعیت نمی توان مدل ریاضی مشخصی را بدست آورد .در
چنین شرایطی می توان از مدل های احتماالتی استفاده نمود که
در آنها دانش اولیه بصورت تابع چگالی احتمال مدل شده و با
مشاهده داده مقدار احتمال ثانویه محاسبه میشود.
نمونه هائی از مدلهای مولد:
mixture model
Bayesian networks
hidden
Markov models
Use Naïve Bayes or Logisitic
Regression?
را محاسیه میکندP(Y|X) الجستیک رگراسیون مستقیما مقدار
. را محاسبه میکندP(Y) and P(X|Y) ابتدا مقادیر،درحالیکه بیزین ساده
هم برقرار باشد الجستیکGaussian Naive Bayes نشان داده میشود که وقتی تعداد داده های آموزشی زیاد باشد و شرایط
. در حالت حدی به دسته بندی مشابهی میرسندGaussian Naive Bayes رگراسیون و
. برقرار نباشد الجستیک رگراسیون نتایج بهتری بوجود می آوردGaussian Naive Bayes در حالیتکه شرط
.همگرایی الجستیک رگراسیون کند تر است
) نمونه بازای هر دسته50 ( در الجستیک رگراسیون باید تعداد نمونه ها زیاد باشد
when conditional independence assumptions incorrect
• LR is less biased – does not assume cond indep.
• therefore expected to outperform GNB when both given infinite training data
Number of parameters:
• NB: 4n +1
• LR: n+1
convergence rate of parameter estimates – how many
training examples needed to assure good estimates?
• GNB order log n )where n = # of attributes in X(
• LR order n
GNB converges more quickly to its
(perhaps less
accurate) asymptotic estimates
22
آیا دسته بندی کننده بیزی خطی است؟
23
وقتی بردار Xدارای ویژگی های گسسته باشد الگوریتم بیز را
میتوان بصورت یک دسته بندی کننده خطی در نظر گرفت.
برای حالت پیوسته نیز اگر واریانس هر ویژگی مستقل از
کالس در نظر گرفته شود میتوان آنرا خطی در نظر گرفت.
)(i.e., if sik = si
Probabilistic Generative
Models
در نگرش بیزین احتمال شرطی ) p(x|Ckو احتمال اولیه
) p(Ckاز روی داده های آموزشی یادگرفته شده و برای
ساختن احتمال ثانویه ) p(Ck|xبکار میروند.
برای ورودی های پیوسته تابع چگالی احتمال شرطی کالسی
بصورت گوسی فرض میشود:
24
Probabilistic Generative
Models
برای حالت دو کالسه داریم:
در این رابطه با فرض اینکه تمامی کالسها ماتریس کوواریانس
یکسانی دارند جمالت مرتبه 2از xحذف شده و رابطه
بصورت خطی در می آید.
25