Transcript Slide 1

SIFT
Scale Invariant Feature Transform
1
‫مقدمه‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪2‬‬
‫‪ SIFT‬یک ابزار توصیف تصویر است‬
‫در سال ‪ 1999‬و نسخه تکمیلی آن در ‪ 2004‬معرفی شد‪.‬‬
‫نسبت به تغییراتی مثل دوران و تغییر مقیاس پایدار است‬
‫نسبت به تبدیالت ‪ ،affine‬تغییرات نورپردازی‪ ،‬نویز و تغییر زاویه دید و انسداد تا حدی پایدار است‬
‫کاربردها‪ ،registration :‬شناسایی ش ی‪ ،‬شناسایی چهره‪ ،‬دنبال کردن ش ی و‪...‬‬
‫روش هایی مثل انطباق کلیشه احتیاج به بخشبندی دارند‪ ،‬اما ‪ SIFT‬این طور نیست‬
‫مراحل اصلی الگوریتم ‪SFIT‬‬
‫• تشخیص نقاط کلیدی تصویر‬
‫• محاسبه اطالعات توصیف کننده نقاط‬
‫‪3‬‬
‫تشخیص نقاط کلیدی تصویر‬
‫‪ ‬نقاط کلیدی به نقاطی از تصویر گفته می شود که در فضای مقیاس تصویر اکسترمم‬
‫باشند‪.‬‬
‫‪ ‬فضای مقیاس تصویر شامل مجموعه ای از تصاویر است‪ .‬تصاویر این مجموعه با استفاده‬
‫از کانولوشن تصویر اصلی با فیلترهای گوس ی با مقیاس های مختلف تولید می شوند‪.‬‬
‫‪4‬‬
‫ساخت فضای مقیاس‬
‫•‬
‫با ‪ convolve‬کردن یک تابع گوس ی با تصویر‪ ،‬یک نمونه نرم شده از آن به دست می آید‪ .‬با تغییر ‪ σ‬می‬
‫توان میزان نرمی تصویر را تعیین کرد‪.‬‬
‫) ‪L ( x, y,‬‬
‫) ‪I ( x, y‬‬
‫) ‪L ( x, y, )  G ( x, y, ) * I ( x, y‬‬
‫) ‪ (x  y‬‬
‫‪2‬‬
‫)‬
‫‪5‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫(‪exp‬‬
‫‪1‬‬
‫‪2‬‬
‫‪2‬‬
‫‪G ( x, y, ) ‬‬
‫ساخت فضای مقیاس (ادامه)‬
‫•‬
‫‪6‬‬
‫فضای مقیاس شامل چند تصویر است که با چند بار اعمال فیلتر گوس ی بدست آمده اند‪.‬‬
‫ساخت فضای مقیاس (ادامه)‬
‫•‬
‫•‬
‫سپس عمل ‪ resampling‬انجام شده و یک ”اکتاو“ جدید ساخته می شود‪.‬‬
‫در هر اکتاو‪ ،‬تفاضل گوس ی ها (‪ )DoG‬محاسبه می شود‪.‬‬
‫‪σ‬‬
‫‪Y‬‬
‫)‪D(X,Y, σ‬‬
‫‪X‬‬
‫‪7‬‬
‫ساخت فضای مقیاس (مثال)‬
‫اکتاو ‪1‬‬
‫تصاویر‬
‫گوسی‬
‫اکتاو ‪2‬‬
‫اکتاو ‪3‬‬
‫اکتاو ‪4‬‬
‫اکتاو ‪1‬‬
‫تفاضالت‬
‫گوسی‬
‫اکتاو ‪2‬‬
‫اکتاو ‪3‬‬
‫اکتاو ‪4‬‬
‫‪8‬‬
‫یافتن نقاط کلیدی (‪)keypoints‬‬
‫•‬
‫•‬
‫اکسترمم های تابع ‪ D‬محاسبه می شود (هر نقطه با ‪ 8‬همسایه و نقاط همسایه در صفحات مجاور محاسبه‬
‫می شود‪ ،‬در مجموع ‪ 26‬همسایه)‬
‫سپس نقاط نامناسب حذف می شوند‪.‬‬
‫تفاضالت گوس ی (‪)DoG‬‬
‫• تا اینجا به ازای هر نقطه کلیدی‪ ،‬یک مختصات و یک مقیاس داریم‪(X,Y,σ) :‬‬
‫‪9‬‬
‫اختصاص جهت‬
‫•‬
‫بردار گرادیان در هر نقطه تصویر‪ ،‬جهت و اندازه بیشترین تغییرات را نشان می دهد و عمود بر لبه است‪.‬‬
‫• برای ثابت بودن نسبت به دوران‪ ،‬یک دستگاه مختصات از روی گرادیان تعریف می شود‪.‬‬
‫‪L ‬‬
‫‪ Lx ‬‬
‫‪ x   L ( x  1, y )  L ( x , y ) ‬‬
‫‪‬‬
‫‪ ‬‬
‫‪   L‬‬
‫‪‬‬
‫‪L‬‬
‫‪‬‬
‫‪‬‬
‫‪L‬‬
‫(‬
‫‪x‬‬
‫‪,‬‬
‫‪y‬‬
‫‪‬‬
‫‪1‬‬
‫)‬
‫‪‬‬
‫‪L‬‬
‫(‬
‫‪x‬‬
‫‪,‬‬
‫‪y‬‬
‫)‬
‫‪y‬‬
‫‪‬‬
‫‪ ‬‬
‫‪y  ‬‬
‫‪‬‬
‫‪2‬‬
‫‪10‬‬
‫‪2‬‬
‫‪Lx  Ly‬‬
‫) ‪(L y / Lx‬‬
‫‪1‬‬
‫‪m ( x, y ) ‬‬
‫‪ ( x , y )  tan‬‬
‫اختصاص جهت (ادامه)‬
‫•‬
‫•‬
‫در یک پنجره اطراف هر نقطه کلیدی‪ ،‬یک هیستوگرام از گرادیان ها ساخته می شود‪.‬‬
‫جتهی که بیشترین فراوانی را دارد به عنوان جهت غالب انتخاب می شود‪.‬‬
‫• تا اینجا برای هر نقطه کلیدی‪ ،‬یک مختصات‪ ،‬یک مقیاس و یک جهت داریم‪(X,Y,σ,O) :‬‬
‫‪11‬‬
‫استخراج ویژگی ها‬
‫•‬
‫به هر نقطه کلیدی یک بردار ویژگی شامل ‪ 128‬مولفه اختصاص داده می شود‪.‬‬
‫•‬
‫•‬
‫•‬
‫پنجره اطراف نقطه کلیدی به ‪ 4*4‬زیرپنجره تقسیم می شود‪.‬‬
‫در هر زیر پنجره یک هیستوگرام از گرادیان ها رسم می شود (هر هیستوگرام شامل ‪ 8‬مقدار است)‪.‬‬
‫تعداد ویژگی ها‪128 = 4*4*8 :‬‬
‫‪12‬‬
‫خروجی ‪SIFT‬‬
‫•‬
‫•‬
‫•‬
‫فرض کنید ‪ n‬نقطه کلیدی داریم‬
‫‪ n‬بردار به شکل )‪ (X,Y,σ,O‬داریم‬
‫‪ n‬بردار ‪ 128‬تایی داریم )‪(f1, …, f128‬‬
‫مختصات‪ ،‬مقیاس و جهت نقاط کلیدی‬
‫‪13‬‬
‫یافتن اشیا در تصویر به کمک ‪SIFT‬‬
‫• ویژگی ها از تصاویر مورد جستجو (موجود در پایگاه) داده استخراج می شوند‪.‬‬
‫• ویژگی ها از تصویر صحنه هم استخراج می شوند‪.‬‬
‫• ویژگی های تصاویر پایگاه داده در تصویر صحنه جستجو می شوند‪.‬‬
‫• به علت زیاد بودن ویژگی ها‪ ،‬انسداد تا حدی قابل تحمل است‪.‬‬
‫‪14‬‬
‫کاربردها‪ :‬شناسایی چهره‬
‫‪15‬‬
‫کاربردها‪ registration :‬تصاویر چند طیفی‬
‫تصویر مرئی‬
‫‪16‬‬
‫تصویر مادون قرمز‬
‫سایر کاربردها‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪17‬‬
‫دنبال کردن حرکت‬
‫مدل سازی سه بعدی صحنه‬
‫ساخت پانوراما‬
‫بخشبندی تصویر‬
‫شناسایی مکان‬
‫‪Robot localization and mapping‬‬
‫و‪...‬‬
‫خالصه‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪18‬‬
‫‪ SIFT‬یک روش توصیف تصاویر است‪.‬‬
‫شامل استخراج نقاط کلیدی و سپس انتساب یک بردار ویژگی به هر نقطه کلیدی است‪.‬‬
‫ویژگی های استخراج شده نسبت به تغییراتی مثل دوران و تغییر مقیاس پایدار است‪.‬‬
‫نسبت به تبدیالت ‪ ،affine‬تغییرات نورپردازی‪ ،‬نویز و تغییر زاویه دید و انسداد تا حدی پایدار است‪.‬‬
‫در یافتن اشیا‪ ،‬شناسایی چهره و‪ ...‬کاربرد دارد‪.‬‬