Transcript PowerPoint Presentation - دانشگاه آزاد اسلامي واحد نجف آباد
Slide 1
داده کاوی نمونه سؤال
Data Mining
Sample Questions
دکتر محمد حسین ندیمی
دانشکده مهندسی کامپیوتر
دانشگاه آزاد اسالمی واحد نجف آباد
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
1
Slide 2
• تعریف جامع انبار داده:
یک انباره داده جمع آوری موضوع گرا ،یکپارچه ،متغیر بر اساس زمان و پایدار از داده ها است که امکان حمایت از
فرآیند تصمیم گیری مدیران را فراهم می کند.
2
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 3
ابعاد یا Dimensions
دیدگاها یا موجودیت هایی هستند که با توجه با خواسته های یک سازمان به عنوان رکورد نگهداری می شوند .هر بعد
ممکن است یک جدول مربوط به خود به نام جدول بعد ( )dimension tableداشته باشد که این بعد را بیشتر
توصیف می کند.
•
حقایق یا Facts
حقایق معیارهای عددی هستند که به منظور تحلیل روابط بین ابعاد بکار گرفته می شوند.
و با یک جدول حقیقت ( )Fact tableنشان داده می شوند.
3
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 4
Star • شمای ستاره ای یا
Snowflake • شمای دانه برفی یا
Fact Constellation • شمای صورت فلکی واقعی یا
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
4
Slide 5
یک جدول مرکزی بزرگ که شامل مجموعه ای بدون افزونگی از دادهاست
.یک مجموعه جداول کوچکتر به ازای هر بعد:
:Fact table
Dimension table
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
5
Slide 6
نوعی از مدل شمای Starاست به طوریکه جداول بعد نرمال شده هستند.
تفاوت اصلی بین مدل های شمای Starو Snowfalkeاین است که جداول بعد مدل Snow flakeبرای
حذف افزونگی ها به شکل نرمال شده نگهداری می شوند.
این روش باعث کاهش افزونگی و همین طور کارآیی می شود.
6
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 7
از مجموعه ای از شماهای Starتشکیل شده است.
برنامه های کاربردی پیچیده تر به چندین جدول حقیقت برای به اشتراک گذاری جداول بعد نیاز دارند:
یک شمای Fact Constellationامکان استفاده اشتراکی جداول حقیقت از جداول بعد را میسر می سازد.
7
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 8
) چهار دیدگاه متفاوتی که در مورد یک انبار داده وجود دارد را7
.بیان نمایید
Top-down view
دیدگاه باال به پایین
Data source view
دیدگاه دادهای منبع
Data warehouse view
دیدگاه انبار داده
Business query view
دیدگاه پرس و جوی تجاری
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
•
•
•
•
8
Slide 9
)8مراحل فرایند طراحی انبارههای داده را بنویسید.
)1انتخاب یک فرایند تجاری برای مدلسازی
)2انتخاب دانه بندی فرایند تجاری
)3انتخاب ابعادی که روی هر رکورد از جدول حقیقت اعمال
خواهد شد.
)4انتخاب معیارهایی که هر رکورد در جدول حقیقت قرار می
گیرد.
9
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 10
)9الیههای انبار داده با معماری سه الیه را بیان کنید.
)1پایینترین الیه در معاری انبارههای داده ،سرویس دهنده انبار
داده است که تقریبا همیشه یک سیستم پایگاه داده رابطه ای
است.
)2الیه میانی که یک سرویس دهنده OLAPاست و به 2مدل
تقسیم میشود.
.1مدل OLAPرابطهای)(ROLAP
.2مدل OLAPچند بعدی)(MOLAP
)3باالترین الیه که با کاربر در ارتباط است.
10
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 11
آنها را،) از نقطه نظر معماری چند مدل انبار داده وجود دارد10
.بیان کنید
Enterprise warehouse
Data Mart
Virtual Warehouse
) انبار داده تجاری1
) انبار داده اختصاصی2
) انبار داده مجازی3
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
11
Slide 12
. را بیان کنیدOLAP ) انواع سرویس دهنده های11
ROLAP
MOLAP
HOLAP
رابطهایOLAP ) سرویس دهندههای1
چند بعدیOLAP ) سرور های2
ترکیبیOLAP ) سرویس دهندههای3
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
12
Slide 13
.) ابزارهای انبار کردن داده را نام ببرید12
access and retrieval tools
) ابزارهای دستیابی و بازیاب1
database reporting tools ) ابزارهای گزارش گیری از پایگاه دادهها2
data analysis tools
) ابزارهای آنالیز داده3
data mining tools
) ابزارهای استخراج داده4
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
13
Slide 14
)13فرض کنید مجموعه تراکنش های پایگاه داده به صورت زیر باشد وفرض کنید که
min-supp=3وconfidence=50%
Items
TID
ABCD
100
ABCDF
200
BCDE
300
ABCDF
400
ABEF
500
(1مجموعه های کاندید و مجموعه های Lرا پیدا کنید
Closed &maximal itemset (2را پیدا کنید.
(3یکی از قوانین انجمن استنباط شده از این پایگاه را بنویسید
و درمورد پذیرش یا عدم پذیرش این قانون بحث کنید....
14
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 15
Scan D for count
Of each candidate
L1
C1
Item Sup
set
{A}
4
{B}
5
{C}
4
{D}
4
{E}
2
{F}
3
Compare candidate
Itemset
Support with min -sup
sup
Generate
C2 from L1 Itemset
C2
sup
{A}
4
{A,B}
4
{B}
5
{A,C}
3
{C}
4
{A.D}
3
{D}
4
{A.F}
3
{F}
3
{B.C}
4
{B.D}
4
{B.F}
3
{C,D}
4
{C.F}
2
{D,F}
2
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
15
Slide 16
itemset
sup
{A,B}
4
{A,C}
3
3
{A,D}
3
{A,F}
3
{B,C}
4
{B,D}
4
{B,F}
3
{C,D}
4
sup
Itemset
sup
{A,B,C}
3
{A,B,C
}
3
{A,B,D}
3
Itemset
{A,B,F}
3
{A,B,D
}
{A,C,D}
3
{A,B,F
}
3
{B,C,D}
4
{A,C,D
}
3
{B,C,D
}
4
C4
L4
Itemset
Sup
Itemset
Sup
{ABCD
3
{ABCD
3
}
L2
C3
L3
}
closed frequent itemset)1
{B}&{A,B}&{B,C,D}&{A,B,C,D}
Maximal frequent itemset)2
{A,B,F}&{A,B,C,D}
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
16
Slide 17
در این صورت الگوهای پرتکرار که از اجتماع L1وL2وL3و L4بدست
می آید ..
حال برای بدست آوردن قوانین انجمنی به صورت زیر عمل می کنیم :
فرض کنیم } L={A,B,Cکه زیر مجموعه های آن به شکل زیر می باشد
{},{A},{B},{C},{A,B},{A,C},{B,C},{A,B,C}:
به طور مثال یکی از قوانین به صورت زیر است که باید یا توجه به شرط
confidence=50%بررسی کنیم که آیا این قانون پذیرفته است یا خیر:
C
confidence =3/4=75%پس این قانون پذیرفته است:
17
R: A^B
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 18
fp- را رسم و الگوریتمfp-tree الف) برای پایگاه داده زیر درخت: 14
. را روی آن اعمال کنیدgrowth
• Min-Sup = 2
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
18
Slide 19
L = {(a:8)(b:7)(c:6)(d:5)(e:3)}
Item
ID
Sup
Count
a
8
b
7
c
6
d
5
e
3
NodeLink
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
19
Slide 20
Item
Conditional Pattern base
Conditional fp-tree
Frequent Pattern
Generate
e
{{a,d:1}{a,c,d:1}{b,c:1}}
{a,e:2}
d
{{a,b,c:1}{a,b:1}{a,c:1}{a:1}{b,c:1}}
{a,d:4}{a,b:2}{a,b,d:2}
c
{{a,b:3}{a:1}{b:2}}
{a,c:3}{b,c:3}{a,b,c:2}
b
{{a:5}}
{a,b:5}
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
20
Slide 21
را روی آن اعمالEclat ب) برای پایگاه داده سوال قبل الگوریتم: 14
.کنید
• Min-Sup = 2
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
21
Slide 22
در فرمت عمودی داده1-itemset
در فرمت عمودی داده2-itemset
Itemset
TID-set
Itemset
TID-set
a
1,3,4,5,6,7,8,9
A,b
1,5,6,8,9
b
1,2,5,6,8,9,10
A,c
3,5,6,8
c
2,3,5,6,8,10
A,d
3,4,6,9
d
2,3,4,6,9
A,e
3,4
e
3,4,10
B,c
2,5,6,8,10
B,d
6,9
B,e
10
C,d
2,3,6
C,e
3,10
D,e
3,4
در فرمت عمودی داده3-itemset
Itemset
TID-set
A,b,c
6,8
A,b,d
6,9
A,c,d
3,6
B,c,d
2,6
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
22
Slide 23
)15انواع گوناگون قوانین انجمنی را نام ببرید؟
قوانین انجمنی چند سطحی ،قوانین انجمنی چند بعدی ،قوانین انجکنی کمی
الف) دو الگوریتم برای کشف اقالم پرتکرار در هر سطح از انتزاع در قوانین نجمنی
سطحی را توضیح دهید؟
استفاده از حداقل ساپورت برای همه سطوح :در همه سطوح انتزاع از یا مقدار
ساپورت یکنواخت استفاده می شود و هنگامی که از حداقل آستانه ساپورت
یکنواخت استفاده می شود زیربرنامه جستجو ساده تر می شود.
استفاده از مقدار حداقل آستانه ساپورت کاهش یافته در سطوح پایین :هر
سطحی از انتزاع آستانه خودش را دارد و همه سطوح آستانه ساپورت
یکنواختی ندارند .هرچه سطح انتزاع عمیق تر باشد آستانه ساپورتش کوچکتر
می شود.
23
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 24
ب) چطور می توانیم قوانین انجمنی کمی را پیدا کنیم .توضیح دهید؟
با استفاده از الگوی ARCSیا سیستم خوشه بندی قوانین انجمنی که شامل مراحل زیر است:
arc : Binningاز Binningبا عرض مساوی استفاده می کند که اندازه بین به عنوان ورودی
توسط کاربر برای هر صفت کمی تعیین می شود .یک آرایه دوبعدی شامل دوصفت کمی ایجاد
می شود .هر سلول آرایه مقدار متناظر با هر کالس از صفت قطعی سمت راست قانون را نگه
می دارد و با این ساختار داده مربوط به وظیفه تنا یکبار اسکن می شود.
پیدا کردن مجموعه گزاره پر تکرار :یک آرایه دوبعدی شامل مقدار احتمالی است و برای پیدا
کردن مجوعه گزاره پرتکرار اسکن می شود .قوانین انجمنی قوی از این مجموعه گزاره با
استفاده از الگوریتم تولید قانون تولید می شوند.
خوشه بندی قوانین انجمنی :قوانین انجمنی بدست آمده در یک جدول دوبعدی قرار میگیرند،
قوانینی که کامال به هم نزدیک هستند یک خوشه روی جدول تشکیل می دهند ARCS .از یک
الگوریتم خوشه بندی در اینجا استفاده می کند .الگوریتم جدول را اسکن می کند و خوشه های
شبیه مستطیل از قوانین را جستجو می کند.
24
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 25
: 16الف) برای تقویت کردن چارچوب sup-confاز چه معیار دیگری
برای قوانین انجمنی استفاده می شود؟ انواع آن را نام ببرید؟
معیار همبستگیlift, x2, cosine, all confidence ،
ب) استخراج وابستگی مبنی بر محدودیت چیست و شامل چه مواردی می
باشد؟
داشتن کاربرانی مشخص که پیش بینی های آنها به صورت محدودیت هایی بر روی
فضای جستجو تعریف می شوند.
محدودیت های نوع دانش :نوع دانش خروجی را مشخص می کند.
محدودیت های داده :مجموعه ای از داده های مرتبط با وظیفه را مشخص می کنند.
محدودیت های سطح :سطوحی از مفهوم سلسله مراتبی را تعیین می کند.
محدودیت های قانون :فرم قوانین استخراجی را تعیین می کند.
25
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 26
)17فرض کنید که یک جدول ثبت بیماری خصوصیات زیر را در
برداشته باشد
عدم تشابه بین هر جفت بیمار را بدست آورید و بگویید کدام جفت
کدام جفت بیمار از نظر نوع بیماری به هم شبیه اند؟
26
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 27
jim وjack,mary بیمار3 فاصله بین هر جفت از:پاسخ
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
27
Slide 28
ماری و جیم چون باالترین مقدار عدم تشابه را بین 3جفت
دارند در بیماریشان کمتر بهم شبیه اند
ماری و جک بیشترین شباهت را دارند پس احتمال میدهیم یک
بیماری مشابه دارند
28
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 29
) فرض کنید ما یک نمونه اطالعات زیر را داریم ماتریس18
.عدم تشابه آن را رسم کنید
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
29
Slide 30
پاسخ:ماتریس عدم تشابه را حساب می کنیم
چونکه ما فقط یک متغیر طبقه بندی داریم ( )test 1پس مقدار
p=1و mبرای اشیا یکجور 1وبرای اشیا نا مشابه 0در فرمول
زیر قرار می دهیم
30
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 31
است و وقتی باهم0 یکجور اند برابرj وI وقتیd(i, j)
: است بنابراین1 متفاوت اند برابر
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
31
Slide 32
داریم طبقy=(0,1,1,0) وx=(1,1,0,0) متغیر2 ) فرض کنید19
را بدست آوریدy وx معادله تشابه کسینوسی شباهت بین
=
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
32
Slide 33
)20متغیر های دودویی متقارن و نا متقارن را تعریف کنید و برای هر
کدام مثال بزنید
پاسخ:متغییر دودویی متقارن است اگر از نظر موقعییت دارای ارزش
یکسانی باشند بنابراین هیچ برتری یا ترجیحی در این که خروجی صفر
باشد یا یک وجود ندارد
مانند جنس که وضعیت های زن و مرد را دارد
متغییر دودویی نامتقارن است اگر خروجی حاالت به یک اندازه مهم نباشد
مانند مثبت یا منفی بودن نتیجه تست hiv
33
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 34
) با استفاده ازمجموعه داده های آموزشی زیر احتمال21
انجام بازی تنیس با شرایط زیر را محاسبه کنید؟
Wind=strong>?
:پاسخ
P(yes) = 9/14, P(no) = 5/14
P(Wind=strong|yes) = 3/9
P(Wind=strong|no) = 3/5
…
P(y) P(sun|y) P(cool|y) P(high|y) P(strong|y) = .005
P(n) P(sun|n) P(cool|n) P(high|n) P(strong|n) = .021
• Therefore this new instance is classified to “no”
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
34
Slide 35
چیست؟ روشیDrew ) می خواهیم بدانیم جنسیت افسر22
پیشنهاد کنید تا با استفاده از داده های زیرجنسیت افسر مورد نظر
.مشخص شود
:پاسخ
Officer
Drew
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
35
Slide 36
Officer Drew IS a
female!
Officer Drew
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
36
Slide 37
باشدPos=100 , neg=400 در نظر بگیرید یک مجموعه آموزشی شامل
) برای مجموعه قوانین کاندید زیر تعیین کنید کدام قانون بهترین و کدام بدترین است؟23
a) Rule accuracy
R1=4/5=80%
R2=30/40=75%
R3=100/190=52.6%
قانون خوبی نیستR3 است وR1 ، قانون خوب
b) The Laplace measure
R1=71.43%
R2=73.81%
R3=52.6%
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
37
Slide 38
c) FOIL’s information gain
∅+
R0 P0=100 & n0=400
R1
P1=4 & n1=1
R2
p1=30 & n1=10
R3 p1=100 & n1=90
. قانون خوبی نیستR1 بهترین قانون است وR3
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
38
Slide 39
d) The likelihood ratio statistic
فرکانس مورد انتظار برای تاپلهای مثبت و منفی:R1
5 × 100/500 = 1
5 × 400/500 = 4
pos
neg
the likelihood ratio for R1 is:
2 × [ 4 × log2(4/1) + 1 × log2(1/4) ] = 12
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
39
Slide 40
40×100/500 = 8
فرکانس مورد انتظار برای تاپلهای مثبت و منفی:R2
pos
40 × 400/500 = 32
neg
the likelihood ratio for R2 is :
2 × [ 30 × log2(30/8) + 10 × log2(10/32) ] = 80.85
فرکانس مورد انتظار برای تاپلهای مثبت و منفی:R3
190 ×100/500 = 38
190 ×400/500 = 152
pos
neg
the likelihood ratio for R3 is :
2 × [ 100 × log2(100/38) + 90 × log2(90/152) ] = 143.09
. قانون خوبی نیستR1 بهترین قانون است وR3
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
40
Slide 41
)24طبقه بندی راتعریف کنید و 2مرحله ان را به طور خالصه شرح دهید.
طبقه بندی فرمی از تجزیه و تحلیل داده ها است که مدل های توصیفی مهم را از کالس های داده
استخراج می کند .
طبقه بندی داده ها یک فرآیند دو مرحله ای است :
گام اول :یادگیری یا مرحله آموزشی
الگوریتم طبقه بندی با آنالیز مجموعه آموزشی ایجاد شده ازتاپل های پایگاه داده ،برچسب های
کالس مرتبط با یک طبقه بندی کننده را می سازد
گام دوم :
دقت و صحت پیش بینی های طبقه بندی کننده به کمک یک مجموعه تست سنجیده می شود .
اگر دقت طبقه بندی به صورت قابل قبول در نظر گرفته شود طبقه بندی می تواند برای رده بندی
تاپل های داده آینده که برچسب کالس شان ناشناخته است نیز استفاده شود .
41
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 42
)25در چه مواردی طبقه بندی از پیش بینی متفاوت است ؟
: Classifierمدل کالس بندی داده ها را مشخص می کند.
مدل های خروجی nominalهستند مانند مشتری امن یا غیر امن .
دقت طبقه بندی کننده ها :برچسب کالس را پیش بینی می کند .
: Predictorمدل مقادیر پیوسته را مدل می کند .
مدل های خروجی آن ordinalاست .به عبارت دیگر یک پیش بینی عددی
از یک متغیر انجام می دهد .
دقت پیش بینی کننده :مقداری برای یک صفت پیش بینی می کند .
42
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 43
) روشهای طبقه بندی و پیش بینی را براساس چه معیارهایی می26
توان ارزیابی کرد؟
Predictive accuracy دقت-1
speed سرعت-2
Robustness استحکام- 3
Interpretability: توانایی تفسیر-4
scalability مقیاس پذیری-5
Goodness of rules -6
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
43
Slide 44
)27چه مواقعی از درخت تصمیم استفاده می کنیم ؟
-1ساخت درخت های تصمیم گیری طبقه بندی کننده ،هیچ دانش حوزه یا تنظیم پارامتر نیاز
ندارد ،و به همین دلیل برای کشف دانش اکتشافی مناسب است .
-2درخت های تصمیم گیری می توانند داده های باابعاد باال را اداره کند.
-3نمایشی از دانش اکتسابی در فرم درخت ذاتی است به راحتی توسط انسان تشبیه می شود
-4مراحل یادگیری و طبقه بندی درالقاء درخت تصمیم گیری ساده و پایدار است.
-5به طور کلی ،طبقه بندی کننده های درخت تصمیم گیری دارای دقت خوبی هستند .
-6الگوریتم های القاء درخت های تصمیم گیری ،برای طبقه بندی در بسیاری از زمینه های
کاربرد ،مانند پزشکی ،ساخت و تولید ،تجزیه و تحلیل مالی ،نجوم ،و زیست شناسی مولکولی
استفاده می شود.
-7درخت های تصمیم گیری ،اساس سیستم های چند قانون القای تجاری است.
44
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 45
)28اگر مسئله ما دارای mویژگی باشد ،ارتفاع درخت تصمیم
حداکثر چقدر خواهد بود؟
درخت تصمیم دارای یک ریشه است که آن خود یک ویژگی است،
در سئوال از آن ویژگی به پاسخی می رسیم که آن خود نیز ،ویژگی
است .
پس حداکثر ارتفاع درخت mخواهد بود.
45
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 46
مشتری نشان داده شده وهدف پیداکردن مشتریانی5) درمثال زیر29
)K-nn هستند که واقعا قصدخرید دارند؟(با استفاده ازالگوریتم
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
46
Slide 47
پاسخ
oاحتمال خرید مشتری شماره 5چه خواهد بود؟
پاسخ :با استفاده ازاین الگوریتم ،کتاب خواهد بود.
علت :زیرافاصله بین مشتری شماره 5و 1کمترازفاصله 5با
سایرمشتریان است.
براساس این مدل ما می توانیم رفتار مشتری شماره 5را پیش بینی
کنیم
(محاسبات درشکل نشان داده شده)
47
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 48
پاسخ
oتا االن ما یک نزدیکترین را پیدا کردیم اما اگر بخواهیم احتمال
خرید 2محصول یا بیشتررادرمشتری شماره 5پیداکنیم k=2
درنظرمی گیریم.
پاسخ :کتاب و DVD
48
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 49
) ما داده های حاصل از بررسی پرسشنامه (نظرمردمی) و تست30
هدف با دو ویژگی (ماندگاری اسید و پایداری) را برای طبقه بندی
اینکه آیا بافت کاغذ جدید خوب است یا نه ؟
در اینجا چهار نمونه آموزشی
X1 = Acid
Durability
(seconds)
X2 = Strength
Y = Classification
(kg/square meter)
7
7
Bad
7
4
Bad
3
4
Good
1
4
Good
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
49
Slide 50
در حال حاضر کارخانه تولید کاغذ بافت جدید باعبور تست های
آزمایشگاهی با X1=3و .X2=7بدون اینکه پژوهش گران داشته
باشیم ،می خواهیم حدس بزنید این بافت جدید از چه طبقه بندی
است؟
پاسخ
(1تعیین پارامتر =Kتعداد نزدیکترین همسایه
فرض کنید با استفاده از K = 3
(2محاسبه فاصله بین پرس و جو به عنوان مثال و همه نمونه
آموزشی است هم چنین با استفاده ازفرمول فاصله اقلیدسی (بدون
محاسبه ریشه مربع) است
50
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 51
X1 = Acid Durability
(seconds)
X2 = Strength
Square Distance to
(kg/square meter) query instance (3, 7)
7
7
7
4
3
4
1
4
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
51
Slide 52
( مرتب سازی فاصله ها وتعیین نزدیکترین همسایه براساس3
K کمترین فاصله
Square
Distance to
(kg/square
query
meter)
instance (3, 7)
X1 = Acid
Durability
(seconds)
X2 = Strength
Rank
minimum
distance
7
7
3
7
4
4
3
4
1
1
4
2
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
52
Slide 53
دقت کنید که ردیف.Y ( جمع آوری نزدیکترین همسایه های دسته4
)K=3( نیست زیرارتبه آن کمترازY دوم سطرآخرجزدسته بندی
.است
Square
X2 =
Is it
Y=
Distance
X1 = Acid
Rank
Strength
included in Category of
Durability
minimum
to query
3-Nearest
nearest
(seconds) (kg/square instance distance
neighbors? Neighbor
meter)
(3, 7)
7
7
3
Yes
Bad
7
4
4
No
-
3
4
1
Yes
Good
1
4
2
Yes
Good
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
53
Slide 54
( با استفاده از رای اکثریت کالس رابرای این نمونه پیش بینی می5
ازاین رو کالس1>2 پسBad داریم ویکgood تا2 ، کنیم
.استGood این تست برابر
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
54
Slide 55
3 )31مورد از انواع روش های خوشه بندی را نام ببرید و یکی را به
اختصار توضیح دهید
•
•
•
•
•
55
روش های بخش بندی
روش های سلسله مراتبی
روش های مبتنی بر چگالی
روش های مبتنی بر گرید
روش های مبتنی بر مدل
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 56
روش های خوشه بندی بصورت بخش بندی)(kmeans
در این روش ابتدا به تعداد خوشههای مورد نیاز ،نقاطی به صورت تصادفی
انتخاب میشود .سپس در دادهها با توجه با میزان نزدیکی (شباهت) به یکی
از این خوشهها نسبت داده میشوند و بدین ترتیب خوشههای جدیدی
حاصل میشود .با تکرار همین روال میتوان در هر تکرار با میانگینگیری از
دادهها مراکز جدیدی برای آنها محاسبه کرد و مجدادأ دادهها را به خوشههای
جدید نسبت داد .این روند تا زمانی ادامه پیدا میکند که دیگر تغییری در
دادهها حاصل نشود.
56
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 57
)32مشکالت روش خوشهبندی K-Meansرا نام ببرید
•
•
•
•
•
علیرغم اینکه خاتمهپذیری الگوریتم باال تضمین شده است ولی جواب
نهایی آن واحد نبوده و همواره جوابی بهینه نمیباشد .جواب نهایی به
انتخاب خوشههای اولیه وابستگی دارد.
روالی مشخص برای محاسبة اولیة مراکز خوشهها وجود ندارد.
اگر در تکراری از الگوریتم تعداد دادههای متعلق به خوشهای صفر شد
راهی برای تغییر و بهبود ادامة روش وجود ندارد.
در این روش فرض شده است که تعداد خوشهها از ابتدا مشخص است.
اما معموال در کاربردهای زیادی تعداد خوشهها مشخص نمیباشد.
نسبت به داده های دارای نویز بسیار حساس است .
57
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 58
) روش خوشه بندی سلسله مراتبی را نام ببرید و هرکدام را33
بطور خالصه شرح دهید
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
58
Slide 59
با تشکر
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
59
داده کاوی نمونه سؤال
Data Mining
Sample Questions
دکتر محمد حسین ندیمی
دانشکده مهندسی کامپیوتر
دانشگاه آزاد اسالمی واحد نجف آباد
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
1
Slide 2
• تعریف جامع انبار داده:
یک انباره داده جمع آوری موضوع گرا ،یکپارچه ،متغیر بر اساس زمان و پایدار از داده ها است که امکان حمایت از
فرآیند تصمیم گیری مدیران را فراهم می کند.
2
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 3
ابعاد یا Dimensions
دیدگاها یا موجودیت هایی هستند که با توجه با خواسته های یک سازمان به عنوان رکورد نگهداری می شوند .هر بعد
ممکن است یک جدول مربوط به خود به نام جدول بعد ( )dimension tableداشته باشد که این بعد را بیشتر
توصیف می کند.
•
حقایق یا Facts
حقایق معیارهای عددی هستند که به منظور تحلیل روابط بین ابعاد بکار گرفته می شوند.
و با یک جدول حقیقت ( )Fact tableنشان داده می شوند.
3
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 4
Star • شمای ستاره ای یا
Snowflake • شمای دانه برفی یا
Fact Constellation • شمای صورت فلکی واقعی یا
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
4
Slide 5
یک جدول مرکزی بزرگ که شامل مجموعه ای بدون افزونگی از دادهاست
.یک مجموعه جداول کوچکتر به ازای هر بعد:
:Fact table
Dimension table
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
5
Slide 6
نوعی از مدل شمای Starاست به طوریکه جداول بعد نرمال شده هستند.
تفاوت اصلی بین مدل های شمای Starو Snowfalkeاین است که جداول بعد مدل Snow flakeبرای
حذف افزونگی ها به شکل نرمال شده نگهداری می شوند.
این روش باعث کاهش افزونگی و همین طور کارآیی می شود.
6
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 7
از مجموعه ای از شماهای Starتشکیل شده است.
برنامه های کاربردی پیچیده تر به چندین جدول حقیقت برای به اشتراک گذاری جداول بعد نیاز دارند:
یک شمای Fact Constellationامکان استفاده اشتراکی جداول حقیقت از جداول بعد را میسر می سازد.
7
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 8
) چهار دیدگاه متفاوتی که در مورد یک انبار داده وجود دارد را7
.بیان نمایید
Top-down view
دیدگاه باال به پایین
Data source view
دیدگاه دادهای منبع
Data warehouse view
دیدگاه انبار داده
Business query view
دیدگاه پرس و جوی تجاری
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
•
•
•
•
8
Slide 9
)8مراحل فرایند طراحی انبارههای داده را بنویسید.
)1انتخاب یک فرایند تجاری برای مدلسازی
)2انتخاب دانه بندی فرایند تجاری
)3انتخاب ابعادی که روی هر رکورد از جدول حقیقت اعمال
خواهد شد.
)4انتخاب معیارهایی که هر رکورد در جدول حقیقت قرار می
گیرد.
9
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 10
)9الیههای انبار داده با معماری سه الیه را بیان کنید.
)1پایینترین الیه در معاری انبارههای داده ،سرویس دهنده انبار
داده است که تقریبا همیشه یک سیستم پایگاه داده رابطه ای
است.
)2الیه میانی که یک سرویس دهنده OLAPاست و به 2مدل
تقسیم میشود.
.1مدل OLAPرابطهای)(ROLAP
.2مدل OLAPچند بعدی)(MOLAP
)3باالترین الیه که با کاربر در ارتباط است.
10
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 11
آنها را،) از نقطه نظر معماری چند مدل انبار داده وجود دارد10
.بیان کنید
Enterprise warehouse
Data Mart
Virtual Warehouse
) انبار داده تجاری1
) انبار داده اختصاصی2
) انبار داده مجازی3
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
11
Slide 12
. را بیان کنیدOLAP ) انواع سرویس دهنده های11
ROLAP
MOLAP
HOLAP
رابطهایOLAP ) سرویس دهندههای1
چند بعدیOLAP ) سرور های2
ترکیبیOLAP ) سرویس دهندههای3
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
12
Slide 13
.) ابزارهای انبار کردن داده را نام ببرید12
access and retrieval tools
) ابزارهای دستیابی و بازیاب1
database reporting tools ) ابزارهای گزارش گیری از پایگاه دادهها2
data analysis tools
) ابزارهای آنالیز داده3
data mining tools
) ابزارهای استخراج داده4
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
13
Slide 14
)13فرض کنید مجموعه تراکنش های پایگاه داده به صورت زیر باشد وفرض کنید که
min-supp=3وconfidence=50%
Items
TID
ABCD
100
ABCDF
200
BCDE
300
ABCDF
400
ABEF
500
(1مجموعه های کاندید و مجموعه های Lرا پیدا کنید
Closed &maximal itemset (2را پیدا کنید.
(3یکی از قوانین انجمن استنباط شده از این پایگاه را بنویسید
و درمورد پذیرش یا عدم پذیرش این قانون بحث کنید....
14
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 15
Scan D for count
Of each candidate
L1
C1
Item Sup
set
{A}
4
{B}
5
{C}
4
{D}
4
{E}
2
{F}
3
Compare candidate
Itemset
Support with min -sup
sup
Generate
C2 from L1 Itemset
C2
sup
{A}
4
{A,B}
4
{B}
5
{A,C}
3
{C}
4
{A.D}
3
{D}
4
{A.F}
3
{F}
3
{B.C}
4
{B.D}
4
{B.F}
3
{C,D}
4
{C.F}
2
{D,F}
2
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
15
Slide 16
itemset
sup
{A,B}
4
{A,C}
3
3
{A,D}
3
{A,F}
3
{B,C}
4
{B,D}
4
{B,F}
3
{C,D}
4
sup
Itemset
sup
{A,B,C}
3
{A,B,C
}
3
{A,B,D}
3
Itemset
{A,B,F}
3
{A,B,D
}
{A,C,D}
3
{A,B,F
}
3
{B,C,D}
4
{A,C,D
}
3
{B,C,D
}
4
C4
L4
Itemset
Sup
Itemset
Sup
{ABCD
3
{ABCD
3
}
L2
C3
L3
}
closed frequent itemset)1
{B}&{A,B}&{B,C,D}&{A,B,C,D}
Maximal frequent itemset)2
{A,B,F}&{A,B,C,D}
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
16
Slide 17
در این صورت الگوهای پرتکرار که از اجتماع L1وL2وL3و L4بدست
می آید ..
حال برای بدست آوردن قوانین انجمنی به صورت زیر عمل می کنیم :
فرض کنیم } L={A,B,Cکه زیر مجموعه های آن به شکل زیر می باشد
{},{A},{B},{C},{A,B},{A,C},{B,C},{A,B,C}:
به طور مثال یکی از قوانین به صورت زیر است که باید یا توجه به شرط
confidence=50%بررسی کنیم که آیا این قانون پذیرفته است یا خیر:
C
confidence =3/4=75%پس این قانون پذیرفته است:
17
R: A^B
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 18
fp- را رسم و الگوریتمfp-tree الف) برای پایگاه داده زیر درخت: 14
. را روی آن اعمال کنیدgrowth
• Min-Sup = 2
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
18
Slide 19
L = {(a:8)(b:7)(c:6)(d:5)(e:3)}
Item
ID
Sup
Count
a
8
b
7
c
6
d
5
e
3
NodeLink
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
19
Slide 20
Item
Conditional Pattern base
Conditional fp-tree
Frequent Pattern
Generate
e
{{a,d:1}{a,c,d:1}{b,c:1}}
{a,e:2}
d
{{a,b,c:1}{a,b:1}{a,c:1}{a:1}{b,c:1}}
{a,d:4}{a,b:2}{a,b,d:2}
c
{{a,b:3}{a:1}{b:2}}
{a,c:3}{b,c:3}{a,b,c:2}
b
{{a:5}}
{a,b:5}
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
20
Slide 21
را روی آن اعمالEclat ب) برای پایگاه داده سوال قبل الگوریتم: 14
.کنید
• Min-Sup = 2
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
21
Slide 22
در فرمت عمودی داده1-itemset
در فرمت عمودی داده2-itemset
Itemset
TID-set
Itemset
TID-set
a
1,3,4,5,6,7,8,9
A,b
1,5,6,8,9
b
1,2,5,6,8,9,10
A,c
3,5,6,8
c
2,3,5,6,8,10
A,d
3,4,6,9
d
2,3,4,6,9
A,e
3,4
e
3,4,10
B,c
2,5,6,8,10
B,d
6,9
B,e
10
C,d
2,3,6
C,e
3,10
D,e
3,4
در فرمت عمودی داده3-itemset
Itemset
TID-set
A,b,c
6,8
A,b,d
6,9
A,c,d
3,6
B,c,d
2,6
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
22
Slide 23
)15انواع گوناگون قوانین انجمنی را نام ببرید؟
قوانین انجمنی چند سطحی ،قوانین انجمنی چند بعدی ،قوانین انجکنی کمی
الف) دو الگوریتم برای کشف اقالم پرتکرار در هر سطح از انتزاع در قوانین نجمنی
سطحی را توضیح دهید؟
استفاده از حداقل ساپورت برای همه سطوح :در همه سطوح انتزاع از یا مقدار
ساپورت یکنواخت استفاده می شود و هنگامی که از حداقل آستانه ساپورت
یکنواخت استفاده می شود زیربرنامه جستجو ساده تر می شود.
استفاده از مقدار حداقل آستانه ساپورت کاهش یافته در سطوح پایین :هر
سطحی از انتزاع آستانه خودش را دارد و همه سطوح آستانه ساپورت
یکنواختی ندارند .هرچه سطح انتزاع عمیق تر باشد آستانه ساپورتش کوچکتر
می شود.
23
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 24
ب) چطور می توانیم قوانین انجمنی کمی را پیدا کنیم .توضیح دهید؟
با استفاده از الگوی ARCSیا سیستم خوشه بندی قوانین انجمنی که شامل مراحل زیر است:
arc : Binningاز Binningبا عرض مساوی استفاده می کند که اندازه بین به عنوان ورودی
توسط کاربر برای هر صفت کمی تعیین می شود .یک آرایه دوبعدی شامل دوصفت کمی ایجاد
می شود .هر سلول آرایه مقدار متناظر با هر کالس از صفت قطعی سمت راست قانون را نگه
می دارد و با این ساختار داده مربوط به وظیفه تنا یکبار اسکن می شود.
پیدا کردن مجموعه گزاره پر تکرار :یک آرایه دوبعدی شامل مقدار احتمالی است و برای پیدا
کردن مجوعه گزاره پرتکرار اسکن می شود .قوانین انجمنی قوی از این مجموعه گزاره با
استفاده از الگوریتم تولید قانون تولید می شوند.
خوشه بندی قوانین انجمنی :قوانین انجمنی بدست آمده در یک جدول دوبعدی قرار میگیرند،
قوانینی که کامال به هم نزدیک هستند یک خوشه روی جدول تشکیل می دهند ARCS .از یک
الگوریتم خوشه بندی در اینجا استفاده می کند .الگوریتم جدول را اسکن می کند و خوشه های
شبیه مستطیل از قوانین را جستجو می کند.
24
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 25
: 16الف) برای تقویت کردن چارچوب sup-confاز چه معیار دیگری
برای قوانین انجمنی استفاده می شود؟ انواع آن را نام ببرید؟
معیار همبستگیlift, x2, cosine, all confidence ،
ب) استخراج وابستگی مبنی بر محدودیت چیست و شامل چه مواردی می
باشد؟
داشتن کاربرانی مشخص که پیش بینی های آنها به صورت محدودیت هایی بر روی
فضای جستجو تعریف می شوند.
محدودیت های نوع دانش :نوع دانش خروجی را مشخص می کند.
محدودیت های داده :مجموعه ای از داده های مرتبط با وظیفه را مشخص می کنند.
محدودیت های سطح :سطوحی از مفهوم سلسله مراتبی را تعیین می کند.
محدودیت های قانون :فرم قوانین استخراجی را تعیین می کند.
25
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 26
)17فرض کنید که یک جدول ثبت بیماری خصوصیات زیر را در
برداشته باشد
عدم تشابه بین هر جفت بیمار را بدست آورید و بگویید کدام جفت
کدام جفت بیمار از نظر نوع بیماری به هم شبیه اند؟
26
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 27
jim وjack,mary بیمار3 فاصله بین هر جفت از:پاسخ
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
27
Slide 28
ماری و جیم چون باالترین مقدار عدم تشابه را بین 3جفت
دارند در بیماریشان کمتر بهم شبیه اند
ماری و جک بیشترین شباهت را دارند پس احتمال میدهیم یک
بیماری مشابه دارند
28
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 29
) فرض کنید ما یک نمونه اطالعات زیر را داریم ماتریس18
.عدم تشابه آن را رسم کنید
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
29
Slide 30
پاسخ:ماتریس عدم تشابه را حساب می کنیم
چونکه ما فقط یک متغیر طبقه بندی داریم ( )test 1پس مقدار
p=1و mبرای اشیا یکجور 1وبرای اشیا نا مشابه 0در فرمول
زیر قرار می دهیم
30
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 31
است و وقتی باهم0 یکجور اند برابرj وI وقتیd(i, j)
: است بنابراین1 متفاوت اند برابر
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
31
Slide 32
داریم طبقy=(0,1,1,0) وx=(1,1,0,0) متغیر2 ) فرض کنید19
را بدست آوریدy وx معادله تشابه کسینوسی شباهت بین
=
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
32
Slide 33
)20متغیر های دودویی متقارن و نا متقارن را تعریف کنید و برای هر
کدام مثال بزنید
پاسخ:متغییر دودویی متقارن است اگر از نظر موقعییت دارای ارزش
یکسانی باشند بنابراین هیچ برتری یا ترجیحی در این که خروجی صفر
باشد یا یک وجود ندارد
مانند جنس که وضعیت های زن و مرد را دارد
متغییر دودویی نامتقارن است اگر خروجی حاالت به یک اندازه مهم نباشد
مانند مثبت یا منفی بودن نتیجه تست hiv
33
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 34
) با استفاده ازمجموعه داده های آموزشی زیر احتمال21
انجام بازی تنیس با شرایط زیر را محاسبه کنید؟
:پاسخ
P(yes) = 9/14, P(no) = 5/14
P(Wind=strong|yes) = 3/9
P(Wind=strong|no) = 3/5
…
P(y) P(sun|y) P(cool|y) P(high|y) P(strong|y) = .005
P(n) P(sun|n) P(cool|n) P(high|n) P(strong|n) = .021
• Therefore this new instance is classified to “no”
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
34
Slide 35
چیست؟ روشیDrew ) می خواهیم بدانیم جنسیت افسر22
پیشنهاد کنید تا با استفاده از داده های زیرجنسیت افسر مورد نظر
.مشخص شود
:پاسخ
Officer
Drew
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
35
Slide 36
Officer Drew IS a
female!
Officer Drew
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
36
Slide 37
باشدPos=100 , neg=400 در نظر بگیرید یک مجموعه آموزشی شامل
) برای مجموعه قوانین کاندید زیر تعیین کنید کدام قانون بهترین و کدام بدترین است؟23
a) Rule accuracy
R1=4/5=80%
R2=30/40=75%
R3=100/190=52.6%
قانون خوبی نیستR3 است وR1 ، قانون خوب
b) The Laplace measure
R1=71.43%
R2=73.81%
R3=52.6%
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
37
Slide 38
c) FOIL’s information gain
∅+
R0 P0=100 & n0=400
R1
P1=4 & n1=1
R2
p1=30 & n1=10
R3 p1=100 & n1=90
. قانون خوبی نیستR1 بهترین قانون است وR3
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
38
Slide 39
d) The likelihood ratio statistic
فرکانس مورد انتظار برای تاپلهای مثبت و منفی:R1
5 × 100/500 = 1
5 × 400/500 = 4
pos
neg
the likelihood ratio for R1 is:
2 × [ 4 × log2(4/1) + 1 × log2(1/4) ] = 12
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
39
Slide 40
40×100/500 = 8
فرکانس مورد انتظار برای تاپلهای مثبت و منفی:R2
pos
40 × 400/500 = 32
neg
the likelihood ratio for R2 is :
2 × [ 30 × log2(30/8) + 10 × log2(10/32) ] = 80.85
فرکانس مورد انتظار برای تاپلهای مثبت و منفی:R3
190 ×100/500 = 38
190 ×400/500 = 152
pos
neg
the likelihood ratio for R3 is :
2 × [ 100 × log2(100/38) + 90 × log2(90/152) ] = 143.09
. قانون خوبی نیستR1 بهترین قانون است وR3
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
40
Slide 41
)24طبقه بندی راتعریف کنید و 2مرحله ان را به طور خالصه شرح دهید.
طبقه بندی فرمی از تجزیه و تحلیل داده ها است که مدل های توصیفی مهم را از کالس های داده
استخراج می کند .
طبقه بندی داده ها یک فرآیند دو مرحله ای است :
گام اول :یادگیری یا مرحله آموزشی
الگوریتم طبقه بندی با آنالیز مجموعه آموزشی ایجاد شده ازتاپل های پایگاه داده ،برچسب های
کالس مرتبط با یک طبقه بندی کننده را می سازد
گام دوم :
دقت و صحت پیش بینی های طبقه بندی کننده به کمک یک مجموعه تست سنجیده می شود .
اگر دقت طبقه بندی به صورت قابل قبول در نظر گرفته شود طبقه بندی می تواند برای رده بندی
تاپل های داده آینده که برچسب کالس شان ناشناخته است نیز استفاده شود .
41
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 42
)25در چه مواردی طبقه بندی از پیش بینی متفاوت است ؟
: Classifierمدل کالس بندی داده ها را مشخص می کند.
مدل های خروجی nominalهستند مانند مشتری امن یا غیر امن .
دقت طبقه بندی کننده ها :برچسب کالس را پیش بینی می کند .
: Predictorمدل مقادیر پیوسته را مدل می کند .
مدل های خروجی آن ordinalاست .به عبارت دیگر یک پیش بینی عددی
از یک متغیر انجام می دهد .
دقت پیش بینی کننده :مقداری برای یک صفت پیش بینی می کند .
42
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 43
) روشهای طبقه بندی و پیش بینی را براساس چه معیارهایی می26
توان ارزیابی کرد؟
Predictive accuracy دقت-1
speed سرعت-2
Robustness استحکام- 3
Interpretability: توانایی تفسیر-4
scalability مقیاس پذیری-5
Goodness of rules -6
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
43
Slide 44
)27چه مواقعی از درخت تصمیم استفاده می کنیم ؟
-1ساخت درخت های تصمیم گیری طبقه بندی کننده ،هیچ دانش حوزه یا تنظیم پارامتر نیاز
ندارد ،و به همین دلیل برای کشف دانش اکتشافی مناسب است .
-2درخت های تصمیم گیری می توانند داده های باابعاد باال را اداره کند.
-3نمایشی از دانش اکتسابی در فرم درخت ذاتی است به راحتی توسط انسان تشبیه می شود
-4مراحل یادگیری و طبقه بندی درالقاء درخت تصمیم گیری ساده و پایدار است.
-5به طور کلی ،طبقه بندی کننده های درخت تصمیم گیری دارای دقت خوبی هستند .
-6الگوریتم های القاء درخت های تصمیم گیری ،برای طبقه بندی در بسیاری از زمینه های
کاربرد ،مانند پزشکی ،ساخت و تولید ،تجزیه و تحلیل مالی ،نجوم ،و زیست شناسی مولکولی
استفاده می شود.
-7درخت های تصمیم گیری ،اساس سیستم های چند قانون القای تجاری است.
44
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 45
)28اگر مسئله ما دارای mویژگی باشد ،ارتفاع درخت تصمیم
حداکثر چقدر خواهد بود؟
درخت تصمیم دارای یک ریشه است که آن خود یک ویژگی است،
در سئوال از آن ویژگی به پاسخی می رسیم که آن خود نیز ،ویژگی
است .
پس حداکثر ارتفاع درخت mخواهد بود.
45
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 46
مشتری نشان داده شده وهدف پیداکردن مشتریانی5) درمثال زیر29
)K-nn هستند که واقعا قصدخرید دارند؟(با استفاده ازالگوریتم
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
46
Slide 47
پاسخ
oاحتمال خرید مشتری شماره 5چه خواهد بود؟
پاسخ :با استفاده ازاین الگوریتم ،کتاب خواهد بود.
علت :زیرافاصله بین مشتری شماره 5و 1کمترازفاصله 5با
سایرمشتریان است.
براساس این مدل ما می توانیم رفتار مشتری شماره 5را پیش بینی
کنیم
(محاسبات درشکل نشان داده شده)
47
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 48
پاسخ
oتا االن ما یک نزدیکترین را پیدا کردیم اما اگر بخواهیم احتمال
خرید 2محصول یا بیشتررادرمشتری شماره 5پیداکنیم k=2
درنظرمی گیریم.
پاسخ :کتاب و DVD
48
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 49
) ما داده های حاصل از بررسی پرسشنامه (نظرمردمی) و تست30
هدف با دو ویژگی (ماندگاری اسید و پایداری) را برای طبقه بندی
اینکه آیا بافت کاغذ جدید خوب است یا نه ؟
در اینجا چهار نمونه آموزشی
X1 = Acid
Durability
(seconds)
X2 = Strength
Y = Classification
(kg/square meter)
7
7
Bad
7
4
Bad
3
4
Good
1
4
Good
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
49
Slide 50
در حال حاضر کارخانه تولید کاغذ بافت جدید باعبور تست های
آزمایشگاهی با X1=3و .X2=7بدون اینکه پژوهش گران داشته
باشیم ،می خواهیم حدس بزنید این بافت جدید از چه طبقه بندی
است؟
پاسخ
(1تعیین پارامتر =Kتعداد نزدیکترین همسایه
فرض کنید با استفاده از K = 3
(2محاسبه فاصله بین پرس و جو به عنوان مثال و همه نمونه
آموزشی است هم چنین با استفاده ازفرمول فاصله اقلیدسی (بدون
محاسبه ریشه مربع) است
50
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 51
X1 = Acid Durability
(seconds)
X2 = Strength
Square Distance to
(kg/square meter) query instance (3, 7)
7
7
7
4
3
4
1
4
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
51
Slide 52
( مرتب سازی فاصله ها وتعیین نزدیکترین همسایه براساس3
K کمترین فاصله
Square
Distance to
(kg/square
query
meter)
instance (3, 7)
X1 = Acid
Durability
(seconds)
X2 = Strength
Rank
minimum
distance
7
7
3
7
4
4
3
4
1
1
4
2
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
52
Slide 53
دقت کنید که ردیف.Y ( جمع آوری نزدیکترین همسایه های دسته4
)K=3( نیست زیرارتبه آن کمترازY دوم سطرآخرجزدسته بندی
.است
Square
X2 =
Is it
Y=
Distance
X1 = Acid
Rank
Strength
included in Category of
Durability
minimum
to query
3-Nearest
nearest
(seconds) (kg/square instance distance
neighbors? Neighbor
meter)
(3, 7)
7
7
3
Yes
Bad
7
4
4
No
-
3
4
1
Yes
Good
1
4
2
Yes
Good
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
53
Slide 54
( با استفاده از رای اکثریت کالس رابرای این نمونه پیش بینی می5
ازاین رو کالس1>2 پسBad داریم ویکgood تا2 ، کنیم
.استGood این تست برابر
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
54
Slide 55
3 )31مورد از انواع روش های خوشه بندی را نام ببرید و یکی را به
اختصار توضیح دهید
•
•
•
•
•
55
روش های بخش بندی
روش های سلسله مراتبی
روش های مبتنی بر چگالی
روش های مبتنی بر گرید
روش های مبتنی بر مدل
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 56
روش های خوشه بندی بصورت بخش بندی)(kmeans
در این روش ابتدا به تعداد خوشههای مورد نیاز ،نقاطی به صورت تصادفی
انتخاب میشود .سپس در دادهها با توجه با میزان نزدیکی (شباهت) به یکی
از این خوشهها نسبت داده میشوند و بدین ترتیب خوشههای جدیدی
حاصل میشود .با تکرار همین روال میتوان در هر تکرار با میانگینگیری از
دادهها مراکز جدیدی برای آنها محاسبه کرد و مجدادأ دادهها را به خوشههای
جدید نسبت داد .این روند تا زمانی ادامه پیدا میکند که دیگر تغییری در
دادهها حاصل نشود.
56
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 57
)32مشکالت روش خوشهبندی K-Meansرا نام ببرید
•
•
•
•
•
علیرغم اینکه خاتمهپذیری الگوریتم باال تضمین شده است ولی جواب
نهایی آن واحد نبوده و همواره جوابی بهینه نمیباشد .جواب نهایی به
انتخاب خوشههای اولیه وابستگی دارد.
روالی مشخص برای محاسبة اولیة مراکز خوشهها وجود ندارد.
اگر در تکراری از الگوریتم تعداد دادههای متعلق به خوشهای صفر شد
راهی برای تغییر و بهبود ادامة روش وجود ندارد.
در این روش فرض شده است که تعداد خوشهها از ابتدا مشخص است.
اما معموال در کاربردهای زیادی تعداد خوشهها مشخص نمیباشد.
نسبت به داده های دارای نویز بسیار حساس است .
57
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
Slide 58
) روش خوشه بندی سلسله مراتبی را نام ببرید و هرکدام را33
بطور خالصه شرح دهید
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
58
Slide 59
با تشکر
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University
59