PowerPoint Presentation - دانشگاه آزاد اسلامي واحد نجف آباد

Download Report

Transcript PowerPoint Presentation - دانشگاه آزاد اسلامي واحد نجف آباد

Slide 1

‫داده کاوی نمونه سؤال‬
Data Mining
Sample Questions
‫دکتر محمد حسین ندیمی‬
‫دانشکده مهندسی کامپیوتر‬
‫دانشگاه آزاد اسالمی واحد نجف آباد‬

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

1


Slide 2

‫• تعریف جامع انبار داده‪:‬‬

‫یک انباره داده جمع آوری موضوع گرا ‪ ،‬یکپارچه ‪ ،‬متغیر بر اساس زمان و پایدار از داده ها است که امکان حمایت از‬
‫فرآیند تصمیم گیری مدیران را فراهم می کند‪.‬‬

‫‪2‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 3

‫ابعاد یا ‪Dimensions‬‬

‫دیدگاها یا موجودیت هایی هستند که با توجه با خواسته های یک سازمان به عنوان رکورد نگهداری می شوند ‪ .‬هر بعد‬
‫ممکن است یک جدول مربوط به خود به نام جدول بعد (‪ )dimension table‬داشته باشد که این بعد را بیشتر‬
‫توصیف می کند‪.‬‬

‫•‬

‫حقایق یا ‪Facts‬‬

‫حقایق معیارهای عددی هستند که به منظور تحلیل روابط بین ابعاد بکار گرفته می شوند‪.‬‬
‫و با یک جدول حقیقت (‪ )Fact table‬نشان داده می شوند‪.‬‬

‫‪3‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 4

Star ‫• شمای ستاره ای یا‬
Snowflake ‫• شمای دانه برفی یا‬
Fact Constellation ‫• شمای صورت فلکی واقعی یا‬

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

4


Slide 5

‫یک جدول مرکزی بزرگ که شامل مجموعه ای بدون افزونگی از دادهاست‬
.‫یک مجموعه جداول کوچکتر به ازای هر بعد‬:

:Fact table

Dimension table

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

5


Slide 6

‫نوعی از مدل شمای ‪ Star‬است به طوریکه جداول بعد نرمال شده هستند‪.‬‬
‫تفاوت اصلی بین مدل های شمای ‪ Star‬و ‪ Snowfalke‬این است که جداول بعد مدل ‪ Snow flake‬برای‬
‫حذف افزونگی ها به شکل نرمال شده نگهداری می شوند‪.‬‬
‫این روش باعث کاهش افزونگی و همین طور کارآیی می شود‪.‬‬

‫‪6‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 7

‫از مجموعه ای از شماهای ‪ Star‬تشکیل شده است‪.‬‬
‫برنامه های کاربردی پیچیده تر به چندین جدول حقیقت برای به اشتراک گذاری جداول بعد نیاز دارند‪:‬‬

‫یک شمای ‪ Fact Constellation‬امکان استفاده اشتراکی جداول حقیقت از جداول بعد را میسر می سازد‪.‬‬

‫‪7‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 8

‫) چهار دیدگاه متفاوتی که در مورد یک انبار داده وجود دارد را‬7
.‫بیان نمایید‬
Top-down view
‫دیدگاه باال به پایین‬
Data source view
‫دیدگاه دادهای منبع‬
Data warehouse view
‫دیدگاه انبار داده‬
Business query view
‫دیدگاه پرس و جوی تجاری‬

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University






8


Slide 9

‫‪ )8‬مراحل فرایند طراحی انبارههای داده را بنویسید‪.‬‬
‫‪ )1‬انتخاب یک فرایند تجاری برای مدلسازی‬
‫‪ )2‬انتخاب دانه بندی فرایند تجاری‬
‫‪ )3‬انتخاب ابعادی که روی هر رکورد از جدول حقیقت اعمال‬
‫خواهد شد‪.‬‬
‫‪ )4‬انتخاب معیارهایی که هر رکورد در جدول حقیقت قرار می‬
‫گیرد‪.‬‬

‫‪9‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 10

‫‪ )9‬الیههای انبار داده با معماری سه الیه را بیان کنید‪.‬‬
‫‪ )1‬پایینترین الیه در معاری انبارههای داده‪ ،‬سرویس دهنده انبار‬
‫داده است که تقریبا همیشه یک سیستم پایگاه داده رابطه ای‬
‫است‪.‬‬
‫‪ )2‬الیه میانی که یک سرویس دهنده ‪ OLAP‬است و به ‪ 2‬مدل‬
‫تقسیم میشود‪.‬‬
‫‪ .1‬مدل ‪ OLAP‬رابطهای)‪(ROLAP‬‬
‫‪ .2‬مدل ‪ OLAP‬چند بعدی)‪(MOLAP‬‬

‫‪ )3‬باالترین الیه که با کاربر در ارتباط است‪.‬‬
‫‪10‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 11

‫ آنها را‬،‫) از نقطه نظر معماری چند مدل انبار داده وجود دارد‬10
.‫بیان کنید‬
Enterprise warehouse
Data Mart
Virtual Warehouse

‫) انبار داده تجاری‬1
‫) انبار داده اختصاصی‬2
‫) انبار داده مجازی‬3

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

11


Slide 12

.‫ را بیان کنید‬OLAP ‫) انواع سرویس دهنده های‬11
ROLAP
MOLAP
HOLAP

‫ رابطهای‬OLAP ‫) سرویس دهندههای‬1
‫ چند بعدی‬OLAP ‫) سرور های‬2
‫ ترکیبی‬OLAP ‫) سرویس دهندههای‬3

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

12


Slide 13

.‫) ابزارهای انبار کردن داده را نام ببرید‬12
access and retrieval tools
‫) ابزارهای دستیابی و بازیاب‬1
database reporting tools ‫) ابزارهای گزارش گیری از پایگاه دادهها‬2
data analysis tools
‫) ابزارهای آنالیز داده‬3
data mining tools
‫) ابزارهای استخراج داده‬4

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

13


Slide 14

‫‪ )13‬فرض کنید مجموعه تراکنش های پایگاه داده به صورت زیر باشد وفرض کنید که‬
‫‪ min-supp=3‬و‪confidence=50%‬‬
‫‪Items‬‬

‫‪TID‬‬

‫‪ABCD‬‬

‫‪100‬‬

‫‪ABCDF‬‬

‫‪200‬‬

‫‪BCDE‬‬

‫‪300‬‬

‫‪ABCDF‬‬

‫‪400‬‬

‫‪ABEF‬‬

‫‪500‬‬

‫‪ (1‬مجموعه های کاندید و مجموعه های ‪ L‬را پیدا کنید‬
‫‪ Closed &maximal itemset (2‬را پیدا کنید‪.‬‬
‫‪ (3‬یکی از قوانین انجمن استنباط شده از این پایگاه را بنویسید‬
‫و درمورد پذیرش یا عدم پذیرش این قانون بحث کنید‪....‬‬
‫‪14‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 15

Scan D for count
Of each candidate

L1

C1
Item Sup
set
{A}

4

{B}

5

{C}

4

{D}

4

{E}

2

{F}

3

Compare candidate
Itemset
Support with min -sup

sup

Generate
C2 from L1 Itemset

C2
sup

{A}

4

{A,B}

4

{B}

5

{A,C}

3

{C}

4

{A.D}

3

{D}

4

{A.F}

3

{F}

3

{B.C}

4

{B.D}

4

{B.F}

3

{C,D}

4

{C.F}

2

{D,F}

2

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

15


Slide 16

itemset

sup

{A,B}

4

{A,C}

3

3

{A,D}

3

{A,F}

3

{B,C}

4

{B,D}

4

{B,F}

3

{C,D}

4

sup

Itemset

sup

{A,B,C}

3

{A,B,C
}

3

{A,B,D}

3

Itemset

{A,B,F}

3

{A,B,D
}

{A,C,D}

3

{A,B,F
}

3

{B,C,D}

4

{A,C,D
}

3

{B,C,D
}

4

C4

L4

Itemset

Sup

Itemset

Sup

{ABCD

3

{ABCD

3

}

L2

C3

L3

}

closed frequent itemset)1
{B}&{A,B}&{B,C,D}&{A,B,C,D}
Maximal frequent itemset)2
{A,B,F}&{A,B,C,D}

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

16


Slide 17

‫در این صورت الگوهای پرتکرار که از اجتماع ‪L1‬و‪L2‬و‪L3‬و‪ L4‬بدست‬
‫می آید ‪..‬‬
‫حال برای بدست آوردن قوانین انجمنی به صورت زیر عمل می کنیم ‪:‬‬
‫فرض کنیم }‪ L={A,B,C‬که زیر مجموعه های آن به شکل زیر می باشد‬
‫‪{},{A},{B},{C},{A,B},{A,C},{B,C},{A,B,C}:‬‬
‫به طور مثال یکی از قوانین به صورت زیر است که باید یا توجه به شرط‬
‫‪ confidence=50%‬بررسی کنیم که آیا این قانون پذیرفته است یا خیر‪:‬‬
‫‪C‬‬
‫‪ confidence =3/4=75%‬پس این قانون پذیرفته است‪:‬‬

‫‪17‬‬

‫‪R: A^B‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 18

fp- ‫ را رسم و الگوریتم‬fp-tree ‫ الف) برای پایگاه داده زیر درخت‬: 14
.‫ را روی آن اعمال کنید‬growth

• Min-Sup = 2

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

18


Slide 19

L = {(a:8)(b:7)(c:6)(d:5)(e:3)}
Item
ID

Sup
Count

a

8

b

7

c

6

d

5

e

3

NodeLink

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

19


Slide 20

Item

Conditional Pattern base

Conditional fp-tree

Frequent Pattern
Generate

e

{{a,d:1}{a,c,d:1}{b,c:1}}



{a,e:2}

d

{{a,b,c:1}{a,b:1}{a,c:1}{a:1}{b,c:1}}



{a,d:4}{a,b:2}{a,b,d:2}

c

{{a,b:3}{a:1}{b:2}}



{a,c:3}{b,c:3}{a,b,c:2}

b

{{a:5}}



{a,b:5}

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

20


Slide 21

‫ را روی آن اعمال‬Eclat ‫ ب) برای پایگاه داده سوال قبل الگوریتم‬: 14
.‫کنید‬
• Min-Sup = 2

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

21


Slide 22

‫ در فرمت عمودی داده‬1-itemset

‫ در فرمت عمودی داده‬2-itemset

Itemset

TID-set

Itemset

TID-set

a

1,3,4,5,6,7,8,9

A,b

1,5,6,8,9

b

1,2,5,6,8,9,10

A,c

3,5,6,8

c

2,3,5,6,8,10

A,d

3,4,6,9

d

2,3,4,6,9

A,e

3,4

e

3,4,10

B,c

2,5,6,8,10

B,d

6,9

B,e

10

C,d

2,3,6

C,e

3,10

D,e

3,4

‫ در فرمت عمودی داده‬3-itemset
Itemset
TID-set

A,b,c

6,8

A,b,d

6,9

A,c,d

3,6

B,c,d

2,6

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

22


Slide 23

‫‪ )15‬انواع گوناگون قوانین انجمنی را نام ببرید؟‬

‫قوانین انجمنی چند سطحی‪ ،‬قوانین انجمنی چند بعدی‪ ،‬قوانین انجکنی کمی‬

‫الف) دو الگوریتم برای کشف اقالم پرتکرار در هر سطح از انتزاع در قوانین نجمنی‬
‫سطحی را توضیح دهید؟‬

‫استفاده از حداقل ساپورت برای همه سطوح‪ :‬در همه سطوح انتزاع از یا مقدار‬
‫ساپورت یکنواخت استفاده می شود و هنگامی که از حداقل آستانه ساپورت‬
‫یکنواخت استفاده می شود زیربرنامه جستجو ساده تر می شود‪.‬‬

‫استفاده از مقدار حداقل آستانه ساپورت کاهش یافته در سطوح پایین ‪ :‬هر‬
‫سطحی از انتزاع آستانه خودش را دارد و همه سطوح آستانه ساپورت‬
‫یکنواختی ندارند‪ .‬هرچه سطح انتزاع عمیق تر باشد آستانه ساپورتش کوچکتر‬
‫می شود‪.‬‬
‫‪23‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 24

‫ب) چطور می توانیم قوانین انجمنی کمی را پیدا کنیم ‪ .‬توضیح دهید؟‬
‫با استفاده از الگوی ‪ ARCS‬یا سیستم خوشه بندی قوانین انجمنی که شامل مراحل زیر است‪:‬‬

‫‪ arc : Binning‬از ‪ Binning‬با عرض مساوی استفاده می کند که اندازه بین به عنوان ورودی‬
‫توسط کاربر برای هر صفت کمی تعیین می شود‪ .‬یک آرایه دوبعدی شامل دوصفت کمی ایجاد‬
‫می شود‪ .‬هر سلول آرایه مقدار متناظر با هر کالس از صفت قطعی سمت راست قانون را نگه‬
‫می دارد و با این ساختار داده مربوط به وظیفه تنا یکبار اسکن می شود‪.‬‬
‫پیدا کردن مجموعه گزاره پر تکرار ‪ :‬یک آرایه دوبعدی شامل مقدار احتمالی است و برای پیدا‬
‫کردن مجوعه گزاره پرتکرار اسکن می شود‪ .‬قوانین انجمنی قوی از این مجموعه گزاره با‬
‫استفاده از الگوریتم تولید قانون تولید می شوند‪.‬‬
‫خوشه بندی قوانین انجمنی‪ :‬قوانین انجمنی بدست آمده در یک جدول دوبعدی قرار میگیرند‪،‬‬
‫قوانینی که کامال به هم نزدیک هستند یک خوشه روی جدول تشکیل می دهند‪ ARCS .‬از یک‬
‫الگوریتم خوشه بندی در اینجا استفاده می کند‪ .‬الگوریتم جدول را اسکن می کند و خوشه های‬
‫شبیه مستطیل از قوانین را جستجو می کند‪.‬‬
‫‪24‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 25

‫‪ : 16‬الف) برای تقویت کردن چارچوب ‪ sup-conf‬از چه معیار دیگری‬
‫برای قوانین انجمنی استفاده می شود؟ انواع آن را نام ببرید؟‬
‫معیار همبستگی‪lift, x2, cosine, all confidence ،‬‬

‫ب) استخراج وابستگی مبنی بر محدودیت چیست و شامل چه مواردی می‬
‫باشد؟‬
‫داشتن کاربرانی مشخص که پیش بینی های آنها به صورت محدودیت هایی بر روی‬
‫فضای جستجو تعریف می شوند‪.‬‬
‫محدودیت های نوع دانش‪ :‬نوع دانش خروجی را مشخص می کند‪.‬‬
‫محدودیت های داده ‪ :‬مجموعه ای از داده های مرتبط با وظیفه را مشخص می کنند‪.‬‬
‫محدودیت های سطح ‪ :‬سطوحی از مفهوم سلسله مراتبی را تعیین می کند‪.‬‬
‫محدودیت های قانون ‪ :‬فرم قوانین استخراجی را تعیین می کند‪.‬‬

‫‪25‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 26

‫‪ )17‬فرض کنید که یک جدول ثبت بیماری خصوصیات زیر را در‬
‫برداشته باشد‬

‫عدم تشابه بین هر جفت بیمار را بدست آورید و بگویید کدام جفت‬

‫کدام جفت بیمار از نظر نوع بیماری به هم شبیه اند؟‬

‫‪26‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 27

jim ‫و‬jack,mary ‫ بیمار‬3 ‫فاصله بین هر جفت از‬:‫پاسخ‬

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

27


Slide 28

‫ماری و جیم چون باالترین مقدار عدم تشابه را بین ‪ 3‬جفت‬
‫دارند در بیماریشان کمتر بهم شبیه اند‬
‫ماری و جک بیشترین شباهت را دارند پس احتمال میدهیم یک‬
‫بیماری مشابه دارند‬

‫‪28‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 29

‫) فرض کنید ما یک نمونه اطالعات زیر را داریم ماتریس‬18
.‫عدم تشابه آن را رسم کنید‬

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

29


Slide 30

‫پاسخ‪:‬ماتریس عدم تشابه را حساب می کنیم‬

‫چونکه ما فقط یک متغیر طبقه بندی داریم (‪ )test 1‬پس مقدار‬
‫‪ p=1‬و ‪m‬برای اشیا یکجور ‪ 1‬وبرای اشیا نا مشابه ‪ 0‬در فرمول‬
‫زیر قرار می دهیم‬
‫‪30‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 31

‫ است و وقتی باهم‬0 ‫ یکجور اند برابر‬j‫ و‬I ‫ وقتی‬d(i, j)
:‫ است بنابراین‬1 ‫متفاوت اند برابر‬

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

31


Slide 32

‫ داریم طبق‬y=(0,1,1,0) ‫ و‬x=(1,1,0,0) ‫ متغیر‬2 ‫) فرض کنید‬19
‫را بدست آورید‬y ‫و‬x ‫معادله تشابه کسینوسی شباهت بین‬

=

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

32


Slide 33

‫‪ )20‬متغیر های دودویی متقارن و نا متقارن را تعریف کنید و برای هر‬
‫کدام مثال بزنید‬
‫پاسخ‪:‬متغییر دودویی متقارن است اگر از نظر موقعییت دارای ارزش‬
‫یکسانی باشند بنابراین هیچ برتری یا ترجیحی در این که خروجی صفر‬
‫باشد یا یک وجود ندارد‬
‫مانند جنس که وضعیت های زن و مرد را دارد‬
‫متغییر دودویی نامتقارن است اگر خروجی حاالت به یک اندازه مهم نباشد‬
‫مانند مثبت یا منفی بودن نتیجه تست ‪hiv‬‬

‫‪33‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 34

‫) با استفاده ازمجموعه داده های آموزشی زیر احتمال‬21
‫انجام بازی تنیس با شرایط زیر را محاسبه کنید؟‬
Wind=strong>?

:‫پاسخ‬
P(yes) = 9/14, P(no) = 5/14
P(Wind=strong|yes) = 3/9
P(Wind=strong|no) = 3/5

P(y) P(sun|y) P(cool|y) P(high|y) P(strong|y) = .005
P(n) P(sun|n) P(cool|n) P(high|n) P(strong|n) = .021
• Therefore this new instance is classified to “no”
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

34


Slide 35

‫ چیست؟ روشی‬Drew ‫) می خواهیم بدانیم جنسیت افسر‬22
‫پیشنهاد کنید تا با استفاده از داده های زیرجنسیت افسر مورد نظر‬
.‫مشخص شود‬
:‫پاسخ‬

Officer
Drew

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

35


Slide 36

Officer Drew IS a
female!

Officer Drew
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

36


Slide 37

‫ باشد‬Pos=100 , neg=400 ‫در نظر بگیرید یک مجموعه آموزشی شامل‬
‫) برای مجموعه قوانین کاندید زیر تعیین کنید کدام قانون بهترین و کدام بدترین است؟‬23

a) Rule accuracy

R1=4/5=80%
R2=30/40=75%
R3=100/190=52.6%
‫ قانون خوبی نیست‬R3 ‫ است و‬R1 ، ‫قانون خوب‬
b) The Laplace measure
R1=71.43%
R2=73.81%
R3=52.6%
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

37


Slide 38

c) FOIL’s information gain
∅+

R0  P0=100 & n0=400

R1

P1=4 & n1=1

R2

p1=30 & n1=10

R3 p1=100 & n1=90

.‫ قانون خوبی نیست‬R1 ‫ بهترین قانون است و‬R3

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

38


Slide 39

d) The likelihood ratio statistic

‫ فرکانس مورد انتظار برای تاپلهای مثبت و منفی‬:R1
5 × 100/500 = 1
5 × 400/500 = 4

pos
neg

the likelihood ratio for R1 is:

2 × [ 4 × log2(4/1) + 1 × log2(1/4) ] = 12
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

39


Slide 40

40×100/500 = 8

‫ فرکانس مورد انتظار برای تاپلهای مثبت و منفی‬:R2

pos

40 × 400/500 = 32

neg

the likelihood ratio for R2 is :
2 × [ 30 × log2(30/8) + 10 × log2(10/32) ] = 80.85
‫ فرکانس مورد انتظار برای تاپلهای مثبت و منفی‬:R3
190 ×100/500 = 38
190 ×400/500 = 152

pos
neg

the likelihood ratio for R3 is :
2 × [ 100 × log2(100/38) + 90 × log2(90/152) ] = 143.09
.‫ قانون خوبی نیست‬R1 ‫ بهترین قانون است و‬R3
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

40


Slide 41

‫‪ )24‬طبقه بندی راتعریف کنید و ‪2‬مرحله ان را به طور خالصه شرح دهید‪.‬‬
‫طبقه بندی فرمی از تجزیه و تحلیل داده ها است که مدل های توصیفی مهم را از کالس های داده‬
‫استخراج می کند ‪.‬‬
‫طبقه بندی داده ها یک فرآیند دو مرحله ای است ‪:‬‬
‫گام اول ‪ :‬یادگیری یا مرحله آموزشی‬
‫الگوریتم طبقه بندی با آنالیز مجموعه آموزشی ایجاد شده ازتاپل های پایگاه داده ‪ ،‬برچسب های‬
‫کالس مرتبط با یک طبقه بندی کننده را می سازد‬
‫گام دوم ‪:‬‬
‫دقت و صحت پیش بینی های طبقه بندی کننده به کمک یک مجموعه تست سنجیده می شود ‪.‬‬
‫اگر دقت طبقه بندی به صورت قابل قبول در نظر گرفته شود طبقه بندی می تواند برای رده بندی‬
‫تاپل های داده آینده که برچسب کالس شان ناشناخته است نیز استفاده شود ‪.‬‬

‫‪41‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 42

‫‪ )25‬در چه مواردی طبقه بندی از پیش بینی متفاوت است ؟‬
‫‪ : Classifier‬مدل کالس بندی داده ها را مشخص می کند‪.‬‬
‫مدل های خروجی ‪ nominal‬هستند مانند مشتری امن یا غیر امن ‪.‬‬
‫دقت طبقه بندی کننده ها ‪ :‬برچسب کالس را پیش بینی می کند ‪.‬‬

‫‪ : Predictor‬مدل مقادیر پیوسته را مدل می کند ‪.‬‬
‫‪ ‬مدل های خروجی آن ‪ ordinal‬است ‪ .‬به عبارت دیگر یک پیش بینی عددی‬
‫از یک متغیر انجام می دهد ‪.‬‬
‫‪‬دقت پیش بینی کننده ‪ :‬مقداری برای یک صفت پیش بینی می کند ‪.‬‬

‫‪42‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 43

‫) روشهای طبقه بندی و پیش بینی را براساس چه معیارهایی می‬26
‫توان ارزیابی کرد؟‬
Predictive accuracy ‫ دقت‬-1
speed ‫ سرعت‬-2
Robustness ‫ استحکام‬- 3
Interpretability: ‫ توانایی تفسیر‬-4
scalability ‫ مقیاس پذیری‬-5
Goodness of rules -6

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

43


Slide 44

‫‪ )27‬چه مواقعی از درخت تصمیم استفاده می کنیم ؟‬
‫‪ -1‬ساخت درخت های تصمیم گیری طبقه بندی کننده ‪ ،‬هیچ دانش حوزه یا تنظیم پارامتر نیاز‬
‫ندارد‪ ،‬و به همین دلیل برای کشف دانش اکتشافی مناسب است ‪.‬‬
‫‪ -2‬درخت های تصمیم گیری می توانند داده های باابعاد باال را اداره کند‪.‬‬
‫‪ -3‬نمایشی از دانش اکتسابی در فرم درخت ذاتی است به راحتی توسط انسان تشبیه می شود‬
‫‪ -4‬مراحل یادگیری و طبقه بندی درالقاء درخت تصمیم گیری ساده و پایدار است‪.‬‬
‫‪ -5‬به طور کلی‪ ،‬طبقه بندی کننده های درخت تصمیم گیری دارای دقت خوبی هستند ‪.‬‬
‫‪ -6‬الگوریتم های القاء درخت های تصمیم گیری ‪ ،‬برای طبقه بندی در بسیاری از زمینه های‬
‫کاربرد‪ ،‬مانند پزشکی‪ ،‬ساخت و تولید‪ ،‬تجزیه و تحلیل مالی‪ ،‬نجوم‪ ،‬و زیست شناسی مولکولی‬
‫استفاده می شود‪.‬‬
‫‪ -7‬درخت های تصمیم گیری‪ ،‬اساس سیستم های چند قانون القای تجاری است‪.‬‬

‫‪44‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 45

‫‪ )28‬اگر مسئله ما دارای ‪ m‬ویژگی باشد‪ ،‬ارتفاع درخت تصمیم‬
‫حداکثر چقدر خواهد بود؟‬
‫درخت تصمیم دارای یک ریشه است که آن خود یک ویژگی است‪،‬‬
‫در سئوال از آن ویژگی به پاسخی می رسیم که آن خود نیز‪ ،‬ویژگی‬
‫است ‪.‬‬

‫پس حداکثر ارتفاع درخت ‪ m‬خواهد بود‪.‬‬

‫‪45‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 46

‫ مشتری نشان داده شده وهدف پیداکردن مشتریانی‬5‫) درمثال زیر‬29
)K-nn ‫هستند که واقعا قصدخرید دارند؟(با استفاده ازالگوریتم‬

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

46


Slide 47

‫‪‬پاسخ‬
‫‪o‬احتمال خرید مشتری شماره ‪ 5‬چه خواهد بود؟‬
‫پاسخ ‪ :‬با استفاده ازاین الگوریتم ‪ ،‬کتاب خواهد بود‪.‬‬
‫علت‪ :‬زیرافاصله بین مشتری شماره ‪ 5‬و‪ 1‬کمترازفاصله ‪ 5‬با‬
‫سایرمشتریان است‪.‬‬
‫براساس این مدل ما می توانیم رفتار مشتری شماره ‪ 5‬را پیش بینی‬
‫کنیم‬
‫(محاسبات درشکل نشان داده شده)‬

‫‪47‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 48

‫‪‬پاسخ‬
‫‪o‬تا االن ما یک نزدیکترین را پیدا کردیم اما اگر بخواهیم احتمال‬
‫خرید‪ 2‬محصول یا بیشتررادرمشتری شماره ‪ 5‬پیداکنیم ‪k=2‬‬
‫درنظرمی گیریم‪.‬‬
‫پاسخ ‪ :‬کتاب و ‪DVD‬‬

‫‪48‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 49

‫) ما داده های حاصل از بررسی پرسشنامه (نظرمردمی) و تست‬30
‫هدف با دو ویژگی (ماندگاری اسید و پایداری) را برای طبقه بندی‬
‫اینکه آیا بافت کاغذ جدید خوب است یا نه ؟‬
‫در اینجا چهار نمونه آموزشی‬
X1 = Acid
Durability
(seconds)

X2 = Strength
Y = Classification
(kg/square meter)

7

7

Bad

7

4

Bad

3

4

Good

1

4

Good

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

49


Slide 50

‫‪‬در حال حاضر کارخانه تولید کاغذ بافت جدید باعبور تست های‬
‫آزمایشگاهی با ‪X1=3‬و ‪ .X2=7‬بدون اینکه پژوهش گران داشته‬
‫باشیم‪ ،‬می خواهیم حدس بزنید این بافت جدید از چه طبقه بندی‬
‫است؟‬
‫‪‬پاسخ‬
‫‪ (1‬تعیین پارامتر ‪ =K‬تعداد نزدیکترین همسایه‬
‫فرض کنید با استفاده از ‪K = 3‬‬
‫‪ (2‬محاسبه فاصله بین پرس و جو به عنوان مثال و همه نمونه‬
‫آموزشی است هم چنین با استفاده ازفرمول فاصله اقلیدسی (بدون‬
‫محاسبه ریشه مربع) است‬
‫‪50‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 51

X1 = Acid Durability
(seconds)

X2 = Strength

Square Distance to
(kg/square meter) query instance (3, 7)

7

7

7

4

3

4

1

4

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

51


Slide 52

‫( مرتب سازی فاصله ها وتعیین نزدیکترین همسایه براساس‬3
K ‫کمترین فاصله‬
Square
Distance to
(kg/square
query
meter)
instance (3, 7)

X1 = Acid
Durability
(seconds)

X2 = Strength

Rank
minimum
distance

7

7

3

7

4

4

3

4

1

1

4

2

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

52


Slide 53

‫دقت کنید که ردیف‬.Y ‫( جمع آوری نزدیکترین همسایه های دسته‬4
)K=3(‫ نیست زیرارتبه آن کمتراز‬Y ‫دوم سطرآخرجزدسته بندی‬
.‫است‬

Square
X2 =
Is it
Y=
Distance
X1 = Acid
Rank
Strength
included in Category of
Durability
minimum
to query
3-Nearest
nearest
(seconds) (kg/square instance distance
neighbors? Neighbor
meter)
(3, 7)
7

7

3

Yes

Bad

7

4

4

No

-

3

4

1

Yes

Good

1

4

2

Yes

Good

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

53


Slide 54

‫( با استفاده از رای اکثریت کالس رابرای این نمونه پیش بینی می‬5
‫ازاین رو کالس‬1>2 ‫ پس‬Bad ‫ داریم ویک‬good ‫ تا‬2 ، ‫کنیم‬
.‫است‬Good ‫این تست برابر‬

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

54


Slide 55

‫‪ 3 )31‬مورد از انواع روش های خوشه بندی را نام ببرید و یکی را به‬
‫اختصار توضیح دهید‬

‫•‬
‫•‬
‫•‬
‫•‬
‫•‬

‫‪55‬‬

‫روش های بخش بندی‬
‫روش های سلسله مراتبی‬
‫روش های مبتنی بر چگالی‬
‫روش های مبتنی بر گرید‬
‫روش های مبتنی بر مدل‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 56

‫روش های خوشه بندی بصورت بخش بندی)‪(kmeans‬‬

‫‪ ‬در این روش ابتدا به تعداد خوشههای مورد نیاز ‪ ،‬نقاطی به صورت تصادفی‬
‫انتخاب میشود‪ .‬سپس در دادهها با توجه با میزان نزدیکی (شباهت) به یکی‬
‫از این خوشهها نسبت داده میشوند و بدین ترتیب خوشههای جدیدی‬
‫حاصل میشود‪ .‬با تکرار همین روال میتوان در هر تکرار با میانگینگیری از‬
‫دادهها مراکز جدیدی برای آنها محاسبه کرد و مجدادأ دادهها را به خوشههای‬
‫جدید نسبت داد‪ .‬این روند تا زمانی ادامه پیدا میکند که دیگر تغییری در‬
‫دادهها حاصل نشود‪.‬‬

‫‪56‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 57

‫‪ )32‬مشکالت روش خوشهبندی ‪ K-Means‬را نام ببرید‬
‫•‬

‫•‬
‫•‬
‫•‬
‫•‬

‫علیرغم اینکه خاتمهپذیری الگوریتم باال تضمین شده است ولی جواب‬
‫نهایی آن واحد نبوده و همواره جوابی بهینه نمیباشد‪ .‬جواب نهایی به‬
‫انتخاب خوشههای اولیه وابستگی دارد‪.‬‬
‫روالی مشخص برای محاسبة اولیة مراکز خوشهها وجود ندارد‪.‬‬
‫اگر در تکراری از الگوریتم تعداد دادههای متعلق به خوشهای صفر شد‬
‫راهی برای تغییر و بهبود ادامة روش وجود ندارد‪.‬‬
‫در این روش فرض شده است که تعداد خوشهها از ابتدا مشخص است‪.‬‬
‫اما معموال در کاربردهای زیادی تعداد خوشهها مشخص نمیباشد‪.‬‬
‫نسبت به داده های دارای نویز بسیار حساس است ‪.‬‬
‫‪57‬‬

‫‪Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University‬‬


Slide 58

‫) روش خوشه بندی سلسله مراتبی را نام ببرید و هرکدام را‬33
‫بطور خالصه شرح دهید‬

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

58


Slide 59

‫با تشکر‬
Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

59