چهارمین کنفرانس داده کاوی ایران، 10 آذر ماه 1389، دانشگاه صنعتی شریف
Download
Report
Transcript چهارمین کنفرانس داده کاوی ایران، 10 آذر ماه 1389، دانشگاه صنعتی شریف
ان س دادهکاویایرا ن
کنفر
عن وا ن
اله :انتخاب نمونه به وسیله مجموعهھای راف در
مق
سیستمھای طبقه بند یادگیر
اله1632 :
مق
اره
شم
هنده :فرزانه شعله
ارائه د
مولفین :فرزانه شعله،علی حمزه ،ستار هاشمی
عن وا ن B3 :Session
ان15:45 – 16:00 :
زم
عتی شری ف ،دبیرخانه دائمیکنفران س دادهکاویایرا ن
چهار می نکنفران س دادهکاویایرا ن 10،آذر ماه ،13 89دانشگاه صن
1
فهر س ت مطال ب
• مقد مه
•
•
•
•
•
•
اد گ یر :
ای ط بقه بند ی
ه
س ی ستم
های را ف
مجم وعه
ادی
رو ش پ یشنه
ا یج
ات و نت
ا یش
آز م
هی به آ ینده
ا
جم ع بندی و ن گ
ابع
من
XCS
عتی شری ف ،دبیرخانه دائمیکنفران س دادهکاویایرا ن
چهار می نکنفران س دادهکاویایرا ن 10،آذر ماه ،13 89دانشگاه صن
مقد مه
های مبتنیبر
اد گ یر) ،(LCSس یستم
هایط بقهبند ی
• سیستم
املین ظر یه دارو ی ن و
االهامازا صو لتک
هستندکهب
قوانی ن
هلندارائه شدهاند.
ا ل 1976تو سط
اختیدر س
اد گ یریشن
ی
تخمین تابع
عتی شری ف ،دبیرخانه دائمیکنفران س دادهکاویایرا ن
چهار می نکنفران س دادهکاویایرا ن 10،آذر ماه ،13 89دانشگاه صن
های طبقهبندیادگیر
سی ستم
Environment
at
Reward
Action
State
rt
St
Rules
Learning Classifier Systems
LCS
)(Rule-base system
عتی شری ف ،دبیرخانه دائمیکنفران س دادهکاویایرا ن
چهار می نکنفران س دادهکاویایرا ن 10،آذر ماه ،13 89دانشگاه صن
eXtended Classifier System
Environment
State St
Detectors
Reward Rt
Effectors
Population [P]
Action
Rules describing the
current solution
Matching
Match Set [M]
Action
Evaluation
Prediction
Array
Action
Selection
Delay
Action Set [A]
Rules in [M] with the
selected action
Rules whose condition
match st
Action Set at t-1 [A]-1
GA
Rules in [M] with the
selected action
RL: Update
parameters
دبیرخانه دائمیکنفران س دادهکاویایرا ن،عتی شری ف
دانشگاه صن،13 89 آذر ماه10،چهار می نکنفران س دادهکاویایرا ن
هایرا ف
مجم وعه
اوالك
ا ل 1980تو سطپ
های را ف،دراوای ل س
• تئوری مجموعه
ا یه گذاریشد.
پ
ا یی
ه
اردارد ورو ش
ک
های داده سرو
ات حل ی ل جدو ل
• ا ی نتئوری،ب
عاتنامرب وطیا مازادبرنیازاز
ا ست ناطال
رابرایزدود ن وک
ازد.
ا می س
های داده مه ی
اه
ای گ
پ
عتی شری ف ،دبیرخانه دائمیکنفران س دادهکاویایرا ن
چهار می نکنفران س دادهکاویایرا ن 10،آذر ماه ،13 89دانشگاه صن
هایرا ف
مجم وعه
ایینیو
هایتقری بپ
ام
اهر مجموعه را ف ،Xدو مجموعهبهن
•ب
االیی مرت ب طوهمراه میش ود.
تقری بب
} P X {[ x ] P [ x ] P X
}P X {[ x ] P [ x ] P X 0
Set X
Positive Region
BND P ( X ) P X P X
Boundary Region
Negative Region
عتی شری ف ،دبیرخانه دائمیکنفران س دادهکاویایرا ن
چهار می نکنفران س دادهکاویایرا ن 10،آذر ماه ،13 89دانشگاه صن
هش
انگیزهانجامای نپژو
ا
اویداردا م
ائ ل دادهک
قت خوبیکه XCSدر ح ل م س
ا وجودد
•ب
ارمشک ل میشود.
هایبزر گدچ
ا مجموعه داده
در م واجهب
بزر گ
ب ود ن
مجم وعه
داده
عادزیاد
اب
RSتئ وری
های
مجم وعه
را ف
آنالیزف ضای
هایزیاد
نمونه
م سئ له (ف ضای م سئ له گ س ترده)
عتی شری ف ،دبیرخانه دائمیکنفران س دادهکاویایرا ن
چهار می نکنفران س دادهکاویایرا ن 10،آذر ماه ،13 89دانشگاه صن
رو شپیشنهادی
Train
Prototype
Selection
Test
Certain
Rules
Rough Set
Data Reducer
Fitness
Chromosome
Genetic
Algorithm
NO
Match
ing
YES
Boundary Data
XCS
label
دبیرخانه دائمیکنفران س دادهکاویایرا ن،عتی شری ف
دانشگاه صن،13 89 آذر ماه10،چهار می نکنفران س دادهکاویایرا ن
رو شپیشنهادی
هایپی و سته
• داده
ازی
ارتیش نبندی :گسسته س
•پ
های وصفی
• داده
ا یی
ه
ا بو یژ گی
ارتیش نبندی:انتخ
•پ
عتی شری ف ،دبیرخانه دائمیکنفران س دادهکاویایرا ن
چهار می نکنفران س دادهکاویایرا ن 10،آذر ماه ،13 89دانشگاه صن
مثا ل
ال
• مث
Data set
Certain Rules
If 0 ≤ x ≤ 3.23 and 0.74 ≤ y ≤ 10 then class is 1
If 6.49 ≤ x ≤ 10 and 0 ≤ y ≤ 0.74 then class is 2
If 6.49 ≤ x ≤ 10 and 0.74 ≤ y ≤ 10 then class is 2
Rough Set
Data Reducer
Genetic
Algorithm
Discretization points
[(0,3.23,6.49,10),(0.0.74,10)]
Positive regions
Boundary regions
XCS
دبیرخانه دائمیکنفران س دادهکاویایرا ن،عتی شری ف
دانشگاه صن،13 89 آذر ماه10،چهار می نکنفران س دادهکاویایرا ن
آزمایشات ونتای ج
ابی
هایانتخ
• مجموعه داده
#Class
#Nominal
feature
#Real
feature
#Feature
#Instance
Dataset
2
0
2
2
2000
Tao
2
0
8
8
768
Pima
4
6
0
6
1728
Car
7
9
0
9
43500+14500
Shuttle
UCI Machine Learning Repository
عتی شری ف ،دبیرخانه دائمیکنفران س دادهکاویایرا ن
چهار می نکنفران س دادهکاویایرا ن 10،آذر ماه ،13 89دانشگاه صن
آزمایشات ونتای ج
XCS
ا
ا یسهب
اراییرو شپیشنهادیدر مق
•ک
XCS performance
T-test
RS+XCS performance
Data Set
Train
Train Test
Test
Train
Test
Tao
87.51 ± 2.03
87.5 ± 5.28
91.79 ± 1.873.98*10-9
91.62 ± 4.762.81*10-6
Pima
72.24 ± 1.65
70.79 ± 4.83
73.52 ± 1.051.52*10-8
70.43 ± 4.117.97*10-1
0.9
Car
97.03 ± 0.89
74.19 ± 2.18
1.26*10-16
99.59 ± 0.222.19*10-50
77.45 ± 1.45
0.8
0.7
Shuttle
97.77 ± 0.18
97.76 ± 0.18
99.03 ± 0.084.00*10-22
98.99 ± 0.078.60*10-6
0.6
0.5
0.4
0.3
0.2
0.1
α-confidence
0.001
mXCS_per ≠ mRSXCS_per
mXCS_per > mRSXCS_per
mXCS_per < mRSXCS_per
0.405
0.203
0.797
Reduced data
0
Tao
Pima
Car
Shuttle
دبیرخانه دائمیکنفران س دادهکاویایرا ن،عتی شری ف
دانشگاه صن،13 89 آذر ماه10،چهار می نکنفران س دادهکاویایرا ن
هیبه آینده
جم عبندی ونگا
های را ف
ای م سئلهتو سطتئوری مجموعه
ال یزف ض
اهد ف ،آن
• روشیارائه شدهب
اشد.
های مطمئ ن میب
ا بپی شال گ و
وانتخ
عی
اویاز جملهط بقهبندی س
ا ی ل دادهک
اد گ یر ،XCSدر م س
• سیستمط بقهبند ی
ا
ادب
هایز ی
ا داده
ای م سئله دارد.ا ی ن س یستم،دربرخوردب
درپوش شتما میف ض
ارمشک ل ش ود.
ای م سئلهو س ی ع ممک نا ست دچ
فض
ای م سئلهبهنوا حی مرزی،
ه شف ض
ا
اک
هدکهب
ا ن مید
ا یجارائه شدهنش
• نت
هتریدرط بقهبندی داده
قتب
هدب ودبهد
ادر خ وا
سیستمط بقهبند جد یدق
ابد.
د ست ی
ا مجموعه
برخوردب
هاینو یزی
داده
ا یی
ه
مجموعه داده
های مختلط
او یژ گی
ب
عتی شری ف ،دبیرخانه دائمیکنفران س دادهکاویایرا ن
چهار می نکنفران س دادهکاویایرا ن 10،آذر ماه ،13 89دانشگاه صن
مناب ع
•
•
•
•
•
•
•
•
•
J.H. Holland. Adaptation, In Rosen, R., Snell, F., eds.: Progress in theoretical biology. Academic
Press, New York, p.p. 263–293, 1976.
S.W. Wilson, Classifier fitness based on accuracy. Evolution Computation 3(2), p.p. 149–175, 1995.
S.W. Wilson, Generalization in the XCS classifier system. In: Genetic programming 1998:
proceedings of the third annual conference, Morgan-Kaufmann, Cambridge, p.p. 665–674, 1998.
M.V. Butz, T. Kovacs, P.L. Lanzi and S.W.Wilson, Toward a theory of generalization and learning in
XCS. IEEE Transaction Evolutionary Computation 8(1), p.p. 28–46, 2004.
J. Bacardit and M.V. Butz, Data mining in learning classifier systems: comparing XCS with GAssist.
In: IWLCS 2003–2005, revised selected papers, Lecture Notes in Computer Science, vol 4399, p.p.
282–290, 2007.
M. Studley and L. Bull, X-tcs: accuracy-based learning classifier system robotics. In: IEEE Congress
on Evolutionary Computation, CEC, p.p. 2099–2106, 2005.
S.W. Wilson, Function approximation with a classifier system. In: GECCO 2001. Morgan-Kaufmann,
San Francisco,(2001), 974–981.
A.J. Bagnall and G.C. Cawley, Learning classifier systems for data mining: A comparison of XCS
with other classifiers for the Forest Cover dataset, In Proceedings of the IEEE/INNS International
Joint Conference on Artificial Neural Networks (IJCNN-2003), p.p. 1802-1807, 2003.
T.H. Nguyen, S. Foitong and O. Pinngern, Rough set and XCS in classification problems.
International Conference on Computer and Communication Engineering, ICCCE. , p.p. 4806–811,
2008.
دبیرخانه دائمیکنفران س دادهکاویایرا ن،عتی شری ف
دانشگاه صن،13 89 آذر ماه10،چهار می نکنفران س دادهکاویایرا ن
مناب ع
•
•
•
•
•
•
•
•
Z. Pawlak, Rough sets. International Journal of Computer and Information Sciences 11, (1982),341356.
H. Dam, K. Shafiand A.H. Abbass, Can evolutionary computation handle large datasets? A study into
network intrusion detection. In: Conference on Artificial Intelligence, volume 3809 of Lecture Notes
in Computer Science, Springer, p.p. 1092–1095, 2005.
J. Komorowski, Z. Pawlak, L. Polkowski, et. al., Rough Sets: A Tutorial, in Rough Fuzzy
Hybridization: A New Trend in Decision-Making (ed. S. K. Pal, A. Skowron), Springer-Verlag,
Singapore, p.p. 3-98, 1999.
M. Butz and S.W. Wilson, An algorithmic description of XCS. In IWLCS-2000, Lecture Notes in
Artificial Intelligence (LNAI-1996). Berlin: Springer-Verlag, 2001.
Z. Pawlak, Rough Sets and Data Analysis, Proceeding of IEEE Conference, ISSN:0-7803-3687-9,
1996.
Z. Pawlak, Rough Sets: Theoretical Aspects of Reasoning about Data, Springer, Formerly Kluwer
Academic ublishers, Boston, Dordrecht, London, 1991.
X. Llora` and J. M. Garrell, Evolving Partially-Defined instances with Evolutionary Algorithms, In:
ICML'2001. Morgan Kauffmann, p.p. 337-344, 2001.
S.W. Wilson, Mining oblique data with XCS. In: IWLCS 2000, Paris, France, 15–16 September 2000,
revised papers, Lecture notes in computer science, vol 1996. Springer, Heidelberg, p.p. 158–176,
2001.
دبیرخانه دائمیکنفران س دادهکاویایرا ن،عتی شری ف
دانشگاه صن،13 89 آذر ماه10،چهار می نکنفران س دادهکاویایرا ن
اتشکر
ب
عتی شری ف ،دبیرخانه دائمیکنفران س دادهکاویایرا ن
چهار می نکنفران س دادهکاویایرا ن 10،آذر ماه ،13 89دانشگاه صن