چهارمین کنفرانس داده کاوی ایران، 10 آذر ماه 1389، دانشگاه صنعتی شریف

Download Report

Transcript چهارمین کنفرانس داده کاوی ایران، 10 آذر ماه 1389، دانشگاه صنعتی شریف

‫ان س دادهکاویایرا ن‬
‫کنفر‬
‫عن وا ن‬
‫اله‪ :‬انتخاب نمونه به وسیله مجموعه‌ھای راف در‬
‫مق‬
‫سیستم‌ھای طبقه بند یادگیر‬
‫اله‪1632 :‬‬
‫مق‬
‫اره‬
‫شم‬
‫هنده‪ :‬فرزانه شعله‬
‫ارائه د‬
‫مولفین‪ :‬فرزانه شعله‪،‬علی حمزه‪ ،‬ستار هاشمی‬
‫عن وا ن ‪B3 :Session‬‬
‫ان‪15:45 – 16:00 :‬‬
‫زم‬
‫عتی شری ف‪ ،‬دبیرخانه دائمیکنفران س دادهکاویایرا ن‬
‫چهار می نکنفران س دادهکاویایرا ن‪ 10،‬آذر ماه ‪ ،13 89‬دانشگاه صن‬
‫‪1‬‬
‫فهر س ت مطال ب‬
‫• مقد مه‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫اد گ یر ‪:‬‬
‫ای ط بقه بند ی‬
‫ه‬
‫س ی ستم‬
‫های را ف‬
‫مجم وعه‬
‫ادی‬
‫رو ش پ یشنه‬
‫ا یج‬
‫ات و نت‬
‫ا یش‬
‫آز م‬
‫هی به آ ینده‬
‫ا‬
‫جم ع بندی و ن گ‬
‫ابع‬
‫من‬
‫‪XCS‬‬
‫عتی شری ف‪ ،‬دبیرخانه دائمیکنفران س دادهکاویایرا ن‬
‫چهار می نکنفران س دادهکاویایرا ن‪ 10،‬آذر ماه ‪ ،13 89‬دانشگاه صن‬
‫مقد مه‬
‫های مبتنیبر‬
‫اد گ یر)‪ ،(LCS‬س یستم‬
‫هایط بقهبند ی‬
‫• سیستم‬
‫املین ظر یه دارو ی ن و‬
‫االهامازا صو لتک‬
‫هستندکهب‬
‫قوانی ن‬
‫هلندارائه شدهاند‪.‬‬
‫ا ل ‪1976‬تو سط‬
‫اختیدر س‬
‫اد گ یریشن‬
‫ی‬
‫تخمین تابع‬
‫عتی شری ف‪ ،‬دبیرخانه دائمیکنفران س دادهکاویایرا ن‬
‫چهار می نکنفران س دادهکاویایرا ن‪ 10،‬آذر ماه ‪ ،13 89‬دانشگاه صن‬
‫های طبقهبندیادگیر‬
‫سی ستم‬
‫‪Environment‬‬
‫‪at‬‬
‫‪Reward‬‬
‫‪Action‬‬
‫‪State‬‬
‫‪rt‬‬
‫‪St‬‬
‫‪Rules‬‬
‫‪Learning Classifier Systems‬‬
‫‪LCS‬‬
‫)‪(Rule-base system‬‬
‫عتی شری ف‪ ،‬دبیرخانه دائمیکنفران س دادهکاویایرا ن‬
‫چهار می نکنفران س دادهکاویایرا ن‪ 10،‬آذر ماه ‪ ،13 89‬دانشگاه صن‬
eXtended Classifier System
Environment
State St
Detectors
Reward Rt
Effectors
Population [P]
Action
Rules describing the
current solution
Matching
Match Set [M]
Action
Evaluation
Prediction
Array
Action
Selection
Delay
Action Set [A]
Rules in [M] with the
selected action
Rules whose condition
match st
Action Set at t-1 [A]-1
GA
Rules in [M] with the
selected action
RL: Update
parameters
‫ دبیرخانه دائمیکنفران س دادهکاویایرا ن‬،‫عتی شری ف‬
‫ دانشگاه صن‬،13 89 ‫ آذر ماه‬10،‫چهار می نکنفران س دادهکاویایرا ن‬
‫هایرا ف‬
‫مجم وعه‬
‫اوالك‬
‫ا ل ‪1980‬تو سطپ‬
‫های را ف‪،‬دراوای ل س‬
‫• تئوری مجموعه‬
‫ا یه گذاریشد‪.‬‬
‫پ‬
‫ا یی‬
‫ه‬
‫اردارد ورو ش‬
‫ک‬
‫های داده سرو‬
‫ات حل ی ل جدو ل‬
‫• ا ی نتئوری‪،‬ب‬
‫عاتنامرب وطیا مازادبرنیازاز‬
‫ا ست ناطال‬
‫رابرایزدود ن وک‬
‫ازد‪.‬‬
‫ا می س‬
‫های داده مه ی‬
‫اه‬
‫ای گ‬
‫پ‬
‫عتی شری ف‪ ،‬دبیرخانه دائمیکنفران س دادهکاویایرا ن‬
‫چهار می نکنفران س دادهکاویایرا ن‪ 10،‬آذر ماه ‪ ،13 89‬دانشگاه صن‬
‫هایرا ف‬
‫مجم وعه‬
‫ایینیو‬
‫هایتقری بپ‬
‫ام‬
‫اهر مجموعه را ف ‪،X‬دو مجموعهبهن‬
‫•ب‬
‫االیی مرت ب طوهمراه میش ود‪.‬‬
‫تقری بب‬
‫} ‪P X  {[ x ] P [ x ] P  X‬‬
‫}‪P X  {[ x ] P [ x ] P  X  0‬‬
‫‪Set X‬‬
‫‪Positive Region‬‬
‫‪BND P ( X )  P X  P X‬‬
‫‪Boundary Region‬‬
‫‪Negative Region‬‬
‫عتی شری ف‪ ،‬دبیرخانه دائمیکنفران س دادهکاویایرا ن‬
‫چهار می نکنفران س دادهکاویایرا ن‪ 10،‬آذر ماه ‪ ،13 89‬دانشگاه صن‬
‫هش‬
‫انگیزهانجامای نپژو‬
‫ا‬
‫اویداردا م‬
‫ائ ل دادهک‬
‫قت خوبیکه ‪XCS‬در ح ل م س‬
‫ا وجودد‬
‫•ب‬
‫ارمشک ل میشود‪.‬‬
‫هایبزر گدچ‬
‫ا مجموعه داده‬
‫در م واجهب‬
‫بزر گ‬
‫ب ود ن‬
‫مجم وعه‬
‫داده‬
‫عادزیاد‬
‫اب‬
‫‪RS‬تئ وری‬
‫های‬
‫مجم وعه‬
‫را ف‬
‫آنالیزف ضای‬
‫هایزیاد‬
‫نمونه‬
‫م سئ له (ف ضای م سئ له گ س ترده)‬
‫عتی شری ف‪ ،‬دبیرخانه دائمیکنفران س دادهکاویایرا ن‬
‫چهار می نکنفران س دادهکاویایرا ن‪ 10،‬آذر ماه ‪ ،13 89‬دانشگاه صن‬
‫رو شپیشنهادی‬
Train
Prototype
Selection
Test
Certain
Rules
Rough Set
Data Reducer
Fitness
Chromosome
Genetic
Algorithm
NO
Match
ing
YES
Boundary Data
XCS
label
‫ دبیرخانه دائمیکنفران س دادهکاویایرا ن‬،‫عتی شری ف‬
‫ دانشگاه صن‬،13 89 ‫ آذر ماه‬10،‫چهار می نکنفران س دادهکاویایرا ن‬
‫رو شپیشنهادی‬
‫هایپی و سته‬
‫• داده‬
‫ازی‬
‫ارتیش نبندی‪ :‬گسسته س‬
‫•پ‬
‫های وصفی‬
‫• داده‬
‫ا یی‬
‫ه‬
‫ا بو یژ گی‬
‫ارتیش نبندی‪:‬انتخ‬
‫•پ‬
‫عتی شری ف‪ ،‬دبیرخانه دائمیکنفران س دادهکاویایرا ن‬
‫چهار می نکنفران س دادهکاویایرا ن‪ 10،‬آذر ماه ‪ ،13 89‬دانشگاه صن‬
‫مثا ل‬
‫ال‬
‫• مث‬
Data set
Certain Rules
If 0 ≤ x ≤ 3.23 and 0.74 ≤ y ≤ 10 then class is 1
If 6.49 ≤ x ≤ 10 and 0 ≤ y ≤ 0.74 then class is 2
If 6.49 ≤ x ≤ 10 and 0.74 ≤ y ≤ 10 then class is 2
Rough Set
Data Reducer
Genetic
Algorithm
Discretization points
[(0,3.23,6.49,10),(0.0.74,10)]
Positive regions
Boundary regions
XCS
‫ دبیرخانه دائمیکنفران س دادهکاویایرا ن‬،‫عتی شری ف‬
‫ دانشگاه صن‬،13 89 ‫ آذر ماه‬10،‫چهار می نکنفران س دادهکاویایرا ن‬
‫آزمایشات ونتای ج‬
‫ابی‬
‫هایانتخ‬
‫• مجموعه داده‬
‫‪#Class‬‬
‫‪#Nominal‬‬
‫‪feature‬‬
‫‪#Real‬‬
‫‪feature‬‬
‫‪#Feature‬‬
‫‪#Instance‬‬
‫‪Dataset‬‬
‫‪2‬‬
‫‪0‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2000‬‬
‫‪Tao‬‬
‫‪2‬‬
‫‪0‬‬
‫‪8‬‬
‫‪8‬‬
‫‪768‬‬
‫‪Pima‬‬
‫‪4‬‬
‫‪6‬‬
‫‪0‬‬
‫‪6‬‬
‫‪1728‬‬
‫‪Car‬‬
‫‪7‬‬
‫‪9‬‬
‫‪0‬‬
‫‪9‬‬
‫‪43500+14500‬‬
‫‪Shuttle‬‬
‫‪UCI Machine Learning Repository‬‬
‫عتی شری ف‪ ،‬دبیرخانه دائمیکنفران س دادهکاویایرا ن‬
‫چهار می نکنفران س دادهکاویایرا ن‪ 10،‬آذر ماه ‪ ،13 89‬دانشگاه صن‬
‫آزمایشات ونتای ج‬
XCS
‫ا‬
‫ا یسهب‬
‫اراییرو شپیشنهادیدر مق‬
‫•ک‬
XCS performance
T-test
RS+XCS performance
Data Set
Train
Train Test
Test
Train
Test
Tao
87.51 ± 2.03
87.5 ± 5.28
91.79 ± 1.873.98*10-9
91.62 ± 4.762.81*10-6
Pima
72.24 ± 1.65
70.79 ± 4.83
73.52 ± 1.051.52*10-8
70.43 ± 4.117.97*10-1
0.9
Car
97.03 ± 0.89
74.19 ± 2.18
1.26*10-16
99.59 ± 0.222.19*10-50
77.45 ± 1.45
0.8
0.7
Shuttle
97.77 ± 0.18
97.76 ± 0.18
99.03 ± 0.084.00*10-22
98.99 ± 0.078.60*10-6
0.6
0.5
0.4
0.3
0.2
0.1
α-confidence
0.001
mXCS_per ≠ mRSXCS_per
mXCS_per > mRSXCS_per
mXCS_per < mRSXCS_per
0.405
0.203
0.797
Reduced data
0
Tao
Pima
Car
Shuttle
‫ دبیرخانه دائمیکنفران س دادهکاویایرا ن‬،‫عتی شری ف‬
‫ دانشگاه صن‬،13 89 ‫ آذر ماه‬10،‫چهار می نکنفران س دادهکاویایرا ن‬
‫هیبه آینده‬
‫جم عبندی ونگا‬
‫های را ف‬
‫ای م سئلهتو سطتئوری مجموعه‬
‫ال یزف ض‬
‫اهد ف‪ ،‬آن‬
‫• روشیارائه شدهب‬
‫اشد‪.‬‬
‫های مطمئ ن میب‬
‫ا بپی شال گ و‬
‫وانتخ‬
‫عی‬
‫اویاز جملهط بقهبندی س‬
‫ا ی ل دادهک‬
‫اد گ یر ‪،XCS‬در م س‬
‫• سیستمط بقهبند ی‬
‫ا‬
‫ادب‬
‫هایز ی‬
‫ا داده‬
‫ای م سئله دارد‪.‬ا ی ن س یستم‪،‬دربرخوردب‬
‫درپوش شتما میف ض‬
‫ارمشک ل ش ود‪.‬‬
‫ای م سئلهو س ی ع ممک نا ست دچ‬
‫فض‬
‫ای م سئلهبهنوا حی مرزی‪،‬‬
‫ه شف ض‬
‫ا‬
‫اک‬
‫هدکهب‬
‫ا ن مید‬
‫ا یجارائه شدهنش‬
‫• نت‬
‫هتریدرط بقهبندی داده‬
‫قتب‬
‫هدب ودبهد‬
‫ادر خ وا‬
‫سیستمط بقهبند جد یدق‬
‫ابد‪.‬‬
‫د ست ی‬
‫ا مجموعه‬
‫برخوردب‬
‫هاینو یزی‬
‫داده‬
‫ا یی‬
‫ه‬
‫مجموعه داده‬
‫های مختلط‬
‫او یژ گی‬
‫ب‬
‫عتی شری ف‪ ،‬دبیرخانه دائمیکنفران س دادهکاویایرا ن‬
‫چهار می نکنفران س دادهکاویایرا ن‪ 10،‬آذر ماه ‪ ،13 89‬دانشگاه صن‬
‫مناب ع‬
•
•
•
•
•
•
•
•
•
J.H. Holland. Adaptation, In Rosen, R., Snell, F., eds.: Progress in theoretical biology. Academic
Press, New York, p.p. 263–293, 1976.
S.W. Wilson, Classifier fitness based on accuracy. Evolution Computation 3(2), p.p. 149–175, 1995.
S.W. Wilson, Generalization in the XCS classifier system. In: Genetic programming 1998:
proceedings of the third annual conference, Morgan-Kaufmann, Cambridge, p.p. 665–674, 1998.
M.V. Butz, T. Kovacs, P.L. Lanzi and S.W.Wilson, Toward a theory of generalization and learning in
XCS. IEEE Transaction Evolutionary Computation 8(1), p.p. 28–46, 2004.
J. Bacardit and M.V. Butz, Data mining in learning classifier systems: comparing XCS with GAssist.
In: IWLCS 2003–2005, revised selected papers, Lecture Notes in Computer Science, vol 4399, p.p.
282–290, 2007.
M. Studley and L. Bull, X-tcs: accuracy-based learning classifier system robotics. In: IEEE Congress
on Evolutionary Computation, CEC, p.p. 2099–2106, 2005.
S.W. Wilson, Function approximation with a classifier system. In: GECCO 2001. Morgan-Kaufmann,
San Francisco,(2001), 974–981.
A.J. Bagnall and G.C. Cawley, Learning classifier systems for data mining: A comparison of XCS
with other classifiers for the Forest Cover dataset, In Proceedings of the IEEE/INNS International
Joint Conference on Artificial Neural Networks (IJCNN-2003), p.p. 1802-1807, 2003.
T.H. Nguyen, S. Foitong and O. Pinngern, Rough set and XCS in classification problems.
International Conference on Computer and Communication Engineering, ICCCE. , p.p. 4806–811,
2008.
‫ دبیرخانه دائمیکنفران س دادهکاویایرا ن‬،‫عتی شری ف‬
‫ دانشگاه صن‬،13 89 ‫ آذر ماه‬10،‫چهار می نکنفران س دادهکاویایرا ن‬
‫مناب ع‬
•
•
•
•
•
•
•
•
Z. Pawlak, Rough sets. International Journal of Computer and Information Sciences 11, (1982),341356.
H. Dam, K. Shafiand A.H. Abbass, Can evolutionary computation handle large datasets? A study into
network intrusion detection. In: Conference on Artificial Intelligence, volume 3809 of Lecture Notes
in Computer Science, Springer, p.p. 1092–1095, 2005.
J. Komorowski, Z. Pawlak, L. Polkowski, et. al., Rough Sets: A Tutorial, in Rough Fuzzy
Hybridization: A New Trend in Decision-Making (ed. S. K. Pal, A. Skowron), Springer-Verlag,
Singapore, p.p. 3-98, 1999.
M. Butz and S.W. Wilson, An algorithmic description of XCS. In IWLCS-2000, Lecture Notes in
Artificial Intelligence (LNAI-1996). Berlin: Springer-Verlag, 2001.
Z. Pawlak, Rough Sets and Data Analysis, Proceeding of IEEE Conference, ISSN:0-7803-3687-9,
1996.
Z. Pawlak, Rough Sets: Theoretical Aspects of Reasoning about Data, Springer, Formerly Kluwer
Academic ublishers, Boston, Dordrecht, London, 1991.
X. Llora` and J. M. Garrell, Evolving Partially-Defined instances with Evolutionary Algorithms, In:
ICML'2001. Morgan Kauffmann, p.p. 337-344, 2001.
S.W. Wilson, Mining oblique data with XCS. In: IWLCS 2000, Paris, France, 15–16 September 2000,
revised papers, Lecture notes in computer science, vol 1996. Springer, Heidelberg, p.p. 158–176,
2001.
‫ دبیرخانه دائمیکنفران س دادهکاویایرا ن‬،‫عتی شری ف‬
‫ دانشگاه صن‬،13 89 ‫ آذر ماه‬10،‫چهار می نکنفران س دادهکاویایرا ن‬
‫اتشکر‬
‫ب‬
‫عتی شری ف‪ ،‬دبیرخانه دائمیکنفران س دادهکاویایرا ن‬
‫چهار می نکنفران س دادهکاویایرا ن‪ 10،‬آذر ماه ‪ ،13 89‬دانشگاه صن‬