شکل 2 مدل پیشنهاد شده توسط بکارگیری تکنیکهای داده کاوی به منظور

Transcript شکل 2 مدل پیشنهاد شده توسط بکارگیری تکنیکهای داده کاوی به منظور

‫داده کاوی‬
‫انتخاب و انگیزه‬
‫به‪:‬‬
‫استاد فرهیخته جناب آقای ؟؟؟‬
‫مشقی از‪:‬‬
‫؟؟؟؟؟؟؟؟؟؟؟‬
‫مقدمه‬
‫•‬
‫در تمام جوامع برای پیشرفت افراد در هر زمینه ای به انگیزه و عالقه ی فرد‬
‫نسبت به آن زمینه نیاز است‪.‬امروزه به جهت رقابت شدید بین جوانان برای‬
‫کسب تحصیالت عالی ‪،‬افراد از طبقات گوناگون جامعه و با انگیزه های مختلف‬
‫و گاهی بدون شناخت ‪ ،‬آگاهی و عالقه وارد رشته های مختلف آموزشی می‬
‫شوند‪ .‬این امر می تواند به صرف هزینه و وقت گزافی منجر شود و نتیجه ی‬
‫الزم را نیز به بار نیاورد‪ .‬از طرف دیگر انتخاب رشته های دانشگاهی با توجه‬
‫به حساسیت موضوع باید با دقت و تامل بیشتری صورت پذیرد‪ .‬عدم توجه به‬
‫این مسئله باعث شده است که تعدادی از دانشجویان علی رغم وقت ‪ ،‬هزینه و‬
‫تالشی که درانتخاب رشته داشته اند ‪ ،‬به تغییر رشته اقدام نمایند‪.‬‬
‫‪4‬‬
‫•‬
‫این مسئله در همه ی کشورهای دنیا اتفاق افتاده به گونه که تغییر رشته در‬
‫کشورهای مانند امریکا در حال افزایش می باشد‪.‬بسیار ی از این تغییر رشته ها‬
‫مربوط به عدم شناخت فرد از رشته ی تحصیلی و یا عدم موفقییت در رشته ی‬
‫مورد نظر بوده که باعث از بین رفتن انگیزه فرد جهت ادامه تحصیل در آن‬
‫رشته می شود ‪ .‬از این رو کشف الگوها و دانش نهفته در اینگونه اطالعات و‬
‫داده های اموزش عالی می تواند به تصمیم گیرندگان عرصه آموزش عالی در‬
‫جهت ارتقا و بهبود فرایند های آموزشی نظیر برنامه ریزی ‪ ،‬ثبت نام ‪ ،‬ارزیابی‬
‫‪ ،‬انتخاب رشته ی تحصیلی‪ ،‬و مشاوره ی دانشجویان در دوران تحصیل کمک‬
‫زیادی کند‪ .‬داده کاوی یک تکنیک میان رشته ای برای اکتشاف اینگونه الگوها‬
‫است ‪ .‬داده کاوی الگوهای قابل فهم ‪ ،‬مفید ‪ ،‬ناشناخته‪ ،‬و معتبر را از داده های‬
‫آموزشی استخراج می کند ‪.‬‬
‫‪5‬‬
‫• مطالعات متعددی در کشورهای مختلف انجام شده و میزان انگیزه افرادجهت ادامه‬
‫تحصیل در رشته های مختلف را اندازه گیری نموده اند‪.‬بررسی میزان انگیزه فرد در‬
‫یک رشته ی خاص می تواند زمینه ای جهت تقویت این انگیزه ها شودو بتواند انگیزه‬
‫افراد را تقویت کرده تا در کار خود پیشرفت کنند‪ .‬لذا در این تحقیق تالش بر ان بوده‬
‫است تا با بکار گیری روشهای داده کاوی از جمله درختان تصمیم گیری ‪c50 cart‬و‬
‫تحلیل داده های جمع آوری شده از پرسشنامه هایی که از طریق دانشجویان دانشکده‬
‫داروسازی دانشگاه علوم پزشکی اصفهان در طول سال های ‪ 82‬تا ‪ 87‬بدست آمده به‬
‫سواالتی در زمینه عوامل موثر در تغییر انگیزه دانشجو و نیز ارتباط بین این عوامل‬
‫پاسخ داده شود ‪ .‬در این مقاله از نرم افزار ‪ Clementine 12.0‬ساخت کشور ‪spss‬‬
‫استفاده شده است ‪ .‬این نرم افزار امکان ایجاد مدلهای متعددی را ‪ ،‬براساس تئوری های‬
‫آماری ‪ ،‬هوش مصنوعی و یادگیری ماشین ارائه می دهد‪.‬‬
‫‪6‬‬
‫‪ -2‬تحقیقات پیشین و چارچوب مسئله‬
‫• همانگونه که در مقدمه بیان گردید استقبال عمومی دانش آموزان به ادامه ی تحصیل در‬
‫رشته هایی با منزلت اجتماعی باال منجر به آن شده است که گروه کثیری از این دانش‬
‫آموزان با داشتن پیش زمینه های متفاوت در هنگام انتخاب رشته به تحصیل در اینگونه‬
‫رشته ها بپردازد ‪ .‬اما به دالیلی که می تواند ناشی از عدم شناخت از رشته انتخابی یا‬
‫ناکامی در براورده شدن اهداف تحصیلی در دوران دانشجویی باشد ‪ .‬انگیزه خود را تا‬
‫حدودی از دست داده و یا تصمیم به تغییر رشته میگیرند ‪ .‬همچنین طبق امار این گروه‬
‫از افراداز موفقیت و درآمد کمتری در اینده برخوردار خواهند بود‪ .‬در این میان تکنیک‬
‫های مختلف داده کاوی مانند شبکه های عصبی ‪ ،‬درختان تصمیم گیری ‪ ،‬رگرسیون‬
‫و‪...‬می توانند با موشکافی اطالعات واقعی مبنی بر داده های سیستم آموزشی به کشف‬
‫دانش و الگوهای جالب کمک کنند‪.‬‬
‫‪7‬‬
‫• )‪ Aksenova et al. (2006‬با استفاده از روش ‪svm‬و مدل های پیش بینی بر پایه‬
‫قوانین به پیش بینی ثبت نام برای دانشجویان رشته علوم کامپیوتر دانشگاه ایالتی‬
‫کالیفرنیا ‪،‬ساکرامنتو ‪ ،‬پرداخته است ‪.‬انواع داده هایی که در طول فرآیند داده کاوی‬
‫مورد استفاده قرار گرفتند شامل ‪ :‬جمعیت‪ ،‬نرخ بیکاری در ناحیه ‪ ،‬شهریه ومالیات ‪،‬‬
‫درامد خانواده ‪ ،‬نرخ فارغ التحصیلی از دبیرستان و داده های تاریخی ثبت نام مربوط به‬
‫سال های گذشته می باشد ‪ .‬این روش نسبت به سایر روش های پیش بینی ثبت نام دارای‬
‫مزیای بسیاری است‪ .‬از جمله ‪svm‬با سیستم های پیچیده سازگار است و در برخورد با‬
‫داده های مغشوق دقیق عمل می کند‪.‬‬
‫• در یک مطالعه توسط (‪ ming yang )2006‬از الگوریتم ‪k-means‬با تعداد خوشه‬
‫های مختلف از ‪ 2‬تا ‪ 6‬به منظور پیش بینی ماندگاری دانشجویان سال اول استفاده شده‬
‫است ‪ .‬داده های یه کار گرفته شده در این تحقیق شامل داده ها ی ثبت نام کالسی دانشگاه‬
‫تگزاس از پاییز ‪ 2000‬تا پاییز ‪ 2004‬است ‪.‬ازجمله متغییرهای مورد استفاده در این‬
‫نحقیق می توان به جنسیت‪ ،‬نژاد‪ ،‬سن‪ ،‬سطح تحصیلی دانشجو‪ ،‬دانشکده و فاصله مکانی‬
‫زندگی دانشجو تا دانشگاه اشاره کرد‪.‬بررسی های این مطالعه بیان کرد که دانشجویان با‬
‫نمره باال از امتحان ورودی دانشگاه که واحدهای بیشتری را گذرانده اند با احتمال‬
‫بیشتری در ترم آینده ثبت نام خواهند کرد و بالعکس‪.‬‬
‫‪8‬‬
‫• در این مقاله تالش بر ان بوده است تا با بکارگیری تکنیک های داده کاوی و تحلیل‬
‫داده های جمع آوری شده از پرسشنامه هایی که توسط دانشجویان تکمیل شده است به‬
‫بررسی عوامل موثر در افزایش یا کاهش انگیزه آنها به رشته تحصیلیشان و نیز کشف‬
‫ارتباط بین این عوامل بپردازیم‪ .‬جامعه مورد نظر کلیه دانشجویان سالهای مختلف‬
‫رشته ی دارئسازی دانشگاه علوم پزشکی اصفهان می باشد‪ .‬در این مطالعه رشته‬
‫داروسازی به عنوان یک‬
‫‪case study‬انتخاب شده زیرا داروسازی از مشاغل با‬
‫منزلت اجتماعی به حساب می آید و متقاضیان زیادی از کنکور تجربی را به خود‬
‫جذب کرده است در حالیست که رشته های پزشکی نیز در اولویت عموم متقاضیان‬
‫کنکور علوم تجربی وجود دارد‪.‬‬
‫• همچنین دانشگاه علوم پزشکی اصفهان از جمله دانشگاه های معتبر در کشور جمهوری‬
‫اسالمی ایران محسوب می شود‪.‬‬
‫‪9‬‬
‫• در این تحقیق دانشجویان به دو گروه اصلی با انگیزه باال و انگیزه پایین دسته‬
‫بندی شده اند‪ .‬الزم به ذکر است که بسیاری از دانشجویان با انگیزه نسبتا پایین‬
‫ناشی از براورده نشدن اهداف تحصیلی در دوران دانشجویی به مطالعه رشته‬
‫تحصیلی خود می پردازند و علی رغم این مسائل به دلیل عدم شرایط مساعد نمی‬
‫توانند اقدام به تغییر رشته تحصیلی خود کنند‪ .‬امار و تحقیقات نشان داده که‬
‫اینگونه مسائل می تواند عواقب نامطلوبی چه در مراحل زندگی و چه در حوزه‬
‫شغل و کار آینده این افراد داشته باشد و درنهایت بازخورد اینگونه چالشها در‬
‫اجتماع مشاهده شده است ‪ .‬با این وچود در تحقیقات پیشین انجام شده توسط‬
‫تکنیکهای داده کاوی تنها دانشجویانی که تغییر رشته و یا ترک تحصیل می کنند‬
‫مورد بررسی قرار گرفتند‪ .‬نمودار موجود در شکل ‪ 1‬بیانگر تو زیع فراوانی‬
‫کالسهای انگیزه بر حسب سال ورود به دانشگاه است ‪ .‬طبق این نمودار تعداد‬
‫دانشجویان با انگیزه پایین در ورودی سالهای ‪82‬و‪83‬و‪ 85‬از سایر ورودیهای‬
‫دیگر بیشتر است که با مروری برسوابق دانشگاه اصفهان نشان می دهد که‬
‫تغییرات در سیاستهای دانشگاه نیز می تواند بر دانشکده ها و دانشجویان تاثیر‬
‫گذار باشد‪.‬‬
‫‪10‬‬
11
‫شکل ‪ 2‬مدل پیشنهاد شده توسط بکارگیری تکنیکهای داده کاوی به منظور کشف عوامل موثر در انگیزه‬
‫دانشجویان و انتخاب رشته تحصیلی را نشان می دهد‪ .‬داده های کاوی مورد مطالعه در این مقاله توسط‬
‫پرسشنامهی و براساس دو مجموعه فکتور اصلی جمع آوری شده اند‪.‬نتایج این مدل می تواند به منظور‬
‫پشتیبانی از سیستم های آینده نگری انگیزه و عالقه مندی دانشجویان و مشاوره تحصیلی استفاده شود‪.‬‬
‫‪12‬‬
‫• در این مطالعه از روش کالسه بندی در درختان تصمیم گیری به عنوان مدل‬
‫استفاده شده است زیرا هدف اصلی این کار پژوهشی شناسایی دانشجویان با‬
‫ریسک باالی کاهش انگیزه ونیز دانشجویان با انگیزه و عالقه مندی باال به ادامه‬
‫تحصیل است همچنین تشخیص درجه و نوع بی انگیزگی (کاهش عالقه ‪ ،‬تمایل‬
‫به تغییر رشته ‪،‬محقق نشدن اهداف) در دانشجویان دجار ریسک از اهداف دیگر‬
‫این تحقیق است‪.‬‬
‫• الگوریتم های درخت تصمیم مدل های دقیق و قابل تفسیر را با دخالت نسبتا کم‬
‫کاربر ایجادمیکنند ‪.‬از این الگوریتم ها میتوان برای مسائل کالسه بندی دو دویی‬
‫و چند کالسه استفاده نمود درختان تصمیم گیری خیلی سریع آموزش می بینند و‬
‫نیز سریع اجرا می شوند دراین مقاله ازدو الگوریتم استنتاج قانون به نام‬
‫‪c5.0‬و‪cart‬استفاده شده است‪ .‬الگوریتم ‪cart‬شکست های دودویی در درخت را‬
‫به خوبی کنترل می کند در حالی که شکست های چند تایی با ‪c5.0‬به خوبی‬
‫کنترل می شوند‪ .‬این دو الگریتم در معیاری که برای شکست استفاده میکنند با‬
‫هم تفاوت دارند‪.‬‬
‫‪13‬‬
‫• بطور کل می توان اهداف اصلی این تحقیق را به صورت زیر بیان نمود ‪:‬‬
‫• بررسی افزایش و یا کاهش انگیزه دانشجویان بر اساس دالیل انتخاب رشته دارو سازی‬
‫• بررسی عوامل موثر درتغییر انگیزه دانشجویان و نیز ارتباط بین این عوامل‬
‫• بررسی روند افزایشی یا کاهشی انگیزه دانشجویان در طول دوره ی تحصیل‬
‫‪14‬‬
‫‪-3‬رشته ی دارو سازی‬
‫• دارو سازی تلفیقی از علوم پایه و بالینی است که در ساخت‬
‫و تولید دارو و دادن اطالعات دارویی خدمات ارزنده ای را‬
‫ارائه می دهد ‪ .‬دروس رشته ی دارو سازی در مقابل رشته‬
‫ی پزشکی بسیار فراگیر و متنوع بوده و هم جنبه ی حفظی‬
‫و هم جنبه ی تحلیلی دارد درنتیجه به همت و تالش قابل‬
‫توجه نیازمند است ‪..‬داروسازی نیز همانند بسیاری از رشته‬
‫های دیگر مشکالت عام آموزش را دارد به این معنا که نظام‬
‫آموزشی ما به جای بحث و گفتگو و درک عمیق مطلب‬
‫بیشتر مبتنی بر حفظ کردن است‪.‬‬
‫‪15‬‬
‫• حدود ‪ 90‬درصد فارغ التحصیالن این رشته جذب بازار کار‬
‫می شوند که از این میان بیش از ‪ 80‬درصد جذب دارو خانه‬
‫ها و مابقی در صنایع داروسازی ( صنعت ساخت و کنترل‬
‫دارو) و کارخانه های آرایشی‪ -‬بهداشتی مشغول به کار می‬
‫شود یا در کارهای اجرایی وزارت بهداشت ‪ ،‬درمان و‬
‫آموزش پزشکی فعالیت می کنند ‪.‬متاسفانه زمان انتظار‬
‫دریافت مجوز دارو خانه در شهر های بزرگ ایران زمان‬
‫گیر است ‪.‬‬
‫‪16‬‬
‫‪ -4‬روش انجام تحقیق‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫این تحقیق در طی انجام چند فاز اصلی صورت گرفته‬
‫است‪:‬‬
‫‪ .‬جمع آوری داده ها ‪ ،‬بررسی و تحلیل آن و درنهایت‬
‫انتخاب داده های مناسب‬
‫‪ .‬پیش پردازش و آماده سازی‬
‫‪ .‬اعمال تکنیک هایی از درختان تصمیم گیری‬
‫‪ .‬کشف عوامل موثر بر انگیزه دانشجویان و مقایسه نتایج‬
‫‪17‬‬
‫‪ 1.4‬روش اجرای طرح و جمع آوری داده ها‬
‫• در مبحث داده کاوی مهمترین مسئله دستیابی به داده هایی است که بتوان براساس آن‬
‫به نتایج مفیدی دست یافت ‪ .‬ما در این مقاله از داده های آموزش عالی استفاده کردیم ‪.‬‬
‫پژوهش حاضر یک مطالعه تو صیفی – تحلیلی بوده و از لحاظ زمانی مقطع خاصی‬
‫را مورد بررسی قرار می دهد ‪ .‬در ابتدا براساس منابع موجود و مطالعات قبلی یک‬
‫پرسشنامه مربوطه اصالح و در اختیار کلیه دانشجویان ورودی در سالهای ‪ 82‬تا ‪87‬‬
‫همین رشته قرار داده شده است‪.‬عرضه پرسشنامه به صورت حضوری انجام شده‬
‫است‪ .‬درتهیه پرسشنامه از مدل لیکرت با گزینه های شامل خیلی زیاد ‪ ،‬زیاد متوسط ‪،‬‬
‫کم و خیلی کم استفاده شده است ‪ .‬سپس داده های جمع آوری شده که شامل ‪434‬‬
‫رکورد اطالعاتی به همراه ‪ 33‬فیلد می باشد در یک فایل صفحه گسترده اکسل قرار‬
‫گرفتند ‪ .‬مقادیر وارد شده برای تمامی صفات به استثنای یک صفت‬
‫‪cate groical‬‬
‫می باشد که برای اجتناب از تداخل معنایی از کد عددی استفاده شده است‪.‬‬
‫‪18‬‬
‫• الگوریتم های داده کاوی اغلب به خصوصیات ویژه داده ها‬
‫حساس هستند لذا بررسی اولیه داده ها فیلد های در بردارنده‬
‫اطالعات الزم برای شناسایی هویت دانشجو را حذف‬
‫نمودیم‪ .‬همچنین ستون هایی که با یکدیگر تغییر می کنند‬
‫• ( مانند ترم تحصیلی با سال ورود و سن با تاریخ تولد ) به‬
‫طور مثال ستون تاریخ تولد و ترم تحصیلی از مجموعه‬
‫داده اصلی حذف شدند ‪ .‬با تحلیل های آماری فیلد های سن‬
‫و سال ورود جزء داده های پرت محسوب شدند‪.‬‬
‫‪19‬‬
‫‪ 2.4‬پیش پردازش و آماده سازی داده ها‬
‫• برای اکتشاف داده ها و ساخت مدل اولیه اغلب کار کردن با مجموعه‬
‫های کاهش یافته منطقی تر به نظر می رسد در حالیکه جدول نمونه‬
‫هایی ممکن است شامل هزاران یا میلیونها نمونه باشد ‪ .‬آماده سازی‬
‫اندیشمندانه داده ها به میزان قابل توجهی اطالعاتی که به وسیله داده‬
‫کاوی کشف می شوند را بهبود بخشد‪ .‬برای افزایش دقت و کیفیت‬
‫قوانین همچنین ایجاد مدلهایی با قوانین کمتر و موثر کاهش تعداد‬
‫صفات و صرفه جویی در حافظه مصرفی الگوریتم ‪feature‬‬
‫‪selection‬در یک جامعه کوچکتر از داده ها بکار برده شد‪.‬با توجه‬
‫به اینکه فیلدهای جمع آوری شده شامل دوگروه اطالعاتی از مجموعه‬
‫فیلدهای مربط به شرایط زمینه ای و دالیل انتخاب رشته دارو سازی‬
‫پیش از ورود به دانشگاه و شرایط به وجود امده در دوران تحصیل و‬
‫دانشگاه است لذا گام پیش پردازش را به صورت مجزا بر اساس دو‬
‫فیلد هدف ( وضعیت انگیزه‪ :‬انگیزه باال‪ ،‬انگیزه پایین و نیز حاالت‬
‫کاهش انگیزه) و هر یک از این دو مجموعه فیلد ها رو اعمال کردیم‪.‬‬
‫‪20‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫در مرحله گزینش اولیه فیلدهایی که اطالعات مفیدی را براساس فیلد خروجی فراهم‬
‫نمی کردند به دلیل زیر حذف شده اند ‪:‬‬
‫فیلد های که دربیش از ‪ 70‬درصد از نمونه ها برای آنها مقدار ی داده نشده است‪.‬‬
‫فیلدهای که مقادیر معتبر وارد شده برای انها در بیش از ‪ 80‬درصد موارد ثابت است‬
‫مجموعه صفات انتخاب شده به عنوان نتیجه بعد از گذراندن سه مرحله گزینش اولیه‬
‫رتبه بندی و انتخاب در جدول شماره ی ‪ 1‬نمایش داده شده اند که تنها از دو فیلد‬
‫اطالعاتی سن و سال ورود به عنوان ورودی عملیات داده کاوی استفاده نمی شوند‪ .‬در‬
‫مرحله رتبه بندی به هریک از صفات پیشگوی باقی مانده از مرحله اول امتیازی‬
‫متناسب با میزان تاثیر گذاری انها بر روی فیلد هدفبا استفاده از محاسبه مقدار‬
‫اختصاص داده می شود برای تعیین مقدار ‪p‬هر فیلد باتوجه به این که فیلد هدف از نوع‬
‫طبقه بندی شده است برای صفات پیشگوی عددی از ‪ f static‬و برای صفات پیشگوی‬
‫‪pearson's chi-square‬یا رابطه‬
‫طبقه بندی شده از رابطه‬
‫‪Pearson's chi-square‬استفاده می شود ‪.‬سپس از میان آن صفات با اهمیت ترین رو‬
‫انتخاب میکنیم بعد از انجام این مراحل نیاز به ابزاری برای گرفتن نتایج است ما از نرم‬
‫افزار ‪ Clementine 12.0‬برای شبیه سازی دو الگوریتم ‪cart‬و ‪c5.0‬استفاده می‬
‫کنیم این نرم افزار به علت داشتن بیشتر تکنیک های مورد استفاده در داده کاوی ‪،‬‬
‫ابزاری توانمند و کاربردی محسوب میشود‪.‬‬
‫‪21‬‬
22
23
‫‪3.4‬درختهای تصمیم گیری‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫نتایج داده کاوی می تواند در فرم ساده ای تحت عنوان درخت تصمیم گیری ارائه شود‪.‬‬
‫با توجه به ساختار درخت قوانین تولید می شوند‪ .‬درختان تصمیم گیری به منظور‬
‫پیشگویی یا کالسه بندی داده ها براساس مجموعه قوانین تصمیم ایجاد شدند‪.‬‬
‫کالسه بندی داده ها با درختان تصمیم گیری یک فرایند دو مرحله ای می باشد‪.‬در‬
‫مرحله اول که به ان مرحله اموزش گفته می شود مدلی براساس یک الگوریتم کالسه‬
‫بندی منطبق با داده کاوی مربوط به مجموعه آموزشی ساخته می شود‪ .‬مجموعه‬
‫اموزشی به صورت تصادفی از پایگاه داده انتخاب می شود ‪ .‬در مرحله دوم یاد گیری‬
‫از طریق یک تابع )‪y=f(X‬انجام می شود که می تواند برچسب کالس هر رکورد ‪x‬از‬
‫پایگاه داده را پیش بینی کند‪ .‬مرحله یاد گیری خود طی دو گام اساسی رشد و هرس‬
‫انجام می شود‪ .‬در طول فرآیند اموزش الگوریتم درخت تصمیم می بایست به صورت‬
‫مکرر موثر ترین روش جهت تقسیم کردن مجموعه رکوردها به فرزندان رابیابد‪.‬‬
‫مرحله هرس برای جلوگیری از پردازش بیش از حد صورت میگیرد‪ .‬معیارهای‬
‫مختلفی برای تعیینصفتی که باید ‪split‬براساس آن انجام شود وجود دارد مانند‬
‫‪ .‬بهر اطالعاتی‬
‫‪.‬نسبت بهره‬
‫‪ .‬شاخص جینی‬
‫با توجه به نوع فیلدها و نیز الگوریتم انتخاب شده و جهت کالسه بندی یکی از معیار‬
‫های فوق گزینش می شود‪.‬‬
‫‪24‬‬
‫‪ 4.4‬الگوریتم ‪cart‬‬
‫• در این بخش از تحقیقاتمان به منظور کشف دانش مدل درخت تصمیم گیری‬
‫مبنی بر الگوریتم ‪cart‬استفاده نمودیم‪.‬الگوریتم ‪cart‬نخستین بار توسط‬
‫‪olshen, friedman, stone,bremiman‬در سال ‪ 1984‬برای درختان‬
‫رگرسیون و کالسه بندی طراحی شد‪.‬‬
‫• روش عملکرد این الگوریتم ‪surrogate splitting‬نام دارد‪ .‬این الگوریتم‬
‫شامل یک متد بازگشتی است‪ .‬الگوریتم ‪cart‬در هر مرحله رکورد های‬
‫آموزشی را به دو زیر مجموعه تقسیم می کند‪.‬به طوریکه رکوردهای هر زیر‬
‫مجموعه نسبت به زیر مجموعه های قبلی همگن تر باشد‪.‬این تقسیم شدنها به‬
‫دفعات انجام می شودتا شرایط تو قف برقرار شود‪ .‬در ‪cart‬بهترین شکست با‬
‫تعیین مقدار پارامتر ‪impurity‬تعیین می شود‪ .‬اگر بهترین شکست برای یک‬
‫شاخه ‪impurity‬را از حد تعریف شده کمتر کند آن انشعاب ساخته نمی‬
‫شودمفهوم ‪impurity‬در اینجا به میزان شباهت مقدار فیلد هدف قرار بگیرد ان‬
‫گره ‪pure‬نامیده می شود قابل توجه است که در الگوریتم ‪cart‬یک فیلد پیشگو‬
‫ممکن است به دفعات در سطوح مختلف درخت تصمیم گیری بکار گرفته شود‪.‬‬
‫همچنین این الگوریتم فیلدهایهدف و پیشگوی از نوع ‪categorical‬و‬
‫‪continues‬را پشتیبانی می کند‪.‬‬
‫‪25‬‬
‫‪ 1.4.4‬روش برخورد با ‪miss value‬ها‬
‫• عملکرد این الگوریتم در مقابل ‪missing value‬ها تاثیر مهمی در کیفیت مدل‬
‫می گذارد‪ .‬در الگوریتم ‪cart‬از ‪surrogate splitting‬برای بهترین بهره‬
‫گیری از دادههای حاوی ‪ miss value‬استفاده می شود‪ Surrogate .‬متدی‬
‫جهت رسیدگی به ‪missing value‬ها است‪ .‬اگرزمان کالسه بندی یک‬
‫رکوردمقدار فیلد شکست مفقود باشد مقدار فیلد ‪surrogate‬جایگزین می شود‪.‬‬
‫بدین روش که برای تمامی فیلدها مقدار پارامتر ‪split‬محاسبه می شود‪ .‬اگر در‬
‫رکوردی صفت پیشگویی که دبهترین مقدار ‪split‬را به خود احتصاص داده در‬
‫ان رکورد ‪missing value‬داشته باشد صفت پیشگویی دیگری که بیشترین‬
‫مقدار ‪split‬را بعد از فیلد مذبور دارد برای تعیین گروه بندی انتخاب می شود‪.‬‬
‫اگر فیلد دوم هم در رکورد مورد نظر دچار ‪missing value‬باشد از سومین‬
‫فیلد با حداکثر مقدار ‪split‬استفاده می شود‪ .‬این ویژگی منجر به افزایش‬
‫انعطالف پذیری الگوریتم ‪cart‬شده است‪.‬‬
‫‪26‬‬
‫‪ 2.4.4‬هرس کردن‬
‫•‬
‫هرس کردن درخت ‪cart‬با درنظر گرفتن دو هدف حذف ریکسهای ‪misclassification‬و کاهش‬
‫پیچیدگی درخت انجام می شود‪ .‬برای دستیابی به این هدف از شاخص ‪cost-complexity‬استفاده می‬
‫شود‪ .‬که هر دو مقدار ریسک ‪misclassification‬و‪ complexity‬درخت را محاسبه می کند و هدف‬
‫اصلی حداقل کردن مقدار این دو پارامتراست‪ .‬مقدار این شاخص از طریق معادله (‪ )1‬به دست می اید‪:‬‬
‫•‬
‫به طوریکه‪:‬‬
‫•‬
‫در هر درخت حداکثر هزینه محاسبه می شود‪ .‬به طوریکه هر گره برگ حاوی یک رکورد شورد و مقدار‬
‫پیچیدگی و ریسک تخمین زده شده حداقل باشد‪ .‬و با افزایش ‪ a‬مجوعه متناهی از درختان ایجاد می شود که‬
‫به ترتیب تعداد گره های پایانی در آنها با حذف شاخه های ضعیفتر در هر مرحله کاهش می یابد‪.‬‬
‫‪27‬‬
‫الگوریتم ‪c5.0‬‬
‫•‬
‫ز‪ 5.0‬یکی از الگوریتم های درختان تصمیم گیری می باشدکه تحقیقاتمان به منظور کشف دانش و‬
‫قوانین با کیفیت تر مورد استفاده قرار گرفت‪ .‬الگوریتم ‪c5.0‬یک نوع درخت تصمیم گیری تک‬
‫متغییره و بهبود یافته الگوریتم ‪c4.5‬است که تو سط محقق استرلیایی ‪j.ross quinlan‬در سال‬
‫‪ 1993‬طراحی شد‪ .‬این الگوریتم مشابه با ‪cart‬ابتدا درختی تقریبا پر ایجاد می کند ولی استراتژی‬
‫هرس ان کامال متفاوت است ‪ .‬این الگوریتم کالسه بندی را با تقسیم کردن داده ها به زیر مجموعه‬
‫هایی که شامل رکورد های همگن تر از والد خود هستند انجام می دهد ‪ .‬در ‪c5.0‬تقسیم کردن نمونه‬
‫ها براساس فیلدی که بیشترین بهره اطالعات را دارد صورت میگیرد‪ .‬این الگوریتم با نرخ کاهش‬
‫اطالعات نامعلوم براساس معدله ی (‪ )2‬شاخه ای از فیلدها را برای انشعاب انتخاب می کند‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫به طوریکه ‪:‬‬
‫‪a:‬مقدار یک فیلد‬
‫‪C:‬برچسب کالس‬
‫‪H(x/a):‬یک فیلد با حداقل مقدار )‪ ،H(x/a‬به عنوان یک انشعاب انتخاب می شود‪.‬‬
‫‪28‬‬
‫• هر زیر نمونه توسط اولین انشعاب تعیین می شود‪ .‬سپس معموال‬
‫براساس فیلدی دیگر مجددا تقسیم بندی اجام میگیردو این فرایند به‬
‫دفعات تکرار می شود تا اینکه زیر نمونه ها قابلیت تقسیم شدن را‬
‫نداشته باشند‪ .‬سرانجام انشعاب های پایین تر سطح از نو آزمورده می‬
‫شوند و ان انشعاب هایی که ارزش چشمگیری ندارند از مدل حذف می‬
‫شوند‪ .‬الزم به ذکر است که ‪5.0 c‬تنها فیلد خارجی ازنوع‬
‫‪categorical‬را می پذیرد اما فیلدهای دیگر می توانند از هر نوعی‬
‫باشند‪.‬‬
‫• استنتاج قانون از طریق الگوریتم ‪c5.0‬برا ساس درخت تصمیم گیری‬
‫می باشد‪ .‬این احتمال وجود دارد که بیش از یک قانون به ازای هر‬
‫رکورد خاص صدق کند و یا هیچ قانونی بکار نرود‪ .‬اگر چندین قانون‬
‫برای یک رکورد مناسب باشد هر قانونی مبنی بر اطمینان مربوط به ان‬
‫قانون وزنی تحت عنوان " "‪vote‬صورت میگیرد در این صورت‬
‫براساس ترکیب وزن همه قوانین مناسب برای ان رکورد پیش بینی‬
‫نهایی تعیین می شود و اگر هیچ قانونی مناسب نباشد یک پیشگوی پیش‬
‫فرض به آن نسبت داده می شود‪.‬‬
‫‪29‬‬
‫روش برخورد با ‪miss value‬ها‬
‫•‬
‫• الگوریتم ‪c5.0‬درمقابل مسائلی از قبیل ‪missing data‬و زیاد‬
‫بودن تعداد فیلدهای ورودی قدرتمند است‪ .‬معموال این الگوریتم‬
‫به زمان بیشتری برای اموزش نیاز ندارد‪ .‬مدل بدست امده‬
‫توسط این الگوریتم به سادگی قابل فهم است و همچنین قوانین‬
‫تولید شده به آسانی تفسیر می شوند‪c5.0 .‬از چندین روش‬
‫‪attribute missing‬ها را مورد بررسی قرار می دهد‪ .‬یکی‬
‫از این روشها این است که مقدار ‪ missing attribute‬را با‬
‫مقادیری که درهمان گره بیشتر متداول است جایگزین کند و یا با‬
‫انجام یکسری محسبات احتمالی براساس مابقی نمونه مقدار‬
‫مناسب را جایگزین کند‪.‬‬
‫‪30‬‬
‫‪ 2.5.4‬هر س کردن‬
‫• رویه هرس کردن در ‪c5.0‬با هدف دستیابی به درختی مختصر تر و‬
‫کاهش پیچیدگی ها در دو گام انجام می شود‪ :‬گام اول هرس محلی می‬
‫باشد‪ .‬در این مرحله هر زیر درخت مورد بررسی قرار میگیرد و در‬
‫صورت نیاز شاخه های زیر درختها جهت افزایش دقت مدل حذف‬
‫می شوند‪ .‬گام دوم هرس سراسری است که زیر درخت های ضعیف‬
‫حذف می شوند‪ .‬در واقع رویه هرس درختی را که قبال ایجاد شده بود‬
‫را مورد بررسی قرار می دهد و سپس آنرا توسط مجموعه‬
‫‪validation‬تست می کند‪.‬اگر درخت هرس شده بهتر از درخت‬
‫اصلی عمل کند تغییرات واقعا ذخیره می شود در ‪c5.0‬می توان‬
‫شدت هرس شدن درخت را تنظیم نمود با افزایش ان درختی کوچکتر‬
‫و مختصر تر خواهیم داشت و با کاهش ان درختی دقیقتر ایاد خواهد‬
‫شد‪.‬‬
‫‪31‬‬
‫‪Boosting‬‬
‫• الگوریتم ‪ c5.0‬از ‪ boosting‬در درختان تصمیم گیری پشتیبانی می‬
‫کند‪ Boosting .‬یک تکنیک برای تولید و ترکیب کالسه بندی کننده ها‬
‫چند گانه به منظور بهبود نرخ دقت است‪ Boosting .‬با ساختار چندین‬
‫مدله در یک توالی اجرای می شود‪ .‬اولین مدل معموال از این روش‬
‫ساخته شده و سپس دومین مدل با تمرکز بر رکوردهایی که در مدل‬
‫اویه کالسه بندی شدند ساخته می شود‪ .‬سپس مدل سوم براساس‬
‫خطاهای مدل دوم ایجاد می شود و این روند ادامه می یابد‪ .‬درنهایت ان‬
‫نمونه کالسه بندی شده از طریق هر یک از این مدلها توسط زیر روال‬
‫رای گیری وزن دار پیشگویی های مجزا را تحت یک پیشگویی واحد‬
‫ترکیب می کد‪ Boosting .‬به طور چشمگیری دقت یک مدل ‪c5.0‬را‬
‫بهبود می بخشد‪ .‬اما در این صورت زمان اموزش طوالنی تر می شود‬
‫عالوه بر این غربال سازی خودکار ‪ arrribute‬ها در ‪c5.0‬نهایتا‬
‫منجر به کالسه بندی های کوچکتر و با دقت پیشگویی باالتر می شود‪.‬‬
‫‪32‬‬
‫‪Grouo symbolc‬‬
‫• گزینه ‪ Grouo symbolc‬در مدل ‪ c5.0‬به ازای هر مقدار‬
‫‪ symbolic‬یک شاخه جدید ایجاد می کند و سپس سعی بر‬
‫ترکیب کردن مقادیر ‪ symbolic‬ای دارد که الگوهای‬
‫مشابهی را در ارتباط با فیلد خارجی ارائه می دهند‪.‬‬
‫‪33‬‬
‫نتیجه گیری‬
‫• انتخاب صحیح رشته ی تحصیلی از اهمیت خاصی بر خوردار است‬
‫که اشتباه در این امر مهم می تواند اثراد جبران نا پذیری به همراه‬
‫داشته باشد باشد‪ .‬لذا در این مقاله سعی شدتا با استناد به اطالعات‬
‫جمع اوری شده از دانشجویان رشته دارو سازی که در خصوص‬
‫مشخصات دانشجو عوامل موثر در انتخاب این رشته شرایط زمینه‬
‫ای و شرایط به وجود امده در حین تحصیل بوده اند‪ .‬به کشف ارتباط‬
‫بین عوامل احتمالی تاثیر گذار در تغییر انگیزه دانشجویان به ادامه‬
‫تحصیل و یا تغییر رشته بپردازیم تا براساس ان نتایج تنهدات الزم‬
‫اندیشیده شود‪ .‬بدین منظور از روش کالسه بندی با درختان تصمیم‬
‫گیری استفاده میکنیم‪ .‬نتایج بدست امده حاکی از ان است که توانایی‬
‫پیشگویی مدل ایجاد شده توسط الگوریتم ‪c5.0‬بیشتر از الگوریتم‬
‫‪ cart‬است زیرا تفاوت در رویه ی هرس هر دو الگوریتم و داشتن‬
‫متد ‪ boosting‬در مدل ‪ c5.0‬است‪.‬‬
‫‪34‬‬
‫• براسال داده های واقعی یکسری نتایج بدست امده از جمله آگاهی‬
‫از اینده شغلی از مهمترین پارامترهایی است که در هنگام‬
‫انتخاب رشته داروسازی باید به ان وجه کرد‪ .‬همچنین متقاضیان‬
‫ورود به دانشگاه می بایست عالقه مندی خوبی به دروس پایه ای‬
‫رشته ی تحصیلی مورد نظر برخورد دار باشند‪ .‬عالوه بر این‬
‫عدم وجود آزمایشگاه های مناسب ‪ ،‬کیفیت دروس اختصاصی و‬
‫بخصوص بعد از امتحان جامع علوم پایه نیز می تواند از علل‬
‫کاهش عالقه دانشجویان در این رشته باشد‪ .‬بسیاری از این‬
‫افرارد به امید اخذ تخصص و جهت کسب شغلی مناسب سختی‬
‫های تحصیل را تحمل می کنند ولی متاسفانه دروس ارائه شده‬
‫همچنان انها را از داشتن شغلی مناسب در اینده نگران می سازد‬
‫‪ .‬ان نکات و سایر نتایج بدست امده در این تحقیق اهمیت و نقش‬
‫مسئولین و رسانه های اموزشی را در جهت بهبود کیفیت دروس‬
‫تخصصی و مطلع سازی دانشجویان و باالخص متقاضیان ورود‬
‫به دانشگاه از آینده شغلی و دروس بنیادی اینگونه رشته ها را‬
‫می رساند‪.‬‬
‫‪35‬‬
36
37

شکل 2 مدل پیشنهاد شده توسط بکارگیری تکنیکهای داده کاوی به منظور

Transcript شکل 2 مدل پیشنهاد شده توسط بکارگیری تکنیکهای داده کاوی به منظور

Directory