شکل 2 مدل پیشنهاد شده توسط بکارگیری تکنیکهای داده کاوی به منظور
Download
Report
Transcript شکل 2 مدل پیشنهاد شده توسط بکارگیری تکنیکهای داده کاوی به منظور
داده کاوی
انتخاب و انگیزه
به:
استاد فرهیخته جناب آقای ؟؟؟
مشقی از:
؟؟؟؟؟؟؟؟؟؟؟
مقدمه
•
در تمام جوامع برای پیشرفت افراد در هر زمینه ای به انگیزه و عالقه ی فرد
نسبت به آن زمینه نیاز است.امروزه به جهت رقابت شدید بین جوانان برای
کسب تحصیالت عالی ،افراد از طبقات گوناگون جامعه و با انگیزه های مختلف
و گاهی بدون شناخت ،آگاهی و عالقه وارد رشته های مختلف آموزشی می
شوند .این امر می تواند به صرف هزینه و وقت گزافی منجر شود و نتیجه ی
الزم را نیز به بار نیاورد .از طرف دیگر انتخاب رشته های دانشگاهی با توجه
به حساسیت موضوع باید با دقت و تامل بیشتری صورت پذیرد .عدم توجه به
این مسئله باعث شده است که تعدادی از دانشجویان علی رغم وقت ،هزینه و
تالشی که درانتخاب رشته داشته اند ،به تغییر رشته اقدام نمایند.
4
•
این مسئله در همه ی کشورهای دنیا اتفاق افتاده به گونه که تغییر رشته در
کشورهای مانند امریکا در حال افزایش می باشد.بسیار ی از این تغییر رشته ها
مربوط به عدم شناخت فرد از رشته ی تحصیلی و یا عدم موفقییت در رشته ی
مورد نظر بوده که باعث از بین رفتن انگیزه فرد جهت ادامه تحصیل در آن
رشته می شود .از این رو کشف الگوها و دانش نهفته در اینگونه اطالعات و
داده های اموزش عالی می تواند به تصمیم گیرندگان عرصه آموزش عالی در
جهت ارتقا و بهبود فرایند های آموزشی نظیر برنامه ریزی ،ثبت نام ،ارزیابی
،انتخاب رشته ی تحصیلی ،و مشاوره ی دانشجویان در دوران تحصیل کمک
زیادی کند .داده کاوی یک تکنیک میان رشته ای برای اکتشاف اینگونه الگوها
است .داده کاوی الگوهای قابل فهم ،مفید ،ناشناخته ،و معتبر را از داده های
آموزشی استخراج می کند .
5
• مطالعات متعددی در کشورهای مختلف انجام شده و میزان انگیزه افرادجهت ادامه
تحصیل در رشته های مختلف را اندازه گیری نموده اند.بررسی میزان انگیزه فرد در
یک رشته ی خاص می تواند زمینه ای جهت تقویت این انگیزه ها شودو بتواند انگیزه
افراد را تقویت کرده تا در کار خود پیشرفت کنند .لذا در این تحقیق تالش بر ان بوده
است تا با بکار گیری روشهای داده کاوی از جمله درختان تصمیم گیری c50 cartو
تحلیل داده های جمع آوری شده از پرسشنامه هایی که از طریق دانشجویان دانشکده
داروسازی دانشگاه علوم پزشکی اصفهان در طول سال های 82تا 87بدست آمده به
سواالتی در زمینه عوامل موثر در تغییر انگیزه دانشجو و نیز ارتباط بین این عوامل
پاسخ داده شود .در این مقاله از نرم افزار Clementine 12.0ساخت کشور spss
استفاده شده است .این نرم افزار امکان ایجاد مدلهای متعددی را ،براساس تئوری های
آماری ،هوش مصنوعی و یادگیری ماشین ارائه می دهد.
6
-2تحقیقات پیشین و چارچوب مسئله
• همانگونه که در مقدمه بیان گردید استقبال عمومی دانش آموزان به ادامه ی تحصیل در
رشته هایی با منزلت اجتماعی باال منجر به آن شده است که گروه کثیری از این دانش
آموزان با داشتن پیش زمینه های متفاوت در هنگام انتخاب رشته به تحصیل در اینگونه
رشته ها بپردازد .اما به دالیلی که می تواند ناشی از عدم شناخت از رشته انتخابی یا
ناکامی در براورده شدن اهداف تحصیلی در دوران دانشجویی باشد .انگیزه خود را تا
حدودی از دست داده و یا تصمیم به تغییر رشته میگیرند .همچنین طبق امار این گروه
از افراداز موفقیت و درآمد کمتری در اینده برخوردار خواهند بود .در این میان تکنیک
های مختلف داده کاوی مانند شبکه های عصبی ،درختان تصمیم گیری ،رگرسیون
و...می توانند با موشکافی اطالعات واقعی مبنی بر داده های سیستم آموزشی به کشف
دانش و الگوهای جالب کمک کنند.
7
• ) Aksenova et al. (2006با استفاده از روش svmو مدل های پیش بینی بر پایه
قوانین به پیش بینی ثبت نام برای دانشجویان رشته علوم کامپیوتر دانشگاه ایالتی
کالیفرنیا ،ساکرامنتو ،پرداخته است .انواع داده هایی که در طول فرآیند داده کاوی
مورد استفاده قرار گرفتند شامل :جمعیت ،نرخ بیکاری در ناحیه ،شهریه ومالیات ،
درامد خانواده ،نرخ فارغ التحصیلی از دبیرستان و داده های تاریخی ثبت نام مربوط به
سال های گذشته می باشد .این روش نسبت به سایر روش های پیش بینی ثبت نام دارای
مزیای بسیاری است .از جمله svmبا سیستم های پیچیده سازگار است و در برخورد با
داده های مغشوق دقیق عمل می کند.
• در یک مطالعه توسط ( ming yang )2006از الگوریتم k-meansبا تعداد خوشه
های مختلف از 2تا 6به منظور پیش بینی ماندگاری دانشجویان سال اول استفاده شده
است .داده های یه کار گرفته شده در این تحقیق شامل داده ها ی ثبت نام کالسی دانشگاه
تگزاس از پاییز 2000تا پاییز 2004است .ازجمله متغییرهای مورد استفاده در این
نحقیق می توان به جنسیت ،نژاد ،سن ،سطح تحصیلی دانشجو ،دانشکده و فاصله مکانی
زندگی دانشجو تا دانشگاه اشاره کرد.بررسی های این مطالعه بیان کرد که دانشجویان با
نمره باال از امتحان ورودی دانشگاه که واحدهای بیشتری را گذرانده اند با احتمال
بیشتری در ترم آینده ثبت نام خواهند کرد و بالعکس.
8
• در این مقاله تالش بر ان بوده است تا با بکارگیری تکنیک های داده کاوی و تحلیل
داده های جمع آوری شده از پرسشنامه هایی که توسط دانشجویان تکمیل شده است به
بررسی عوامل موثر در افزایش یا کاهش انگیزه آنها به رشته تحصیلیشان و نیز کشف
ارتباط بین این عوامل بپردازیم .جامعه مورد نظر کلیه دانشجویان سالهای مختلف
رشته ی دارئسازی دانشگاه علوم پزشکی اصفهان می باشد .در این مطالعه رشته
داروسازی به عنوان یک
case studyانتخاب شده زیرا داروسازی از مشاغل با
منزلت اجتماعی به حساب می آید و متقاضیان زیادی از کنکور تجربی را به خود
جذب کرده است در حالیست که رشته های پزشکی نیز در اولویت عموم متقاضیان
کنکور علوم تجربی وجود دارد.
• همچنین دانشگاه علوم پزشکی اصفهان از جمله دانشگاه های معتبر در کشور جمهوری
اسالمی ایران محسوب می شود.
9
• در این تحقیق دانشجویان به دو گروه اصلی با انگیزه باال و انگیزه پایین دسته
بندی شده اند .الزم به ذکر است که بسیاری از دانشجویان با انگیزه نسبتا پایین
ناشی از براورده نشدن اهداف تحصیلی در دوران دانشجویی به مطالعه رشته
تحصیلی خود می پردازند و علی رغم این مسائل به دلیل عدم شرایط مساعد نمی
توانند اقدام به تغییر رشته تحصیلی خود کنند .امار و تحقیقات نشان داده که
اینگونه مسائل می تواند عواقب نامطلوبی چه در مراحل زندگی و چه در حوزه
شغل و کار آینده این افراد داشته باشد و درنهایت بازخورد اینگونه چالشها در
اجتماع مشاهده شده است .با این وچود در تحقیقات پیشین انجام شده توسط
تکنیکهای داده کاوی تنها دانشجویانی که تغییر رشته و یا ترک تحصیل می کنند
مورد بررسی قرار گرفتند .نمودار موجود در شکل 1بیانگر تو زیع فراوانی
کالسهای انگیزه بر حسب سال ورود به دانشگاه است .طبق این نمودار تعداد
دانشجویان با انگیزه پایین در ورودی سالهای 82و83و 85از سایر ورودیهای
دیگر بیشتر است که با مروری برسوابق دانشگاه اصفهان نشان می دهد که
تغییرات در سیاستهای دانشگاه نیز می تواند بر دانشکده ها و دانشجویان تاثیر
گذار باشد.
10
11
شکل 2مدل پیشنهاد شده توسط بکارگیری تکنیکهای داده کاوی به منظور کشف عوامل موثر در انگیزه
دانشجویان و انتخاب رشته تحصیلی را نشان می دهد .داده های کاوی مورد مطالعه در این مقاله توسط
پرسشنامهی و براساس دو مجموعه فکتور اصلی جمع آوری شده اند.نتایج این مدل می تواند به منظور
پشتیبانی از سیستم های آینده نگری انگیزه و عالقه مندی دانشجویان و مشاوره تحصیلی استفاده شود.
12
• در این مطالعه از روش کالسه بندی در درختان تصمیم گیری به عنوان مدل
استفاده شده است زیرا هدف اصلی این کار پژوهشی شناسایی دانشجویان با
ریسک باالی کاهش انگیزه ونیز دانشجویان با انگیزه و عالقه مندی باال به ادامه
تحصیل است همچنین تشخیص درجه و نوع بی انگیزگی (کاهش عالقه ،تمایل
به تغییر رشته ،محقق نشدن اهداف) در دانشجویان دجار ریسک از اهداف دیگر
این تحقیق است.
• الگوریتم های درخت تصمیم مدل های دقیق و قابل تفسیر را با دخالت نسبتا کم
کاربر ایجادمیکنند .از این الگوریتم ها میتوان برای مسائل کالسه بندی دو دویی
و چند کالسه استفاده نمود درختان تصمیم گیری خیلی سریع آموزش می بینند و
نیز سریع اجرا می شوند دراین مقاله ازدو الگوریتم استنتاج قانون به نام
c5.0وcartاستفاده شده است .الگوریتم cartشکست های دودویی در درخت را
به خوبی کنترل می کند در حالی که شکست های چند تایی با c5.0به خوبی
کنترل می شوند .این دو الگریتم در معیاری که برای شکست استفاده میکنند با
هم تفاوت دارند.
13
• بطور کل می توان اهداف اصلی این تحقیق را به صورت زیر بیان نمود :
• بررسی افزایش و یا کاهش انگیزه دانشجویان بر اساس دالیل انتخاب رشته دارو سازی
• بررسی عوامل موثر درتغییر انگیزه دانشجویان و نیز ارتباط بین این عوامل
• بررسی روند افزایشی یا کاهشی انگیزه دانشجویان در طول دوره ی تحصیل
14
-3رشته ی دارو سازی
• دارو سازی تلفیقی از علوم پایه و بالینی است که در ساخت
و تولید دارو و دادن اطالعات دارویی خدمات ارزنده ای را
ارائه می دهد .دروس رشته ی دارو سازی در مقابل رشته
ی پزشکی بسیار فراگیر و متنوع بوده و هم جنبه ی حفظی
و هم جنبه ی تحلیلی دارد درنتیجه به همت و تالش قابل
توجه نیازمند است ..داروسازی نیز همانند بسیاری از رشته
های دیگر مشکالت عام آموزش را دارد به این معنا که نظام
آموزشی ما به جای بحث و گفتگو و درک عمیق مطلب
بیشتر مبتنی بر حفظ کردن است.
15
• حدود 90درصد فارغ التحصیالن این رشته جذب بازار کار
می شوند که از این میان بیش از 80درصد جذب دارو خانه
ها و مابقی در صنایع داروسازی ( صنعت ساخت و کنترل
دارو) و کارخانه های آرایشی -بهداشتی مشغول به کار می
شود یا در کارهای اجرایی وزارت بهداشت ،درمان و
آموزش پزشکی فعالیت می کنند .متاسفانه زمان انتظار
دریافت مجوز دارو خانه در شهر های بزرگ ایران زمان
گیر است .
16
-4روش انجام تحقیق
•
•
•
•
•
این تحقیق در طی انجام چند فاز اصلی صورت گرفته
است:
.جمع آوری داده ها ،بررسی و تحلیل آن و درنهایت
انتخاب داده های مناسب
.پیش پردازش و آماده سازی
.اعمال تکنیک هایی از درختان تصمیم گیری
.کشف عوامل موثر بر انگیزه دانشجویان و مقایسه نتایج
17
1.4روش اجرای طرح و جمع آوری داده ها
• در مبحث داده کاوی مهمترین مسئله دستیابی به داده هایی است که بتوان براساس آن
به نتایج مفیدی دست یافت .ما در این مقاله از داده های آموزش عالی استفاده کردیم .
پژوهش حاضر یک مطالعه تو صیفی – تحلیلی بوده و از لحاظ زمانی مقطع خاصی
را مورد بررسی قرار می دهد .در ابتدا براساس منابع موجود و مطالعات قبلی یک
پرسشنامه مربوطه اصالح و در اختیار کلیه دانشجویان ورودی در سالهای 82تا 87
همین رشته قرار داده شده است.عرضه پرسشنامه به صورت حضوری انجام شده
است .درتهیه پرسشنامه از مدل لیکرت با گزینه های شامل خیلی زیاد ،زیاد متوسط ،
کم و خیلی کم استفاده شده است .سپس داده های جمع آوری شده که شامل 434
رکورد اطالعاتی به همراه 33فیلد می باشد در یک فایل صفحه گسترده اکسل قرار
گرفتند .مقادیر وارد شده برای تمامی صفات به استثنای یک صفت
cate groical
می باشد که برای اجتناب از تداخل معنایی از کد عددی استفاده شده است.
18
• الگوریتم های داده کاوی اغلب به خصوصیات ویژه داده ها
حساس هستند لذا بررسی اولیه داده ها فیلد های در بردارنده
اطالعات الزم برای شناسایی هویت دانشجو را حذف
نمودیم .همچنین ستون هایی که با یکدیگر تغییر می کنند
• ( مانند ترم تحصیلی با سال ورود و سن با تاریخ تولد ) به
طور مثال ستون تاریخ تولد و ترم تحصیلی از مجموعه
داده اصلی حذف شدند .با تحلیل های آماری فیلد های سن
و سال ورود جزء داده های پرت محسوب شدند.
19
2.4پیش پردازش و آماده سازی داده ها
• برای اکتشاف داده ها و ساخت مدل اولیه اغلب کار کردن با مجموعه
های کاهش یافته منطقی تر به نظر می رسد در حالیکه جدول نمونه
هایی ممکن است شامل هزاران یا میلیونها نمونه باشد .آماده سازی
اندیشمندانه داده ها به میزان قابل توجهی اطالعاتی که به وسیله داده
کاوی کشف می شوند را بهبود بخشد .برای افزایش دقت و کیفیت
قوانین همچنین ایجاد مدلهایی با قوانین کمتر و موثر کاهش تعداد
صفات و صرفه جویی در حافظه مصرفی الگوریتم feature
selectionدر یک جامعه کوچکتر از داده ها بکار برده شد.با توجه
به اینکه فیلدهای جمع آوری شده شامل دوگروه اطالعاتی از مجموعه
فیلدهای مربط به شرایط زمینه ای و دالیل انتخاب رشته دارو سازی
پیش از ورود به دانشگاه و شرایط به وجود امده در دوران تحصیل و
دانشگاه است لذا گام پیش پردازش را به صورت مجزا بر اساس دو
فیلد هدف ( وضعیت انگیزه :انگیزه باال ،انگیزه پایین و نیز حاالت
کاهش انگیزه) و هر یک از این دو مجموعه فیلد ها رو اعمال کردیم.
20
•
•
•
•
•
در مرحله گزینش اولیه فیلدهایی که اطالعات مفیدی را براساس فیلد خروجی فراهم
نمی کردند به دلیل زیر حذف شده اند :
فیلد های که دربیش از 70درصد از نمونه ها برای آنها مقدار ی داده نشده است.
فیلدهای که مقادیر معتبر وارد شده برای انها در بیش از 80درصد موارد ثابت است
مجموعه صفات انتخاب شده به عنوان نتیجه بعد از گذراندن سه مرحله گزینش اولیه
رتبه بندی و انتخاب در جدول شماره ی 1نمایش داده شده اند که تنها از دو فیلد
اطالعاتی سن و سال ورود به عنوان ورودی عملیات داده کاوی استفاده نمی شوند .در
مرحله رتبه بندی به هریک از صفات پیشگوی باقی مانده از مرحله اول امتیازی
متناسب با میزان تاثیر گذاری انها بر روی فیلد هدفبا استفاده از محاسبه مقدار
اختصاص داده می شود برای تعیین مقدار pهر فیلد باتوجه به این که فیلد هدف از نوع
طبقه بندی شده است برای صفات پیشگوی عددی از f staticو برای صفات پیشگوی
pearson's chi-squareیا رابطه
طبقه بندی شده از رابطه
Pearson's chi-squareاستفاده می شود .سپس از میان آن صفات با اهمیت ترین رو
انتخاب میکنیم بعد از انجام این مراحل نیاز به ابزاری برای گرفتن نتایج است ما از نرم
افزار Clementine 12.0برای شبیه سازی دو الگوریتم cartو c5.0استفاده می
کنیم این نرم افزار به علت داشتن بیشتر تکنیک های مورد استفاده در داده کاوی ،
ابزاری توانمند و کاربردی محسوب میشود.
21
22
23
3.4درختهای تصمیم گیری
•
•
•
•
•
•
نتایج داده کاوی می تواند در فرم ساده ای تحت عنوان درخت تصمیم گیری ارائه شود.
با توجه به ساختار درخت قوانین تولید می شوند .درختان تصمیم گیری به منظور
پیشگویی یا کالسه بندی داده ها براساس مجموعه قوانین تصمیم ایجاد شدند.
کالسه بندی داده ها با درختان تصمیم گیری یک فرایند دو مرحله ای می باشد.در
مرحله اول که به ان مرحله اموزش گفته می شود مدلی براساس یک الگوریتم کالسه
بندی منطبق با داده کاوی مربوط به مجموعه آموزشی ساخته می شود .مجموعه
اموزشی به صورت تصادفی از پایگاه داده انتخاب می شود .در مرحله دوم یاد گیری
از طریق یک تابع )y=f(Xانجام می شود که می تواند برچسب کالس هر رکورد xاز
پایگاه داده را پیش بینی کند .مرحله یاد گیری خود طی دو گام اساسی رشد و هرس
انجام می شود .در طول فرآیند اموزش الگوریتم درخت تصمیم می بایست به صورت
مکرر موثر ترین روش جهت تقسیم کردن مجموعه رکوردها به فرزندان رابیابد.
مرحله هرس برای جلوگیری از پردازش بیش از حد صورت میگیرد .معیارهای
مختلفی برای تعیینصفتی که باید splitبراساس آن انجام شود وجود دارد مانند
.بهر اطالعاتی
.نسبت بهره
.شاخص جینی
با توجه به نوع فیلدها و نیز الگوریتم انتخاب شده و جهت کالسه بندی یکی از معیار
های فوق گزینش می شود.
24
4.4الگوریتم cart
• در این بخش از تحقیقاتمان به منظور کشف دانش مدل درخت تصمیم گیری
مبنی بر الگوریتم cartاستفاده نمودیم.الگوریتم cartنخستین بار توسط
olshen, friedman, stone,bremimanدر سال 1984برای درختان
رگرسیون و کالسه بندی طراحی شد.
• روش عملکرد این الگوریتم surrogate splittingنام دارد .این الگوریتم
شامل یک متد بازگشتی است .الگوریتم cartدر هر مرحله رکورد های
آموزشی را به دو زیر مجموعه تقسیم می کند.به طوریکه رکوردهای هر زیر
مجموعه نسبت به زیر مجموعه های قبلی همگن تر باشد.این تقسیم شدنها به
دفعات انجام می شودتا شرایط تو قف برقرار شود .در cartبهترین شکست با
تعیین مقدار پارامتر impurityتعیین می شود .اگر بهترین شکست برای یک
شاخه impurityرا از حد تعریف شده کمتر کند آن انشعاب ساخته نمی
شودمفهوم impurityدر اینجا به میزان شباهت مقدار فیلد هدف قرار بگیرد ان
گره pureنامیده می شود قابل توجه است که در الگوریتم cartیک فیلد پیشگو
ممکن است به دفعات در سطوح مختلف درخت تصمیم گیری بکار گرفته شود.
همچنین این الگوریتم فیلدهایهدف و پیشگوی از نوع categoricalو
continuesرا پشتیبانی می کند.
25
1.4.4روش برخورد با miss valueها
• عملکرد این الگوریتم در مقابل missing valueها تاثیر مهمی در کیفیت مدل
می گذارد .در الگوریتم cartاز surrogate splittingبرای بهترین بهره
گیری از دادههای حاوی miss valueاستفاده می شود Surrogate .متدی
جهت رسیدگی به missing valueها است .اگرزمان کالسه بندی یک
رکوردمقدار فیلد شکست مفقود باشد مقدار فیلد surrogateجایگزین می شود.
بدین روش که برای تمامی فیلدها مقدار پارامتر splitمحاسبه می شود .اگر در
رکوردی صفت پیشگویی که دبهترین مقدار splitرا به خود احتصاص داده در
ان رکورد missing valueداشته باشد صفت پیشگویی دیگری که بیشترین
مقدار splitرا بعد از فیلد مذبور دارد برای تعیین گروه بندی انتخاب می شود.
اگر فیلد دوم هم در رکورد مورد نظر دچار missing valueباشد از سومین
فیلد با حداکثر مقدار splitاستفاده می شود .این ویژگی منجر به افزایش
انعطالف پذیری الگوریتم cartشده است.
26
2.4.4هرس کردن
•
هرس کردن درخت cartبا درنظر گرفتن دو هدف حذف ریکسهای misclassificationو کاهش
پیچیدگی درخت انجام می شود .برای دستیابی به این هدف از شاخص cost-complexityاستفاده می
شود .که هر دو مقدار ریسک misclassificationو complexityدرخت را محاسبه می کند و هدف
اصلی حداقل کردن مقدار این دو پارامتراست .مقدار این شاخص از طریق معادله ( )1به دست می اید:
•
به طوریکه:
•
در هر درخت حداکثر هزینه محاسبه می شود .به طوریکه هر گره برگ حاوی یک رکورد شورد و مقدار
پیچیدگی و ریسک تخمین زده شده حداقل باشد .و با افزایش aمجوعه متناهی از درختان ایجاد می شود که
به ترتیب تعداد گره های پایانی در آنها با حذف شاخه های ضعیفتر در هر مرحله کاهش می یابد.
27
الگوریتم c5.0
•
ز 5.0یکی از الگوریتم های درختان تصمیم گیری می باشدکه تحقیقاتمان به منظور کشف دانش و
قوانین با کیفیت تر مورد استفاده قرار گرفت .الگوریتم c5.0یک نوع درخت تصمیم گیری تک
متغییره و بهبود یافته الگوریتم c4.5است که تو سط محقق استرلیایی j.ross quinlanدر سال
1993طراحی شد .این الگوریتم مشابه با cartابتدا درختی تقریبا پر ایجاد می کند ولی استراتژی
هرس ان کامال متفاوت است .این الگوریتم کالسه بندی را با تقسیم کردن داده ها به زیر مجموعه
هایی که شامل رکورد های همگن تر از والد خود هستند انجام می دهد .در c5.0تقسیم کردن نمونه
ها براساس فیلدی که بیشترین بهره اطالعات را دارد صورت میگیرد .این الگوریتم با نرخ کاهش
اطالعات نامعلوم براساس معدله ی ( )2شاخه ای از فیلدها را برای انشعاب انتخاب می کند
•
•
•
•
•
به طوریکه :
a:مقدار یک فیلد
C:برچسب کالس
H(x/a):یک فیلد با حداقل مقدار ) ،H(x/aبه عنوان یک انشعاب انتخاب می شود.
28
• هر زیر نمونه توسط اولین انشعاب تعیین می شود .سپس معموال
براساس فیلدی دیگر مجددا تقسیم بندی اجام میگیردو این فرایند به
دفعات تکرار می شود تا اینکه زیر نمونه ها قابلیت تقسیم شدن را
نداشته باشند .سرانجام انشعاب های پایین تر سطح از نو آزمورده می
شوند و ان انشعاب هایی که ارزش چشمگیری ندارند از مدل حذف می
شوند .الزم به ذکر است که 5.0 cتنها فیلد خارجی ازنوع
categoricalرا می پذیرد اما فیلدهای دیگر می توانند از هر نوعی
باشند.
• استنتاج قانون از طریق الگوریتم c5.0برا ساس درخت تصمیم گیری
می باشد .این احتمال وجود دارد که بیش از یک قانون به ازای هر
رکورد خاص صدق کند و یا هیچ قانونی بکار نرود .اگر چندین قانون
برای یک رکورد مناسب باشد هر قانونی مبنی بر اطمینان مربوط به ان
قانون وزنی تحت عنوان " "voteصورت میگیرد در این صورت
براساس ترکیب وزن همه قوانین مناسب برای ان رکورد پیش بینی
نهایی تعیین می شود و اگر هیچ قانونی مناسب نباشد یک پیشگوی پیش
فرض به آن نسبت داده می شود.
29
روش برخورد با miss valueها
•
• الگوریتم c5.0درمقابل مسائلی از قبیل missing dataو زیاد
بودن تعداد فیلدهای ورودی قدرتمند است .معموال این الگوریتم
به زمان بیشتری برای اموزش نیاز ندارد .مدل بدست امده
توسط این الگوریتم به سادگی قابل فهم است و همچنین قوانین
تولید شده به آسانی تفسیر می شوندc5.0 .از چندین روش
attribute missingها را مورد بررسی قرار می دهد .یکی
از این روشها این است که مقدار missing attributeرا با
مقادیری که درهمان گره بیشتر متداول است جایگزین کند و یا با
انجام یکسری محسبات احتمالی براساس مابقی نمونه مقدار
مناسب را جایگزین کند.
30
2.5.4هر س کردن
• رویه هرس کردن در c5.0با هدف دستیابی به درختی مختصر تر و
کاهش پیچیدگی ها در دو گام انجام می شود :گام اول هرس محلی می
باشد .در این مرحله هر زیر درخت مورد بررسی قرار میگیرد و در
صورت نیاز شاخه های زیر درختها جهت افزایش دقت مدل حذف
می شوند .گام دوم هرس سراسری است که زیر درخت های ضعیف
حذف می شوند .در واقع رویه هرس درختی را که قبال ایجاد شده بود
را مورد بررسی قرار می دهد و سپس آنرا توسط مجموعه
validationتست می کند.اگر درخت هرس شده بهتر از درخت
اصلی عمل کند تغییرات واقعا ذخیره می شود در c5.0می توان
شدت هرس شدن درخت را تنظیم نمود با افزایش ان درختی کوچکتر
و مختصر تر خواهیم داشت و با کاهش ان درختی دقیقتر ایاد خواهد
شد.
31
Boosting
• الگوریتم c5.0از boostingدر درختان تصمیم گیری پشتیبانی می
کند Boosting .یک تکنیک برای تولید و ترکیب کالسه بندی کننده ها
چند گانه به منظور بهبود نرخ دقت است Boosting .با ساختار چندین
مدله در یک توالی اجرای می شود .اولین مدل معموال از این روش
ساخته شده و سپس دومین مدل با تمرکز بر رکوردهایی که در مدل
اویه کالسه بندی شدند ساخته می شود .سپس مدل سوم براساس
خطاهای مدل دوم ایجاد می شود و این روند ادامه می یابد .درنهایت ان
نمونه کالسه بندی شده از طریق هر یک از این مدلها توسط زیر روال
رای گیری وزن دار پیشگویی های مجزا را تحت یک پیشگویی واحد
ترکیب می کد Boosting .به طور چشمگیری دقت یک مدل c5.0را
بهبود می بخشد .اما در این صورت زمان اموزش طوالنی تر می شود
عالوه بر این غربال سازی خودکار arrributeها در c5.0نهایتا
منجر به کالسه بندی های کوچکتر و با دقت پیشگویی باالتر می شود.
32
Grouo symbolc
• گزینه Grouo symbolcدر مدل c5.0به ازای هر مقدار
symbolicیک شاخه جدید ایجاد می کند و سپس سعی بر
ترکیب کردن مقادیر symbolicای دارد که الگوهای
مشابهی را در ارتباط با فیلد خارجی ارائه می دهند.
33
نتیجه گیری
• انتخاب صحیح رشته ی تحصیلی از اهمیت خاصی بر خوردار است
که اشتباه در این امر مهم می تواند اثراد جبران نا پذیری به همراه
داشته باشد باشد .لذا در این مقاله سعی شدتا با استناد به اطالعات
جمع اوری شده از دانشجویان رشته دارو سازی که در خصوص
مشخصات دانشجو عوامل موثر در انتخاب این رشته شرایط زمینه
ای و شرایط به وجود امده در حین تحصیل بوده اند .به کشف ارتباط
بین عوامل احتمالی تاثیر گذار در تغییر انگیزه دانشجویان به ادامه
تحصیل و یا تغییر رشته بپردازیم تا براساس ان نتایج تنهدات الزم
اندیشیده شود .بدین منظور از روش کالسه بندی با درختان تصمیم
گیری استفاده میکنیم .نتایج بدست امده حاکی از ان است که توانایی
پیشگویی مدل ایجاد شده توسط الگوریتم c5.0بیشتر از الگوریتم
cartاست زیرا تفاوت در رویه ی هرس هر دو الگوریتم و داشتن
متد boostingدر مدل c5.0است.
34
• براسال داده های واقعی یکسری نتایج بدست امده از جمله آگاهی
از اینده شغلی از مهمترین پارامترهایی است که در هنگام
انتخاب رشته داروسازی باید به ان وجه کرد .همچنین متقاضیان
ورود به دانشگاه می بایست عالقه مندی خوبی به دروس پایه ای
رشته ی تحصیلی مورد نظر برخورد دار باشند .عالوه بر این
عدم وجود آزمایشگاه های مناسب ،کیفیت دروس اختصاصی و
بخصوص بعد از امتحان جامع علوم پایه نیز می تواند از علل
کاهش عالقه دانشجویان در این رشته باشد .بسیاری از این
افرارد به امید اخذ تخصص و جهت کسب شغلی مناسب سختی
های تحصیل را تحمل می کنند ولی متاسفانه دروس ارائه شده
همچنان انها را از داشتن شغلی مناسب در اینده نگران می سازد
.ان نکات و سایر نتایج بدست امده در این تحقیق اهمیت و نقش
مسئولین و رسانه های اموزشی را در جهت بهبود کیفیت دروس
تخصصی و مطلع سازی دانشجویان و باالخص متقاضیان ورود
به دانشگاه از آینده شغلی و دروس بنیادی اینگونه رشته ها را
می رساند.
35
36
37