**** **** Data Mining

Download Report

Transcript **** **** Data Mining

‫داده كاوی‬
‫‪Data Mining‬‬
‫محسن محسني‬
‫امیرعباس خلیل ارجمندی‬
‫آبان ‪1390‬‬
‫مال‬
‫حتماً تاکنو ًن بارها عبارت ” انقالب دیجیتال“ به گوشتان خورده است ًو احت ً‬
‫عصر‬
‫ً‬
‫عصر رایانه‪،‬‬
‫ً‬
‫انفجار اطالعات‪،‬‬
‫ً‬
‫درباره واژه هایی مانند انقالب دیجیتال‪،‬‬
‫چقدر به کاربرد‬
‫ً‬
‫نیز دارید‪ .‬اما‬
‫اطالعات ًو ارتباطات ًو واژه های مشابه‪ ،‬اطالعاتی ً‬
‫در زندگی فک ًر کرده‬
‫عملی ًو ملموس این عبارات ًو مخصوصاً فایده انقالب دیجیتال ً‬
‫اید؟‬
‫در طو ًل دهه گذشته با پیشرفت رو ًز افزون کاربرد پایگاه داده ها‪ ،‬حجم داده‬
‫ً‬
‫در این میان‬
‫ابر می شود‪ً .‬‬
‫های ثبت شده به طورً متوسط هر ‪ 5‬سال ‪ 2‬بر ً‬
‫سازمانهایی موفقند که بتوانند حداقل ‪ %7‬داده هایشان را تحلیل کنند‪.‬‬
‫کمتر ًاز یک درصد داده‬
‫تحقیقات انجام یافته نشان داده است که سازمانها ً‬
‫در‬
‫در حالی که غرقً ً‬
‫دیگر ً‬
‫هایشان را برای تحلیل استفاده می کنند ‪ .‬به عبارت ً‬
‫داده ها هستند تشنه دانش می باشند‪.‬‬
‫بنابر اعالم دانشگاه ‪ MIT‬دانش نوین داده کاویً (‪)Data mining‬‬
‫ً‬
‫در حال توسعه ای است که دهه آینده را با انقالب‬
‫یکی ًاز ده دانش ً‬
‫یار‬
‫تکنولوژیکی مواجه می سازد‪ .‬این تکنولوژی امروزه دارای کاربرد بس ً‬
‫در حوزه های مختلف است به گونه ای که امروزه حد ًو مرزی‬
‫وسیعی ً‬
‫نظر نگرفته ًو زمینه های کاریً این دانش ًرا ًاز‬
‫در ً‬
‫برای کاربرد این دانش ً‬
‫ذرات کف اقیانوسًها تا اعماق فضا می دانند‪.‬‬
‫داده کاویً به عنوان مهمترين کاربرد ‪ Data Warehouse‬یا انباره های داده شناخته می‬
‫شود‪ .‬به وسيله داده کاویً داده های موجود مورد تحليل قر ًار می گیرند تا روندهای احتمالی‪،‬‬
‫غیر محسوس ًو الگ ًو های مخفی داده ها ًاز بین انبوه داده ها‪ ،‬شناسايی شوند‪.‬‬
‫ارتباطًهاي ً‬
‫ی استفاده می شود تا داده ها تبديل به‬
‫در اين فرايند ًاز الگوريتم های پيچيده رياض ی ًو آمار ً‬
‫ً‬
‫دانش سازمان شوند‪.‬‬
‫اکز درمانی ًو‬
‫اکز صنعتی ًو کارخانجات بزرگ‪ ،‬مر ً‬
‫در بانکها‪ ،‬مر ً‬
‫امروزه‪ ،‬بیشترین کاربرد داده کاویً ً‬
‫دیگر می باشد‪.‬‬
‫اکز تحقیقاتی‪ ،‬بازاریابی هوشمند ًو بسیاریً ًاز موارد ً‬
‫بیمارستانها‪ ،‬مر ً‬
‫ی ماشین ًو‬
‫کامپیوتر ‪ ،‬هوش مصنوعی ‪ ،‬الگوشناس ی ‪ ،‬فراگیر ً‬
‫ً‬
‫آمار ‪ ،‬علم‬
‫ی پل ارتباطی میان علم ً‬
‫داده کاو ً‬
‫بازنمایی بصریً داده می باشد‪ .‬داده کاویً فرآیندی پیچیده جهت شناسایی الگوها ًو مدل های صحیح‪،‬‬
‫در حجم وسیعی ًاز داده می باشد‪ ،‬به طریقی که این الگوها ًو مدلها برای‬
‫جدید ًو به صورت بالقوه مفید‪ً ،‬‬
‫انسانها قابل درک باشند‪ .‬داده کاویً به صورت یک محصولً قابل خریداریً نمی باشد‪ ،‬بلکه یک ًرشته‬
‫علمی ًو فرآیندی است که بایستی به صورت یک پروژه پیاده سازیً شود‪.‬‬
‫در پايگاه داده ًو انجام تحليل هاي مختلف ًبر روي آن به‬
‫کاوش داده ها به معني کنکاش داده هاي موجود ً‬
‫منظو ًر استخراج اطالعات مي باشد‪.‬‬
‫در زمینه های‬
‫داده كاویً فرایندی تحلیلی است كه برای كاوش داده ها ( معمو ًل حجم عظیمی ًاز داده ها ‪ً -‬‬
‫اعتبار میًشوند ‪ .‬هدف اصلی‬
‫ً‬
‫ی الگوهایی ً‪ ،‬احراز‬
‫وكار ًو بازار) صورت میًگیرد و یافتهًهاً با ًبهًكارگیر ً‬
‫كسب ً‬
‫داده كاویً پیش بینی است‪ً .‬و به صورت دقیق ًتر میتوان گفت‪:‬‬
‫" کاوش داده ها شناسايي الگوهاي صحيح‪ ،‬بديع‪ ،‬سودمند و قابل درک از داده هاي موجود در يک‬
‫پايگاه داده است که با استفاده از پرداز شهاي معمول قابل دستيابي نيستند"‬
‫استدر شکل ز ًیر نشان داده شده است‪ .‬اين تحولً با توانايي‬
‫ً‬
‫در زمينه بكارگیريً داده ها رخ داده‬
‫اخیر ً‬
‫در چند سال ً‬
‫تحولي را كه ً‬
‫نمودار شده است‪ .‬قدم منطقي بعدي تحليل‬
‫ً‬
‫منجر به توليد گزارش ًو‬
‫ً‬
‫آغاز مي شود كه‬
‫ايجاد ‪ query‬ها ًاز داده هاي عملياتي ً‬
‫مسیر يا تصديق يك اصل است‪.‬‬
‫نتايج با استفاده ًاز عمليات آماريً سنتي با ابزار ‪OLAP‬با هدف يافتن ً‬
‫در آخرين گام مي‬
‫در شرايط مختلف پي برد‪ً .‬‬
‫فتار فعاليت تجاريً ً‬
‫در داده ها به ر ً‬
‫همچنین مي توان با مدل كردن ارتباطات موجود ً‬
‫ي براي اتخاذ تصميم درست استفاده مي شود صحبت کرد‪.‬‬
‫در آن ًاز دانستنيهاي تجار ً‬
‫كار هوشمند(‪ )BI‬كه ً‬
‫توان ًاز كسب ًو ً‬
‫گام اولي كه نشان داده شده است برپاية پرسش‪ ،‬يا‬
‫دانش ي است كه ما آن را وارد كرده ًو داده هاي موجود را‬
‫ارزيابي مي كنيم‪.‬‬
‫در آن‬
‫در شكل با ًل همان داده كاويً است كه ً‬
‫گام سوم ً‬
‫مجموعه ابزاري‪ ،‬دانش ي را ًبر پاية داده هاي اوليه توليد‬
‫مي كنند‪ .‬اين دانش جديد مي تواند براي مدل سازيً‬
‫فعاليت تجاري‪ ،‬بدونً وابستگي به هيچ فرضيه اي ًاز‬
‫مجموعه داده ها‪ ،‬مورد استفاده قر ًار گیرد‬
‫بهتر به‬
‫اغلب تجارت ها به تصميم گیريهاي استراتژيك ًو يا اتخاذ خط مش ي هاي جديد براي خدمت رساني ً‬
‫بيشتر به خريد مجدداً‬
‫ً‬
‫نياز دارند‪ .‬به عنوان مثال فروشگاهها آرايش مغازه خود را براي ايجاد ميل‬
‫مشتريان ً‬
‫فتار مصرفي گذشته مشتريان براي تعيین الگوهايي به‬
‫در مورد ر ً‬
‫طراحي مي كنند‪ .‬اين مثال به داده هايي ً‬
‫نياز دارند‪.‬‬
‫وسيله داده كاوي‪ً ،‬‬
‫در یک فروشگاه زنجیره ای پس ًاز داده‬
‫برای روشن ًتر شدن مسئله می توان مثال را اینگونه بیان کرد که ً‬
‫در‬
‫میز تلوزیو ًن ًو گلدان کریستالی را هم ً‬
‫ی مشخص میشود که درصدی ًاز مشتریان خرید تلویزیو ًن ‪ً ،‬‬
‫کاو ً‬
‫صادر کند که‬
‫ً‬
‫همان رو ًز ًو بعد ًاز خرید تلویزیونً می خرند‪ .‬مدیر فروشگاه می تواند بالفاصله دستوراتی‬
‫براساس مدلهای تلوزیونً موجود میزهایی ًو براساس مدل میزها گلدانهای کریستالی برای فروش سفارش‬
‫میز ًو گلدان کریستالی اختصاص دهد‪ .‬مطمئنا حتی پس‬
‫داده شود ًو غرفه های جنبی غرفه تلویزیونً را به ً‬
‫ًاز مدت کوتاهی سود حاصل ًاز این بخش ًاز فروشگاه به طورً قابل مالحضه ای ترقی خواهد کرد‪.‬‬
‫تصوير ًاز واقعيت به شكل مدل مي سازد‪ ،‬اين مدل روابط‬
‫ً‬
‫در واقع ابز ًار داده ك ــاوي‪ ،‬داده را مي گیرد ًو يك‬
‫ً‬
‫در داده ها را شرح مي دهد‪.‬‬
‫موجود ً‬
‫ي به سه طبقه بندي عمومي تقسيم مي شوند‪:‬‬
‫نظر فرايندي فعاليتهاي داده كاو ً‬
‫ًاز ً‬
‫‪)1‬‬
‫كاوش اولیه‬
‫‪)2‬‬
‫ساخت مدل یا شناسایی الگو با كمك احراز اعتبار‪ /‬تایید‬
‫‪)3‬‬
‫بهره برداری‬
‫معمولًاینًمرحله با آماده سازیً داده ها صورت می گیرد كه ممكن است شامل پاك سازیً داده‬
‫ًازًمتغیرها (فیلدها)‬
‫ها‪ً ،‬تبدیل داده هاً ًو ًانتخاب ز ًیر مجموعهًهاييً از ركوردها ًبا ًحجم ًعظیمی ً‬
‫باشد‪.‬‬
‫سپس با توجهً به ًماهیت ًمساله تحلیلی‪ ،‬ای ً‬
‫ن‬
‫مرحله ًبه ًمدلًهايً ًپیشًبیني ساده یا‬
‫مدلًهای ًآماریً ًو ًگرافیكی برای شناسایی‬
‫نظر ًو تعیین پیچیدگی‬
‫ً‬
‫متغیرهاي مورد‬
‫نیاز‬
‫در مرحله بعدی ً‬
‫مدلًها برای استفاده ً‬
‫دارد ‪.‬‬
‫اینًمرحله ًبه بررس یًمدلًهاي مختلف ًو گزینش بهترین مدل با توجه به كارآیی پيشًبيني آن میًپردازد‪.‬‬
‫نظر برسد‪ ،‬اما اينطورنیست‪ .‬تكنیكًهایًمتعددیًبرای ًًر سیدن ًبهً این هدف‬
‫شاید این مرحله ساده به ً‬
‫توسعه یافتند و ”ارزیابی رقابتی مدل ها ‌“ نام گرفتند‪.‬‬
‫بدین منظو ًر مدلًهای مختلف برای مجموعه دادهًهای یكسانً بهًكارً میًروندً تاً كارآییًشان ًباً هم مقایسهً‬
‫شود‪ ً،‬سپس مدلی كهً بهترین كارآیی راداشته باشد‪ ،‬انتخاب میًشود‪.‬‬
‫اینًتكنیكًها عبارتند از‪:‬‬
‫‪‬‬
‫‪Boosting ‬‬
‫‪Stacking ‬‬
‫‪Meta-learning ‬‬
‫‪Bagging‬‬
‫كار ًمیًگیرد تا‬
‫در دادهًهای ًجدید به ً‬
‫ًدر مرحله قبلًانتخابً شده است‪ً ،‬‬
‫آخرینًمرحله ًمدلی ًرا كه ً‬
‫انتظار را تولید نماید‪ .‬داده كاویً به ًعنوان ًابز ًار ًمدیریتً‬
‫ً‬
‫پیشًبینیًهايً خروجیًهای مورد‬
‫ی‪ً ،‬عمومیت ًیافته ًاست‪.‬‬
‫اطالعات ًبرای ًتصمیم گیر ً‬
‫اخیراً ًتوسعه تكنیك های تحلیلی جدید مانند ‪ Classification Trees‬در این زمینه مورد توجه قر ًار‬
‫گرفته است‪.‬‬
‫ی نظیر )‪ EDA (Exploratory Data Analysis‬میًباشد‪.‬‬
‫ی مبتنی ًبر اصو ًل آمار ً‬
‫اما هنوزً داده كاو ً‬
‫با این وجود تفاوت عمده ای بین داده كاویً ‪ EDA‬وجود ًدارد‪.‬‬
‫دادهًكاویً بیشترًبه ًبرنامهًهایًكاربردی گرایش دارد تا ماهیت اصلی پدیده‪.‬‬
‫به عبارتیًداده كاوی كمتر با شناسایی روابط بین متغیرها سر وكار دارد‪.‬‬
‫‪:Bagging‬‬
‫كار می رود‪ .‬فرض كنیدكه‬
‫این مفهوم برای تركیب رده بندی های پیش بینی شده ًاز چند مدل به ً‬
‫قصدداریدمدلی برای رده بندی پیش بيني بسازید و مجموعه داده های مورد نظرتان كوچك است‪ .‬شما می‬
‫توانید نمونه هایی( با جایگزینی) را ًاز مجموعه داده ها انتخاب ًو برای نمونه های حاصل ازدرخت رده بندی‬
‫(مثال ‪C&RT‬و ‪ )CHAID‬استفاده نمایید‪ .‬به طوركلی برای نمونه های مختلف به درخت های متفاوتی‬
‫ی‬
‫خواهید رسید‪.‬سپس برای پیش بینی با كمك درخت های متفاوت به دست آمده ًاز نمونه ها ‪ ،‬یك رای گیر ً‬
‫ساده انجام دهید‪.‬رده بندی نهایی‪ ،‬رده بندی ایًخواهد بود كه درخت های مختلف آنرا پیش بینی كرده اند‪.‬‬
‫‪:Boosting‬‬
‫نیز از‬
‫كار میًرود‪ً Boosting .‬‬
‫این مفهوم برای تولید مدلًهای چندگانه (برای پیش بینی یا رده بندی)به ً‬
‫روش ‪C&RT‬یا ‪ CHAID‬استفاده وترتیبی از ‪classifier‬ها را تولید خواهد كرد‪.‬‬
‫‪:Meta-Learning‬‬
‫این مفهوم برای تركیب پیش بینیًهای حاصل ًاز چند مدل به كار میًرود و هنگامی كه انواع مدلًهای‬
‫ی شما شامل ‪Tree‬‬
‫در پروژه خیلی متفاوت هستند‪ ،‬كاربرد دارد‪ .‬فرض كنید كه پروژه داده كاو ً‬
‫موجود ً‬
‫‪classifier‬ها نظیر ‪ C&RT‬و ‪ ،CHAID‬تحلیل خطی ًو شبكه های عصبی است‪ .‬هر یك ًاز‬
‫كامپیوترها‪ ،‬رده بندی هایی رابرای نمونه هاًپیش بینی كرده اند‪ .‬تجربه نشان میًدهدكه تركیب پیش بینی‬
‫های چند روش دقیق ًتر از پیش بینی های هریك از روشهاست‪ .‬پیش بینی های حاصل ًاز چند ‪classifier‬‬
‫را می توان به عنوان ورودی ‪meta-linear‬مورد استفاده قر ًار داد‪.‬‬
‫‪Meta-linear‬پیش بینی ها را تركیب می كند تا بهترین رده بندی پیش بینی شده حاصل ش ًود‪.‬‬
‫اکثر نرم افر ًار های پایگاه داده ای مثل ‪SQL‬‬
‫داده کاویً امرو ًز گسترش زیادی یافته است به طوری که ً‬
‫ی شده اند ولی هنو ًز نرم افز ًار های تخصص ی‬
‫نیز شامل ابزارهایی داده کاو ً‬
‫‪ Server‬و ‪ً ORACLE‬‬
‫ی همچو ًن ‪Intelligent Miner , Darwin , Mine Set, Knowledge Studio,‬‬
‫داده کاو ً‬
‫‪ Data Mind‬از مهمترین ابز ًار های داده کاویً اند‪.‬‬
‫در آن سعی‬
‫در فروشگاه های زنجیره ای مشاهده نمود‪ ،‬که ً‬
‫یکی ًاز نمونه های بارزً داده کاویً را می توان ً‬
‫میًشود ارتباط محصولت مختلف هنگام خرید مشتریان مشخص گردد‪ .‬فروشگاه های زنجیره ای‬
‫یکدیگر به فروش می روند‪.‬‬
‫ً‬
‫مشتاقند بدانند که چه محصولتی با‬
‫در آمریکای شمالی که ب ًر روی‬
‫در یـک فروشـگاه زنجیره ای ً‬
‫برای مثال طی یک عملـیات داده کاویً گستـرده ً‬
‫ی می‬
‫حجـم عظیمـی ًاز داده های فروش صورت گرفت‪ ،‬مشخص گردید که مشتریانی که تلویزیو ًن خریدار ً‬
‫در یک شرکت بزرگ‬
‫ی را می توان ً‬
‫نیز می خرند‪ .‬نمونه مشابه عملیات داده کاو ً‬
‫کنند‪ ،‬غالبا گلدان کریستالی ً‬
‫ی مشخص میکرد که افرادی‬
‫در اروپا مشاهده نمود‪ ،‬به شکلی که نتایج داده کاو ً‬
‫تولید ًو عرضه پوشاک ً‬
‫در همان رو ًز یا روزهای آینده گیره کراوات مشکی رنگ ن ًیز‬
‫که کراوات های ابریشمی خریداریً می کنند‪ً ،‬‬
‫خریداریً می کنند‪.‬‬
‫به روشنی این مطلب قابل درک است که این نوع استفاده ًاز داده کاویً می تواند فروشگاه ها را د ًر‬
‫برگزاریً هوشمندانه فستیوال های فروش ًو نحوه ارائه اجناس به مشتریان یاریً رساند‪.‬‬
‫دوبالژ ًو تکثی ًر ًو عرضه‬
‫ً‬
‫در یک شرکت بزرگ‬
‫در زمینه فروش را می توان ً‬
‫دیگر استفاده ًاز داده کاویً ً‬
‫نمونه ً‬
‫در آن عملیات داده کاوی‪ ،‬روابط مشتریان ًو‬
‫در آمریکای شمالی مشاهده نمود که ً‬
‫فیلم های سینمایی ً‬
‫نیز گروه های مختلف مشتریان ًبر اساس سبک فیلم ها (ترسناک‪ ،‬رمانتیک‪،‬‬
‫هنرپیشه های سینمایی ًو ً‬
‫حادثه ای و ‪ )...‬مشخص گردید‪.‬‬
‫کامال هوشمندانه می توانست مشتریان بالقوه فیلم های سینمایی را ًبر‬
‫ً‬
‫بنابراین آن شرکت به صورت‬
‫اساس عالقه مشتریان به هنرپیشه های مختلف ًو سبک های سینمایی شناسایی کند‪.‬‬
‫سایر حوزه هائی که به گردآوری حجم‬
‫در ً‬
‫در ابتدا ًاز حوزه تجارت برخاست اما کاربردهای آن ً‬
‫داده کاویً ً‬
‫نیز می گردند؛ مفید شناخته شد‪ .‬بخشهایی‬
‫وسیعی ًاز داده هائی می پردازند که دستخوش تغییرات پویا ً‬
‫مثل بانکداری‪ ،‬تجارت الکترونیک‪ ،‬تجارت سهام‪ ،‬بیمارستان ًو هتل ًاز این نمونه اند‪.‬‬
‫در بخش آموزش بطورً عام امکانهای جدید بسیاریً ارائه دهد‪.‬‬
‫انتظار می رود که استفاده ًاز داده کاویً ً‬
‫در ذیل مورد بحث قر ًار گرفته اند‪.‬‬
‫ی آموزش ً‬
‫در کتابخانه ها ًو قسمت ادار ً‬
‫ی ً‬
‫برخی کاربردهای داده کاو ً‬
‫نیاز به درآمدزایی ًو خودکارآمدی ًو کاهش‬
‫در این موسسات دائماً ً‬
‫کار پیچیده ای است‪ً .‬‬
‫اداره موسسات دانشگاهی ً‬
‫هر فعالیت ًو پروًژه را می‬
‫وابستگی به بودجه دولتی احساس می شود‪ .‬این مسأله کنترلً دائمی جنبه های مختلف ً‬
‫طلبد‪ .‬بانکهای اطالعاتی برای چنین موسساتی مربوط به دانشجویان‪ ،‬دانشکده‪ ،‬اساتید ًو کارمندان‪ ،‬تعداد رشته ها‬
‫در‬
‫دیگر است‪ .‬ارزیابی تقاضا ًو وضعیت عرضه نقش مهمی بازیً می کند‪ .‬مرو ًر بانکهای اطالعاتی نمونه ً‬
‫ًو چند مورد ً‬
‫نمایانگر کاربردهای بالقوه داده کاویست‪.‬‬
‫ً‬
‫جدولً ذيل‬
‫بانک اطالعاتی‬
‫کاربرد متصور‬
‫ثبت نام دانشگاهی‬
‫برای درک رابطه های جمعیت شناختی‪ ،‬اقتصادی و اجتماعی‬
‫کارایی دانشگاهی‬
‫برای ایجاد رابطه بین عوامل اقتصادی‪-‬اجتماعی و نمرات اخذ شده‬
‫بانک سواالت‬
‫برای تعیین میزان مفید بودن سیستم با استناد به نمرات امتحان‬
‫همکاری فکری‬
‫برای ارزیابی همکاری دانشکده با توجه به میزان استفاده از کتابخانه‬
‫انتشارات‬
‫برای پیدا کردن تأثیر انتشارات در تقاضا برای رشته ها‬
‫بازدید از وب سایت‬
‫برای تحلیل سواالت دریافت شده در وب سایت دانشگاه و کمک به ایجاد رشته های جدید دانشگاهی‬
‫هر کدام ًاز این‬
‫عملیات کتابداریً بطورً کلی شامل مدیریت مدارک‪ ،‬ارائه خدمات ًو امورً اداره ًو نگهداریً است‪ً .‬‬
‫کار دارد ًو بطورً جداگانه پردازش می شود‪ .‬اگرچه‪ ،‬انجام تحلیل ترکیبی‬
‫کارکردها با انواع مختلفی ًاز داده ها سرو ً‬
‫نیز می تواند افق تازه ای را بگشاید که به طرح خدمات جدید ًو تحولً رویه ها ًو عملیات‬
‫براین مجموعه های داده ً‬
‫در کتابداریً مفید باشد ارائه می کند‪.‬‬
‫جاریً کمک نماید‪ .‬جدولً ز ًیر برخی ًاز کاربردهای ممکن داده کاویً را که می تواند ً‬
‫بانک اطالعاتی‬
‫کاربرد متصور‬
‫گردآوری منابع‬
‫برای تعیین نقاط قوت و ضعف مجموعه‬
‫استفاده از مجموعه‬
‫برای ایجاد رابطه بین خواننده‪ ،‬منابع کتابخانه و زمان مشخص ی از سال‬
‫امانت بین کتابخانه ای‬
‫برای تحلیل سفارشهای پاسخ داده شده و سفارش های دریافت شده‬
‫داده های بخش امانت‬
‫برای پیش بینی روند بازگشت منابع‬
‫داده های هزینه‬
‫برای نشان دادن منابع مالی بکار گرفته شده‬
‫نیز برای کشف روندهای‬
‫داده کاویً می تواند برای پاسخ دادن به یک سوال خاص مربوط به کتابخانه ًو ً‬
‫عمومی که به تصمیم گیریً کمک میکنند‪ ،‬استفاده شود‪ .‬برای مثال سوال می تواند چنین باشد‪ :‬امکان‬
‫اینکه امانت گیرندگان منابع را یک هفته بعد ًاز تاریخ عودت برگردانند تا نامه های یادآوری کمتریً‬
‫انتظار برای نشریات بین املللی انتخاب شده برای سال‬
‫ً‬
‫چقدر است؟ یا میزان اشتراک مورد‬
‫ً‬
‫فرستاده شود‬
‫ی استفاده کلی مجالت الکترونیکی یا تحلیل درخواستهای اعضاء برای‬
‫چقدر است؟ درک الگو ً‬
‫ً‬
‫آینده‬
‫نیز همگی مثال هایی ًاز کشف روندهای عمومی اند‪ .‬دامنه تحلیل‬
‫میکروفیلم ها طی ‪ 5‬سال گذشته ً‬
‫استنادی هم می تواند با استفاده ًاز داده کاویً گسترش داده شود‪.‬‬
‫در ارتباط با کتابخانه ها‪ ،‬وب کاویً حوزه دیگریً ًاز عالقمندی است‪ .‬وب کاویً شامل محتوا کاویً وب‪،‬‬
‫ً‬
‫در طراحی خدمات جدید‬
‫ساختار کاویً وب ًو استفاده کاویً وب با توجه به یک موضوع خاص است که ً‬
‫ً‬
‫مبتنی ًبر وب کمک خواهد کرد‪.‬‬
‫‪‬‬
‫خرده فروشی‪ :‬از کاربردهای کالسیک داده کاوی است که می توان به موارد زیر اشاره کرد‪:‬‬
‫‪‬‬
‫بانکداری‬
‫‪‬‬
‫بیمه‬
‫‪‬‬
‫پزشکي‬
‫‪‬‬
‫تعیین الگوهای خرید مشتریان‬
‫‪‬‬
‫تجزیه و تحلیل سبد خرید بازار‬
‫‪‬‬
‫پیشگویی میزان خرید مشتریان از طریق فروش الکترونیکی‬
‫‪‬‬
‫پیش بینی الگوهای کالهبرداری از طریق کارت های اعتباری‬
‫‪‬‬
‫تشخیص مشتریان ثابت‬
‫‪‬‬
‫تعیین میزان استفاده از کارت های اعتباری بر اساس گروه های اجتماعی‬
‫‪‬‬
‫تجزیه و تحلیل دعاوی‬
‫‪‬‬
‫پیشگویی میزان خرید بیمه نامه های جدید توسط مشتریان‬
‫‪‬‬
‫تعیین نوع رفتار با بیماران و پیشگویی میزان موفقیت اعمال جراحی‬
‫‪‬‬
‫تعیین میزان موفقیت روش های درمانی در برخورد با بیماری های صعب العالج‬
‫نتیجه اینكه بسیاری از سازمان ها بر معادنی از طال تكیه زده اند كه‬
‫می باید با بهره گیری از تكنولوژی های جدید و ابزارهای خودكاری كه‬
‫به صورت هوشمند آن ها را تجزیه وتحلیل می كنند‪ ،‬گردآوری و‬
‫پردازش شده و به دانش تبدیل و به كار گرفته شوند‪.‬‬
‫تفسیر داده ها می پردازد‪ .‬این مبحث به‬
‫ً‬
‫آمار شاخه ای ًاز علم ریاض ی است که به جمع آوری توضیح ًو‬
‫ً‬
‫گونه ای است که روزانه کاربرد زیادی دارد‪.‬‬
‫وجه اشتراک تکنیکهای آماریً و ‪ data mining‬بیشتر درتخمین وپیش بینی است‪ .‬البته ًاز آزمونهای آماریً‬
‫نیز استفاده می شود‪.‬‬
‫در ارزیابی نتایج داده کاویً ً‬
‫ً‬
‫مقدار هدف برای پیش گویی‪ ،‬ارزًشیابی‬
‫ً‬
‫در مباحثی چو ًن تعریف‬
‫ی ً‬
‫ی ًو تکنیکهای آمار ً‬
‫تکنیکهای داده کاو ً‬
‫در جاهای یکسان برای‬
‫خوب ًو داده های دقیق (‪ )clean data‬خوب عمل می کنند‪ ،‬همچنین این موارد ً‬
‫انواع یکسا نی ًاز مسايل (پیش گویی ‪،‬کالس بندی ًو کشف) استفاده می شوند‪.‬‬
‫اولً اینکه روشها ی کالسیک داده کاویً ًاز قبیل شبکه های عصبی‪ ،‬تکنیک نزدیک ترین همسایه روشهای‬
‫قویً تریً برای داده های واقعی به ما می دهند ًو همچنین استفاده ًاز آنها برای کاربرانی که تجربه کمتریً‬
‫بهتر می توانند ًاز آن استفاده کنند‪.‬‬
‫دارند راحت ًتر است ًو ً‬
‫اختیار ما نمی گذارند‪ ،‬این روش ها با‬
‫ً‬
‫در‬
‫بخاطر اینکه معمولً داده ها اطالعات زیادی ً‬
‫ً‬
‫دیگر اینکه‬
‫دلیل ً‬
‫کار کنند ًو همچنین اینکه برای داده ها وسیع کاربرد دارند‪.‬‬
‫بهتر می توانند ً‬
‫کمتر ً‬
‫اطالعات ً‬
‫ی ماشین برای ساخت مدل‬
‫ی ًاز روشهای یادگیر ً‬
‫نظر می رسد که بسیار ً‬
‫ی به ً‬
‫ذکر این نکته ضرور ً‬
‫هر حال ً‬
‫به ً‬
‫در شبکه عصبی‬
‫‪ dataset‬از حداقل چند استنتاج آماریً استفاده می کنندکه این مساله بطورً خاص ً‬
‫دیده می شود‪.‬‬
‫بطورً کلی روشهای آماریً روش های قدیمی تریً هستند که به حالت های احتمالی مربوط می شوند‪.‬‬
‫‪ Data mining‬جایگاه جدید تریً دارد که به هوش مصنوعی یادگیریً ماشین سیستمًهای اطالعات مدیریت (‪ً )MIS‬و‬
‫متدلوژی ‪ Database‬مربوط می شود‪.‬‬
‫در مورد داده ها می توان بدست آورد‬
‫کمتر است ًو اطالعات بیشتریً ً‬
‫بیشتر زمانی که تعداد داده ها ً‬
‫ً‬
‫روشهای آماریً‬
‫در‬
‫سر ًو کار دارند‪ .‬به طورً کلی این روش ً‬
‫دیگر این روشها با مجموعه داده های کوچک ًتر ً‬
‫استفاده می شوند به عبارت ً‬
‫بکار می رود‪.‬‬
‫محدوده مشخص ی ًاز داده های ورودی ً‬
‫دیگر روشها ی ‪ Data mining‬اریه می دهند ولی‬
‫روشهای آماریً چونً پایه ریاض ی دارند نتایج دقیق تریً نسبت به ً‬
‫در مورد داده ها است‪.‬‬
‫استفاده ًاز روابط ریاض ی نیازمند داشتن اط ًال عات بیشتریً ً‬
‫تفسیر‬
‫ً‬
‫ساختار ریاض ی‬
‫ً‬
‫خاطر داشتن‬
‫ً‬
‫ی به‬
‫هر چند روشهای آمار ً‬
‫تفسیر داده ها است‪ً .‬‬
‫ً‬
‫تعبیر ًو‬
‫در ً‬
‫ی ً‬
‫دیگر روشهای آمار ً‬
‫مزیت ً‬
‫تفسیر‬
‫ً‬
‫ی زمانی که‬
‫بهتر است بطورً کلی روشهای آمار ً‬
‫در این روش ً‬
‫تعبیر خروجی ها ً‬
‫ی ًو ً‬
‫ی دارند ولی دقت نتیجه گیر ً‬
‫سخت تر ً‬
‫بسیار مفید هستند‪.‬‬
‫ً‬
‫دیگر مشکل است‬
‫داده ها توسط روشهای ً‬
‫روشهای آماری‬
‫دیگر روشهای ‪Data mining‬‬
‫داشتن فرض اولیه‬
‫بدون فرض اولیه‬
‫تنها برای داده های عددی کاربرد دارند‬
‫در انواع مختلفی از داده ها کاربرد دارند نه فقط داده های عددی‬
‫در محدوده کوچکی از داده ها‬
‫در محدوده وسیع تری از داده ها‬
‫حذف ‪noise‬ها‪ ،‬داده های نامشخص و فیلتر کردن ‪dirty‬‬
‫‪data‬‬
‫‪ Data mining‬به دادهای درست ‪ clean data‬بستگي دارند‬
‫روشهای رگرسیون و استفاده از معادالت‬
‫استفاده از شبكه عصبي‬
‫استفاده از چارتهای دو بعدی و سه بعدی‬
‫استفاده از‪Data visualization‬‬
‫استفاده از روابط ریاض ی‬
‫استفاده از روشهای یادگیری ماشین و هوش مصنوعی‬
‫کاربرد در ‪descriptive statistical‬‬
‫و‪cluster analysis‬‬
‫کاربرد در یادگیری غیر نظارتی‬
‫همچنین می توان گفت که در ‪DM‬داده ها اغلب ًبر اساس همپوشانی نمونه هاست‪،‬نسبت به اینکه‬
‫ًبر اساس احتمال داده ها باشد‪.‬همپوشانی نمونه ها برای آشنایی همه انواع پایه ها برای تخمین‬
‫ی نتایج ممکن است مشارکتی باشد تا اینکه‬
‫پارامترها مشهورً است‪ .‬وهمچنین اغلب استنتاج های آمار ً‬
‫سببی باشند‪.‬‬
‫َ‬
‫و‬
‫تفسیر کرد ‪.‬مثالًُ ر ش شبکه عصبی ًبر اساس یک مدل ساده‬
‫ً‬
‫تکنیکهای ماشین را به سادگی می توان‬
‫مغز انسان را اجرا می کنند ولی خروجی های‬
‫ساختار ً‬
‫ً‬
‫استوار است‪.‬یعنی همان‬
‫ً‬
‫مغز انسان‬
‫ًبر اساس ً‬
‫َ‬
‫تفسیر آن مشکل ًتر‬
‫ً‬
‫تعبیر ًو‬
‫ساختار ریاض ی دارند‪،‬مثالًُ یک معادله است که ً‬
‫ً‬
‫بسیاریً ًاز روشهای آماریً‬
‫در مورد روش های آماریً بایداین مطلب را گفت بدونً توجه به اینکه مدل کاربردی‪،‬مدل آماریً‬
‫است‪ً .‬‬
‫ی می تواند برای تحلیل نتایج مفید باشد‪.‬‬
‫است یا خیر‪،‬تستهای آمار ً‬
‫در آنها ریشه دوانده است‪:‬‬
‫ًکار میًرود ًو ً‬
‫در سه حوزه مستقل به ً‬
‫دادهًکاویً ً‬
‫‪)1‬‬
‫آمار کالسیک و الگوهای آماری‬
‫‪)2‬‬
‫هوش مصنوعی‬
‫‪)3‬‬
‫یادگیری خودکار و شبکههای عصبی‬
‫در هم آمیخته شده است‪.‬‬
‫آمار ً‬
‫در دادهًکاوی‪ ،‬هوش مصنوعی‪ ،‬یادگیریً خودکار‪ ،‬تئوری پایگاه دادهًها ًو علم ً‬
‫ً‬
‫ی ًاز ابز ًار مختلف نظیر‪ :‬تفکیک کردن‪ ،‬دستهًبندی‪ ،‬درخت تصمیمًگیری‪ ،‬تحلیل قواعد‬
‫برای انجام دادهًکاو ً‬
‫وابستگی ًو تحلیل خوشهًها ًو الگوریتمًهای عمومی استفاده میًشود‪.‬‬
‫ی‬
‫هدف دادهًکاوی‪ ،‬تجزیه ًو تحلیل اکتشافی دادهًها‪ ،‬کشف الگوها ًو قواعد ًو الگوریتمًها‪ ،‬مدلًساز ً‬
‫در جهت کشف دانش‬
‫پیشًبینانه ًو جستًوجویً انحرافات است‪ .‬برای انجام این هدف‪ ،‬فرآیند دادهًکاویً ً‬
‫در مراحل مختلف انجام میًشود که عبارت است از‪:‬‬
‫ً‬
‫‪)1‬‬
‫شناسایی هدف و فهم حوزه کاربرد آن است و مشخص میکند که چه کاری‪ ،‬در چه حوزهای انجام خواهد شد‪.‬‬
‫‪)2‬‬
‫انتخاب دادهها یعنی تعیین اهداف برای تجزیه و تحلیل و کشف آن‬
‫‪)3‬‬
‫آمادهسازی دادهها شامل تمیزسازی دادهها‬
‫‪)4‬‬
‫اتخاذ بهترین روش دادهکاوی برای دستیابی به اهداف‬
‫‪)5‬‬
‫اجرای دادهکاوی یعنی به کارگیری الگوریتم‬
‫‪)6‬‬
‫ارزیابی و اعتبارسنجی یافتهها‬
‫‪)7‬‬
‫استفاده از نتایج و تثبیت و تحکیم دانش کشف شده‬
‫‪)8‬‬
‫تصمیمگیری براساس دانش کشف شده‪.‬‬
‫ی‬
‫ی برای مدیریت دانش سازمانًها ًو دستًیابی به دانش برای تصمیمًگیر ً‬
‫با وجود مزایای فراوان که دادهًکاو ً‬
‫سازمانی دارد‪ ،‬این حوزه با موانع ًو چالشًهایی روبهًروست که عبارتند از‪:‬‬
‫‪)1‬‬
‫فقدان داده برای پشتیبانی تجزیه و تحلیل‬
‫‪)2‬‬
‫قدرت محدود محاسبه برای به دست آوردن محاسبات ریاض ی مورد نیاز الگوریتمهای دادهکاوی‬
‫‪)3‬‬
‫عدم مطلوبیت و جذابیت بیشتر الگوها‬
‫‪)4‬‬
‫خطر وجود دادههای آلوده و کسب نتایج کامال غلط‬
‫‪)5‬‬
‫تمرکز بیش از حد بر الگوریتمها‬
‫‪)6‬‬
‫هزینه نسبتا گران سرمایهگذاری در همه حوزهها‬
‫‪)7‬‬
‫عدم پوشش کامل همه حوزهها‬
‫نتیجه گیریً‬
‫کار‬
‫داده کاویً که به عنوان ابزاریً برای ارزیابی میزان ریسک ًو فروش محصولت به ً‬
‫معتبر ًو‬
‫میًرود‪ ،‬دربرگیرنده ابزارهای تجزیه ًو تحلیل اطالعات به منظورً کشف الگوهای ً‬
‫در نوع‬
‫در بین انبوهی ًاز داده هاست‪ .‬داده کاویً پیشرفت قابل مالحظهًای ًرا ً‬
‫ناشناخته ً‬
‫نیز دارد‪ .‬موفقیت داده کاویً‬
‫ابزارهای تحلیل موجود نشان میًدهد اما محدودیتًهایی ً‬
‫کار آزمودهًای است که ًاز توانایی‬
‫ی ًاز کارشناسان فنی ًو تحلیل گران ً‬
‫در گر ًو بهره گیر ً‬
‫ً‬
‫دار هستند‪.‬‬
‫تغییر آنها برخورً ً‬
‫کافی برای طبقه بندی تحلیلًها ًو ً‬
‫نتیجه گیری – ادامه‬
‫در داده کاویً ًاز اهمیت ویژهًای برخوردارند اما عوامل دیگریً مانند‬
‫تواناییًهای فنی ً‬
‫تاپیر قرا ًر دهند‪ .‬یکی‬
‫کار را تحت ً‬
‫چگونگی پیاده سازیً و نظارت نیز ممکن است نتیجه ً‬
‫ًاز این عوامل‪ ،‬کیفیت داده هاست که ًبر میزان دقت ًو کامل بودن آن دللت دارد‪.‬‬
‫ی‬
‫ی با بانکهای اطالعاتی است که ًاز سو ً‬
‫ی نرمًافز ًار داده کاو ً‬
‫عامل دوم میزان سازگار ً‬
‫شرکتًهای متفاوتی عرضه میًشوند عامل سومی که باید به آن اشاره کرد به‬
‫در ابتدا با این‬
‫بیراهه رفتن داده کاویً ًو بهره برداریً ًاز دادهًها به منظوری است که ً‬
‫نیت گرد آوری نشدهًاند‪ .‬حفظ حریم خصوص ی افراد عامل دیگریً است که باید به‬
‫آن توجه داشت‪.‬‬
‫با تشکر از توجه دوستان‬