**** **** Data Mining
Download
Report
Transcript **** **** Data Mining
داده كاوی
Data Mining
محسن محسني
امیرعباس خلیل ارجمندی
آبان 1390
مال
حتماً تاکنو ًن بارها عبارت ” انقالب دیجیتال“ به گوشتان خورده است ًو احت ً
عصر
ً
عصر رایانه،
ً
انفجار اطالعات،
ً
درباره واژه هایی مانند انقالب دیجیتال،
چقدر به کاربرد
ً
نیز دارید .اما
اطالعات ًو ارتباطات ًو واژه های مشابه ،اطالعاتی ً
در زندگی فک ًر کرده
عملی ًو ملموس این عبارات ًو مخصوصاً فایده انقالب دیجیتال ً
اید؟
در طو ًل دهه گذشته با پیشرفت رو ًز افزون کاربرد پایگاه داده ها ،حجم داده
ً
در این میان
ابر می شودً .
های ثبت شده به طورً متوسط هر 5سال 2بر ً
سازمانهایی موفقند که بتوانند حداقل %7داده هایشان را تحلیل کنند.
کمتر ًاز یک درصد داده
تحقیقات انجام یافته نشان داده است که سازمانها ً
در
در حالی که غرقً ً
دیگر ً
هایشان را برای تحلیل استفاده می کنند .به عبارت ً
داده ها هستند تشنه دانش می باشند.
بنابر اعالم دانشگاه MITدانش نوین داده کاویً ()Data mining
ً
در حال توسعه ای است که دهه آینده را با انقالب
یکی ًاز ده دانش ً
یار
تکنولوژیکی مواجه می سازد .این تکنولوژی امروزه دارای کاربرد بس ً
در حوزه های مختلف است به گونه ای که امروزه حد ًو مرزی
وسیعی ً
نظر نگرفته ًو زمینه های کاریً این دانش ًرا ًاز
در ً
برای کاربرد این دانش ً
ذرات کف اقیانوسًها تا اعماق فضا می دانند.
داده کاویً به عنوان مهمترين کاربرد Data Warehouseیا انباره های داده شناخته می
شود .به وسيله داده کاویً داده های موجود مورد تحليل قر ًار می گیرند تا روندهای احتمالی،
غیر محسوس ًو الگ ًو های مخفی داده ها ًاز بین انبوه داده ها ،شناسايی شوند.
ارتباطًهاي ً
ی استفاده می شود تا داده ها تبديل به
در اين فرايند ًاز الگوريتم های پيچيده رياض ی ًو آمار ً
ً
دانش سازمان شوند.
اکز درمانی ًو
اکز صنعتی ًو کارخانجات بزرگ ،مر ً
در بانکها ،مر ً
امروزه ،بیشترین کاربرد داده کاویً ً
دیگر می باشد.
اکز تحقیقاتی ،بازاریابی هوشمند ًو بسیاریً ًاز موارد ً
بیمارستانها ،مر ً
ی ماشین ًو
کامپیوتر ،هوش مصنوعی ،الگوشناس ی ،فراگیر ً
ً
آمار ،علم
ی پل ارتباطی میان علم ً
داده کاو ً
بازنمایی بصریً داده می باشد .داده کاویً فرآیندی پیچیده جهت شناسایی الگوها ًو مدل های صحیح،
در حجم وسیعی ًاز داده می باشد ،به طریقی که این الگوها ًو مدلها برای
جدید ًو به صورت بالقوه مفیدً ،
انسانها قابل درک باشند .داده کاویً به صورت یک محصولً قابل خریداریً نمی باشد ،بلکه یک ًرشته
علمی ًو فرآیندی است که بایستی به صورت یک پروژه پیاده سازیً شود.
در پايگاه داده ًو انجام تحليل هاي مختلف ًبر روي آن به
کاوش داده ها به معني کنکاش داده هاي موجود ً
منظو ًر استخراج اطالعات مي باشد.
در زمینه های
داده كاویً فرایندی تحلیلی است كه برای كاوش داده ها ( معمو ًل حجم عظیمی ًاز داده ها ً -
اعتبار میًشوند .هدف اصلی
ً
ی الگوهایی ً ،احراز
وكار ًو بازار) صورت میًگیرد و یافتهًهاً با ًبهًكارگیر ً
كسب ً
داده كاویً پیش بینی استً .و به صورت دقیق ًتر میتوان گفت:
" کاوش داده ها شناسايي الگوهاي صحيح ،بديع ،سودمند و قابل درک از داده هاي موجود در يک
پايگاه داده است که با استفاده از پرداز شهاي معمول قابل دستيابي نيستند"
استدر شکل ز ًیر نشان داده شده است .اين تحولً با توانايي
ً
در زمينه بكارگیريً داده ها رخ داده
اخیر ً
در چند سال ً
تحولي را كه ً
نمودار شده است .قدم منطقي بعدي تحليل
ً
منجر به توليد گزارش ًو
ً
آغاز مي شود كه
ايجاد queryها ًاز داده هاي عملياتي ً
مسیر يا تصديق يك اصل است.
نتايج با استفاده ًاز عمليات آماريً سنتي با ابزار OLAPبا هدف يافتن ً
در آخرين گام مي
در شرايط مختلف پي بردً .
فتار فعاليت تجاريً ً
در داده ها به ر ً
همچنین مي توان با مدل كردن ارتباطات موجود ً
ي براي اتخاذ تصميم درست استفاده مي شود صحبت کرد.
در آن ًاز دانستنيهاي تجار ً
كار هوشمند( )BIكه ً
توان ًاز كسب ًو ً
گام اولي كه نشان داده شده است برپاية پرسش ،يا
دانش ي است كه ما آن را وارد كرده ًو داده هاي موجود را
ارزيابي مي كنيم.
در آن
در شكل با ًل همان داده كاويً است كه ً
گام سوم ً
مجموعه ابزاري ،دانش ي را ًبر پاية داده هاي اوليه توليد
مي كنند .اين دانش جديد مي تواند براي مدل سازيً
فعاليت تجاري ،بدونً وابستگي به هيچ فرضيه اي ًاز
مجموعه داده ها ،مورد استفاده قر ًار گیرد
بهتر به
اغلب تجارت ها به تصميم گیريهاي استراتژيك ًو يا اتخاذ خط مش ي هاي جديد براي خدمت رساني ً
بيشتر به خريد مجدداً
ً
نياز دارند .به عنوان مثال فروشگاهها آرايش مغازه خود را براي ايجاد ميل
مشتريان ً
فتار مصرفي گذشته مشتريان براي تعيین الگوهايي به
در مورد ر ً
طراحي مي كنند .اين مثال به داده هايي ً
نياز دارند.
وسيله داده كاويً ،
در یک فروشگاه زنجیره ای پس ًاز داده
برای روشن ًتر شدن مسئله می توان مثال را اینگونه بیان کرد که ً
در
میز تلوزیو ًن ًو گلدان کریستالی را هم ً
ی مشخص میشود که درصدی ًاز مشتریان خرید تلویزیو ًن ً ،
کاو ً
صادر کند که
ً
همان رو ًز ًو بعد ًاز خرید تلویزیونً می خرند .مدیر فروشگاه می تواند بالفاصله دستوراتی
براساس مدلهای تلوزیونً موجود میزهایی ًو براساس مدل میزها گلدانهای کریستالی برای فروش سفارش
میز ًو گلدان کریستالی اختصاص دهد .مطمئنا حتی پس
داده شود ًو غرفه های جنبی غرفه تلویزیونً را به ً
ًاز مدت کوتاهی سود حاصل ًاز این بخش ًاز فروشگاه به طورً قابل مالحضه ای ترقی خواهد کرد.
تصوير ًاز واقعيت به شكل مدل مي سازد ،اين مدل روابط
ً
در واقع ابز ًار داده ك ــاوي ،داده را مي گیرد ًو يك
ً
در داده ها را شرح مي دهد.
موجود ً
ي به سه طبقه بندي عمومي تقسيم مي شوند:
نظر فرايندي فعاليتهاي داده كاو ً
ًاز ً
)1
كاوش اولیه
)2
ساخت مدل یا شناسایی الگو با كمك احراز اعتبار /تایید
)3
بهره برداری
معمولًاینًمرحله با آماده سازیً داده ها صورت می گیرد كه ممكن است شامل پاك سازیً داده
ًازًمتغیرها (فیلدها)
هاً ،تبدیل داده هاً ًو ًانتخاب ز ًیر مجموعهًهاييً از ركوردها ًبا ًحجم ًعظیمی ً
باشد.
سپس با توجهً به ًماهیت ًمساله تحلیلی ،ای ً
ن
مرحله ًبه ًمدلًهايً ًپیشًبیني ساده یا
مدلًهای ًآماریً ًو ًگرافیكی برای شناسایی
نظر ًو تعیین پیچیدگی
ً
متغیرهاي مورد
نیاز
در مرحله بعدی ً
مدلًها برای استفاده ً
دارد .
اینًمرحله ًبه بررس یًمدلًهاي مختلف ًو گزینش بهترین مدل با توجه به كارآیی پيشًبيني آن میًپردازد.
نظر برسد ،اما اينطورنیست .تكنیكًهایًمتعددیًبرای ًًر سیدن ًبهً این هدف
شاید این مرحله ساده به ً
توسعه یافتند و ”ارزیابی رقابتی مدل ها “ نام گرفتند.
بدین منظو ًر مدلًهای مختلف برای مجموعه دادهًهای یكسانً بهًكارً میًروندً تاً كارآییًشان ًباً هم مقایسهً
شود ً،سپس مدلی كهً بهترین كارآیی راداشته باشد ،انتخاب میًشود.
اینًتكنیكًها عبارتند از:
Boosting
Stacking
Meta-learning
Bagging
كار ًمیًگیرد تا
در دادهًهای ًجدید به ً
ًدر مرحله قبلًانتخابً شده استً ،
آخرینًمرحله ًمدلی ًرا كه ً
انتظار را تولید نماید .داده كاویً به ًعنوان ًابز ًار ًمدیریتً
ً
پیشًبینیًهايً خروجیًهای مورد
یً ،عمومیت ًیافته ًاست.
اطالعات ًبرای ًتصمیم گیر ً
اخیراً ًتوسعه تكنیك های تحلیلی جدید مانند Classification Treesدر این زمینه مورد توجه قر ًار
گرفته است.
ی نظیر ) EDA (Exploratory Data Analysisمیًباشد.
ی مبتنی ًبر اصو ًل آمار ً
اما هنوزً داده كاو ً
با این وجود تفاوت عمده ای بین داده كاویً EDAوجود ًدارد.
دادهًكاویً بیشترًبه ًبرنامهًهایًكاربردی گرایش دارد تا ماهیت اصلی پدیده.
به عبارتیًداده كاوی كمتر با شناسایی روابط بین متغیرها سر وكار دارد.
:Bagging
كار می رود .فرض كنیدكه
این مفهوم برای تركیب رده بندی های پیش بینی شده ًاز چند مدل به ً
قصدداریدمدلی برای رده بندی پیش بيني بسازید و مجموعه داده های مورد نظرتان كوچك است .شما می
توانید نمونه هایی( با جایگزینی) را ًاز مجموعه داده ها انتخاب ًو برای نمونه های حاصل ازدرخت رده بندی
(مثال C&RTو )CHAIDاستفاده نمایید .به طوركلی برای نمونه های مختلف به درخت های متفاوتی
ی
خواهید رسید.سپس برای پیش بینی با كمك درخت های متفاوت به دست آمده ًاز نمونه ها ،یك رای گیر ً
ساده انجام دهید.رده بندی نهایی ،رده بندی ایًخواهد بود كه درخت های مختلف آنرا پیش بینی كرده اند.
:Boosting
نیز از
كار میًرودً Boosting .
این مفهوم برای تولید مدلًهای چندگانه (برای پیش بینی یا رده بندی)به ً
روش C&RTیا CHAIDاستفاده وترتیبی از classifierها را تولید خواهد كرد.
:Meta-Learning
این مفهوم برای تركیب پیش بینیًهای حاصل ًاز چند مدل به كار میًرود و هنگامی كه انواع مدلًهای
ی شما شامل Tree
در پروژه خیلی متفاوت هستند ،كاربرد دارد .فرض كنید كه پروژه داده كاو ً
موجود ً
classifierها نظیر C&RTو ،CHAIDتحلیل خطی ًو شبكه های عصبی است .هر یك ًاز
كامپیوترها ،رده بندی هایی رابرای نمونه هاًپیش بینی كرده اند .تجربه نشان میًدهدكه تركیب پیش بینی
های چند روش دقیق ًتر از پیش بینی های هریك از روشهاست .پیش بینی های حاصل ًاز چند classifier
را می توان به عنوان ورودی meta-linearمورد استفاده قر ًار داد.
Meta-linearپیش بینی ها را تركیب می كند تا بهترین رده بندی پیش بینی شده حاصل ش ًود.
اکثر نرم افر ًار های پایگاه داده ای مثل SQL
داده کاویً امرو ًز گسترش زیادی یافته است به طوری که ً
ی شده اند ولی هنو ًز نرم افز ًار های تخصص ی
نیز شامل ابزارهایی داده کاو ً
Serverو ً ORACLE
ی همچو ًن Intelligent Miner , Darwin , Mine Set, Knowledge Studio,
داده کاو ً
Data Mindاز مهمترین ابز ًار های داده کاویً اند.
در آن سعی
در فروشگاه های زنجیره ای مشاهده نمود ،که ً
یکی ًاز نمونه های بارزً داده کاویً را می توان ً
میًشود ارتباط محصولت مختلف هنگام خرید مشتریان مشخص گردد .فروشگاه های زنجیره ای
یکدیگر به فروش می روند.
ً
مشتاقند بدانند که چه محصولتی با
در آمریکای شمالی که ب ًر روی
در یـک فروشـگاه زنجیره ای ً
برای مثال طی یک عملـیات داده کاویً گستـرده ً
ی می
حجـم عظیمـی ًاز داده های فروش صورت گرفت ،مشخص گردید که مشتریانی که تلویزیو ًن خریدار ً
در یک شرکت بزرگ
ی را می توان ً
نیز می خرند .نمونه مشابه عملیات داده کاو ً
کنند ،غالبا گلدان کریستالی ً
ی مشخص میکرد که افرادی
در اروپا مشاهده نمود ،به شکلی که نتایج داده کاو ً
تولید ًو عرضه پوشاک ً
در همان رو ًز یا روزهای آینده گیره کراوات مشکی رنگ ن ًیز
که کراوات های ابریشمی خریداریً می کنندً ،
خریداریً می کنند.
به روشنی این مطلب قابل درک است که این نوع استفاده ًاز داده کاویً می تواند فروشگاه ها را د ًر
برگزاریً هوشمندانه فستیوال های فروش ًو نحوه ارائه اجناس به مشتریان یاریً رساند.
دوبالژ ًو تکثی ًر ًو عرضه
ً
در یک شرکت بزرگ
در زمینه فروش را می توان ً
دیگر استفاده ًاز داده کاویً ً
نمونه ً
در آن عملیات داده کاوی ،روابط مشتریان ًو
در آمریکای شمالی مشاهده نمود که ً
فیلم های سینمایی ً
نیز گروه های مختلف مشتریان ًبر اساس سبک فیلم ها (ترسناک ،رمانتیک،
هنرپیشه های سینمایی ًو ً
حادثه ای و )...مشخص گردید.
کامال هوشمندانه می توانست مشتریان بالقوه فیلم های سینمایی را ًبر
ً
بنابراین آن شرکت به صورت
اساس عالقه مشتریان به هنرپیشه های مختلف ًو سبک های سینمایی شناسایی کند.
سایر حوزه هائی که به گردآوری حجم
در ً
در ابتدا ًاز حوزه تجارت برخاست اما کاربردهای آن ً
داده کاویً ً
نیز می گردند؛ مفید شناخته شد .بخشهایی
وسیعی ًاز داده هائی می پردازند که دستخوش تغییرات پویا ً
مثل بانکداری ،تجارت الکترونیک ،تجارت سهام ،بیمارستان ًو هتل ًاز این نمونه اند.
در بخش آموزش بطورً عام امکانهای جدید بسیاریً ارائه دهد.
انتظار می رود که استفاده ًاز داده کاویً ً
در ذیل مورد بحث قر ًار گرفته اند.
ی آموزش ً
در کتابخانه ها ًو قسمت ادار ً
ی ً
برخی کاربردهای داده کاو ً
نیاز به درآمدزایی ًو خودکارآمدی ًو کاهش
در این موسسات دائماً ً
کار پیچیده ای استً .
اداره موسسات دانشگاهی ً
هر فعالیت ًو پروًژه را می
وابستگی به بودجه دولتی احساس می شود .این مسأله کنترلً دائمی جنبه های مختلف ً
طلبد .بانکهای اطالعاتی برای چنین موسساتی مربوط به دانشجویان ،دانشکده ،اساتید ًو کارمندان ،تعداد رشته ها
در
دیگر است .ارزیابی تقاضا ًو وضعیت عرضه نقش مهمی بازیً می کند .مرو ًر بانکهای اطالعاتی نمونه ً
ًو چند مورد ً
نمایانگر کاربردهای بالقوه داده کاویست.
ً
جدولً ذيل
بانک اطالعاتی
کاربرد متصور
ثبت نام دانشگاهی
برای درک رابطه های جمعیت شناختی ،اقتصادی و اجتماعی
کارایی دانشگاهی
برای ایجاد رابطه بین عوامل اقتصادی-اجتماعی و نمرات اخذ شده
بانک سواالت
برای تعیین میزان مفید بودن سیستم با استناد به نمرات امتحان
همکاری فکری
برای ارزیابی همکاری دانشکده با توجه به میزان استفاده از کتابخانه
انتشارات
برای پیدا کردن تأثیر انتشارات در تقاضا برای رشته ها
بازدید از وب سایت
برای تحلیل سواالت دریافت شده در وب سایت دانشگاه و کمک به ایجاد رشته های جدید دانشگاهی
هر کدام ًاز این
عملیات کتابداریً بطورً کلی شامل مدیریت مدارک ،ارائه خدمات ًو امورً اداره ًو نگهداریً استً .
کار دارد ًو بطورً جداگانه پردازش می شود .اگرچه ،انجام تحلیل ترکیبی
کارکردها با انواع مختلفی ًاز داده ها سرو ً
نیز می تواند افق تازه ای را بگشاید که به طرح خدمات جدید ًو تحولً رویه ها ًو عملیات
براین مجموعه های داده ً
در کتابداریً مفید باشد ارائه می کند.
جاریً کمک نماید .جدولً ز ًیر برخی ًاز کاربردهای ممکن داده کاویً را که می تواند ً
بانک اطالعاتی
کاربرد متصور
گردآوری منابع
برای تعیین نقاط قوت و ضعف مجموعه
استفاده از مجموعه
برای ایجاد رابطه بین خواننده ،منابع کتابخانه و زمان مشخص ی از سال
امانت بین کتابخانه ای
برای تحلیل سفارشهای پاسخ داده شده و سفارش های دریافت شده
داده های بخش امانت
برای پیش بینی روند بازگشت منابع
داده های هزینه
برای نشان دادن منابع مالی بکار گرفته شده
نیز برای کشف روندهای
داده کاویً می تواند برای پاسخ دادن به یک سوال خاص مربوط به کتابخانه ًو ً
عمومی که به تصمیم گیریً کمک میکنند ،استفاده شود .برای مثال سوال می تواند چنین باشد :امکان
اینکه امانت گیرندگان منابع را یک هفته بعد ًاز تاریخ عودت برگردانند تا نامه های یادآوری کمتریً
انتظار برای نشریات بین املللی انتخاب شده برای سال
ً
چقدر است؟ یا میزان اشتراک مورد
ً
فرستاده شود
ی استفاده کلی مجالت الکترونیکی یا تحلیل درخواستهای اعضاء برای
چقدر است؟ درک الگو ً
ً
آینده
نیز همگی مثال هایی ًاز کشف روندهای عمومی اند .دامنه تحلیل
میکروفیلم ها طی 5سال گذشته ً
استنادی هم می تواند با استفاده ًاز داده کاویً گسترش داده شود.
در ارتباط با کتابخانه ها ،وب کاویً حوزه دیگریً ًاز عالقمندی است .وب کاویً شامل محتوا کاویً وب،
ً
در طراحی خدمات جدید
ساختار کاویً وب ًو استفاده کاویً وب با توجه به یک موضوع خاص است که ً
ً
مبتنی ًبر وب کمک خواهد کرد.
خرده فروشی :از کاربردهای کالسیک داده کاوی است که می توان به موارد زیر اشاره کرد:
بانکداری
بیمه
پزشکي
تعیین الگوهای خرید مشتریان
تجزیه و تحلیل سبد خرید بازار
پیشگویی میزان خرید مشتریان از طریق فروش الکترونیکی
پیش بینی الگوهای کالهبرداری از طریق کارت های اعتباری
تشخیص مشتریان ثابت
تعیین میزان استفاده از کارت های اعتباری بر اساس گروه های اجتماعی
تجزیه و تحلیل دعاوی
پیشگویی میزان خرید بیمه نامه های جدید توسط مشتریان
تعیین نوع رفتار با بیماران و پیشگویی میزان موفقیت اعمال جراحی
تعیین میزان موفقیت روش های درمانی در برخورد با بیماری های صعب العالج
نتیجه اینكه بسیاری از سازمان ها بر معادنی از طال تكیه زده اند كه
می باید با بهره گیری از تكنولوژی های جدید و ابزارهای خودكاری كه
به صورت هوشمند آن ها را تجزیه وتحلیل می كنند ،گردآوری و
پردازش شده و به دانش تبدیل و به كار گرفته شوند.
تفسیر داده ها می پردازد .این مبحث به
ً
آمار شاخه ای ًاز علم ریاض ی است که به جمع آوری توضیح ًو
ً
گونه ای است که روزانه کاربرد زیادی دارد.
وجه اشتراک تکنیکهای آماریً و data miningبیشتر درتخمین وپیش بینی است .البته ًاز آزمونهای آماریً
نیز استفاده می شود.
در ارزیابی نتایج داده کاویً ً
ً
مقدار هدف برای پیش گویی ،ارزًشیابی
ً
در مباحثی چو ًن تعریف
ی ً
ی ًو تکنیکهای آمار ً
تکنیکهای داده کاو ً
در جاهای یکسان برای
خوب ًو داده های دقیق ( )clean dataخوب عمل می کنند ،همچنین این موارد ً
انواع یکسا نی ًاز مسايل (پیش گویی ،کالس بندی ًو کشف) استفاده می شوند.
اولً اینکه روشها ی کالسیک داده کاویً ًاز قبیل شبکه های عصبی ،تکنیک نزدیک ترین همسایه روشهای
قویً تریً برای داده های واقعی به ما می دهند ًو همچنین استفاده ًاز آنها برای کاربرانی که تجربه کمتریً
بهتر می توانند ًاز آن استفاده کنند.
دارند راحت ًتر است ًو ً
اختیار ما نمی گذارند ،این روش ها با
ً
در
بخاطر اینکه معمولً داده ها اطالعات زیادی ً
ً
دیگر اینکه
دلیل ً
کار کنند ًو همچنین اینکه برای داده ها وسیع کاربرد دارند.
بهتر می توانند ً
کمتر ً
اطالعات ً
ی ماشین برای ساخت مدل
ی ًاز روشهای یادگیر ً
نظر می رسد که بسیار ً
ی به ً
ذکر این نکته ضرور ً
هر حال ً
به ً
در شبکه عصبی
datasetاز حداقل چند استنتاج آماریً استفاده می کنندکه این مساله بطورً خاص ً
دیده می شود.
بطورً کلی روشهای آماریً روش های قدیمی تریً هستند که به حالت های احتمالی مربوط می شوند.
Data miningجایگاه جدید تریً دارد که به هوش مصنوعی یادگیریً ماشین سیستمًهای اطالعات مدیریت (ً )MISو
متدلوژی Databaseمربوط می شود.
در مورد داده ها می توان بدست آورد
کمتر است ًو اطالعات بیشتریً ً
بیشتر زمانی که تعداد داده ها ً
ً
روشهای آماریً
در
سر ًو کار دارند .به طورً کلی این روش ً
دیگر این روشها با مجموعه داده های کوچک ًتر ً
استفاده می شوند به عبارت ً
بکار می رود.
محدوده مشخص ی ًاز داده های ورودی ً
دیگر روشها ی Data miningاریه می دهند ولی
روشهای آماریً چونً پایه ریاض ی دارند نتایج دقیق تریً نسبت به ً
در مورد داده ها است.
استفاده ًاز روابط ریاض ی نیازمند داشتن اط ًال عات بیشتریً ً
تفسیر
ً
ساختار ریاض ی
ً
خاطر داشتن
ً
ی به
هر چند روشهای آمار ً
تفسیر داده ها استً .
ً
تعبیر ًو
در ً
ی ً
دیگر روشهای آمار ً
مزیت ً
تفسیر
ً
ی زمانی که
بهتر است بطورً کلی روشهای آمار ً
در این روش ً
تعبیر خروجی ها ً
ی ًو ً
ی دارند ولی دقت نتیجه گیر ً
سخت تر ً
بسیار مفید هستند.
ً
دیگر مشکل است
داده ها توسط روشهای ً
روشهای آماری
دیگر روشهای Data mining
داشتن فرض اولیه
بدون فرض اولیه
تنها برای داده های عددی کاربرد دارند
در انواع مختلفی از داده ها کاربرد دارند نه فقط داده های عددی
در محدوده کوچکی از داده ها
در محدوده وسیع تری از داده ها
حذف noiseها ،داده های نامشخص و فیلتر کردن dirty
data
Data miningبه دادهای درست clean dataبستگي دارند
روشهای رگرسیون و استفاده از معادالت
استفاده از شبكه عصبي
استفاده از چارتهای دو بعدی و سه بعدی
استفاده ازData visualization
استفاده از روابط ریاض ی
استفاده از روشهای یادگیری ماشین و هوش مصنوعی
کاربرد در descriptive statistical
وcluster analysis
کاربرد در یادگیری غیر نظارتی
همچنین می توان گفت که در DMداده ها اغلب ًبر اساس همپوشانی نمونه هاست،نسبت به اینکه
ًبر اساس احتمال داده ها باشد.همپوشانی نمونه ها برای آشنایی همه انواع پایه ها برای تخمین
ی نتایج ممکن است مشارکتی باشد تا اینکه
پارامترها مشهورً است .وهمچنین اغلب استنتاج های آمار ً
سببی باشند.
َ
و
تفسیر کرد .مثالًُ ر ش شبکه عصبی ًبر اساس یک مدل ساده
ً
تکنیکهای ماشین را به سادگی می توان
مغز انسان را اجرا می کنند ولی خروجی های
ساختار ً
ً
استوار است.یعنی همان
ً
مغز انسان
ًبر اساس ً
َ
تفسیر آن مشکل ًتر
ً
تعبیر ًو
ساختار ریاض ی دارند،مثالًُ یک معادله است که ً
ً
بسیاریً ًاز روشهای آماریً
در مورد روش های آماریً بایداین مطلب را گفت بدونً توجه به اینکه مدل کاربردی،مدل آماریً
استً .
ی می تواند برای تحلیل نتایج مفید باشد.
است یا خیر،تستهای آمار ً
در آنها ریشه دوانده است:
ًکار میًرود ًو ً
در سه حوزه مستقل به ً
دادهًکاویً ً
)1
آمار کالسیک و الگوهای آماری
)2
هوش مصنوعی
)3
یادگیری خودکار و شبکههای عصبی
در هم آمیخته شده است.
آمار ً
در دادهًکاوی ،هوش مصنوعی ،یادگیریً خودکار ،تئوری پایگاه دادهًها ًو علم ً
ً
ی ًاز ابز ًار مختلف نظیر :تفکیک کردن ،دستهًبندی ،درخت تصمیمًگیری ،تحلیل قواعد
برای انجام دادهًکاو ً
وابستگی ًو تحلیل خوشهًها ًو الگوریتمًهای عمومی استفاده میًشود.
ی
هدف دادهًکاوی ،تجزیه ًو تحلیل اکتشافی دادهًها ،کشف الگوها ًو قواعد ًو الگوریتمًها ،مدلًساز ً
در جهت کشف دانش
پیشًبینانه ًو جستًوجویً انحرافات است .برای انجام این هدف ،فرآیند دادهًکاویً ً
در مراحل مختلف انجام میًشود که عبارت است از:
ً
)1
شناسایی هدف و فهم حوزه کاربرد آن است و مشخص میکند که چه کاری ،در چه حوزهای انجام خواهد شد.
)2
انتخاب دادهها یعنی تعیین اهداف برای تجزیه و تحلیل و کشف آن
)3
آمادهسازی دادهها شامل تمیزسازی دادهها
)4
اتخاذ بهترین روش دادهکاوی برای دستیابی به اهداف
)5
اجرای دادهکاوی یعنی به کارگیری الگوریتم
)6
ارزیابی و اعتبارسنجی یافتهها
)7
استفاده از نتایج و تثبیت و تحکیم دانش کشف شده
)8
تصمیمگیری براساس دانش کشف شده.
ی
ی برای مدیریت دانش سازمانًها ًو دستًیابی به دانش برای تصمیمًگیر ً
با وجود مزایای فراوان که دادهًکاو ً
سازمانی دارد ،این حوزه با موانع ًو چالشًهایی روبهًروست که عبارتند از:
)1
فقدان داده برای پشتیبانی تجزیه و تحلیل
)2
قدرت محدود محاسبه برای به دست آوردن محاسبات ریاض ی مورد نیاز الگوریتمهای دادهکاوی
)3
عدم مطلوبیت و جذابیت بیشتر الگوها
)4
خطر وجود دادههای آلوده و کسب نتایج کامال غلط
)5
تمرکز بیش از حد بر الگوریتمها
)6
هزینه نسبتا گران سرمایهگذاری در همه حوزهها
)7
عدم پوشش کامل همه حوزهها
نتیجه گیریً
کار
داده کاویً که به عنوان ابزاریً برای ارزیابی میزان ریسک ًو فروش محصولت به ً
معتبر ًو
میًرود ،دربرگیرنده ابزارهای تجزیه ًو تحلیل اطالعات به منظورً کشف الگوهای ً
در نوع
در بین انبوهی ًاز داده هاست .داده کاویً پیشرفت قابل مالحظهًای ًرا ً
ناشناخته ً
نیز دارد .موفقیت داده کاویً
ابزارهای تحلیل موجود نشان میًدهد اما محدودیتًهایی ً
کار آزمودهًای است که ًاز توانایی
ی ًاز کارشناسان فنی ًو تحلیل گران ً
در گر ًو بهره گیر ً
ً
دار هستند.
تغییر آنها برخورً ً
کافی برای طبقه بندی تحلیلًها ًو ً
نتیجه گیری – ادامه
در داده کاویً ًاز اهمیت ویژهًای برخوردارند اما عوامل دیگریً مانند
تواناییًهای فنی ً
تاپیر قرا ًر دهند .یکی
کار را تحت ً
چگونگی پیاده سازیً و نظارت نیز ممکن است نتیجه ً
ًاز این عوامل ،کیفیت داده هاست که ًبر میزان دقت ًو کامل بودن آن دللت دارد.
ی
ی با بانکهای اطالعاتی است که ًاز سو ً
ی نرمًافز ًار داده کاو ً
عامل دوم میزان سازگار ً
شرکتًهای متفاوتی عرضه میًشوند عامل سومی که باید به آن اشاره کرد به
در ابتدا با این
بیراهه رفتن داده کاویً ًو بهره برداریً ًاز دادهًها به منظوری است که ً
نیت گرد آوری نشدهًاند .حفظ حریم خصوص ی افراد عامل دیگریً است که باید به
آن توجه داشت.
با تشکر از توجه دوستان