یراجت شوه فيرش رازفا نف تکرش
Download
Report
Transcript یراجت شوه فيرش رازفا نف تکرش
هوش تجاری
شرکت فن افزار شريف
فهرست
تعريف سيستم هوشمند
ساختارBI
تعريف هوش تجاری ()BI
يک کاربرد ازBI
داليل داشتن سيستم های مبتنی برBI
اهداف BI
اجزای BI
Dr. Ahmad Abdollahzadeh
فهرست
BIتکنيک های استفاده شده در
On-Line Analtical Processing
On-Line Transaction Processing
Data Warehousing
Data Mining
Intelligent Decision Support System
Intelligent Agent
Knowledge Management System
Supply Chain Management
Customer Relationship Management
Enterprise Resource Planing
Enterprise Information Management
فهرست
کيفيت داده
خصوصيات داده های با کيفيت
دسته بندی داده های بدون کيفيت
سيستم ِِ با داده های بدون کيفيت
مشخصات
ِ
اثرداده های بدون کيفيت بر روی سيستم
12قدم جهت تصحيح داده
مراحل کاری پاکسازی داده
دانش
مراحل انجام يک پروژة مهندس ی
نقشة راه سيستم های هوش تجاری
ساختارتيم ساخت پروژه
فهرست
اصول طراحی پايگاه داده تحليلی
مروری برتعريف پايگاه داده تحليلی
تفاوت با پايگاه داده عملياتي
مشخصات پايگاه داده تحليلی
تعريف هوش تجاری ازمنظر پايگاه داده تحليلی
سيرتکاملی تکنولوژی های هوش تجاری
)The Corporate Information Factory (CIF
مالحظاتی كه درطراحی يك پايگاه داده تحليلی بايد لحاظ كرد
مالحظات ساخت پايگاه داده تحليلی
مراحل ساخت پايگاه داده تحليلی
معماری پايگاه داده تحليلی
مراجع
سيستم های هوشمند
هوشمندی ،قابليت دنبال کردن هدف به همان روش ی است ،که انسان دنبال می کند.
يک سيستم هرچه به انسان نزديکتر باشد ،هوشمندتر است.
سيستم هوشمند ،سيستمی است که هدف مشخص ی را با کمک حسگر و عملگر تا حصول
موفقيت دنبال می نمايد.
سيستم هوشمند ،می تواند دانش خود را با يادگيری ،از طريق تجربه ويا کسب دانش های
جديد افزايش دهد.
انسان ،يک سيستم هوشمند است.
BIبايد يک سيستم هوشمند باشد.
فهرست
ساختار BI
BI
ابزار
کاربرد
تکنيک
ابزار تکنيک کاربرد
ابزار تکنيک کاربرد
مستند PDF
فهرست
تعريف هوش تجاری ()1
عبارتست از ُبعد وسيعی از کاربردها و تکنولوژی برای جمع آوری داده و دانش جهت
توليد پرس و جو در راستای آناليز Enterpriseبرای اتخاذ تصميات تجاری دقيق و هوشمند.
فهرست
تعريف هوش تجاری ()2
يک هوش تجاری براساس يک معماری Enterpriseتشکيل شده و در قالب ( OLAPپردازش
تحليلی برخط) ،به تحليل داده های تجاری و اتخاذ تصميمات دقيق و هوشمند می پردازد.
فهرست
تعريف هوش تجاری ()3
BI
OLTP
+
OLAP
فهرست
تعريف هوش تجاری ()4
هوش تجاری ،نه بعنوان يک محصول و نه بعنوان يک سيستم ،بلکه بعنوان يک معماری
موردنظر است که شامل مجموعه ای از برنامه های کاربردی و تحليلی است که به استناد پايگاه
های داده عملياتی و تحليلی به اخذ و کمک به اخذ تصميم برای فعاليت های هوشمند تجاری
می پردازند.
فهرست
BIدرعمل
تعداد چوب کبريت ها چقدر است؟
حاال تعداد چوب کبريت ها چقدراست؟
فهرست
يک کاربرد از BI
يک سيستم تصميم يار ،يک بخش از يک سيستم هوش تجاری است که دو
رويکرد می تواند داشته باشد:
Goal Seeking
1.
What If
2.
فهرست
برخی ازکاربردهای برنامه های تصميم يار BI
تحليل چند بعدی ازداده های عملياتی در قالب ،OLAP
تحليل ،Click-Stream
داده کاوی،
پيش بينی کردن،
تحليل تجاری،
پرس وجو کردن و گزارش گيری و ترسيم آماری،
تحليل مکانی،
مديريت دانش،
کاوش در متن ،محتوا و صوت،
فهرست
Click-Stream
مسيری که يک کاربر در حين دستيابی به يک صفحة وب طی می کند.
هر انتخاب مجزايی که کاربر در محيط وب انجام می دهد ،تا به يک صفحة وب
برسد مستلزم يک لينک جديد است ،هرچه کاربر در اين مسير بيشتر جلو رود و
مطلب مورد نظر خود را پيدا نکند ،احتمال اينکه به سايت وب ديگری برود
بيشتر است.
در نتيجه تحليل الگوهای دستيابی به صفحات وب بايد چنان باشد که طراحان
سايت وب را در ايجاد ساختارها ،پيوندها و تسهيالت جستجوی کاربر پسند تر
ياری کند.
بازگشت
داليل داشتن سيستم های مبتنی برهوش تجاری
داليل اقتصادی.
دنبال نمودن اهداف کارايی سيستم کاربردی.
افزايش رقابت ها.
تجارت الکترونيکی.
حمايت از تصميم گيری های سيستم کاربردی.
کثرت مشتريان.
نياز به آناليز ّ
عمليات سيستم.
ّ
ّ
ّ
صحت و دقت اطالعات حاصل از سيستم.
دسترس ی به داده های بهنگام شده.
کاهش هزينه.
رضايت کاربران نهايی در مقايسه با کاالهای مشابه.
فهرست
اهداف BI
انتظار داريم که يک سيستم ،BIآناليز داده را به کمک آناليز آماری و بر مبنای يک پايگاه داده
تحليلی ّ
ميسر سازد
آناليز داده
پايگاه داده
تحليلی
آناليز آماری
فهرست
کاربرد ) (Enterprise Information Managementدر هوش تجاری
مديريت داده
ارائه داده
فراهم کردن امکان دسترس ی حس ی کنترل کردن بی نظمی
به اطالعات تجاری
و آشفتگی داده
مهندس ی مجدد
اجزای BI
کاربران
محصول
خدمات قابل ارائه
رقبا
فهرست
تکنيک های استفاده شده درهوش تجاری
On-Line Analytical Processing (OLAP)
On-Line Transaction Processing (OLTP)
Data Warehousing (DW)
Data Mining (DM)
Intelligent Decision Support System (IDSS)
Intelligent Agent (IA)
Knowledge Management System (KMS)
Supply Chain Management (SCM)
Customer Relationship Management (CRM)
Enterprise Resource Planing (ERP)
Enterprise Information Management (EIM)
فهرست
تکنيک های استفاده شده درهوش تجاری(ادامه)
ليست اموال
فروش
EIM
CRM
توزيع
DM
ERP
DB
KMS
DW
OLAP OLTP
IDSS
SCM
قيمت گذاری محصول
فهرست
)OLAP (On-Line Analytical Processing
سرويس هايی که از پايگاه داده تحليلی به منظور پاسخگويی سريع به پرسش های
تحليلی کاربران استفاده می کنند ،پردازش تحليلی برخط ( )OLAPناميده می
شوند.
OLAPعبارت است از مجموعه ای از نرم افزارها که برای اکتشاف و تحليل
سريع داده های مبتنی بر يک شيوة چند بُعدی با چندين سطح از مجموع سازی
استفاده می شود ،)Aggregation( .تصميم گيری را سريع و آسان می کند.
آسان شدن تصميم گيری به دليل قابليت هدايت تحليل ها بدون نياز به يک زبان
پرس و جوی اصلی يا فهم ساختار زيرين بانک اطالعاتی حاصل می شود.
بازگشت
( OLAPادامه)
سريع ترشدن تصميم گيری نيز از اين جهت است که مجموع داده ها برای درخواست های
متداول از پيش محاسبه شده است و به اصطالح داده ها Pre-Aggregate ،شده اند،
بنابراين زمان محاسبه کاهش يافته و پاسخگويی به پرس وجوهای پيچيدة تحليلی به سرعت
امکانپذير خواهد بود.
پايگاه داده تحليلی ( )DWو پردازش تحليلی بر خط ( )OLAPاز جمله عناصر ضروری در
سيستم های تصميم يار به شمار می آيند.
بازگشت
عمليات متداول درپردازش تحليلی برخط
)OLTP (On-Line Transaction Processing
دادههای مورد استفاده در اين تراكنشها دادههای بهروز ،جاری و با جزئيات است :پردازش
تراكنشها ،مشتمل بر انجام عمليات روزانه مانند خريد و فروش و عمليات بانكی و مانند آن.
پايگاه های داده عملياتی ،منبع داده ای سيستم های OLTPهستند.
پايگاه های دادة عملياتی رايج شامل داده های بروز و جاری ،جهت انجام عمليات
روزانة ثبت ،حذف ،بروزرسانی و مشاهده داده ها هستند.
بازگشت
مقايسه جنبه های متفاوت OLAP , OLTP
سيستم های
مقايسه شده
پارامترهای
ارزيابی
پردازش تراكنش برخط )(OLTP
پردازش تحليلی برخط )(OLAP
كاربران
كاربران فناوری اطالعات
كاركنان دانش
كاركرد
عمليات روزانه
پشتيبانی تصميم
طراحی پايگاه داده
كاربرد-گرا
موضوع-گرا
داده
جاري ،بهروز ،باجزئيات،
رابطهاي،منفرد
سابقه ،خالصه شده ،چندبعدي،
سرجمع ،يكپارچه
كاربرد
عمليات تكرارشونده
خاص منظوره
مقايسه جنبه های متفاوت ( OLAP , OLTPادامه)
سيستم های
مقايسه شده
پارامترهای
ارزيابی
پردازش تراكنش برخط ) (OLTPپردازش تحليلی برخط )(OLAP
دسترس ي
خواندن/نوشتن،
انديسگذاري/درهمسازی
برروی كليد اصلي
پويش سراسری وگسترده
واحد كاري
تراكنشهای ساده و كوتاه
پرسوجوهای پيچيده
تعداد ركوردهای مورد دسترس ي
دهها ركورد
ميليونها ركورد
تعداد كاربران
هزاران كاربر
صدها كاربر
اندازه پايگاه داده
مگابايت -گيگابايت
گيگابايت -ترابايت
مقايسه جنبه های متفاوت ( OLAP , OLTPادامه)
سيستم های
مقايسه شده
پارامترهای
ارزيابی
سنجش
معيار
پردازش تراكنش برخط
)(OLTP
بازده تراكنش
)(Throughput , Speed
پردازش تحليلی برخط
)(OLAP
بازده پرسوجو ،پاسخ
(Throughput,Speed,
) جامعيت و همبستگی
بازگشت
پايگاه دادة تحليلی ()Data Warehouse
( Data Warehouseپايگاه داده تحليلی) ،مخزن داده ای متمرکز ،جمع آوری شده از منابع
اطالعاتی مختلف و ناهمگن در يک محدوده وسيع زمانی است و برای پشتيبانی از سيستم های
تصميم يار( )DSSاستفاده می شود.
DWاز پايگاه های داده عملياتی و يا ساير منابع داده ای توزيع شدة سازمان ها و ارگان های
متفاوت تهيه می شود.
پايگاه دادة تحليلی بستر مناسبی فراهم می آورد که داده ها به منظور پاسخگويی به پرسش های
تحليلی به صورت بايگانی شده ،سر جمع شده و سازمان يافته ،ذخيره شوند.
پايگاه داده تحليلی شامل داده هايی است که برای انجام تصميم گيری ها و تحليل ها مناسب
است.
توضيحات تکميلی 1توضيحات تکميلی2
مستندPDF
بازگشت
پايگاه دادة تحليلی(ادامه)
پايگاه داده تحليلی عبارت است از مخزن دادة جمع آوری شده ای از منابع اطالعاتی:
مختلف،
توزيع شده،
ا
احتماال ناهمگون،
تحت يک ساختار چند ُبعدی،
بصورت يکپارچه،
پاکسازی شده،
موضوع گرا،
سرجمع شده،
غير قابل تغيير
و در محدودة زمانی مشخص طوالنی دردسترس بوده.
بازگشت
پايگاه دادة تحليلی(ادامه)
داده هااای موجااود در پايگاااه دادة تحليلاای ،غياار قاباال تغيياار ،يعناای فقااط خواناادنی هسااتند و توسااط
کاربران قابل تغيير نيستند.
وظيف ا ا اصا االی و مهمتا اارين کا اااربرد پايگا اااه ها ااای دادة تحليلا اای انجا ااام پا ااردازش ها ااای تحليلا اای با اارخط
( )OLAPمی باشد.
متناظر اين عمل در پايگاه های دادة عملياتی ،انجاام و پاساخگويی باه تاراکنش هاای کااربران اسات
که پردازش های تراکنش ی برخط ( (OLTPناميده می شود.
بازگشت
پايگاه دادة تحليلی(ادامه)
قبل از پايگاه داده تحليلی Repository ،داريم که جزئی از BIاست.
اولين وظيفة DWدر معماری BIعبارتست از سازماندهی Repositoryدانش و
Repositoryداده که از منابع مختلف بدست می آيد.
به اين معنی که ذخيره سازی ،اعتبارسنجی ،تأييد و امکان دسترسی آسان به آن را
فراهم می سازد .برای اين کار توصيه می شود ،ابتدا به ساخت Data Martاقدام
گردد.
بازگشت
خصوصيات پايگاه داده تحليلي
خصوصيات پايگاه داده تحليلی عبارت است از :
يکپارچه :پااليش ،سازگار نمودن ،همسان سازی و يكپارچه نمودن دادههای استخراج
شده از منابع دادهای مختلف و احتماال ناهمگون (مثال سازگاری قوانين نامگذاري)
موضوع گرا :سازمان يافته پيرامون موضوعی خاص ،مانند محصول ،مشتری و يا
كاال
سرجمع شده :داده های آن تحليلی بوده و برای تصميم گيريها ناسب می باشند.
غير قابل تغيير:عدم وجود عمليات به روزرسانی (تراكنشي) و به كارگيری نوسازی
برای به هنگام سازی (عدم نياز به پردازش تراكنشها ،مكانيزمهای ترميم ،و كنترل
همزمانی )
در محدودة زمانی مشخص طوالنی :محدوده زمانی به مراتب طوالنيترنسبت به
سيستمهای عملياتی و وجود صريح يا ضمنی عنصر زمان در هر ساختار كليدي
بسيار حجيم :با توجه به اينکه محدوده زمانی وسيعی را پوشش می دهند ،بسيار
حجيم می باشند.
بازگشت
پايگاه داده تحليلی(ادامه)
Enterprise
امور اداری
مديريت
امور مالی
تحليلگر
پايگاه داده تحليلی
يکپارچه
Data
Marts
امور فروش
امور اموال
امور ترابری
بازگشت
سطوح پايگاه های داده تحليلي
سطح كالن )(Enterprise warehouse
مجموعه اطالعات همه موضوعاتی كه سازمان را به طور كامل پوشش می دهد.
سطح خرد )(Data Mart
زير مجموعه ای از داده ها در مقياس يك شركت كه به موضوع خاص ی اختصاص دارد.
مستقل و غير مستقل (به طور مستقيم از پايگاه داده تحليلي)
سطح مجازی )(Virtual warehouse
مجموعه ای از ديدگاه ها ) (viewبر روی پايگاه های داده عملياتی
بازگشت
داده کاوی ) ( Data Mining
عبارت داده کاوی به فرآيند تحليل نيمه خودکار پايگاه داده های بزرگ ،به منظور يافتن الگوهای
مناسب اطالق می گردد.
همانند کشف دانش در هوش مصنوعی (که آنرا يادگيری ماشين هم می نامند ) ،يا تحليل آماری،
داده کاوی هم سعی در يافتن قوانين والگوها از داده ها دارد.
داده کاوی از اين جهت که با حجم عظيم اطالعاتی ،که اغلب روی ديسک ذخيره شده است
روبروست ،با يادگيری ماشين و آمار متفاوت است.
داده کاو ی با کشف دانش در پايگاه های داده سر و کار دارد.
توضيحات تکميلی
مستندPDF
بازگشت
معماری چند اليه
کاربردها
Monitor
&
Integrator
تحليل
دادهكاوی
پرسوجو و
گزارشگيري
سرويس
پايگاه داده تحليلي
دادهجانبي
استخراج
تغييرشكل
بارگذاري
نوسازي
سايرمنابع
پايگاههای داده
Data Marts
ابزارهای سطح باال
OLAP
پايگاه داده تحليلی
منابع داده
A business intelligence environment
داده کاوی
پایگاه اطالعات
پايگاه داده
تشخيص تقلب
تحليلی
تحليلی
بازار مقصد
تجاری
تجاری
تقسيم بندی مشتری
...
پرس وجوOLAP /
پرس و جوهای تجاری
آناليز چندبعدی
...
استخراج /تکرار
پاکسازی داده
مديريت فرا داده
داده
عملياتی
Intelligent Decision Support System
سيستم های تصميم يار ،سيستم هايی هستند که به مديران درامر تصميم گير ی
کمک می کنند.
برای اين منظور از تکنيک هايی مانند داده کاوی و سرويس هايی مانند OLAP
کمک می گيرند.
پايگاه داده تحليلی ( )DWو پردازش تحليلی بر خط ( )OLAPاز جمله عناصر
ضروری در سيستم های تصميم يار به شمار می آيند.
سيستم های تصميم يار هوشمند ،سيستم های تصميم ياری هستند که مبتنی بر
تکنيک های هوشمند اند.
توضيحات تکميلی
بازگشت
Intelligent Agent
عامل ) (Agentنرم افزاری است كه عمل می كند و قادر به تأثير گذاری بر
محيط است به طوری كه منجر به فعاليت و يا تغييرحالت می شود .همانند يك
فعاليت شيميايي ،فيزيكی و يا بيولوژيكی .
عامل ابزاری هوشمند برای رسيدن به هدف است .
عامل خودمختار است و به تنهايی قادر به تصميم گيری است.
عامل عبارت است از موجوديتی كه واكنش دارد و به طور خودمختار كنش
انجام می دهد.
عاملهای هوشمند بايستی قادر به انجام كارها در دنيای واقعی باشند به طوری كه
اعمال هدفداری را انجام دهند و نيز بايستی قادر به زندگی و عمل در دنيای
واقعی باشند
مستند PDF
بازگشت
ويژگی های عامل ها
ويژگی
واژه التين
توصيف مختصر ويژگی
پرداختن به عمل با توجه به هدف تعريف شده بدون فراخوا ني
خود مختاري
Autonomy
موقيعت گرا
Situatednessوابسته به محيط و شرايط عملياتي
درك محيط و پاسخ به تغييرات آن
Reactive
واكنش ی
كنش گرا
Pro-active
نمايش رفتارهای هدفمند تعريف شده
يادگيری
Learning
تغيير رفتارها بر اساس تکرار رفتار
صداقت
Veracity
عدم انتقال اطالعات نادرست
پايداری
Persistency
دارای اهداف و فرآيندهای ذاتی از پيش تعريف شده
ويژگی های عامل ها (ادامه)
اجتماعی
Social
همكاری با ساير عامل ها در سيستمهای چند عامله
هدف گرا
Goal-oriented
تحقق هدف سيستم تا دستيابی به آن بدون فراخواني
استدالل
Reasoning
قابليت استدالل در انتخاب عمل
سازگاری
Adaptivity
امكان تطابق اعمال يك عامل با اهداف كلی سيستم
حركت
Mobility
قابليت انتقال از محيطی به محيطی ديگر
نوع دوستي
Benevolance
مصالحه در منافع مرتبط با عاملهای همكار
نمايندگي
Delegacy
قبول انجام عمل در سيستمهای چند عامله
شايستگي
Competency
ارزيابی فعاليت انجام شده در تحقق هدف و تقسيم وظايف در
صورت لزوم
ويژگی های عامل ها (ادامه)
احساس مسئوليت
Amenabilityارزيابی تحقق هدف سيستم و ادامه عمل تا تحقق هدف
قدرت استدالل
Discourse
قابليت استدالل در انتخاب عمل وابسته به محيط
عقالنيت
Rationality
اعمال درست برای رسيدن به اهداف
محيط
ورودی
خروجي
E
F
F
E
C
T
O
R
سيستم
S
E
N
S
O
R
نمايش ی از عامل
بازگشت
Knowledge Management System
عبارت است از مبحثی که به اخذ ،ساخت ،اعتبارسنجی و تأييد دانش می پردازد.
بازگشت
Supply Chain
:Supply Chainحرکت منابع تجاری (مواد و اطالعات و سرويسها ) از مواد خام واز طريق
کارخانجات و انبارها تا مشتريان نهايی.
همچنين شامل سازمانها وفرآیندهایی است که این محصوالت ،اطالعت و سرویسها را تولید و
تحویل مشتریان نهایی می دهند.
Supply Chainشامل فعالیتهای متعددی ازجمله خرید و فروش و تدارکات وحمل ونقل
واداره و کنترل مواد خام و برنامه ریزی و کنترل تولید و انبار وکنترل لیست اموال و توزیع و
تحویل و...
بازگشت
Supply Chain Management
سیستم های SCMشامل:
مدیریت اموال ()Inventory management
مدیریت حمل و نقل ()Shipping managemen
خرید مفید و کارا ()Efficient purchasing
(Collaboration along chain) CRM
همکاری در طول چرخه ()Reduce number of intermediaries
برای پياده سازی SCMمناسب از ابزارهای زير استفاده می کنيم:
توليد +خريد +انبارداری MRP:
توليد +خريد +انبارداری +حقوق +دستمزد +مالی MRP2:
همه فعاليتهای زنجيره در رابطه با ERP: Enterprise
مستند PDF
بازگشت
فوايد ساخت سيستم مبتنی برSCM
فوايد قابل اندازه گيری (محسوس):
انجام یک Supply Chainکارا
طراحی ،سازماندهی و هماهنگی فعالیتهای Supply Chain
کاهش خطرات و موارد غيرقطعی در Supply Chain
کاهش زمان نگهداری در انبار
کاهش هزينه های مرتبط با منابع توليد
بهينه شدن نحوة Ordering
فوايد غير محسوس:
انعطاف پذيری
کاهش دوباره کاری ها
کارايی تجاری (که در زمان کوتاه محسوس نيست)
بازگشت
مشکالت SCMوعلل آن
مشکالت SCMعبارتند از:
عدم قطعيت حقايق،
ثابت نبودن شرط ها،
خرابی ماشين،
نقل و انتقال.
اين مشکالت ناش ی از وابستگی موارد فوق به پارامترهای زير است که همواره در حال تغيير اند:
تقاضا.
توزيع.
کيفيت.
(کيفيت وتوزيع و تقاضا )SCM
بازگشت
Customer Relationship Management
عبارت است ازمبحثی که موجب بهترين همکاری بين اليه های مختلف يک
سيستم کاربردی از قبيل:
back-offic
front-office
web
می شود.
بازگشت
)ERP (Enterprise Resource Planing
مجموعه ای از نرم افزارهای کاربردی مورد استفاده در سيستم های عملياتی
مجتمع ،به منظور پشتيبانی از پردازش های تجاری عملياتی مبتنی بر معماری
.Enterprise
یک ERPیک سیستم مبتنی بر کامپیوتر است که تمام شعبات و وظایف یک
سازمان را یکپارچه می کند
یک ERPهمه فرآیندهای تجاری مهم را با یک معماری واحد بصورت لحظه به
لحظه کنترل می کند.
انتظار می رود راه حل یکپارچه از کارایی تا کیفیت ،بهره وری و سود را بهبود بخشد.
بازگشت
ERP تأمين کنندگان نرم افزار
SAP
Baan
PeopleSoft
Oracle
J.D. Edwards
Computer Associates
Enterprise Information Management
فروش
ليست اموال
توزيع
پشتيبانی مشتری
قيمت گذاری محصول
IT
IT
IT
IT
IT
IT
Clien
Client
بازار
Clien t
Client
Client
Client
Client
امور مالی
واحد تجاری
IT
واحد تکنولوژی اطالعات
مديريت اطالعات
کنترل ,مستندات ,جمع آوری ,هماهنگی ,کشف کردن
Enterprise
محيط پشتيبانی
از تصميم گيری
OM
DM
ODS
EDW
BI/DW Databases
Operational Systems
محيط عملياتی
بازگشت
وظايف Enterprise Information Management
معماری سيستم را ارائه می دهد که شامل:
مدل پردازش ی
مدل داده
است.
معماری برنامه کاربردی را ارائه می دهد که شامل:
برنامه کاربردی
پايگاه داده
است.
فراداده را ارائه می کند.
سياست ها را ارائه می کند که شامل:
استانداردها
رويه ها
خط مش ی ها
بازگشت
کيفيت داده
کيفيت
داده؟
داده ها درسيستم های هوش تجاری بايد باکيفيت باشند.
مستند PDF
خصوصيات داده های با کيفيت
درسيستم های هوش تجاری نياز به داده های با کيفيت است ،داده های با کيفيت دارای
خصوصيات زير می باشند:
صحيح اند.
دقيق اند.
نامتناقض اند.
کامل اند.
قابل جمع شدن اند.
ارزش آنها در راستای قوانين کاربرد است.
ارزش آنها با دامنه ای که برايشان تعريف شده ،مرتبط و متناسب است.
قابل فهم و خوش تعريف اند.
فهرست
دسته بندی اشکاالت کيفی داده
الف) نقض دامنه:
مقاديرمجازی (پيش فرض) ،که موجب از بين رفتن امکان تحليل می شوند.
مقادير پيش فرض هوشمند (معنا دار) ،که امکان توليد پرس و جوی مشخص از طرف
کاربر را فراهم نمی آورند.
ّ
متغيربدون مقدار.
فيلدهای چندمنظوره.
داده های رمز شده.
داده های رمز شده چند مقداری.
متون غير ساختيافته ،که بدليل نداشتن الگوی مشخص غير قابل تجزيه اند.
فهرست
دسته بندی داده های بدون کيفيت (ادامه)
ب) نقض جامعيت:
داده های با ارزش غلط.
نقض قوانين کاربرد.
عدم استفاده از کليد شناسايی يکتا.
استفاده از کليد شناسايی بطور مجدد.
گم شدن ارتباطات بين داده ها يا وجود ارتباطات بين داده ای نامناسب و اشتباه.
افزونگی داده.
وجود مقادير متناقض برای يک داده که باعث اتخاذ تصميمات نادرست می شود.
فهرست
سيستم ِِ با داده های بدون کيفيت
مشخصات
ِ
يک سيستم با داده های بدون کيفيت دارای عالئم زير است:
نتايج حاصل از نرم افزار برای کاربر قابل فهم نيست.
قسمتی از داده های ذخيره شده هيچگاه برای ارائه در گزارشات مورد استفاده قرار نمی
گيرد.
گزارشات در تحليل با نتايج متضاد همراه است.
داده بصورت اشتراکی استفاده می شود و يا قابليت به اشتراک گذاشته شدن را دارد.
ادغام داده ها موجب اختالل درکار سيستم می شود.
فهرست
اثرداده های بدون کيفيت برروی سيستم
ارزيابی غلط.
عدم ارزيابي.
صرف زمان اضافی جهت برطرف کردن اشتباهات رخداده.
صرف هزينه اضافی جهت برطرف کردن اشتباهات رخداده.
فهرست
12قدم جهت تصحيح داده
.1
اطالع از اشکال
.2
قبول مسئوليت
.3
تصميم برای تغيير
.4
کشف ريش اشکاالت
همکاری بين سازمان های توليدکنندة داده برای رفع مشکل داده
.6
شناسايی عامل های تغيير
.5
فهرست
12قدم جهت تصحيح داده (ادامه)
.7انتقال تکنولوژی تصحيح داده در کل سازمان
ّ .8
تهي برنام تغيير روي جمع آوری داده ،تصحيح داده ،تعمير داده
ّ .9
اولويت گذاری تغييرات
.10اجرای برنامه تغيير بر روی اولويت های تهيه شده و آناليز آن
.11اندازه گيری اثر برنام اجرايی
.12تغيير برنامه کاری ()Plan
فهرست
مراحل کاری پاکسازی داده
.1
کشف اشکاالت داده ای به صورت تصادفی
.2
کشف اشکاالت داده ای با آناليز سطحی
.3
کشف اشکاالت ريشه ای داده
.4
استفاده از Edit Ruleپيشرفته و هوشمند جهت جلوگيری کردن از ورود داده غلط
()Enterprise Data Analysis
.5
بهينه کردن داده ()Optimise
فهرست
دانش
دانش ورودی اصلی BIاست.
دانش
داده های مرتبط بهم
و با قابليت اثرگذاری
اطالعات
پردازش شده
داده
داده های مرتبط بهم و با قابليت اثرگذاری
فهرست
منابع دانش
اموزش حرفه ای 2.86
تعامل با مشتری 2.68
جستجو در روزنامه ها 2.41
تحلیل رقبا 2.36
2.30
تعامل با تولیدکننده
2.16
همایش ها
2.07
جستجودربازار
1.94
تحلیل تطبیقی
1.75
استخدام متخصص
1.68
تعامل با دانشگاه
ا
مقیاس از :0هرگز تا :4غالبا
فهرست
انواع دانش
عمومی (:)Tacit
قابل فرموله شدن نيست ،مانند مشخصات يک Itemداده ای در پايگاه داده عملياتی .
در ذهن انسان ذخيره می شود.
اختصاص ی (:)Explicit
قابل فرموله شدن هست،
قابل ذخيره سازی بر روی رسانه های مختلف هست مانند رويه انجام کار.
فرهنگی (: )Culturalدر رابطه با دانش های زير ساختی محيط عملياتی است ،مانند سطح آمادگی
يک سازمان برای داشتن يک سيستم مشخص.
فهرست
چرخة حيات دانش ()1
استخراج
ايجاد
اصالح
دانش
توزيع
ذخيره
مديريت
فهرست
چرخة حيات دانش ()2
جمع آوری
طبقه بندی
تشخيص
توزيع
دانش
دسترس ی
توليد
استفاده
فهرست
روش های ذخيره سازی دانش
.1
:Networking Modelدانش بطور پراکنده ذخيره می شود و با يکديگر در
ارتباطند.
.2
:Repository Modelهمه دانش را در يک نقطه قرار داده و از آن استفاده
می شود.
.3
:Hybrid Modelکه در آن دانش های پراکنده بصورت قطب های دانش
سازمان دهی شده اند.
فهرست
روش های اخذ دانش
.1
مصاحبه
.2
پرسش
.3
مشاهده
.4
روش های فرموله
.5
Machine Learning
.6
:)PKA( Precision Knowledge Aquisitionيک روش برای اخذ دانش
دقيق و صحيح
فهرست
Precision Knowledge Aquisition
که شامل مراحل زير است:
تصحيح مصاحبه و توليد Transcript
.1
.2عالمتگذاری Factها
.3توليد يک خالصه ()Glossary
.4توليد يک قاب
توليد يک Knowledge Matrix
.5
.6بازنمايی دانش
.7ايجاد پايگاه دانش
فهرست
انجام مراحل PKAبرمبنای استراتژی Blackboard
.1
.2
.3
.4
.5
.6
.7
.8
.9
.10
سازماندهی سيستم انجام کار
مواردی که حتما ً بايد انجام شود
محدودة پروژه
تأکيد بر روی منابع دانش
تخته سيا ِه اخذ دانش
آماده سازی راه حل ها برای اجرای سيستم
سازماندهی دانش
6
حل واقعی مسأله
پااليش پايگاه داده
8
پااليش رويه انجام کار
10
1
2
3
4
5
7
9
مديريت دانش
چگونه دانش را دريافت کرده؟ چگونه آنرا ضبط و ذخيره کنيم؟ چگونه بهنگام
کنيم؟ چگونه حذف کنيم؟ و ...
3موضوع در رابطه با دانش مربوط به يک سازمان توسعه می يابد:
( Sense Makingايجاد يک عقيدة اوليّه)
( Knowledge Creativeايجاد دانش)
( Decision Makingاتّخاذ تصميم)
فهرست
مديريت دانش (ادامه)
تجربيات
ّ
ايدة اوليه
هدف
ّ
اتخاذ تصميم
حافظ مشترک
ايجاد دانش
تکنيک های توليد دانش
فهرست
مديريت دانش (ادامه)
( Share Memoryحافظة مشترک) عبارتست از به اشتراک گذاشتن دانش های
يک سيستم برای همگان.
فوايد :Share Memory
ملموس:
عدم ايجاد هزينه اضافی
کارايی
غير لموس:
مشارکت در تجربيات يکديگر
افزايش دانش سازمان
فهرست
چرخة حيات مديريت دانش
شناخت دانش
انتخاب دانش
سازمان دهی دانش
انتشار دانش
انتقال دانش
فهرست
Sense Making مؤلفه های
فهرست
) (بحثArgument
.1
) (انتظار داشتنExpection
) (توافق کردنCommitment
) (ارزيابیEvaluation
) (دستيابی دادهManipulation
.2
.3
.4
.5
مؤلفه های ايجاد دانش
Knowledge Processing
همواره در رابطه با دانش
مشتری
بازنمايی
دانش
توليد
تأمين کننده
کارايی
همواره در رابطه با مشتری و تأمين کننده
فهرست
مراحل انجام يک پروژه مهندس ی
ا
هرنوع پروژة مهندس ی ،مهندس ی ساخت يافته مانند مهندس ی نرم افزار ،غالبا در 6مرحله انجام
می شود:
مرحله :1
مرحله :6
هدف و منظور
نصب و استقرار
مرحله :5
مرحله :2
ساخت
طرح ريزی
مرحله :3
مرحله :4
تحليل تجاری
طراحی
فهرست
نقشه راه هوش تجاری
برای برنامه های کاربردی هوش تجاری با نيازمندی های خاص از جمله استفاده از داده های غير
ا
ساخت يافته مثال کاوش در متن و محتوا و صوت و ...نياز به گسترش فعاليت ها و نقش ها در
قالب گام های توليد مناسب است
ا
نقشه راه هوش تجاری اساسا يک راهنمای چرخ حيات پروژه برای ايجاد برنامه های کاربردی
تصميم يارهوش تجاری با استفاده از داده های ساخت يافته است.
فهرست
نقشة راه توليد يک پروژة هوش تجاری()1
اين نقشه 16گام برای ساخت يک پروژة هوش تجاری را بر طبق همان 6مرحل انجام هر پروژة
ا
مهندس ی که قبال ذکر شد ،به شرح زير بيان می کند:
مرحل هدف و منظور:
گام :1ارزيابی وضعيت تجاری،
مرحل طرح ريزی:
گام :2ارزيابی زير ساخت ،Enterprise
گام :3طرح ريزی پروژه،
مرحل تحليل تجاری:
گام :4تعريف نيازمندی های پروژه،
گام :5تحليل داده،
گام :6نمونه سازی برنامه کاربردی،
گام :7تحليل مخزن فراداده،
فهرست
نقشة راه توليد يک پروژة هوش تجاری()1
مرحلة طراحی:
گام :8طراحی پايگاه داده،
گام :9طراحی ( ETLاستخراج/تبديل/بارگذاری)
گام :10طراحی مخزن فراداده،
مرحلة ساخت:
گام :11توليد ،ETL
گام :12توليد برنامة کاربردی،
گام :13داده کاوی،
گام :14توليد مخزن فراداده،
مرحلة نصب و استقرار:
گام :15پياده سازی،
گام :16ارزيابی نسخه.
فهرست
ارزيابی وضعيت تجاری
در اين گام ،مشکل يا موقعيت تجاری تعريف می شود و يک راه حل تجاری پيشنهاد می شود .هر نسخ
برنام کاربردی هوش تجاری بايد توجيه اقتصادی داشته باشد و به طور واضح بايد فوايد آن راه حل
بيان شود.
بازگشت
ارزيابی زيرساخت Enterprise
ازآنجائيکه برنامه های کاربردی ،BIبرخاسته از تراکنش های بين سازمانی هستند ،يک زير ساخت
Enterpriseبايد برای پشتيبانی از آنها ايجاد شود .بعض ی از مؤلفه های زيرساخت ممکن است قبل از
آغاز پروژة BIدر محل موجود باشند .ساير مؤلفه ها نيز بايد بعنوان قسمتی از پروژه ،بمرور زمان
ساخته شوند.
يک زير ساخت Enterpriseدو مؤلفه دارد:
زيرساخت تکنيکی :که شامل سخت افزار ،نرم افزار ،ميان افزار ،سيستم مديريت پايگاه داده،
سيستم عامل ،مؤلفه های شبکه ،انبارهای فراداده و...
زيرساخت غيرتکنيکی :که شامل استانداردهای فراداده ،استانداردهای نامگذاری داده ،متدولوژی
ها ،رويه های تست ،فرآيندهای کنترل تغيير و...
بازگشت
طرح ريزی پروژه ()Planing
پروژه های تصميم يار BIبسيار پويا هستند ،تغييرات در دامنه ،کارکنان ،بودجه ،تکنولوژی ،تأثير
بسزايی در موفقيت يک پروژه دارند ،بنابر اين طرح ريزی پروژه بايد با جزئيات کامل انجام شود وپيشرفت
واقعی کار بايد بطور دقيق مشاهده و گزارش شود.
بازگشت
شمای نقشة راه توليد يک پروژة هوش تجاری
گام 11
گام 16
گام 15
استقرا
ر
گام 12
گام 9
گام 5
گام 8
گام 6
گام 13
گام 14
ساخت
گام 10
طراحی
گام 4
گام 7
گام 3
گام 2
گام 1
طرح ريزی هدف
تحليل تجاری
فهرست
اجرای موازی نقشة راه ساخت يک پروژة BI
هر پروژة تصميم يار ،BIحداقل در سه مجموعه وظايف موازی که بعد از تعريف نيازمندی های پروژه و
قبل از پياده سازی است اجرا می شوند.
اجرای موازی گام ها
11
16
زمان
15
13 14
9
10
12
8
7
6
4 5
3
2
1
مالحظات نقشه راه سيستم های هوش تجاری ()2
شناخت کيفيت داده،
شناخت عدم کيفيت داده،
تصحيح داده ها،
اشتراک گذاری داده ها،
داده به منزله سرمايه تلقی شود،
توليد داده از داده های موجود (يادگيری +استنتاج)،
استفاده از استانداردها،
کوچک ومحدودنمودن محدودة سيستم ها.
فهرست
ساختارتيم پروژه
عمودی يا افقی
متمرکز يا غيرمتمرکز :که دربرنامه های مبتنی بر مؤلفه از ساختار متمرکز استفاده می شود
عمودی متمرکز يا افقی غير متمرکز
برای يک سيستم BIپيشنهاد می شود از يک ساختار غير متمرکز افقی استفاده شود.
فهرست
ساختارتيم پروژه BI
در ساخت يک سيستم مبتنی بر معماری BIرويکرد مبتنی برتوليد اجزا حاکم است ،دو تيم
بطور مجزا در اين رابطه مشغول به فعاليت اند:
تيم سازنده هسته اصلی سيستم ()Core
تيم کاربردی نمودن هسته اصلی ()Extended
فهرست
ِتيم سازنده هسته اصلی سيستم )(Core
اعضای ثابت اين تيم :
يک نفر مدير پروژه،
يک نفر نماينده تجاری،
تحليلگران از طرف بخش تکنولوژی اطالعات،
متخصصين از طرف بخش تکنولوزی اطالعات که متخصص در امر برنامه نويس ی و
تجزيه تحليل سيستم باشد.
بازگشت
تيم کاربردی نمودن هسته اصلی )(Extended
اعضای اين تيم نيز دارای مسئوليت هايی در يک پروژة BIهستند ،اما نقش اصلی در راهبری
مراحل پروژه را ندارند ،اعضای اين تيم دارای تخصص های مختلفی هستند و در هر يک از
مراحل انجام پروژه چنانچه به تخصص آنها نياز باشد ،از ايشان برای شرکت در جلسات،
دعوت بعمل می آيد.
بازگشت
BI/OLAP تامين کنندگان عمده
Oracle 9i OLAP
SAP BW
Microsoft SQL Server 2000 & Analysis
Services
Hyperion Essbase\IBM
Microstrategy
Cognos
Business Objects
فهرست
اصول طراحی پايگاه داده تحليلی
مستندPDF
مروری برتعريف پايگاه داده تحليلی
1992پايگاه داده تحليلی ،پايگاه داده ای به منظور تصميم گيری می باشد كه دارای
خصوصيات غيرقابل تغيير ،در يك محدوده وسيع زماني ،يكپارچه و مبتنی بر موضوع می باشد.
1995مجموعه ای از پايگاه داده های يكپارچه ،مبتنی بر موضوع و بهينه طراحی شده برای
پشتيبانی از سيستم های تصميم يار
1996منبعی كه كاربران نهايی می توانند در آن به داده هايشان دسترس ی پيدا كنند.
1997مجموعه ای از اطالعات يكی شده حاصل از سيستم های عملياتی و برخی منابع داده
خارجی با هدف پشتيبانی از تصميم گيريهای تجاري.
مستندPDF
مروری برتعريف پايگاه داده تحليلی
(ادامه)
جامعترين تعريف
منبع داده جمع آوری شده از داده های منابع اطالعاتی مختلف و حتی ناهمگن
تحت يك ساختار
در يك محدوده وسيع زماني
با هدف پاسخگويی به پرسشهای تحليلی كاربران
فهرست
تفاوت با پايگاه داده عملياتي
پوشش دامنه زمانی وسيع تر
يك پايگاه داده يكپارچه حاصل ازپردازش چندين پايگاه داده عملياتي
قابليت پاسخگويی به پرسشهای پيچيدة كاربران و برنامه های كاربردي
مستندPDF
فهرست
مشخصات پايگاه داده تحليلی
مبتنی برموضوع
سازماندهی داده ها بسته به چگونگی ارجاع كاربران
يكپارچگي
يكپارچه سازی اسامي
يكپارچه سازی واحدهای اندازه گيری متغيرها
يكپارچه سازی ساختارهای داده ای از نظر محدوده ارزشها
حذف ناسازگاريها و اطالعات متناقض
غيرقابل تغيير
داده های فقط خواندني
مستندPDF
فهرست
مشخصات پايگاه داده تحليلی(ادامه)
محدوده وسيع زماني
محيط های عملياتی گستره زمانی 90-60روز
پايگاه داده تحليلی گستره زمانی 10-5سال
خالصه شده
داده های تحليلی مناسب برای تصميم گيريها بر اساس اهداف تعيين شده
حجيم
به علت محدوده وسيع زماني
نرمال نشده
امكان وجود افزونگي
انواع داده درپايگاه داده تحليلی
داده جاري
داده های فعلی منابع عملياتي
داده قديمي
داده های قديمی منابع اطالعاتي
داده خالصه شده
داده های نتيجه شده از داده های موجود وپردازش های مرتبط
فراداده
اطالعات مربوط به داده ها
ديكشنری از اطالعات پايگاه
راهنمايی جهت نگاشت داده از محيط عملياتی به محيط پايگاه داده تحليلی
قواعد استفاده شده برای خالصه سازي
فهرست
Data Warehouse Process
DATA SOURCES
STAGING AREA
DATA WAREHOUSE
Application
Databases
DECISION SUPPORT
_________
_________
_________
_________
_________
_________
Reports
Packaged
application/ERP
Data
DATA
MARTS
INCOME ANNUAL REPORT
___ ___ ____ _____ ___ __
___ ___ ____ _____ ___ __
___ ___ ____ _____ ___ __
EIS
Desktop Data
EXTRACTION
TRANSFORMING
CLEANING
AGGREGATION
DATA
WAREHOUSE
OLAP
External Data
OR
Web-based Data
Statistical & Financial
Analysis
Data Warehouse Process
DATA SOURCES
STAGING AREA
DATA WAREHOUSE
Application
Databases
DECISION SUPPORT
_________
_________
_________
_________
_________
_________
Reports
Packaged
application/ERP
Data
DATA
MARTS
INCOME ANNUAL REPORT
___ ___ ____ _____ ___ __
___ ___ ____ _____ ___ __
___ ___ ____ _____ ___ __
EIS
Desktop Data
EXTRACTION
TRANSFORMING
CLEANING
AGGREGATION
DATA
WAREHOUSE
OLAP
External Data
OR
Web-based Data
Statistical & Financial
Analysis
تعريف هوش تجاری ازمنظرپايگاه داده تحليلی
پايگاه داده تحليلی در هوش تجاری ،امكان بررسی و مطالعه رفتارها و کنش های
گذشته يك Enterpriseبه منظور درک موقعيت قبلی سازمان ،تعيين وضعيت
جاری آن و پيش بينی يا تغيير آنچه که در آينده اتفاق خواهد افتاد ،را فراهم می
نمايد.
فهرست
سيرتکاملی تکنولوژی های هوش تجاری
?
CIF
CIF
برنامه های کاربردی
تحليلی سفارش یCRM :
برنامه های کاربردی
تحليلی سفارش یCRM :
سطح پيچيدگی
IDSS
داده کاوی و اكتشاف
داده کاوی و اكتشاف
داده کاوی و اكتشاف
داده کاوی
تحليل
چند بعدی
تحليل
چند بعدی
تحليل
چند بعدی
تحليل
چند بعدی
تحليل
چند بعدی
)(OLAP
)(OLAP
)(OLAP
)(OLAP
)(OLAP
پرس و جوها،
گزارشات و
پرس و جوها،
گزارشات و
پرس و جوها،
گزارشات و
پرس و جوها،
گزارشات و
پرس و جوها،
گزارشات و
پرس و جوها،
گزارشات و
EIS
EIS
EIS
EIS
EIS
EIS
اواسط دهه 2000اوايل دهه 2000اواخر دهه 1990اواسط دهه 1990اوايل دهه 1990اواسط دهه 1980
)The Corporate Information Factory (CIF
يکی از عمده ترين پيشرفت ها در طی 10سال گذشته معرفی يک
معماری مقبول در سطح گسترده برای پشتيبانی از هرنوع تقاضای
تکنولوژيکی هوش تجاری بوده است.
اين معماری نشان داد که راه کار Executive Information ( EIS
)systemکمبود های عمده متعددی دارد.
CIFكمبود اخذ از يك منبع كه در EISوجود دارد را از بين برد.
CIFنوعی معماری است که امروزه در اکثر محيط های تصميم يار
مورد استفاده قرار می گيرد.
فهرست
( CIFادامه)
CIFاين كمبود EISرا با دوراه کار زير برطرف می کند:
تفکيک داده به 5پايگاه داده عمده ،اين 5پايگاه داده عبارتند از:
پايگاه های داده سيستم اجرايی )،(The Operational System Databases
پايگاه داده تحليلی )،(Data warehouse
انباره داده اجرائی )،(The Operational Data Store
پايگاه های داده تحليلی خرد )،(Data Marts
پايگاه های داده عم ِلياتی خرد ).(Oper Marts
يکپارچه سازی فرآيندها به منظور انتقال کارا و موثر داده از سيستم های منبع به کاربران
تجاری.
فهرست
( CIFادامه)
CIFيک معماری ادراکی پذيرفته شده (در سطح وسيع) است که انباره های
اطالعاتی ای که در اجرا و مديريت يک زيرساخت محکم و موفق هوش تجاری
مورد استفاده قرار می گيرند ،را توصيف و طبقه بندی می کند.
اين انباره های اطالعاتی سه فرايند سازمانی سطح باال را پشتيبانی می کنند که
عبارتند از:
عمليات تجاری ( :)Business operationsبا عمليات روزانه و جاری تجاری در
ارتباطند.
هوش تجاری ( :)Business intelligenceبا جستجوی مداوم برای درک بهتر
شرکت ،محصوالت آن و مشتريانش در ارتباط است .فرآيندهای عمليات تجاری ايستا
هستند ،در حاليکه هوش تجاری عالوه برفرآيندهای ايستا ،شامل فرآيندهايی است که
همواره در حال تکامل اند.
فهرست
( CIFادامه)
مديريت تجاری ( :)Business managementفرآيندی است که در آن دانشها و
بينشهای جديدی که در هوش تجاری ايجاد می شوند ،در عمليات تجاری روزانه در
سرتاسر Enterpriseمعرفی و اجرا می شوند ،مديريت تجاری تصميمات تاکتيکی که
يک سازمان اتخاذ می کند را در بر می گيرد.
فهرست
مولفه های CIF
مؤلفه های CIFبه دو گروه عمده تقسيم می شوند:
دريافت داده ) :(Getting Data Inكه شامل فرآيندها و پايگاه های داده ای است كه درگير اخذ
داده از سيستم های اجرائي ،يكپارچه سازی آن ،پاكسازی آن و قرار دادن آن در يك پايگاه داده
برای استفاده آسان هستند و عبارتند از:
پايگاه های داده سيستم اجرايی )،(The Operational System Databases
پايگاه داده تحليلی )،(Data warehouse
انباره داده اجرائی )،(The Operational Data Store
اخذ دانش ).(Data Acquisition
فهرست
مولفه های CIF
پس دادن اطالعات ) :(Getting Information Outکه شامل فرآيندها و پايگاه های داده ای
است که درگير ارائه هوش تجاری به مشتريان تجاری نهايی يا تحليل گران اند و عبارتند از:
پايگاه های داده تحليلی خرد )،(Data Marts
پايگاه های داده عملياتی خرد )،(Oper Marts
داده رسانی ).(Data delivery
فهرست
مالحظاتی كه درطراحی يك پايگاه داده تحليلی بايد لحاظ كرد
اگر بناست كه پايگاه داده تحليلی به عنوان يك انباره تاريخچه و سابقه ثابت و پايدار در برنامه
های كاربردی استراتژيك هوش تجاری مورد استفاده قرار گيرد ،بايد خصوصيات زير را دارا
باشد:
بايد Enterprise focusedباشد :پايگاه داده تحليلی بايد منبع تغذيه پايگاه های داده خرد و و
برنامه های كاربردی تحليلی باشد.
طراحی پايگاه داده تحليلی بايد در مقابل تغييرات ،تا حد ممكن انعطاف پذير باشد:
از آنجائيكه پايگاه داده تحليلی برای ذخيره سازی داده های حجيم و مربوط به محدوده زمانی طوالنی
مورد استفاده قرار می گيرد ،بسيار نامطلوب است كه داده از داخل پايگاه داده تحليلی برداشته و
ا
دوباره طراحی شود و مجددا در داخل ان بار گذاری شود،
به منظور جلوگيری از انجام اين كار بايد به فكر يك مدل داده ای مستقل از پردازش ،برنامه كاربردی و
تكنولوژی هوش تجاری بود.
هدف بايد توليد يك مدل داده ای باشد كه بتواند به آسانی خود را با عناصر داده ای جديد وفق دهد
بدون نياز به طراحی مجدد ساختار يا مدل داده ای موجود.
مالحظاتی كه درطراحی يك پايگاه داده تحليلی بايد لحاظ كرد
بايد بگونه ای طراحی شود كه بتواند حجم وسيعی از داده را در زمان كوتاهی در خود بارگذاری
كند.
بايد بگونه ای طراحی شود كه قابليت پشتيبانی از هر نوع تحليل هوش تجاری با هر نوع
تكنولوژی را داشته باشد.
مستندPDF
فهرست
مالحظات ساخت پايگاه داده تحليلی
ابتدا مسأله تجاری كه بايد به كمك يك قابليت هوش تجاری حل شود ،انتخاب و مستندسازی
می شود.
جمع آوری همه نيازمنديها در رابطه با هدف ( )Gainسيستم.
تصميم گيری در مورد تكنولوژی مورد استفاده توسط كاربر نهايی كه بتواند راه حل پيشنهادی را
پشتيبانی كند.
ساخت يك مدل اوليه از پايگاه داده تحليلی خرد به منظور تست كارايی آن و طراحی مجدد آن در
صورت لزوم.
ساخت مدل داده ای پايگاه داده تحليلی براساس نيازهای كاربر و مدل داده ای تجاري.
ا
نگاشت نيازهای پايگاه داده تحليلی خرد بر مدل داده ای پايگاه داده تحليلی و نهايتا گرفتن
بازخورد از سيستم های اجرايي.
مالحظات ساخت پايگاه داده تحليلی (ادامه)
توليد كد برای انجام ETLو فرايندهای ارائه داده.
تست پايگاه داده تحليلی خرد و اندازه گيری پارامتر های كيفی داده و ايجاد پايگاه داده تحليلی
خرد مناسب برای محيط.
قبول سيستم و تبديل نخستين نسخه پايگاه داده تحليلی و پايگاه داده تحليلی خرد به محصول
و شروع به طرح ريزی برای نسخه بعدي.
فهرست
مراحل ساخت پايگاه داده تحليلی
آماده سازی ()ETL
استخراج داده
پاكسازی داده
بايگانی كردن داده قبل و بعد از پاكسازي
يكپارچگي()Integrity
تطبيق داده و يكپارچگی چند منبع داده اي
تحليل سطح باال
محاسبه ديدهای تحليلی از ديدهای پايه ايجاد پارامترهای تحليلي
خصوص ی سازي
استخراج و خصوص ی سازی اطالعات ايجاد پايگاه داده تحليلی خاص
مستند(1)Word
مستند(2)Word
ابزارهای سطح پايين ( )Back-Endپايگاه داده تحليلي
استخراج داده
داده ها را از منابع مختلف ،ناهمگون و خارجی می گيرد
پااليش داده
خطاها را در داده تشخيص می دهد و در صورت امكان تصحيح می نمايد.
تغيير شكل و تبديل داده
داده را از فرمت و قالب ميزبان به قالب مخزن تبديل می كند.
بارگذاري
مرتب سازي ،خالصه سازي ،سرجمع كردن ،محاسبه ديدگاه ها ،تست يكپارچگي ،ساخت انديس ها
و پارتيشن ها.
نوسازي
انتشار تغييرات از منابع داده به مخزن
مستندPDF
بازگشت
يكپارچه سازی داده ها
تركيب داده های دريافتی از منابع اطالعاتی مختلف
استفاده از فرا داده ها برای شناسايی و حذف افزونگی داده ها
تشخيص و رفع برخوردهای داده ای
يکپارچه سازی داده ها از سه فاز کلی تشکيل شده است:
شناسايی فيلدهای يکسان
شناسايی افزونگی های موجود در داده های ورودی
مشخص کردن برخورد های داده ای
بازگشت
تبديل داده ها
در اين فاز ،داده های ورودی طی مراحل زير به شكلی كه مناسب عمل داده کاوی باشند ،در می آيند:
از بين بردن نويزهای داده ها
تجميع داده ها
کلی سازی
نرمال سازی
افزودن فيلدهای جديد
بازگشت
تبديل داده ها -ادامه
از بين بردن نويزهای داده ای :منظور از داده های نويزي ،داده هايی هستند که در خارج از بازه مورد
نظر قرار می گيرند.
برای اصالح داده های نويزی از روشهای زير استفاده می شود:
استفاده از مقادير مجاور برای تعيين يک مقدار مناسب برای فيلدهای دارای نويز
دسته بندی داده های موجود و مقداردهی فيلد دارای داده نويزی با استفاده از دسته نزديکتر
ترکيب روشهای فوق با مالحظات انسانی
بازگشت
تبديل داده ها -ادامه
تجميع داده ها :تجميع داده ها به معنی بدست آوردن اطالعات جديد از ترکيب داده های موجود می باشد.
کلی سازي :کلی سازی به معنی دسته بندی داده های موجود براساس ماهيت و نوع آنها است.
نرمال سازي :منظور از نرمال سازي ،تغيير مقياس داده ها است.
افاازودن فيلاادهای جديااد :گاااهی اوقااات ب ارای سااهولت عماال داده کاااوی ماای تااوان فيلاادهايی بااه مجموعااه فيل ادهای
موجود اضافه کرد .
بازگشت
کاهش داده ها
شامل تکنيکهايی برای نمايش کمينه اطالعات موجود است.
اين فاز از سه بخش تشکيل می شود:
کاهش دامنه و بعد :فيلدهای نامربوط ،نامناسب و تکراری حذف می شوند.
فشرده سازی داده ها :از تکنيکهای فشرده سازی برای کاهش اندازه داده ها استفاده می شود.
کدکردن داده ها :داده ها در صورت امکان با پارامترها و اطالعات کوچکتر جايگزين می شوند.
نوسازی داده درپايگاه داده تحليلی )(Refreshment
نظارت برداده های منابع مختلف
استخراج تغييرات
تغييرشكل داده های استخراج شده به شكل تعريف شده در پايگاه داده تحليلی
يكپارچه كردن اطالعات
پاك سازی داده های عملياتي
نتيجه گيری داده های جديد
ايجاد تاريخچه برای داده ها
بارگذاری درپايگاه داده تحليلی
بازگشت
نوسازی داده...
(ادامه)
تقسيم بنديهای پايگاه داده تحليلی براساس سرعت نوسازی داده
كالس اول
چند ثانيه پس اربهنگام سازی منبع داده بروزمی شوند.
اجرای تراكنشهای كمی در زمان انتقال داده ازمحيط عملياتی به پايگاه داده تحليلی
كالس دوم
ذخيره داده های يكپارچه و جمع شده درمنبع داده مياني
انتقال به پايگاه داده تحليلی به طور متناوب(هرچند ساعت يكبار)
كالس سوم
آسنكرون
بروزرسانی طوالنيتر(روزانه يا ماهانه)
مشكالت نوسازی داده
حجم زياد داده های ذخيره شده
انتشارتغييرات در هنگام نوسازی داده
نوسازی داده مستلزم اجرای ميزان كاری با پيچيدگی های متفاوت است.
باعث كارايی مختلفی بسته به سطح معماری می شود.
ممكن است به طور همزمان با پردازش پرسشها انجام شود.
افزايش در دسترس بودن كاهش زمان نوسازی داده
بازگشت
خصوصيات مدل داده ای پايگاه داده تحليلی
عدم وجود افزونگی ()No redundant
پايداری ()Stable
سازگاری ()Consistency
انعطاف پذيری ()Flexibility
معماری پايگاه داده تحليلی
معماری يك پايگاه داده تحليلی شامل سه اليه می باشد:
اليه زيرين ،منابع اوليه داده را تشكيل می دهد .اين اليه شامل پايگاه های داده رابطه اي ،فايل های
مسطح و منابع ديگر است.
اليه ميانی را خود پايگاه داده تحليلی و سرويس دهنده های پردازش تحليلی برخط تشكيل می دهند.
سرويس دهنده های پردازش تحليلی بر خط ،داده چند بعدی را برای ارائه به كاربران نهايی در اختيار قرار
می دهند.
اليه انتهايي ،سرويس گيرنده ها هستند كه با عمليات داده كاوي ،پرس و جو و تحليل ،داده را از سرويس
دهنده های پردازش تحليلی بر خط می گيرند.
سرويس دهنده های پردازش تحليلی بر خط
سرويسدهنده های پردازش تحلیلی بر خط كه در اليه ميانی معماری پايگاه داده تحليلی قرار
دارند ،سه نوع هستند:
( ROLAPپردازش تحليلی برخط رابطهاي) Relational OLAP
( MOLAPپردازش تحليلی برخط چندبعدي) Multi-dimensional OLAP
( HOLAPپردازش تحليلی برخط تركيبي) Hybrid OLAP
مستندPDF
بازگشت
ROLAP
يك سرويسدهنده ،ROLAPاز نوع توسعه يافتهای از سيستمهای مديريت پايگاههای داده رابطهای استفاده
ميكند.
پردازش تحلیلی بر خط رابطه ای براساس نوع ارتباط جدول واقعيت با جداول بعد به اشكال مختلفی مدل می شوند
اين سرويس دهنده ،ساختارهای شامل جداول واقعيت و جداول بعد را با استفاده از جداول و رابطه های بين انها
پياده سازی می كند.
در واقع ،ROLAPعمليات OLAPبر روی دادههای چندبعدی را به عمليات رابطهای استاندارد و دستورات SQL
نگاشت ميكند.
بازگشت
MOLAP
سرويسدهنده MOLAPديدگاه چند بعدی از داده را مستقيما به ساختارهای
آرايهای نگاشت مينمايد.
يك پايگاه داده تحليلی چندبعدی داده را به شكل يك مكعب داده ميبيند
بازگشت
HOLAP
HOLAPنيز ROLAPو MOLAPرا بايكديگر تركيب ميكند.
به عنوان مثال از ROLAPبرای دادههای مربوط به سابقه و تاريخچه استفاده
ميشود ،در حالی كه ،دادههايی كه به تناوب مورد دسترس ی هستند ،در يك MOLAP
جداگانه نگهداری ميشوند.
بازگشت
مزايا و معايب سرويس دهنده های OLAP
مزايا و معايب : ROLAPبرای مجموعه داده های بزرگ مناسب تر هستند زيرا در صورت وجود
پراكندگی در داده ،مجموعه داده های پراكنده در جدول ها فشرده تر از آرايه ها ذخيره می شوند.
مزايا و معايب : MOLAPزمانی كه داده ها پراكنده باشند با مشكل كمبود حافظه روبرو می شود .ولی
در مورد مجموعه داده های كوچك كه پراكندگی در انها كمتر است ،سرعت بازيابی در MOLAP
بيشتر می باشد .از طرف ديگر اين نوع سرويس دهنده ها به ديدگاه ذهنی كاربر نزديك تر هستند.
مدل مفهومی پردازش تحلیلی برخط رابطه ای
پردازش تحلیلی بر خط رابطه ای براساس نوع ارتباط جدول واقعيت با جداول بعد به اشكال مختلفی مدل می
شوند.
:Star Schemaدر اين مدل ,يك جدول واقعيت وجود دارد كه همه جداول بعد به آن متصل ميشوند.در اين مدل ,جدول واقعیت
وسيله اتصال همه جداول بعد و نگهدارنده ساير مقادير اندازهگيری است.
( Snow Flake Schemaدانه برفي) :اين مدل در واقع اصالح شده مدل ستارهای است ,به نحوی كه در آن برخی از سلسله
مراتب ابعاد به مجموعه جداول بعد كوچكتر نرمال ميشوند و شكلی شبيه دانه برف پيدا ميكنند.
( Fact Constellation Schemaشمای منظومه اي) :در اين مدل چندين جدول واقعيت ،جداول بعد را به اشتراك ميگذارند كه
در واقع به صورت چندين شبكه ستارهای ديده ميشوند .به همين دليل ,اين مدل را مدل كهكشانی يا منظومه ای مينامند.
بازگشت
Star Schema مثالی ازمدل
item
time
time_key
day
day_of_the_week
month
quarter
year
Sales Fact Table
time_key
item_key
branch_key
branch
location_key
branch_key
branch_name
branch_type
units_sold
dollars_sold
avg_sales
بازگشت
Measures
item_key
item_name
brand
type
supplier_type
location
location_key
street
city
state_or_province
country
Snow Flake مثالی ازمدل
time
item
time_key
day
day_of_the_week
month
quarter
year
branch
Sales Fact Table
time_key
item_key
branch_key
location_key
branch_key
branch_name
branch_type
units_sold
dollars_sold
avg_sales
بازگشت
Measures
item_key
item_name
brand
type
supplier_key
supplier
supplier_key
supplier_type
location
location_key
street
city_key
city
city_key
city
state_or_province
country
Fact Constellation Schema مثالی ازمدل
time
time_key
day
day_of_the_week
month
quarter
year
item
Sales Fact Table
time_key
item_key
item_key
item_name
brand
type
supplier_type
location_key
branch_key
branch_name
branch_type
units_sold
dollars_sold
avg_sales
Measures
بازگشت
time_key
item_key
shipper_key
from_location
branch_key
branch
Shipping Fact Table
location
to_location
location_key
street
city
province_or_state
country
dollars_cost
units_shipped
shipper
shipper_key
shipper_name
location_key
shipper_type
مكعب داده
يك پايگاه داده تحليلی برپايه مدل چندبعدی داده است كه داده را به شكل يك مكعب داده ميبيند
يك مكعب داده مانند فروش اجازه ميدهد كه دادهها در ابعاد مختلف مدل شوند و از ديدگاههای مختلف مورد
بررس ی قرار گيرند.
در ادبيات پايگاههای داده تحليلي ،يك مكعب داده كه در سطوح مختلف خالصه سازی شده است ،يك مکعب واره
ناميده ميشود .با داشتن يك سری ابعاد می توان يك شبکه از مكعب واره ها ساخت كه هر يك از آنها يك سطح
خالصه سازی از داده را نشان می دهند.
مكعب واره ای كه پايين ترين سطح خالصه سازی را دارد ،مكعب واره پايه ناميده می شود و مكعب واره ای كه
باالترين سطح خالصه سازی را دارد ،مكعب واره راس ناميده می شود .يك شبكه از مكعبواره ها يك مكعب داده را
تشكيل می دهند
بازگشت
نمونه ای ازمكعب داده
مجموع ساالنه فروش
تلويزيون در آمريكا
آمريكا
كانادا
كشور
مكزيك
مجموع
مجموع
زمستان
زمان
پائيز
تابستان
بهار
تلويزيون
كامپيوتر
ويدئو
مجموع
مفهوم مکعب داده
محصول -شکالت
تاریخ – 23فروردین
منطقه – جنوب شرق
مقدار -فروش
تاریخ
منطقه
محصول
چه مقدار شکالت در منطقه جنوب شرق در تاریخ 23فروردین به فروش رسیده است؟
شبكه ای ازمكعب واره ها
سراسر
مكعبواره صفر بعدی (راس)
شعبه
مكان
زمان
آيتم
مكعبواره يك بعدي
مكان ,شعبه
مكعبواره دو بعدي
آيتم ,مكان
آيتم ,شعبه
زمان ,مكان
زمان ,شعبه
زمان ,مكان ,شعبه
زمان ,آيتم
زمان ,آيتم ,مكان
مكعبواره سه بعدي
آيتم ,مكان ,شعبه
مكعبواره چهار بعدی (پايه)
زمان ,آيتم ,شعبه
زمان ,آيتم ,مكان ,شعبه
بازگشت
جدول واقعيت
يك جدول واقعيت مركزی شامل واقعيت ها و كليدهای مرتبط با هر يك از جداول بعد است .واقعيت ها ،مقياس
های عددی هستند كه رابطه بين ابعاد با آنها بيان می شود مانند dollars_sold
شمارش ي ،پيوسته
پاسخ هر پرسش شامل بازيابی تعداد زيادی ركورد از جدول واقعيت است.
كليد اصلی هر جدول ،تركيب كليدهای خارجی جداول ابعاد می باشد.
Item-id
Store-id
Customer-id
Date
Number
price
بازگشت
جدول ابعاد
ا
.جداول ابعاد مثال ديدگاه هايی كه يك سازمان به ركوردهايش دارد را نگهداری می كنند
item (item_name, brand, type)
time(day, week, month, quarter, year)
توصيف متنی بعدهای تجارت
ويژگيها متنی و گسسته هر بعد دارای چند ويژگی پايگاه داده خوب
Date
Store-id
Item-id
Customer-id
Month
quarter
year
City
state
country
Itemname
color
size
category
Name
street
city
state
zipcode
country
بازگشت
داده های چندبعدي
ارزش جنس فروش ی ،تابعی از محصول و منطقه و ماه است.
ابعاد :محصول و مکان و زمان
مسيرهای خالصه سازی
افقی:
Industry Region
Year
Category Country Quarter
Day
محصول
Month Week
City
Product
Office
ماه
مراجع
Larissa T. Moss, “Improving Data Quality: Why is it so difficult?”
“Data Warehousing/Business Intelligence”, Available in www.eforceglobal.com
Paul Balacky & Richard Fayers, “A Presentation on Business Intelligence“, June 10th 2003
A Presentation on BI: “Business Intelligence: Data Warehousing, Data Acquisition, Data Mining, Business Analytics, and isualization”
A Presentation on BI: “Enterprise Information Systems”
A Presentation on BI:”ETL”, www.ds.uillinois.edu
Chun Wei Choo, “Knowledge Management and The Knowing Organization”, Faculty of Information Studies, University of Toronto,
http://choo.fis.utoronto.ca
Fosca Giannotti, Dino Pedreschi, “Tecniche di Data Mining”, http://www-kdd.cnuce.cnr.it/
Ora Fish, “Data Warehousing: Changing Campus Culture ”, Rensselaer Polytechnic Institute
Dr. Silke Schoenert, “Knowledge Management and Project Management” , University of Koblenz-Landau, Germany, [email protected]
فهرست