نویسندگان : دکترابراهیم پورزرندی گلثوم اکبرپور (کارشناسی ارشد حسابداری) مقدمه امروزه سیستمهای سنتی در حال تبدیل شدن به سیستمهای اطالعاتی هستند؛ سیستم های اطالعاتی
Download ReportTranscript نویسندگان : دکترابراهیم پورزرندی گلثوم اکبرپور (کارشناسی ارشد حسابداری) مقدمه امروزه سیستمهای سنتی در حال تبدیل شدن به سیستمهای اطالعاتی هستند؛ سیستم های اطالعاتی
نویسندگان : دکترابراهیم پورزرندی گلثوم اکبرپور (کارشناسی ارشد حسابداری) مقدمه امروزه سیستمهای سنتی در حال تبدیل شدن به سیستمهای اطالعاتی هستند؛ سیستم های اطالعاتی ،توانایی های موجود در تولید و جمع آوری داده ها را به سرعت افزایش داده است .نیاز به استفاده از فنون جدید برای تبدیل این داده ها به دانش افزایش یافته است. از طرف دیگرامروزه با حجم بزرگی از داده ها ،در حد مگا یا ترابایت ،مواجه هستیم . در تمامی منابع داده کاوی براین مطلب تاکید شده است .هر چه حجم داده ها بیشتر و روابط میان آنها پیچیده تر باشد دسترس ی به اطالعات نهفته در میان داده ها مشکلتر می شود و نقش داده کاوی به عنوان یکی از روشهای کشف دانش ،روشن تر می گردد. داده کاوی چیست؟ ()Data-mining داده کاوي فرآيند کشف رابطه ها ،الگوها و روندهاي جديد معني داري است که به بررس ي حجم وسيعي از اطالعات ذخيره شده در انبارهاي داده با فناوري هاي تشخيص الگو می پردازد. فرایند کلی داده کاوی مرحله اول :درک کسب و کار Business Understanding قبل از استفاده از رهیافت داده کاوی ،باید نسبت به موضع کسب و کار و اهداف آن شناخت جانبی پیدا کنیم. مرحله دوم :درک داده Data Understanding این مرحله در ارتباط با چگونگی تولید و جمع آوری داده ها میباشد.باید بدانیم در ارتباط با کاری که می خواهیم انجام دهیم داده ها را از کجا و چگونه به دست آوریم(.منابع داده ای )Data Resources در بعض ی مواقع به دست آوردن داده ها برای یک کار خاص ممکن است غير ممکن باشد چه از لحاظ زمان و چه از لحاظ هزینه .در این شرایط بهتر است که به مرحله قبل برگردیم و کاری که می خواستیم انجام دهیم و به بن بست رسیدیم را تغیير دهیم. مرحله سوم:آماده سازی داده ها Data preparation بعد از اینکه داده ها را به دست آوردیم حاال باید ببینیم کیفیت این داده ها چگونه است،چون بعض ی مواقع اعداد زیادند ولی کیفیت الزم را دارا نیستند.در این مرحله باید این اعداد آماده شوند؛تا در مرحله مدل سازی ،وقتی ما داده ها را به الگوریتمها می دهیم دچار مشکل نشویم. از جمله :تبدیل داده ها ،کاهش داده ها ،برطرف کردن نقاط پرت و... مرحله چهارم :مدل سازی Modeling در مدل سازی،نخستين گام،انتخاب تکنیکی است که می خواهیم مورد استفاده قرار دهیم. داده کاوی تکنیکهای مختلفی دارد از جمله : و -2تکنیکهای پیش بینی کننده -1تکنیکهای توصیف کننده که هر کدام از این تکنیکها الگوریتمهای زیادی دارند . مثال :الگوریتم درخت تصمیم از نوع تکنیکهای پیش بینی کننده است . دراین تحقیق از الگوریتم خوشه بندی استفاده می کنیم. مرحله پنجم :ارزیابی مدل Evaluation اطالعات استخراج شده با توجه به هدف کاربر تجزيه و تحليل و بهترين نتايج معين مي گردند.هدف ازاين مرحله تنها ارائه نتيجه (بصورت منطقي و يا نموداري) نيست،بلکه پااليش اطالعات ارايه شده به کاربر نيز از اهداف مهم اين مرحله است . وقتی نتایج را به دست می اورید از کل فرایند داده کاوی که تا اینجا انجام شده است ،یک ارزیابی انجام می شود.آیا ما به نتایج واهدافی که در مرحله اول تعریف کرده بودیم رسیدیم ؟آیا این سیستم را می توانید با %90اطمینان ،اجرا کنید؟ مرحله ششم :توسعه و گسترش Deployment ساختن مدل پایان پروژه نیست .حتی اگر کسب اطالعات بیشتر از داده ها هدف مدلسازی باشد ،اطالعات به دست آمده به سازماندهی و ارائه شدن نیازمندند؛ به نحوی که مشتری بتواند از آنها استفاده کند. کاربرد داده کاوی در بانکها در حوزه بانک داری داده های مالی جمع آوری شده ،اغلب شامل داده هایی نسبتا کامل ،قابل اطمینان و با کیفیت باال هستند ،به گونه ای که تحلیل داده ها و انجام فرآیند داده کاوی را تسهیل می نمایند. مهمترین خدمات قابل ارایه در حوزه بانک داری با استفاده از روش های داده کاوی: تحلیل اعتبار مشتریان؛ شناسایی فاکتورهای اصلی در ریسک بازپرداخت وام؛ دسته بندی و خوشه بندی مشتریان با توجه به رفتار مشابه آنها در زمینه بانک داری و بازپرداخت وام؛ تحلیل پاسخگویی مشتریان به ارائه خدمات جدید بانکی؛ شناسایی جرائم مالی؛ پيش بيني الگوهاي کالهبرداري از طريق کارتهاي اعتباري تشخيص مشتريان ثابت تعيين ميزان استفاده از کارتهاي اعتباري بر اساس گروههاي اجتماعي شناسایی و کشف جرائم و تقلب داده کاوی کنترلهای داخلی کنترلهای داخلی کالسیک کنترلهای داخلی در بانکها کنترلهای داخلی برمبنای IT (بانکداری الکترونیکی) کنترلهای داخلی امانت داری دربانکها را تقویت می کند. بانک امانت داری مشتری کارکنان چگونگی استفاده ازرویکرد داده کاوی در شناسایی کشف تقلب با پیشرفت تکنولوژی ،همانطور که سیستمهای اطالعاتی پشرفته می شوند ؛ رفتار متقلبان نيز تغیير می کند و به اصطالح دزدی ها نيز الکترونیکی شده اند و ما با متقلبان رایانه ای سروکار داریم ؛ که این موضوع ،کار بازرسان را سخت تر کرده است و در پیچیدگی و ابهامی که در حجم زیادی از داده ها وجود دارد نیاز به تکنیکهایی که خود بتواند با سرعت باال ،در میان داده ها جستجو کرده و در نهایت دانش ی استخراج کند که بتواند در تصمیم گيریها مؤثر باشد ،به شدت احساس می شود. نتایج و انتظارات هدف ما این است که به نوعی بتوانیم با استفاده از تکنیکهای داده کاوی ،به شناسائی کشف تقلب ها و جرائم مالی دست یابیم. باید ابتدا تقلب مورد نظر را مشخص کرد ؛ چون هر تقلب با تکنیکهای متفاوتی می تواند کشف شود .ما در این کار ،بریک تقلب خاص که در بانکها اتفاق می افتد ،تاکید کرده ایم . این تقلب در سرفصل درآمد بانک اتفاق می افتد و به این صورت است که کارمند احتمال دارد به جای اینکه درآمد بانک را به حساب مدیریت بانک انتقال دهد به حساب خود منتقل کند. در اسناد و مدارک مالی در هر شعبه بانک ،مبالغ بدهکار وجوه دریافتی از مشتریان از جمله :سود (دریافتی – دریافتنی آینده) ،وجوه التزام و کارمزد ،شکل خاص ی باید داشته باشند .این وجوه دریافتی بایستی حتما به حساب مدیریت شعبه منتقل شود و همچنين نوع سند آنها باید بين واحدی باشد. در غير این صورت ،اگر وجوه دریافتی بدهکار شوند می بایست یک اشتباه محاسباتی انجام شده که در اینجا نيز بایستی طرف حساب، حساب مشتری ای که از حساب او زیاد برداشته شده و نوع سند ،انتقالی باید باشد.همانطور که توضیح داده شد ،هر کدام از دو حالت ،پروسه خاص به خود را داراست .حال اگر این پروسه ها روال عادی خود را طی نکنند ،احتمال تقلب در اینجا وجود خواهد داشت. روش کشف تقلب به صورت سنتی در این موارد بازرسان ابتدا سراغ دفاتر کل می روند و کل مبالغ بدهکارو تاریخی که این مبالغ بدهکار شده اند را به همراه شماره سند حسابداری مربوط به آن را خارج می کنند .سپس تک تک اسناد را با تطبیق دادن نوع سند وطرف حساب چک می کنند و موارد مشکوک را بيرون میکشندو از مسئوالن بانک راجع به آنها نظرخواهی میکنند و در صورت قانع نشدن ،موارد را به عنوان تقلب اعالم خواهند کرد. کشف این تقلب خاص با استفاده از تکنیک داده کاوی پیاده سازی فرایند داده کاوی: Business Understanding مرحله اول :درک کسب و کار در این مرحله ما به طور کامل نسبت به اهدافمان آگاهی داریم و بررس ی های زیادی در این زمینه انجام داده ایم که مثال چه تقلبی را می خواهیم با استفاده از داده کاوی کشف کنیم و با استفاده از چه تکنیکی از داده کاوی. با تحقیقات انجام شده برروی تکنیکها و نرم افزارهای داده کاو ی به این نتیجه رسیدیم که تکنیک خوشه بندی( )Clusteringو نرم افزار Rapidminer برای این امر مفید خواهند بود. مرحله دوم :درک داده Data Understanding متناسب با هدفمان که در مرحله قبل تعیين کردیم ،اطالعات مربوط به حسابهای مشتری سرفصل درآمدی را از پایگاه داده سامانه بانک ملت به دست آوردیم. Data Preparation مرحله سوم :آماده سازی داده ما به صفاتی از داده های مالی سرفصل درآمدی به شرح زیر نیازمندیم: در اسناد حسابداری طرف حساب در یک سطر دیگر ثبت می شود و ما نیازداشتیم که همردیف با بقیه صفات بیاید تا بتواند به عنوان ورودی وارد نرم افزار شود .لذا این مشکل را با استفاده از برنامه نویس ی SQLبرطرف کردیم . مرحله چهارم :مدل سازی Modeling در مدلسازی،نخستين گام،انتخاب تکنیکی است که می خواهیم مورد استفاده قرار دهیم.در نزم افزار تعیين شده الگوریتم مربوط به خوشه بندی (با استفاده از روش )k-meanرا طراحی می کنیم . تعریف خوشه بندی: تحليل خوشه اي يكي از روشهاي آماري است كه در زمينه كاهش داده ها و پيدا كردن گروههاي واقعي مورد استفاده قرار مي گيرد .دسته بندي بر اساس مشابهت ها يا عدم مشابهت ها انجام مي شود .هدف از خوشه بندی این است که داده های موجود را به چند گروه تقسیم کرده و در این تقسیم بندی داده های گروه های مختلف باید حداکثر تفاوت ممکن را به هم داشته باشند و داده های موجود در یک گروه باید بسیار شبیه به هم باشند . مدل سازی الگوریتم خوشه بندی K-meanدر نرم افزار داده کاوی Rapidminer توجه داشته باشید که بایستی تعداد خوشه ها که در این الگوریتم به عنوان یک پارامرت آمده است باید قبل از اجرای الگوریتم مشخص شود و این مقدار را با چند بار اجرا کردن و دادن مقدارهای متفاوت و دیدن نتایج برای هر کدام ،می توان به دست اورد که کدام عدد برای تعداد خوشه ها مناسب است. اجرای نرم افزار و نتایج مدل در 4خوشه جزئیات خوشه ها بعد از تجزیه و تحلیل خوشه ها به نتایجی می رسیم که در جدول زیر آمده است: طرف حساب مبلغ بدهکار نوع سند تاریخ سند شماره سند 1312 798809 3 13870431 38 1332 597211 3 13870514 495 1335 460274 3 13860917 548 1393 25000000 3 13860625 563 1511 1941340 3 13880229 78 1511 1941340 3 13880229 78 1511 1941340 3 13880229 78 1521 3430135 3 13870811 466 1521 1197671 3 13880917 542 1521 788082 3 13881120 150 4853 191143483 3 13871224 537 4855 364523 3 13880524 239 5311 460591 3 13881026 285 مقایسه نتایج با مدل ساخته شده و نتایج دستی: در نتایج دستی عالوه بر نتایج اسالید قبل ،رکورد های با طرف حسابهای 1111و 4131نيز استخراج شده است و از نظر بازرسان و کارشناسان فن ممکن است مواردی مشکوک تلقی شوند که در نتایج برنامه نویس نیامده است .در تحلیل خوشه ای حتما باید یک کارشناس و کس ی که با داده ها آشنایی کامل دارد در مورد هر خوشه نظر دهد. تحلیل انحرافات و مغایرات در بررس ی خوشه ها ما مواردی را که فقط یک بار و یا حداکثر سه باردر هر خوشه تکرار شده بودند به عنوان نقاط مشکوک گزارش کردیم ؛و مواردی راکه بازرس ویژه به صورت دستی داده ها را بررس ی کرده از موارد به دست آمده در این تحقیق بیشتر می باشد.علت این مغایرت تجربه و دانش بازرسان در مورد موارد کشف انحراف می باشد مثال انها رکوردهایی را به عنوان تقلب اعالم کردند که هر کدام به تعداد زیادی در مجموع رکوردها تکرارشده بودند مثال طرف حساب 1111به تعداد 10بار تکرار شده و یا 4131به تعداد 11بار تکرار شده اند .همان طور که می دانیم تقلبها اصوال تعدادشان خیلی کم می باشد به خاطر همين رکوردهای اضافه تر در کشف دستی در کشف مکانيزه به عنوان رکورد مشکوک اعالم نشده بود. نتیجه گیری کلی: بعد از اجرای الگوریتم و ایجاد خوشه ها حتما باید یک کارشناس فن و کس ی که با داده ها و طرز رفتار آنها آشنایی کامل دارد به تجزیه و تحلیل خوشه ها بپردازد.پس اگر بازرسان وبه طور کلی حسابرسان ما با تکنیکهای داده کاوی اشنایی کامل داشته باشند و الگوریتمهای مربوط به عملیات کاریشان را خودشان مدل سازی کنند.در آینده ای نه چندان دور روزی خواهد رسید که قبل از اینکه تقلبی قصد انجام شدن را داشته باشد مدیران و حسابرسان داخلی بتوانند آنها را با استفاده از مدل های پیش بینی داده کاوی ،پیش بینی کنند. پیشنهادات با توجه به محدودیتهای زیادی که در انجام این پروژه با آن مواجه شدیم در کل می توان برای پیشبرد داده کاوی وتسهیل حسابرس ی پیشنهاداتی داد ،از جمله اینکه مهمتر از همه مدیران اجرایی بانکها به این مهم باید توجه الزم را داشته باشند که با وجود سیستم ذخيره داده ای که این روزها وجود دارد دسترس ی به داده های مورد نیاز خیلی سخت می باشد؛باید زیرساختها تقویت شود و بستر برای انجام تحقیقات بیشتر آماده گردد . ادامه پیشنهادات: همچنين آموزش بازرسان و حسابرسان داخلی بانک نکته مهم دیگری است که باید مد نظر قرار بگيرد. همچنين برای تحقیقات آینده ما می توانیم پیشنهاداتی ارائه دهیم: با استفاده از تکنیکهای داده کاوی ما می توانیم همه مراحل حسابرس ی مستقل را پیاده سازی کنیم.از جمله : در بررس ی های تحلیلی که یکی از مراحل حسابرس ی است ما می توانیم برای پیش بینی مانده حسابها از تکنیکهای پیش بینی داده کاوی استفاده کنیم. داده های مورد نیاز که به عنوان ورودی می توان در این امر استفاده کرد از جمله: معامالت حسابداری سالهای قبل نسبتهای تجاری نسبتهای صنعتی شاخص اقتصاد :منابع سازمان حسابرسی،1 اصول حسابرسی- [1] ،چاپ دوم،موسسه کتاب مهربان نشر، حسابرسی صورتهای مالی،1389 ،امیر، صفاریان-ناصر، مکارم-[2] تحلیل آماری چند متغییری کاربردی1388، دین، ویچرن. دبلیو، ریچارد،جانسون.- [3] [1]- Mieke Jans,Madine Lybaert,Koen Vanhoof(2010) ,“Internal fraud risk reduction ,Result of a case study”, International Journal of Accounting Information System,p 17-41 [2]- Mieke Jans,Madine Lybaert,Koen Vanhoof(2005) ,Data Mining for Fraud Detection: Toward an Improvement an Internal Control System? [3]- Mohd Shaari Abd Rahman(2008), ”Utilization of Data Mining Technology within the Accounting Information System in Public Sector : A Country Study-Malaysia” ,PHD,School of Accounting and Corporate Governance Faculty of Business , University of Tasmania [4]- Efstathios Kirkos,Charalambos Spathis,Yannis Manolopoulos(2007),”Data mining techniques for the detection of fraudulent financial statement”, Science Direct, p:995-1003 [5]- R.Brause,T.Langsdorf,M.Hepp(2006) ,”Neural Data mining for Credit Card Fraud Detection", ,J.W.Goethe-University,Frankfurt a.m.,Gesellschaftf.Zahlugssysteme GZS,Frankfurt a.m.,Germany [6]- V. Lee,K.Smith,R.Gayler(2005),” A Comprehensive Survey of Data Mining-based Fraud Detectio “,Research,Artificial Intelligence Review,arxiv.org [7]- Nakhaeizade Gholamreza(2008-2010),Tutorial Data Mining :Advance in Predictive Modeling and Unsupervised Learning [8]- www.statsoft.com /Fraud Detection با تشکر از توجه شما