DOI: http://dx.doi.org/10.22059/jitm.2015.51912
د ناوری اطلاعات دانشكدة مديريت دانشگاه تهران
دورة 6، شمارة 4 زمستان 1393 ص. 746- 721

شناسايي تقلب در كارت هاي بانكي با استفاده از شبكه هاي عصبي مصنوعي
مليحه وثوق1، محمدتقي تقويفرد2، محمود البرزي3
چكيده: هرچند آمار دقيقي از تقلب در كارت هاي بانكي معتبـرِ كشـور وجـود نـدارد، بـه نظـرمي رسد تقلب در كارت هاي بانكي روند رو به رشدي دارد و مي تواند در آيندة نـه چنـدان دور بـهيكي از معضلات سيستم بانكي كشور تبديل شود. متأسفانه هنوز در كشورمان تحقيقات مناسبي در اين خصوص صورت نگرفته و سيستم بانكي مدل يا مدل هايي كارا نياز دارد كه بتواند امنيت استفاده از كارت هاي بانكي را تضمين كند. لذا در اين پژوهش، پس از شناسايي انواع تقلب هاي رايج در زمينة كارت هاي بانكي و شبيه سازي تراكنش هاي متقلبانه، با بهره گيري از شـبكه هـايعصبي مصنوعي، مدلي براي طبقه بندي تراكنش ها به تراكنش هاي سالم و متقلبانـه (مشـكوكبه تقلب) ايجاد شد. اين مدل كه از نوع شبكة عصبي پرسپترون چندلايه است، علاوه بـر اينكـهمبتني بر سيستم بانكي داخلي كشور است، توانسته است با دقت 99درصد، عملكرد نسبتاً خـوبي در طبقه بندي مزبور داشته باشد. با مقايسة معيارهاي ارزيابي عملكرد محاسبه شدة اين پـژوهش و نتايج مدل هاي ارائه شده در مطالعات ديگر، مشخص شد معيارهاي ارزيابي عملكـرد پـژوهشحاضر از روايي و پايايي مناسبي برخوردارند.

واژه هاي كليدي: پرسپترون چندلايه، تقلب، شبكة عصبي، كارتهاي بانكي.

كارشناس ارشد مديريت فناوري اطلاعات، دانشگاه آزاد اسلامي، واحد علوم و تحقيقات، تهران، ايران
استاديار گروه مديريت صنعتي، دانشگاه علامه طباطبائي، تهران، ايران
استاديار گروه مديريت صنعتي، دانشگاه آزاد اسلامي، واحد علوم و تحقيقات، تهران، ايران

تاريخ دريافت مقاله: 06/07/1392 تاريخ پذيرش نهايي مقاله: 08/04/1393 نويسندة مسئول مقاله: مليحه وثوق E-mail: m.vosough@cbi.ir
مقدمه
طي دهه هاي اخير، اهميت تجارت الكترونيك1 به طور چشمگيري افزايش يافته و همچنان رو بـهافزايش است. امروزه استفاده از تجارت الكترونيك و سرويس هـاي ارتبـاطي و اطلاعـاتي بـرايدسترسي بهتر و بيشتر مشتريان، به طـور فزاينـده اي رواج يافتـه اسـت . بسـياري از شـركت هـا ومؤسسه ها بخشي از كسبوكار خود (يا تمامي آن ) را بـه سـمت خـدمات بـرخط2 سـوق داده انـد . صنعت بانكداري نيز از اين فناوري ها بي بهـره نمانـده اسـت و بـا ايجـاد خـدمات الكترونيكـي و نظام هاي پرداخت3، موجب كاهش تعاملات فيزيكي در محيط اداري بانك هـا شـده و اسـتفاده ازخدمات بانك ها را به سمت منازل و محيط كار افراد سوق داده است. يكي از خدمات بانـك هـايايراني در سال هاي اخير كه با استقبال زياد مشتريان بانك ها روبهرو شد، اسـتفاده از كـارت هـايبانكي در سطوح گسترده اي از تعاملات تجاري است.
هرچند تحولات يادشده گامي بزرگ در جهت كارايي، سهولت دسترسـي و سـودآوري اسـت ، معايبي نيز دارد كه مهم ترين آنها آسـيبپـذيري نسـبت بـه تهديدهاسـت؛ چـرا كـه بسـياري ازتخلف هاي نظام بانكي و فعاليت هاي متقلبانه، به سيستم هاي بانكداري الكترونيكي بـ ازمي گـردد .
كارت هاي بانكي، يكي از دلايل عمدة رشد بانكداري الكترونيك، اكنون به پراستفاده تـرين ابـزاربانكداري تبديل شده است، لذا بخش عمدهاي از فعاليتهاي متقلبانه، معطوف به تراكنش با ايـنكارت هاست. لذا بخش عمده اي از فعاليتهاي متقلبانه، معطوف به تراكنش با اين كـارتها سـت.
اشخاص حقوقي، حقيقي و همچنين بانكها، سالانه مبالغ هنگفتي را به واسطة تقلـب و متقلبـانياز دست مي دهند كه دائم به دنبال راه هاي جديدي براي اقـدامات غيرقـانوني بـا اسـتفاده از ايـنكارت ها هستند. نتايج پژوهشي در حوزة اتحادية اروپا نشان داد، از سال 2001 تا 2009 با وجـودتمهيدات مختلف و بودجه هاي هزينه شده براي جلوگيري از تقلب در كارت هاي بانكي، همگام بـا
افزايش تعداد كارت ها و حجم تراكنش هاي بانكي با استفاده از آنها، ميزان تقلب ها نيز از حدود 3 ميليارد يورو به حدود 5 ميليارد يورو افزايش يافته است و پيش بيني شده است كه اين رقم تا سال
2015 به 10 ميليارد يورو برسد (گولاپالي، كالي و ويجي، 2012).
يكي از حساس ترين، چالش برانگيزترين و دشوارترين وظايف بانك هـا، بـه ويـژه بانـك هـايمركزي، نظارت بر صحت و سلامت تراكنش هاي انجام گرفته روي حسـاب هـا، بـهمنظـور حفـظامنيت مشتريان بانك ها و همچنين خود بانك ها است. از اين رو ايجاد سيستمي توسط بانك ها و
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
e-Commerce
Online
Payment Systems
بانك مركزي ـ كه ناظر بر عملكرد نظـام هـاي پرداخـت باشـد ـ بـه منظـور شناسـايي تقلـب درتراكنش هاي موجود در كـارت هـاي بـانكي، ضـروري بـه نظـر مـي رسـد . يكـي از اصـلي تـرينزيرساخت هاي ايجاد چنين سيستمي، تدوين روشي مناسب براي شناسـايي الگوهـاي موجـود در تراكنشها و تعيين تراكنشهاي غير عادي (مشكوك به تقلب) است.
با توجه به حجم گستردة تراكنش هاي بانكي روزانه و نياز به تشخيص بـه موقـع تقلـب هـا وجلوگيري از وقوع آنها، درعمل شناسايي دستي امكان پذير نيست و مستلزم صرف زمان و نيـرويانساني بسياري خواهد بود. لذا مهم ترين ضرورت، ايجاد روشـي مناسـب بـراي شناسـايي تقلـب، شناسايي رايانه اي دقيق و سريع تقلب هاي صورت پذيرفتـه در تـراكنش هـاي بـانكيِ مبتنـي بـركارت هاي بانكي است.
بيان مسئله
تا كنون در سيستم بانكي كشور سازوكار و برنامة جامعي براي شناسايي و جلوگيري از تقلب هاي مربوط به تراكنش هاي مبتني بر كارت وجود نداشته است (نوبرزاد، 1391؛ حاتميراد و شهرياري، 1390) ؛ به طوري كه اغلب به دليل نداشتن سيستم مناسـب ، تقلـب هـاي زيـادي ناشـناخته بـاقيمانده اند. در ساير كشورها نيز به دليل گستردگي استفاده از كـارت هـاي اعتبـاري1، پـژوهش هـاي انجام گرفته به طور عمده بر اين كارت ها تمركز كرده اند؛ در حاليكه استفاده از اين نوع كارت ها در كشورمان هنوز رواج پيدا نكرده است و كمابيش همة تراكنش هاي به وسـيلة كـارت هـاي نقـدي(ازپيش پرداخت شده2) صورت مـي گيـرد . همچنـين بـا توجـه بـه ملاحظـات امنيتـي، مطالعـات صورت گرفته بهطور كامل منتشر نمي شوند و نمي توان از آنها بهرهاي برد. بنابراين بهـره گيـري ازمدل هاي طراحي شده در ادبيات ساير كشورها چندان مقدور نيست. كارت هاي بانكي كه يكـي ازدلايل عمدة رشد بانكداري الكترونيك محسوب مي شود، اكنون به پراستفاده ترين ابزار بانكـداري
تبديل شده است، لذا بخـش عمـده اي از فعاليـت هـاي متقلبانـه معطـوف بـه تـراكنش بـا ايـنكارت هاست. با توجه به حجم گستردة تراكنش هاي بانكي روزانه و نيـاز بـه تشـخيص بـه موقـعتقلب ها و جلوگيري از وقوع آنها، درعمل شناسايي دستي امكانپذير نيست و مستلزم صرف زمان و نيروي انساني بسياري خواهد بود. بنابراين با توجه به نبود سازوكاري براي شناسـايي تقلـب دركارت هاي سيستم بانكي كشور، مسئلة اصلي اين پژوهش، ايجاد چارچوبي براي شناسايي تقلـبدر كارت هاي بانكي، هنگام تراكنش يا به فاصلة كوتاهي پس از آن است. بـدين منظـور از روششبكة عصبي مصنوعي استفاده شده است. بيشترين دليل استفاده از شـبكه هـاي عصـبي، وجـود
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Credit Card
Prepaid
مسائل بسيار زياد حل نشدني توسط الگوريتم هاي حل مدلهاي غيرخطي است. مزيت اسـتفاده ازشبكة عصبي اين است كه محقق نيازي به دانستن نوع ارتباط بين متغيرهاي مسـتقل و وابسـتهندارد (طلوعي اشلقي و حق دوست، 1386). استفاده از كارت توسط مشتري مشـخص ، معمـولاً ازالگوهاي مشخصي تبعيت مي كند كه شبكة عصبي با استفاده از بازشناسي الگو مي تواند شناسايي اين الگوها و تقلب هاي مربوط به آن را امكان پذير كند (پاتيدار و شـارما، 2011). بنـابراين سـؤالاصلي پژوهش حاضر اين گونه مطرح مي شود، چگونه مي توان با اسـتفاده از شـبكه هـاي عصـبيمصنوعي و با توجه به تقلب هاي شناخته شدة پيشين، تراكنش هاي متقلبانه را شناسايي كرد.
پيشينة پژوهش پيشينة نظري
در مقاله ها و منابع علمي، تقلب در كارت هاي بانكي به روش هاي گوناگوني تعريف شده است كه چكيدة اين تعاريف را مي توان اينگونه جمعبندي كرد: تقلب در كارت هاي بانكي به كلاهبرداري يا تقلب به وسيلة كارت بانكي يا هرگونه سازوكار پرداخت مشـابه اطـلاق مـي شـود كـه از منبـعمتقلبانه در تراكنش انجام مي شود (دلامير، عبدو و پوينتون، 2009؛ پاتيدار و شـارما، 2011؛ فـوا،لي، اسميت و گايلر، 2010).
به دليل كمبودهاي امنيتي سيستم پردازش كارت هـاي بـانكي مرسـوم، تقلـب در آن هـا رونـدافزايشي دارد و سالانه ميلياردها دلار از دست ميرود. تقلب در كارتهاي بانكي به يكي از منـابعجذاب كسب درآمد بـراي مجرمـان تبـديل شـده اسـت. مجرمـان روش هـاي بسـيار پيچيـده وماهرانه اي دارند و در سراسر جهان فعاليت مي كنند. به همين دليل مسئلة تقلب براي بانـك هـا و مؤسسهها اهميت ويژهاي دارد (نصيري و مينـايي، 1389). پيشـگيري و شناسـايي تقلـب بخـشمهمي از مديريت ريسك در بانك ها است. هدف از شناسايي سريع تقلـب، متوقـف كـردن آن در كوتاه ترين فاصـلة زمـاني ممكـن پـس از رخدادن اسـت . برخـي از انـواع تقلـب كـه تـا كنـونشناسايي شده، شامل تقلب هاي فروشنده (تباني فروشنده1، تقلب سه جانبه2)، تقلب هـاي اينترنتـي (شبيه سازي سايت، سـايت فروشـندة دروغـين، توليدكننـده هـاي كـارت اعتبـاري3، فيشـينگ 4)، كارت هاي گم شده يا ربوده شده، در اختيار گرفتن حساب، بدون استفاده از كارت، دريافـتنكـردن
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Merchant Collusion
Triangulation
Credit Card Generators
Phishing
كارت، جست وجو در سطل زباله، كارتهاي جعلي (پـاك كـردن نـوار مغناطيسـي1، ايجـاد كـارتتقلبي، ضبط كردن2، كارت سـفيد )، سـرقت پسـتي، افشـاي اطلاعـات در محـل كـار يـا منـزل،شبكه هـاي اجتمـاعي، تقلـب ورشكسـتگي3، تقلـب در دسـتگاه هـاي خـودپرداز ( حلقـة لبنـاني4، دست خواني5) و غصبكردن6 (دلامير، عبـدو و پوينتـون، 2009؛ پـاش، 2008؛ پاتيـدار و شـارما،2011؛ ساخارووا، 2012) است. بهطور مسلم روش هاي تقلب به موارد اشارهشده محدود نميشـودو متخلفان از روش هاي ديگري نيز استفاده مي كننـد . هرچـه تمهيـدات امنيتـي بانـك هـا بـرايجلوگيري از تقلب افزايش مي يابد، متقلبان روش هاي جديدتري به كار ميبرند. نكتة مثبت اينكـهتقلب معمولاً با الگوهاي مشخصي صورت مي پذيرد كه امكان شناسايي اين الگوها و تقلـب هـايمربوط به آن الگوها وجود دارد.
پيشينة تجربي
هرچند شناسايي تقلب آسان نيست، روش هاي گوناگوني براي شناسايي تقلب كارت هـاي بـانكي بهكار گرفته مي شود. اغلب روش هاي استفاده شده در ادبيات موضوع، مبتني بر داده كـاوي اسـت.
روش هاي داده كاوي به عنوان يكي از اصلي ترين ابزارهاي شناسايي تقلب در كـارت هـاي بـانكياستفاده مي شـود (بـولتن و هنـد، 2002). داده كـاوي، فراينـد كشـف روابـط ناشـناخته و الگـويدرون داده هاست، درواقع فعاليتي است كه به طور اساسي با آمار و تحليل دقيق داده ها انطباق دارد (آذر، احمدي و سبط، 1389). هرچه حجم داده ها بيشـتر و روابـط ميـان آنهـا پيچيـدهتـر باشـد،دسترسي به اطلاعات نهفته در داده ها مشكل تر مي شود، لذا نقـش داده كـاوي بـه مثابـة يكـي ازروش هاي كشف دانش، روشن تر مي شود (شهرابي، 1392).
راهبردهاي كلان مسائل شناسايي تقلب در حوزة كارت هاي بانكي را نيز مي توان منطبـق بـا راهبردهاي داده كاوي دانست. دو راهبرد كلان براي فراينـد داده كـاوي وجـود دار د: 1. يـادگيرينظارت شده7 و 2. يادگيري نظارت نشده8. روش هاي نظارت شده، از يك پايگاه داده شـامل مـواردمتقلبانه و غيرمتقلبانة ساختاريافته استفاده مي كنند و در موارد جديد مشـكوك بـه تقلـب بـه كـارمي روند. يادگيري نظارت شده از داده هاي گذشته ياد مي گيرد و دانـش آموختـه شـده را در مـوارد
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Erasing the magnetic Stripe
Skimming
Bankruptcy Fraud
Lebanese Loop
Shoulder Surfing
Imposters
Supervised Learning
Unsupervised Learning
بعدي به كار مي برد. اين فرايند تلاش مي كنـد الگوهـاي از پـيش تعريـف شـدة معـين از فعاليـتتراكنش هايي را شناسايي كند كه براي مطابقت دادن با فعاليت هاي متقلبانه به كار مي روند.
در روش نظارت نشده، سيستم بدون در اختيارداشتن داده هاي خروجي و بدون كمك خارجي، درستي يا نادرستي سيگنال هاي خروجي خود را مشخص مي كند (پاش، 2008: 25). بلتن و هنـددر سال 2002 روش ها و مدل هاي استفاده شده براي كشف تقلب را بررسي كردند. آنها مدل هاي كشف تقلب در حوزة كارت هاي اعتباري را با دو رويكرد نظارت شده و نظـارتنشـده طبقـه بنـديكردند و براي كشف تقلب در كارت هاي بانكي، روش خوشه بندي را بهكار بردند. بـه كمـك ايـنروش، حساب هايي كه در يك بازة زماني مشخص الگوي رفتاري متفاوتي از خود نشان مي دهند، شناسايي مي شوند (بولتن و هند، 2002).
درخت هاي تصميم گيري، يكي از روش هاي داده كاوي با قابليت فهم زياد و سـرعت مناسـبدر يادگيري الگو است (البرزي، محمدپورزرندي و خان بابايي، 1389). فان و همكارانش به منظـوربنا كردن يك سيستم شناسايي سرزده براي انواع تقلب، روي درخت هاي تصميم به ويـژه درخـتتصميم استقرايي1 كار كردند (فنَ، ميلر، استولفو، لي و چان، 2004). همچنين شـن و همكـارانش علاوهبر ساير چارچوب هاي ارائهشده، درخت تصميم را نيز آزمودند و بـا سـاير مطالعـات مقايسـهكردند (شن، تنُگ و دنگ، 2007). درخت تصميم يكي از روشهاي طبقه بندي است. هر تراكنش داراي مجموعه مشخصاتي است كه بر اساس مقادير آنها، تراكنش به يك طبقه تعلق مـي گيـرد،پس هدف از طبقه بندي، ساختن تابعي است كه هر تراكنش را بر اساس مقادير مشخصـاتش بـهيكي از چندين گروه از پيش تعيين شده، نگاشت كند. در پـژوهش ديگـري كـه روي پورتفوليـويبزرگ بانكي و به منظور تعيين تقلب در كارت هاي اعتباري ايتاليـا صـورت گرفتـه، از روش هـايآماري استفاده شده است (پولينا و پابا، 2010). روش هاي آماري برمبناي اين فـرض اساسـي بنـا شدهاند كه »احتمال رخداد داده هاي نمونة نرمال در يك مدل تصادفي، بيشـتر از احتمـال رخـداد دادههاي نمونة غير نرمال است«. بيشتر روش هاي آماري شناسـايي تقلـب، يـك مـدل احتمـال توزيع داده اي ميسازند و آن را براي هر تراكنش ارزيابي مـي كننـد. درنتيجـه تـراكنشهـاي بـااحتمال كم غير نرمال هستند (نصيري و مينايي، 1389). پژوهشي ديگر، مدل ماركف مخفـي 2 را بهكار برده است كه در آن تراكنش هاي كارت اعتباري با استفاده از اين مدل آزمون شـده اسـت؛ بهطوري كه اگر با احتمال زياد پذيرفته نشود، تقلب محسوب ميشود (سريواستاوا، كنُدو و سورال، 2008). لئونارد از سيستم خبرة مبتني بر قوانين، براي شناسايي تقلب كارت اعتباري استفاده كرده
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Induction
Hidden Markov Model
است (لئونارد، 1995). پژوهشي ديگر، دو نظرية داده كـاوي پيشـرفتة ماشـين بـردار پشـتيبان1 و جنگل هاي تصادفي2 را با استفاده از رگرسيون لجستيك3 ارزيابي كرده است. پـژوهش مزبـور بـراساس داده هاي واقعي تراكنش هاي بين المللي كارت اعتباري انجـام گرفتـه اسـت (باتاچاريـا، ژا،ثاراكونل و وستلند، 2011). در سال 2011 مدلي مبتني بـر قـوانين بـراي شناسـايي و مقابلـه بـاتراكنش هاي متقلبانه (براي تقلب هاي بدون استفاده از كارت) در سيستمهاي پرداخت الكترونيكي ارائه شده است. در اين روش، با تعريف الگـوريتم يـادگيري مبتنـي بـر قـوانين، بـه طبقـهبنـديتراكنش ها به تراكنشهاي »سالم« و »متقلبانه« پرداخته شده است (الخطيب، 2011).
استفاده از شبكه هاي عصبي مصنوعي براي طبقه بندي در بسياري از زمينه ها، كاربرد فراواني دارد كه يكي از ويژگي هاي آنها، خاصيت يادگيري نظارت نشـده اسـت (قاسـمي و اصـغري زاده، 1393). شبكه هاي عصبي مصنوعي نيز يكي از روش هايي اسـت كـه بـراي شناسـايي تقلـب دركارت هاي بانكي استفاده مي شود. برتري شبكه هاي عصبي نسبت به روش هاي ديگر ايـن اسـتكه مي تواند از تراكنش هاي گذشته بياموزد و بـا گذشـت زمـان نتـايج را بهبـود دهـد. همچنـين ميتواند قوانين را استخراج كند و رفتار آينده را براساس وضعيت فعلي پيش بيني كند (نصـيري ومينايي، 1389). آگوئلكا برنامة شبكة عصبي مصنوعي كاربردي اي براي خوشه بندي طراحي كرد، اين برنامه ميتواند از حجم بزرگي از دادههاي تراكنشها استفاده كند. در پژوهش مزبور از چهـارخوشة با ريسك زياد، متوسط، پايين و كم ريسك شده است استفاده شده است، به اين شكل كـهتراكنش هاي پردازش شده در يكي از اين خوشهها قرار خواهد گرفت، چنانچه تـراكنش مشـكوكباشد به پايگاه داده بر مي گردد (آگوئلكا، 2011). در پژوهشـي ديگـر، از شـبك ة عصـبيP-RCE به منظ ور شناس ايي تقل ب در ك ارت ه اي اعتب اري اس تفاده ش ده اس ت. P-RCE يك ي از زيرمجموعه هاي شبكه هاي توابع پاية شعاعي4 است، شبكة پس انتشار5 سه لايه دارد و بـهمنظـورشناسايي الگوها بهكار ميرود. هدف اين محققان، رسيدن به شبكة آموزش ديده اي بود كه بتوانـد ب ه تقلب ها امتياز دهد و تراكنش هاي كارت اعتباري را رتبـه بنـدي كنـد (قـوش و رايلـي، 1994:
623). پاتيدار و شارما نيز مطالعات خود را در زمينة شناسايي تراكنش هاي متقلبانة كارت اعتباري با استفاده از شبكههاي عصبي و الگوريتم ژنتيك انجام دادند (پاتيدار و شارما، 2011).

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Support Vector Machine
Random Forests
Logistic Regression
Radial Basis FunctionNetworks
Feed Forward Network
تمام روش هاي شناسايي تقلب در كارتهاي اعتباري منحصر به روش هاي داده كاوي نيسـتو روشهاي ابتكاري ديگري نيز در نوشتارهاي علمي براي شناسايي تقلب در كارت هاي اعتباري استفاده شده است. براي مثال، بنتلي و همكاران نيز از دو روش الگوريتم ژنتيك و منطـق فـازياستفاده كردند. هدف آنها ايجاد قوانين منطقي مناسب بـراي طبقـه بنـدي تـراكنش هـاي كـارتاعتباري به طبقه هاي مشكوك و غيرمشكوك با استفاده از روش فازي دارويني بوده است. اساساً اين روش فرايند امتيازدهي را دنبال ميكند. در آزمايش شرح داده شده در ايـن پـژوهش ، پايگـاهداده از 4000 تراكنش با 62 فيلد ساخته شده است و انواع مختلـف قـوانين بـه وسـيلة فيلـدهايمتفاوتي آزمايش شده اند. آنها معتقد بودند بهترين قانون، قانوني است كه بالاترين پـيش بينـي راانجام دهد (بنِتلي، كـيم، جوانـگ و چـوي، 2000). همچنـين چـان و همكـارانش الگـوريتمي رابه منظور پيش بيني رفتار مشكوك ايجاد كردند. در حاليكه مطالعـات ديگـر از ارزيـابي مبتنـي بـر درصد پيش بيني، درصد مثبت درست و درصد منفي نادرست استفاده مي كنند، اساس اين پژوهش ارزيابي بـ ه كمـك مـدل هزينـه اسـت (چـان، فـَن، پرودروميـديس و اسـتولفو، 1999). گـادي وهمكارانش از جست وجوي جامع و الگوريتم ژنتيك براي انتخاب مجموعه پارامترهـاي بهينـه اي استفاده كردند كه هزينة تقلب براي پايگاه دادة كارت اعتباري توسط صادركنندگان كارت برزيلي را كمينه كند (گادي، وانگ، پِرِيرا و لاگو، 2008). نوبرزاد نيز در پاياننامة كارشناسي ارشد خود، از روش جستوجوي پراكنده و الگوريتم ژنتيك براي شناسايي تقلب در كارت هاي بـانكي اسـتفادهكرد (نوبرزاد، 1391).
روش هاي ديگري نيز براي شناسايي تقلب كارت اعتباري استفاده شده است، از جمله نظريـةدمپستر ـ شفر، نظرية يادگيري بيزين1 (پانيگراهي، كنُدو، سورال و مجومدار، 2009) و پيونـدزني2 (كنُدو، پانيگراهي، سورال و مجومدار، 2009؛ هوانگ، توفيق و نگَـَر، 2010؛ كريفكـو، 2010). در مطالعة ديگري محقر و همكارانش، روش هاي كشف تقلب در بانكـداري را بـه دو دسـتة اصـليِ»روش هاي آماري« و »روش هاي هوش مصنوعي« تقسيم كردند و به بررسي امكان اسـتفاده ازروش مبتني بر هوش كسب و كار پرداختند (محقر، لوكس، حسيني و منشي، 1387). در دسته بندي اين روش ها، مرزبندي چندان دقيقي وجود ندارد؛ چرا كه هريك از اين روش هـا فقـط شـكلي ازيك روش علمي است و برخي از آن ها ميتوانند بـه يكـديگر تبـديل شـوند. يـادآوري مـيشـود ، هيچ يك از اين روش ها به تنهايي نميتوانند تقلب را حذف كنند، درواقع هـر روش توانـايي يـكسيستم را در شناسايي تقلب افزايش مي دهد.
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Bayesian Learning
Hybridization
مدل مفهومي
مدل مفهومي، توصيف غيرنرم افزاري خاصي از مدل اسـت كـه اهـداف، ورودي هـا، خروجـي هـا،محتوي و فرضيه هاي مدل را تشريح مي كند (رابينسون، 2004: 63-74). به طور خلاصه پـس ازتعيين هدف اصلي پژوهش با عنوان ايجاد مدلي با قابليت اطمينان مناسـب بـه منظـور شناسـاييتقلب در كارت هاي بانكي، نحوة جمع آوري، پردازش و آمـاده سـازي داده هـا بـراي ايجـاد مـدل،تشريح مي شود و داده هاي تقلب (تراكنش هاي متقلبانه يا مشكوك به تقلب) كه به كمـك دانـشخبرگان و ادبيات موضوع شبيه سازي شده اسـت، بـراي مـدلسـازي آمـاده خواهـد شـد . سـپسمتغيرهاي مستقل و وابستة مدل تعيين مي شوند و در مدل شـبك ة عصـبي پرسـپترون چندلايـه، به منزلة مدل اصلي پژوهش براي طبقه بندي تراكنش ها به »سالم« و »متقلبانه يـا مشـكوك بـهتقلب« وارد خواهند شد.
با استفاده از درصدي از داده ها به صورت تصادفي، مدل شـبك ة عصـبي پرسـپترون چندلايـهآموزش داده شد و مشخصات شبكة عصبي شناسايي تقلب در كارت هاي بـانكي بـه دسـت آمـد.
شكل 1، مدل مفهومي پژوهش حاضر را در قالب نمودار جريان منطقي نمايش مي دهد.

شكل 1. مدل مفهومي پژوهش
روش شناسي پژوهش
در اين بخش به چگونگي جمع آوري اطلاعات پژوهش، تشريح و بررسي كيفيـت داده هـا، نحـوة انتخاب داده ها براي تدوين چارچوب و پاكسازي داده ها پرداخته مي شود و پس از ايجاد داده هـايمتقلبانه (مشكوك به تقلب) ، به طراحي چارچوبي براي شناسايي تقلب در كارتهاي بانكي اقـدامخواهد شد.
جمعآوري و آمادهسازي دادهها
داده هاي اصلي پژوهش از تراكنش هـاي ثبـت شـدة كـارت هـاي بـانكي در پايگـاه دادة يكـ ي از بانك هاي غيردولتي داخلي با رعايت ملاحظات اخلاقي و با اخذ مجوز از آن بانك، به دست آمد و از آن براي طراحي چارچوب شناسايي تقلب در كارتهاي بانكي بهره جويي شد. لذا تراكنش هـايحدود 120 هزار كارت در بازة زماني تقريبي دو سال از تاريخ افتتاح بانك يادشده با حدود بيش از 10 ميليون تراكنش استخراج شده است. با توجه به تعدد فيلـدهاي اطلاعـاتي و كـاربردي نبـودنبرخي از آنها براي اين پژوهش، پس از تحليل آنها ب هكمك خبرگان و در نظرگـرفتن تقلـبهـايصورت گرفته و شناسايي فيلدهاي تحت تأثير تقلب هاي مختلـف، پارامترهـاي مـؤثر در طراحـيچارچوب پژوهش استخراج شد و فيلدهاي ناكارا از پايگاه اطلاعاتي كنار گذاشته شد.
بهدليل حجم زياد داده هاي ذخيرهشده در پايگاه اطلاعاتي بانك (حدود 10 ميليون تـراكنش ) و محدوديت نرم افزارها در پردازش حجم زياد داده ها، تعدادي از مجموعه تراكنش هاي ذكرشـده،نماينده هايي از كل تراكنش هاي موجود در نظر گرفته شـدند . بـدين ترتيـب درنهايـت 111,349 تعداد تراكنش مختص به 641 دارندة كارت براي ادامة پژوهش در نظر گرفتـه شـد. گـروه هـايهدف يا كارت هايي كه در معرض ريسك بيشتري قرار دارند و پتانسيل سوء استفاده از آنهـا زيـاداست، متشكل از سه گروه تراكنش زير است:
گ روه 1: ب ه ت راكنشه اي 120 ك ارتي اختص اص دارد ك ه از لح اظ حج م ت راكنش،پرتراكنش ترين كارت ها هستند. در مجمـوع 78,313 ركـورد در گـروه اول جـاي گرفـت. دليـلانتخاب اين گروه قرار داشتن در معرض ريسك بيشتر بوده است.
گروه 2: به تراكنش هاي 371 كارتي اختصاص دارد كـه از لحـاظ حجـم تـراكنش در گـروهكم تراكنش ترين كارت ها قرار دارند. در مجموع 6012 ركورد در گروه دوم جاي گرفت كه اغلـبآنها مختص به كارت هاي صادر شده بـراي افـراد مسـن و سـالخورده اسـت كـه تـراكنش هـايمحدودي انجام ميدهند.
گروه 3: تراكنش هاي مربوط به 150 كارتي است كه بهصـورت تصـادفي انتخـاب شـدند. در مجموع براي گروه سوم 27,024 ركورد بـا اسـتفاده از توزيـع برنـولي بـا احتمـال 3/0 درصـد از تراكنشهايي كه در گروههاي قبلي جاي ندارند، به دست آمده است.
همان طور كه اشاره شد، گروه هاي اول و دوم، گروه هايي هستند كه متقلبان بيشـتر بـه آنهـاتوجه مي كنند و گروه سوم، بخشي تصادفي از ساير كا رتهاي موجود است.
از آنجاكه براي اين پژوهش داده هاي متقلبانه وجود ندارد، با بهره گيري از دو منبع مصاحبه و ادبيات موضوع، اقدام به ايجاد داده هاي متقلبانه براي استفاده در مدل سازي شد. فوا و همكارانش اعتقاد دارند كه داده هاي مصنوعي مي توانند يك سيستم را آموزش دهند. انواع مختلف تقلبهاي شناختهشده و جديد را مي توان به صورت مصنوعي ايجاد كرد (فوا، لي، اسميت و گايلر، 2005). از اين رو سازوكار تهية تراكنش هاي مشكوك به تقلب در اين پژوهش، از طريـق اعمـال تغييـرات معنا دار روي داده هاي گردآوري شده از طريق پرونده هاي موجود درخصوص تراكنش هاي متقلبانه يا موارد مشكوك گزارش شده، مصاحبه با كارشناسان، خبرگان و صاحبنظران، ادبيات موضوع در خصوص تقلب هاي ممكن در كارت هاي بانكي و همچنين تحليل و شبيه سـازي اطلاعـات بـودهاست. درمجموع حدود 2/0 درصد (212 تراكنش) از كل داده هاي استفادهشده در اين پـژوهش را داده هاي تقلب تشكيل داده است.
متغيرهاي مدل
متغيرهاي ورودي شبكة عصبي شامل 15 متغير مستقلي است كه در تعيين رفتـار دارنـدة كـارتنقش دارند. براي متغير خروجي در سيستم نيز يك پارامتر تعيين شده است. 15 متغيـر ورودي را فيلدهاي اطلاعاتي منتخب از ميان تمامي فيلدهاي مربوط به تراكنش هاي ثبت شـده در سيسـتمبانكي تشكيل مي دهند. اين فيلدها از انواع مختلفي مانند عددي، رشته اي، تـاريخ، زمـان و غيـرههستند كه براي تبديل به متغيرهاي قابل استفاده در مدل سازي بايد به نوع عددي تبديل شـوند .
لذا براي هر يك از متغيرها، روشي لحاظ شد تا به نوع عددي تبديل شود.
متغير وابستة مدل (Fraud-Detector)، به شكل يـك متغيـر طبقـه اي تعريـف شـده اسـت؛ به صورتي كه اين متغير با پردازش متغيرهـاي مسـتقل، يكـي از مقـادير »سـالم « يـا »متقلبانـه(مشكوك به تقلب)« را به خود مي گيرد. از آنجا كه براي ايجاد مدل هاي پژوهش حاضـر مقـاديرعددي استفاده مي شود، براي تراكنش هاي سالم مقدار متغير وابسته صفر ( طبقـة منفـي ) و بـرايتراكنش هاي متقلبانه (يا مشكوك به تقلب)، مقدار يك (طبقة مثبـت ) لحـاظ شـده اسـت ؛ بـدينترتيب مقادير رشته اي ذكرشده به عدد تبديل شدند.
ايجاد مدل شبكة عصبي پرسپترون چندلايه
اغلب محققان شبكه هاي عصبي چندلاية پيشخور، بـه ويـژه شـبكه هـاي پرسـپترون چندلايـه را تقريب زننده هاي جهاني معرفي مي كنند و معتقدند اين شبكه هـا در صـورت وجـود لايـه و تعـدادنورون كافي در لايه هاي خود، مي توانند هر نگاشت غير خطي را با هر تقريب دلخواه برآورد كنند.
شبكه هاي زيادي براي استفاده در طبقه بندي و پيش بيني پيشنهاد شده اسـت ، ولـي ايـن شـبكهيكي از موفق ترين شبكههاي طبقهبندي و پيشبيني است (نوريگا، 2005). لذا در اين پژوهش از اين نوع شبكة عصبي مصنوعي براي طبقه بندي تراكنش ها به طبقات سـالم و متقلبانـه اسـتفادهشده است. شبكة پرسپترون از قاعدة »پس انتشار خطا1« استفاده ميكند كه الگوريتم تعميم يافتـة »حداقل مربعات خطا« است. شبكه هاي پرسپترون به دو نوع تكلايه و چندلايه تقسيم ميشوند. در نوع چندلايه كه تعميم نوع تك لايه است، هر نورون در هر لايه به تمام نورون هاي لاية قبل، متصل است.
براي ايجاد شبكة عصبي پرسپترون چندلايه به منظور شناسايي تقلب در كـارت هـاي بـانكي،پس از آزمايش حالت هاي مختلف ايجادشده براي شبكة عصبي (تعداد لايه هاي مختلـف، تعـدادگره هاي مختلف در هر لايه و توابع تبديل مختلف) ، بهترين حالت انتخاب شده است. اين كار بـامقايسة ميانگين مربعات خطا (MSE)2 در هريـك از حـالات و در نظـر گـرفتن اصـل امسـاك3 به كمك نرم افزار انجام گرفته است. شبكة مد نظر بايد بتواند متغيرهاي مستقل را دريافت كنـد و پس از پردازش آنها با استفاده از قابليت بازشناسي الگـو 4، مقـدار متغيـر وابسـته (مقـدار يكـي ازطبقات) را برآورد كند. در طراحي شبكة عصبي، از متغيرهاي مستقل و وابستة پيش گفته اسـتفادهشده است؛ به اين معنا كه متغيرهاي مستقل، واحدهاي (نورون ها) مربوط به لاية ورودي شبكه و متغير وابسته، واحد(هاي) مربوط به لاية خروجي شبكه را تشكيل ميدهند.
از آنجا كه شبكة عصبي مي تواند تأثيرات متقابل متغيرها (روابـط بـين متغيرهـا) را شناسـاييكند، از واردكردن عبارت هاي مربوط به تأثيرات متقابل خودداري شده است. در ضمن با توجه بـهقابليت يادشده، به تعريف متغيرهايي كه تلفيق شده اند يا منتج از متغيرهاي ديگرند، نيازي نيست.
براي ايجاد مدل شناسايي تقلب در كارت هاي بانكي، يك متغير افراز5 ايجـاد شـد تـا بتـوانداده ها را به دو بخش آموزش و اعتبارسنجي تقسيم بندي كرد. اسـتفاده از داده هـاي آزمـايش درايجاد مدل الزامي نيست؛ زيرا اگر داده اي براي آزمايش در نظر گرفته نشود، از داده هاي آمـوزشبراي پيگيري خطاها استفاده مي شود. اين موضوع تنها زمان آموزش شبكه را افزايش ميدهد. در اين پژوهش، بهدليل محدودبودن تعداد داده هاي تقلب و استفاده از حداكثر اين داده هـا در فراينـدآموزش شبكه، از تخصيص داده هاي آزمايش خودداري شده است. به واسطة تعريف متغير افـراز وانتخاب داده هايي كه براي آموزش و اعتبارسنجي استفاده خواهند شد، از مجموع 111,349 داده، 66,648 داده (60 درصد) براي آموزش و ايجاد مدل اختصاص يافت و 44,698 داده (40 درصـد )
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Error back propagation
Mean Square Error
Parsimony
Pattern recognition
Partition variable
براي اعتبارسنجي مدل به صورت تصادفي تخصيص داده شد. براي تخصيص تصادفي داده ها بـهمجموعه هاي يادشده، از توزيع برنولي با احتمال 60 درصد براي متغير افراز استفاده شده است.
تابع تبديل انتخاب و استفاده شده براي تمامي نورون هـاي لايـه هـاي پنهـان، تـابع تانژانـتهيپربوليك1 است. رابطة 1 ، تابع تبديل يادشده را نشان مي دهد. اين تابع، مقادير حقيقي را پس از دريافت به مقداري در بازة (1,1) تبديل مي كند.

( ) = tanh( ) =

(1 رابطة
+
تابع تبديل Softmax براي واحدهاي لاية خروجي انتخـاب شـده اسـت . ايـن تـابع تبـديل،برداري از المان هايي با مقدار حقيقي را دريافت مي كند و به برداري كه هر يك از المان هايش در بازة (1,0) قرار مي گيرد و مجموع المان هايش برابر يك مي شـود ، تبـديل مـي كنـد . تـابع تبـديلSoftmax به صورت رابطة 2 است. تابع Softmax زماني براي نورون هاي لاية خروجي اسـت فاده مي شود كه تمامي متغيرهاي وابسته از نوع طبقه اي باشند. به همين دليـل در ايـن پـژوهش كـهمتغير وابسته از نوع طبقه اي است، تابع Softmax، تابع تبديل واحدهاي لايـ ة خروجـي انتخـاب شده است.
() = Softmax

(2 رابطة
در اين پژوهش با توجه به اينكه تعداد داده هاي متقلبانه (متغير وابسته با مقدار يـك) محـدوداست، تلاش بر اين بوده است كه هيچ يك از دادههاي متقلبانه از فرايند آموزش حذف نشـود. بـههمين منظور از روش گروهي2 براي آموزش شبكه بهره جويي شده است. الگوريتم بهينـه سـازي3 براي برآورد وزن هاي سيناپسي استفاده مي شود. الگوريتم بهينه سازي از نوع »گراديـان همجـوارمقياس بندي شده«4 انتخاب شده است كه گونه اي از الگوريتم پس انتشار خطـا شـمرده مـي شـود .
همان طور كه پيش از اين هم اشاره شد، الگوريتم پـس انتشـار خطـا، نـوعي از الگـوريتم حـداقلمربعات خطا است. اين روش براي نوع آموزش گروهي مناسب است و براي آموزش لحظـه اي و نيمه گروهي مناسب نيست. قواعد اختتام آموزش، به ترتيب »يك مرحله بدون كاهش در خطـا « و
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Hyperbolic tangent
Batch training
Optimization algorithm
Scaled Conjugate Gradient (SCG)
»حداكثر 500 دوره1 آموزش (عبور داده ها)« انتخاب شده است. اين قواعـد مـيتواننـ د از مسـئلةانطباق بيش از حد2 جلوگيري كنند.
خروجي يك مدل طبقه بندي مي تواند يك مقدار حقيقي باشد. سيستم طبقه بندي، اين مقادير حقيقي (شبه احتمال) را براي هر مورد با آستانة افتراق3 (مقـدار بـرش)4 مـي سـنجد و در صـورتبزرگتر بودن از مقدار برش، آن مورد را در طبقة مثبت قرار مي دهد.
توضيح اينكه براي هر طبقة متغير(هاي) وابستة طبقه اي با تابع تبـديلSoftmax و خطـاي Cross-Entropy، مقداري توسط شبكه محاسبه مي شود كه اين مقدار، احتمال ايـن اسـت كـهيك ركورد به يك طبقه تعلق دارد يا خير.
همانطور كه پيش از اين نيز اشاره شد، هدف از ايجاد شـبكة عصـبي پرسـپترون چندلايـه،طبقه بندي تراكنش هاي كارت هاي بانكي به دو طبقة سالم و متقلبانـه اسـت كـه ايـن كـار را بـامحاسبة يك شبه احتمال براي هر طبقه در هر تراكنش انجام مي دهد. مقدار پيش فرض براي حد آستانه 5/0 فرض شده است كه مي توان اين حد آستانه را تغيير داد. بنابراين مقادير شـب هاحتمـالبزرگتر از 5/0، متعلـق بـه طبقـة مربوطـه اسـت. از ايـن رو بهتـرين شـبكة عصـبي پرسـپترون انتخابشده براي اين پژوهش، شبكه اي با دو لاية پنهـان اسـت. لايـة ورودي ( لايـة اول) ايـنشبكه، 61 گره يا نورون (بدون در نظر گرفتن باياس5) دارد كه از 15 متغير مستقل بهدست آمـدهاست. شبكه، هريك از طبقه هاي متغيرهاي طبقه اي را يك نورون در نظر مـي گيـرد . بـه همـيندليل تعداد نورون هاي لاية ورودي به جاي 15 واحد، 61 واحد است.
شبكة منتخب داراي 12 گره (نورون) و يك باياس در لاية پنهان اول (لاية دوم شـبكه) و 9 گره (نورون) و يك باياس در لاية پنهان دوم (لاية سوم شبكه) است. لاية آخر (خروجي شـبكه)، دو گره دارد (دو طبقه مربوط به متغير وابسته) كه پس از تـأثير تـابع تبـديلSoftmax ، بـرداريشامل مؤلفه هايي با مقدار شبهاحتمال هر طبقه برآورد مي كند. با توجه به توضيحاتي كه بيان شد، شبكة حاصل را مي توان به صورت 61-12-9-2MLP بيان كرد. توضيح اينكه تمامي گـره هـاي هـرلايه به تمامي گرههاي لايههاي قبل متصل است. اين اتصال ها به منزلة وزن هر يـك از عناصـرشبكه است (شكل 2).

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Epoch
Over fitting
Discrimination threshold
Cutoff Value
Bias

شكل 2. شبكة عصبي پرسپترون چندلايه براي شناسايي تقلب در كارت هاي بانكي
يافته هاي پژوهش
از آنجا كه مدل هاي ارائه شدة اين پژوهش به منظور طبقه بندي طراحي شده اند، بايد با معيارهـايخاص طبقه بندي ارزيابي شوند. براي ارزيابي عملكرد مدل شبكة عصبي پرسپترون چندلايه، بايد طبقه بندي واقعي تراكنش هاي كار ت هاي بانكي را با طبقه بندي انجام شدة شبكة عصبي مقايسـهكرد و توانايي مدل را در شناسايي تراكنش هاي متقلبانه (يا مشكوك به تقلب) آزمـود . معيارهـايمندرج در جدول 1 براي ارزيابي عملكرد سيستم طبقه بندي استفاده شده است (برادرسـن، اُنـگ،استفان و بوهمان، 2010). در روابط جدول 1، TP تعداد مثبت هاي درست؛ FP تعداد مثبت هـاينادرست؛ TN تعداد منفي هاي درست و FN تعداد منفيهاي نادرست است.
زماني كه تعداد منفيها بسيار بيشتر از تعداد مثبت هاست (مانند پژوهش حاضر)، ممكن است كه معيار دقت طبقه بندي، معيار مناسبي براي ارزيابي عملكرد نباشد. بنابراين معيارهـاي ديگـريمانند ميانگين هـاي هندسـي (g-mean)1 (تانـگ، ژانـگ، چـاولا و كـراس، 2002) و همچنـينمعيارهاي F و Fβ (پاورز، 2011 و تانگ و همكـاران، 2002) را بـراي ارزيـابي عملكـرد سيسـتمطبقه بندي مي توان در نظر گرفت كه با اضافه كردن TP بـه معـادلات، محاسـبه مـي شـوند . در محاسبة Fβ، مؤلفة β مقداري بين صفر و بينهايت دارد و براي كنترل وزن تخصـيص داده شـده
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. Geometric Mean
به TP و P استفاده مي شود؛ بدين ترتيب كه هرچه β بزرگتـر باشـد، بـه همـان نسـبت اهميـتبيشتري براي TPR (حساسيت) قائل شده ايم تا P (صحت).
جدول 1. معيارهاي ارزيابي عملكرد طبقه بندي
نام معيار نام جايگزين توضيح فرمول محاسبه
852297-415123

نسبت درست1 مثبت حساسيتفراخواني2 3يا طبقه نسبت بندي موارد شده اند.مثبتي است كه به درستي +=

+ نس بت م وارد منف ي اس ت ك ه ب هنادرست، مثبت طبقه بندي شده اند. خطاي نوع اول نسبت مثبت
نادرست4
=

+ نسبت موارد منفي است كه به درستي طبقه بندي شده اند. ويژگي6 نسبت منفي
درست5
=

+ نس بت م وارد مثبت ي اس ت ك ه ب ه نادرست منفي طبقه بندي شده اند. خطاي نوع دوم نسبت منفي
نادرست
+
AC =

+++ نسبت نتايج درست (هم مثبت درست و هم منفي درست) به كل جامعه — دقت7 طبقه بندي
P =

+ نسبت تعداد مثبت هاي درست به كـلنتايج مثبت (هم مثبت هـاي درسـت وهم مثبت هاي نادرست) صحت8
طبقه بندي

√× – – g-mean1 ميانگين
هندسي يك

√× – – g-mean2 ميانگين
هندسي دو
=

F – –
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
True Positive Ratio
Sensitivity
Recall
False Positive Ratio
True Negative Ratio
Specificity
Accuracy
Precision
با توجه به هدف اصلي پژوهش كه شناسايي بهتر تراكنش هاي متقلبانه از ميـان تـراكنشهـا
است، چهار معيار g-mean2 ،FNR ،TPR و Fβ از ميان معيارهاي موجود براي معيارهاي اصـليسنجش عملكرد مدل هاي شبكة عصبي پرسپترون چندلايه انتخاب شـدند . در ادامـه بـه تحليـلمعيارهاي عملكرد مدل هاي ايجاد شده پرداخته خواهد شد.
پس از ارزيابي مدل با استفاده از معيارهاي اشاره شده در جدول 1، نتايج نشـان دادنـد كـه بـاانتخاب مقدار برش معادل 5/0، شبكة عصبي پرسـپترون بـا دقـت 9/99 درصـد توانسـته اسـتتراكنش ها را به دو دستة سالم و متقلبانه طبقه بندي كند؛ اين در حالي است كه اين شبكه با دقت تقريباً 100 درصد، تراكنش هاي سالم و با دقت 4/70 درصد، تراكنش هاي متقلبانه را بـه درسـتيطبقه بندي كرده است. مقادير مربوط به معيارهاي اصـلي 2g-mean و Fβ بـه ترتيـب برابـر 9/83 درصد و 8/70 درصد محاسبه شده است (توضيح اينكه با توجـه بـه هـدف اصـلي پـژوهش كـه عملكرد مناسب مدل در شناسايي تراكنش هاي متقلبانه است، براي محاسبة Fβ، مقدار β برابر بـا 5 در نظر گرفته شده است). با توجه به نمودار پيش بيني ـ واقعي (شكل 3) ميتوان دريافـت كـهبا انتخاب مقدار برش 3/0، مي توان با كمترين هزينه در شناسايي تراكنش هاي سـالم، شناسـاييتراكنش هاي متقلبانه را بهبود بخشيد. در اين حالت با دقت 95/99 درصد تراكنش هاي سالم و با دقت 3/75 درصد تراكنش هـاي متقلبانـه شناسـايي شـدند و مقـادير معيارهـاي 2g-mean و Fβ به ترتيب برابر 8/86 درصد و 2/75 درصد به دست آمد.

شكل 3. نمودار پيش بيني ـ واقعي براي شبكة عصبي پرسپترون چندلايه

با وجود اينكه مقدار برش 3/0، مقدار بهينه براي آستانه افتراق است، مي تـوان بـا توجـه بـههدف اصلي پژوهش كه كاهش خطاي نوع دوم است، مقدار برش را كاهش داد. همواره كـاهشخطاي نوع دوم، سبب افزايش خطاي نوع اول خواهد شد. از آنجاكه اين كار ريسك كمـي دارد و رويكرد سخت گيرانه تري را نسبت به تقلب اتخاذ مي كند، مقـدار بـرش از 3/0 بـه



قیمت: تومان


پاسخ دهید