پایان نامه: تشخیص کلاه برداری در بانکداری الکترونیک با استفاده از ماشین بردار پشتیبان

فایل زیر شامل

۱- عدد فایل ورد(قابل ویراش و کپی) پایان نامه ارشد به همراه فایل پی دی اف به تعداد ۷۸ صفحه است.

(نوشته دارای نظم نگارشی و  فرمبندی کامل همچنین رفرنس نویس کامل است )

(کدهای متلب پیوست پایان نامه موچود است)

عنوان:

تشخیص کلاه برداری در بانکداری الکترونیک با استفاده از ماشین بردار پشتیبان

 

چکیده

امروزه پیشرفت فناوری اطلاعات و ارتباطات تاثیر زیادی در روش زندگی مردم دارد. بطوری که بسیاری از نیازهای مردم شامل مجازی سازی فرایندها، تجارت الکترونیکی، دانشگاه الکترونیکی و غیره را به سادگی و در کوتاه ترین زمان ممکن فراهم می کند. اما باوجود مزایای فراوان در استفاده از فناوری اطلاعات و ارتباطات، تهدیدات و حمله به اطلاعات و ایجاد خرابی در شبکه های مجازی هم روز بروز بیشتر می شود. بانکداری الکترونیک نیز از این آسیب ها مستثنی نبوده است. بنابراین ضرورت استفاده از سیستم های ایمن نقش برجسته ای در وقوع جرم و دسترسی غیر مجاز در عملیات های بانکداری الکترونیکی خواهد داشت. طبقه‌بندی یکی از عملیات رایج و مورداستفاده درداده کاوی است. طبقه بندی عملیاتی است که سازمان‌ها را قادر می‌سازد در حل مسائل خاص در مجموعه‌های بزرگ و پیچیده به کشف الگوها دست یابند؛ در اینجا منظور الگوهای تقلب است. در این تحقیق از الگوریتم ماشین بردار پشتیابن SVM به عنوان یک روش طبقه بندی داده کاوی استفاده شد. این تحقیق استفاده از ماشین بردار پشتیبان را به عنوان یک تکنیک دسته بندی برای تشخیص تفلب در تراکنش های بانکداری الکترونیکی به عنوان رویکرد پیشنهادی ارائه می دهد. مدل پیشنهادی در نرم افزار متلب پیاده سازی و نتایج در معیار کارایی مورد ارزیابی قرار گرفت. در ارزیابی کارایی هرچه تشخیص­های درست بیشتر باشد و تعداد داده هایی که با داده های تست مطابقت داشته باشند بیشتر باشد، کارایی بالاتر است. در ارزیابی نتایج حاصل از سه ماشین بردار پشتیبان با توابع کرنل متفاوت موردارزیابی واقع شد. در ارزیابی کارایی داده هایی که به عنوان تقلب با استفاده از ماشین­های بردار پشتیبان تشخیص داده می شوند، با داده های تست مقایسه شدند. نتایج بدست آمده از اجرای مدل پیشنهادی با سه تابع کرنل متفاوت در ماشین بردار پشتیبان (SVM) با تابع کرنل mlp بیشترین کارایی را نشان می دهد.

 

کلمات کلیدی پوشش غیرشارپ، فیلتر میانی، میانگین­های C فازی، تبدیل موجک گسسته.

 

فهرست مطالب

۱-فصل اول: کلیات تحقیق     ۱

۱-۱-مقدمه    ۲

۱-۲-بیان مسئله    ۲

۱-۳-اهداف تحقیق     ۶

۱-۴-ضرورت و اهمیت تحقیق     ۶

۱-۵-سئوالات تحقیق     ۶

۱-۶-فرضیات      ۷

۱-۷-ساختار پایان نامه. ۷

۲-فصل دوم: مروری بر ادبیات تحقیق و پیشینه تحقیق     ۸

۲-۱-مقدمه    ۹

۲-۲-مروری بر ادبیات تحقیق     ۹

۲-۲-۱- داده کاوی.. ۹

۲-۲-۲- الگوریتم‌های طبقه‌بندی.. ۱۳

۲-۲-۳- تقلب.. ۱۷

۲-۲-۴- بانکداری الکترونیک… ۱۸

۲-۳-پیشینه تحقیق     ۱۹

۳-فصل سوم: روش اجرای تحقیق     ۲۶

۳-۱-۱- حالت جدایی پذیر. ۳۰

۳-۱-۲- SVM در حالتهای غیرخطی و جدایی ناپذیر. ۳۴

۳-۱-۳- ماشینهای بردار پشتیبان غیر خطی.. ۳۵

۳-۲-ماشین های بردار پشتیبان به عنوان جداکننده ی چند کلاسه. ۳۷

۳-۲-۱- روش یکی در مقابل همه. ۳۸

۳-۲-۲- روش یکی در مقابل یکی.. ۳۸

۳-۲-۳- روش Cross-Validation. 39

۳-۳-تعریف مسئله و روش تحقیق.. ۴۰

۳-۴-ویژگیهای روش       ۴۳

۴-فصل چهارم: تجزیه وتحلیل یافته‌های تحقیق     ۴۵

۴-۱-مقدمه    ۴۶

۴-۲-مدل شبیه سازی     ۴۶

۴-۲-۱- آماده سازی داده ها ۴۸

۴-۳-پیش پردازش داده ها(نرم افزار رپیدماینر) ۵۰

۴-۴-پردازش داده ها (نرم افزار متلب) ۵۲

۴-۵-ارزیابی     ۵۳

۴-۶-مقایسه  ۵۷

۵-فصل پنجم: نتیجه گیری وپیشنهادات      ۶۰

۵-۱-مقدمه    ۶۱

۵-۲-نتیجه گیری     ۶۲

۵-۳-پیشنهادات      ۶۲

۶-فهرست منابع    ۶۳

 

 

فهرست اشکال

شکل ‏۲‑۱: تکنیکهای اصلی داده کاوی ( یه ولین، ۲۰۰۸) ۱۲

شکل ‏۲‑۲: نرون بر اساس سلول عصبی.. ۱۵

شکل ‏۲‑۳: نمونه‌ای از درخت تصمیم (مقدمات درخت تصمیم، وب‌سایت اسپرینگر) ۱۷

شکل ‏۳‑۱: SVM به عنوان یک ابر صفحه برای جداسازی خطی نمونه ها در فضای داده ها ۲۸

شکل ‏۳‑۲: تفکیک داده ها در فضا توسط ابرصفحه های مختلف.. ۲۹

شکل ‏۳‑۳: با کاهش دقت نقاط آموزش، تفکیک کننده های که از هر دو دسته بیشترین فاصله را دارد مناسبتر به نظر میرسد. ۳۰

شکل ‏۳‑۴: جداسازی خطی در حالت دوبعدی خط جداکننده با فرمول ۲ نمایش داده می شود. ۳۱

شکل ‏۳‑۵: جداسازی خطی در حالت سه بعدی.. ۳۲

شکل ‏۳‑۶: تقسیم فضا ۳۳

شکل ‏۳‑۷:: نمایش بردارهای پشتیبان. ۳۴

شکل ‏۳‑۸: انتقال مسئله از فضای دو بعدی به سه بعدی.. ۳۵

شکل ‏۳‑۹: قرار گرفتن صفحات در ماشین بردار پشتیبان. ۳۷

شکل ‏۳‑۱۰: مدل مفهومی روش این تحقیق در قالب یک فرایند داده کاوی.. ۴۱

شکل ‏۴‑۱: داشبورد مدیریتی طراحی شده ۴۹

شکل ‏۴‑۲:: فرایند پیش پردازش در نرم افزار Rapidminer 50

شکل ‏۴‑۱: خلاصه ای از اطلاعات آماری استخراج شده از مجموعه داده Online_Retail در نرم افزار Rapidminer 51

شکل ‏۴‑۴: خروجی شبیه سازی SVM با کرنل RBF. 52

شکل ‏۴‑۵: خروجی شبیه سازی SVM با کرنل mlp. 53

شکل ‏۴‑۶: خروجی شبیه سازی SVM با کرنل polynominal 53

شکل ‏۴‑۷: ارزایابی نتایج در معیار کارایی.. ۵۶

شکل ‏۴‑۸: نمودار ROC برای تحقیق حاضر. ۵۷

شکل ‏۴‑۹: درصد صحت طبقه بندهای موردنظر در روش پیشنهادی و کار ناویگلی و همکاران (۲۰۰۹) ۵۸

شکل ‏۴‑۱۰: منحنی ROC روش پیشنهادی و کار ناویگلی و همکاران (۲۰۰۹) ۵۸

 

 

فهرست جداول

جدول ‏۴‑۱:ویژگی های مجموعه داده Online_Retail 47

جدول ‏۴‑۲:: تعریف معیارها(هن و کامبر، ۲۰۰۱) ۵۴

جدول ‏۴‑۳: نتایج خوشه بندی.. ۵۹

 

 

 

۱-       فصل اول: کلیات تحقیق

 

 

۱-۱- مقدمه

طی دهه های اخیر تحولات زیادی در نظام بانکداری و تجارت الکترونیک به وجود آمده است. تا حدی که کامپیوترها و نرم افزارها جایگزین انسان ها و کاغذ شده اند و این امکان را فراهم نموده است که اوقات تلف شده را به حداقل برسانند و در گستره بالاتری به ارائه خدمات بپردازند. به عبارت دیگر فناوری جدید و الکترونیکی به آنها این امکان را می دهد که سرعت، کیفیت، دقت، هزینه و تنوع خدمات پرداخت الکترونیک خود را افزایش دهند.

امروزه تقلب و تخلف که قدمتی به اندازه زندگی بشریت دارد، یک کسب و کار چندین میلیون دلاری در سطح دنیا محسوب شده و حجم مالی آن روز به روز در حال افزایش است. در سال های اخیر، توسعه فناوری های جدید راه هایی زیادی را برای متقلبان و مجرمان، باز کرده است که بتوانند مرتکب تقلب یا تحلف شوند. ایجاد یک سیستم اطلاعاتی جدید، علاوه بر تمامی مزایا و منافعی که دارد، ممکن است فرصت های بیشتری را برای ارتکاب تقلب و تخلف در اختیار مجرمان قرار دهد(حدیدیان و مدیری، ۱۳۹۹).

در دنیای امروز یکی از تصمیمات ضروری برای بانک ها، نحوه عملیاتی کردن مدلهای شناسایی تقلب است. ییشنهاد سیاستی این است که بانک ها باید تصمیم بگیرند که مدل شناسایی تقلب را برخط استفاده کنند. تاکنون در سیستم بانکی کشور ساز و کار و برنامه جامعی برای شناسایی و جلوگیری از تقلب های مربوط به تراکنش های مبتنی بر کارت وجود نداشته است، در صورتی که یکی از وظایف مهم بانک ها نظارت بر صحت تراکنش های بانکی، حفظ مشتریان و کاهش ریسک بانکی است. از این رو ایجاد و ییاده سازی سیستمی توسط بانک ها به منظور شناسایی تقلب کارت های بانکی ضروری است(کریمیان و نوروزی، ۱۳۹۸).

 

۱-۲- بیان مسئله

ابزار پرداخت الکترونیکی نقش مهمی در توسعه ی تجارت الکترونیکی دارد و خدمات و محصولات بانکداری الکترونیک ، مشتمل بر پول الکترونیکی میتوانند فرصتهای مهم و جدیدی را برای بانکها فراهم کنند. بانکداری الکترونیکی و پول الکترونیکی ، به بانکها این امکان را می دهد که بازار خود را از نقشهای سنتی سپردهگذاری و اعطای اعتبار فراتر برده و توسعه بخشند ، مضاف بر این بانکداری الکترونیکی و پول الکترونیکی میتواند هزینه های ( عملیاتی) بانکها را کاهش دهد(سرفرازی؛ قاسمی و شفیعی، ۱۳۹۹).

امروزه بیشتر فعالیت های انجام شده در حوزه بانکی به صورت آنلاین انجام می شود و بیشتر خدمات مالی به مشتریان در بستر وب و اینترنت انجام می شود. امروزه بیشتر بانک ها برای ارایه خدمات به مشتریان خود از بانکداری الکترونیک استفاده می نمایند و این موضوع باعث شده در هزینه ها صرفه جویی شده و کارایی روش های انتقال مالی را بهبود دهد (خسروشاهی & عسکرپور, ۱۳۹۷) . با گسترش روز افزون استفاده از سامانه های مدرن بانکی و افزایش تعداد تراکنشهای بانکی، سوء استفاده های مالی وتقلب در این تراکنشها بیش از پیش نمود پیدا کرده است. این سوء استفاده ها علاوه بر از دست دادن منابع مالی هنگفت،باعث کاهش اعتماد مشتریان به استفاده از سامانه های مدرن بانکی و در نتیجه کاهش اثربخشی این سامانه ها در مدیریت بهینه ی سرمایه و تراکنش های مالی می شود (جهازی & جهانبخش گده کهریز, ۱۳۹۶).

بانک ها در زندگی روزمره ما از اهمیت و ارزش زیادی برخوردار است. هر شخص می تواند امور بانکی خود را به دو طریق فیزیکی و آنلاین انجام دهد. بر این اساس کلاهبرداری فیزیکی می تواند مانند سرقت کارت های اعتباری، به اشتراک گذاری جزئیات حساب بانکی با کارمندان فاسد بانک و غیره اتفاق بیفتد و کلاهبرداری آنلاین با به اشتراک گذاشتن جزئیات کارت در اینترنت یا از طریق تلفن با شخص اشتباهی صورت می گیرد (رامبولا[۱] و همکاران، ۲۰۱۸).

در سال های اخیر، توسعه فناوری های جدید راه های زیادی را برای متقلبان و مجرمان باز کرده است که مرتکب تقلب شوند . بانکداری الکترونیک ممکن است فرصت های بیشتری را برای ارتکاب تقلب در اختیار مجرمان قرار دهد (سرلک و همکاران، ۱۳۹۵).

آمارهای مختلفی درمورد تعداد یا حجم کلاهبرداری ها در کشورهای مختلف گزارش شده است. به عنوان مثال، سالانه میلیاردها دلار درآمد به دلیل کلاهبرداری در کارت اعتباری از بین می رود (عشقی و کارگری، ۲۰۱۹). همچنین براساس گزارشی که در سال ۲۰۱۴ توسط بانک مرکزی اروپا منتشر شده است، کلاهبرداری در مقایسه با سال ۲۰۱۱ حدود ۱۴٫۸٪ افزایش یافته است و دوباره مطابق گزارش نیلسون[۲] خسارات ناشیا از کلاهبرداری در سال ۲۰۱۵ به ۲۱٫۸۴ میلیارد دلار رسیده است که نشان داد بیست درصد افزایش در مقایسه با سال ۲۰۱۴ است.  میزان خسارات ناشی از کلاهبرداری هر ساله در حال افزایش است و همانطور که در (نیسبت[۳] و همکاران، ۲۰۱۸) گفته شد، سازمان های ایالات متحده آمریکا حدود ۷٪ از درآمد خود را به دلیل کلاهبرداری از دست می دهند. از این رو لازم است به موازات افزایش معاملات بانکی الکترونیکی، روشهای تشخیص کلاهبرداری بهبود یابد. از جمله موارد کلاهبرداری که با انتقال پول از حساب بانکی صورت می گیرد عبارتند از (گاندل[۴] و پاوار[۵]، ۲۰۲۰):

  • تقلب در قرعه کشی
  • کلاهبرداری در استخدام
  • کلاهبرداری از دوستی
  • کلاهبرداری از طریق سرویس حمل و نقل
  • فیشینگ
  • داروسازی
  • دزدی هویت
  • کلاهبرداری با پیشنهاد

عدم امنیت تراکنش ها یکی از مهمترین موانع برای استفاده و ترویج بانکداری الکترونیکی است و شناسایی تقلب از مسایل مهم در موسسات مالی و به ویژه بانک ها به شمار می رود. هر ساله میلیاردها یورو به خاطرتقلب کارت اعتباری از بین می روند. بنابراین، موسسات مالی را وادار نمودند تا به طور مداوم سیستم هایشناسایی تقلب خود را بهبود دهند. در سال های اخیر، مطالعات متعدد، استفاده از تکنیک های یادگیریماشین و تکنیک های داده کاوی را برای حل این مشکل پیشنهاد کرده اند (دامی و هموله، ۱۳۹۷).

داده کاوی زمینه گسترده ای است که عمدتاً بر بازیابی اطلاعات (الگوهای) از داده ها متمرکز است؛ مجموعه ای از تکنیک ها مانند یادگیری قانون انجمن، خوشه بندی، طبقه بندی و رگرسیون. داده کاوی ترکیبی از آمار و یادگیری ماشین است. کاربردهای گسترده داده­کاوی در دو دسته اصلی توصیفی و پیش بینی کننده قرار می­گیرند. در داده کاوی توصیفی، هدف افزایش شناخت از داده و محتوای آن است در حالیکه در داده­کاوی پیش­بینی کننده هدف پیش بینی به منظور جهت دهی به فرایند تصمیم است. در دسته­بندی وظایف داده­کاوی، انجمن برای توصیف داده ها و خوشه بندی برای پیش­بینی و توصیف داده ها کاربرد دارد(سینتوجا[۶] و دیگران، ۲۰۱۷). در واقع هدف اصلی استفاده از داده کاوی یافتن مدل‌های مناسب جهت تصمیم‌گیری بهتر است. الگوهای به ظاهر ساده و کارآمدی که در نگاه اول از چشمان ما دور می مانند. بر اساس نوع الگویی که باید استخراج شود، وظایف داده کاوی در یکی از دسته های زیرقرار می گیرند(یونگجیان[۷]، ۲۰۱۷ ):

  • خلاصه سازی
  • طبقه بندی[۸]
  • خوشه بندی[۹]
  • انجمن[۱۰]
  • گرایشات[۱۱]

در این طبقه بندی، خلاصه سازی انتزاع یا تولید داده است. طبقه بندی نیز روش طبقه بندی اشیاء و قرار دادن آن ها در گروه های معین بر مبنی ویژگی هایشان است. طبقه بندي یا طبقه بندی فرایندی است که مجموعه داده به گروه­های منحصر به فرد بطوری تقسیم می­کند که اعضای هر گروه بیشترین شباهت را به یکدیگر داشته باشند و اعضای گروه­های مختلف بیشترین تفاوت را بهم داشته باشند.

در این پژوهش ابتدا به شناخت بیشتر مفاهیم کلاهبرداری در بانکداری الکترونیکی، داده‌کاوی و روش های تشخیص تقلب در بانکداری الکترونیک پرداخته می شود. سپس مدلی پیش بینی کننده داده کاوی با استفاده از ماشین بردار پشتیبان به منظور تشخیص کلاهبرداری در بانکداری الکترونیک ارائه خواهد شد.

 

۱-۳- اهداف تحقیق

اهداف علمی این پژوهش شامل شناخت مباحث موجود در بانکداری الکترونیک، تقلب، کلاهبرداری در بانکداری الکترونیک و عقیده‌کاوی و داده‌کاوی، تکنیک های طبقه بندی و الگوریتم های طبقه بندی است.

هدف عملی و کاربردی این تحقیق، ارائه مدلی مبتنی بر داده کاوی و با استفاده از تکنیک های طبقه بندی به منظور تشخیص کلاهبرداری در بانکداری الکترونیک است.

 

۱-۴- ضرورت و اهمیت تحقیق

امروزه به دلیل وجود بانکداری الکترونیکی ثبت اطلاعات تراکنشی راحت تر صورت می گیرد و همین امر موجب شده است کسب و کارهای خرد/کلان تراکنش هایی مبتنی بر بانکداری الکترونیک داشته باشند. در چنین شرایطی سازمان ها باید بتوانند از میان داده های تراکنش ها به اطلاعات مفیدی در خصوص کلاهبرداری و تقلب دست یابند. ضرورت انجام این تحقیق در تسهیل استخراج الگوهای رفتاری برگرفته از فعالیت های کاربران بانکداری الکترونیکی است.

در این تحقیق مدل داده کاوی پیش بینی کننده ای ارائه می شود که با استفاده از آن الگوهای رفتاری برگرفته از فعالیت های کاربران بانکداری الکترونیکی استخراج شود. این تحقیق از الگوریتم طبقه بندی ماشین بردار پشتیبان استفاده می کند و از این جهت حائز اهمیت است.

 

۱-۵- سئوالات تحقیق

  • آیا تکنیک های طبقه بندی داده کاوی می توانند کلاهبرداری در بانکداری الکترونیک را تشخیص دهند؟
  • کدام یک از تکنیک های ماشین بردار پشتیبان می توانند کلاهبرداری در بانکداری الکترونیک را با دقت و کارایی بیشتری تشخیص دهند؟

 

۱-۶- فرضیات

  • با استفاده از الگوریتم های داده کاوی می توان کلاهبرداری در بانکداری الکترونیک را تشخیص داد.
  • با استفاده از تکنیک های طبقه بندی داده کاوی می توان کلاهبرداری در بانکداری الکترونیک را تشخیص داد.
  • الگوریتم های ماشین بردار پشتیبان می توانند کلاهبرداری در بانکداری الکترونیک را تشخیص دهند.

 

۱-۷- ساختار پایان نامه

در ادامه در فصل دوم از اين پايان نامه به بيان مفاهيم اصلي و پيشينه تحقيق پرداخت مي­شود. در اين فصل ابتدا ادبيات تحقيق مرور شده سپس خلاصه اي از تحقيقات انجام شده در حوزه پژوهش ارائه مي شود. فصل سوم روش تحقيق معرفي مي شود و در فصل چهارم مدل پيشنهادي اين تحقيق در يک مدل شبيه سازي ارزيابي و نتايج در قالب شکل­ها و نمودارها ارائه مي­شود. در فصل پنجم از اين پايان نامه مروري بر آنچه در اين پايان نامه آمده ارائه مي­شود. همچنين يک نتيجه گيري کلي به همراه پيشنهادات براي تحقيقات آينده ارائه مي­شود.

 

 

 

 

 

۲-       فصل دوم: مروری بر ادبیات تحقیق و پیشینه تحقیق

 

۲-۱- مقدمه

امروزه با توسعه تکنولوژی و دیجیتال شدن روش های مبادلات مالی شیوه های تقلب نیز پیچیده تر شده اند.یکی از حوزه های تقلب در مبادلات مالی دیجیتال مربوط به تراکنش های کارت های اعتباری است ، تقلب در این حوزه اگر چه می تواند محدود باشد اما وجود حتی یک مورد تقلب می تواند آثار زیان بار متعددی برحای بگذارد.آثاری که ضمن زیان مالی می تواند به اعتبار بانک ها و موسسات مالی نیز آسیب بزند. بر این اساس توسعه روش های تشخیص تقلب نیز حائز اهمیت است(شفیعی نژاد، ۱۳۹۸).

 

۲-۲- مروری بر ادبیات تحقیق

۲-۲-۱- داده کاوی

داده کاوی تلاش برای استخراج دانش از انبوه داده های موجود است. فرآیند داده کاوی به کمک مجموعه ای از روش های آماری و مدلسازی، می تواند الگوها و روابط پنهان موجود در پایگاه های داده را تشخیص دهد. تاکنون ابزارها و روش های مختلفی برای پردازش داده های ساخت یافته توسعه داده شده است که در نتیجه آنها، ساخت پایگاه های داده و ایجاد انباره های داده به سادگی صورت می گیرد(مرادیان، ۱۳۹۶).

ازآنجاکه داده‌کاوي در حوزه‌هاي متفاوتي مورداستفاده قرار مي‌گيرد باعث شده که داده‌کاوي ماهيتي بین‌رشته‌ای پيدا کند. نمونه‌گيري، تخمين‌ها و آزمون‌های فرض از آمار، الگوریتم‌های جستجو، تکنیک‌های مدل‌سازی و تئوری‌های یادگیری از هوش مصنوعی و یادگیری ماشین از حوزه‌هایی هستند که در تکنیک‌های داده‌کاوی مورداستفاده قرار می‌گیرند. بر اساس حوزه‌هایی که از فن‌های داده‌کاوی استفاده می شود ممکن است از ابزارهای دیگری نیز استفاده شود مانند بهینه‌سازی، محاسبات تکاملی، تئوری اطلاعات، پردازش سیگنال، مصورسازی و بازیابی اطلاعات. کاربردهای داده کاوی رو به افزایش است و دریک دسته بندی این کاربرد ها در دسته های زیر قرار می­گیرند:

  • خرده فروشي: فروش الکترونیکی از کاربردهاي کلاسيک داده‌کاوي است که در تعيين الگوهاي خريد مشتريان، تجزيه و تحليل سبد خريد بازار و غیر ه از داده کای استفاده می­کند.
  • بيمه : تجزيه و تحليل دعاوي و پيشگويي ميزان خريد بيمه نامه‌هاي جديد توسط مشتريان
  • پزشکي و سلامت: تشخیص بیماری ها، تشخیص موفقیت و یا تعیین رش درمان و غيره …
  • بانکداری: پیش بینی و شناسایی تقلب، محاسبه ریسک و جذب و نگهداری مشتریان و غيره …
  • وب کاوی: بهبود ماشين‌هاي جستجوگر يا شخصيسازي حركت در وب سايت و پيشنهاد صفحات مرتبط و غيره …
  • متن کاوی: پالايش متن نامه‌هاي الكترونيكي، گروه‌هاي خبري و غيره …
  • عقیده کاوی: کاوش نظرات و عقاید و احساست در رای ها و نظرات ارائه شده توسظ کاربران و مشتریان.

داده كاوي شامل استفاده از ابزارهاي تحليلي پيچيده به منظور كشف الگوهاي معتبر و ناشناخته و وابستگي هاي موجود در مجموعه داده هاي حجيم مي باشد. نتيجه اينكه، فناوري داده كاوي چيزي بيش از جمع آوري و مديريت داده بوده و شامل تجزيه و تحليل و پيش بيني نيز مي باشد(گنزالز[۱۲] و دیگران، ۲۰۱۳). فرآيند داده‌کاوي شامل چند مرحله است. این مراحل عبارتند از:

  • بيان مسئله[۱۳]
  • مفهوم داده ها
  • پیش پردازش داده
  • مدلسازی
  • ارزیابی
  • استخراج نتايج

هدف نهايي از داده‌کاوي پيش‌بيني است و بر اساس نوع الگويي که بايد استخراج شود، وظايف داده کاوي در يکي از اين دسته ها خلاصه سازي، طبقه بندي[۱۴]، خوشه بندي[۱۵]، انجمن[۱۶] و گرايشات[۱۷] قرار مي گيرند. طبقه بندی به عنوان وظیفه اصلی داده کاوی هر رکورد از پایگاه داده را به یکی از کلاس­های از پیش تعریف شده اختصاص می دهد.

طبقه بندي یا دسته بندی فرایندی است که مجموعه داده به گروه های منحصر به فرد بطوری تقسیم می کند که اعضای هر گروه بیشترین شباهت را بهم داشته باشند و اعضای گروه های مختلف بیشترین تفاوت را بهم داشته باشند. در ابتدا از يک طبقه‌بندي کننده بر مبناي الگوريتم‌هاي يادگيري ماشين استفاده شد. اما براي بهبود دقت و عملکرد طبقه‌بندي از رويکرد ترکيبي چندين طبقه‌بندي کننده بر مبناي الگوريتم‌هاي يادگيري ماشين استفاده مي‌شود. هنري[۱۸] در سال ۱۹۹۴ الگوريتم‌هاي دسته‌بندي را به صورت زير تقسيم‌بندي کرده است:

  • توسعه‌ي فرق گذاري‌هاي خطي مانند شبكه‌هاي عصبي[۱۹]
  • درخت تصميم[۲۰] و روش‌هاي مبتني بر قانون مانند درخت‌هاي تصميم۵
  • برآورده کننده تراکم مانند طبقه‌بندي کننده بيز[۲۱]، K- نزديکترين همسايه[۲۲](KNN)

 

فرآيند دسته‌بندي شامل دو مرحله است که در مرحله اول مجموعه‌ي داده هاي آموزشي که شامل اشيا يا رکوردها هستند که اين اشياء همگي شامل مجموعه‌اي از ويژگي[۲۳]ها مي‌باشد. هر يک از اين رکوردها داراي يک برچسب کلاس يا دسته است که در يکي از ويژگي‌ها بنام برچسب کلاس مشخص شده است. به هريک از رکوردهاي مجموعه داده هاي آموزشي[۲۴]، يک نمونۀ آموزشي گويند، که به طورتصادفي از مجموعه داده ها انتخاب مي‌شود. اگر برچسب کلاس آموزشي مشخص باشد، اين مرحله از يادگيري را، يادگيري نظارت شده[۲۵] ) يادگيري با ناظر) مي‌نامند. نوع ديگري از يادگيري بدون نظارت[۲۶] (يادگيري بدون ناظر) مي‌باشد، که در آن برچسب کلاس هر نمونه آموزشي نامعلوم است (مانند: خوشه‌بندي). در یادگیری با نظارت از ابتد­­ا دسته­ها مشخص هستند و هر یک ازداده های آموزشی به دسته­ای خاص نسبت داده شده است. در این روش ناظری وجود دارد که در هنگام آموزش اطلاعاتی علاوه بر داده های آموزش در اختیار یادگیرنده قرار می دهد. در یادگیری بدون نظارت هیچ اطلاعاتی بجز داده های آموزشی در اختیار یادگیرنده قرار ندارد و یادگیرنده باید در داده ها به دنبال ساختار خاص بگردد. شکل۲-۱ تکنیک­های اصلی داده کاوی را نشان می دهد.

شکل ‏۲‑۱: تکنیک­های اصلی داده کاوی ( یه ولین[۲۷]، ۲۰۰۸)

وظیفه بعدی خوشه بندی است که در آن گروه­هایی ازرکوردها که به یک رکورد نمونه که بر اساس معیارهای کاربر نزدیک است، پیدا می شوند(گرا و گوئل[۲۸]، ۲۰۱۵).

کاربردهای گسترده داده­کاوی در دو دسته اصلی توصیفی و پیش بینی کننده قرار می­گیرند. در داده کاوی توصیفی، هدف افزایش شناخت از داده و محتوای آن است در حالیکه در داده­کاوی پیش­بینی کننده هدف پیش بینی به منظور جهت دهی به فرایند تصمیم است. در دسته­بندی وظایف داده­کاوی، انجمن برای توصیف داده ها و خوشه بندی برای پیش­بینی و توصیف داده ها کاربرد دارد(سینتوجا[۲۹] و دیگران، ۲۰۱۷).

۲-۲-۲- الگوریتم‌های طبقه‌بندی

چهار الگوریتم پرکاربرد در زمینه طبقه بندی در ادامه موردبررسی قرار می‌گیرد.

۲-۲-۲-۱- طبقه‌بندی بیزی

طبقه‌بندی بیزی، مدلی است که فرض بر یک شرط مستقل از ویژگی‌هایی است که به طبقه بندی هدف می‌پردازد. الگوریتم‌های یادگیری بیزی به‌طور صریح بر روی احتمالات فرض‌های مختلف عمل می‌کنند. کلاسه بندهای بیزی کلاسه بندهای آماری هستند. آن‌ها اعضای کلاس را به‌طور احتمالی پیش‌گویی می‌نمایند. پیاده‌سازی روش کلاسه‌بندی ساده بیز آسان بوده و در بیشتر موارد نتایج و خروجی‌های موفقی داشته است. عیب این روش این است که برای سادگی محاسبات فرض می‌کند هیچ رابطه وابستگی بین صفت‌ها وجود ندارد و ممکن است در عمل میان متغیرها وابستگی وجود داشته باشد و این فرض استقلال موجب کاهش دقت این روش می‌گردد(آموزگار و طهماسبی، ۱۳۹۱).

۲-۲-۲-۲- شبکه‌ی عصبی

یک شبکه عصبی مصنوعی روشی برای پردازش اطلاعات است که از سیستم‌های عصبی زیستی الهام گرفته‌شده و مانند مغز پردازش اطلاعات انجام می‌گیرد. عنصر کلیدی این ایده، ساختار جدید سیستم پردازش اطلاعات است. این سیستم از تعداد زیادی عناصر پردازشی فوق‌العاده به‌هم‌پیوسته تشکیل‌شده که برای حل یک مسئله باهم هماهنگ عمل می‌کند. شبکه‌های عصبی ، نظیر انسان‌ها، با مثال یاد می‌گیرند. یک شبکه عصبی مصنوعی برای انجام‌وظیفه‌ای مشخص، مانند شناسایی الگوها و دسته‌بندی اطلاعات در طول یک پروسه‌ی یادگیری، تنظیم می شود در دستگاه‌های زیستی یادگیری با تنظیماتی در اتصالات سیناپسی که بین اعصاب قرار دارد همراه است. این روش شبکه عصبی مصنوعی هم می باشد. شبکه عصبی به‌وسیله الگوریتم پس انتشار خطا آموزش داده می شود. این شبکه از یک‌لایه ورودی، یک‌لایه خروجی و یک یا چندلایه نهان تشکیل‌شده است. هر گره در لایه ورودی معادل یکی از صفت‌های نمونه ورودی است و گره‌های لایه خروجی نشان‌دهنده کلاس‌ها هستند. هر یال بین گره‌های این لایه‌ها دارای یک وزن است که با یک مقدار تصادفی مقداردهی اولیه می شود. الگوریتم کلاسه‌بندی شبکه عصبی پرسپترون چندلایه، اساس شبکه‌های عصبی جلوبرنده است. نمونه‌ای از این شبکه دولایه‌ای در شکل زیر مشاهده می شود. جلوبرنده، به این معنی است که مقدار پارامتر خروجی بر اساس پارامترهای ورودی و یک سری وزن‌های اولیه تعیین می‌گردد. مقادیر ورودی باهم ترکیب‌شده و در لایه‌های نهان استفاده می شوند و مقادیر این لایه‌های نهان نیز برای محاسبه مقادیر خروجی ترکیب می شوند(آموزگار و طهماسبی، ۱۳۹۱). شبکه‌های عصبی که در سال ۱۹۴۳ توسط Mcculloch و Pitt بررسی شد یک گروه به‌هم‌پیوسته از سلول‌های عصبی مصنوعی است که با استفاده از یک مدل محاسباتی برای پردازش داده های مبتنی بر رویکرد پیوند گرا است.

نرون کوچک­ترین واحد یک شبکه عصبی مصنوعی است که عملکرد آن مانند یک نرون بیولوژیک است. شکل۶-۲ بخش­های نرون را نشان می دهد. این بخش­ها عبارت‌اند از:

  • سوما[۳۰] که است و به‌عنوان یک تابع ریاضی مدل می شود.
  • دندریت[۳۱] ورودی­ها هستند.
  • آکسون[۳۲] خروجی است.

در نرون مصنوعی شکل -۲۲ ورودی‌ها Xi هستند که در وزن­های Wi ضرب شده و پس از اعمال تابع و جمع با مقدار بایاس خروجی می دهد. خروجی yi از ورودی­های xi با استفاده از رابطه ۲-۲ محاسبه می شود.

 

۱-       فصل سوم: روش اجرای تحقیق

 

 

  • مقدمه

ما در جهانی زندگی می کنیم که به سرعت در حال پذیرش سیستم های پرداخت دیجیتال است. شرکتهای کارت اعتباری و پرداخت ها رشد بسیار سریعی در حجم معاملات[۱] خود دارند. در سه ماهه سوم ۲۰۱۸ ، پی پال (یک شرکت پرداخت مستقر در سن خوزه) ۱۴۳ میلیارد دلار از کل حجم پرداخت را پردازش کرد(نتایج سه ماه شرکت پی پال)[۲]. همراه با این تحول ، یک افزایش سریع در کلاهبرداری مالی نیز وجود دارد که در این سیستم های پرداخت اتفاق می افتد. تحقیقات اخیر نشان داده است که تکنیک های یادگیری ماشین به طور بسیار موثری در مسئله کشف تقلب مربوط به پرداخت ها به کار رفته است. چنین تکنیک های مبتنی بر یادگیری ماشین امکان تکامل و شناسایی الگوهای کلاهبرداری دیده نشده را دارند.

یک سیستم موثر کشف تقلب باید بتواند معاملات کلاهبرداری را با دقت و کارایی بالا تشخیص دهد.

اگرچه جلوگیری از اجرای تراکنش های متقلبانه از سوی کلاهبردار ضروری است، اما اطمینان از جلوگیری از دسترسی کاربران واقعی به سیستم پرداخت ها نیز بسیار حیاتی است. تعداد زیادی از مثبت کاذب ممکن است به تجربه بد مشتری تبدیل شده و مشتریان را به سمت تجارت خود به جای دیگری سوق دهد. بنابراین طراحی یک سیستم تشخیص تقلب دقیق و کارآمد با نرخ مثبت کاذب کم و تشخیص بالای فعالیت کلاهبرداری، چالش قابل توجهی برای محققان است. با توجه به اینکه در سالهای اخیر استفاده از ماشین های بردار پشتیبان ((SVM ، بسیار مورد توجه قرار گرفته است  وبطور تجربی نشان داده شده که استفاده از SVM در کاربردهایی مانند تشخیص دستنوشته ها، تشخیص چهره و… نتایج خوبی را حاصل نموده است، این تحقیق در جهت ارائه روشی برای کشف تقلب در سیستم های بانکداری الکترونیکی از ماشین های بردار پشتیبان استفاده می کند.

 

  • ماشین بردار پشتیبان

الگوريتم SVM اوليه در ۱۹۶۳ توسط Vladimir Vapnik ابداع شد و در سال ۱۹۹۵ توسط Vapnik وCorinna Cortes براي حالت غيرخطي تعميم داده شد.

 

ماشين بردار پشتيباني[۳] يکي از روش‌هاي يادگيري بانظارت[۴] است که از آن براي طبقه‌بندي و رگرسيون استفاده مي‌کنند.

روشهای یادگیری ماشین[۵] به دو گروه اصلی تقسیم می شوند: یادگیری باناظر و بدون ناظر:  در یادگیری باناظر، مجموعه ای از داده ها برای آموزش ماشین استفاده می شوند که با جواب درست برچسب خورده اند؛ اما در یادگیری بدون ناظر، هیچ داده برچسب خورده ای وجود ندارد و مشخص نیست که پاسخ مورد انتظار چیست. طبقهب ندی یکی از روش های یادگیری باناظر است که از داده های برچسبدار برای توسعه یک مدل پیشبینی استفاده می کند.

روش ماشين بردار پشتيبان از جمله روش‌هاي نسبتاً جديدي است که در سال‌هاي اخير کارايي خوبي نسبت به روش‌هاي قديمي‌تر براي طبقه‌بندي از جمله شبکه‌هاي عصبي پرسپترون نشان داده است. مبناي کاري دسته‌بندي کنندةSVM  دسته‌بندي خطي داده‌ها است و در تقسيم خطي داده‌ها سعي مي‌کنيم خطي را انتخاب کنيم که حاشيه اطمينان بيشتري داشته باشد. حل معادلة پيدا کردن خط بهينه براي داده‌ها به وسيله روش‌هاي QP[6] که روش‌هاي شناخته شده‌اي در حل مسائل محدوديت‌دار هستند صورت مي‌گيرد. در ساده ترین فرم آن یعنی SVM خطی، SVM عبارتست از یک ابر صفحه که مجموعه ی نمونه های مثبت و منفی را با حداکثرفاصله[۷] از هم جدا نموده است. شکل (۳-۱)

[۱] Transactions

[۲] PayPal Inc

[۳] Support Vector Machines

[۴] Supervised learning

[۵] Machine learning

[۶] Quadratic Programming

[۷] Maximum Margin

[۱] Rambola

[۲] Nilson Report

[۳] Nisbet

[۴] Gandal

[۵] Pawar

[۶] Sinthuja

[۷] Yongjian

[۸] Classification

[۹] Clustering

[۱۰] Association

[۱۱] Trends

[۱۲] González

[۱۳] Business Understanding

[۱۴] Classification

[۱۵] Clustering

[۱۶] Association

[۱۷] Trends

[۱۸] . Henry

[۱۹] . Neural Networks

[۲۰] . Decision Trees

[۲۱] . Naive Bayes Classifier

[۲۲] . K-Nearest Neighbor

[۲۳] . Attribute

[۲۴] . Training Dataset

[۲۵] . Supervised Learning

[۲۶] . Unsupervised Learning

[۲۷] Yeh & Lien

[۲۸] Gera and Goel

[۲۹] Sinthuja

[۳۰] Soma

[۳۱] Dendrite

[۳۲] Axon

برچسبها
محصولات مرتبط

دیدگاهی بنویسید.

0