عنوان: یک روش متن کاوی بر پایه الگوریتم درخت عملیاتی با هدف دسته بندی نظرات کاربران شبکه های اجتماعی پس از وقوع مخاطرات طبیعی : مطالعه موردی زلزله کرمانشاه در اینستاگرام

فایل زیر شامل

۱- عدد فایل ورد(قابل ویراش و کپی) پایان نامه ارشد به همراه فایل پی دی اف به تعداد ۸۸ صفحه است.

(نوشته دارای نظم نگارشی و  فرمتبندی کامل همچنین رفرنس نویس کامل است )

دانشکده فنی و مهندسی، گروه مهندسی کامپیوتر

عنوان:

یک روش متن کاوی بر پایه الگوریتم درخت عملیاتی با هدف دسته بندی نظرات کاربران شبکه های اجتماعی پس از وقوع مخاطرات طبیعی : مطالعه موردی زلزله کرمانشاه در اینستاگرام

فهرست مطالب

 

۱-فصل اول کلیات تحقیق     ۱

۱-۱-مقدمه    ۲

۱-۲-بیان مسئله تحقیق     ۲

۱-۳-سوالات و فرضیات تحقیق     ۴

۱-۳-۱-سوالات تحقیق.. ۴

۱-۴-اهداف برجسته تحقیق     ۵

۱-۵-ساختار پایان نامه    ۶

۲-مروری بر ادبیات تحقیق     ۷

۲-۱-مقدمه    ۸

۲-۲-متن کاوی     ۸

۲-۳-تاریخچه متن کاوی     ۹

۲-۴-تعاریف متن کاوی     ۱۱

۲-۵-مفاهیم متن کاوی     ۱۲

۲-۵-۱-مفهوم بگینگ… ۱۲

۲-۵-۲-مفهوم بوستینگ       ۱۳

۲-۵-۳-ابر آموزش ۱۳

۲-۶-مراحل موجود در مراحل متن کاوی.. ۱۴

۲-۶-۱-آگاهی یافتن از دامنه کاربرد. ۱۴

۲-۶-۲-تصفیه داده ها و پردازش… ۱۴

۲-۶-۳-کاهش حجم داده ها و طرح ریزی.. ۱۵

۲-۶-۴-انتخاب روش متن کاوی.. ۱۵

۲-۶-۵-انتخاب الگوریتمهای متن کاوی.. ۱۵

۲-۶-۶-به کارگیری الگوریتمهای متن کاوی.. ۱۶

۲-۶-۷-ارزیابی.. ۱۶

۲-۶-۸-استفاده از دانش کشف شده ۱۶

۲-۶-۹-جایگاه متن کاوی در میان علوم مختلف.. ۱۸

۲-۶-۱۰-الگوریتم های متن کاوی.. ۱۹

۲-۶-۱۱-یادگیری تحت نظارت ۱۹

۲-۶-۱۲-یادگیری بدون ناظر ۱۹

۲-۶-۱۳-یادگیری نیمه تحت نظارت.. ۲۰

۲-۶-۱۴-یادگیری تقویتی.. ۲۰

۲-۷-انواع روش های یادگیری مشاهده شده ۲۰

۲-۷-۱-الگوریتم درخت تصمیم. ۲۱

۲-۷-۲-الگوریتم بیزین.. ۲۲

۲-۷-۳-الگوریتم ماشین های بردار پشتیبان  ۲۲

۲-۷-۴-الگوریتم دسته بندی نزدیک ترین همسایه ۲۳

۲-۷-۵-الگوریتم رگرسیون منطقی یا لجستیک… ۲۴

۲-۸-بررسی پژوهش های داخلی     ۲۶

۲-۹-بررسی پژوهش های خارجی   ۲۶

۳-روش پیشنهادی تحقیق     ۳۳

۳-۱-مقدمه    ۳۴

۳-۲-روش پیشنهادی     ۳۴

۳-۳-تشریح روش پیشنهادی     ۳۴

۳-۴-تعریف درخت تصمیم    ۳۵

۳-۵-الگوریتم درخت تصمیم    ۳۷

۳-۶-پیشگویی در ستونهای ناپیوسته. ۳۸

۳-۷-موارد لازم برای مدل درخت تصمیم. ۴۰

۳-۸-مفهوم انتراپی     ۴۰

۳-۹-نمایشگر مدل درخت تصمیم  ۴۱

۳-۹-۱-درخت تصمیم. ۴۱

۳-۹-۲-شبکه وابستگی.. ۴۱

۳-۱۰-مزایا درخت تصمیم    ۴۱

۳-۱۱-معایب درخت تصمیم    ۴۲

۳-۱۲-شبه کد    ۴۳

۳-۱۳-فلوچارت حل     ۴۴

۴-فصل چهارم نتایج     ۴۷

۴-۱-مقدمه    ۴۸

۴-۲-آزمایش با ارزیابی آنلاین رویداد. ۴۸

۴-۲-۱-مطالعه ی موردی (۱): رویداد پایه: “زلزله کرمانشاه  در ۱۳۹۷”. ۴۸

۴-۳-نتایج و بحث (رتبه بندی رویدادهای مربوطه)   ۵۴

۴-۳-۱-مدل آموخته شده ی طبقه بندی کننده های موضوعی.. ۵۴

۴-۴-ارزیابی     ۶۰

۴-۵-بحث      ۶۵

۴-۶-ارزیابی داده های شبیه سازی شده ۶۶

۴-۷-نتیجه گیری     ۶۷

۵-فصل پنجم    ۶۸

۵-۱-نتیجه گیری     ۶۹

۵-۲-تحقیقات مربوطه    ۷۱

۵-۳-پشنهادات      ۷۳

۶-فهرست مراجع. ۷۴

 

 

 

فهرست اشکال

شکل ‏۲‑۱: یک نمونه درخت تصمیم.. ۲۱

شکل ‏۲‑۱: یک نمونه از خوشه بندی مبتنی بر تراکم. ۲۶

شکل ‏۳‑۱ درخت تصمیم تعیین احساسات… ۳۷

شکل ‏۳‑۲  نمودار وزن کلمات بر احساسات… ۳۸

شکل ‏۳‑۳ بخش داده ها ۳۹

شکل ‏۳‑۴  وابستگی با استفاده از درخت تصمیم. ۴۳

شکل ‏۳‑۵ شبه کد استفاده شده. ۴۴

شکل ‏۳‑۶ مراحل انجام کار.. ۴۵

شکل ‏۳‑۷ دیتاهای تحقیق.. ۴۵

شکل ‏۴‑۱ رتبه بندی وابستگی رویداد بر اساس یک مقایسه با رویداد پایه ی “زلزله کرمانشاه ” در نقاط زمانی مختلف    ۴۹

شکل ‏۴‑۲:: رتبه بندی وابستگی رویداد بر اساس زمان دریافت  در نقاط زمانی مختلف… ۵۰

شکل ‏۴‑۴:: زمان ثبت بر در نقاط زمانی مختلف… ۵۵

شکل ‏۴‑۴:: رتبه بندی وابستگی رویداد بر اساس یک مقایسه با رویداد پایه ی در نقاط زمانی مختلف… ۵۶

شکل ‏۴‑۵ هشت شاخه اصلی ایجاد شده. ۵۹

شکل ‏۴‑۶ زیر شاخه های ایجاد شده بعد طبقه بندی.. ۵۹

شکل ‏۴‑۷:: نمایش یک نمونه اندازه گیری از وابستگی رویداد. ۶۲

شکل ‏۴‑۸:: نمایش یک نمونه اندازه گیری با تحلیل احساسات… ۶۲

 

فهرست جداول

جدول ‏۴‑۱ کلیدواژه ی اصلی و وزن دهی پشت سر هم (burst) در رویدادهای تشخیص داده شده. ۵۰

جدول ‏۴‑۲ کلیدواژه ی اصلی و وزن دهی پشت سر هم. ۵۶

جدول ‏۴‑۳ رویداد رتبه بندی در ساعت ۰۹:۱۸:۵۰ در ۲۴ آگوست ۲۰۱۷٫٫ ۶۰

جدول ‏۴‑۴ میزان پیام های گرفته شده. ۶۳

جدول ‏۴‑۵ درصد جملات و احساسات در تحقیق برای هر سرخوشه. ۶۴

جدول ‏۴‑۶ خطاهاي نسبي بين پاسخهاي واقعي (مجموعه شبیهسازی) و پاسخهاي مدل درخت تصمیم گیری  و ضریب همبستگی مدل   ۶۶

 

چکیده

به منظور جلوگیری از آسیب جدی به زندگی ها و اموال افراد بوسیله ی رویدادهای درحال ظهور غیرمنتظره، یادگیری الگوهای تکامل احساسات از تجارب گذشته سودمند است. در این تحقیق ، ما از جریان های اینستاگرام برای طرح یک راه حل بهره برده ایم که سیستم ارزیابی آنلاین رویداد را با استفاده روش خوشه بندی مشاهده نشده ی رویداد و شاخص های اندازه گیری آفلاین برای مقایسه ی وابستگی رویدادهای گذشته با استفاده از یک شیوه ی برداری مبتنی بر طبقه بندی کننده ی درخت تصمیم گیری  ترکیب می کند. هر یک از این دو مدل، را می توان به طور جداگانه به عنوان یک سیستم مستقل به کار برد. زمانی که چند احساس درحال ظهور توسط سیستممان تشخیص داده شد، خوشه های رویداد و بردارهای رویداد می توانند بوسیله ی فرمولبندی پیام های خوشه بندی شده بوسیله ی الگوریتم ما تولید شوند. همچنین یک شاخص اندازه گیری وابستگی برای محاسبه ی وابستگی رویداد می تواند جهت ارزیابی مورد استفاده قرار گیرد. ویژگی های ضروری هر مجموعه داده از رویدادهای مشخص با انجام محتوی کاوی برای تجزیه و تحلیل محتوی، تجزیه و تحلیل فضایی، تجزیه و تحللی زمان استخراج شده اند. این به ما امکان می دهد تا بردار رویداد جدید را با بردارهای رویداد دیگر برای ارزیابی وابستگی احساسات با یکدیگر مقایسه کنیم. وابستگی های آزمایشی نشان می دهند که روش پیشنهادی مان دارای پتانسیل ارزابی آنلاین رویدادهای مربوطه و مقایسه ی پویا ی وابستگی میان رویداد جاری با دیگر رویدادها است.

 

 

کلیدواژه: متن کاوی، الگوریتم درخت عملیاتی، دسته بندی نظرات کاربران، مخاطرات طبیعی

 

۱-        فصل اول کلیات تحقیق

 

 

۱-۱-      مقدمه

در این فصل ابتدا به بررسی مسئله اصلی تحقیق فعلی پرداخته و پس از ارائه جنبه نوآوری و جدید بودن تحقیق، اهداف اصلی تحقیق را بیان خواهیم نمود. در انتها نیز ساختار اصلی پایان نامه ذکر می گردد.

۱-۲-            بیان مسئله تحقیق

داده کاوی کشف روابط متقابل بین خصیصه‌ میان مجموعه داده‌ها با استفاده از روش‌های مختلف از جمله یادگیری ماشین، سیستم‌های پایگاه‌ داده و آمار است. متن کاوی و وب کاوی و عقیده کاوی شاخه هایی از داده کاوی هستند. در واقع متن کاوی روشی است برای طبقه بندی متون و استخراج الگو های مفید از متن است (رامیا [۱]و همکاران،۲۰۱۷) .

برای تحلیل افکاروعقاید،محققان از حرفه های مختلف مانند جامعه شناسی ، روان شناسی ، علوم رایانه و مدیریت حوادث در تلاش اند که با استفاده از روش هایی حجم انبوهی از داده ها به دانش تبدیل کنند (سیمون[۲] و همکاران،۲۰۱۵).

رسانه های اجتماعی نقش تاثیرگذاری در مدیریت بحران ایفا می‌کنند. داده های شبکه اجتماعی می‌تواند برای افزایش آگاهی از وضعیت در هنگام مخاطرات طبیعی، مشاهده بر واکنش‌های عمومی کاربران، و اطلاع رسانی وضعیت موجود مورد استفاده قرار گیرد. مخاطرات طبیعی پیش آمده در سال‌های گذشته نشان دهنده ی این  بوده است که رسانه های اجتماعی بعنوان ابزاری مفید و لازم در برابر حوادث است.  کاربران عمدتا از رسانه های اجتماعی به عنوان ابزاری برای آگاهی از وضعیت موجود استفاده می کنند. و از طرفی رسانه های اجتماعی باعث تغییر رفتار کاربران می شود. ابتدا از رسانه های اجتماعی بعنوان منبع اطلاعات مربوط به حادثه و سپس به عنوان ابزاری برای کمک های رسانی و بازسازی فاجعه استفاده می کنند. در رابطه با انتشار توییتهای مربوط به زلزله ییلانگ ، انگیزه های متفاوتی از جمله نوع دوستی ، بهبود وضعیت اجتماعی ، احساس رضایت درونی حاصل از کمک به دیگران و احساس تعهد و غیره منجر به نشر اطلاعات شده است. تمرکز بر روی الگو های انتشار اطلاعات نشاندهنده ی اینست که افرادی که به صورت مستقیم تحت تاثیر زلزله نیستند توجه به راههای اعطای  کمک دارند و قربانیان زلزله به جزئیات فاجعه پیش امده توجه دارند (لی[۳] و همکاران،۲۰۱۸).

روش ها و روش های متن کاوی با استفاده از شبکه های اجتماعی برای جمع آوری ، طبقه بندی و انتشار اطلاعات در حین و اغلب پس از حوادث استفاده می شود. رسانه های اجتماعی، منجر به کاهش تعداد اطلاعات نادرست و شناسایی اطلاعات مهم و موثر پس از وقوع حادثه است.تئوری تبادل اجتماعی به طور گسترده برای درک اشتراک گذاری محتوا و انتشار اطلاعات رفتارهای است (سیمون[۴] و همکاران، ۲۰۱۵).

ترکیبی از متن کاوی و تجزیه و تحلیل شبکه های اجتماعی این امکان را دارد که در طول وقت ، مقیاس انتشار دقیق ، سرعت و کارایی انواع مختلفی از اطلاعات مربوط به زلزله را برررسی کنیم (لی[۵] و همکاران،۲۰۱۸).

ماهیت کلی این پایان نامه به بررسی رسانه اجتماعی اینستاگرام است که دسترسی به مقادیر زیادی داده های رفتاری شخصی کاربران را دارد انجام می شود. این سیستم با استفاده از الگوریتم ، همراه با داده کاوی ، داده های خصیصه های کاربر رسانه اجتماعی اینستاگرام طبقه بندی می کند. این یادگیری برای طبقه بندی شخصیت کاربر براساس مجموعه داده مربوط به زلزله کرمانشاه سال ۱۳۹۶ بر روی اینستاگرام انجام می شود. سیستم  ارائه شده در حال حاضر شخصیت کاربران بر اساس اطلاعات شخصی ذخیره شده بر روی اینستاگرام  پس از وقوع مخاطرات طبیعی پیش بینی می کند.و اینکه کاربران در بازه ی وقتی مشخص پس از وقوع رخداد چه اطلاعاتی ارسال می کنند. این سیستم برای شبکه های اجتماعی و همچنین مدیریت بحران و سازمان های غیردولتی بشردوستانه در صورت بروز مخاطرات طبیعی مناسب است.

۱-۳-            سوالات و فرضیات تحقیق

برخی از مهمترین سوالات و فرضیات مطرح در این پژوهش عبارتند از:

۱-۳-۱-                   سوالات تحقیق

  1. تفاوت در مقیاس انتشار ، سرعت و اثربخشی انواع مختلفی از اطلاعات مربوط به زلزله چیست؟
  2. الگوهای تعامل کاربران رسانه های اجتماعی هنگام اشتراک انواع مختلف اطلاعات مرتبط با زلزله در مراحل مختلف چه تفاوت هایی دارند؟
  3. عملکرد روش پیشنهادی مبتنی بر یادگیری، ما بر روی دیتاست موجود انجام می دهیم. اثر بخشی روش پیشنهادی چگونه است؟

۱-۴-            اهداف برجسته تحقیق

تحلیل حجم انبوهی از اطلاعات متنی غیر ساخت یافته کاربران، نیازمند روش های نوین و بهینه متن کاوی و پردازش زبان طبیعی است. این امر باعث هدف مند شدن روش متن کاوی است. از روش متن کاوی در زمینه های مختلفی استفاده شده است.، اما یکی از حوزه های تازه مطرح شده و قابل پژوهش، حوزه تجزیه و تحلیل احساسات (Sentiment Analysis) میباشد. که پژوهش پیش رو در همین حوزه میباشد.. با تجزیه و تحلیل متون ، میتوان به تدوین و تبیین راهکار های اسکان دائم و ساخت ابنیه ، راه اندازی و ‌بهبود حمل و نقل عمومی ، راه اندازی و مجدد زیرساخت شهری ، مشارکت مردمی ، بازتوانی وضعیت روحی و روانی افراد آسیب دیده ، پیش بینی شغل و بهبود وضعیت اقتصادی افراد آسیب دیده و اعطای کمک های مالی و وام به افراد آسیب دیده است. هدف اصلی این پژوهش آنالیز احساسات کاربران شبکه های مجازی  میباشد . آنالیز احساسات یک راه سریع و موثر برای کاوش احساسات مردم میباشد. با این کار ما میتوانیم نظر افراد را نسبت به موضوعات خاص بسنجیم و با بررسی این نتایج تصمیم های درستی در زمینه های مختلف همچون مخاطرات طبیعی و .. بگیریم. هدف این است که هر کاری را اتومات انجام داد حتی اگر این کار “درک معنی متن باشد. در این پژوهش سعی بر ارائه روشی جدید برای طبقه بندی نطرات کاربران ، که به صورت متنی است است..

۱-۵-         ساختار پایان نامه

در ادامه فصل ها به بحث و پژوهش در رابطه با موارد ذیل خواهیم پرداخت :

  • در فصل دوم برخی از مهمترین پژوهش های انجام شده در زمینه های مرتبط به موضوع تحقیق مورد بررسی قرار می گیرد. همچنین در این فصل به معرفی مروری کلی بر نظریه و مفاهیم اولیه تحقیق، جزئیات مربوط به الگوریتم ها، متغیر ها و مجهولات پژوهش و سایر موارد لازم جهت آگاهی بیشتر پرداخته شده است.
  • در فصل سوم تشریح کامل روش پیشنهادی با ارائه جزئیات بیشتر هر قسمت همراه با تشریح کامل روش مطرح شده و همچنین الگوریتم پیشنهادی نیز توصیف می گردد. بطور کلی در این فصل طرح پیشنهادی مورد بررسی قرار گرفته و مطابق با این طرح مراحل اجرا و شبیه سازی روش مطرح شده تشریح می گردد و در انتهای فصل الگوریتم پیشنهادی مطرح می گردد.
  • در فصل چهارم مبنع داده استفاده شده به صورت کامل شرح داده شده، مراحل شبیه سازی روش پیشنهادی با نرم افزار مربوطه به صورت کامل مورد بررسی قرار گرفته و در نهایت مقایسه و ارزیابی با سایر روشها تشریح می گردد. همچنین ابزار شبیه سازی، پارامترهای شبیه سازی، نتیجه شبیه سازی، توضیح نمودارها و مقایسه ذکر شده است.
  • در فصل پنجم نیز یافته های تحقیق، نتیجه گیری نهایی و پیشنهادات آتی مطابق با فرضیات ارائه شده در پژوهش و اهداف محقق مورد بررسی قرار خواهد گرفت.

 

۲-        مروری بر ادبیات تحقیق

 

۲-۱-  مقدمه

در این فصل برخی از مهمترین پژوهش های انجام شده در زمینه های مرتبط به موضوع پژوهش مورد بررسی قرار می گیرد. همچنین در این فصل به معرفی مروری کلی بر ادبیات تحقیق، جزئیات مربوط به الگوریتم ها، متغیر ها و مجهولات پژوهش و سایر موارد لازم جهت آگاهی بیشتر پرداخته شده است.

۲-۲-  متن کاوی

امروزه با گسترش سيستم هاي پايگاهي و حجم بالاي داده ها ي ذخيره شده در اين سيستم ها، نياز به ابزاري است تا بتوان داده هاي ذخيره شده را پردازش کرد و اطلاعات حاصل از اين پردازش را در اختيار کاربران قرار داد. با استفاده از پرسش هاي ساده در SQL و ابزارهاي گوناگون گزارش گيري معمولي، مي توان اطلاعاتي را در اختيار کاربران قرار داد تا بتوانند به نتيجه گيري در مورد داده ها و روابط منطقي ميان آنها بپردازند. اما وقتي که حجم داده ها بالا باشد، کاربران هر چند زبر دست و با تجربه باشند نمي توانند الگوهاي مفيد را در ميان حجم انبوه داده ها تشخيص دهند و يا اگر قادر به اين کار هم با شند، هزينه عمليات از نظر نيروي انساني و مادي بسيار بالا است . از سوي ديگر کاربران معمولا فرضيه اي را مطرح مي کنند و سپس بر اساس گزارشات مشاهده شده به اثبات يا رد فرضيه مي پردازند، در حالي که امروزه نياز به روشهايي است که اصطلاحا به کشف دانش بپردازند يعني با کمترين دخالت کاربر و به صورت اتومات الگوها و رابطه هاي منطقي را بيان نمايند[۱] .

داده کاوي يکي از مهمترين اين روشها است که به وسيله آن الگوهاي مفيد در داده ها با حداقل دخالت کاربران شناخته مي شوند و اطلاعاتي را در اختيار کاربران و تحليل گران قرار مي دهند تا براساس آنها تصميمات مهم و حياتي در سازمانها اتخاذ شوند . در داده کاوي از بخشي از علم آمار به نام تحليل اکتشافي داده ها استفاده مي شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکيد مي شود. علاوه بر اين داده کاوي با هوش مصنوعي و يادگيري ماشين نيز ارتباط تنگاتنگي دارد. بنابراين مي توان گفت در داده کاوي تئوريهاي پايگاه داده ها، هوش مصنوعي، يادگيري ماشين و علم آمار را در هم مي آميزند تا زمينه کاربردي فراهم شود[۲]. بايد توجه داشت که اصطلاح داده کاوي زماني به کار برده مي شود که با حجم بزرگي از داده ها، در حد مگا يا ترابايت، مواجه باشيم. هر چه حجم داده ها بيشتر و روابط ميان آنها پيچيده تر باشد دسترسي به اطلاعات نهفته در ميان داده ها مشکلتر مي شود و نقش داده کاوي به عنوان يکي از روشهاي کشف دانش روشن تر مي گردد[۱] .

۲-۳-  تاریخچه متن کاوی

با رشد فناوري اطلاعات و روش­هاي تولید و جمع آوري داده ها، پایگاه داده هاي مربوط به داده هاي تبادلات تجار ي، کشاورزي، اینترنت، جزئیات مکالمات تلفنی، داده هاي پزشکی و غیره سریعتر از هر روز جمع آوري و انباشته می شوند. لذا از اواخر دهه ۸۰ میلادي بشر به فکر دست یابی به اطلاعات نهفته دراین پایگاه داده هاي حجیم افتاد زیرا سیستمهاي سنتی قادر به این کار نبودند. به دلیل رقابت در عرصه هاي سیاسی، نظامی، اقتصادي و علمی و اهمیت دست یابی به اطلاعات در کمترین زمان بدون دخالت انسان، علم تجزیه و تحلیل داده ها یا داده کاوي پا به عرصه گذاشت[۳]. متن کاوی مراحل ي است که در آغاز دهۀ ۹۰ مطرح شد و با نگرشی نو، به مسئلۀ استخراج اطلاعات از پایگاه داده ها می پردازد. از سال ۱۹۹۵ داده کاوي به صورت جدي وارد مباحث آمار شد و در سال ۱۹۹۶، اولین شمارة مجلۀ کشف دانش و معرفت از پایگاه داده ها [۶] منتشر شد. محققانی نظیر براچمن و انان(۱۹۹۶) کلیه مراحل واقع گرا یانه و رو به جلو کشف دانش از پایگاه داده ها را تشخیص دادند. در حال حاضر، داده کاوي مهم ترین فناوري جهت بهره برداري موثر از داده هاي حجیم است و اهمیت آن رو به فزونی است. به طوریکه تخمین زده شده است که مقدار داده ها در جهان هر ۲۰ماه به حدود دو برابر می رسد. در یک تحقیق که بر روي گرو ه هاي تجاري بسیار بزرگ در جمع آوري داده ها صورت گرفت مشخص گردید که ۱۹ درصد از این گرو ه ها داراي پایگاه داده هایی با سطح بیشتر از ۵۰ گیگا بایت می باشند و ۵۹ درصد از آ نها انتطار دارند که در آینده اي نزدیک در چنین سطحی قرار گیرند[۲].

درصنایعی مانند کارت هاي اعتباري و ارتباطات و فرشگاه هاي زنجیره اي و خریدهاي الکترونیکی و اسکنرهاي بارکد خوان هر روزه داده هاي زیادي تولید و ذخیره می شوند[۴]. افزایش سرعت کامپیوترها باعث به وجود آمدن الگوریتم هایی شده است که قدرت تجزیه و تحلیل بسیار بالایی دارند بدون اینکه محدودیتی در زمینه ظرفیت و سرعت کامپیوترها داشته باشند. در سال ۱۹۸۹ و ۱۹۹۱ کارگاه هاي کشف دانش و معرفت از پایگاه داده ها توسط پیاتتسکی[۷] و همکارانش برگزار شد. در فواصل سا لهاي ۱۹۹۱ تا ۱۹۹۴کارگاه هاي کشف دانش و معرفت از پایگاه داده ها توسط فییاد[۸] و پیاتتسکی و دیگران برگزار شد. به طور رسمی اصطلاح داده کاوي براي اولین بار توسط فییاد در اولین کنفرانس بین المللی”کشف معرفت و داده کاوي[۹]” در سال ۱۹۹۵ مطرح شد. امروزه کنفرانسهاي مختلفی در این زمینه در سراسر دنیا برگزار می شود[۳].

افزایش داده هاي بسیار باعث پیدایش فرصت هاي تازه براي کار در علوم مهندسی و کسب و کار شده است. زمینه داده کاوي و کشف دانش از پایگاه داده ها به عنوان یک رشته علمی جدید در مهندسی و علوم کامپیوتر ظهور کرده است. مهندسی صنایع با حوزه هاي گوناگون و در بر داشتن فرصتهاي بی نظیر اکنون براي کاربرد داده کاوي و کشف دانش از پایگاه داده ها و براي توسعه مفاهیم و روشهاي تازه در این زمینه آماده است. مراحلهاي صنعتی زیادي اکنون براي مطمئن شدن از کیفیت سفارشات محصول و کاهش هزینه هاي محصول به طور اتومات و کامپیوتري شده اند[۶].

۲-۴-  تعاریف متن کاوی

تعاريف گوناگوني براي داده کاوي ارائه شده اند. در برخي از اين تعاريف داده کاوي در حد ابزاري که کاربران را قادر به ارتباط مستقيم با حجم عظيم داده ها مي سازد معرفي گرديده است و در برخي ديگر، تعاريف دقيقتر که درآنها به کاوش در داده ها توجه مي شود موجود است. برخي از اين تعاريف عبارتند از:

داده کاوي [۱۰] عبارت است از فرايندی که فرد را قادر می سازد که یک بینش اساسی و دانش از دادهای عظیم به دست آورد و از آن در تصميم گيري در فعاليت هاي تجاري مهم استفاده کند.[۵]

اصطلاح داده کاوي به فرايند نيمه اتومات تجزيه و تحليل پايگاه داده هاي بزرگ به منظور يافتن الگوهاي مفيد اطلاق مي شود[۵].  داده کاوي يعني کاوش در يک مجموعه داده بزرگ به منظور خارج کردن دانش و اطلاعات قابل توجه از بین آنها[۳] .

داده کاوي يعني تجزيه و تحليل مجموعه داده هاي قابل مشاهده براي يافتن روابط مطمئن بين داده ها[۲].  همان گونه که در تعاريف گوناگون داده کاوي مشاهده مي شود، تقريبا در تمامي تعاريف به مفاهيمي چون استخراج دانش، تحليل و يافتن الگوي بين داده ها اشاره شده است.

۲-۵-  مفاهیم متن کاوی

در داده کاوي معمولا به کشف الگوهاي مفيد از ميان داده ها اشاره مي شود. منظور از الگوي مفيد ، مدلي در داده ها است که ارتباط ميان يک زير مجموعه از داده ها را توصيف مي کند و معتبر، ساده، قابل درک و جديد است .

۲-۵-۱-                      مفهوم بگینگ[۱۱]

این مفهوم که بیشتر مواقع برای ارزیابی دقت مدلهایی که از روش نمونه برداری با جایگزینی استفاده کرده اند به کار می رود. به این صورت کار می کند که اگر شما می خواهید مدلی برای پیش بینی بسازید شما یک نمونه داده برمی دارید که این نمونه نماینده جامعه ای است که مورد بررسی قرار می گیرد. در واقع مجموعه ها به زیر مجموعه های کوچکتری بخش می شود که برای آموزش دادن به طبقه بندی کننده های مختلف به کار می روند . شما می توانید نمونه هایی با جایگزینی را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت طبقه بندC&RT وCHAID استفاده نمایید. واضح است که با این کار برای نمونه های مختلف به درخت های متفاوتی خواهید رسید. در این بین نمونه های با اهمیت نمونه هایی هستند که باعث افزایش تنوع در مجموعه داده می شوند. سپس برای پیش بینی با کمک درخت های متفاوت به دست آمده از نمونه ها، ‌یک رای گیری ساده انجام دهید. طبقه بند نهایی، طبقه بندی ‌خواهد بود که درخت های مختلف آن را پیش بینی کرده اند[۸,۹] .

۲-۵-۲-                      مفهوم بوستینگ[۱۲]

این مفهوم برخلاف روش قبل از کل مجموعه داده برای آموزش استفاده می کند و بعد از هر بار آموزش تمرکزش را بروی داده های سخت میگذارد تا به درستی طبقه بندی شوند [۸].در این روش ابتدا وزن همه نمونه ها یکسان است سپس در هر بار تکرار نمونه هایی که به درستی طبقه بندی شده اند از وزنشان مقداری کم و داده هایی که به اشتباه طبقه بندی شده اند به وزنشان مقداری می گیرند. در نهایت وزن دیگری نیز به صورت جداگانه به هر طبقه بند با توجه به دقت کلی که دارد اختصاص داده می شود. در فاز تست زمانیکه که یک نمونه جدید وارد می شود هر طبقه بند یک وزن پیشنهاد می کند و برچسب کلاس برچسبی است که با وزن اکثریت انتخاب می شود. [۹]

۲-۵-۳-                      ابر آموزش [۱۳]

از این مفهوم زمانی استفاده می شود که بخواهیم حاصل چند مدل را با یکدیگر ترکیب کنیم و همچنین زمانیکه مدل های پروژه تفاوت زیادی با یکدیگر داشته باشند. محققین دریافته اند که ترکیب پیش بینی چند مدل خیلی دقیق تر از پیش بینی هر روش به صورت جداگانه است. زمانیکه که پیش بینی چند طبقه بند را به دست آوردیم آن را به meta-linear می دهیم تا نتیجه ها را ترکیب و بهترین طبقه بند برای پیش بینی حاصل شود. مثلا می توانیم طبقه بندهایی نظیر تحلیل خطی و شبکه های عصبی و CHAID را با هم ترکیب کنیم و طبقه بند جدیدی با دقت بالاتر به دست آوریم [۹].

۲-۶-  مراحل موجود در مراحل متن کاوی

۲-۶-۱-                      آگاهی یافتن از دامنه کاربرد

در این مرحله که شروع کار متن کاوی است هدف غایی از انتخاب این داده ها و اینکه چه چیزی و در چه سطحی مد نظر است مشخص می شود . انتخاب و ایجاد یک مجموعه داده که کشف دانش بر طبق آن انجام شود باید داده ها را کاملا مورد بررسی قرار داد تا از تمام محتویات آن اطلاع کامل پیدا کنیم، و قسمت های مورد نظر را جدا ، و سپس ادغام تمام داده ها درون مجموعه داده برای کشف دانش است . در این مرحله داده های خام از منابع مختلف جمع آوری شده و از طریق استخراج، ترجمه، و … به پایگاه داده ها وارد شده است. واصوالا داده هایی انتخاب شده است. که با هدف غایی ما منطبق و هماهنگ باشند . هدف غایی از این مراحل فراهم کردن یک محیط یکپارچه جهت پردازش اطلاعات است [۱۰].

۲-۶-۲-                      تصفیه داده ها [۱۴]و پردازش

شامل از بین بردن داده های از دست رفته[۱۵] یا داده های پرت[۱۶]، جمع آوری اطلاعات ضروری برای مدل، تصمیم گیری در مورد روشی برای رسیدگی به داده های از دست رفته و داده های پرت است. هدف  از این مرحله شناسایی خصیصه های اضافی و ایجاد یک مجموعه آماده از داده های جستجو شده، و در یک مجموعه داده است. برای مثال اگر حدس زده شود که خصیصه هایی که دارای اعتبار کافی نیستند، یا داده های از دست رفته زیادی دارند، سپس این خصیصه ها میتواند هدف غایی الگوریتمهای متن کاوی قرار گیرد. یک مدل پیش بینی برای این خصیصه ایجاد شده است. و سپس داده های مفقود شده حدس زده شده است.[۱۱].

۲-۶-۳-                      کاهش حجم داده ها [۱۷]و طرح ریزی

در این مرحله خصیصه های مفید برای نمایش داده ها با توجه به هدف  کار جستجو می شود. کاهش ابعاد یا روشهای تبدیل برای کاهش تعداد موثری از خصیصه های موردنظر یا برای یافتن نمایش های یکسان برای داده ها انجام می گیرد. این مرحله میتواند نقش مهمی در موفقیت مراحل کشف دانش داشته باشد[۱۱]. چهار مرحله بعد به مراحل متن کاوی تمرکز دارند که بر جنبه های الگوریتمی تاکید میکنند.

۲-۶-۴-                       انتخاب روش متن کاوی

این مرحله شامل استخراج یک مدل بر اساس الگوریتمهای متن کاوی مثلا خلاصه سازی، طبقه بندی، رگرسیون، و … است. باید توجه داشت که بیشتر روشهای متن کاوی بر اساس یادگیری هستند که یک مدل توسط تعمیم دادن یک تعداد کافی از مثالهای آموزشی به طور صریح ساخته شده است. فرض اصلی در این نگرش این است که مدلهای طراحی شده برای موارد آینده قابل استفاده هستند[۱۲].

۲-۶-۵-                      انتخاب الگوریتمهای متن کاوی

در این مرحله جستجوی الگوها در داده ها انجام می شود، مثلا جستجو و تصمیم گیری برای اینکه چه مدلها و پارامترهایی مناسب هستند انجام می شود. در بخش کشف الگوها، با روشهای متن کاوی الگوریتمهایی را استخراج میکنند و از این الگوریتمها برای ساخت الگوها استفاده میکنند[۱۰].

۲-۶-۶-                      به کارگیری الگوریتمهای متن کاوی

در این مرحله با توجه به الگوریتمی که در بخش قبل انتخاب کردیم مدل ساخته می شود. این مدل که الگوهایی با یک شکل ارائه خاص است شامل طبقه بندی قوانین یا درختها، رگرسیون، دسته بندی و… است. این امکان وجود دارد که الگوریتمی چندین بار به کار برده شود تا یک نتیجه مناسب به دست آید[۱۰].

۲-۶-۷-                      ارزیابی

در این مرحله که به آن مرحله ارزیابی گفته می شود مدل با استفاده از هدف که در مرحله اول تعیین شده است ،شامل تفسیر مدل به دست آمده و احتمال بازگشت به هر یک از مراحل قبلی، مصور سازی مدل استخراج شده، و ترجمه موارد مفید به صورتی که برای کاربر قابل درک باشد. در پردازش مدل ها باید در مورد نتایج به دست آمده بحث شود و مورد تجزیه و تحلیل قرار بگیرند تا مطمئن شویم که یافته ها صحیح و منطبق با اهداف ما هستند و همچنین بررسی شوند که نتایج قابل دسترسی میباشند. این مرحله بر جامعیت و مفید بودن مدل ایجاد شده تمرکز دارد. در این مرحله دانش کشف شده برای کاربرد بیشتر مستند می شود. هدف غایی از این مرحله تنها ارائه نتیجه به صورت منطقی یا نموداری نیست، بلکه پالایش اطلاعات ارائه شده به کاربر نیز از اهداف مهم این مرحله است[۳].

۲-۶-۸-                       استفاده از دانش کشف شده

در این مرحله که مرحله نهایی است کاربرد و بازخورد کلی ازمدل ها و نتایج کشف شده توسط متن کاوی مورد بررسی قرار می گیرد. در این مرحله ترکیب دانش کشف شده با سیستمهای دیگر برای فعالیت بیشتر، اتخاذ اقداماتی بر اساس دانش یا مستندسازی آن و گزارش آن به افراد علاقه مند، و چک کردن و برطرف کردن معایبی که موجود است با دانش استخراج شده قبلی است. در این مرحله مدل های مورد نظر به دانش مفید و قابل استفاده تبدیل شده است. و پس از بهبود الگوهایی که کارا محسوب شده است.، در یک سیستم اجرایی به کار گرفته شده است. باید توجه داشت که دانش زمانی فعال شده است. که تغییری را در سیستم ایجاد کند یا اندازه تاثیر را تغییر دهد. در واقع موفقیت در این مرحله، میزان اثربخشی کل مراحل دانش را نشان میدهد[۳]. مراحل بیان شده را میتوان به طور خلاصه در شکل۱-۱ مشاهده کرد.

شکل ‏۲‑۱: معماری يک نمونه سيستم متن کاوی

 

۲-۶-۹-                      جایگاه متن کاوی در میان علوم مختلف

اگر قرار باشد ما ریشه های متن کاوی را بیابیم آن در سه خانواده از علوم قابل پیگیری است. یکی از مهمترین علومی که ریشه متن کاوی در ان است خانواده آمار کلاسیک است. بدون آمار، هیچ متن کاوی وجود نخواهد داشت، بطوریکه آمار، اساس اغلب تکنولوژی هایی است که متن کاوی بر روی آنها بنا می شود. آمار کلاسیک از یکسری مفاهیم مانند واریانس، تحلیل دسته، انحراف استاندارد، تحلیل رگرسیون، توزیع استاندارد و فاصله های اطمینان را که همه این موارد برای مطالعه داده و ارتباط بین داده ها است، را در بر می گیرد. مطمئنا تحلیل آماری کلاسیک نقش اساسی در روشهای متن کاوی ایفا می کند[۱۳].

دومین خانواده ای که متن کاوی در آن نقش اساسی دارد هوش عصبی  است. هوش عصبی  که با آمار تناقض دارد و بر پایه روشهای ابتکاری است، سعی می کند تابرای حل مسائل آماری از مراحلی مانند فکر انسان ها استفاده کند. به این دلیل که این رویکرد نیاز به توان محاسباتی بالایی داشت، تا اوایل دهه ۱۹۸۰ به اجرا در نیامد[۱۴].

سومین گروه یادگیری ماشین است، که یک مفهوم دقیق تر، از ترکیب آمار و هوش عصبی  است. درحالیکه هوش عصبی  نتوانست موفقیت تجاری کسب کند، یادگیری ماشین در بسیاری از موارد جایگزین آن گردید. از یادگیری ماشین به عنوان تحول هوش عصبی  یاد شد، چون مخلوطی از تحلیل آماری پیشرفته به همراه روشهای ابتکاری هوش عصبی  است. یادگیری ماشین اجازه می دهد تا برنامه های کامپیوتری در مورد داده ای که آنها مطالعه می کنند، مانند برنامه هایی که تصمیمهای متفاوتی بر مبنای کیفیت داده مطالعه شده می گیرند، یادگیری داشته باشند و برای مفاهیم پایه ای آن از آمار استفاده می کنند و از الگوریتمها و روشهای ابتکاری هوش عصبی  برای رسیدن به هدف غایی بهره می گیرند[۱۵]. بهترین توصیف از متن کاوی بوسیله اجتماع آمار، هوش عصبی  و یادگیری ماشین بدست می آید. این روش ها سپس با کمک یکدیگر، برای مطالعه داده و پیدا کردن الگوهای نهفته در آنها استفاده می شوند.

۲-۶-۱۰-                  الگوریتم های متن کاوی

رویکردهای مهم یادگیری ماشین، در چند دسته عمده قابل بخش بندی هستند، که در ادامه به آنها می پردازیم.

۲-۶-۱۱-                  یادگیری تحت نظارت [۱۸]

این نوع یادگیری، با اینکه در طبیعت رایج نیست اما مرسوم ترین نوع یادگیری در سیستم آموزشی انسان هاست. در این نوع یادگیری، حضور یک خبره، یا یک ناظر و یا داده هایی حاوی دانش، ضروری است[۱۶]. در یادگیری با مشاهده به دلیل اینکه به دنبال ارتباط بین دو مجوعه ورودی و خروجی است یادگیری به صورت نمایی با تعداد مراحل بین دو مجموعه افزایش می یابد . به همین دلیل یادگیری تحت مشاهده نمی تواند مدل ها رابه صورت سلسله مراتب عمیق بیاموزد.[۱۱]

۲-۶-۱۲-                  یادگیری بدون ناظر [۱۹]

دراین شیوه یادگیری، که یکی از سخت ترین نوع یادگیری است در بسیاری از موجودات و در بخش های مختلف زندگی انسان ها دیده می شود و یکی از سخت ترین نوع مسائل یادگیری است. در این نوع از یادگیری، نیازی به حضور یک ناظر یا فرد خبره نیست[۱۶]. وتنها مجموعه داده ی ورودی در دسترس هستند و هدف  یافتن قواعد و بی نظمی ها و روابط وشباهت ها در بین مجموعه داده ورودی می باشد. در یادگیری بدون ناظر،مدل های پیچیده تر وبزرگترامکان پذیر است.. [۱۱]

۲-۶-۱۳-                  یادگیری نیمه نظارت شده[۲۰]

این نوع یادگیری ترکیبی از دو الگوریتم یادگیری تحت نظارت و یادگیری بدون ناظر شده است، که در کنار استفاده از تجارب ارائه شده توسط ناظر، توانایی استفاده از رویکردهای غیر مشاهده شده نیز مد نظر قرار گرفته است[۱۷].

۲-۶-۱۴-                  یادگیری تقویتی[۲۱]

در یادگیری تقویتی، برای تشخیص درستی یا نادرستی یادگیری، از اندازه گیری های ضمنی برای یادگیری غیر مستقیم استفاده می کنند. در واقع، دانش فعلی ذخیره شده، توسط سیگنال های پاداش یا جریمه، تقویت یاتضعیف می شود. [۱۷].

با توجه به اهمیت روش های نظارتی و بدون نظارت در این پژوهش تنها به تشریح روشهای بدون نظارت و با نظارت پرداخته می شود. در بخش زیر هر کدام از انواع الگوریتم های متن کاوی اعم از روشهای بدون نظارت و با نظارت مورد بررسی قرار گرفته و همراه با جزئیات تشریح می گردد.

[۱] Ramya

[۲] Simon

[۳] Li

[۴] Simon

[۵] Li

[۶] Knowledge Discovery in Database(KDD)

[۷] Piatetsky

[۸] Fayyad

[۹] Knowledge Discovery and Data Mining

[۱۰] Data Mining

[۱۱] Bagging

[۱۲] Boosting

[۱۳] Meta-Learning

[۱۴] Data Cleansing

[۱۵] Miss value

[۱۶] Outlier

[۱۷] Dimensionality Reduction

[۱۸] Supervised learning

[۱۹] Non-supervised learning

[۲۰] semi-supervised learning

[۲۱] Reinforcement Learning

۵۵۰۰۰ تومان – خرید
درباره این محصول نظر دهید !