یک روش هوشمند هدایت تحصیلی دانش آموزان با استفاده از دادهکاوی
پایاننامه برای دریافت درجه کارشناسی ارشد (M.Sc. یاM.A) در رشته کامپیوتر
گرایش نرم افزار
عنوان:
یک روش هوشمند هدایت تحصیلی دانشآموزان با استفاده از دادهکاوی
فهرست مطالب
عنوان صفحه
۱-۶ -محدودیتهای پیش روی هدایت تحصیلی دانش آموزان. ۷
۱-۷ -کاربردهای شیوه داده کاوی تحصیلی.. ۷
۲ -فصل دوم: ادبیات و پیشینه تحقیق 10
۲-۲ -عوامل مؤثر در انتخاب رشته ۱۱
۲-۱ -ساختار الگوريتمهاي ژنتيك.. ۲۱
۲-۱-۲ -روند كلي الگوريتمهاي ژنتيك.. ۲۴
۲-۳ -ساختار شبکههای عصبی مصنوعی.. ۲۸
۲-۳-۲ -مزایای شبکههای عصبی.. ۳۰
۲-۴ -يادگيری ماشين و طبقه بندي.. ۳۱
۲-۴-۲ -روشهاي ساختاري يا نحوي.. ۳۲
۲-۴-۴-۱ -روش k-نزدیکترین همسايه. ۳۴
۳-۵ -مدل سازی با رگرسيون خطي- چندگانه ( MLR). 43
۳-۶ -مدل سازی با رگرسیون درجه دوم چندگانه (MQR). 44
۳-۶-۱ -محاسبات خطا برای مدل MLR و MQR.. 44
۳-۶-۲ -مدلسازي شبكه عصبي (SVM). 45
۳-۶-۳ -طراحي و بهینه سازی شبكه عصبي.. ۴۵
۴-۲ -داده های موجود در مدارس… ۵۲
۴-۴-۱ -مدلسازی با روش رگرسيون خطی چندگانه (MLR). 57
۴-۴-۲ -تست مدل با گروه ارزیابی.. ۶۱
۴-۴-۳ -تست مدل بامجموعه شبیه سازی.. ۶۲
۴-۴-۴ -مدلسازی با روش رگرسيون درجه دوم چندگانه (MQR). 62
۴-۴-۵ -محاسبات خطا برای مدلMQR.. 64
۴-۴-۶ -تست مدل با مجموعه ارزیابی.. ۶۴
۴-۴-۷ -تست مدل MQR با مجموعه شبیه سازی.. ۶۵
۴-۴-۸ -طراحي و بهينه سازي شبكه عصبي مصنوعي.. ۶۶
۴-۴-۹ -وروديها و خروجيهاي شبكه عصبي بردار پشتیبان. ۶۶
۴-۴-۱۰ -بهینه سازی شبکه عصبی مصنوعی.. ۶۷
۴-۵ -ارزيابي نهايي مدلهاي طراحي شده و مقايسه مدلها با هم. ۷۴
۵ -فصل پنجم : نتیجه گیری و پیشنهادات.. ۷۶
فهرست اشکال
شکل ۲‑۳ مراحل اصلی يک الگوريتم تکاملی ( ۲۰۱۳ ،Rakesh Kumar Soni). 20
شکل (۳‑۲) يك كروموزوم قبل و بعد از اعمال عملگر جهش… ۲۴
شکل (۳‑۳) نمودار گردشي الگوريتمهاي ژنتيك.. ۲۵
شکل (۳‑۳) : يك الگوريتم ژنتيك استاندارد. Error! Bookmark not defined.
شکل ۲‑۴شبکه عصبي چند لايه مصنوعي ( ۱۳۹۴ ، بهادر . حمید، علیایی . صغری، باقری . افسانه). ۲۸
شکل ۲‑۵ساختار شبکه عصبی ( ۱۳۹۱ ، مقصودي بهروز, سليماني صادق, اميري علي, افشارچي محسن) 29
شکل ۲‑۶ الگوريتم نزدیکترین همسايه (۱۳۹۰ ،طاهري . فائزه، رحیماف . حامد، فرهادي . محسن). ۳۵
شکل ۳‑۱: لایههای شبکه عصبی ایجاد شده ۴۵
شکل ۴‑۱فرم مشاوره ای شماره پنج. ۵۲
شکل ۴‑۲فرم مشاوره ای شماره شش… ۵۴
شکل ۴‑۳: همبستگی نتایج بدست آمده از مدل خطی با مجموعه ارزیابی.. ۶۱
شکل ۴‑۴: همبستگی نتایج بدست آمده از مدل خطی با مجموعه شبیه سازی.. ۶۲
شکل ۴‑۵: همبستگی نتایج بدست آمده از مدل خطی با مجموعه ارزیابی.. ۶۵
شکل ۴‑۶: همبستگی نتایج بدست آمده از مدل خطی با مجموعه شبیه سازی.. ۶۶
شکل ۴‑۷: همبستگی نتایج بدست آمده از مدل خطی با مجموعه شبیه سازی.. ۶۷
شکل ۴‑۸: تغییرات R نسبت به تغییرات Rate Learning. 68
شکل ۴‑۹: تغییرات RMSE نسبت به تغییرات Rate Learning. 68
شکل ۴‑۱۰: تغییرات R نسبت به تغییرات Momentum.. 69
شکل ۴‑۱۱: تغییرات RMSE نسبت به تغییرات Momentum.. 69
شکل ۴‑۱۲: تغییرات R نسبت به تغییرات N تعداد نورونهای لايه هاي مخفي.. ۷۰
شکل ۴‑۱۳: تغییرات RMSE نسبت به تغییرات N تعداد نورونهای لايه هاي مخفي.. ۷۰
شکل ۴‑۱۴: تغییرات R نسبت به تغییرات تعداد تکرار Iteration. 71
شکل ۴‑۱۵: تغییرات RMSE نسبت به تغییرات تعداد تکرار Iteration. 71
شکل ۴‑۱۶ مقادیر بهینه ژنتیک… ۷۲
فهرست جداول
جدول ۴۱-: مقادير ضرایب معادله در شبیه سازی MLR. 58
جدول ۴‑۲-: پارامتر های اصلی حل. ۵۹
جدول ۴‑۳- آناليز رگرسيوني مجدد با سطح اطمينان ۹۵% پس از حذف ضرایب فاقد معني دار. ۶۰
جدول ۴‑۴- خطاهاي نسبي در مدل MLR و ضریب همبستگی مدل. ۶۱
جدول ۴‑۵- خطاهاي نسبي در مدل MLR و ضریب همبستگی مدل. ۶۱
جدول ۴‑۶- خطاهاي نسبي بين پاسخهاي واقعي (مجموعه شبیه سازی) و پاسخهاي مدل MLR. 62
جدول ۴‑۷- مقادير معادله در شبیه سازی MQR. 63
جدول ۴‑۸- آناليز رگرسيوني مجدد با سطح اطمينان ۹۵% پس از حذف ضرائب عدم معني دار. ۶۳
جدول ۴‑۹- خطاهاي نسبي در مدل MQR و ضریب همبستگی مدل. ۶۴
جدول ۴‑۱۰- خطاهاي نسبي بين پاسخهاي واقعي (ست ارزیابی) و پاسخهاي مدل MQR. 64
جدول ۴‑۱۱- خطاهاي نسبي و ضریب همبستگی در مدل MQR برای مجموعه شبیه سازی.. ۶۵
جدول ۴‑۱۲- مقادير بهينه پارامترهای شبکه عصبی مصنوعی طراحی شده برای مدلسازی.. ۷۱
جدول ۴‑۱۳- مقادیر استفاده شده در الگوریتم ژنتیک… ۷۳
جدول ۴‑۱۴- خطاهاي نسبي بهینه سازی الگوریتم ژنتیک در مجموعه شبیه سازی.. ۷۳
جدول ۴‑۱۵- خطاهاي نسبي و ضریب همبستگی برای دو مجموعه آموزشی و ارزیابی در شبکه عصبی.. ۷۳
جدول ۴‑۱۶- خطاهاي نسبي و ضریب همبستگی در مدل SVM… 74
جدول ۴‑۱۷- خطاهاي نسبي و ضرايب همبستگي در دادههاي شبیه سازی.. ۷۵
چکيده
اجرای طرح هدایت تحصیلی بر اساس استعداد و عملکرد تحصیلی دانشآموزان ، نقطه آغازی است برای کمک به کسب شغل آنان در آینده که تنها نباید بر دوش آموزش و پرورش باشد و نیازمند آموزش خانوادهها و همافزایی جامعه دارد.در پایان نامه حاضر به بررسی و هدایت تحصیلی دانش آموزان و ارائه یک روش هوشمند پرداخته شده است. برای این امر ابتدا تحلیل دادها با روش های مرسوم بررسی شده و درنهایت ارائه یک روش عصبی – ژنتیک برای بهبود نتایج ارائه داده شده است. به این منظور به روش های رگرسیون خطی به تحلیل داده ها پرداخته و سپس یک شبکه عصبی آموزش داده شده و در نهایت به ارائه یک روش هوشمند عصبی-ژنتیک به بهبود نتایج پرداخته شده است. برای این منظور از پرونده هدایت تحصیلی ۳۵۰ دانش آموز و داده های آموزشی موجود استفاده شده و یک روش جامع ارائه داده شده و مدلی طراحی شده است که رشتهای را با بيشترين شانس موفقيت در آينده به دانش آموزان جديد پيشنهاد می دهد. نتایج کلی تحقیق نشان داد که مدلهاي خطي MLR و MQR مقدار خطاي RSE بالا و قابل بحث نمي باشد و مقدار RSE در مدل MLR برابر ۴۴% و در مدل MQR برابر ۳۵% به دست آمده است. ساير مقادير خطاي محاسبه شده يعني MPE و MSE در محدوده زیادی می باشند و مقدار خطا RSE در مدل شبکه عصبی برابر ۱۴% و در مدل عصبی ژنتیک برابر ۹% به دست آمده است همانطور که مشاهده شد مدل ارائه شده عصبی ژنتیک دارای کمترین خطا است. نتایج کلی تحقیق نشان داد که یک شبکه عصبی بهینه شده میتواند نتایج و تخمین خوبی برای هدایت تحصیلی دانش آموزان رقم بزند که مدیران بتوانند به آن اتکا کنند.
واژههاي کليدي: دادهکاوی، هدایت تحصیلی، شبکه عصبی، انتخاب رشته.
۱- فصل اول: کليات
۱-۱- بیان مسأله
در سالهای اخیر اهتمام مردم به علمآموزی و تحصیلات، روند رو به رشد ادامه تحصیل را به همراه داشته است. با افزایش دانشآموزان در مقطع متوسطه و رشتههای مختلف، لزوم هدایت صحیح دانشآموزان در زمینههای گوناگون به ویژه بحث انتخاب رشته بیش از پیش احساس میشود. نظر به این که دانشآموزان باید در مقطع دبیرستان از میان رشتههای موجود، مناسبترین رشته را با توجه به معیارهایی از قبیل: در نظر گرفتن وضعیت تحصیلی مقاطع قبلی، فرمهای مشاورهای ، تجربه انتخاب رشتههای قبلی اخذ نمایند و این امر نیازمند بررسی حجم وسیعی از دادههای آموزشی سالهای گذشته دانشآموزان است؛ لذا این فرآیند طولانی، انتخاب رشتهای مناسب را برای دانشآموز و برای مشاور مدرسه، به امری دشوار تبدیل نموده است.
بدیهی است دانشآموز باید بر اساس ملاکهای مناسب علمی تصمیماتی اتخاذ نماید و احتمال شکست در آینده را کاهش دهد. بنابراین با توجه به مشکلات موجود در زمینه استخراج دانش از پروندههای مشاورهای، تحصیلی و استفاده از آنها به منظور تصمیمگیریهای مناسب، تکنيکهای داده کاوی در امر آموزش مورد توجه قرار گرفته است، اين زمينه تحقيقاتی جديد داده کاوی آموزشی ناميده میشود که به توسعه روشهای کشف دانش از دادههای محيط آموزشی میپردازد. بر همين اساس، ما به کمک حجم عظيمی از دادههای انتخاب رشته سالهای قبل و به منظور استفاده از دانش نهفته موجود در آن ها، از روشهای داده کاوی و تکنيک داده کاوی برای تصميم گيری و هدايت علمی دانش آموزان استفاده نمودهايم.
در شيوه کنونی(سال ۱۳۹۷) انتخاب رشته در مدارس با توجه به فرم مشاوره که امتيازات مشاورهای در آن ثبت میشود و فرم هدايت تحصيلی که خلاصهای از نمرات متوسطه اول و ميانگين نمرات برای هر رشته در آن درج شده، انتخاب رشته صورت میگيرد. يعنی امتياز مشاورهای برای هر رشته با امتياز موجود در هدايت تحصيلی آن رشته جمع شده و به صورت صعودی مرتب میشود و در نهايت براساس آن اولويتها مشخص می گردد. ما در اين پايان نامه با تحليل انتخاب رشته دانشآموزان در سالهای ۹۱و۹۰ و کشف دانش نهفته در آنها مدلی را طراحی مینماييم که رشتهای را با بيشترين شانس موفقيت در آينده به دانش آموزان جديد پيشنهاد میدهد. اين امر میتواند بخشی از وظايف مشاور تحصيلی مدارس را پوشش دهد. نکته قابل توجه آن است که قوانين بدست آمده از تکنيکهای دادهکاوی وسيع تر از روشهای مرسوم است و ممکن است روشهايی استخراج گردد که در سيستم فعلی وجود ندارد و اين مسئله میتواند شانس انتخاب رشته را برای دانش آموز بسیار ارتقاء دهد.
نگاه گسترده به نقش آموزش و پرورش، به عنوان عاملی مؤثر در فعليت بخشيدن به امکانات بالقوه و ذاتی افراد، انتقال اندوخته تجارب گذشتگان، ارائه ارزشهای مطلوب، افزايش معلومات و ايجاد مهارتهای لازم در افراد برای زندگی و بالاخره تسهيل سير حرکت وجودی آدمی به سوی کمال، اهميت امروزهی اين نهاد اجتماعی را بيش از پيش نشان میدهد. گسترش کمی آموزش و پرورش نشانگر گرايش و استقبال همگان به اثربخشی اين نهاد و گسترش کيفی آن ناشی از توسعه معارف، علوم و رشد بی وقفهی تکنولوژی است؛ که اين دو، بر پيچيدگی و ظرافت جريان آموزش و پرورش افزوده است (صافی، احمد ۱۳۹۲ ). نقش راهنمايی و مشاوره در آموزش و پرورش افراد، به حدی است که عدهای از دانشمندان آن را مترادف با معنای تعليم و تربيت شمرده اند و بعضی، راهنمايی و مشاوره را تسهيل کنندهی جريان تعليم و تربيت میدانند ( قاضی، قاسم، ۱۳۸۵). اما مشکل اساسی که در مسير هدايت محصلين وجود دارد، وجود روابط پيچيدهی تحصيلی بر سر راه انتخاب رشتهی دانش آموزان است ( اعلايی، غلامحسين، ۱۳۷۱). کشف اين روابط پيچيده و مولفههای مرتبط با آن، نيازمند تحليل و بررسی عوامل متعدد تحصيلی موجود در نظامهای آموزشی است.
۱-۲- سؤالات تحقیق
سؤال اصلی تحقیق به قرار زیر است:
چگونه میتوان با انجام دادهکاوی بر روی اطلاعات مشاوره ای و سوابق آموزشی دانش آموزان هدایت تحصیلی آنها را انجام داد؟
۱-۳- اهداف پژوهش
اهداف تحقیق به قرار زیر است:
1- بهبود کیفیت آموزشی بر اساس برنامه ریزی دقیق با انجام دادهکاوی بر روی اطلاعات و سوابق تحصیلی دانش آموزان
۲- مروری بر الگوریتمهای داده کاوی و ارائه روش بهینه به منظور هدایت هوشمند تحصیلی دانش آموزان
۳- ارائه یک روش مبتنی بر داده کاوی برای هدایت تحصیلی دانش آموزان
۱-۴- فرضیهها
فرضیه اصلی تحقیق به قرار زیر است:
با انجام دادهکاوی بر روی اطلاعات مشاوره ای و سوابق آموزشی دانش آموزان میتوان هدایت تحصیلی آنها را انجام داد.
۱-۵- پیشینه پژوهش
از کارهایی که بر اساس دادهکاوی در حوزه آموزش انجام گرفته است میتوان به نمونههای زیر اشاره نمود:
مینایی و همکاران در سال ۱۳۹۱ شناسایی عوامل مؤثر بر افت تحصیلی با استفاده از قواعد انجمنی و تحلیل خوشهای را مورد بررسی قرار دادهاند. در این پژوهش تلاش برای پیادهسازی مدلهای دادهکاوی پیش بینی کننده به منظور پیشبینی وضعیت تحصیلی دانشجویان بر اساس مشخصات فردی و گذشته تحصیلی آنها بوده است. با توجه به نتایج آماری که از ساخت مدلهای پیشبینی کننده وضعیت دانشجو در این پژوهش بدست آمده است میتوان با اطمینان بالایی از آینده تحصیلی دانشجویان بر مبنای دادههای گذشته اطلاع حاصل نمود ( مینایی، بهروز، سادات میرافضل، هانی، ۱۳۹۱).
صفاریان و همکارانش در سال ۱۳۸۹ پیش بینی رتبه داوطلبان کنکور سراسری دانشگاهها را با استفاده از روشهای دادهکاوی انجام دادهاند که نتایج بکارگیری الگوریتم عصبی را نشان میدهد که با دقت بالای ۹۰ درصد میتوان رتبه داوطلب در کنکور سراسری را تخمین زد و نتیجه بدست آمده نشان میدهد که رتبه داوطلب در کنکور سراسری تا حد بسیار بالایی تابعی از وضعیت تحصیلی و درسی آنها در طی دوران تحصیل است ( صفاریان، محسن، خیرآبادی، اعظم، 1389).
نوری و همکاران در سال ۱۳۸۹ پیش بینی نمره از طریق داده کاوی را مورد بررسی قرار دادهاند در این تحقیق سعی شده بر اساس مسائل ذکر شده و عوامل مؤثر و تأثیرگذار از قبیل ترم (نیمسال اول یا دوم) و جنسیت و سن و وضعیت اشتغال نمره دانشجو پیش گویی شود در این مقاله وابستگی بین دروس از طریق الگوریتم های سبد خرید و پیش گویی نمره از طریق داده کاوی انجام میگیرد (نوری، بهاره، مقصودی، بهروز، شیخ احمدی، سید امیر، 1389).
طاهری و فرهادی در سال ۱۳۸۹ پیشبینی موفقیت یا عدم موفقیت دانشجویان در درس مبانی کامپیوتر را بررسی کردهاند. در این مقاله تکنیکهای دادهکاوی بر روی دادههای مربوط به درس مبانی کامپیوتر اعمال و پیشبینیهای مناسبی در مورد موفقیت و یا عدم موفقیت دانشجویان این درس ارائه شده است در حقیقت عوامل مؤثر بر نمره دانشجو در این درس توصیف و معرفی شد تا به کمک این آگاهی دانشجو بتواند نقاط ضعف خود را برطرف و یا حداقل نماید. (طاهری ، فرهادی ، ۱۳۸۹).
حاتملو و هاشمینژاد در سال ۱۳۸۷ تحلیل رفتار آموزشی دانشجویان با استفاده از تکنیکهای دادهکاوی را مورد بررسی قرار داده اند در این مقاله نشان میدهد که چگونه میتوان از نتایج الگوریتمهای دادهکاوی در جهت شناخت رفتار و وضعیت دانشجویان و تصمیمگیری برای تغییر برنامههای آموزشی در جهت افزایش بازدهی آنها و رفع مشکلات آموزشی و همچنین پیشبینی مشکلات احتمالی آینده و جلوگیری از وقوع آنها استفاده کرد (حاتملو، عبدالرضا، هاشمی نژاد، سیدجواد، 1387).
خیرآبادی و مینایی در سال ۱۳۸۹ به بررسی و خوشهبندی نتایج ارزشیابی اساتید دانشگاه با استفاده از روشهای دادهکاوی پرداخته است .در این تحقیق دادههای مربوط به اطلاعات شخصی و نمرات ارزشیابی و کلاسهای اساتید مورد بررسی قرار گرفته و دو روش ارزشیابی تلفیقی و ارزشیابی الکترونیکی با هم مقایسه شدهاند. همچنین با استفاده از روش خوشهبندی تعداد خوشههای موجود در هر یک از روشها تعیین و مورد تحلیل قرار گرفته است (خیرآبادی، اعظم، مینایی بیدگل، بهروز، 1389).
آقای Carlos Marquez-Vera و همکاران در سال ۲۰۱۳ با اعمال تکنیکهای دادهکاوی مانند ردهبندی و درخت تصمیم تعداد ۶۷۰ رکورد از دانشآموزان شهر مکزیکو و مقایسه این تکنیکها مدلی را ارائه داده اند که بتواند دانشآموزانی را که در آینده تحصیلی ممکن است در ادامه تحصیل به شکست یا افت تحصیلی مبتلا شوند را پیشبینی کند و با استفاده از روشهای انتخاب بهترین ویژگیها و توازن دادهها و ردهبندی حساس دقت پیشبینی را بهبود داد (۲۰۱۳، Márquez-Vera, Romero Morales).
آقای Mulihah Wook و همکاران در سال ۲۰۰۹ از تکنیکهای دادهکاوی مانند شبکه عصبی و ترکیب درخت تصمیم و خوشهبندی برای پیشبینی عملکرد تحصیلی دانشآموزان استفاده کردهاند. در این مقاله مقایسهای بین این دو روش دادهکاوی انجام شده است. هدف از این مقاله شناسایی ویژگیهای تأثیرگذار بر پیشرفت تحصیلی دانشآموزان است. در خوشهبندی دانشآموزان دارای رفتار مشابه و نزدیک در یک خوشه قرار میگیرند با ترکیب خوشهبندی میتوان یک روش مبتنی بر دو مرحلهای اعمال کرد به این صورت که نتیجه خوشهبندی، ورودی برای روش ردهبندی داده کاوی است. نتایج مقایسه روشهای شبکه عصبی و این روش ترکیبی نشان میدهد شبکه عصبی نتایج دقیقتری را نشان میدهد ( ۲۰۰۹, Muslihah Wook, Hani Yahaya).
۱-۶- محدودیتهای پیش روی هدایت تحصیلی دانشآموزان
نظام آموزش و پرورش، پيشنهادهايی را برای هدايت و ادامه تحصيل دانش آموزان ارائه میدهد. اين پيشنهادها به صورت ايده آل براساس استعداد و علاقهی هر يک از فراگيران خواهد بود. در صورتی که دانشآموزان از ويژگی ها، ضوابط و نحوهی ادامه تحصيل، مطلع شوند، میتوانند برای آيندهی تحصيلی و شغلی خود هدف هايی را انتخاب نمايند؛ و در نهايت بر اساس هدف گذاریهای صورت گرفته، برای آيندهی خود برنامه ريزی نمايند. در کشور ايران فرآيند هدايت تحصيلی دانش آموزان از سال تحصیلی ۹۶-۹۵ از پايه نهم متوسطه اول آغاز میشود؛ و چنانچه دانش آموزی به رشته صحيحی هدايت نشود، آيندهای توأم با نگرانی و تشويش در پيش رو خواهد داشت. مشاوران تحصيلی، در پايان سال تحصيلی نهم متوسطه اول ، پيشنهاداتی را در قالب «فرم هدايت تحصيلی» به اوليای دانشآموزان تقديم مینمايند. در فرم هدايت تحصيلی، حداکثر شش اولويت انتخاب رشته تحصيلی به دانشآموزان داده میشود، اين پيشنهادات، میتواند شامل يکی از چهار رشتهی موجود در شاخهی نظری، شامل رشتهی رياضی و فيزيک، تجربی، ادبيات و علوم انسانی، علوم و معارف اسلامی و همچنين هدايت به يکی از شاخههای تحصيلی فنی وحرفهای يا کاردانش باشد. اولويتهای طرح شده در فرم هدايت تحصيلی، بر اساس سوابق تحصيلی و مشاورهای مربوط به متوسطهی اول هر فراگير محاسبه میشود.
مسلم است که با افزايش حجم درخواست برای ثبت نام در يک شاخهی تحصيلی، معضلاتی همچون عدم حصول زمان کافی برای بررسی و مشاوره تخصصی هر فرد، عدم درک مناسب هر فراگير نسبت به رشتههای قابل انتخاب و ايجاد اضطراب و استرس به علت ترس از انتخاب غلط به وجود میآيد.
۱-۷- کاربردهای شیوه دادهکاوی تحصیلی
تحقيقات نشان میدهد که فرآيند گزينش و هدايت تحصيلی فراگيران، به عوامل مختلفی از جمله سوابق تحصيلی، استعدادهای فردی، توانمندیهای علمی و عملی وابسته است ( ۲۰۰۷,Romero, C., & Ventura, S. ) . کشف و شناسايی اين عوامل و پيچيدگیهای ذاتی هر عامل، محققين را بر آن داشته است که حجم وسيعی از دادههای تحصيلی را به قصد کشف دانش مورد نياز خود مورد ارزيابی قرار دهند (۲۰۱۰، Koedinger, K. R., Baker ) .
نظامهای آموزشی، هر ساله دادههای آماری زيادی را در ارتباط با اطلاعات جمعيت شناختی فراگيران سيستمهای تحصيلی و نمرات درسی آنها جمع آوری و ذخيره مینمايند (۲۰۰۹، Baker, R. S., & Yacef, K) . تحليل و بررسی حجم وسيع داده هايی که در نظامهای متنوع تحصيلی وجود دارند، نيازمند پژوهش و بررسی عوامل متعددي است که در عمل خارج از حيطهی توانايی بشر محسوب خواهد شد.
وجود تفاوت در دادههای تحصيلی و همچنين تنوع درخواستهای کاربران هر سيستم تحصيلی، پژوهشگران تحصيلی را بر آن داشته است که از روشهای مختلف برای کشف الگوی نهفته در پايگاههای دادهای تحصيلی استفاده نمايند (۲۰۱۰، Koedinger, K. R., Baker و شکورنياز، جمال شهرابی، ونوس،۱۳۸۶) .
از جمله راهکارهايی که برای تجزيه وتفسير دادههای حجيم به کارمیرود؛ بهره گرفتن از فن آوری دادهکاوي است[۱]. علوم مرتبط با داده کاوی، میتوانند با کشف الگوهای پنهان شده در حجم وسيعی از داده ها، فرآيند تصميم گيری تشکيلات سازمانی را بهبود دهند (۲۰۱۱ ،Han, J., Pei, J., & Kamber, M). علوم داده کاوی با بهره گيری از رويکردهای قدرتمندی همچون علم آمار، الگوريتمهای شناسايی الگوی دادهها، شبکههای عصبی و الگوريتمهای متنوع يادگيری ماشين، قادر به کشف دانش معتبر از ميان انبوهی از دادهها است (۲۰۱۰ ، Romero, C., & Ventura, S -2010 ، Baker, R. S. J. D.) .
در حال حاضر، به دليل استفادهی بسيار زياد از تکنيکهای داده کاوی در تجزيه و تحليل دادههای تحصيلی، شاخهی جدیدی به نام داده کاوی تحصيلی به وجود آمده است. اين شاخه جديد از علم داده کاوی، در سال ۲۰۰۴ و در حاشيهی برگزاری هفتمین کنفرانس سیستمهای آموزشی هوشمند، در برزیل فعالیت خود را آغاز نمود. این کارگروه در کنفرانسهایی مثل UMITS، AIED و ICALT فعالیت خود را گسترش داد؛ و در سال ۲۰۰۸ اولین کنفرانس دادهکاوی تحصیلی در شهر مونترال کانادا برگزار گردید (۲۰۱۰، Koedinger, K. R., Baker و شکورنياز، جمال شهرابی، ونوس،۱۳۸۶).
داده کاوی تحصيلی يک روش در حال پيشرفت برای کشف اطلاعات منحصر به فرد، در زمينهی شناسايی روند تبادل دانش توسط اعضاء يک سيستم آموزشی است (۲۰۰۵، Wang, J. (Ed.)). فرآیند دادهکاوی تحصیلی با دریافت دادههای خام موجود در سیستمهای تحصیلی، دانش مفیدی را جهت بهبود عملکرد این سیستمها تولید مینماید (۲۰۱۰، Koedinger, K. R., Baker و مجلسی، علیرضا، ۱۳۹۵). فرآیند کاوش در دادههای تحصیلی، به هدف کشف الگوهای پنهان تحصیلی و بهبود کیفیت روند آموزش و پرورش فراگیران یک سیستم تحصیلی انجام میپذیرد (۲۰۱۳، Romero, C., & Ventura, S و ۲۰۰۵، Wang, J. (Ed.)).
۱-۸- ساختار پایاننامه
این پایاننامه مشتمل بر پنج فصل است که در فصل اول به بیان مسأله و کلیات تحقیق پرداخته شده است در فصل دوم مفاهیم پایهای در رابطه با ادبیات موضوع و سیستمهای انتخاب رشته ارائه شده ی پیشین برای راهنمایی و هدایت تحصیلی با استفاده از روشهای داده کاوی بررسی خواهد شد .در فصل سوم، الگوریتم پیشنهادی ارائه شده برای هدایت تحصیلی به تفضیل بیان خواهد شد. در فصل چهارم به ارائه جزئیات پیادهسازی، تکنیک پیشنهادی و تجزیهوتحلیل نتایج حاصل از شبیهسازی پرداخته شده است و درنهایت فصل پنجم به بیان نوآوریهای تحقیق حاضر و ارائه برخی پیشنهادها جهت تحقیقات آتی مرتبط در این زمینه اختصاصیافته است.
۲- فصل دوم: ادبیات و پیشینه تحقیق
۲-۱- مقدمه
در این فصل جزییات و پیشینه تحقیق مورد بررسی قرار گرفته است وابتدا به معرفی الگوریتم های حل از جمله شبکه های عصبی و الگوریتم ژنتیک و همچنین معرفی رگرسیون های خطی و غیر پرداخته شده و پیشینه تحقیق و کار های مرتبط با تحقیق حاضر بررسی شده است.
۲-۲- عوامل مؤثر در انتخاب رشته
عوامل مؤثر در انتخاب رشته را به دو دسته عوامل فردی و درونی و عوامل اجتماعی و بيرونی میتوان تفکيک کرد. با توجه به اين تقسيمبندی، در اين بخش پيرامون هر يک از عوامل مشخص شده توضيح مختصری ارائه میگردد:
۱٫ عوامل فردی و درونی
انگیزه: انگيزه به عاملی تعبير میشود که اساس رفتار آگاهانه افراد را تشکيل میدهد معمولاً فراهم آمدن مجموعه ای از شرايط و مقتضيات که موجب انگيزش فرد برای وصول به هدفی میشود، مبنای شکل گيری و ايجاد اين عامل، يعنی انگيزه میگردد. بسته به نوع شرايط و مقتضيات انواع مختلفی از انگيزش و محرکها وجود دارد. انگيزه واقعی مبين نيروی درونی است که مشوق و محرک فرد برای حرکت به سوی مطلوب است. البته عامل اين شوق و حرکت تنها نيروهای نهايی و درونی نيست، بلکه محيط بيرونی فرد بر ايجاد آن اثر میگذارد اين تأثيرات محيط بيرونی شامل: (خانواده، مدرسه، دوستان و جامعه) است که میتوان موجب ایجاد انگیزه کاذب شود. لذا داوطلبان به یک بررسی درونی همه جانبه، تأمل در درخواستها و عواملی که موجب میشود آنها به زمینه خاص علمی بگرایند، نیازمند می باشند. انتخاب رشتهای که در راستای انگیزه واقعی فرد صورت بگیرد به عنوان انتخاب رشته اصلح مطرح است.
علاقه: علاقه را میتوان به ترجيح ميان اشياء مختلف هنگام انتخاب تعبير نمود. گرچه انگيزه و علاقه ارتباط تنگاتنگی با يکديگر دارند و شايد بتوان علاقه را نوعی انگيزه بالفعل قلمداد نمود، ولی بهتر است در مسائل حساسی مانند انتخاب رشته که به آينده داوطلب مربوط میشود، هر کدام را در جايگاه ويژه خود قرار داد ، بدون آن که رابطه مستقيم آنها را ناديده گرفت. داوطلب نمی تواند در انتخاب رشته بدون انگيزه باشد اما ممکن است که هنوز علائق وی شکل واضحی نيافته باشند و داوطلب از ميان رشتههای متنوع به علاقه واقعی خود دست نيافته باشد. به هر حال، احتمالاً هر داوطلبی بايد به يک يا چند رشته تحصيلی علاقه داشته باشد. در اين جا علاقه به معنای خواستن و دوست داشتن شفاف است بدون اين که عوامل خارجی اين خواستن را کدر نماید. انگيزه کاذب میتواند ايجاد علاقه کاذب کند بدين ترتيب که ممکن است داوطلب در فضايی قرار گيرد که ديگران همواره از رشتههای خاص دانشگاهی برای وی بتی را ساخته باشند و با صدها دليل (فهميده و نفهميده) رشتههای مطلوب خود را برای داوطلب بيارايند، و به تدريج علاقه کاذبی را در وجود او ایجاد نمایند. در اين مرحله خانواده داوطلب و دوستان واقعی او بايد به وی کمک کنند تا او علائق واقعی و اصيل خود را از علائق کاذب باز شناسد. علاقه واقعی در راستای انگيزه واقعی است. چنانچه علاقه براساس انگيزه واقعی شکل بگيرد، از آن بايد به عنوان يکی از مهمترين عوامل مؤثر در انتخاب رشته ياد کرد.
شناخت: عامل بعد، شناخت کافی داوطلب از رشتهها است. شناخت مبین آگاهی، معرفت کافی از موضوع مورد بررسی و انتخاب است. علاقه بدون شناخت نمی تواند واقعی باشد، ممکن است که داوطلب بدون شناخت رشتهها در خود انگيزه قوی برای تحصيلات عاليه بيابد ولی نمی تواند نسبت به رشتهای که هيچ شناختی از آن ندارد، علاقهمند باشد. لذا،داوطلب بايد تلاش کند که از هرطريق ممکن شناخت کافی از رشتهها را به دست آورد.
توان علمی: مسئله توان علمی متفاوت از انگيزه و علاقه است. میتوان انتظار داشت که هر صاحب علاقهای لزوماً برای ادامه تحصيل در رشته مورد علاقهاش توانمند نيز باشد. توان علمی گرچه به استعداد تحصيلی ربط میيابد، ولی سخت کوشی و پيگيری مستمر در فراگيری نقش اصلی را در بالا بردن بنيه علمی داوطلب ايفا میکند. به هر حال برای ورود به هر رشته تحصيلی فرد بايد از توان و بنيه علمی لازم برخوردار باشد.اما در اين جا منظور توان علمی داوطلب به صورت مطلق نيست، بلکه آمادگی علمی داوطلب در دروسی است که پايههای تخصصی رشته را شکل میدهند. به عنوان مثال، در رشته تجربی داوطلب بايد در دروسی مانند شيمی و زيست شناسی قابليت علمی خوبی داشته باشد، برای رشته رياضی بايد در زمينههای رياضی و فيزيک قوی باشد.
در رابطه با سطح توانمندی علمی لازم برای ورود به رشته بايد به دو نکته توجه کرد. يکی آن که قدرت علمی در دروس متناسب با رشته مورد نظر مهمتر از توان علمی عمومی است ديگر آن که شرط توفيق وابسته به ميزان تسلط بر دروس فوق الاشاره است به عبارت ديگر ممکن است که فردی در ورود به رشته خاصی توفيق يابداما اين توان علمی فرد در دروس اختصاصی رشته می باشد که ضامن ادامه تحصيل موفقيت آميز وی در آن رشته است. به طور خلاصه بايد گفت که برای ورود به يک رشته مشخص بايد از توان علمی لازم برخوردار بود. سوابق تحصيلی و نتيجه آزمونها مناسب ترين ملاکهای در دسترس برای ارزيابی اين توانايی هستند. از اين مطلب میتوان به لزوم تناسب توان علمی با سطح دشواری رشته تحصيلی ياد کرد.
استعداد تحصیلی: در اين جا استعداد تحصيلی متفاوت از بنيه علمی لحاظ شده است. منظور از استعداد، توانايی ويژه در انجام دادن بعضی از فعاليتها و اموری است که فرد را از افراد مشابه متمايز میسازد. ممکن است که فردی به لحاظ استعداد متوسط باشد، اما در سايه تلاش و سخت کوشی از بنيه علمی بسيار بالايی برخوردار گردد و بالعکس ممکن است فردی با استعداد باشد اما به علت کاهلی و تنبلی نه تنها بهرهای از استعداد خود نبرد بلکه در مسابقه با افراد پر تلاش و با استعداد متوسط هيچ گونه توفيقی نيابد. به هر حال بهترين حالت آن است که استعداد تحصيلی با تلاش سخت و مستمر برای کسب علم توأم شود تا اين استعدادها در صحنه جامعه بدرخشند و بديهی است که اين گونه افراد در همه صحنههای رقابت علمی پيروز خواهند شد.
در اين جا به نکتهای بايد اشاره کرد که مستقيماً به انتخاب رشته تحصيلی مربوط میشود. معمولاً استعداد در زمينه
درس خاصی ظهور و بروز بيشتری دارد تا در همه زمينه ها. به عنوان مثال، دانش آموزانی هستند که در رياضی از استعداد بالايی برخوردارند اما در درس شيمی، در مقايسه با ديگران، متوسط ارزيابی میشوند يا در زمينه نقاشی از استعداد سرشاری برخوردارند اما در دروس عمومی يا تخصصی با ضعف مواجه می باشند. شناخت اين استعداد بسيار مهم است. داوطلب بايد به استعداد علمی نسبی خود دقيقاً توجه نماید. منظور از نسبی در اينجا آن است که تمام افراد از نوعی استعداد برخوردارند اما در زمينههای مختلف علمی و عملی اين استعداد در افراد مختلف از شدت و ضعف برخوردار است. در انتخاب رشته تحصيلی به تناسب بين استعداد علمی و محتوای رشته بايد توجه داشت بهترين رشته تحصيلی برای داوطلب آن است که وی استعداد خود را همسو با آن بيابد. بسياری از ناسازگاریهای درون دانشگاهی و فشارهای روانی ناخواسته که به برخی از دانشجويان وارد میشود، در انتخاب غلط رشته تحصيلی به علت غفلت از عوامل فوق الذکر ريشه دارد. هجوم دانشجويان برای تغيير رشته فعلی آنان از عدم انگيزه و علاقه به رشته تحصيلی حکايت دارد. با استعدادترين داوطلبان کنکور که در رشته خاصی پذيرفته شده اند ولی نه تنها در دانشگاه از برجستگیهای علمی مطرح در دبيرستان و در سطح کنکور خبری نبود بلکه واهمه عدم توفيق در اتمام دوره دانشگاهی نيز وجود داشته است. در انتهای اين قسمت بايد متذکر اين نکته مهم شد که محور کردن فقط يک عامل (مثلاً علاقه) و لحاظ کردن بعضی عوامل به صورت کم اثر و اقماری منجر به انتخاب رشته خوب و مفيدی نخواهد شد.
۲٫ عوامل بیرونی و اجتماعی
محيط بيرونی: منظور از محيط بيرونی، کليه عوامل و افرادی است که با داوطلب ارتباط دارند و به نوعی در تصميمگيریهای وی در ارتباط با انتخاب رشته تأثير میگذارند. در اين خصوص می توان خانواده، مدرسه، دوستان و جامعهای که داوطلب را مستقيماً احاطه کرده و با او برخورد دارند، نام برد. محيط بيرونی میتواند در دو جهت مختلف عمل کند. جهتی مثبت که عبارت است از کمک به داوطلب برای کاوش درونی، کشف علاقه واقعی و ميزان استعداد تحصيلی و دور ساختن داوطلب از تصميم گيری براساس احساس بدون شناخت است و جهت منفی که القاء علايق و برداشتهای شخصی خود به داوطلب است بدون آن که انگيزه، علاقه، توان علمی و استعداد داوطلب چندان مورد توجه قرار گيرد.
اشتغال: عامل اشتغال در انتخاب رشته، نقش دوگانهای را ايفا میکند برای برخی هدف تصدی شغلهای خاص است که بدون رفتن در آن رشته، وصول به آن امکانپذير نيست. برای برخی ديگر رفتن به رشته خاص چنان مهم است که اصولاً در زمان انتخاب رشته به مسأله اشتغال مرتبط با آن رشته توجه نمی کنند. در ارتباط با مسأله اشتغال نکاتی به اختصار مطرح میشود: کليه داوطلبان به شغلی که به آن رشته منتهی میشود (يا میتواند بشود) حتماً توجه کنند هر چند که هدف به هيچ وجه نبايد فقط به مسأله اشتغال محدود شود.
داوطلب از نظر روحی و روانی بايد آمادگی لازم برای پذيرش کار مرتبط با رشته مورد نظر را داشته باشد به عنوان مثال کسی که مشاهده خون برای او غير قابل تحمل بوده و حتی از آن میهراسد، نبايد رشتهای را انتخاب کند که در زمان اشتغال همواره امکان اين برخورد وجود دارد.
عنوان اجتماعی، برداشت اجتماعی: عنوان پارهای از رشتهها و همين طور عناوين اجتماعی که تعدادی از شغلهای مرتبط با رشتهها به دنبال خود دارند، برای برخی از داوطلبان مهم است. حال اين اهميت به معنای علاقه و توجه يا به معنای عدم علاقه و دوری جستن ازآن است. به نظر میرسد که تعدادی از رشتهها دارای عناوين جذاب اجتماعی هستند و همين عناوين است که میتواند يک کشش کاذب در داوطلب ايجاد کند و او را از مسير صحيح تصميمگيری منحرف سازد. به هر حال، داوطلب بايد ميزان اهميت عنوان اجتماعی را که فارغ التحصيلان رشته مورد نظر به دوش میکشند، برای خود تجزيه و تحليل کند ( ۲۰۱۴ ،P Salman Raju, Dr V Rama Bai ).
۲-۳- داده کاوی
داده کاوي فرايند اكتشاف، تجزيه وتحليل خودكاريا نيمه خودكار از مقادير زيادي از داده ها به منظور كشف الگوها و قوانين معنادار مي باشد. تکنولوژی جمع آوری داده ها و ذخیره سازی این امکان را برای سازمان ها فراهم آورده است تا مقدار زیادی داده ها را با هزینه های کمتر ذخیره کنند. بهره برداری از این داده های ذخیره شده، به منظور استخراج اطلاعات مفید و قابل اجرا، هدف کلی فعالیت ها می باشد که داده کاوی نامیده می شود. تعاريف دقيق تر که در آنها به کاوش در داده ها توجه مي شود موجود است. برخي از اين تعاريف به شرح زیر می باشد:
· داده كاوي فرآيند استخراج وتشخيص الگوهاي پنهان يا اطلاعات از پايگاه داده مي باشد. به بيان بهتر تجزيه و تحليل ماشيني داده ها براي پيدا کردن الگوهاي مفيد،تازه و قابل استناد در پايگاه داده هاي بزرگ، داده کاوي ناميده مي شود.
· مي توان داده كاوي را فرآيند به خدمت گرفتن يك متدولوژي كامپيوتري تعريف كرد كه با استفاده ازتكنيك هاي مختلف مستقيما از داده ها دانش استخراج مي كند. داده كاوي فناوري هايي همچون انبارداده ونرم افزارهاي مديريتي، مديريت ارتباط با مشتري را در يك حوزه جديدي كه شركتها مي توانند مزيتهاي رقابتي را كسب كنند ايجاد مي كند.
· داده کاوی رشته ای فرعی میان کامپیوتر و علم است که شامل فرآیند پردازش محاسباتی از داده های بزرگ وکشف مجموعه ای از الگوهاست. هدف از این تجزیه و تحلیل،فرآیند استخراج اطلاعات از یک مجموعه داده و تبدیل آن به یک ساختار قابل درک برای استفاده بیشتر می باشد.روش های استفاده از آن در هوش مصنوعی،یادگیری ماشین،آمار،سیستم پایگاه داده و هوش تجاری می باشد. در حال حاضر داده کاوی بعنوان یکی از موارد حل مشکلات با تجزیه و تحلیل داده ها در پایگاه داده ها موجود است.
· اهمیت داده کاوی در جامعه امروز مورد توجه بسیاری از سازمان ها قرار گرفته است زیرا این امر به ایجاد روشهای پیش بینی در زمینه های مختلف از جمله پزشکی،مخابرات،تولید،خدمات بهداشتی، مدیریت منابع انسانی و … کمک می کند.
۲-۳-۱- فرآیند کشف دانش از پایگاه داده ها
همانگونه که مشاهده می شود داده کاوي یکی از مراحل فرآیند است که نقش مهمی در کشف دانش از داده ها ایفا می کند. انبارش داده ها[۲]وجود اطلاعات صحیح و منسجم یکی از ملزوماتی است که در داده کاوی به آن نیازمندیدم. اشتباه و عدم وجود اطلاعات صحیح باعث نتیجه گیري غلط و در نتیجه اخذ تصمیمات ناصحیح در سازمان ها می گردد .اکثر سازمان ها دچار یک خلاء اطلاعاتی هستند. در اینگونه سازمان ها معمولا سیستم هاي اطلاعاتی در طول زمان و با معماري و مدیریت هاي گوناگون ساخته شده اند، به طوري که در سازمان اطلاعاتی یکپارچه و مشخصی مشاهده نمی گردد. هدف از فرآیند انبارش داده ها فراهم کردن یک محیط یکپارچه جهت پردازش اطلاعات است. در این فرآیند، اطلاعات تحلیلی و موجود در دوره هاي مناسب زمانی سازماندهی و ذخیره می شود تا بتوان از آنها در فرآیند هاي تصمیم گیري که از ملزومات آن داده کاوي است، استفاده شود.
۲-۴- فرآیند داده کاوی از پایگاه داده ها به چند مرحله تقسیم می شود که به شرح زیر می باشد:
۲-۴-۱- مرحله اول: انبارش داده ها
این مرحله برای تشکیل محیطی پیوسته و یکپارچه جهت انجام مراحل بعدی و داده کاوی در آن، انجام می گیرد.در حالت کلی انبار داده ها، مجموعه اي است موضوعی، مجتمع، متغیر در زمان و پایدار از داده ها که به منظور پشتیبانی از فرآیند مدیریت تصمیم گیري مورد استفاده قرار می گیرد.
۲-۴-۲- مرحله دوم: انتخاب داده ها
در این مرحله برای کم کردن هزینه های عملیات داده کاوی، داده هایی از پایگاه داده انتخاب می شوند که مورد مطالعه هستند و هدف داده کاوی دادن نتایجی در مورد آنهاست. به عنوان مثال در یک پایگاه داده هاي مربوط به سیستم فروشگاهی، اطلاعاتی در مورد خرید مشتریان، خصوصیات آماري آنها، تامین کنندگان، خرید، حسابداري و… وجود دارند. براي تعیین نحوه چیدن قفسه ها تنها به داده هایی در مورد خرید مشتریان و خصوصیات آماري آنها نیاز است. حتی در مواردي نیاز به کاوش در تمام محتویات پایگاه نیست بلکه ممکن است به منظور کاهش هزینه عملیات، نمونه هایی از عناصر انتخاب و کاوش شوند.
۲-۴-۳- مرحله سوم: تبدیل داده ها
برای انجام عملیات داده کاوی لزوما باید تبدیلات خاصی روی داده ها انجام گیرد ممکن است این تبدیلات خیلی راحت و مختصر مثل تبدیل byte به integer باشد یا خیلی پیچیده و زمان بر و با هزینه های بالا مثل تعریف صفات جدید و یا تبدیل و استخراج داده ها از مقادیر رشته ای و … باشد.
۲-۴-۴- مرحله چهارم: کاوش در داده ها
در این مرحله داده کاوی انجام می شود. داده هاي تبدیل شده با استفاده از تکنیک ها و عملیات هاي داده کاوي مورد کاوش قرار می گیرند تا دانش نهفته در آنها استخراج شده و الگو سازی صورت می گیرد.
۲-۴-۵- مرحله پنجم: تفسیر نتیجه
در این مرحله نتایج و الگو های ارائه شده توسط ابزار داده کاوی مورد بررسی قرار گرفته و اطلاعات استخراج شده با توجه به هدف کاربر تجزیه و تحلیل و بهترین نتایج معین میگردند. هدف از این مرحله تنها ارائه نتیجه بصورت منطقی و یا نموداري نیست، بلکه پالایش اطلاعات ارائه شده به کاربر نیز از اهداف مهم این مرحله است.
همچنین در داده کاوی از الگوریتم های ژنتیک و شبکه های عصبی هم استفاده می شود.شبکه های عصبی به علت کارآمدی در حل مسائل پیچیده و بزرگ مورد استفاده قرار می گیرند و کاربرد الگوریتم های ژنتیک در داده کاوی برای جستجو و ساختن یک مدل بهینه در میان مدل های بدست آمده است، به این گونه که مدل های اولیه روی کروموزوم هایی قرار می گیرند و با رقابت بر سر انتقال صفات به نسل بعد ، بهترین مدل و لایق ترین آنها به کاربر ارائه می شوند.
۲-۵- الگوریتمهای تکاملی
مقوله الگوریتمهای تکاملی[۳] و همینطور زیرشاخهی آن یعنی الگوریتمهای ژنتیک[۴] با انتشار کتاب مهم و جنجالی چارلز داروین انگلیسی که در آن فرضیه تکامل خود را مطرح کرده بود در تاریخ ۲۴ نوامبر سال ۱۸۵۹ میلادی بهطور جدی مطرح شد. او در کتاب خود که در فارسی با نام “بنیاد انواع” شهرت پیدا کرده است، مبانی فکری و فرضیه خود دال بر تکامل سیر پیش رونده و روبه جلوی “خلقت تدریجی” را ارائه کرد.
در سال ۱۸۶۵ میلادی تحقیقات گریگوری مندل کشیش اتریشی درباره وراثت و تکامل و اصولی که بهطور تجربی به دست آورده بود چند سال پس از مرگش انتشار یافت. این تحقیقات توجه بسیاری را معطوف به این موضوعات نمود.در سال ۱۹۰۳″کروموزوم” بهعنوان واحد وراثت معرفی شد. در سال ۱۹۰۵ برای اولین بار واژه ژنتیک توسط یک زیست شناس انگلیسی به نام ویلیام بیتسون وضع گردید و مورد استفاده قرار گرفت. در سال ۱۹۲۷ واژه “جهش” برای بیان تغییرات فیزیکی در ژنها وضع شد. در سال ۱۹۳۱ واژه “برش” یا “همبری” وضع گردید. در سال ۱۹۵۳ میلادی ساختار DNA بهطور کامل به شکل مارپیچی توسط جیمز واتسون و فرانسیس کریک توضیح داده شد که برای آنان جایزه نوبل را نیز به ارمغان آورد و در نهایت در سال ۱۹۷۷ میلادی اولین تلاشها برای دستیابی به مدل کامل ژنتیک یعنی ژنوم انسانی به بار نشست.
الگوریتمهای تکاملی روشهای جستجوی تصادفی هستند که تشبیهی از تکامل زیستی طبیعت را تقلید میکنند. این الگوریتمها روی جمعیتی از جوابهای ذاتی عمل کرده و مفهوم بقای اصلح (موجوداتی که به سختیها غلبه کنند، میتوانند زنده بمانند) را برای رسیدن به مناسبترین جواب اعمال میکنند. پروفسور John Holland از دانشگاه میشیگان[۵] تحت تأثیر داروین پروسهی تکامل زیستی را بهعنوان پروسهای بهینه سازی دید که طی آن طبیعت بهترین تنظیمات تکاملی را برای زنده ماندن نسل بعدی انتخاب میکند. این پروسه به تکامل جمعی از افرادی منجر میشود که برای محیط خود، از نسل قبل خود مناسبتر هستند، همانطور که در انطباق طبیعی این مسئله رخ میدهد (Y.Lee2005).
الگوریتمهای تکاملی، پروسههای طبیعی مثل انتخاب، ترکیب مجدد، جهش، مهاجرت، محلی بودن و همسایگی را مدل میکنند. الگوریتمهای تکاملی روی مجموعهای از افراد بهجای یک جواب کار میکنند، در نتیجه جستجو بهصورت موازی انجام میشود. پروسه توسعه یک الگوریتم تکاملی برای یک کاربرد بخصوص از مراحل زیر تشکیل میشود:
Simple_Evolutionary_Algorithm()
{
Initialize the population;
Calculate Fitness Function;
While (Fitness Value != Optimal Value)
{
Selection;
Crossover;
Mutation;
Calculate Fitness Function;
}
}
الگوریتمهای تکاملی باهدف تقلید تکامل و انتخاب اصلح در طبیعت پدیدار شده است. این روشها برای رسیدن به راهحلهای نو و بهینه برای بهینهسازی مسائل به کار میروند. الگوریتمهای تکاملی در مسائل بهینهسازی مهندسی زیادی به کار میروند. الگوریتمهای ژنتیک ، راه حلهای تکاملی، برنامه نویسی تکاملی و برنامه نویسی ژنتیک چهار الگوریتم تکاملی شناخته شده هستند که در شکل ۲۱- نشان داده شده است. این روشها تقریباً مشابه هستند و فقط در پیادهسازی باهم تفاوت دارند ( ۲۰۱۳ ،Rakesh Kumar Soni).

شکل ۲‑۱ مراحل اصلی يک الگوريتم تکاملی ( ۲۰۱۳ ،Rakesh Kumar Soni)
۲-۶- ساختار الگوريتمهاي ژنتيك
به طور كلي, الگوريتمهاي ژنتيك از اجزاء زير تشكيل ميشوند:
كروموزوم
در الگوريتمهاي ژنتيك , هر كروموزوم نشان دهنده يك نقطه در فضاي جستجو و يك راهحل ممكن براي مسئله مورد نظر است. خود كروموزومها (راه حلها) از تعداد ثابتي ژن[۶] (متغير) تشكيل ميشوند. براي نمايش كروموزومها, معمولاً از كدگذاريهاي دودويي (رشتههاي بيتي) استفاده ميشود.
جمعيت
مجموعهاي از كروموزومها يك جمعيت را تشكيل ميدهند. با تاثير عملگرهاي ژنتيك بر روي هر جمعيت, جمعيت جديدي با همان تعداد كروموزوم تشكيل ميشود.
تابع برازندگي
به منظور حل هر مسئله با استفاده از الگوريتمهاي ژنتيك, ابتدا بايد يك تابع برازندگي براي آن مسئله ابداع شود. براي هر كروموزوم, اين تابع عددي غير منفي را برميگرداند كه نشان دهنده شايستگي يا توانايي فردي آن كروموزوم است.
۲-۶-۱- عملگرهاي ژنتيك
در الگوريتمهاي ژنتيك, در طي مرحله توليد مثل[۷] ازعملگرهاي ژنتيك استفاده ميشود. با تاثير اين عملگرها بر روي يك جمعيت, نسل[۸] بعدي آن جمعيت توليد ميشود. عملگرهاي انتخاب[۹] ، آميزش[۱۰] و جهش[۱۱]معمولاً بيشترين كاربرد را در الگوريتمهاي ژنتيك دارند.
عملگرهاي ژنتيك
در بخش قبلي اشاره شد كه در الگوريتمهاي ژنتيك به منظور توليد مثل, معمولاً از عملگرهاي انتخاب, آميزش و جهش استفاده ميشود. در اين بخش, هر يك از عملگرهاي فوق به صورت جداگانه معرفي ميشود:
عملگر انتخاب
اين عملگر از بين كروموزومهاي موجود در يك جمعيت, تعدادي كروموزوم را براي توليد مثل انتخاب ميكند. كروموزومهاي برازندهتر شانس بيشتري دارند تا براي توليد مثل انتخاب شوند.
عملگر آميزش
عملگر آميزش بر روي يك زوج كروموزوم از نسل مولد عمل كرده و يك زوج كروموزوم جديد توليد ميكند. عملگرهاي آميزش متعددي از قبيل،آميزش تك نقطهاي[۱۲] و آميزش دو نقطهاي[۱۳] وجود دارد.
در آميزش تك نقطهاي، يك موقعيت تصادفي بين دو ژن در نظر گرفته ميشود. سپس تمامي ژنهاي طرف راست يا طرف چپ اين موقعيت در كروموزومهاي والد با يكديگر جابجا ميشوند تا كروموزومهاي جديد بدست آيند. در شكل ۳-۲ آميزش تك نقطهاي نشان داده شده است.
در آميزش دو نقطهاي, دو موقعيت به صورت تصادفي انتخاب ميشود و تمامي ژنهاي بين اين دو موقعيت در كروموزومهاي والد با يكديگر جابجا ميشوند.
لازم به ذكر است كه آميزش معمولاً بر روي همه زوج كروموزومهاي انتخاب شده براي جفتگيري به كار برده نميشود. معمولاً احتمال آميزش براي هر زوج كروموزوم بين ۶/۰ تا ۹۵/۰ در نظر گرفته ميشود كه به اين عدد نرخ آميزش[۱۴] يا احتمال آميزش[۱۵]گفته ميشود و با Pc نمايش داده ميشود. در صورتي كه بر روي يك زوج كروموزوم عمل آميزش صورت نگيرد, فرزندان با تكرار نمودن والدين توليد ميشوند.
عملگر جهش
پس از اتمام عمل آميزش, عملگر جهش بر روي كروموزومها اثر داده ميشود. اين عملگر يك ژن از يك كروموزوم را به طور تصادفي انتخاب نموده و سپس محتواي آن ژن را تغيير ميدهد. اگر ژن از جنس اعداد دودويي باشد, آن را به وارونش تبديل ميكند و چنانچه متعلق به يك مجموعه باشد، مقدار يا عنصر ديگري از آن مجموعه را به جاي آن ژن قرار ميدهد. در شکل ۲۲- چگونگي جهش يافتن پنجمين ژن يك كروموزوم نشان داده شده است.
احتمال انجام عمل جهش بر روي هر كروموزوم را نرخ جهش[۱۶]يا احتمال جهش[۱۷] ميگويند و با Pm نمايش داده می شود، معمولاً اين عدد را بسيار كوچك (مثلاً ۰۰۱/۰) در نظر ميگيرند.
پس از اتمام عمل جهش, كروموزومهاي توليد شده به عنوان نسل جديد شناخته شده و براي دور بعد اجراي الگوريتم ارسال ميشوند.
![]() |
۲-۶-۲- روند كلي الگوريتمهاي ژنتيك
در شکل ۲۳- يك الگوريتم ژنتيك استاندارد و در شکل ۲۴- نمودار گردشي الگوريتمهاي ژنتيك نشان داده شده است.

شکل (۲‑۳) نمودار گردشي الگوريتمهاي ژنتيك
قبل از اين كه يك الگوريتم ژنتيك بتواند اجرا شود, ابتدا بايد كدگذاري (يا نمايش) مناسبي براي مسئله مورد نظر پيدا شود. همچنين يك تابع برازندگي نيز بايد ابداع شود تا به هر راه حل كدگذاري شده ارزشي را نسبت دهد. در طي اجرا، والدين براي توليد مثل انتخاب ميشوند و با استفاده از عملگرهاي آميزش و جهش با هم تركيب ميشوند تا فرزندان جديدي توليد كنند اين فرآيند چندين بار تكرار ميشود تا نسل بعدي جمعيت توليد شود. سپس اين جمعيت بررسي ميشود و در صورتي كه ضوابط همگرايي[۱۸] برآورده شوند، فرآيند فوق خاتمه مييابد.

شکل (۲‑۴)روند الگوریتم ژنتیک
۲-۷- شبکههای عصبی
شبکه عصبی مصنوعی را میتوان الهامی از نحوه محاسبات توسط مغز دانست که بهصورت بنیادین با کامپیوترهای فعلی تفاوت دارد. این شبکه در مغز به شبکه نورونی شناخته شده که از تعداد بسیار زیادی نورون تشکیل شده است. نورونها واحدهای پردازشگری هستند که توسط سیناپسها به هم متصل میشوند. در شبکه عصبی مصنوعی سیناپسها بهعنوان وزنهای یادگیری شبیهسازی میشوند که طی یک فرایند تکراری و با استفاده از دادههای آموزشی مشخص میشوند. یک شبکه عصبی مصنوعی از دو لایه ابتدایی و انتهایی و چندین لایه میانی (پنهانی) که شامل تعداد مشخصی نورون می باشد، تشکیل شده است. تعداد نورونها در لایههای ابتدایی و انتهایی به ترتیب برابر با اندازه ابعاد داده ورودی و تعداد طبقهها است و تعداد نورونهای لایههای میانی با توجه به مشخصات داده و پارامترهای دیگر تعیین میشوند. سادهترین و پرکاربردترین نوع شبکه عصبی مصنوعی چند لایه[۱۹] (MLP) متشکل از سه لایه ورودی، خروجی و میانی است. ثابت شده است که شبکه عصبی مصنوعی قابلیت تخمین زدن هر نوع تابعی را دارد (۲۰۱۴ ، Tran, H. and Hoang, N).
شبکههای عصبی مصنوعی را از نظر کارکرد میتوان در دو دسته پیشرو و بازگشتی قرار داد. نورون در شبکه عصبی مصنوعی وظیفه جمع کردن حاصلضرب مقادیر ورودی از نورونهای لایه قبل در وزنهای بین دو لایه و سپس استفاده از یک تابع معمولاً غیرخطی (مانند سیگمویید[۲۰]) برای تولید نتیجه را بر عهده دارد. تابع ذکر شده را تابع فعالیت نورون مینامند که خروجی آن خروجی نورون مربوطه را نشان میدهد. میتوان توابع سیگمویید، خطی و تانژانت هیپربولیک را بهعنوان نمونههایی از توابع فعالیت نورون نام برد.
قانون یادگیری قانونی است که شبکه برای تغییر وزنهای خود برای رسیدن به نتیجه مطلوب، از آن استفاده میکند. شبکههای مختلف از سه نوع یادگیری بدون نظارت[۲۱]، با نظارت[۲۲] و مرکب[۲۳] استفاده میکنند. در الگوریتمهای یادگیری شبکه تلاش بر کمینه کردن خطای خروجی است که برای رسیدن به این هدف معمولاً از اصل حداقل اغتشاش[۲۴] استفاده میشود. طبق این اصل در هر یادگیری، پارامترهای یادگیری بهگونهای تغییر میکنند که خطای خروجی، با کمترین اغتشاش در پاسخهای قبلی شبکه، کاهش یابد. یکی از روشهای کاهش خطای خروجی استفاده از روش تندترین فرود[۲۵] است.
در بیشتر شبکههای عصبی چند لایه قانون یادگیری پس از انتشار خطا استفاده می شود. این قانون از روش تندترین فرود برای کمینه کردن خطای خروجی استفاده میکند. نحوه تصحیح خطا در این قانون بهطوری است که ابتدا مقدار خطا در هر یک از نورونهای لایه خروجی محاسبه شده و با توجه به مشتق مقدار خطا نسبت به وزنهای اتصالی لایه پیشین به این لایه، این وزنها اصلاح میشوند. سپس همانطور که در شکل ۲۵- مشاهده میشود، مقادیر به دست آمده به نورونهای لایه قبل انتشار داده میشود و با توجه به این مقادیر وزنهای متصل به لایه قبل نیز اصلاح میشوند. این فرآیند تا اصلاح وزنهای ارتباط دهنده لایههای اول و دوم ادامه پیدا میکند (۱۳۹۴ ، بهادر . حمید، علیایی . صغری، باقری . افسانه).

شکل ۲‑۵ شبکه عصبي چند لايه مصنوعي ( ۱۳۹۴ ، بهادر . حمید، علیایی . صغری، باقری . افسانه)
۲-۸- ساختار شبکههای عصبی مصنوعی
نرون ها به روش خاصی به هم متصل میشوند تا یک شبکه عصبی مصنوعی را تشکیل دهند. میتواند نحوه اتصال نرون به گونهای باشد که شبکهای تک لایه یا چند لایه را به وجود آورد. شبکههای چند لایه تشکیل شده از لایه ورودی که الگوهای ورودی به آنها اعمال میگردند، لایه خروجی که پاسخ شبکه را تعیین میکند و یک یا چند لایه پنهان که میان لایه ورودی و خروجی قرار دارند و آنها را به هم مرتبط میسازند. تعداد نرون ها و لایهها، آرایش نرون ها و ابعاد آنها، ساختار شبکه عصبی را تشکیل میدهد که در شکل ۲۶- مشخص شده است ( ۱۳۹۴ ، بهادر . حمید، علیایی . صغری، باقری . افسانه).

شکل ۲‑۶ساختار شبکه عصبی ( ۱۳۹۱ ، مقصودي بهروز, سليماني صادق, اميري علي, افشارچي محسن)
۲-۸-۱- انواع شبکه عصبی
شبکههای عصبی مصنوعی بر مبنای روش آموزش به چهار دسته تقسیم میشوند:
وزن ثابت: آموزشی در کار نیست و مقادیر وزنها به هنگام نمیشود. کاربرد: بهینه سازی اطلاعات (کاهش حجم، تفکیک پذیری و فشرده سازی) و حافظههای تناظری.
آموزش بدون سرپرست: وزنها فقط بر اساس ورودیها اصلاح میشوند و خروجی مطلوب وجود ندارد تا با مقایسه خروجی شبکه با آن و تعیین مقدار خطا وزنها اصلاح شود. وزنها فقط بر اساس اطلاعات الگوهای ورودی به هنگام میشوند. هدف استخراج مشخصههای الگوهای ورودی بر اساس راهبرد خوشه یابی و یا دستهبندی و تشخیص شباهتها (تشکیل گروههایی با الگوی مشابه) است، بدون اینکه خروجی یا کلاسهای متناظر با الگوهای ورودی از قبل مشخص باشد. این یادگیری معمولاً بر پایه شیوه برترین هم خوانی انجام میگیرد. شبکه بدون سرپرست وزنهای خود را بر پایه خروجی حاصل شده از ورودی تغییر میدهد تا در برخورد بعدی پاسخ مناسبی را برای این ورودی داشته باشد. در نتیجه شبکه یاد میگیرد چگونه به ورودی پاسخ بدهد. اصولاً هدف این است که با تکنیک نورون غالب نورونی که بیشترین تحریک آغازین را دارد برگزیده شود؛ بنابراین در شبکههای بدون سرپرست یافتن نورون غالب یکی از مهمترین کارها است.
آموزش با سرپرست: به ازای هر دسته از الگوهای ورودی خروجیهای متناظر نیز به شبکه نشان داده میشود و تغییر وزنها تا موقعی صورت میگیرد که اختلاف خروجی شبکه به ازای الگوهای آموزشی از خروجیهای مطلوب در حد خطای قابل قبول باشد. در این روش از خروجیها به وزنها ارتباط وجود دارد یا خلأ بهصورت پس انتشار از لایه خروجی به ورودی توزیع شده است و وزنها اصلاح میشوند. هدف طرح شبکهای است که ابتدا با استفاده از دادههای آموزشی موجود، آموزش ببیند و سپس با ارائه بردار ورودی به شبکه ممکن است شبکه آن را قبلاً فراگرفته یا نگرفته باشد کلاس آن را تشخیص دهد. چنین شبکهای بهطور گسترده برای کارهای تشخیص الگو به کار گرفته میشود.
آموزش تقویتی: کیفیت عملکرد سامانه بهصورت گام به گام نسبت به زمان بهبود مییابد. الگوهای آموزشی وجود ندارد اما با استفاده از سیگنالی به نام نقاد بیانی از خوب و یا بد بودن رفتار سامانه به دست میآید (حالتی بین یادگیری با سرپرست و بدون سرپرست) ( ۱۳۹۵ ،مینايي . بهروز، سادام میرافضل . سمیه، هاني . سید حسن ).
۲-۸-۲- مزایای شبکههای عصبی
مزایای شبکههای عصبی را میتوان به شرح زیر بیان کرد:
قابلیت مدلسازی سیستمهای غیرخطی با پیچیدگی دلخواه : بر طبق یکی از قضایای اساسی که در زمینه شبکه عصبی به اثبات رسیده است، هر تابع غیرخطی پیچیده گسسته را میتوان بهوسیله یک شبکه عصبی MLP [26] سه لایه با تعداد نرون های کافی در لایه پنهان، با هر درجهای از دقت تقریب زد.
قابلیت تعلیم: قابلیت تعلیم یعنی توانایی تنظیم پارامترهای شبکه در طول زمان که محیط شبکه تغییر میکند و شبکه شرایط جدیدی را تجربه میکند، با این هدف که اگر شبکه برای یک وضعیت خاص آموزش دید و تغییر کوچکی در شرایط محیطی رخ داد، شبکه بتواند با آموزش مختصر، برای شرایط جدید کارآمد باشد.
قابلیت تطبیق: شبکه با تغییراتی که در محیط سیستم اتفاق میافتد، میتواند خود را تطبیق دهد. بهعنوان مثال پس از طراحی شبکه برای تشخیص صدا، میتواند خود را با هر صدایی تطبیق دهد تا خطای کمتری داشته باشد.
قابلیت تحمل آسیب: اگر قسمتی از سیستم از کار بیفتد، قابلیت تطبیق شبکه، سیستم را آموزش میدهد. این وِیژگی سبب میشود خطا کم شود و سیستم کار خودش را انجام دهد.
قابلیت ترمیم: شبکههای عصبی میتواند بازسازی شود یعنی با از دست دادن یک قسمت، شدت اتصالات، بقیه سیستم را ترمیم میکند و خطای حاصل از فقدان قسمت از دست رفته را کاهش میدهد.
قابلیت استفاده از حافظه شراکتی: شبکههای عصبی میتوانند ویژگیها مختلفی را با ارائه یک ویژگی (بدون اینکه این ویژگیها در جایی ذخیره کرده باشد) ظاهر شود:
سرعت بالای پردازش به دلیل پردازش موازی.
یگانگی در تجزیه و تحلیل طراحی.
تشابه با سیستم عصبی انسان (هوشمند است).
۲-۹- يادگيری ماشين و طبقه بندي
یادگیری ماشین[۲۷] یکی از مهمترین و پرکاربردترین شاخههای هوش مصنوعی است که هدف آن آموزش نمونههای موجود به یک ماشین جهت آمادهسازی آن برای انجام فرآیند تصمیمگیری در مورد نمونههای آینده است. نتیجه آموزش ماشین یک مدل طبقهبندی[۲۸] نامیده میشود که ماشین بر اساس تطبیق نمونههای جدید با این مدل، رده یا طبقهبندی[۲۹] را مشخص میکند (تهران، ششمین كنفرانس داده كاوي).
بازشناسی الگو[۳۰] را میتوان به فرایند جمعآوری و ایجاد الگو، بهینهسازی الگو و طبقهبندی الگو و طبقهبندی را ابزاری برای تصمیمگیری دانست. در علم یادگیری ماشین طبقهبندی از کاربردیترین ابزارهای تصمیمگیری ماشین است. بهطور کلی طبقهبندی متشکل از چندین الگو، یک یا ترکیبی از چند طبقهبندی، دادههای آموزش، دادههای ارزیابی و دادههای آزمایش است. هر توصیف کمی یا کیفی از یک موضوع را می توان یک الگو نامید. الگو میتواند خود یک شی باشد و یا ساختار اجزا یک شی و روابط بین آنها را توصیف کند. هدف از بازشناسی الگو میتواند شناسایی منطقهای خاص در تصویر، تشخیص آوا یا کلمه در صدا یا تشخیص هویت باشد. در حال حاضر از تکنیکهای بازشناسی الگو در بسیاری از کاربردهای صنعتی، پردازش مستندات، تشخیص هویت و بسیاری زمینههای دیگر استفاده میشود.
طبقهبند وظیفه تصمیمگیری در مورد طبقه هر داده بر اساس تطبیق الگوی آن داده با الگوهای موجود را دارد. معمولاً یک پروسه طبقهبند با استفاده از دادههای آموزشی[۳۱] آغاز میشود، این دادهها که کلاس آنها از قبل مشخص شده است وظیفه آموزش طبقهبند برای تصمیمگیری صحیح را بر عهده دارند. پس ازآموزش طبقهبند، مرحله دوم با استفاده از دادههای ارزیابی[۳۲] آغاز میشود. این دادهها مانند دادههای آموزش کلاس مشخص دارند ولی به دلیل اینکه طبقهبند روی آنها آموزش ندیده است میتوانند معیار مناسبی برای سنجش طبقهبند باشند. وقتی طبقهبند به بازده مناسبی در پروسه تصمیمگیری رسید میتوان از آن در یک عملیات یادگیری ماشین استفاده کرد که در این مرحله دادههای واقعی به آن داده شده و آزمایش میشود.
روشهای انتصاب الگو به یکی از کلاسها به سه گروه عمده تقسیم میشوند. روشهای حسی-تجربی[۳۳]، روشهای نحوی یا ساختاری[۳۴] و روشهای ریاضی[۳۵].
۲-۹-۱- روشهای حسي تجربي
این روشها بر مبنای حسیات و تجربیات طراح استوار هستند و یک سامانه مبتنی بر این روشها شامل مجموعهای از قواعد تجربی است که با توجه به خصوصیات الگوها حاصل شدهاند. بهعنوان مثال سامانه بازشناسی دست نوشتههای فارسی (مبتنی بر روشهای حسی-تجربی) شامل قواعد حسی است که مخصوص الگوهای دستنویس فارسی است و ممکن است برای بازشناسی دستنوشتههای لاتین مناسب نباشد (۱۳۹۲ ،موسوی . زهراالسادات، خان بابایی . محمد).
۲-۹-۲- روشهاي ساختاري يا نحوي
در خیلی از مسائل پیچیده، تعداد ویژگیهای مورد نیاز ممکن است بسیار زیاد باشند. در چنین شرایطی میتوان یک الگو را مجموعهای از چند الگوی سادهتر در نظر گرفت. هر الگوی ساده میتواند از چندین زیرالگوی سادهتر تشکیل شده باشد. سادهترین زیرالگوها را عناصر پایه مینامند. بیان الگو بر حسب عناصر پایه اساس شناسایی ساختاری الگو را تشکیل میدهد. ویژگیهای ساختاری میتوانند بهصورت صریح با روابط ریاضی یا بهصورت ضمنی با یک گرامر زبان بیان شوند. الگوها جملاتی از یک زبان هستند که عناصر پایه، الفبای آن میباشند. این جملات با توجه به گرامر زبان شناخته میشوند. با استفاده از الفبای زبان و گرامر آن میتوان مجموعهی پیچیدهای از الگوها را با مجموعهی کوچکی از عناصر پایه و قواعد گرامری زبان بیان کرد.
گرامرهای هر کلاس با توجه به نمونههای آموزشی همان کلاس ساخته میشوند. روشهای ساختاری زمانی مفید هستند که الگوها، ساختارهای قابل تعریفی بهوسیلهی مجموعهای از قواعد داشته باشند. به دلیل وجود الگوهای نویزی در شناسایی عناصر پایه و قواعد گرامری، پیادهسازی ساختاری دارای مشکلات زیادی است (۱۳۹۰ ،نریمی سایی, ژاله؛ شادگار بیتا؛, عصاره علیرضا).
۲-۹-۳- روشهای رياضي
در روشهای ریاضی بازشناسی الگو، هر الگوی بهصورت نقطهای در فضای n بعدی مدل شده و با توجه به مقدار ویژگیهایش به یکی از طبقهها نسبت داده میشود. ویژگیها بهگونهای انتخاب میشوند که بردارهای نمونه مربوط به طبقههای مختلف، ناحیههای متفاوتی از فضا را اشغال کنند. روشهای ریاضی، بر مبنای توابع تصمیم (جداساز)[۳۶] برای طبقههای الگو بنا شدهاند.
در این روش برای تعیین تابع تصمیم هر طبقه معمولاً از نمونههای آموزشی آن طبقه استفاده میشود. روشهای ریاضی شامل دو گروه آماری[۳۷] و غیر آماری[۳۸] هستند. از این دو گروه با عنوان پارامتری و غیر پارامتری نیز یاد میشود. در روشهای پارامتری، پارامترهای تابع تصمیم مستقیماً از خصوصیات آماری نمونههای آموزشی تعیین میشوند و در روشهای غیر پارامتری، پارامترهای تابع تصمیم معمولاً در یک فرآیند یادگیری تعیین میشوند. بسیاری از تکنیکهای ارائه شده در روشهای پارامتری مبتنی بر فرض نرمال بودن توابع توزیع الگوها هستند. در صورتی که تعداد نمونههای موجود در هر کلاس کم باشد، معمولاً روشهای غیر پارامتری بهتر عمل میکنند. نوع دیگری از دستهبندی طبقهبندها بر اساس منفرد یا مرکب بودن آنها است که با توجه به مقتضیات این پایاننامه دستهبندی بر این اساس در ادامه مد نظر خواهد بود.
۲-۹-۴- طبقه بندهاي منفرد
دستهبندی طبقهبندها بر اساس منفرد یا مرکب بودن یکی از پرکاربردترین روشهای برچسبگذاری انواع طبقهبندها است. از انواع طبقهبندهای منفرد میتوان به طبقهبند بیز[۳۹]، k-نزدیکترین همسایه، شبکههای عصبی و ماشین بردار پشتیبان[۴۰] اشاره کرد (۱۳۹۰ ،نریمی سایی, ژاله؛ شادگار بیتا؛, عصاره علیرضا).
۲-۹-۴-۱- روش k-نزدیکترین همسايه
نزدیکترین همسایه بهطور کلی روشی غیر پارامتری برای تخمین زدن تابع چگالی احتمال است اما در ترکیب این روش با روش رأیگیری اکثریت میتوان به طبقهبند نزدیکترین همسایه دست پیدا کرد. این روش یکی از سادهترین روشهای تصمیمگیری است که علاوه بر طبقهبند در رگرسیون نیز کاربرد دارد. این طبقهبند را میتوان در دسته طبقهبندهای غیر آموزشی قرار داد زیرا تصمیم نهایی در مورد طبقه هر داده بهصورت محلی و بر اساس طبقه دادههای اطراف، گرفته میشود. صورت کلیتر از نزدیکترین همسایه، روش k-نزدیکترین همسایه[۴۱] است.از مهمترین مزیتهای این طبقهبند میتوان بهسادگی آن در الگوریتم و پیادهسازی اشاره کرد که این سادگی باعث بالا رفتن پیچیدگی زمانی الگوریتم شده است. البته امروزه نمونههای اصلاح شدهای از این روش به وجود آمده است. برای نمونه یکی از پرکاربردترین نمونههای اصلاح شده این الگوریتم، نزدیکترین همسایه وزنی است.
اساس طبقهبندی نزدیکترین همسایه تصمیمگیری ناحیهای است، بهطوریکه تصمیم در مورد طبقه داده ورودی با استفاده از رأیگیری دادههای اطراف انجام میشود. مهمترین پارامتر ورودی الگوریتم این روش، k است که نشاندهندهی تعداد دادههای اطراف است. در مرحله اول k نزدیکترین داده به داده ورودی پیدا میشوند که اغلب برای محاسبه این دادهها از فاصله اقلیدسی استفاده میگردد. پس از تعیین نزدیکترین k داده در مرحله دوم الگوریتم با استفاده از روش رأیگیری اکثریت، طبقهبند غالب را مشخص کرده و به داده ورودی اختصاص میدهد. این پروسه یکبار برای تمام دادههای ورودی انجام میشود. واضح است که این روش از مرحله یادگیری طبقهبند بهره نمیبرد. شکل زیر نحوه کار این الگوریتم را بهصورت شماتیک نشان میدهد. این الگوریتم از دو درجه آزادی که یکی مقدار k و دیگری فرمول تعیین فاصله است بهره میبرد که در شکل ۲۷- نشان داده شده است.(۱۳۹۰ ،طاهري . فائزه، رحیماف . حامد، فرهادي . محسن).

شکل ۲‑۷ الگوريتم نزدیکترین همسايه (۱۳۹۰ ،طاهري . فائزه، رحیماف . حامد، فرهادي . محسن).
۲-۱۰- سوابق تحقیق
حمید بهادر و همکاران (۱۳۹۴ ،بهادر . حمید، علیایی . صغری، باقری . افسانه) تحقیقی تحت عنوان ارایه مدلی برای شناسایی عوامل موثر در هدایت تحصیلی دانش آموزان با استفاده ازدرخت تصمیم و شبکه عصبی با مطالعه پرونده هاي وضعیت تحصیلي و مشاوره دانش آموزان باكمک الگوريتمهاي درخت تصمیم و شبكه عصبي در داده كاوي، مدلي ارائه شود كه به هدايت تحصیلي و پیشرفت دانش آموزان كمک كرده و شانس موفقیت آنها را افزايش دهد.
در رگرسيونهاي خطي ساده يك رابطه خطي بين متغير مستقل و متغير وابسته به دست ميآيد. روش رگرسيون خطي چندگانه (MQR) تعميمي از روش رگرسيون خطي ساده است. در واقع در رگرسيون خطي چندگانه رابطه بين چند متغير مستقل با متغير وابسته به صورت رابطه (۳-۱) توسط دادهها پردازش ميشود.
(۳-۱) + BX2 +… %R = Constant + AX1
مقادير عرض از مبدا (Constant) و ضرايب متغيرهاي مستقل (A،B،…) به همراه ضريب همبستگي (R) و مقدار P-Value در صفحه كاري مینی تب ظاهر خواهند شد. با توجه اينكه سطح اطمينان ۹۵% انتخاب شده است، در مواردی که P-Valueها بزرگتر از ۰۵/۰ باشد، لذا اين ضرايب معني دار نبوده و بايستي از معادله حذف شوند. پس از حذف متغییرهای دارای ضرايب بی معنی، مراحل دوباره تکرار میشود و تا زمانی که تمامی P-Value بدست آمده کوچکتر از ۰۵/۰ باشند مراحل تکرار میشود.
بعد از مدل سازی توسط مجموعه آموزشی، به منظور بررسی مدل ساخته شده MLR و میزان عمومی بودن آن، توسط مجموعه ارزیابی و شبیهسازی اعتبار این مدل بررسی شده و نتایج بر حسب ضریب همبستگی و مقادیر خطا گزارش میشود.
۲-۱۱- مدل سازی با رگرسیون درجه دوم چندگانه (MQR)
همانند مدلسازي MLR، براي انجام اين آناليز هم ابتدا مقادير ۸ توصیفگر باقیمانده به عنوان متغيرهاي مستقل انتخاب و میزان تاثیر هدایت تحصیلی یا موفقیت دانش آموز (R%) به عنوان متغير وابسته وارد ميشود. به اين صورت مقادير ۸ توصیفگر باقیمانده در ده ستون از اول و ستونهاي بعدي نيز با توجه به معادله درجه دوم فرض شده، در صفحه كاري مینی تب تشكيل داده ميشود. اين بیست ستون به عنوان متغيرهاي x در قسمت آناليز رگرسيوني مینی تب وارد خواهند شد
معادلات كلي زير براي هركدام از خواص مورد نظر فرض ميشود:
(3-2)
مقادير عرض از مبدا (Constant) و ضرايب متغيرهاي مستقل (A،B،…)به همراه ضريب همبستگي (R) و مقدار P-Value در صفحه كاري مینی تب ظاهر خواهند شد. با توجه اينكه سطح اطمينان ۹۵% انتخاب شده است، در مواردی که P-Valueها بزرگتر از ۰۵/۰ باشد، لذا اين ضرايب معنيدار نبوده و بايستي از معادله حذف شوند. پس از حذف متغیرهای دارای ضرايب بیمعنی، مراحل دوباره تکرار میشود و تا زمانی که تمامی P-Value بدست آمده کوچکتر از ۰۵/۰ باشند، مراحل تکرار میشود.
در اینجا نیز بعد از مدل سازی MQRتوسط مینی تب، اعتبار مدل ساخته شده و همچنین میزان موفقیت و عمومی بودن آن با مجموعه ارزیابی و شبیهسازی بررسی شده و نتایج بر حسب ضريب همبستگي و خطا گزارش میشود.
۲-۱۱-۱-محاسبات خطا برای مدل MLR و MQR
برای آگاهي از اينكه مدل فرض شده در معادله به دست آمده چه اندازه به واقعيت نزديكتر است، خطای بين پاسخ حاصل از معادله رگرسيونی (مقادير پيشبيني) و دادههای تجربی (مقادير واقعی) به سه صورت RSE[42]، MPE[43] و [۴۴]RMSE محاسبه ميشوند.
(۳-۳)
(3-4)
(3-5)
در این معادلهها y دادههای مدلسازی شده بوده و r دادههای واقعی است و N تعداد دادهها است.
۲-۱۱-۲-مدلسازي شبكه عصبي (SVM)
در این قسمت به طراحی بهینه یک شبکه عصبی بردار پشتیبان پرداخته شده است و تمام ضرایب شبکه عصبی بصورت بهینه ارائه شده است.
۲-۱۱-۳-طراحي و بهینه سازی شبكه عصبي
در اين مرحله توصيفگرهاي انتخابي توسط نرمافزار مینی تب که برای هر کدام از مجموعههای آموزشی، ارزیابی و شبیهسازی ۸ مورد است به نرمافزار متلب انتقال داده ميشود.
برای اجرای شبکه عصبی، يك شبكه دو لايه شامل لايه مخفی و لايه خروجی مورد استفاده قرار میگیرد که در شکل ۳۱- نشان داده شده است.

شکل ۳‑۱: لایههای شبکه عصبی ایجاد شده
در شبكه در نظر گرفته شده در قسمت بالا، در ورودي شبکه عصبی ، توسط نرمافزار مینی تب وروديها (توصيفگرهاي انتخابي) مشخص شده و وارد شبكه ميشود که در این تحقیق ۸ متغیر است، در گام بعدي براي لايه مخفی، تعداد نورونهاي مخفي تعيين ميشود، كه براي رسيدن به اين نتيجه، عمل بهينهسازي شبكه صورت ميگيرد. به دلیل اینکه تعداد متغیر وابسته یک مورد است ، در نتیجه تعداد نورون در لایه خروجی، یک، انتخاب خواهد شد.
توپولوژی يک شبکه عصبی مصنوعي توسط تعداد لايهها[۴۵]، تعداد گرهها و رفتار تابع انتقال تعيين ميشود. بهينهسازی توپولوژی شبکه عصبی مصنوعي مهمترين مرحله در بهبود يک مدل ميباشد.
شبكهها دارای چندلايه بسيار قدرتمند هستند. در طراحي شبكه براي كاري كه مدنظر بوده، از شبكه دو لايه شامل لايه مخفی و لايه خروجي استفاده شده و تابع انتقال لايه اول (لايه پنهاني) سيگموئيد ، لايه دوم (لايه خروجي) نیز سيگموئيد انتخاب شد. خروجي شبكه نيز همان پاسخ مورد نظر (موفیقت دانش آموز (R%)) است. همانطور که گفته شد براي تعیین تعداد نورونهاي لايه مخفی از تكنيكهاي بهينهسازي استفاده شده است.
براي انجام عمليات بهينهسازي مقادير عددي N (تعداد نورونهای لايه مخفي)،LR [46] )ميزان يادگيري)،Mo [47] (ضريب مومنتوم) و [۴۸] IT (ضريب تكرارپذيري) نسبت به هم در يك محدوده خاص تغيير داده میشود، بدين صورت كه يكي از پارامترها تغيير داده شده و پارامترهاي ديگر ثابت در نظر گرفته میشود تا مقادير R ,[49] RMSE (میزان همبستگی) بدست آمده از شبكه به ترتيب به بیشترین و کمترین مقدار خود برسند و پارامتر مورد نظر انتخاب شود. سپس این پارامتر در مقدار بهینه خود تنظیم شده و پارامتر دیگر به همین نحو تغییر داده میشود تا باز هم RMSE حداقل شده و Rحداکثر گردد و نتیجتا” مقدار بهینه پارامتر انتخاب گردد و برای انتخاب بهینه پارامترهای بعدی، این عمل تکرار میشود تا تمامی پارامترها بهینه گردند (روش بهینهسازی یکی در یک زمان).
شبكه عصبي مصنوعي كه توسط عمليات فوق بهينه شده است براي پيشبيني میزان موفقیت دانش آموزان استفاده مي شود.
۲-۱- الگوریتم ژنتیک
از الگوریتم ژنتیک برای بهینه سازی دادههای جستجو برای شبکه عصبی استفاده میشود. در این پژوهش الگوریتم ژنتیک بر روی دادههای آموزش ساخته میشود اجزای الگوریتم ژنتیک در ادامه توضیح داده شده است.
کروموزوم: در این تحقیق هر ترکیب در قسمت آموزش یک کروموزوم محسوب میشود که از چندین ژن تشکیل شده است، ژنهای کروموزوم همان اطلاعات دانش آموزان است.
رمزنگاری: الگوریتم ژنتیک بهجای آنکه مستقیماً با پارامترهای مسئله کار کند آنها را به شکل یک قالب استاندارد در میآورد که بهاصطلاح رمزنگاری گفته میشود در این پژوهش رمزنگاری در مبنای ۵ است یعنی هر ژن مقداری بین ۱ تا ۴ دارد که با توجه به مقادیر اصلی به این مبنا نگاشت شدهاند.
تابع برازندگی: تابع برازندگی در واقع نشان دهنده میزان شایستگی هر کروموزوم است و هر چه مقدار این تابع بیشتر باشد شانس تولید نسل توسط این کروموزوم بیشتر است.
جمعیت اولیه: جمعیت اولیه دراین الگوریتم یک دیتاست از داده های مختلف است.
با توجه به مطالب گفته شده با استفاده از الگوریتم ژنتیک هر ترکیب بهصورت یک کروموزوم با چندین ژن نمایش داده میشود که ژنها اعدادی بر مبنای ۵ میباشند، هر کروموزوم شامل ۸ ژن زیر است.
MMS_R
advisor_T
interest_R
talent_T
parent_M
student_F
teacher_K
Sex
بعد از مشخص شدن کروموزومها برای شبکه عصبی ساخته میشود.
هدف ایجاد مدلی برای تشخیص سطح موفقیت در رشته انتخابی بر اساس پارامترهای اصلی تعیین کننده است، مدلی که از جامعیت بالایی برخوردار باشد و سرعت اجرای بالایی داشته و نسبت به مدلهای دیگر از نرخ تشخیص بالایی برخوردار باشد. به این منظور از برنامههای موجود در یک دیتاست آموزش استفاده میکنیم. این مجموعه داده از دانش آموزان است. ابتدا با استفاده از روشهای استاندارد پایگاه داده مورد نظر را نرمال کرده و دادههایی که اطلاعات آنها ناقص یا گم شده است را حذف میکنیم. در ادامه دو مرحله داده کاوی با دو الگوریتم متفاوت روی این مجموعه داده به انجام میرسد. گام اول ایجاد مدل های خطی با اعمال رگرسیون های خطی که مدل های خطی را ارائه میدهد و همچنین متغییر هایی که تاثیر کمی بر خروجی دارد را نشان میدهد.
الگوریتم دوم مبتنی بر شبکههای عصبی بوده که در ادامه توضیح داده شده است.
شبکه عصبی طراحی شده در این پژوهش یک شبکه رو به جلو با هشت لایه پنهان است. در لایه اول از هشت نرون استفاده شده است در قسمت آموزش قسمتی از دادهها به شبکه داده میشود و پس از بهینه سازی توسط الگوریتم ژنتیک وزنهای شبکه به نحوی تنظیم خواهند شد که خطای کمتری بین هدف و خروجی پیشبینی شده ایجاد گردد.
جزئیات شبکه عصبی به شرح زیر است:
این شبکه عصبی دارای هشت ورودی،هشت لایه پنهان و یک خروجی است. ورودیها همان ویژگیهای دانش آموزان میباشند، در هر لایه پنهان یک ویژگی با چهار مقدار قرار دارد و خروجی سطح موفقیت یا متناسب بودن رشته تحصیلی است. برای هر خروجی رابطهای به شکل زیر وجود دارد:
Result=w1F1+w2F2+w3F3+w4F4+w5F5+ w6F6+w7F7+w8F8
F1،F2و… همان هشت ویژگی انتخاب شده میباشند و w ها وزن هر ویژگی است. مقدار w ها بر اساس مقادیر داده آموزش به دست میآیند در واقع شبکه عصبی یاد میگیرد که برای هر مجموع داده چه ضریبی را برای هر ویژگی انتخاب کند.
شبکه عصبی برای یادگیری ضریبها از الگوریتم پرسپترون به شکل زیر استفاده میکند:
مقادیری تصادفی به وزنها نسبت میدهیم.
پرسپترون را به تکتک مثالهای آموزشی اعمال میکنیم.اگر مثال غلط ارزیابی شود مقادیر وزنهای پرسپترون را تصحیح میکنیم.
آیا تمامی مثالهای آموزشی درست ارزیابی میشوند:
بله (پایان الگوریتم
خیرßبه مرحله ۲ برمیگردیم
بعد از آنکه با استفاده از دادههای آموزش مقادیر ضریبها به دست آمد دادههای تست وارد میشوند در واقع دادههای تست یک مجموعه از ترکیبات مختلف ویژگی های دانش آموزان است که میخواهیم مقدار موفقیت آنها را از رشته های مختلف محاسبه کنیم تا بهترین رشته تحصیلی را انتخاب کنند.
در نهایت با شبکه عصبی بهینه شده و الگوریتم ژنتیک به بررسی و ارائه یک روش ترکیبی عصبی-ژنتیک پرداخته تا بتوان با دقت بالا تری به پیشبینی و هدایت تحصیلی دانش اموزان پرداخت. در این مدل از ۸ وردی که در ابتدا فصل مشخص شده بود استفاده کردیم که هر ورودی متعلق به یک کروموزم هست و خروجی تحقیق میزان موفقیت دانش اموزان است مدل استفاده شده در روش پیشنهادی در شکل ۳۲- مشخص شده است.

شکل ۳‑۲: فلوچارت مسئله
۲-۲- نتیجه گیری
در نهایت همانطور که مشاهده میشود، این الگوریتم از دو بخش اصلی تشکیل شده است. در ابتدا مدل خطی ارائه میشود تا بهترین متغیرها مشخص شود. دقت شود در این حالت تابع شایستگی الگوریتم ژنتیک خود یک شبکه عصبی است که کارایی وزنهای ایجاد شده را بررسی مینماید. سپس وزنهای ایجاد شده بهعنوان ورودی و همراه با دادههای اصلی مسئله به شبکه عصبی اصلی داده میشود. این شبکه وظیفه ردهبندی دادهها را بر عهده دارد. در بخشهای بعد نتایج حاصل از پیادهسازی این الگوریتم روی دادههای مختلف را مورد بررسی قرار خواهیم داد.
فهرست منابع و مآخذ:
۱٫ استفاده از قوانین انجمني داده كاوي ايران. تهران، ششمین كنفرانس داده كاوي
۲٫ اعلايی، غلامحسين (۱۳۷۱).ارزشيابی ملاکهای هدايت تحصيلی نظام جديد متوسطه. پايان نامه کارشناسی ارشد، دانشگاه تربيت مدرس، تهران.
۳٫ آموزگار ،حمید رضا (۱۳۸۹ ) . مقایسه ی دقت تکنیکهای کلاسه بندی در داده کاوی با استفاده از دیتاست پزشکی. پایان نامه کارشناسی ، دانشگاه پیام نور، مشهد .
۴٫ بهادر ، حمید، علیایی . صغری، باقری . افسانه) ۱۳۹۴( .ارایه مدلی برای شناسایی عوامل موثر در هدایت تحصیلی دانش آموزان با استفاده ازدرخت تصمیم و شبکه عصبی . تهران، دومین کنگره سراسری فناوریهای نوین ایران با هدف دستیابی به توسعه پایدار.
۵٫ حاتملو، عبدالرضا، هاشمینژاد، سیدجواد (۱۳۸۷). تحلیل رفتار آموزشی دانشجویان با استفاده از تکنیکهای دادهکاوی. سومین کنفرانس دادهکاوی ایران، تهران.
۶٫ خیرآبادی، اعظم، مینایی بیدگل، بهروز (۱۳۸۹). بررسی و خوشهبندی نتایج ارزشیابی اساتید دانشگاه با استفاده از روشهای دادهکاوی. چهارمین کنفرانس دادهکاوی ایران، تهران.
۷٫ شکورنياز، جمال شهرابی، ونوس (۱۳۸۶). مروری بر مفاهيم، وظايف و فرآيند داده کاوی سازمانی.اولين کنفرانس داده کاوی ايران، دانشگاه صنعتی امیرکبیر، تهران.
۸٫ صافی، احمد (۱۳۹۲). اصول و فنون راهنمایی در دورههای تحصیلی. انتشارات تهران، تهران.
۹٫ صفاریان، محسن، خیرآبادی، اعظم، (۱۳۸۹). پیشبینی رتبه داوطلبان رتبه کنکور دانشگاهها با استفاده از روشهای دادهکاوی. چهارمین کنفرانس دادهکاوی ایران، تهران.
۱۰٫ طاهری ، فرهادی (۱۳۸۹) . طراحی سیستم هوشمند هدایت تحصیلی بر پایه داد کاوی. چهارمین کنفرانس دادهکاوی ایران، تهران.
۱۱٫ طاهري . فائزه، رحیماف . حامد، فرهادي . محسن (۱۳۹۰) . بكارگیري ابزارهاي داده كاوي جهت پیش بیني موفقیت و يا عدم موفقیت دانشجويان در درس . مباني برنامه نويسي . چهارمین كنفرانس داده كاوي ايران، تهران .
۱۲٫ قاضی، قاسم (۱۳۸۵). زمینه مشاوره و راهنمایی، انتشارات تهران. چاپ نهم، تهران.
۱۳٫ مجلسی، علیرضا ( ۱۳۹۵). انتخاب رشته و هدایت تحصیلی در پایه نهم. انتشارات شهر من، تهران.
۱۴٫ مقصودي بهروز، سليماني صادق، اميري علي، افشارچي محسن ( ۱۳۹۱ ). ارتقاي کيفيت آموزش در سامانه هاي آموزش الکترونيکي با استفاد ه از داده کاوي آموزشي . نشریه فناوري و آموزش ، دوره ۶ ، شماره ۴.
۱۵٫ موسوی ،زهراالسادات، خان بابایی ، محمد) ۱۳۹۲( . ارائه روشی مبتنی بر تکنیک ترکیبی داده کاوی جهت هدایت تحصیلی دانش آموزان. تهران، اولین همایش ملی مدیریت کسب و کار.
۱۶٫ مینایی، بهروز، سادات میرافضل، هانی (۱۳۹۱). شناسایی عوامل مؤثر بر افت تحصیلی دانشجویان با استفاده از قواعد انجمنی تحلیل خوشهبندی. ششمین کنفرانس دادهکاوی ایران، تهران.
۱۷٫ مینايي . بهروز، سادام میرافضل . سمیه، هاني . سید حسن) ۱۳۹۵( . شناسايي عوامل موثر بر افت تحصیلي دانشجويان با استفاده از قواعد انجمنی تحلیل خوشه بندی. ششمین کنفرانس داده کاوی ایران،تهران.
۱۸٫ نریمی سایی،ژاله، شادگار، بیتا، عصاره، علیرضا. ( ۱۳۹۰ ) کاربرد تکنیکهای داده کاوی در محیطهای آموزش الکترونیک. مجله مطالعات کتابداری و علم اطلاعات،اهواز.
۱۹٫ نوری، بهاره، مقصودی، بهروز، شیخ احمدی، سید امیر (۱۳۸۹). پیدا کردن دروس مرتبط از طریق الگوریتم سبد خرید و تأثیر آن در پیشبینی نمره از طریق الگوریتم درخت تصمیم. چهارمین کنفرانس دادهکاوی ایران، تهران.
۲۰٫ Abel, Dr V Rama Bai, G Krishna Chaitanya(2017). Academic Guidance in the Field Selection by Ranking Method Two and Up. International Journal of Innovative Research in Computer and Communication Engineering (An ISO 3297: 2007 Certified Organization) Vol. 2, Issue 1.
۲۱٫ Abhijit Raorane(2011). DATA MINING TECHNIQUES: A SOURCE FOR CONSUMER BEHAVIOR ANALYSIS. International Journal on Computer Science and Engineering ,IJCSE 1.
۲۲٫ Abner Tanna, Casey(2016). Academic orientation in field selection by linear regression. International Journal of Computer Trends and Technology (IJCTT) – Volume 4 Issue 7.
۲۳٫ Baker, R. S. J. D. (2010). Data mining for education. International encyclopedia of education, 7(3), 112-118.
۲۴٫ Baker, R.. S. & Yacef, K. (2009). The state of educational data mining in 2009: A review and future visions. JEDM-Journal of Educational Data Mining, 1(1), 3-17.
۲۵٫ D.A. Adeniyi, Z. Wei, Y. Yongquan(2016). Automated web usage data mining and recommendation system using K-Nearest Neighbor (KNN) classification method. Applied Computing and Informatics 12, 90–۱۰۸
۲۶٫ Damon Wook, Hani Yahaya(2018). Educational guidance in choosing a job with a neural network approach. Second International Conference on Computer and Electrical Engineering.
۲۷٫ Damon, Romero Morales, Ventura Soto(2018). Academic Guidance in Field Selection by Fuzzy Neural Systems.IEEE JOURNAL OF LATIN-AMERICAN LEARNING TECHNOLOGIES.
۲۸٫ Dr. Mamta Madan(2015). A Review on: Data Mining for Telecom Customer Churn Management. International Journal of Advanced Research in Computer Science and Software Engineering, Volume 5, Issue 9
۲۹٫ Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.
۳۰٫ K. Mizue, and O. Toshio(2011) .Neural network navigation support-knowledge-navigation in hyperspace: The sub-symbolic approach. Journal of Educational Multimedia and Hypermedia, Vol. 10, No. 1, pp. 85–۱۰۳٫
۳۱٫ Koedinger, K. R., Baker, R. S., Cunningham, K., Skogsholm, A., Leber, B., & Stamper, J. (2010). A data repository for the EDM community: The PSLC DataShop. Handbook of educational data mining, 43.
۳۲٫ Márquez-Vera, Romero Morales, Ventura Soto(2013 ) . Predicting School Failure and Dropout by Using Data Mining Techniques. IEEE JOURNAL OF LATIN-AMERICAN LEARNING TECHNOLOGIES
۳۳٫ Mohammad Ali Farajian(2010 ). Mining the Banking Customer Behavior Using Clustering and Association Rules Methods. Intternattiionall Journall off Industtriiall Engiineeriing & Producttiion Research, Volume 21, Number 4
۳۴٫ Muslihah Wook, Hani Yahaya( 2009). Predicting NDUM Student’s Academic Performance Using Data Mining Techniques. Second International Conference on Computer and Electrical Engineering.
۳۵٫ P Salman Raju, Dr V Rama Bai, G Krishna Chaitanya( 2014 ). Data mining: Techniques for Enhancing Customer Relationship Management in Banking and Retail Industries. International Journal of Innovative Research in Computer and Communication Engineering (An ISO 3297: 2007 Certified Organization) Vol. 2, Issue 1.
۳۶٫ Prof. Paresh Tanna(2013 ). Foundation for Frequent Pattern Mining Algorithms’ Implementation. International Journal of Computer Trends and Technology (IJCTT) – Volume 4 Issue 7 .
۳۷٫ Rakesh Kumar Soni(2013) . An FP-Growth Approach to Mining Association Rules, A Monthly Journal of Computer Science and Information Technology. IJCSMC, Vol. 2, Issue. 2, February 2013, pg.1 – ۵
۳۸٫ Romero, C., & Ventura, S. (2007). Educational data mining: A survey from 1995 to 2005. Expert systems with applications, 33(1), 135-146.
۳۹٫ Romero, C., & Ventura, S. (2010). Educational data mining: a review of the state of the art. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 40(6), 601-618.
۴۰٫ Romero, C., & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 3(1), 12-27.
۴۱٫ Tran, H. and Hoang, N. (2014). An Artificial Intelligence Approach for Groutability Estimation Based on Autotuning Support Vector Machine. Journal of Construction Engineering, 10.1155/2014/109184, 1-9.
۴۲٫ Wang, J. (Ed.). (2005). Encyclopedia of data warehousing and mining. IGI Global.
۴۳٫ Y.Lee ,T.Hong and W.Lin. (2005) . Mining association rules with multiple mininmum supports using minimum constraints. International Journal of Approximate Reasoning 40
۴۴٫ Asif, R., Merceron, A., Ali, S. A., & Haider, N. G. (2017). Analyzing undergraduate students’ performance using educational data mining. Computers & Education, 113, 177-194.
۴۵٫ Angeli, C., Howard, S. K., Ma, J., Yang, J., & Kirschner, P. A. (2017). Data mining in educational technology classroom research: Can it make a contribution?. Computers & Education, 113, 226-242.
[۱] Mining Data
[۲] Data Warehousin
[۳] Evolutionary Algorithms
[۴] Genetic Algorithms
[۵] University of Michigan
[۶] Gene
[۷] Reproduction
[۸] Generation
[۹] Selection
[۱۰] Crossover
[۱۱] Mutation
[۱۲] One-point Crossover
[۱۳] Two-point Crossover
[۱۴] Crossover Rate
[۱۵] Crossover Probability
[۱۶] Mutation Rate
[۱۷] Mutation Probability
[۱۸] همگرايي پيشرفت به سوي افزايش يكنواختي محسوب ميشود. هنگامي كه يك جمعيت همگرا ميشود, متوسط برازندگيها به برازندگيهاي بهترين افراد آن جمعيت نزديك ميشود.
[۱۹] Multi layer perceptron
[۲۰] Sigmoid function
[۲۱] Unsuppervised learning
[۲۲] Suppervised learning
[۲۳] Mixture
[۲۴] Minimum disturbance principle
[۲۵] Steepest Decent
[۲۶] Multi layer perception
[۲۷] Machine learning
[۲۸] Classification model
[۲۹] Classifier
[۳۰] Pattern recognition
[۳۱] Training data
[۳۲] Test data
[۳۳] Heuristic methods
[۳۴] Structural methods
[۳۵] Mathematical methods
[۳۶] Decision (discriminant) functions
[۳۷] Statistical
[۳۸] Deterministic
[۳۹] Bayes classifier
[۴۰] Support vector machine
[۴۱] k-nearest neighbor
[۴۲] Relative Standard of Error
[۴۳] Mean Prediction of Error
[۴۴] Root Mean Square of Error
[۴۵] Layer
[۴۶] Rate Learning
[۴۷] momentum
[۴۸] Iteration
[۴۹]Root Mean Square of Error