|
|
نوشته شده توسط : مطلب پروژه
انجام پروژه های داده کاوی با نرم افزار کلمنتاین Clementine12 پروژه های داده کاوی با نرم افزار R با بسته Rattle پروژه های داده کاوی با نرم افزار R با بسته Rattle
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
ها: پروژه های, داده کاوی, با نرم افزار, R, با بسته
آموزش نرم افزار کلمنتاین Clementine 12
آموزش نرم افزار کلمنتاین Clementine 12
آموزش نرم 14.2 افزارIBM SPSS Modeler
انجام پروژه های داده کاوی با نرم افزارClementine 12
انجام پروژه های داده کاوی با نرم افزار.2 14 IBM SPSS Modeler
انجام پروژه های داده کاوی با نرم افزار رپیدماینر rapidminer azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com انجام پروژه های داده کاوی با نرم افزار وکا weka
فرآیند داده کاوی CRISP-DM آشنایی با قابلیت های SPSS Modeler14.2 فرآیند داده کاوی در SPSS Modeler14.2 شناسایی و آماده سازی مقدماتی داده ها فراخوانی داده ها در محیط SPSS Modeler14.2 بررسی مفاهیم Storage و Type و اهمیت آنها یکپارچه سازی داده ها (Merge and Append) بررسی شاخص های کیفی داده ها (Data Audit) مطالعه توصیفی و استنباطی داده ها در SPSS Modeler14.2 مدل های پیش بینی کننده طبقه بندی با انواع درخت های تصمیم در SPSS Modeler14.2 استفاده از درخت های رگرسیونی به منظور پیش بینی ساخت مدل های پیش بینی کننده با شبکه های عصبی مصنوعی ارزیابی مقدماتی مدلهای پیش بینی کننده
برچسبها: آموزش, نرم افزار, داده کاوی, کلمنتاین, Clementine12 7:44 توسط Clementine12 | نظر بدهید پروژه آماده داده کاوی با نرم افزار - weka - clementine 12 پروژه آماده داده کاوی با نرم افزار - weka - clementine 12
پروژه آماده داده کاوی با نرم افزار - rapidminer - clementine 12 azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com پروژه آماده داده کاوی با نرم افزار - clementine 12
کلیک کنید
برچسبها: پروژه, آماده, داده کاوی, با نرم افزار, weka + نوشته شده در شنبه یازدهم Clementine12 | نظر بدهید دانلود نرم افزار داده کاوی وکا weka دانلود نرم افزار داده کاوی وکا weka
دانلود نرم افزار وکا
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
جهت دانلود نرم افزار داده کاوی وکا weka کلیک کنید برچسبها: دانلود, نرم افزار, داده کاوی, وکا, weka 5سط Clementine12 | نظر بدهید پروژه های داده کاوی بانرم افزار وکا weka انجام پروژه های داده کاوی با نرم افزار وکاweka
در کوتاه ترین زمان با کمترین قیمت
بیش از 30 نوع دیتاست مختلف با انواع موضوعات متفاوت در سایت پروژه های 21
کلیک کنید توسط Clementine12 | نظر بدهید انجام پروژه های داده کاوی با نرم افزار رپیدماینر rapidminer انجام پروژه های داده کاوی با نرم افزار رپیدماینر rapidminer
در کوتاه ترین زمان با کمترین قیمت
بیش از 30 نوع دیتاست مختلف با انواع موضوعات متفاوت در سایت پروژه های 21
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
برچسبها: انجام, پروژه های, داده کاوی, با, نرم افزار +وسط Clementine12 | نظر بدهید انجام پروژه های داده کاوی با نرم افزار کلمنتاین Clementine12 انجام پروژه های داده کاوی با نرم افزار کلمنتاین Clementine12
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com در کوتاه ترین زمان با کمترین قیمت
بیش از 30 نوع دیتاست مختلف با انواع موضوعات متفاوت در سایت پروژه های 21
برچسبها: انجام, پروژه های, داده کاوی, با نرم افزار, کلمنتاین ۹۵ ساعت 18:2 توسط Clementine12 | نظر بدهید انجام پروژه های داده کاوی با نرم افزار SPSS Modeler14.2 انجام پروژه های داده کاوی با نرم افزار SPSS Modeler14.2
در کوتاه ترین زمان با کمترین قیمت
بیش از 30 نوع دیتاست مختلف با انواع موضوعات متفاوت در سایت پروژه های 21 azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
:: موضوعات مرتبط:
2222222 ,
,
:: بازدید از این مطلب : 314
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : چهار شنبه 23 بهمن 1398 |
نظرات ()
|
|
نوشته شده توسط : مطلب پروژه
آموزش معرفی Radoop معرفی Radoop 1395.12.10
Radoop چیست ؟ azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com Radoop یک شرکت بزرگ تجزیه و تحلیل داده با هدف کم کردن موانع برای استفاده از Hadoop است. بسته Radoop اجازه می دهد تا حتی افراد غیر فنی نیز توانایی دسترسی ، تجزیه و تحلیل و شبیه سازی داده های بزرگ را داشته باشند. برای افراد متخصص علاوه بر امکانات ذکر شده برنامه نویسی ، تجزیه و تحلیل و پیش بینی پیشرفته را فراهم می کند و این دلیل محکمی است که RapidMiner با تکیه بر توانایی هدوپ در پردازش موازی داده های کلان به عنوان محبوب ترین ابزار داده کاوی یکپارچه شناخته شود و کم کم کاربران زیادی را به سمت خود سوق دهد. Radoop محیطی گرافیکی و بسیار راحت برای تحلیل داده های کلان بر روی هدوپ فراهم می کند و همه اینها به این بستگی دارد که ما پیکربندی دقیق و بدون نقصی را برای نصب این افزونه تحلیل داده های کلان انجام دهیم. Radoop از ترکیب RapidMiner و هدوپ بوجود آمده البته وجود Hive در این افزونه به نظر الزامیست نه به این معنی که بدون Hive کار کردن غیر ممکن است بلکه به دلیل که Hive قدرتمند، انعطاف پذیر و آسان برای کار کردن است. Radoop یک نرم افزاری است که عملیات پردازش داده های عظیم را به کلاسترهای هدوپ سپرده و به وسیله قدرت تحلیل داده ای رپیدماینر آن را به صورت گرافیکی به کابر خود نشان می دهد. لزومی نیست که Rapid miner بر روی کلاسترها نصب و راه اندازی شود و هر قسمت همانگونه که در تصویر مشاهده می کنید وظیفه دارد عملیات مخصوص به خود را انجام دهد. RapidMiner Server نیز قادر است از Radoop استفاده کند. از فعالیتهایی که سرور RapidMiner می تواند انجام دهد می توان برنامه ریزی برای پردازشها، مدیریت و ثبت گزارش پردازشها، فراهم آوردن ابزارهای گزارشگیری بصری می باشد برچسبها: آموزش, معرفی, Radoop + نوشته شده در دوشنبه بیست و هفتم شهریور ۱۳۹۶ ساعت 15:36 توسط پروژه | نظر بدهید معرفی 10 الگوریتم برتر داده کاوی معرفی 10 الگوریتم برتر داده کاوی 1395.12.10
آموزش 10 الگوریتم برتر داده کاوی azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com الگوریتم C4.5 : الگوریتم C4.5 بهینه شده الگوریتم ID3 می باشد که از قانون هرس بعدی بهره می برد و می تواند صفاتی را که داده های نویزی و مقدار و همچنین صفات گسسته ندارند، استفاده نماید. با توجه به بعضی از ضعف های الگوریتمID3 ، کوئینلن در سال ۱۹۹۳ آن را اصلاح و تحت الگوریتم C4.5 معرفی نمود. این الگوریتم نسبت به ID3 اریبی کمتری دارد و برای مشاهدات با مقادیر گمشده مناسب است. ملاک تصمیم گیری در این الگوریتم بر اساس شاخص آنتروپی است که به کمک آن شاخص های Information Gain محاسبه می شود . azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com الگوریتم k-means : این الگوریتم داده ها را به خوشه های مجزا خوشه بندی می کند. این روش تعداد خوشه های ثابتی رادر نظر گرفته به طوری تکراری رکورد ها را به خوشه ها تخصیص می دهدو مراکز خوشه را را تا هنگامی که مدل بهبود نیابد تنظیم می کند. تلاش برای پیش بینی یک خروجی ، K-means از یک فرآیند به نام یادگیری بدون نظارت برای کشف الگوها در مجموعه ای از فیلد های ورودی استفاده می کند.
الگوریتم SVM : الگوریتم SVM اولیه در ۱۹۶۳ توسط Viadimir Vapnik ابداع شد و در سال ۱۹۹۵ توسط Vapnik و Corinna Cortesبرای حالت غیرخطی تعمیم داده شد. ماشین بردار پشتیبانی (Support vector machines) یکی از روشهای یادگیری با نظارت (Supervised learning) است که از آن برای طبقه بندی و رگرسیون استفاده میکنند.
الگوریتم Apriori : این الگوریتم در سال 1996 توسط چیونگ ابداع شد و یکی از مهمترین یافته هادر تاریخ استخراج قواعد تلازمی است . استخراج قواعد تلازمی یا انجمنی نوعی عملیلت داده کاوی است که به جستجو برای یافتن ارتباط بین ویژگیها در مجموعه داده ها می پردازد.نام دیگر روش تحلیل تلازمی ، تحلیل سبد بازار می باشد .قواعد تلازمی به شکل اگر و آنگاه به همراه دو معیار پشتیبان و اطمینان تعریف می شوند .
الگوریتم EM : الگوریتم امید ریاضی-بیشینهسازی (EM) یک روش تکرارشونده (iterative) است که به دنبال یافتن برآوردی با بیشترین درست نمایی برای پارامترهای یک توزیع پارامتری است. این الگوریتم روش متداول برای زمانهایی است که برخی از متغیرهای تصادفی پنهان هستند. azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com الگوریتم Page Rank : Page Rank در سال 1998 در هفتمین کنفرانس بین الملی World Wide Web توسط Sergey Brin و Larry ارائه شد . این الگوریتم یک الگوریتم Page Rank که از پیوند داده در وب استفاده می کند . گوگل به عنوان یک موفقیت بزرگ بر اساس این الگوریتم ساخته شد . در حال حاضر تمام موتور های جستجو بر اساس این الگوریتم کار می کنند.این الگوریتم بر اساس طبیعت دموکراتیک وب با استفاده ساختار وسیع اتصالی اش به عنوان یک نماینده کیفیت یک صفحه شخصی کار می کند . پیج رنک رتبهای است که گوگل برای یک سایت بین اعداد ۰ تا ۱۰ در نظر میگیرد. هرقدر این عدد نزدیک به ۱۰ باشد نشاندهنده این است که این سایت لینکهای ورودی زیادی دارد و سایتهای زیادی به این سایت لینک دادهاند. روش دیگر موتورهای جستجو، پردازش رتبه صفحه، با استفاده از تعداد یافتههای خود در سایتهای اینترنتی میباشد. این روش، یک فناوری زیرساخت برای پدیدار گشتن «بمب گوگلی» نیز بود. ناگفته نماند که هدف از ساختن بمبهای گوگلی بالاتر رفتن رتبه یک وبلاگ یا وبگاه در موتور جستجوی گوگل میباشد که معمولاً با همکاری گروههای مردمی ایجاد میشود.
عرفی, 10, الگوریتم, برتر, داده کاوی :27 توسط پروژه | نظر بدهید معرفی 10 الگوریتم برتر داده کاوی معرفی 10 الگوریتم برتر داده کاوی آموزش 10 الگوریتم برتر داده کاوی
الگوریتم C4.5 : الگوریتم C4.5 بهینه شده الگوریتم ID3 می باشد که از قانون هرس بعدی بهره می برد و می تواند صفاتی را که داده های نویزی و مقدار و همچنین صفات گسسته ندارند، استفاده نماید. با توجه به بعضی از ضعف های الگوریتمID3 ، کوئینلن در سال ۱۹۹۳ آن را اصلاح و تحت الگوریتم C4.5 معرفی نمود. این الگوریتم نسبت به ID3 اریبی کمتری دارد و برای مشاهدات با مقادیر گمشده مناسب است. ملاک تصمیم گیری در این الگوریتم بر اساس شاخص آنتروپی است که به کمک آن شاخص های Information Gain محاسبه می شود .
الگوریتم k-means : این الگوریتم داده ها را به خوشه های مجزا خوشه بندی می کند. این روش تعداد خوشه های ثابتی رادر نظر گرفته به طوری تکراری رکورد ها را به خوشه ها تخصیص می دهدو مراکز خوشه را را تا هنگامی که مدل بهبود نیابد تنظیم می کند. تلاش برای پیش بینی یک خروجی ، K-means از یک فرآیند به نام یادگیری بدون نظارت برای کشف الگوها در مجموعه ای از فیلد های ورودی استفاده می کند.
برچسبها: معرفی, 10, الگوریتم, برتر, داده کاوی
معرفی Radoop معرفی Radoop Radoop چیست ؟
Radoop یک شرکت بزرگ تجزیه و تحلیل داده با هدف کم کردن موانع برای استفاده از Hadoop است. بسته Radoop اجازه می دهد تا حتی افراد غیر فنی نیز توانایی دسترسی ، تجزیه و تحلیل و شبیه سازی داده های بزرگ را داشته باشند. برای افراد متخصص علاوه بر امکانات ذکر شده برنامه نویسی ، تجزیه و تحلیل و پیش بینی پیشرفته را فراهم می کند و این دلیل محکمی است که RapidMiner با تکیه بر توانایی هدوپ در پردازش موازی داده های کلان به عنوان محبوب ترین ابزار داده کاوی یکپارچه شناخته شود و کم کم کاربران زیادی را به سمت خود سوق دهد.
جام پایان نامه ,مشاورین انجام پایان نامه و انجام پروژه های مهندسی انجام پروژه کارشناسی ارشد با آموزش انجام پروژه کارشناسی ارشد با آموزش
April 23, 2019
2 likes آموزش کامل انجام پایان نامه در 7 مرحله آموزش کامل انجام پایان نامه در 7 مرحله
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
انجام پروژه ارزیابی عملکرد انجام پروژه ارزیابی عملکرد
5 likes نگارش سمینار و پایان نامه کارشناسی ارشد نگارش سمینار و پایان نامه کارشناسی ارشد
انجام پروژه مدلسازی معادلات ساختاری انجام پروژه مدلسازی معادلات ساختاری
برنامه ریزی توسعه همزمان تولید و انتقال برنامه ریزی توسعه همزمان تولید و انتقال
October 24, 2018
انجام پایان نامه it پروژه های فناوری اطلاعات انجام پایان نامه it پروژه های فناوری اطلاعات
انجام پروژه متلب کدنویسی برنامه نویسی بهینه سازی در محیط متلب انجام پروژه متلب کدنویسی برنامه نویسی بهینه…
October 17, 2018
2 likes1 comment1 share مشاوره پایان نامه برق پروژه مهندسی برق مشاوره پایان نامه برق پروژه مهندسی برق
انجام پایان نامه کارشناسی ارشد و تز دکتری انجام پایان نامه کارشناسی ارشد و تز دکتری…
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
10 likes15 comments56 shares پایان نامه مدیریت پایان نامه مدیریت
May 20, 2018
1 like1 comment آموزش انجام پایان نامه نرم افزار آموزش انجام پایان نامه نرم افزار
انجام پروژه مهندسی مکانیک انجام پروژه مهندسی مکانیک
انجام پروژه تخصصی,انجام پروژه نرم افزاری انجام پروژه تخصصی,انجام پروژه نرم افزاری
انجام پروژه صنایع انجام پروژه صنایع
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
مشاوره پایان نامه مدیریت استراتژیک مشاوره پایان نامه مدیریت استراتژیک
3 likes1 comment1 share انجام پروژه امنیت ابر انجام پروژه امنیت ابر
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com پروژه نهان نگاری تصویر پروژه نهان نگاری تصویر
March 12, 2018
1 like انجام پروژه آلیاژهای حافظه دار انجام پروژه آلیاژهای حافظه دار
انجام پروژه داده کاوی انجام پروژه داده کاوی
1 like پایان نامه مدیریت,موضوع پایان نامه مدیریت پایان نامه مدیریت,موضوع پایان نامه مدیریت
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
3 likes2 comments6 shares بهینه سازی مصرف انرژی بهینه سازی مصرف انرژی
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
پردازش سیگنال پردازش سیگنال
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com انجام پروژه توربین گازی انجام پروژه توربین
:: موضوعات مرتبط:
2222222 ,
,
:: بازدید از این مطلب : 324
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : چهار شنبه 23 بهمن 1398 |
نظرات ()
|
|
نوشته شده توسط : مطلب پروژه
دانلود پروژه آماده داده کاوی با نرم افزار وکا(weka)
پروژه داده کاوی با وکا Weka به عنوان اولین نرم افزار Source Open در داده کاوی از مقبولیت بسیار باالیی در محافل آکادمیک برخوردار می باشد. پشتیبانی از طیف گسترده ای از الگوریتم های داده کاوی آن را به گزینه ای قابل قبول برای انجام پروژه های تحقیقاتی و دانشگاهی مبدل نموده است.
هرچند این ابزار در پشتیبانی از اجرای فرآیند داده کاوی در قالب پروژه های حرفه ای و بلند مدت دارای ضعف های جدی می باشد اما به علت تنوع زیاد در الگوریتم های مدلسازی به عنوان یک ابزار پرکاربرد در کنار سایر ابزارها مورد استفاده قرار می گیرد. azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com پروژه وکا weka
تا به امروز نرم افزارهای تجاری و آموزشی فراوانی برای داده کاوی در حوزه های مختلف داده ها به دنیای علم و فناوری عرضه شده اند. هریک از آنها با توجه به نوع اصلی داده هایی که مورد کاوش قرار میدهند، روی الگوریتمهای خاصی متمرکز شده اند. مقایسه دقیق و علمی این ابزارها باید از جنبه های متفاوت و متعددی مانند تنوع انواع و فرمت داده های ورودی، حجم ممکن برای پردازش داده ها، الگـوریتمهای پیاده سـازی شده، روشهای ارزیابی نتایج، روشهای مصـور سـازی، روشهای پیش پردازش داده ها، واسطهای کاربر پسند، پلتفرمهای سازگار برای اجرا،قیمت و در دسترس بودن نرم افزار صورت گیرد. از آن میان، نرم افزار Weka با داشتن امکانات بسیار گسترده،امکان مقایسه خروجی روشهای مختلف با هم، راهنمای خوب، واسط گرافیگی کارا، سازگاری با سایر برنامه های ویندوزی، و از همه مهمتر وجود کتابی بسیار جامع و مرتبط با آن [Data Mining, witten et Al. 2005 ] ، معرفی میشود. یک پروژه داده کاوی با نرم افزار weka که data base از سایت UCI گرفته شده و از تکنیک های classify و clustering و association حداقل یکی از هرکدوم انجام شده که دیتاست Pima , Balloons استفاده گردیده است و همچنین درخت تصمیم j48 , Naive BAyes , Kmeans در این پروژه بکارگیری شده اند .کل کار پرینت به صورت عکس در word قرار داده شده است.و همچنین به همراه تحلیل و گزارش پروژه نیز می باشد azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com این پروژه توسط تیم همیارپروژه در نرم افزار وکا(Weka) انجام شده است و برای عزیزان علاقه مند با قیمتی مناسب جهت دانلود قرار داده شده است.جهت دانلود فایل پروژه آن را از طریق لینک زیر خریداری نمایید.
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
دسته : پروژه ها, پروژه وکا (Weka), داده کاوی و بیگ دیتا برچسب : celementain, rapid miner, weka, انجام پروژه با نرم افزار weka, انجام پروژه با وکا, انجام پروژه داده کاوی, انجام پروژه داده کاوی با نرم افزار رپید ماینر, انجامن پروژه های داده کاوی, پروژه آماده داده کاوی, پروژه داده کاوی با نرم افزار کلمنتیاین, پروژه داده کاوی با وکا, داده کاوی با I2, داده کاوی با پایتون, داده کاوی با متلب, داده کاوی با متلب و پایتون, داده کاوی با وکا, سایت داده کاوی, سفارش پروژه داده کاوی, سفارش پروژه داده کاوی دانشجویی, سفارش پروژه های دانشجویی, نرم افزار وکا, همیارپروژه, وکا
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
:: موضوعات مرتبط:
2222222 ,
,
:: بازدید از این مطلب : 357
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : چهار شنبه 23 بهمن 1398 |
نظرات ()
|
|
نوشته شده توسط : مطلب پروژه
انجام پروژه WEKA azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com بهترین فریلنسرهای پروژه WEKA را به راحتی انتخاب کنید
حامی ورکس مرجع فریلنسرهای ایران است. پروژه های WEKA خود را به راحتی برون سپاری کنید و برای انجام آنها به صورت موقت نیروی متخصص استخدام کنید. خیص لبه تصاویر در متلب
لبه تصویر، نقاطی از تصویراست که در آن شدت روشنایی به طور ناگهانی تغییر کرده است.الگوریتم های زیادی در این زمینه وجود دارد الگوریتم sobel الگوریتم canny الگوریتم zerocross الگوریتم Log الگوریتم prewitt الگوریتم Roberts و… عملگرهای آشکارسازی لبه مرتبه نخست: چلیپای رابرنز، پرویت، سوبل، کنی، اسپیسک مرتبه دوم: لاپلاسی، مار- هیلدرث اکنون عملگر [...]
Read پیاده سازی اتوماتای یادگیر سلولی در متلب
برای پیاده سازی پروژه و شبیه سازی خودتان در متلب با ما تماس بگیرید یک اتوماتای سلولی یک مدلی از ریاضیات گسسته می باشد که در مباحثی چون نظریه رایانشپذیری ، ریاضیات ، فیزیک ، سامانههای انطباقی پیچیده ، زیست شناسی نظری و ریز ساختار ها مورد مطالعه قرار گرفته است. اتوماتای سلولی با نام [...] اردیبهشت : عمومی|۰
مقدمات زبان C
زبان C در سال 1972 توسط دنیس ریچی طراحی شد. این زبان تکامل یافته زبان BCPL میباشد که طراح آن مارتین ریچاردز است. زبان BCPL از زبان B که طراح آن کنتامپسون میباشد، نتیجه شده است. علت نامگذاری C این است که بعد از B طراحی شد. کسانی که تا حدودی با زبانهای برنامهسازی آشنایی [...] |: مهندسی نرم افزار|۰
حل تمرین هوش مصنوعی پیشرفته azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com چطور یک GP به تعامل یک برنامه به کنترل یک ربات میتواند استفاده شود و کجا هدف ربات حرکت به سمت بیرون می باشد وقتی با یک مانع مواجه می شود. برنامه نویسی ژنتیک می تواند در بهینه سازی حرکت و یادگیری ربات استفاده شود .افراد در جامعه بوسیله یک ساختار درختی باینری نشان داده [...] اردیبهشت |: هوش مصنوعی|۰
بیان جزئیات برنامه نویسی ژنتیک
وفق پذیری شامل یک سری تغییرات در ساختار برنامه می باشد به گونه ای که در محیط خود بهتر عمل کند. یادگیری گونه ای از وفق پذیری می باشد که در آن هدف حل یک مسئله است. در ادامه به بررسی موارد زیر خواهیم پرداخت. ساختارهایی که عمل وفق پذیری را انجام می دهند. ساختارهای [...] |: هوش مصنوعی|۰
زبان برنامه نویسی لیسپ azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com فرآیند برنامه نویسی ژنتیک توسط هر زبان برنامه نویسی که قابلیت بیان و ارزیابی ترکیب ا ز توا بع را داشته باشد قابل پیاده سازی ا ست هر چند که زبان لیسپ بیشترین قا بلیت را دارد. زبان لیسپ تنها از دو نوع نهاد تحت عنوان اتم ولیست تشکیل شده است. اتمها می توانند مقادیر [...] s: هوش مصنوعی|۰ انجام پروژه مهندسی صنایع انجام پروژه دانشجویی مهندسی صنایع
ارائه خدمات مختلف پژوهشی توسط پروژه مارکت به دانشجویان و محققین در رشته مهندسی صنایع بعنوان یکی از پرجمعیت ترین رشته های دانشگاهی کشور شامل: انجام پروژه مهندسی صنایع، انجام پروژه های نرم افزاری مهندسی صنایع،ارائه خدمات ترجمه تخصصی مهندسی صنایع و انجام پروژه مدیریت در تمامی مقاطع کارشناسی، کارشناسی ارشد و دکترا در گرایش های بهینه سازی سیستم ها ،سیستم های سلامت، لجستیک و زنجیره تامین، سیستم های کلان، مهندسی مالی ، مدیریت مهندسی ، کیفیت و بهره وری ، مدیریت پروژه ، سیستم های اطلاعاتی.
مهندسی صنایع رشته ای است که با طراحی، بهبود و پیاده سازی سیستمهای یکپارچه ای از افراد، مواد، اطلاعات ،تجهیزات و انرژی مرتبط است. این رشته بر پایه دانش تخصصی و تبحر در علوم ریاضی، طبیعی، اجتماعی و نیز قوانین و روش های تجزیه و تحلیل مهندسی و طراحی بنا نهاده شده است تا به کما این علوم و قوانین، به تعیین، پیشبینی و ارزیابی نتایج حاصل از سیستمهای یکپارچه بپردازد. که بصورت یا ارایه ی با عنوان مهندسی صنایع ارائه می شود. azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com سفارش پروژه مهندسی صنایع و یا مدیریت خود را برای ما ارسال نمائید، کارشناسان ما پس از بررسی سفارش شما روش های مختلف را برای انجام پروژه شما به اطلاع شما خواهند رساند. پروژه مارکت بابت خدمات مشاوره ای خود که در زمینه انجام پروژه های مهندسی صنایع ارائه می دهد هزینه ای را دریافت نمی نماید. انجام پروژه صنایع انجام پروژه نرم افزاری مهندسی صنایع شبیه سازی پروژه های صنایع پروژه برنامه نویسی صنایع انجام پروژه مهندسی صنایع در زیر می توانید خدمات پروژه مارکت را در زمینه انجام پروژه های دانشجویی در رشته مهندسی صنایع، برای هر گرایش با جزئیات ملاحظه بفرمایید. پروژه مارکت خدمات خود را به تمامی گرایش های مهندسی صنایع گسترش داده است. درصورتی که موضوع مورد نظر خود را در موارد ذکر شده در زیر نیافتید، درخواست خود را با ما در میان بگذارید، ممکن است موضوعاتی باشد که در زیر ذکر نشده اند.
انجام پروژه صنایع سیستم های سلامت انجام پروژه صنایع بهینه سازی سیستم ها انجام پروژه صنایع سیستم های کلان انجام پروژه صنایع لجستیک و زنجیره تامین انجام پروژه صنایع مهندسی مالی انجام پروژه صنایع مدیریت مهندسی انجام پروژه صنایع کیفیت و بهره وری انجام پروژه صنایع کنترل و مدیریت پروژه انجام پروژه مهندسی صنایع سیستم های اطلاعاتی azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com انجام پروژه مهندسی صنایع سیستم های سلامت
زمینه های فعالیت: بهبود فرآیند و کیفیت در سلامت، مدلسازی داده محور در سلامت، سیستمهای خبره در سلامت، اینترنت اشیا در سلامت، مدیریت زنجیره تأمین برای سیستمهای سلامت، نظریه و شبکه های بیزی، فناوریهای پیشرفته و رباتیک در سیستمهای سلامت ، مدیریت درآمد و تقاضا در سیستمهای سلامت، مدل های گردشگری حوزه سلامت،
ما برای هریک از متقاضیان٬ مجری را برمیگزینیم که زمینه کاری و پژوهشی ایشان در راستای موضوع متقاضی باشد. بدون استرس از متخصصین در زمینه کاری خودتان کمک بگیرید. azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
:: موضوعات مرتبط:
2222222 ,
,
:: بازدید از این مطلب : 425
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : چهار شنبه 23 بهمن 1398 |
نظرات ()
|
|
نوشته شده توسط : مطلب پروژه
هدف از این آموزش فراگیری انجام کارهای داده کاوی مختلف با نرم افزار weka می باشد.بی شک نرم افزار weka یکی از قوی ترین وکاربرپسندترین نرم افزارهای داده کاوی به شمار می رود. وهدف انجام کارهای مهم داده کاوی است :
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
موارد موجو دراین فایل :
-
شروع کار با weka
-
نصب weka
-
نحوه ورود انواع مختلف داده در نرم افزار weka
-
پیش پردازش داده ها در weka
-
خواندن و فیلتر کردن فایل ها
-
تبدیل فایل ها به فرمتarff
-
به کارگیری فیلتر ها
-
نحوه Classifyکردن داده ها با انواع مختلف کلاسیفایرها
-
نحوه انجام رگرسیون
-
نحوه انجام خوشه بندی
-
اجرای قوانین وابستگی
-
شرح کامل قسمت های مختلف نرم افزار wekaاز جمله :
-
استفاده ازخط فرمان سیستم عامل
استفاده ازخط فرمان
-
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
استقاده ازواسط کابری
استفاده از weka در برنامه های دیگر
-
پنجره اصلی
-
قسمت های اصلی
اطلاعات ورودی در weka
قسمت های اصلی در weka
-
فرمت اطلاعات ورودی در weka
-
توضیح برگه explorer
-
توضیح برگه classify
-
توضیح برگه Clustering
-
توضیح برگه Associate
-
توضیح برگه Visualize
weka مجموعه ای از به روزترین الگوریتمهای یادگیری ماشینی و ابزارهایی برای پیش پردازش داده ها میباشد. WEKA در قالب واسطهای کاربری مناسب در اختیار کاربران قرار میگیرد بنابراین کاربران میتوانند با توجه اینکه کلیه امکانات متدهای مختلف را بر روی دادههای خود پیاده سازی کرده و بهترین الگوریتم را برای کار انتخاب نمایند.. همچنین این نرم افزار تحت مجوز Java که ماشین مجازی بدان معناست که استفاده از آن رایگان بوده و کاربران به راحتی
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
میتوانند به کدمنبع های آن دسترسی داشته و حتی آنها را برحسب نیاز تغییر داده و روشهای دیگری را نیز به آنها اضافه کنند. این نرم افزار توسط جاوا پیاده سازی شده و شما می توانید مستقیما از وکا استفاده کنید یا در کد جاوای برنامه خود مورد استفاده قرار دهید. در وکا مجموعه کاملی از الگوریتم ها ارائه شده است که می توان در نظرکاوی، متن کاوی و امور مختلف داده کاوی مورد استفاده قرار داد. یکی از نقاط قوت وکا عملکرد مناسب الگوریتم ماشین یادگیری این نرم افزار است. الگوریتم به شکلی پیاده سازی شده اند که عملکرد قابل قبولی نسبت به بقیه نرم افزارها ارائه می دهند. در کنار این نکات قوت وکا ظاهر کاربرپسندی نیز دارد.
این پکیج شامل چهار واسط کاربری متفاوت میباشد:
-
Explorer: در این حالت شما میتوانید روشهای مختلف آمادهسازی، تبدیل و الگوریتمهای مدلسازی بر روی دادهها را اجرا کنید.
-
Experimenter: در این حالت فقط امکان اجرای الگوریتمهای مختلف ردهبندی به صورت همزمان و مقایسه نتایج آنها وجود دارد. تمامی شاخصهای مورد نیاز به منظور بررسی مدلهای رده بندی در این قسمت تعریف شده و قرار دارند و گزارشات مفصلی را از جمله آزمون T می توان در این قسمت پس از مدلسازی استخراج نمود.
-
Knowledge Flow: در این قسمت یک واسط گرافیکی طراحی شده است که مانند نرم افزارهای IBM Modeler و رپیدماینر در آن می توان جریان های داده ای مختلف تولید نمود.
-
(command line interface (CLI: در این حالت امکان مدلسازی توسط کدنویسی خط به خط قرار دارد.
-
در وکا داده ها می توانند به فرمت های مختلف از جمله Excel، CSV و Arff باشند. اما به طور کلی این نرم افزار با دادهها به فرمت Arff میانه بهتری دارد.
یکی از راههای به کارگیری Weka ، اعمال یک روش یادگیری به یک مجموعه داده و تحلیل خروجی آن برای شناخت چیزهای بیشتری راجع به آن اطلاعات میباشد. راه دیگر استفاده از مدل یادگیری شده برای تولید پیشبینیهایی در مورد نمونههای جدید است. سومین راه، اعمال یادگیرندههای مختلف و مقایسه کارآیی آنها به منظور انتخاب یکی از آنها برای تخمین میباشد. روشهای یادگیری Classifier نامیده میشوند و در واسط تعاملی Weka ، میتوان هر یک از آنها را از منو انتخاب نمود. بسیاری از classifier ها پارامترهای قابل تنظیم دارند که میتوان از طریق صفحه ویژگیها یا object editor به آنها دسترسی داشت. یک واحد ارزیابی مشترک، برای اندازهگیری کارآیی همه classifier به کار میرود.
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
پیاده سازیهای چارچوبهای یادگیری واقعی، منابع بسیار ارزشمندی هستند که Weka فراهم میکند. ابزارهایی که برای پیش پردازش دادهها استفاده میشوند. filter نامیده میشوند. همانند classifier ها، میتوان filter ها را از منوی مربوطه انتخاب کرده و آنها را با نیازمندیهای خود، سازگار نمود. در ادامه، به روش به کارگیری فیلترها اشاره میشود.
علاوه بر موارد فوق، Weka شامل پیاده سازی الگوریتمهایی برای یادگیری قواعد انجمنی، خوشهبندی دادهها در جایی که هیچ دستهای تعریف نشده است، و انتخاب ویژگیهای مرتبط در دادهها میشود.
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
:: موضوعات مرتبط:
2222222 ,
,
:: بازدید از این مطلب : 333
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : چهار شنبه 23 بهمن 1398 |
نظرات ()
|
|
نوشته شده توسط : مطلب پروژه
پروژه آماده داده کاوی با وکا (weka) نجام پروژه های رپیدماینر، انجام پروژه وکا،انجام پایان نامه های داده کاوی، انجام پایان نامه رپیدماینر انجام سمینارهای داده کاوی انجام پروژه درس سمینار کارشناسی ارشد کامپیوتر با کمترین قیمت azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com سمینارهای داده کاوی در موضوعات:
پیش بینی مدیریت ریسک مشتریان بانک با ابزارهای داده کاوی
کشف تقلب در بیمه با ابزارهای داده کاوی
بررسی روشهای دسته بندی در برای تشخیص کلاهبرداری در حوزه بانکداری
ارائه مدلی برای تشخیص خرابی قطعات با استفاده از تکنیک های داده کاوی
مدیریت ریسک در شبکه های کامپیوتری با استفاده از داده کاوی
کاربرد الگوریتم ایمنی مصنوعی در خوشه یابی داده ها
پیش بینی بیماری دیابت با ابزارهای داده کاوی بررسی اثر فرهنگ اسلامی بر رفتار شهروندی سازمانی با استفاده از داده کاوی
کاربرد داده کاوی در پزشکی
پیش بینی بیماری قلبی با ابزارهای داده کاوی
جهت مشاوره و سفارش لطفا تماس بگیرید
برچسبها: رپیدماینر, انجام پروژه رپیدماینر, وکا, پروژه آماده, پروژه آماده رپیدماینر 14:1 توسط میناربطی | نظر بدهید انواع پروژه های آماده رپیدماینر
پکیج کامل پروژه های رپیدماینر و وکا و متلب شامل: مباحث داده کاوی در پزشکی داده کاوی در مخابرات داده کاوی در بانک داده کاوی در بیمه پیش بینی بیماری دیابت با روش های داده کاوی پیش بینی بیماری قلبی با روش های داده کاوی رتبه بندی اعتباری مشتریان بانک با روش های داده کاوی خوشه بندی مشتریان پیش بینی ریزش مشتری با داده کاوی کشف تقلب در بانک کشف پول شویی با روش های داده کاوی و....azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com مجموعه داده مرتبط با موضوع، کد اجرای نرم افزار، فایل ورد توضیحات گام به گام نرم افزار، فیلم آ آموزش اجرا
تیم همیارپروژه یک پروژه کاربردی را در حوزه داده کاوی با وکا weka انجام داده است که شما عزیزان میتوانید با پرداخت هزینه مناسب آن را دانلود نمایید.
پروژه آماده وکا موضوع پروژه :
پیش بینی افت تحصیلی دانش اموزان و بررسی علت های آن با استفاده از تکنیک های داده کاوی آموزشی و نرم افزار وکا(weka) توضیح پروژه:
در این پروژه داده های مربوط به دانش اموزانی که دچار افت تحصیلی شده اند جمع اوری شده و با استفاده از دسته بندهای مختلف در نرم افزار وکا یک مدل برای آن اموزش داده شده ایت که می تواند پیش بینی کند که دانش اموزی دچار افت خواهد شد یا خیر. و همچنین تمامی علت های ان بررسی و اولویت بندی شده است… این پروژه دارای دیتاست و پرسشنامه دانش آموزان است.پیاده سازی این پروژه در نرم افزار وکا(weka) انجام شده است. پروژه دانشجویی وکا: azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com این پروژه با سفارش یک دانشجو انجام شده و و بعنوان یک پروژه دانشجویی برای دانشجویانی که به دنبال پروژه های داده کاوی با نرم افزار وکا هستند بسیار مفید و آموزنده است. نمونه پروژه های وکا:
سایت همیارپروژه نمونه پروژه های زیادی را در این حوزه انجام داده است که میتوانید از طریق لینک روبرو آنها را مشاهده نمایید: پروژه های نمونه وکا نحوه دریافت پروژه:
برای دانلود این پروژه می توانید با پرداخت مشخص شده آن را دانلود نمایید. خرابی لینک دانلود:
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
دسته : پروژه ها, پروژه وکا (Weka), داده کاوی و بیگ دیتا برچسب : انجام پروژه های داده کاوی, پروژه آماده weka, پروژه داده کاوی, پروژه داده کاوی با وکا, پیش بینی افت تحصیلی دانش اموزان و بررسی علت های آن با استفاده از تکنیک های, داده کاوی آموزشی, داده کاوی وکا, دانلود پروژه weka, دانلود پروژه وکا, موسسه همیارپروژه, نرم افزار وکا(weka), همیارپروژه دیدگاهتان را بنویسید azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
:: موضوعات مرتبط:
2222222 ,
,
:: بازدید از این مطلب : 290
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : چهار شنبه 23 بهمن 1398 |
نظرات ()
|
|
نوشته شده توسط : مطلب پروژه
هزینه انجام پروژه داده کاوی azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com خلاصه در این مقاله در مورد هزینه انجام پروژه داده کاوی و انواع انجام پروژههای داده کاوی توسط متخصصان این حوزه توضیح داده خواهد. نحوه محاسبه هزینه انجام پروژه داده کاوی
هزینه انجام پروژههای داده کاوی بسته به فاکتورهای متفاوت هزینههای متفاوتی دارد. یکی از مواردی که در قیمت گذاری پروژه لحاظ میشود پیچیدگی پروژه است که با میزان وقتی که متخصص در انجام پروژه داده کاوی صرف میکند مرتبط است و در قیمت گذاری مؤثر است.
در انجام پروژه دادهها باید مشخص شوند برخی مواقع صاحب پروژه اصلاً داده ندارد یا داده مناسب ندارد که متخصصان آکادمی داده کاوی، داده مناسب را انتخاب میکنند. تعداد الگوریتم و نوع نرم افزار و زمان انجام پروژه از موارد دیگری است که در قیمت گذاری پروژه تاثییر گذار است. azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com در انجام برخی از پروژهها مانند آموزش پایان نامه علاوه بر الزام نوآوری و رعایت ساختار دقیق و آموزش مستمر صاحب پروژه با ارسال ویدیوها و ویسها و توضیحاتی که از طریق تلفن صورت میگیرد تا صاحب پروژه کاملاً در انجام پایان نامه داده کاوی آموزش ببیند. طبیعتاً زمان و دقت این نوع پروژهها زمان و انرژی بیشتری میگیرد که در قیمت گذاری پروژه مؤثر است.هزینه انجام پروژه داده کاوی انجام پروژه داده کاوی با نرم افزارهای متفاوت
نوع نرم افزار نیز در قیمت گذاری گاها متفاوت است. اگر پروژهای نیازی به کد زدن داشته باشد برای مثال از زبان برنامه نویسی پایتون استفاده میشود که نسبت به انجام پروژه داده کاوی با رپیدماینر به علت صرف هزینه زمانی بیشتر هزینه بالاتری دارد. پروژه داده کاوی آماده
آکادمی داده کاوی با داشتن متخصصان بسیار متبحر دارای تعداد زیادی پروژه آماده داده کاوی میباشد. این پروژهها با دادههای استاندارد در حوزه داده کاوی مثل بیمهها، بانکها، تشخیص بیماری و … که بسته به فهرست مطالب و نوع الگوریتم و تعداد الگوریتم و گامها دارای قیمتهای متفاوتی هستند. از جمله دادههای آماده را میتوان بطور کلی بصورت زیر فهرست کرد: azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.comazsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com پروژه آماده داده کاوی با رپیدماینر پروژه آماده داده کاوی با پایتون پروژه آماده داده کاوی با متلب پروژه آماده داده کاوی با زبان برنامه نویسی R پروژه آماده داده کاوی با وکا پروژه آماده داده کاوی با spss modeler
پروژهای ک تحویل داده خواهد شد یک فایل داکیومنت خواهد بود ک معمولاً با روش کریسپ انجام میشود. فایلی که تحویل درخواست کننده میشود، شامل فایل داده، فایل اجرایی نرم افزار و راهنمای اجرا در نرم افزار میباشد که شامل موارد زیر است:
مراحل کار مراحل اجرا در نرم فزار تشریح داده رسم نمودارهای داده
:: موضوعات مرتبط:
2222222 ,
,
:: بازدید از این مطلب : 268
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : چهار شنبه 23 بهمن 1398 |
نظرات ()
|
|
نوشته شده توسط : مطلب پروژه
۱ مقدمه. ۴
۲ انواع روش های تشخیص نرم افزارهای مضر/بداندیش…. ۵
۳ رویکرد پیشنهادی در شناسایی و تشخیص نوع نرم افزارهای مضر/بداندیش…. ۵
۳٫۱ تحلیل رفتار نرم افزارهای بداندیش/ مضر و استخراج رفتار آنها ۶
۳٫۲ بازنمایی رفتار کدهای بداندیش/ مضر. ۶
۳٫۳ استخراج خصوصیات مهمتر. ۸
۳٫۳ شناسایی نرم افزارهای مضر/ملور ها با استفاده از روش های طبقه بندی و تحلیل رگرسیون.. ۱۱
۳٫۳٫۱ ابزار WEKA… 11
۳٫۳٫۲ پیش پردازش – کاهش ابعاد داده ۱۳
۳٫۳٫۳ ساختن و آموزش مدل (طبقه بند: Classifier ) 17
۳٫۳٫۴ روش انجام کار و ارایه و بررسی نتایج بنابر روش های مختلف داده کاوی.. ۱۸
۳٫۳٫۵ بررسی خروجی الگوریتم های طبقه بندی در Weka. 24
۴ پیوست الف روشهای کاهش ویژگی.. ۲۷
۴٫۱ روشهای مبتنی بر استخراج ویژگی.. ۲۷
۴٫۲ روشهای مبتنی بر انتخاب ویژگی.. ۳۱
۵ پیوست ب : روشهای داده کاوی و شناسایی الگو و پیشبینی.. ۴۳
۵٫۱ دسته بندی/ طبقه بندی ۴۳
۵٫۲ رگرسیون.. ۴۵
۵٫۳ رگرسیون منطقی.. ۴۵
۵٫۴ پیش بینی سری های زمانی.. ۴۶
۵٫۵ تفاوت دسته بندی و رگرسیون.. ۴۶
۵٫۶ خوشهبندی.. ۴۸
۵٫۷ الگوریتم های دسته بندی : درخت تصمیم گیری و K-NN… 50
۶ پیوست ج: استخراج خصوصیات نرمافزارهای مضر/ملور ها به منظور بازنمایی رفتار آنها- توضیحات تکمیلی.. ۵۲
فهرست منابع و مراجع. ۵۴ ۱ مقدمه
گرایش تشخیص نرمافزارهای مضر یکی ازموضوعات فعال و بحث برانگیز درحوزههای امنیت رایانه است و در سالهای اخیر شاهد افزایش عجیبی در تعداده نرمافزارهای مضر [۱] گزارش شده فروشندگان نرمافزارهای ضد ویروس بودهایم . در این گزارش سعی بر این است که روشی جدید برای تشخیص نرمافزارهای مضر – که در این گزارش مطابق اصطلاح متداول در اکثر قسمتها ملور(malware) نامیده می شود – از طریق بررسی رفتار آنها ارایه نماییم . ملور ها شامل تمام انواع نرم افزارها یا کدهای کامپیوتری هستند که می توانند به سیستم شما آسیب رسانده یا تغییر ناخواسته ای در آن ایجاد کنند، ملورها شامل ویروس ها، adware ها، spyware ها و Trojan ها هستند. این ارایه روشی موثر را با استفاده ازتکنیکهای مهندسی معکوس به همراه داده کاوی و تشخیص الگو برای شناسایی ملورها و تشخیص نوع آنها معرفی مینماید. در این روش با استفاده از ابزارهای تحلیلگر پویا[۲] گزارش رفتار برنامه ها در طول اجرا تهیه شده و پس از ان با مشاهده و بررسی انواع گسترده ای از فایل های مضر خصوصیات مهم و موثر این فایل ها (مالورها) مشخص شد، لازم به ذکر است که مقدار زیادی از اطلاعاتی که در گزارش فایل برنامه مضر وجود دارد ممکن است در یک فایل سالم نیز دیده شود، لذا علاوه بر بررسی فایل های مضر، گزارش و عملکرد این فایل ها با فایل های سالم مقایسه شد تا همزمان که خصوصیات مشترک فایل های مضر استخراج می شود، این خصوصیات انتخاب شده نشانگر بیشترین تفاوت با فایل های سالم باشند به این معنی که یا خود خصوصیت در رفتار برنامه های سالم وجو نداشته باشد و یا مقدار آن صفر باشد و یا رنج مقادیری که در برنامه های سالم و مضر به آن تخصیص می یابد متفاوت باشد تا بتوان با استفاده از آنها به درستی الگوی رفتاری فایل های مضر را شناسایی کرده و فایل های مضر جدید را تشخیص و طبقه بندی نمود. پس از انتخاب این خصوصیات با استفاده از استانداردها و قوانینی که برای این منظور درنظر گرفتیم مقدار عددی این خصوصیات از متن گزارشات بیرون کشیده شد. سپس با انتخاب الگوریتمهای مناسب انتخاب و یا کاهش [۳]ویژگی (خصوصیت)، خصوصیاتی که بیشترین میزان تاثیر را در استخراج و تشخیص الگوی[۴] عملکرد این فایلها داشته بیرون کشیده شد که این کار منجر به افزایش سرعت و دقت طبقه بند در مرحله بعد شد. در نهایت با استفاده از طبقه بندهای مناسب نوع ملورها تشخیص داده شد. این رویکرد به یک روش یا ابزار خاص محدود نیست و میتوان آن را به اشکال مناسب به کار برد .
۲ انواع روش های تشخیص نرم افزارهای مضر/بداندیش
در مباحث مهندسی معکوس برای تحلیل برنامه ها از دو روش ایستا و پویا استفاده می شود، لذا برای شناسایی ملوارها می توان از تحلیل ملوار با هر کدام از این روش ها یا ترکیب آن دو کمک گرفت. این دو روش هر کدام در جای خود مزایایی و معایبی دارند.با تحلیل استاتیک یک ملور را بدون اجرا کردن آنالیز میکنند ، برای تشخیص ملور-مانند ویروس ها- به کمک تحلیل استاتیک ، کد برنامه را که به شکل باینری است گرفته و با تطابق دادن الگوی آن با پایگاهی از الگولهایی که از قبل تهیه شده است نسبت به تشخیص اقدام میکنند که این روش اساس کار ضدویروسهای موجود است . برای انجام این کار از الگوریتمهای بسیاری استفاده میشود از مزایای آن میتوان به اجرا نکردن کد آلوده و سرعت آن اشاره نمود ومعایب آن عدم کارایی در تشخیص کدهای آلوده و پیچیدهای است که در ابتدا سالم به نظر می رسند ولی در هنگام اجرا تغییر ماهیت داده (خود را تغییر داده) و به کد مضر تبدیل می شوند و یا کدهایی که به صورت رمز درآمده اند و بررسی متن واقعی کد این برنامه ها مقدور نمی باشد در نتیجه بررسی استاتیک کد این برنامه ها در تشخیص رفتار مضر این برنامه ها بی فایده می باشد، در حالی که در تحلیل پویا رفتار خطرناک و مضر این برنامه ها تشخیص داده می شود و این مسئله برتری بررسی پویا نسبت به ایستا را روشن می کند. تحلیل استاتیک عموما به کمک یک دیباگر یا دیساسمبلر انجام می شود و تحلیل پویا به کمک یک دیباگر انجام میگردد . در تحلیل پویا (رفتاری) ما فایلی را که بررسی میکنیم مانند یک جعبه سیاه در نظر میگیریم و از روی رفتار ان به نتیجه میرسیم که چه منظور و هدفی دارد و کد باینری مورد بررسی قرار نمی گیرد ولی همانطور که مشخص می باشد باید برنامه ملور را اجرا نمود که این مسئله برای سیستم خطرناک است، البته می توان از روشها و ابزارهایی مانند ماشین مجازی[۵] برای ایجاد محیط امن استفاده نمود. azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com ۳ رویکرد پیشنهادی در شناسایی و تشخیص نوع[۶] نرم افزارهای مضر/بداندیش ۳٫۱ تحلیل رفتار نرم افزارهای بداندیش/ مضر و استخراج رفتار آنها
ابزارهای زیادی برای بررسی کردن رفتار به صورت پویا وجود دارد از جمله تحلیاگرهای پویا و ابزارهای monitoring رفتار کد (process monitor ها)، که ما در این قسمت از دو تحلیل گر Anubis و CWSandbox استفاده کردیم به دلیل اینکه این دو ابزار تمامی خصوصیات رفتاری لازم را در گزارشات خود مشخص می کنند. این دو ابزار که به صورت انلاین کار بررسی فایل را انجام می دهند گزارش خود را در انتهای بررسی هر فایل به صورت انواع فایل هایhtml, xml, rtf ,… در اختیار کاربران قرار میدهند، در این پروژه برای استفاده در مراحل بعدی نوع xml انتخاب شد.
ابزارهای on line فایلهایی را که قرار است بررسی کننند در یک محیط کنترل شده اجرا میکنند به همین جهت پیشنهاد میگردد که خودتان نسبت به انجام این کار در محیط ویندوز خود اقدام نکنید و در استفاده از ابرارهای بررسی رفتار با احتیاط استفاده کنید زیرا یک سری از این ابزارها فایل مورد نظر را بر روی سیستم جاری دیباگ می کنند و منجر به ویروسی شدن سیستم شما خواهند شد. این کار میتواند برای دقت بیشتر با طبقه بندی یا خوشه بندی نیز همراه گردد. در خوشه بندی الگوی گونههای جدید که از قبل نوع یا label آنها مشخص نشده را شناسایی کرده و فایل های مشابه در یک خوشه قرار داده می شوند، سپس می توان با توجه به نظر فرد خبره برای آنها نام یا نوع مشخص کرد، این روش در واقع نوعی پیش پردازش محسوب می شود و فایل هایی که شبیه هم اند در خوشه های مشابهی قرار می گیرند. بدین منظور لازم است تا معیاری برای بیان همسایگی میان نقاط جهت تشکیل خوشه ها تعریف گردد. در حالی که در طبقه بندی الگوی گونههای شناخته شده موجود (که از قبل نوع آنها مشخص شده) را بنا بر داده های موجود استخراج کرده و سپس فایل های ناشناخته جدید را بنا بر مشابهت با الگوهای موجود در کلاس مربوطه طبقه بندی کرده و نوع آن را تشخیص می دهیم، هر طبقه که با برچسبهایی مشخص شده دارای ویژگیهای خاصی می باشد، با توجه به ویژگیها و قانونمندی هایی که برای هر نوع از پیش قائل شده ایم و یا از داده های موجود استخراج شده، تعلق فایل مورد نظر به هریک از طبقه ها مشخص می شود. در این پروژه از آنجا که نوع مالور های مورد بررسی از پیش مشخص می باشد ما لز روش طبقه بندی استفاده می کنیم. ۳٫۲ بازنمایی[۷] رفتار کدهای بداندیش/ مضر
پس از دریافت گزارش رفتار مالوار از طریق ابزارهای نامبرده به صورت متنی یا xml ، این موارد که برای آنالیز انسانی مناسب است بایستی به یک شکلی تغیر یابد که قابلیت تحلیل خودکار توسط سیستم را داشته باشد،. این گزارش xml بسیار غنی است و موارد بسیاری از خصوصیات رفتاری و عملکرد فایل در ان موجود است که از طریق نگاه کردن به ان میتوان یک دید کلی از رفتار، عملکرد و ردپای ان کد/ برنامه مشخص را بدست آورد . به دلیل ساختار دادهای گزارش xml و برتری ان نسبت به متنی ما این نوع گزارش را برای بررسی در نظر گرفتیم . azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com فایل xml که در زیر شمایی از آن را میبینید شامل عملکردهای اصلی برنامه است (کلیه فعالیت هایی که یک برنامه در هنگام اجرا انجام داده است):
در ابتدا اطلاعات مربوط به خود گزارش مشاهده می شود، مانند زمان گزارش، فایل مورد بررسی، مسیر آن و …، یک سری از این اطلاعات خاص خود CWSandbox می باشد که این گزارش را تهیه کرده مانند ورژن آن (اولین خصوصیت)، اکثر گزارشات شامل ۳ تگ اصلی می باشد، شامل calltree, processes, running processes ، به صورت تودرتو هر تگ اصلی شامل تگ های دیگر می باشد، در تگهای اصلی اولین تگی که بایستی توضیح دهیم تگ CallTree است که در آن فرایندهایی که توسط مالوار ایجاد شدهاند را میتوانید به صورت کلی همراه با اطلاعات اصلی شان ببینید، به طور مثال در شکل بالا در مجموع شش فرایند در یک بار اجرای فایل اصلی ایجاد شدهاند، در صورتی که در هنگام اجرای یکی از این پروسه ها، پروسه های دیگری درون آن ایجاد شود به صورت سلسه مراتبی و تودرتو این پروسه ها در پروسه پدر نمایش داده می شوند، و همان ساختار قبلی رعایت می شود. هر کدام از این فرایندها به طور جداگانه در تگ Processes که در اینجا آبی رنگ نشان داده شده است به تفصیل همراه با تمامی خصوصیات رفتاری مانند اعمالی که در هر process انجام شده، ردپا و اثری که در قسمت های مختلف سیستم از خود به جا گذارده و تغییراتی که ایجاد می کند توضیح داده میشود.
در تگ Processes بنا برتعداد فرایندها شاخه وجود دارد که هر کدام از فرایندهای اجرا شده میتوانند شامل بخش ها ی(تگ های) زیر باشند که در هر کدام مقدار یکی از خصوصیات رفتاری فایل مشخص می شود.
dll_handling_section شامل اطلاعات مربوط به فراخوانی تعدادی از فایلهای کتابخانهای filesystem_section شامل اطلاعات مربوط به ایجاد ، جستجو، تغییر در فایلها registry_section شامل اطلاعات مربوط به تغییراتی که برنامه در رجیستری ایجاد کرده process_section شامل اطلاعات مربوط به فرایندها ایجاد Mutex virtual_memory_sectionشامل اطلاعات مربوط به دستکاری و تغییرات حافظه مجازی توسط برنامه ارسال پست الکترونیک ارتباط از طریق سوکتها …
تعداد این تگ ها برای یک پروسه ممکن است بسیار بیشتر از موارد ذکر شده در بالا باشد ، این ۸ مورد که از مهمترین موارد می باشند به عنوان نمونه انتخاب شده اند.
۳٫۳ استخراج خصوصیات مهمتر azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com پس از نگاه کلی به فایلهای گزارش، بررسی گزارش فایل های مضر و مقایسه اولیه آنها با گزارش فایل های سالم (در ادامه بررسی و مقایسه های دقیقتر انجام شد) یک سری خصوصیات که مهم تر به نظر می رسیدند انتخاب شدند، هر کدام از این خصوصیات نماینده یکی از تگ های گزارش می باشد، (ممکن است این تگ به صورت تودرتو در یک تگ دیگر وجود داشته باشد و نمایانگر خصوصیت رفتاری مهمی از برنامه موردنظر باشد). مقدار عددی هر کدام از پارامترهای انتخابی برای هر فایل (برنامه) مورد بررسی به صورتی که در ادامه توضیح داده می شود مشخص شد .
برای انجام این کار برنامهای به زبان ویژوال بیسیک نوشته شد که بتواند اطلات مورد نیاز را از میان حجم انبوه دادهای برگشتی از تحلیل رفتار مالوار به ما بدهد که بتوانیم در تحلیل خودکار توسط سیستم در قسمت های بعدی از آنها استفاده کنیم. این برنامه ابتدا خصوصیات مورد نظر را از میان سایر اطلاعات استخراج و سپس مقدار عددی مناسب را به آن تخصیص می دهد، به این ترتیب به مرور و به صورت مرحله به مرحله برای هر ملور آرایه ای (vector ی) کامل می شود که هر خانه آن مقدار عددی مربوط به یک خصوصیت رفتاری ملور را داراست در این بخش با توجه به تجربیات قبل از نگاه به خصوصیات فایلها ابتدا تعداد load کردن تعدادی از فایلهای کتابخانهای[۸] را مورد ارجاع قرار گرفته بودند در نظر گرفتیم پس از تحلیل بر روی آنها متوجه شدیم که این پارامترها نمیتواند دقیق باشند چرا که قدرت تشخیص را در حدی پایینتر از ۲۰ درصد نگاه میداشت . پس با نگاهی دوباره به مالوارها متوجه شدیم که تمامی مالوارهایی که در یک دسته قرار میگیرند میزان فضای اشغالی آنها نزدیک به هم است پس میزان بزرگی فایل ها را به عنوان ضریبی در میزان تعداد مراتبی که در هر مالوار که بار [۹]شده بودند ضرب کردیم و برای هرکدام اعدادی مابین ۰ تا ۲ به دست آمد که این را میزانی برای تشخیص گذاشتیم :
Nqty=NewAttrib quantity=Dll calls * file weight
در این مرحله تحلیل بر روی خصوصیات انتخابی، کارایی را مابین ۵۰ تا ۶۰ درصد نشان میداد که هنوز ناکافی به نظر میرسید . پس سعی بر این شد که خصوصیتی دیگر را نیز در نظر بگیریم که برای این مورد نیز برنامه نوشته شده خصوصیاتی دیگر از جمله تعداد بارهایی که یک فایل را باز میکند یا یک فایل را جستجو میکند و اینکه تعداد موتکسهایی که ایجاد میگردد و همچنین تعداد باری که این مالوار فرایندهایی را ایجاد میکند به مجموعه خصوصیات ما اضافه شد . در ادامه ما به مرحله تشخیص موثرترین خصوصیات از میان ۹۰ خصوصیات انتخابی رسیدیم.حال برای آنالیز دادهها بایستی آن را به یک شکل خاص غیر اسپارس برای افزایش سرعت و راحت برای تحلیل در نرمافزار Weka تبدیل میکردیم مجموع دادهای گردآوری شده از میان بیش از ۳۰۰۰۰ مالوار است که برای هرکدام یک بردار خصوصیات به شکل زیر ایجاد شد .
{(Attribnumber nqty)* , Malware type }
{۴۵ ۰٫۱۰۷, ۴۶ ۰٫۱۰۷, ۴۷ ۰٫۱۰۷, ۴۸ ۰٫۱۰۷, ۴۹ ۰٫۱۰۷, ۵۰ ۰٫۱۰۷, ۵۱ ۰٫۱۰۷, ۵۲ ۰٫۱۰۷, ۵۳ ۰٫۱۰۷, ۵۴ ۰٫۱۰۷, ۵۵ ۰٫۱۰۷, ۵۶ ۰٫۱۰۷, ۷۳ ۰٫۱۰۷, ۸۷ ۱, ۸۸ T24}
در این گزارش هر بخش با یک کاما از بخش دیگر که خصوصیاتی را بیان میکند جدا میشود . به طور مثال عبارت ۴۶ ۰٫۱۰۷ بیانگر این است که به خصوصیت شماره ۴۶ که اکنون پارامتر ۴۶ است مقدار عددی مقابل آن تخصیص پیدا کرده است. این عدد از حاصل ضرب تعداد بارهایی که تابع کتابخانهای شماره ۴۶ بار شده و استفاده گردیده است در میزان حجم فایل که عددی بر حسی مگابایت است به دست آمده است .
نمونه پارامترهای مهم انتخابی در زیر آورده شده است : شماره پارامتر نام پارامتر شماره پارامتر نام پارامتر ۱ version.dll ۶۶ userenv.dll ۱۵ ws2help.dll ۷۲ urlmon.dll ۴۳ Wininet.dll ۸۵ Open_file ۴۶ Ntdll.dll ۸۶ find_file ۴۷ kernel32.dll ۸۷ delete_file ۶۴ shell32.dll ۸۸ create_mutex ۸۹ process_call
به عنوان نمونه اطلاعات مرتبط با یک بخش خاص از فایل XML به شکل زیر :
<load_dll filename=”C:\WINDOWS\system32\ole32.dll” successful=”1” address=”$774B0000” end_address=”$775ED000” size=”1298432” quantity=”4” />
اینگونه استخراج میگردد که مثلا فایل ole32.dll در چند جا و به چه تعدادی فراخوانی شده که در بالا میبینید که تعداد ۴ است و برای هر DLL یا فایل سیستمی خاص این عملیات انجام میگیرد و هر مقداری که بدست آمد در میزان حجم فایل بر حسب مگابایت مانند ۰٫۰۸۷۶ ضرب شده و مقدار جدید را تا ۳ رقم گرد میکنیم و این اطلاعات را ذخیره میکنیم . اما در موارد ۸۵ تا ۸۹ به دلیل اهمیت آنها ، مقادیر به صورت خام و همان تعدادی که فراخوانی شده در حاصل ذخیره میگردد تا در نهایت یک سطر تشکیل گردد. برای جمعآوری نمونه کد ملورهای های مختلف (source code یا object code یا کد اجرایی) برای آنالیز میتوانید باینری ملورها را از سایت اینترنتی http://vx.netlux.org/ دانلود نمایید و سپس در سایتهای http://anubis.iseclab.org و http://www.sunbeltsecurity.com/sandbox/default.aspx نتایج تحلیل رفتاری را برای این باینریها مشاهده و دانلود کنید . همچنین از قبل یک سری مجموعه گزارش آماده از رفتار تعداد زیادی ملور که توسط همین شرکتها آماده شده است در سایت اینترنتی http://pi1.informatik.uni-mannheim.de/malheur قابل دریافت است که تعداد دادههای آن بالغ بر ۳۰۰۰۰ مالوار در انواع متفاوت است . برای دریافت فایلهای XML که به صورت فشرده قرار دارند به پایین صفحه لینک بالا مراجعه نمایید و از لیست فایلهای CWsandbox موارد مورد نیاز را دانلود نمایید. برای مشاهده لیست خصوصیات انتخاب شده توسط تحقیق ما به پیوست ج مراجعه کنید.
برای اطلاع بیشتر از data set (مجموعه نمونه های) استفاده شده به پیوست ج مراجعه کنید. ۳٫۳ شناسایی نرم افزارهای مضر/ملور ها با استفاده از روش های طبقه بندی و تحلیل رگرسیون ۳٫۳٫۱ ابزار WEKA
نرمافزار WEKA یکی از ابزارهای معروف داده کاوی می باشد که الگوریتم های معروف زبادی را برای طبقهبندی ، خوشه بندی ، استخراج قوانین انجمنی و .. به صورت آماده مهیای استفاده مینماید. به این دلیل است که از weka می توان علاوه بر داده کاوی در کاربرد های تشخیص الگو نیز استفاده نمود، با استفاده از الگوریتم مناسب در weka می توان مدلی را برای استفاده در آینده ساخت. در پروژه فعلی این مدل یک classifier یا طبقه بند می باشد که برای روش classification یا طبقه بندی در این مدل می توان از الگوریتم های مختلفی استفاده نمود، مانند درخت های تصمیم گیری. با استفاده از مجموعه دادههای موجود و گردآوری شده از یک عملیات خاص (در این مثال تحلیل رفتاری ملور) می توان مدل مورد نظر را آموزش و در موارد جدید از آن استفاده نمود. نرم افزار WEKA در دانشگاه وایکاتو در نیوزیلند پیاده سازی شده است. قالب دریافت اطلاعات در این نرمافزار ARFF است که به شکل زیر میباشد .
@RELATION main نام فایل
@ATTRIBUTE dll1 numeric خصوصیت
@ATTRIBUTE dll2 numeric خصوصیت
@ATTRIBUTE dll3 numeric خصوصیت
@ATTRIBUTE dll4 numeric خصوصیت
……………………. خصوصیت
@ATTRIBUTE param85 numeric خصوصیت azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com @ATTRIBUTE class {T0, T1, T2, …. } جواب – خصوصیت
@DATA
۸٫۷۶۳,۴۳٫۸۱۶,۰,۴٫۳۸۱,۴٫۳۸۱,۰,۰,۸٫۷۶۳, … , T1
…………….
همانگونه که میبینید در ابتدا نام فایل مشخص میگردد سپس تعداد خصوصیات یا پیشگوها را با تعریف یک نام برای هر کدام و تعیین فرمت برای هر کدام مشخص میکنیم . آن خصوصیتی که به عنوان جواب انتخاب میگردد نیز تفاوتی با دیگر خصوصیات نداشته و هر کدام میتواند با توجه به تحلیل و استنتاج به عنوان جواب در نظر گرفته شود. در ادامه به ازا هر فایل بررسی شده در یک خط (آرایه ، vector) مقدار عددی هر یک از این خصوصیات به ترتیب ذکر شده در بالا آورده می شود، و در نهایت مجموعه دادههای ما را شکل می دهد که از روی تحلیل رفتار مالوارها استخراج کردهایم. در نرمافزار WEKA ما از یکی از محیط های گرافیکی آن به نام Explorer استفاده کردیم که خود شامل ۶ بخش است.
Preprocess Classify Cluster Associate Select Attribute Visualize
در این مبحث قصد نداریم که به شکل کامل به نرمافزار WEKA بپردازیم. درخلال کار قسمتهای مورد استفاده توضیح داده خواهد شد . جهت آشنایی با این نرمافزار و الگوریتمهای مختلف آن به کتاب [۱۰] که در مراجع موجود است مراجعه نمایید.
۳٫۳٫۲ پیش پردازش – کاهش ابعاد داده
پیشرفتهای بوجود آمده در جمع آوری داده و قابلیتهای ذخیره سازی در طی دهههای اخیر باعث شده در بسیاری از علوم با حجم بزرگی از اطلاعات روبرو شویم. محققان در زمینههای مختلف مانند مهندسی، ستاره شناسی، زیست شناسی و اقتصاد هر روز با مشاهدات بیشتر و بیشتری روبرو میشوند. در مقایسه با بسترهای دادهای قدیمی و کوچکتر، بسترهای دادهای امروزی چالشهای جدیدی در تحلیل دادهها بوجود آوردهاند. روشهای آماری سنتی به دو دلیل امروزه کارائی خود را از دست دادهاند. علت اول افزایش تعداد مشاهدات (observations) است، و علت دوم که از اهمیت بالاتری برخوردار است افزایش تعداد متغیرهای مربوط به یک مشاهده میباشد.
تعداد متغیرهایی که برای هر مشاهده باید اندازه گیری شود ابعاد داده نامیده میشود. عبارت “متغیر” (variable) بیشتر در آمار استفاده میشود در حالی که در علوم کامپیوتر و یادگیری ماشین بیشتر از عبارات “ویژگی” (feature) و یا “صفت” (attribute) و در تحلیهای آماری به عنوان پیشگوها استفاده میگردد.
بسترهای دادهای که دارای ابعاد زیادی هستند علیرغم فرصتهایی که به وجود میآورند، چالشهای محاسباتی زیادی را ایجاد میکنند. یکی از مشکلات دادههای با ابعاد زیاد اینست که در بیشتر مواقع تمام ویژگیهای دادهها برای یافتن دانشی که در دادهها نهفته است مهم و حیاتی نیستند. به همین دلیل در بسیاری از زمینهها کاهش ابعاد داده یکی از مباحث قابل توجه باقی مانده است.
روشهای کاهش ابعاد داده به دو دسته تقسیم میشوند:
روشهای مبتنی بر استخراج ویژگی: این روشها یک فضای چند بعدی را به یک فضای با ابعاد کمتر نگاشت میکنند. در واقع با ترکیب مقادیر ویژگیهای موجود، تعداد کمتری ویژگی بوجود میآورند بطوریکه این ویژگیها دارای تمام (یا بخش اعظمی از) اطلاعات موجود در ویژگیهای اولیه باشند. این روشها به دو دستهی خطی و غیر خطی تقسیم میشوند. روشهای مبتنی بر انتخاب ویژگی: این روشها سعی میکنند با انتخاب زیرمجموعهای از ویژگیهای اولیه، ابعاد دادهها را کاهش دهند. در پارهای از اوقات تحلیلهای دادهای نظیر طبقهبندی برروی فضای کاسته شده نسبت به فضای اصلی بهتر عمل میکند.
در تهیه این گزارش کمتر به اثباتهای ریاضی پرداخته شده و بیشتر به مفاهیم و کاربرد روشها توجه شده است. در بخش دوم از این گزارش، به مطالعهی روشهای مبتنی بر استخراج ویژگی پرداختهایم. در تهیهی مطالب این بخش سعی کردهایم با ارائهی مثالهای مناسب، خواننده را در درک بهتر مفاهیم مربوطه یاری رسانیم. در این بخش، چهار روش ارائه شده است که همگی از نوع خطی هستند. بدلیل حجم زیاد مطالب، مجالی برای پرداختن به روشهای دیگر خطی و روشهای غیر خطی باقی نماند. برای اطلاع از بعضی از روشهای استفاده شده به پیوست الف مراجعه نمایید.
برای انجام کارهای پیش پردازش ابتدا فایل با فرمت ARFF را از قسمت Open File بار میکنیم سپس از بخش فیلتر ، مورد Unsupervised الگوریتم Normalize را انتخاب میکنیم . اجرای این الگوریتم با زدن دکمه Apply باعث خواهد شد که دادههای ما بین ۰ تا ۱ قرار گیرند.
البته بایستی در انتخاب نوع الگوریتمها دقت نمود چرا که به شدت در نتیجه کار تاثیرگذار است. برای انجام قسمت دوم عمل پیش پردازش بایستی از قسمت Filter گزینه Supervised و Attribute و سپس Attribute Selection را انتخاب کرده و بعد از آن الگوریتم های موردنظر برای انتخاب و کاهش ویژگی ها را انتخاب می کنیم. کافیست با زدن کلید apply عملیات را اجرا نمایید تا نتیجه را که کاهش تعداد خصوصیات انتخابیست را ببینید، البته بعضی از روش های کاهش و انتخاب ویژگی با ترکیب ویژگی های موجود، ویژگی های جدیدی را تولید می کتتد . نتیجه اعمال بعضی از این روش مانند اینست که شما با توجه به میزان تاثیر هر یک از ویژگی ها به عنوان یک پیشگو ، پیشگو (ویژگی)های مهمتر را بایکی از الگوریتمها انتخاب و یا با توجه به میزان تاثیرشان ویژگی های جدید بوجود آورید.
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com برای نتیجه گیری انتخاب خصوصیات باید بگوییم که برای رسیدن به خروجی مناسب استفاده از الگوریتمهای فوق میتواند بسیار مناسب باشد. در واقع عمل جداسازی یه دو صورت کنترل شده و نشده به صورت آماری به میزان قابل توجهی در دسته بندی خروجی و اعمال درختهای تصمیم گیری میتواند موثر واقع شود. این تاثیر در بعضی مواقع تا بالای ۲۰ % هم در خروجیهای ما خود را نشان داده است.
این اتفاق به این علت است که اگر ما منحنی رگرسیون را برای خروجی رسم نماییم تا میزان تاثیر پیشگوها (ویژگی) را ببینیم بعضی از موارد بسیار مضر و مخرب عمل میکنند ، با این عملیات ما تاثیر این موردها را کاهش میدهیم و دقت را بالا میبربم.
این الگوریتمها را ما در دسته الگوریتمهای فیلترینگ بررسی کردیم.
۳٫۳٫۳ ساختن و آموزش مدل (طبقه بند: Classifier )
الگوریتمهای طبقه بندی برای ایجاد مدل (سیستمی) برای تشخیص نوع ملور های موجود یا جدید در weka عموما به ۶ دسته تقسیم میگردند که هرکدام در داخل خود الگوریتمهای متعددی دارند :
Bayes Functions Lazy Meta Misc Trees Rules Immune Neural
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com برای انتخاب، آموزش و استفاده ازمدل در آینده بایستی به مرحله بعد در نرمافزار WEKA رفته یعنی بخش Classify ، و یکی از الگوریتمهای دستهبندی[۱۱] (طبقه بندی) را مورد استفاده قرار دهیم.
۳٫۳٫۴ روش انجام کار و ارایه و بررسی نتایج بنابر روش های مختلف داده کاوی
از بخش Classify در WEKA الگوریتم مورد نظر را انتخاب کرده و سپس برای ساختن، آموزش و ارزیابی طبقه بند موردنظر روش cross validation را انتخاب کرده و تعدادfold ها را ۱۰ در نظر گرفتیم سپس بر روی دکمه شروع زده و منتظر نتیجه باقی میمانیم.
مدلهای مورد استفاده در تحلیل که بهترین نتایج را به ما دادند عبارتند از ۲ مورد اول و مورد سوم جزو روش های تکاملی است که به علت مزایایی که دارد امروزه در تشخیص ملور ها مورد توجه زیادی قرار گرفته است، البته روش های طبقه بندی دیگری نیز در آزمایشات متفاوت مورد بررسی قرار گرفت و این روش ها برای ارائه به عنوان نمونه انتخاب شدند :
Classification via Regression Decision Tree C4.5 Immune System
در حالت اول ابتدا از الگوریتم طبقهبندی از طریق رگرسیون استفاده کردیم، برای ارزیابی و تست مدل از روش cross-validation و تعداد ۱۰ fold استفاده شد. در ابن حالت برای طبقهبندی ۲۳ نوع ملور مدل ما توانست با دقت ۹۸٫۴۰۳۱ % نوع ملور ها درست تشخیص دهد،
همانگونه که در شکل بالا میبینید که حاصل نتایج طبقهبندی از طریق رگرسیون است از کل ۳۱۳۱ نمونه گرداوری شده ، الگوریتم توانسته است که ۳۰۸۱ مورد را در دسته(کلاس)های مربوطه به درستی قرار دهد. این روش موارد را در یکی از شاخه های درختی مشابه درخت تصمیمگیری قرار داده و سپس برای هر مورد یک معادله رگرسیون ایجاد میکند که این معادلات رگرسیونی بر حسب مقادیر و ضرایب پیشگوها که در این جا feature های هر نمونه هستند تغییر میکند و میزان تاثیر آنها درحالات مختلف در کلاس خروجی متفاوت است. در شکل زیر میتوانید ببینید که به صورت نمونه دستهبندی و ضرایب برای هر معادله در یک مثال به چه شکلی است . در این روش برای استفاده از هر معادله در واقع قوانین و شرایطی برای مقادیر feature ها مشخص می شود، که در صورت دارا بودن آن شرایط از معادله ای که در انتهای شاخه برای بدست آوردن مقدار کلاس مشخص شده استفاده می شود. در این روش feature های انتخاب شده نقش پیشگو ها را در معادلات رگرسیونی بازی می کنند.
به عنوان نمونه در شکل بالا ، این گونه گفته میشود که اگر پارامتر ۸۹ کوچکتر مساوی با ۰٫۰۰۲ بود و Dll47 مقدارش کوچکتر مساوی با صفر بود آنگاه معادله رگرسیونی LM1 را در نظر بگیر و به این ترتیب تمامی معادلات مشخص میگردند. علی رقم مشابهت این روش با درخت های تصمیم گیری جهت این دو روش کمی متفاوت می باشند.
درحالت دوم از روش درخت های تصمیم گیری و الگوریتم C4.5 که از درخت های تصمیم محبوب می باشد نیز بر روی این داده ها استفاده شد و در همین حالت cross-validation با ۱۰ fold جواب مشابه ای بدست آمد که ۹۸٫۷۲۲۵ % می باشد.
تفاوت روش طبقه بندی از طریق رگرسیون با درخت های تصمیم گیری در این می باشد که در روش اول شما در انتهای هر شاخه یک مدل رگرسیون (معادلع) خواهید داشت (که برای هر کلاس متفاوت می باشد) که از طریق آن مقدار کلاس محاسبه خواهد شد ولی در روش درخت های تصمیم گیری در انتهای هر شاخه مستقیما مقدار خود کلاس مشخص خواهد شد و اگر نمونه ای برحسب شرایط به انتهای یک شاخه برسد در آنجا مقدار کلاسی که به آن متعلق می باشد به طور دقیق ذکر شده است. البته بعد از آموزش سیستم (مدل) شاخه های درخت و مقادیر کلاس ها در انتهای هر شاخه مشخص می شود. برای درک این دو مدل به درخت تصمیم گیری در پیوست ب مراجعه کنید.
درحالت سوم الگوریتم AIRS (Artificial Immune Recognition System) را بر روی مجموعه دادهها اجرا میکنیم در مرحله اول این الگوریتم برای هر نوع یا کلاس یک تعداد نماینده بهینه از روی مجموعه داده های training بدست می آورد که تعداد آنها بسیار کمتر از داده های اصلی می باشد، سپس طبقهبندی را توسط روش KNN با استفاده از نقاط نماینده هر کلاس انجام میدهد. نقاط انتخاب شده همراه با داده های test ورودی الگوریتم KNN هستند و در KNN این نقاط برای تشخیص کلاس داده های تست استفاده می شود، در نتیجه این روش بسیار بهتر از KNN عمل می کند، در این روش قدرت تشخیص با همان روش cross-validation با ۱۰ fold دقت تشخیص درست ۸۱٫۹۸۶۶ % درصد است که از تعداد ۳۱۳۱ نمونه ۲۵۶۷ مورد را به شکل صحیح تشخیص میدهد. نقطه برتری این روش با توجه به پایین بودن درصد طبقهبندی آن ، قدرت تشخیص بالا برای نمونه های جدید است. در این پروژه از ورژن parallel الگوریتم AIRS استفاده شد که برای داده ای زیاد همراه با تعداد کلاس ها و feature های زیاد از سرعت بالایی برخوردار می باشد. این الگوریتم یک الگوریتم supervise الهام گرفته از سیستم ایمنی بدن می باشد که برای طبقه بندی از آن استفاده می شود.
از مدل های ایجاد شده در هر روش می توان برای شناسایی سایر ملور هایی که در data set آموزش (train) و تست ما موجود نبود استفاده کرد، البته این مدل ها قدرت خود را با روش cross-validation نشان داده اند، در همین روش نیز ابتدا data set به بخش های مساوی به تعداد fold ها تقسیم می شود، سپس به صورت متوالی بخشی از data set به صورت test و سایر بخش ها به عنوان train استفاده می شود تا تمام بخش ها به عنوان test برای مدل استفاده شود، پس در هر بار بعد از train سیستم با ملور های جدیدی مواجه می شود که قبلا آنها را ندیده و باید نوع آنها را تشخیص دهد. azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com البته مراحل آموزش و تست سیستم به صورت کاملا مجزا و با data setهای مجزا نیز انجام شد، برای این منظور data set اصلی به صورت random با درصد ۷۰-۳۰ جدا می شود. (ابتدا data set را randomize نمونه و سپس ۷۰% آن را برای train سیستم و ۳۰% آن را برای test سیستم جدا می کنیم). در این حالت ابتدا سیستم را با بخش جدا شده برای train آموزش می دهیم و سپس با استفاده از داده های تست دقت آن را در تشخیص ملورهای جدید ارزیابی می کنیم، نتایج بدست آمده (درصد میزان درستی تشخیص سیستم) برای داده های تست در هر روش در زیر آورده می شود، این نتایج نشان می دهد که مدل (سیستم) های بدست آمده برای تشخیص مالور های جدید قابل اعتماد خواهند بود.
Classification via Regression: 98.2979 %
Decision Tree (C4.5): 99.2553 %
Parallel AIRS: 85.7447 %
۳٫۳٫۵ بررسی خروجی الگوریتم های طبقه بندی در Weka
رای درک بهتر گزارش خروجی های weka بعد از اجرای هر الگوریتم (الگوریتم های طبقه بندی) توضیح مختصری در مورد قسمتهای مهم آن در ادامه آورده شده است، و نکاتی که هر مورد می توانند در بررسی قدرت و دقت مدل برای ما مشخص کنند بیان شده است.
مهمترین خروجی Correctly Classified Instances که تعداد و درصد نمونه هایی که درست شناسایی شده اند را مشخص می کند در واقع این عدد معیاری است برای ارزیابی میزان صحت و دقت عملکرد سیستم (مدل) بدست آمده، به طور مثال در این جا به ما نشان می دهد که این مدل تا چه حدی در تشخیص نوع برنامه های مضر/ ملور ها موفق بوده است، علاوه بر الگوریتم طبقه بندی انتخاب شده و پارامترهای الگوریتم که توسط ما به صورت دستی برای سیستم قبل از شروع آموزش انتخاب می شود، نمونه های جمع آوری شده و خصوصیات/ ویژگی های استخراج و انتخاب شده برای نمونه ها (در اینجا ملورها) نیز موثر می باشد، درصورتیکه نمونه ها با توزیع خوبی جمع آوری نشود به طوری که کل فضای آزمایش شما را پوشش ندهد سیستم نمی تواند همه کلاس ها را به خوبی شناسایی کند و یا بعد از آموزش در شناخت موارد جدید به خوبی عمل نخواهد کرد،درصورتیکه برای بردار ویژگی/ خصوصیت، مواردی انتخاب نشود که بردار ویژگی نماینده دقیقی از موارد مورد مطالعه باشد، به طور مثال در اینجا خصوصیات انتخاب شده به خوبی نشانگر رفتار ملورها نباشند، مسلما نتایج دلخواه بدست نخواهد آمد. البته نتایج ضعیف طبقه بندی ممکن آست ناشی از ضعف الگوریتم انتخاب شده و یا انتخاب اشتباه پارامترهای آن باشد، نتایج خوب بدست آمده در آزمایشات انجام شده در این پروژه بر روی طیف گستردهای از الگوریتم ها نشانگر آن است که ویژگی های خوبی از گزارشات رفتار ملورها استخراج شده است. نتایج طبقه بندی هم برای آموزش سیستم و هم برای تست آن در برابر داده های جدید می توان مشاهده نمود، که معمولا ابتدا سیستم با ۷۰% data set (مجوعه نمونه ها) آموزش داده می شود و سپس با ۳۰% نمونه های باقیمانده تست خواهد شد. در حالت تست داده ها را همراه جواب به سیستم می دهیم تا آموزش دیده و الگو های کلی هر کلاس را استخراج کرده و یاد بگیرد و پارامتر های خود را تنظیم کند و مدل ساخته شود، سپس مدل را با روی نمونه های جدید که جواب (کلاس) آن را نمی داند تست می کنیم، در هر مورد گزارش weka اکثر موارد مانند correctness rate ثابت است. البته ممکن است برای آموزش و تست سیستم از روش cross-validation استفاده شود، که در این روش شما در انتها یک جواب را مشاهده می کنید که در واقع میانگین جواب برای تست تعداد fold هایی است که برای تست انتخاب شده اند بعد از آموزش سیستم توسط بقیه نمونه ها.
مورد مهم بعدی در خروجی weka ، Incorrectly Classified Instances می باشد که تعداد و درصد نمونه هایی است که غلط طبقه بندی شده اند و سیستم (مدل) کلاس آن ها را به درستی شناسایی نکرده است.
Confusion Matrix نیز در خروجی weka قابل مشاهده می باشد، که برای بررسی دقیقتر مدل لازم است
Confusion Matrix ماتریس مربعی است که به تعداد کلاس ها سطر و ستون دارد، و اگر به طور مثال i عنصری قطر اصلی باشد در سطر و ستون j ، مقدار آن نشانگر تعداد نمونه هایی از کلاس j در data set می باشد که به درستی طبقه بندی شده اند، و اگر در سطر j مقدار سابرخانه ی سایر ستون ها که بر قطر اصلی نیستند غیر صفر باشد، به طور مثال خانه ای در سطر j و ستون k ، مقدار آن نشانگر تعداد نمونه های کلاس j است که به اشتباه در کلاس k توسط سیستم طبقه بندی شده اند. با بررسی این ماتریس می توان به طور دقیف فهمید که ضعف مدل در شناسایی چه کلاس هایی است و مدل توانسته چه کلاس هایی را به خوبی یاد گرفته و شناسایی کند، و یا اینکه چه کلاس هایی توسط مدل با هم اشتباه گرفته می شوند ، به این معنی که ممکن است تعداد زیادی از نمونه های یک کلاس در کلاس دیگر طبقه بندی شده باشند. ضعف سیستم در شناسایی یک کلاس ممکن است ناشی از انتخاب نمونه های بد برای آن کلاس باشد که نمایانگر الگوی رفتاری و خصوصیات آن کلاس نباشند، و یا ویژگی هایی که از نمونه ها استخراج شده اند ویژگی های خوبی نباشند، البته خروجی های ضعیف سیستم ممکن است دلایل دیگری نیز داشته باشد.
بسیاری از مواردی که در خروجی های weka دقیقا در قسمت بالای confusion matrix مشاهده می کنید از روی این ماتریس قابل محاسبه می باشد، برای آشنایی بیشتر با سایر موارد در گزارشات خروجی weka می توانید به manual آن مراجعه کنید که عموما در جایی که weka نصب شده کپی می شود.
۴ پیوست الف روشهای کاهش ویژگی
در این بخش یک مطالعه اجمالی برروی تمامی روشهای کاهش ویژگی[۱۲] انجام شده است که مشتمل بر دو دسته اصلی می باشد، روشهای مبتنی بر استخراج ویژگی و روشهای مبتنی بر انتخاب ویژگی. ۴٫۱ روشهای مبتنی بر استخراج ویژگی
همانطور که در بخش اول اشاره شد روشهای مبتنی بر استخراج ویژگی، یک فضای چند بعدی را به یک فضای با ابعاد کمتر نگاشت میدهند. این روشها به دو دستهی خطی و غیرخطی تقسیم میشوند. روشهای خطی که سادهترند و فهم آنها راحتتر است بدنبال یافتن یک زیرفضای تخت عمومی (Global flat subspace) هستند. اما روشهای غیرخطی که مشکلترند و تحلیل آنها سختتر است بدنبال یافتن یک زیرفضای تخت محلی (Locally flat subspace) میباشند.
از روشهای خطی میتوان به DFT، DWT، PCA و FA اشاره کرد که آنها را به ترتیب در ادامهی همین بخش توضیح خواهیم داد. روشهای دیگر غیرخطی عبارتند از:
Projection Pursuit (PP) : برخلاف روشهای PCA و FA میتواند اطلاعات بالاتر از مرتبهی دوم را ترکیب نماید. بنابراین روش مناسبی است برای بسترهای دادهای غیر گاوسی. Independent Component Analysis (ICA) : این روش نیز یک نگاشت خطی انجام میدهد اما بردارهای این نگاشت لزوماً بر یکدیگر عمود نیستند، در حالی که در روشهای دیگر مانند PCA این بردارها بر هم عمودند. Random Projection (PP) : یک روش ساده و در عین حال قدرتمند برای کاهش ابعاد داده است که از ماتریسهای نگاشت تصادفی برای نگاشت دادهها به یک فضای با ابعاد کمتر استفاده میکند.
از روشهای غیرخطی نیز میتوان به موارد زیر اشاره کرد:
Principal Curves Self Organizing Maps Vector Quantization Genetic and Evolutionary Algorithms Regression
مسئلهی کاهش ابعاد داده را بطور ریاضی میتوان به اینصورت بیان کرد: یک متغیر تصادفی p-بعدی داریم. میخواهیم متغیر k-بعدی را به گونهای پیدا کنیم که اولاً k ≤ p باشد و ثانیاً s محتویاتی که در x وجود دارد را بر اساس معیاری خاص دارا باشد. روشهای خطی سعی میکنند هر یک از این k مؤلفه را از ترکیب خطی p مؤلفهی اولیه بدست آورند.
که Wk×p ماتریس وزنهای نگاشت خطی میباشد. Discrete Fourier Transform (DFT)
در بسیاری از کاربردها مرسوم است که از ترکیب توابع پایهای برای تقریب یک تابع استفاده شود. به عنوان مثال هر تابع پیوسته را میتوان توسط مجموعهای از توابع چند جملهای نمایش داد. تبدیل فوریه نوعی تبدیل است که یک تابع را بصورت توابع پایهای سینوسی که هر کدام در مقادیری ضرب شدهاند نشان میدهد (شکل ۱). از تبدیل فوریه در بسیاری از زمینههای علمی مانند فیزیک، هندسه، آمار و پردازش سیگنال استفاده میشود.
شکل ۱- تبدیل فوریه سعی میکند یک تابع را بصورت توابع پایهای سینوسی نشان دهد
تبدیل فوریه یک تبدیل برگشت پذیر است. این تبدیل میتواند به دو صورت پیوسته یا گسسته انجام شود. در کامپیوتر و بخصوص در پردازش سیگنال معمولاً از تبدیل فوریهی گسسته (DFT) استفاده میشود. خوشبختانه الگوریتمهای سریعی تحت عنوان FFT (Fast Fourier Transform) برای تبدیل فوریهی گسسته به وجود آمده است. Discrete Wavelet Transform (DWT)
تبدیل DWT برای اولین بار توسط شخصی به نام Alfred Haar بوجود آمد. تا کنون نسخههای مختلفی برای DWT ارائه شده است، مانند Haar Wavelet، Newland Transform و Undecimated Wavelet Transform. این تبدیل نیز همانند تبدیل فوریه بسیار پرکاربرد است و در بسیاری از زمینههای علوم و مهندسی مورد توجه قرار گرفته است. تبدیل Haar Wavelet بدلیل سادگی در پیاده سازی و سرعت اجرای بالا، از محبوبیت بیشتری نسبت به سایر نسخههای DWT برخوردار است.
این تبدیل به اینصورت است که یک توالی به طول ۲n در ورودی داریم. این اعداد بصورت جفت جفت با هم جمع شده و این حاصل جمعها به مرحلهی بعد فرستاده میشوند. همچنین اختلاف هر جفت نیز محاسبه و ذخیره میشود. دوباره این مرحله تکرار میشود با این تفاوت که در ورودی، حاصل جمع جفتهای مرحلهی قبل قرار میگیرد. این فرایند بطور بازگشتی تکرار میشود تا در نهایت یک عدد که حاصل جمع کل اعداد است بدست آید. این عدد به همراه ۲n-1 اختلاف جفتها که در مراحل مختلف الگوریتم محاسبه شده بعنوان خروجی این تبدیل بازگردانده میشود. Principal Component Analysis (PCA)
تکنیک PCA بهترین روش برای کاهش ابعاد داده به صورت خطی میباشد. یعنی با حذف ضرایب کماهمیت بدست آمده از این تبدیل، اطلاعات از دست رفته نسبت به روشهای دیگر کمتر است. البته کاربرد PCA محدود به کاهش ابعاد داده نمیشود و در زمینههای دیگری مانند شناسایی الگو و تشخیص چهره نیز مورد استفاده قرار میگیرد. در این روش محورهای مختصات جدیدی برای دادهها تعریف شده و دادهها براساس این محورهای مختصات جدید بیان میشوند. اولین محور باید در جهتی قرار گیرد که واریانس دادهها ماکسیمم شود (یعنی در جهتی که پراکندگی دادهها بیشتر است). دومین محور باید عمود بر محور اول به گونهای قرار گیرد که واریانس دادهها ماکسیمم شود. به همین ترتیب محورهای بعدی عمود بر تمامی محورهای قبلی به گونهای قرار میگیرند که دادهها در آن جهت دارای بیشترین پراکندگی باشند. در شکل زیر این مطلب برای دادههای دو بعدی نشان داده شده است.
روش PCA به نامهای دیگری نیز معروف است. مانند:
Singular Value Decomposition (SVD) Karhunen Loeve Transform (KLT) Hotelling Transform Empirical Orthogonal Function (EOF)
Factor Analysis (FA)
FA یکی از روشهای آماری است که میتواند چندین متغیر تصادفی مشاهده شده را توسط تعداد کمتری متغیر تصادفی (که در داده ها پنهان هستند) نمایش دهد. این متغیرهای تصادفی پنهان، فاکتور (factor) نامیده می شوند. این روش سعی می کند متغیرهای تصادفی مشاهده شده را توسط ترکیب خطی فاکتورها بعلاوهی مقداری خطا مدلسازی نماید. روش FA از رشته هوش سنجی سرچشمه گرفته و در زمینههای علوم اجتماعی، بازاریابی، مدیریت تولید، تحقیق در عملیات و علوم کاربردی دیگر که با حجم بزرگی از دادهها سروکار دارند مورد استفاده قرار گرفته است. این روش برای اولین بار حدود ۱۰۰ سال پیش توسط یک روانشناس به نام Charles Spearman ابداع شد. این شخص نظریهای به نام g theory ارائه داد و در آن ادعا کرد که تمام توانمندیهای ذهنی افراد مانند مهارتهای ریاضی، مهارتهای هنری، دایره لغات، توانایی استدلالهای منطقی و غیره را میتوان توسط یک فاکتور به نام هوش عمومی (General Intelligence) بیان کرد. البته این نظریه امروزه رد شده و تحقیقات انجام شده نشان میدهد که توانمندیهای ذهنی حداقل از سه فاکتور به نامهای توانائی ریاضی، توانائی شفاهی و توانائی منطقی تشکیل شده است. روانشناسان زیادی بر این باورند که علاوه بر این سه فاکتور، فاکتورهای دیگری وجود دارد که میتواند بر توانمندیهای ذهنی افراد تأثیرگذار باشد. ۴٫۲ روشهای مبتنی بر انتخاب ویژگی
مساله انتخاب ویژگی، یکی از مسائلی است که در مبحث یادگیری ماشین و همچنین شناسائی آماری الگو مطرح است. این مساله در بسیاری از کاربردها (مانند طبقه بندی) اهمیت به سزائی دارد، زیرا در این کاربردها تعداد زیادی ویژگی وجود دارد، که بسیاری از آنها یا بلااستفاده هستند و یا اینکه بار اطلاعاتی چندانی ندارند. حذف نکردن این ویژگیها مشکلی از لحاظ اطلاعاتی ایجاد نمیکند ولی بار محاسباتی را برای کاربرد مورد نظر بالا میبرد. و علاوه بر این باعث میشود که اطلاعات غیر مفید زیادی را به همراه دادههای مفید ذخیره کنیم.
برای مساله انتخاب ویژگی، راه حلها و الگوریتمهای فراوانی ارائه شده است که بعضی از آنها قدمت سی یا چهل ساله دارند. مشکل بعضی از الگوریتمها در زمانی که ارائه شده بودند، بار محاسباتی زیاد آنها بود، اگر چه امروزه با ظهور کامپیوترهای سریع و منابع ذخیره سازی بزرگ این مشکل، به چشم نمیآید ولی از طرف دیگر، مجموعههای دادهای بسیار بزرگ برای مسائل جدید باعث شده است که همچنان پیدا کردن یک الگوریتم سریع برای این کار مهم باشد.
در این بخش ما در ابتدا تعاریفی که برای انتخاب ویژگی ارائه شدهاند و همچنین، تعاریف مورد نیاز برای درک این مساله را ارائه میدهیم. سپس روشهای مختلف برای این مساله را بر اساس نوع و ترتیب تولید زیرمجموعه ویژگیهای کاندید و همچنین نحوه ارزیابی این زیرمجموعهها دسته بندی میکنیم. سپس تعدادی از روشهای معرفی شده در هر دسته را معرفی و بر اساس اهمیت، تا جائی که مقدور باشد، آنها را تشریح و الگوریتم برخی از آنها را ذکر میکنیم. لازم به ذکر است که بدلیل اینکه مبحث انتخاب ویژگی به مبحث طبقه بندی بسیار نزدیک است، بعضی از مسائلی که در اینجا مطرح میشود مربوط به مبحث طبقه بندی میباشد. توضیحات ارائه شده برای الگوریتمهای مختلف در حد آشنائی است. شما میتوانید برای کسب اطلاعات بیشتر به منابع معرفی شده مراجعه کنید.
تعاریف
مساله انتخاب ویژگی بوسیله نویسندگان مختلف، از دیدگاههای متفاوتی مورد بررسی قرار گرفته است. هر نویسنده نیز با توجه به نوع کاربرد، تعریفی را از آن ارائه داده است. در ادامه چند مورد از این تعاریف را بیان میکنیم[۶]:
تعریف ایدهآل: پیدا کردن یک زیرمجموعه با حداقل اندازه ممکن، برای ویژگیها است، که برای هدف مورد نظر اطلاعات لازم و کافی را در بر داشته باشد. بدیهی است که هدف تمام الگوریتمها و روشهای انتخاب ویژگی همین زیر مجموعه است. تعریف کلاسیک: انتخاب یک زیرمجموعه M عنصری از میان N ویژگی، به طوریکه M < N باشد و همچنین مقدار یک تابع معیار (Criterion Function) برای زیرمجموعه مورد نظر، نسبت به سایر زیرمجموعههای هماندازه دیگر بهینه باشد. این تعریفی است که Fukunaga و Narenda در سال ۱۹۷۷ ارائه دادهاند. افزایش دقت پیشگوئی: هدف انتخاب ویژگی این است که یک زیرمجموعه از ویژگیها برای افزایش دقت پیشگوئی انتخاب شوند. به عبارت دیگر کاهش اندازه ساختار بدون کاهش قابل ملاحظه در دقت پیشگوئی طبقهبندی کنندهای که با استفاده از ویژگیهای داده شده بدست میآید. تخمین توزیع کلاس اصلی: هدف از انتخاب ویژگی این است که یک زیرمجموعه کوچک از ویژگیها انتخاب شوند، توزیع ویژگیهایی که انتخاب میشوند، بایستی تا حد امکان به توزیع کلاس اصلی با توجه به تمام مقادیر ویژگیهای انتخاب شده نزدیک باشد.
روشهای مختلف انتخاب ویژگی، تلاش میکنند تا از میان N2 زیر مجموعه کاندید، بهترین زیرمجموعه را پیدا کنند. در تمام این روشها بر اساس کاربرد و نوع تعریف، زیر مجموعهای به عنوان جواب انتخاب میشود، که بتواند مقدار یک تابع ارزیابی را بهینه کند. با وجود اینکه هر روشی سعی میکند که بتواند، بهترین ویژگیها را انتخاب کند، اما با توجه به وسعت جوابهای ممکن، و اینکه این مجموعههای جواب بصورت توانی با N افزایش پیدا میکنند، پیدا کردن جواب بهینه مشکل و در N های متوسط و بزرگ بسیار پر هزینه است.
به طور کلی روشهای مختلف انتخاب ویژگی را بر اساس نوع جستجو به دسته های مختلفی تقسیم بندی میکنند. در بعضی روشها تمام فضای ممکن جستجو میگردد. در سایر روشها که میتواند مکاشفهای و یا جستجوی تصادفی باشد، در ازای از دست دادن مقداری از کارآئی، فضای جستجو کوچکتر میشود.
برای اینکه بتوانیم تقسیم بندی درستی از روشهای مختلف انتخاب ویژگی داشته باشیم، به این صورت عمل میکنیم که فرآیند انتخاب ویژگی در تمامی روشها را به این بخشها تقسیم میکنیم:
تابع تولید کننده (Generation procedure): این تابع زیر مجموعههای کاندید را برای روش مورد نظر پیدا میکند. تابع ارزیابی (Evaluation function) : زیرمجموعه مورد نظر را بر اساس روش داده شده، ارزیابی و یک عدد به عنوان میزان خوبی روش باز میگرداند. روشهای مختلف سعی در یافتن زیرمجموعهای دارند که این مقدار را بهینه کند. شرط خاتمه: برای تصمیمگیری در مورد زمان توقف الگوریتم. تابع تعیین اعتبار (Validation procedure): تصمیم میگیرد که آیا زیر مجموعه انتخاب شده معتبر است یا خیر؟
فرآیند انتخاب ویژگی
تابع تولید کننده در واقع تابع جستجو است. این تابع زیرمجموعههای مختلف را به ترتیب تولید میکند، تا بوسیله تابع ارزیابی، مورد ارزیابی قرا بگیرد. تابع تولید کننده از یکی از حالتهای زیر شروع به کار میکند:
۱) بدون ویژگی
۲) با مجموعه تمام ویژگیها
۳) با یک زیرمجموعه تصادفی
در حالت اول ویژگیها به ترتیب به مجموعه اضافه میشوند و زیرمجموعههای جدید را تولید میکنند. این عمل آنقدر تکرار میشود تا به زیر مجموعه مورد نظر برسیم. به اینگونه روشها، روشهای پائین به بالا میگویند.در حالت دوم از یک مجموعه شامل تمام ویژگیها، شروع میکنیم و به مرور و در طی اجرای الگوریتم، ویژگیها را حذف میکنیم، تا به زیرمجموعه دلخواه برسیم. روشهایی که به این صورت عمل میکنند، روشهای بالا به پائین نام دارند.
یک تابع ارزیابی، میزان خوب بودن یک زیرمجموعه تولید شده را بررسی کرده و یک مقدار به عنوان میزان خوب بودن زیرمجموعه مورد نظر بازمیگرداند. این مقدار با بهترین زیرمجموعه قبلی مقایسه میشود. اگر زیر مجموعه جدید، بهتر از زیرمجموعههای قدیمی باشد، زیرمجموعه جدید به عنوان زیرمجموعه بهینه، جایگزین قبلی میشود.
دسته بندی و تشریح الگوریتم های مختلف انتخاب ویژگی
در این قسمت بر اساس تابع ارزیابی و تابع تولید کننده، روشهای مختلف انتخاب ویژگی را به چند دسته تقسیم بندی میکنیم و سپس تعدادی از روشها را شرح داده و الگوریتم کار را به صورت شبه کد، ذکر میکنیم.
قبل از اینکه بحث را ادامه دهیم، لازم است که متغیرهای به کار رفته در شبه کدها را معرفی کنیم. این متغیرها و شرح آنها به صورت زیر میباشد:
D: مجموعه آموزشی S: مجموعه ویژگی اصلی (شامل تمام ویژگیها) N: تعداد ویژگیها T: زیرمجموعه ویژگی انتخاب شده M: تعداد ویژگیهای انتخاب شده یا تعداد ویژگیهایی که لازم است انتخاب شوند.
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
الف) تابع ارزیابی مبتنی بر فاصله – تابع تولید کننده مکاشفه ای
مهمترین روش در این گروه Relief [8] است. در اینجا ما ابتدا این روش را به عنوان نماینده این گروه شرح میدهیم، سپس یک مرور مختصری بر سایر روشها خواهیم داشت.
روش Relief از یک راه حل آماری برای انتخاب ویژگی استفاده میکند، همچنین یک روش مبتنی بر وزن است که از الگوریتمهای مبتنی بر نمونه الهام گرفته است. روش کار به این صورت است که از میان مجموعه نمونههای آموزشی، یک زیرمجموعه نمونه انتخاب میکنیم. کاربر بایستی تعداد نمونهها(NoSample) در این زیرمجموعه را مشخص کرده باشد. و آنرا به عنوان ورودی به الگوریتم ارائه دهد. الگوریتم به صورت تصادفی یک نمونه از این زیرمجموعه را انتخاب میکند، سپس برای هر یک از ویژگیهای این نمونه، نزدیکترین برخورد (Nearest Hit) و نزدیکترین شکست (Nearest Miss) را بر اساس معیار اقلیدسی پیدا میکند. نزدیکترین برخورد نمونهای است که کمترین فاصله اقلیدسی را در میان سایر نمونههای همکلاس با نمونه انتخاب شده دارد. نزدیکترین شکست نیز نمونهای است که کمترین فاصله اقلیدسی را در میان نمونههایی که همکلاس با نمونه انتخاب شده نیستند، دارد.
ایده اصلی در این الگوریتم این است که هر چه اختلاف بین اندازه یک ویژگی در نمونه انتخاب شده و نزدیکترین برخورد کمتر باشد، این ویژگی بهتر است و بعلاوه یک ویژگی خوب آن است که اختلاف بین اندازه آن ویژگی و نزدیکترین شکست وی بیشتر باشد. دلیل کار هم خیلی ساده است، ویژگیهایی که به خوبی دو کلاس (یا یک کلاس از سایر کلاسها) را از هم تمییز میدهند، برای نمونههای متعلق به دو کلاس متفاوت مقادیری نزدیک بههم نمیدهند و یک فاصله معنیداری بین مقادیری که به نمونههای یک کلاس میدهند و مقادیری که به سایر کلاس(ها) میدهند وجود دارد.
الگوریتم پس از تعیین نزدیکترین برخورد و نزدیکترین شکست، وزنهای ویژگیها را به روزرسانی میکند، این بهروزرسانی به این صورت است که مربع اختلاف بین مقدار ویژگی مورد نظر در نمونه انتخاب شده و نمونه نزدیکترین برخورد از وزن ویژگی کم میشود و در عوض مربع اختلاف بین مقدار ویژگی در نمونه انتخاب شده و نزدیکترین شکست به وزن ویژگی اضافه میشود. هر چه مقدار این وزن بزرگتر باشد، ویژگی مورد نظر، بهتر میتواند نمونههای یک کلاس را از دیگران جدا کند.
بعد از تعیین فاصله برای تمام نمونههای موجود در مجموعه نمونهها، الگوریتم ویژگیهایی را که وزن آنها کمتر یا مساوی با یک حد آستانهای است، را حذف میکند، و سایر ویژگیها بعنوان زیرمجموعه ویژگی جواب باز میگردند. مقدار حد آستانهای توسط کاربر تعیین میگردد، البته ممکن است که بصورت اتوماتیک بوسیکه یک تابعی از تعداد کل ویژگیها تعیین شود و یا اینکه با سعی و خطا تعیین گردد. همچنین میتوان ویژگیهایی که وزن آنها منفی است را حذف کرد.
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
الگوریتم Relief
الگوریتم Relief برای ویژگیهای دارای نویز یا ویژگیهای دارای همبستگی خوب کار میکند و پیچیدگی زمانی آن بصورت خطی و تابعی از تعداد ویژگیها و تعداد نمونههای مجموعه نمونه میباشد. و هم برای دادههای پیوسته و هم برای دادههای صوری خوب کار میکند.
یکی از محدودیتهای اساسی این الگوریتم این است که ویژگیهایی که دارای افزونگی باشند را پیدا نمیکند و بنابراین مجموعههای غیر بهینه را پیدا میکند که دارای افزونگی هستند. این مشکل را میتوان با یک جستجوی تعیین جامعیت برای زیرمجموعههای تولید شده توسط الگوریتم حل کرد. علاوه بر این مشکل دیگر این الگوریتم این است که با مسائل دو کلاسه خوب کار میکند. این محدودیت نیز با الگوریتم Relief-F [9] مرتفع شده است، با الگوریتم جدید مشکل دادههای غیر کامل (نمونههای آموزشی غیرکامل) نیز حل شده است.
روشی که Jakub Segen [10] برای انتخاب ویژگی مطرح کرده است، از یک تابع ارزیابی استفاده میکند که مجموع یک معیار اختلاف آماری و یک معیار پیچیدگی ویژگی را محاسبه کرده و آنرا مینیمم میکند. این الگوریتم، اولین ویژگی را که بهتر بتواند کلاسها را از هم تمییز دهد را پیدا میکند. سپس ویژگیهایی را پیدا میکند، که در ترکیب با ویژگیهای انتخاب شده، جدائیپذیری کلاسها را افزایش دهند. این فرآیند زمانی متوقف میشود که به حداقل معیار بازنمائی مورد انتظار برسیم.
ب) تابع ارزیابی مبتنی بر فاصله – تابع تولید کننده کامل
استفاده از این ترکیب در روشهای قدیمی نظیر B&B (Branch and Bound) یافت میشود. سایر روشهای این گروه، نسخههای متفاوتی از B&B هستند. به این ترتیب که یا یک تابع تولید کننده دیگری را استفاده کردهاند (BFF [11]) و یا اینکه از یک تابع ارزیابی متفاوتی استفاده کردهاند (Bobrowski’s method [12]). در اینجا ابتدا به شرح B&B میپردازیم و سپس یک شرح مختصری در مورد دو روش دیگر ارائه میدهیم.
تعریف کلاسیک ارائه شده بوسیله Fukunaga و Narenda از انتخاب ویژگی، احتیاج دارد که تابع ارزیابی یکنوا باشد. یعنی اگر دو زیرمجموعه ویژگی A و B با اندازههای M و N موجود باشند، و B A در اینصورت مقدار تابع ارزیابی برای A نباید بیشتر از مقدار تابع برای B باشد. این تعریف باعث ایجاد مشکل در مسائل دنیای واقعی میشود، زیرا اندازه تخمینی زیرمجموعه ویژگی بهینه در حالت عمومی ناشناخته است.
البته به سادگی میتوان این تعریف را تغییر داد تا با مسائل عمومی سازگار شود، به اینصورت که میگوئیم: الگوریتمهای مشابه B&B تلاش میکنند که دو شرط زیر را همزمان ارضاء کنند:
زیرمجموعه ویژگی جواب تا حد امکان کوچک باشد. یک کران برای مقدار تابع ارزیابی را در نظر بگیرد. (یا یک اندازه مینیمم برای تعداد ویژگیهای انتخاب شده مثلاً بهترین زیرمجموعه ویژگی سه عنصری)
بوسیله کران تعیین شده، فضای جستجو تا حد امکان کوچک میشود. به این ترتیب الگوریتم B&B از یک زیرمجموعه شامل تمام ویژگیهای موجود شروع میکند و درخت جستجو را تشکیل میدهد. در این درخت در ریشه تمام ویژگیها قرار دارند و فرزندان وی، زیرمجموعههایی هستند که زیرمجموعه، گره پدر هستند و از حذف تنها یکی از عناصر پدرشان تشکیل شدهاند. این روند برای سایر گرههای درخت تکرار میشود تا به مجموعهها تک عنصری (یا تعداد ویژگیهای تعیین شده بعنوان کران) برسیم. یعنی برگهای درخت مجموعههای تک عنصری هستند و ریشه درخت یک مجموعه شامل همه ویژگیهای موجود.
با توجه به این خاصیت که تمام زیرمجموعههای یک مجموعه مقدار کمتری برای تابع ارزیابی دارند، در حین جستجو اگر یک گره به واسطه کم بودن مقدار تابع ارزیابی انتخاب نشد، زیرشاخههای آنرا برای یافتن جواب جستجو نمیکنیم، چون قطعاً تابع ارزیابی مقدار کمتری را برای آنها باز میگرداند. azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com عموماً توابع ارزیابی زیر برای اینکار استفاده میشوند:
فاصله ماهالانوبیس (Mahalanobis Distance) تابع جداساز (Discriminant Function) معیار فیشر (Fisher Criterion) فاصله باتاچاریا (Bhattacharya) Divergence
یک الگوریتم مشابه برای انتخاب ویژگی BFF است، در این الگوریتم، تابع جستجو به این صورت تغییر کرده است که مشابه حل مساله جستجوی یک مسیر بهینه در یک درخت وزندار با یک استراتژی تغییر یافته از Best first search است. این الگوریتم تضمین میکند که بهترین هدف(زیرمجموعه بهینه) بدون از دست دادن جامعیت مساله پیدا شود، البته با ارضای معیار یکنوا بودن تابع ارزیابی.
ج) تابع ارزیابی مبتنی بر اطلاعات – تابع تولید کننده مکاشفه ای – در این دسته دو روش وجود دارد:
۱) روش درخت تصمیم
در روش درخت تصمیم، نمونهها به یک الگوریتم C4.5[۱۵]، که یکی از درختهای تصمیمگیری است اعمال میشوند، سپس درخت هرس شده حاصل از الگوریتم C4.5 را گرفته و کلیه ویژگیهایی که در آن وجود دارد را بعنوان جواب مساله باز میگردانیم.
الگوریتم C4.5، از یک تابع مکاشفه بر پایه اطلاعات استفاده میکند، یک فرم ساده این توابع برای مسائل دو کلاسه به صورت زیر است:
که در آن p تعداد نمونههای کلاس اول و n تعداد نمونههای کلاس دوم است. فرض کنید که صفت F1 بعنوان ریشه درخت در نظر گرفته شده است و مجموعه آموزشی را به دو زیرمجموعه T1 و T0 تقسیم کرده است. آنتروپی ویژگی F1 برابر است با:
الگوریتم درخت تصمیم به صورت زیر است[۱۳]: azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com الگوریتم درخت تصمیم
د)تابع ارزیابی مبتنی بر اطلاعات – تابع تولید کننده کامل
مهمترین روشی که در این گروه میتوانیم پیدا کنیم، روش Minimum Description Length Method (MDLM) است[۱۶]. نویسندگان این روش تلاش میکنند تا همه ویژگیهای بدون استفاده (بیربط یا اضافی) را حذف نمایند، با این دید که اگر ویژگیهای زیرمجموعه V را بتوانیم بصورت یک تابع ثابتی مانند F که وابسته به کلاس نیست، بر اساس یک زیرمجموعه ویژگی دیگر مانند U بیان کنیم. در این صورت وقتی که مقادیر ویژگیهای زیرمجموعه U شناخته شده باشند، ویژگیهای موجود در زیرمجموعه V بدون استفاده هستند.
از دیدگاه انتخاب ویژگی، اجتماع دو زیرمجموعه U و V، مجموعه کامل، شامل تمام ویژگیها را تشکیل میدهد. و کاری که ما باید در انتخاب ویژگی انجام دهیم این است که این دو زیرمجموعه را جدا کنیم. برای انجام این کار، نویسندگان MDLM، از معیار Minimum Description Length Criterion (MDLC) که بوسیله Rissanen ارائه شده است[۱۷]، استفاده کردهاند. آنها فرمولی را بدست آوردهاند، که شامل تعداد بیتهای لازم برای انتقال کلاسها، پارامترهای بهینه سازی، ویژگیهای مفید و ویژگیهای غیرمفید است. الگوریتم تمام زیرمجموعههای ممکن (۲N) جستجو میکند و بعنوان خروجی زیرمجموعهای را بازمیگرداند که معیار MDLC را ارضا کند. این روش میتواند تمام ویژگیهای مفیدی را پیدا کند که دارای توزیع نرمال باشند. برای حالتهای غیر نرمال این روش قادر نیست، ویژگیهای مفید را پیدا کند. الگوریتم زیر روش کار و فرمولهای استفاده شده را نشان میدهد.
الگوریتم روش Minimum Description Length Method (MDLM)
و) تابع ارزیابی مبتنی بر وابستگی – تابع تولید کننده مکاشفه ای
دو روش عمده در این گروه وجود دارد :
Probability of Error & Average Correlation Coefficient (POE1ACC)
که خود شامل هفت روش است[۱۸]، ما در اینجا روش هفتم را که به گفته نویسنده کاملتر است را بررسی میکنیم. در این روش اولین ویژگی به این صورت تعیین میشود که احتمال خطا را برای تمام ویژگیها محاسبه میکنیم، ویژگی با کمترین احتمال خطا (Pe)، به عنوان اولین ویژگی انتخاب میشود. ویژگی بعدی، آن ویژگی است که مجموع وزندار Pe و میانگین ضریب همبستگی(ACC) با ویژگی(های) انتخاب شده را مینیمم کند. سایر ویژگیها به همین ترتیب انتخاب میشوند. میانگین ضریب همبستگی به اینصورت است که میانگین ضریب همبستگی ویژگی کاندید با ویژگیهای انتخاب شده در آن نقطه محاسبه میشوند.
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com الگوریتم Probability of Error & Average Correlation Coefficient (POE1ACC)
این روش میتواند تمام ویژگیها را بر اساس مجموع وزندار درجهبندی کند. شرط خاتمه نیز در این روش تعداد ویژگیهای مورد نیاز خواهد بود.
برای اینکه یک جمعبندی از کلیه روشهای انتخاب ویژگی داشته باشیم، نمودار آنها را برحسب سه نوع تابع تولید کننده در شکل زیر نشان دادهایم.
سپس برای اینکه دادههایی که به صورت کنترل نشده جمعآوری شدهاند و بعضی از آنها وابستگی به دیگری دارند را از محاسبات خود خارج نموده و نتایج را به شکل دقیقتری داشته باشیم از نوع دیگر فیلتر استفاده میکنیم که با الگوریتمهای متفاوتی که دارند میتوانند این عمل را برای ما انجام دهند . ۵ پیوست ب : روشهای داده کاوی و شناسایی الگو و پیشبینی ۵٫۱ دستهبندی/ طبقه بندی [۱۳]
دستهبندی در واقع ارزشیابی ویژگیهای مجموعه ای از دادهها و سپس اختصاص دادن آنها به مجموعهای از گروههای از پیش تعریف شده است. این متداولترین قابلیت داده کاوی می باشد. داده کاوی را می توان با استفاده از داده های تاریخی برای تولید یک مدل یا نمایی از یک گروه بر اساس ویژگی های داده ها به کار برد. سپس می توان از این مدل تعریف شده برای طبقه بندی مجموعه داده های جدید استفاده کرد. همچنین می توان با تعیین نمایی که با آن سازگار است برای پیش بینی های آتی ازآن بهره گرفت.در دنیای امروز بحث classification اطلاعات اهمیت بسیاری دارد،اینکه بتوان مدلی مناسب برای تحلیل داده هایی خاص بدست آورد و بتوان با بررسی اولیه ویژگی های یک عنصر خاص ، الگوی رفتاری آن عنصر را پیش بینی کرد .
در مسائل دستهبندی هدف شناسایی ویژگیهایی است که گروهی را که هر مورد به آن تعلق دارد را نشان دهند. از این الگو میتوان هم برای فهم دادههای موجود و هم پیشبینی نحوه رفتار مواد جدید استفاده کرد.
در داده کاوی مبحث طبقه بندی اطلاعات به بررسی اینگونه مدل ها و متد ها می پردازد. در دستهبندی اطلاعات هدف بدست آوردن مدلی برای الگوی رفتاری و ویژگی های مجموعه ایی از داده ها است تا با کمک آن بتوان بدون دانستن رفتار یک موجودیت، با توجه به ویژگی های آن و با استفاده از مدل بدست آورده شده، رفتار آن را تشخیص داد و آن موجدیت را در گروه خاصی طبقه بندی کرد . امروزه شرکت های بسیار زیادی در سراسر نقاط جهان با استفاده از این علم به تحلیل،بررسی و پیش بینی رفتار مشتریان خود می پردازند . دادهکاوی مدلهای دستهبندی را با بررسی دادههای دستهبندی شده قبلی ایجاد میکند و یک الگوی پیشبینی کننده را بصورت استقرایی مییابند. این موارد موجود ممکن است از یک پایگاه داده تاریخی آمده باشند.
در واقع سیستم هایی که بر اساس دستهبندی ، داده کاوی می کنند، دو مجموعه ورودی دارند: یک مجموعه آموزشی که در آن داده هایی که به طور پیش فرض در دسته های مختلفی قرار دارند، همراه با ساختار دسته بندی خود وارد سیستم می شوند و سیستم بر اساس آ نها به خود آموزش می دهد یا به عبارتی پارامترهای دسته بندی را برای خود مهیا می کند. azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com دسته دیگر از ورودی هایی هستند که پس از مرحله آموزش وبرای تعیین دستهوارد سیستم می شوند. داده کاوی مدلهای دستهبندی را بوسیله امتحان کردن داده طبقه بندی شده(موارد) و نهایتا یافتن یک الگوی پیش گو ایجاد می کند. این موارد موجود می تواند از یک پایگاه داده تاریخی ناشی شود مانند اطلاعات افرادی که تحت معالجه دارویی خاصی هستند و یا به سمت یک خدمت با مسافت دور جذب شده اند.یا اینکه از تجربه هایی که طی آن یک نمونه از تمام پایگاه داده در جهان واقعی تست شده باشد و نتایج آن برای ایجاد یک گروه بند استفاده شده باشند منتج شود.
از جمله تکنیک های داده کاوی که برای طبقه بندی به کار می آیند می توان از تکنیک های شبکه عصبی و درخت تصمیم گیری و KNN نام برد، طبقه بندی یکی از انواع یاد گیری با نظارت است. ۵٫۲ رگرسیون[۱۴]
رگرسیون از مقادیر موجود برای پیشبینی مقادیر دیگر استفاده میکند. در سادهترین فرم، رگرسیون از تکنیکهای آماری استاندارد مانند رگرسیون خطی استفاده میکند. متاسفانه، بسیاری مسائل دنیای واقع تصویرخطی سادهای از مقادیر قبلی نیستند. بناراین تکنیکهای پیچیدهتری مانند رگرسیون منطقی ، درختهای تصمیم و یا شبکههای عصبی ممکن است برای پیشبینی مورد نیاز باشند. ۵٫۳ رگرسیون منطقی
رگرسیون منطقی یک حالت عمومی تر از regression خطی می باشد.قبلا این روش برای پیش بینی مقادیر باینری یا متغیرهای دارای چند مقدار گسسته (کلاس) استفاده می شد. از آنجایی که مقادیر مورد نظر برای پیش بینی مقادیر گسسته می باشند نمی توان آنرا به روش regression خطی مدلسازی کرد برای این منظور این متغیرهای گسسته را به روشی تبدیل به متغیر عددی و پیوسته می کنیم وبرای این منظور مقدار لگاریتم احتمال متغیر مربوطه را در نظر می گیریم و برای این منظور احتمال پیشامد را بدین صورت در نظر می گیریم : احتمال اتفاق نیفتادن پیشامد/ احتمال اتفاق افتادن پیشامد
و تفسیر این نسبت مانند تفسیری است که در بسیاری از مکالمات روزمره در مورد مسابقات یا شرط بندی ها ی موارد مشابه به کار می رود .مثلا وقتی می گوییم شانس بردن یک تیم در مسابقه ۳ به ۱ است در واقع از همین نسبت استفاده کرده و معنی آن این است که احتمال برد آن تیم ۷۵% است. ۵٫۴ پیش بینی سری های زمانی
پیشبینی های Time series مقادیر ناشناخته آینده را براساس یک سری از پیشبینی گرهای متغیر با زمان پیشبینی میکنند. و مانند رگرسیون ، از نتایج دانسته شده برای راهنمایی پیشبینی خود استفاده میکنند. مدلها باید خصوصیات متمایز زمان را در نظر گیرند و بویژه سلسلهمراتب دورهها را. انواع مدل یکسانی را میتوان هم برای رگرسیون و هم برای دستهبندی استفاده کرد. برای مثال الگوریتم درخت تصمیم CART را میتوان هم برای ساخت درختهای دستهبندی و هم درختهای رگرسیون استفاده کرد. شبکههای عصبی را نیز میتوان برای هر دو مورد استفاده کرد . ۵٫۵ تفاوت دستهبندی و رگرسیون
این دو روشهای مهمی در آمار هستند.هر دو با پیشگویی جواب متغیر y که مقدارش را از بردار پیشگوی متغیر x می گیرد شروع می کنند.X دامنه x وY دامنه y را مشخص می کند.اگر یک متغیر پیوسته یا نا پیوسته y مقدار حقیقی بگیرد (به عنوان مثال وزن ماشینها و یا تعداد تصادفات) مساله رگرسیون نامیده می شود.در غیر این صورت ، اگر Y یک مجموعه نا متناهی از متغیر های نا مرتب باشد ،(مانند نوع ماشینها و یا کشور سازنده آنها) مساله دستهبندی است.در اصطلاح ریاضی مساله یافتن تابع d(x) است که نگاشت هر نقطه در مجموعه X را به نقطه ای در مجموعه Y انجام دهد.ساختمان d(x) نیاز به وجود یک مثال train شده از n مشاهده L = {(x1, y1), . . . , (xn, yn)} دارد. در علم کامپیوتر ، این موضوع با عنوان یادگیری با نظارت supervised learning) شناخته می شود. معیار انتخاب d(x) معمولابر پایه توان ۲ محاسبه خطا E{d(x)−E(y|x)}2 برای رگرسیون است و جاییکه که E(y|x) امید ریاضی y در xو ارزش مورد نظر misclassification باشد، برای دستهبندی است. اگر Y شامل J مقدار مجزا باشد،راه حل دستهبندی یا دستهبندی ممکن است به عنوان یک افراز از X در J بخش گسسته Aj = {x : d(x) = j} که است نوشته شود.یک درخت classification یک نوع خاص از classifier است جاییکه هر Aj خودش یک اجتماع از مجموعه ها با مجموعه هایی که از تفکیک بازگشتی x-space برست می آیند، باشد.این به classifier اجازه می دهد که مانند یک درخت تصمیم نشان داده شود.یک درخت رگرسیون شبیه یک درخت راه حل ساخت یافته در هریک مقدار ثابت ویا یک مدل نسبتا ساده رگرسیون است که داده های هر بخش جفت و جور شده باشد، است .یک الگوریتم درخت رگرسیون یا classification 3 بخش مهم دارد :
چگونگی تفکیک داده ها هر بخش زمان توقف تفکیک چگونگی پیش گویی مقدار y برای هر x در یک تفکیک
شیوه های زیادی برای بخش اول وجود دارد . برای سهولت تفسیر اکثریت زیادی از الگوریتم ها انشعاب یک متغیزه از نوع xi ≤ c (اگر xi غیر قطعی باشد) یا (اگر xi قظعی باشد).متغیر xi و نقطه انشعاب c یا مجموعه انشعاب B گاهی بوسیله یک جستجوی فراگیر که معیاریک نود خارجی را بهینه می کند مانند entropy (برای classification )یا مجموع مربعات باقیمانده(برای رگرسیون )پیدا می شوند.همچنین راههای زیادی برای بخش روم وجود دارد مانند قوانین توقف و هرس درخت.بخش سوم ساده ترین بخش است:مقدار پیش گویی شده y در یک نود برگ یک کلاس است که هزینه تخمین misclassification (برای دستهبندی ) مینیمم می کند یا مقدار مناسب را از یک مدل تخمین در نود (برای رگرسیون ) می آورد. ۵٫۶ خوشهبندی[۱۵] azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com خوشهبندی را میتوان به عنوان مهمترین مسئله در یادگیری بدون نظارت در نظر گرفت. خوشهبندی با یافتن یک ساختار درون یک مجموعه از دادههای بدون برچسب درگیر است. خوشه به مجموعهای از دادهها گفته میشود که به هم شباهت داشته باشند. در خوشهبندی سعی میشود تا دادهها به خوشههایی تقسیم شوند که شباهت بین دادههای درون هر خوشه حداکثر و شباهت بین دادههای درون خوشههای متفاوت حداقل شود. در این شکل نمونهای از اعمال خوشهبندی روی یک مجموعه از دادهها مشخص شده است که از معیار فاصله(Distance) به عنوان عدم شباهت(Dissimilarity) بین دادهها استفاده شده است.
در طبقهبندی هر داده به یک طبقه (کلاس) از پیشین مشخص شده تخصیص مییابد ولی در خوشهبندی هیچ اطلاعی از کلاسهای موجود درون دادهها وجود ندارد و به عبارتی خود خوشهها نیز از دادهها استخراج میشوند. در شکل زیر تفاوت بین خوشهبندی و طبقهبندی بهتر نشان داده شده است. در طبقهبندی با استفاده یک سری اطلاعات اولیه دادهها به دستههای معلومی نسبت داده میشوند. در خوشهبندی دادهها با توجه به الگوریتم انتخاب شده به خوشههایی نسبت داده میشوند.
۵٫۷ الگوریتم های دستهبندی : درخت تصمیم گیری و K-NN ۵٫۷٫۱ درخت تصمیم گیری/ درخت تصمیم[۱۶]
یکی دیگر از الگوریتم های دستهبندی ، درخت تصمیم گیری یاDecision Tree است که مدل خود را بر اساس یک درخت پیاده سازی می کند . در این الگوریتم با توجه به مجموعه آموزش یک درخت بر اساس ویژگی های مختلف آن درست می شود که با استفاده از این درخت باید بتوان یک عضو جدید را در دسته خاصی طبقه بندی کرد .
با جستجو در گره های درخت( که در هر گره شرطی بررسی می شود تا مسیر بعدی خودمان را پیدا کنیم) میتوانیم به یک برگ برسیم که آن برگ مشخص کننده نوع عضو جدید ما است. ریشه درخت محل آغازین پیمایش درخت است که به بررسی اولین متغیر می پردازد. گره ها نیز مثل ریشه به بررسی متغیر ها می پردازد. نتیجه بررسی آن است که با شاخه های آن گره به گره دیگری برود و یا به برگ برسد. برگ ها پایان درخت هستند. نقاطی که وضعیت داده را مشخص می کند.
براساس الگوریتم، ممکن است دو یا تعداد بیشتری شاخه داشته باشد. برای مثال، CART درختانی با تنها دو شاخه در هر نود ایجاد میکند. هر شاخه منجر به نود تصمیم دیگر یا یک نود برگ میشود. با پیمایش یک درخت تصمیم از ریشه به پایین به یک مورد یک رده یا مقدار نسبت میدهیم. هر نود از دادههای یک مورد برای تصمیمگیری درباره آن انشعاب استفاده میکند. درختهای تصمیم از طریق جداسازی متوالی دادهها به گروههای مجزا ساخته میشوند و هدف در این فرآیند افزایش فاصله بین گروهها در هر جداسازی است.یکی از تفاوتها بین متدهای ساخت درخت تصمیم این است که این فاصله چگونه اندازهگیری میشود. درختهای تصمیمی که برای پیشبینی متغیرهای دستهای استفاده میشوند، درختهای classification نامیده میشوند زیرا نمونهها را در دستهها یا ردهها قرار میدهند. درختهای تصمیمی که برای پیشبینی متغیرهای پیوسته استفاده میشوند درختهای رگرسیون نامیده میشوند.
هر مسیر در درخت تصمیم تا یک برگ معمولا قابل فهم است. از این لحاظ یک درخت تصمیم میتواند پیشبینیهای خود را توضیح دهد، که یک مزیت مهم است. با این حال این وضوح ممکن است گمراهکننده باشد. برای مثال، جداسازی های سخت در درختهای تصمیم دقتی را نشان میدهند که کمتر در واقعیت نمود دارند. (چرا باید کسی که حقوق او ۴۰۰۰۰۱ است از نظر ریسک اعتبار خوب باشد درحالیکه کسی که حقوقش ۴۰۰۰۰ است بد باشد. بعلاوه، از آنجاکه چندین درخت میتوانند دادههای مشابهای را با دقت مشابه نشان دهند، چه تفسیری ممکن است از قوانین شود؟
درختهای تصمیم تعداد دفعات کمی از دادهها گذر میکنند(برای هر سطح درخت حداکثر یک مرتبه) و با متغیرهای پیشبینیکننده زیاد بخوبی کار میکنند. درنتیجه، مدلها بسرعت ساخته میشوند، که آنها را برای مجموعهداده های بسیار مناسب میسازد. اگر به درخت اجازه دهیم بدون محدودیت رشد کند زمان ساخت بیشتری صرف میشود که غیرهوشمندانه است، اما مسئله مهمتر اینستکه با دادهها overfit میشوند. اندازه درختها را میتوان از طریق قوانین توقف کنترل کرد. یک قانون معمول توقف محدود کردن عمق رشد درخت است.
راه دیگر برای توقف هرس کردن درخت است. درخت میتواند تا اندازه نهایی گسترش یابد، سپس با استفاده از روشهای اکتشافی توکار یا با مداخله کاربر، درخت به کوچکترین اندازهای که دقت در آن از دست نرود کاهش مییابد. یک اشکال معمول درختهای تصمیم اینستکه آنها تقسیمکردن را براساس یک الگوریتم حریصانه انجام میدهند که در آن تصمیمگیری اینکه براساس کدام متغیر تقسیم انجام شود، اثرات این تقسیم در تقسیمهای آینده را درنظر نمیگیرد. بعلاوه الگوریتمهایی که برای تقسیم استفاده میشوند، معمولا تکمتغیری هستند: یعنی تنها یک متغیر را در هر زمان در نظر میگیرند. درحالیکه این یکی از دلایل ساخت سری مدل است، تشخیص رابطه بین متغیرهای پیشبینی کننده را سختتر میکند. ۵٫۷٫۲ K-nearest neighbor
یکی از الگوریتمهای طبقه بندی می باشد . مبنای الگوریتم KNN پیدا کردن تعداد معینی از نزدیکترین عناصر موجود در جامعه آماری به عنصر جدید واردشده در آن جامعه است که بر اساس آن بتوان نزدیکترین داده (داده ها) موجود به عنصر جدید را از لحاظ ویژگی های مختلف پیدا کرد تا عنصر جدید را در همان طبقه ای قرار داد که عناصر نزدیک به آن قرار دارند. Knn یکی از روش های غیر پارامتریک برای بدست آوردن تابع توزیع از روی داده های توزیع شده می باشد. همچنین این روش یکی از متداول ترین روش ها برای دسته بندی داده ها می باشد.
در بالابه بررسی تعدادی از روشهای به کار گرفته شده و توضیحات مرتبط با آن پرداخته شد جهت دسترسی به اطلاعات تکمیلی بهمنابع مراجعه نمایید. ۶ پیوست ج: استخراج خصوصیات نرمافزارهای مضر/ملور ها به منظور بازنمایی رفتار آنها- توضیحات تکمیلی azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com تمامی مواردی که در ادامه می آید در فایلهای XML دانلود شده قابل پیگیری است .در ابتدا یک سری DLL از تمامی فایلها که بیشترین تعداد تکرار را داشت انتخاب گردید ، در زیر میتوانید لیست تجربی از تعداد تکرارها (Quantity) در dll ها را که به دست آمده مشاهده نمایید.
“version.dll”, “authz.dll”, “crypt32.dll”, “msan1.dll”, “nddeapi.dll”, “profmap.dll”, “netapt32.dll”, “psapi.DLL”, “regapi.dll”, “seupapiI.dll”, “winsta.dll”, “wintrust.dll”, “imagehlp.dll”, “ws2_32.dll”, “ws2help.dll”, “msgina.dll”, “cimctl32.dll”, “odbc32.dll”, “comdlg32.dll”, “odbcint.dll”, “shsvcs.dll”, “sfc.dll”, “sfc_os.dll”, “apphelp.dll”, “winscard.dll”, “wtsapi32.dll”, “sxs.dll”, “cscdll.dll”, “winotify.dll”, “mpr.dll”, “winspool.DRV”, “wgalogon.dll”, “rsaenh.dll”, “ntmarta.dll”, “samltb.dll”, “wldap32.dll”, “clbcatq.dll”, “comres.dll msv1_0.dll”, “iphlpapi.dll”, “cscui.dll”, “xpsp2res.dll”, “wsock32.dll”, “wininet.dll”, “rasapi32.dll”, “rtutils.dll”, “ntdll.dll”, “kernel32.dll”, “user32.dll”, “gdi32.dll”, “advapi32.dll”, “rpcrt4.dll”, “secur32.dll”, “oleaut32.dll”, “msvcrt.dll”, “ole32.dll”, “pstorec.dll”, “atl.dll”, “uxtheme.dll”, “msctfime.ime”, “msctf.dll”, “shimEng.dll”, “winmm.dll”, “msacm32.dll”, “shell32.dll”, “shlwapt.dll”, “userenv.dll”, “comctl32.dll”, “rbzltyqdzwskr.deu”, _
“rbzltyqdzwskr.de”, “olepro32.dll”, “rbzltyqdzwskr.dll”, “urlmon.dll”, “iertutil.dll”, “imm32.dll”, “rasman.dll”, “ieframe.dll”, “mshtml.dll”, “msimtf.dll”, “mlang.dll”, “usp10.dll”, “apphelp.dll”, “asycfil.de”, “asycfil.dll”
در ادامه لیستی از تعداد تکرارها (Quantity) مشخصات فایلهای که باز میشوند یا دستکاری میگردند و همچنین ایجاد فرایندها و موتکسها و.. در نظر گرفته شد لیست آنها به صورت XML را در زیر مشاهده میکنید.
Elements.<process>.<filesystem_section>.<open_file>
Elements.<process>.<filesystem_section>.<find_file>
Elements.<process>.<mutex_section>.<create_mutex>
Elements.<process_call>.<calltree>.<process_call>
البته این لیست در آزمایشات متفاوت اندکی تغییرات داشته که در اینجا در نظر نگرفته ایم.
Data set استفاده شده
برای ارزیابی رویکرد پیشنهادی و روش های مختلف استفاده شده مانند استخراج خصوصیات ملورها، ساخت بردار ویژگی ملورها و شناسایی و طبقه بندی آنها سایت http://vx.netlux.org/ تعداد زیادی ملور(به صورت کد باینری) دانلود شد و توسط تحلیلگرهای پویای CWSandbox و Anubis در سایتهای http://www.sunbeltsecurity.com/sandbox/default.aspx و http://anubis.iseclab.org تحلیل شده و گزارش رفتار آنها برای استفاده در مراحل بعدی بدست آمد (گزارشات Anubis برای جامعیت بیشتر انتخاب شد) و به data set اضافه شد. البته از بین بیش از ۳۰۰۰۰ گزارش آماده، رفتار ملورها که حاصل تحلیل توسط Anubis هستند در قالب xml نیز به طور تصادفی تعداد زیادی گزارش رفتار ملورها انتخاب شد و به data set ما از گزارشات رفتار ملور ها اضافه شد، این گزارشات آماده در سایت http://pi1.informatik.uni-mannheim.de/malheur قابل دانلود هستند. data set های با نمونه هایی با تعداد ۱۰۰ تا ۱۰۰۰۰ نمونه در آزمایشات مختلف مورد استفاده قرار گرفت و رویکرد پیشنهادی بر روی آنها اعمال شد، که نتایج نهایی طبقه بندی و تشخیص نوع ملور ها در تمام موارد رضایت بخش بود. نتایج data set ی با تعداد ۳۱۳۱ نمونه در این گزارش ارائه شده است. نمونه ها به صورت تصادفی و از لیست متفاوت و متنوعی از ملورها انتخاب شده اند. فهرست منابع و مراجع
[۱]. H. Anton, Elementary Linear Algebra 5e, John Wiley & Son Inc, 1987.
[۲]. I. K. Fodor, “A survey of dimension reduction techniques,” technical report, Lawrence Livemore National Laboratory, June 2002.
[۴]. Yunyue Zhu, High Performance Data Mining in Time Series: Techniques and Case Studies, Ph.D. Dissertation, New York University, January 2004.
[۵]. Lindsay I Smith, A tutorial on Principal Components Analysis, 2002.
[۶]. M. Dash, H. Liu, Feature Selection for Classification. Intelligent Data Analysis 1:131-156, 1997.
[۷]. Schlimmer, J.C., Efficiently inducing determinations: A complete and systematic search algorithm that uses optimal pruning. In: Proceedings of Tenth International Conference on Machine Learning, 284–۲۹۰, (۱۹۹۳).
[۸]. Kira, K. and Rendell, L.A., The feature selection problem: Traditional methods and a new algorithm. In: Proceedings of Ninth National Conference on Artificial Intelligence, 129–۱۳۴, ۱۹۹۲٫
[۹]. Kononenko, I., Estimating attributes: Analysis and extension of RELIEF. In: Proceedings of European Conference on Machine Learning, 171–۱۸۲, ۱۹۹۴٫
[۱۰]. Segen, J., Feature selection and constructive inference. In: Proceedings of Seventh International Conference on Pattern Recognition, 1344–۱۳۴۶, ۱۹۸۴٫
[۱۱]. Xu, L., Yan, P. and Chang, T., Best first strategy for feature selection. In: Proceedings of Ninth International Conference on Pattern Recognition, 706–۷۰۸, ۱۹۸۸٫
[۱۲]. Bobrowski, L., Feature selection based on some homogeneity coefficient. In: Proceedings of Ninth International Conference on Pattern Recognition, 544–۵۴۶, ۱۹۸۸٫ azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com [۱۳]. Cardie, C., Using decision trees to improve case-based learning. In: Proceedings of Tenth International Conference on Machine Learning, 25–۳۲, ۱۹۹۳٫
[۱۴]. Koller, D. and Sahami, M., Toward optimal feature selection. In: Proceedings of International Conference on Machine learning, 1996.
[۱۵]. Quinlan, J.R., C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, California, 1993.
[۱۶]. Sheinvald, J., Dom, B. and Niblack, W., A modelling approach to feature selection. In: Proceedings of Tenth International Conference on Pattern Recognition, 1:535–۵۳۹, June 1990.
[۱۷]. Rissanen, J., Modelling by shortest data description. Automatica, 14:465–۴۷۱, ۱۹۷۸٫
[۱۸]. Mucciardi, A.N. and Gose, E.E., A comparison of seven techniques for choosing subsets of pattern recognition. IEEE Transactions on Computers, C-20:1023–۱۰۳۱, September 1971.
[۱۹]. Modrzejewski, M., Feature selection using rough sets theory. In: Proceedings of the European Conference on Machine Learning (P. B. Brazdil, ed.), 213–۲۲۶, ۱۹۹۳٫
[۲۰]. Oliveira, A.L. and Vincentelli, A.S., Constructive induction using a non-greedy strategy for feature selection. In: Proceedings of Ninth International Conference on Machine Learning, 355–۳۶۰, Morgan Kaufmann, Aberdeen, Scotland, 1992.
[۲۱]. Liu, H. and Setiono, R., A probabilistic approach to feature selection—a filter solution. In: Proceedings of International Conference on Machine Learning, 319–۳۲۷, ۱۹۹۶٫
[۲۲]. Brassard, G., and Bratley, P., Fundamentals of Algorithms. Prentice Hall, New Jersey, 1996.
[۲۳]. Devijver, P.A. and Kittler, J., Pattern Recognition: A Statistical Approach. Prentice Hall, 1982.
[۲۴]. Caruana, R. and Freitag, D., Greedy attribute selection. In: Proceedings of Eleventh International Conference on Machine Learning, Morgan Kaufmann, New Brunswick, New Jersey, 28–۳۶, ۱۹۹۴٫
[۲۵]. Doak, J., An evaluation of feature selection methods and their application to computer security. Technical report, Davis, CA: University of California, Department of Computer Science, 1992.
[۲۶]. Moore, A.W. and Lee, M.S., Efficient algorithms for minimizing cross validation error. In: Proceedings of Eleventh International Conference on Machine Learning, Morgan Kaufmann, New Brunswick, New Jersey, 190–۱۹۸, ۱۹۹۴٫
[۲۷]. Domingos, P., Context-sensitive feature selection for lazy learners. Artificial Intelligence Review, 1996.
[۲۸]. Queiros, C.E. and Gelsema, E.S., On feature selection. In: Proceedings of Seventh International Conference on Pattern Recognition, 1:128–۱۳۰, July-Aug 1984.
[۲۹]. Ichino, M. and Sklansky, J., Feature selection for linear classifier. In: Proceedings of the Seventh International Conference on Pattern Recognition, volume 1, 124–۱۲۷, July–Aug 1984.
[۳۰]. Ichino, M. and Sklansky, J., Optimum feature selection by zero-one programming. IEEE Trans. on Systems, Man and Cybernetics, SMC-14(5):737–۷۴۶, September/October 1984.
[۳۱]. Geoffrion, A.M., Integer programming by implicit enumeration and balas, method. SIAM Review, 9:178–۱۹۰, ۱۹۶۷٫
[۳۲]. Foroutan, I. and Sklansky, J., Feature selection for automatic classification of non-gaussian data. IEEE Transactions on Systems, Man, and Cybernatics, SMC-17(2):187–۱۹۸, ۱۹۸۷٫
[۳۳]. Liu, H. and Setiono, R., Feature selection and classification—a probabilistic wrapper approach. In: Proceedings of Ninth International Conference on Industrial and Engineering Applications of AI and ES, 284–۲۹۲, ۱۹۹۶٫
[۱] نرم افزار بداندیش – Malicious Software- Malware usually includes all types of software and computer code that can be damaging or corrupt your computer. Malware includes viruses, adware, spyware, and Trojans.
[۲] Dynamic Analyser
[۳] Feature Selection/ Reduction
[۴] Pattern Recognition
[۵] Virtual Machine
[۶] طبقه بندی
[۷] Representation
[۸] DLL
[۹] load
[۱۰] Data Mining Practical Machine Learning Tools and Techniques 2d ed – Morgan Kaufmann
[۱۱] Classification
[۱۲] Feature Reduction
[۱۳] Classification
[۱۴] Regression
[۱۵] Clustring [۱۶]
:: موضوعات مرتبط:
2222222 ,
,
:: بازدید از این مطلب : 362
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : چهار شنبه 23 بهمن 1398 |
نظرات ()
|
|
نوشته شده توسط : مطلب پروژه
دسته بندی دادگان با نرم افزار وکا weka
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com عنوان پروژه: دانلود فایل دسته بندی دادگان با نرم افزار وکا weka رشته: مهندسی IT نرم افزار مورد استفاده:weka وکا فرمت: .arff فایل راهنما: دارد(15 صفحه) فیلم آموزش نرم افزار: دارد
پس از خرید، بلافاصله فایلهای دانلود فایل دسته بندی دادگان با نرم افزار وکا weka برای شما ایمیل خواهد شد.
فایلهای پروژه به صورت 100% تست شده و تمامی فایل ها سالم می باشد.
درخواست تخفیف! دسته: پروژه برنامه نویسی آماده, پروژه آماده کامپیوتر برچسب: weka, بیز ساده, پروژه, جنگل تصادفی, دادگان, درخت تصادفی, درخت تصمیم, دسته بندی, دسته بندی دادگان با نرم افزار وکا weka, شبکه عصبی, ماشین بردار پشتیبان, نزدیک ترین همسایگی, وکا Item sold: 0
توضیحات
دسته بندی دادگان با نرم افزار وکا weka مسئله
در این تمرین قصد داریم تا مسئله دسته بندی دادگان را مورد بررسی قرار دهیم. به همین منظور از 7 متد دسته بندی موجود در نرم افزار وکا استفاده میکنیم که به شرح زیر هستند: azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com شبکه عصبی ماشین بردار پشتیبان درخت تصمیم درخت تصادفی جنگل تصادفی بیز ساده نزدیک ترین همسایگی
دادگان مورد استفاده از سایت UCI استخراج شده است به گونه ای که تعداد داده ها بیش از 3000 نمونه و نوع داده برای کاربرد دسته بندی مهیا شده باشد. مراحل پردازشی
این دیتاست مربوط به پیش بینی سن صدف های آبالون از مشخصات فیزیکی آن است. دیتاست مورد نظر دارای 4177 نمونه است که هر نمونه دارای 8 ویژگی است. مقادیر گمشده در آن وجود ندارد و برای کاربرد دسته بندی مورد استفاده قرار میگیرد. این دیتاست دارای 28 کلاس است که در سال 1995 جمع آوری شده است. آماده سازی داده ها
نرم افزار وکا، داده ها را به فرمت خاصی دریافت میکند. در ابتدا باید نام متغیرها و نوع مقادیر آن را مشخص کنیم. به همین منظور فایل abalone.data.txt که داده های خام در آن هست را به نام دیگری با پسوند arff تبدیل میکنیم. آنگاه با استفاده از فایل abalone.names.txt که مشخصات ویژگی های دیتاست را در اختیار ما قرار میدهد اقدام به ساخت دیتاست abalone.data.arff برای بارگذاری در وکا میکنیم. فرمت وکا برای دادگان ما به صورت زیر خواهد شد.
اولین خط نام دیتاست را مشخص میکند که میتوانیم به صورت دلخواه بدهیم. خطوط بعدی ویژگی ها را مشخص میکند که در جلوی هر ویژگی باید نام ویژگی و نوع مقادیر آن را مشخص کنیم. اولین ویژگی مقادیر گسسته برای جنسیت را دارد. و سایر ویژگی ها به صورت عدد حقیقی هستند. در پایان نیز برچسب دیتاست را مشخص میکنیم که باید برچسب تمامی کلاسها را در آن ذکر کنیم. در دیتاست ذکر شده 28 کلاس داریم. و در پایان و بعد از بخش @DATA داده را میگذاریم.
دسته بندی دادگان با نرم افزار وکا weka توسط کارشناسان گروه ۱.۲.۳ پروژه پیاده سازی گردیده و به تعداد محدودی قابل فروش می باشد.فایلهای پروژه به صورت کامل پس از خرید فایل بلافاصله در اختیار شما قرار خواهد گرفت.
درصورتیکه این پروژه دقیقا مطابق خواسته شما نمی باشد، با کلیک بر روی کلید زیر پروژه دلخواه خود را سفارش دهید.
شما شاید این را هم دوست داشته باشید
خوشه بندی داده های جریانی با استفاده از مدل مخلوط گوسی و تئوری انتروپی با متلب خوشه بندی داده های جریانی با استفاده از مدل مخلوط گوسی و تئوری انتروپی با متلب
شبیه سازی تقسیم بندی تصاویر مغز مبتنی بر خوشه بندی فازیشبیه سازی تقسیم بندی تصاویر مغز مبتنی بر خوشه بندی فازی
شبیه سازی تقسیم بندی تصاویر مغز مبتنی بر خوشه بندی فازی با متلب
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com تحقیق مروری بر فناوری بلاک چین Blockchain – رمزهای پایه
شبیه سازی و حل روش مربعات تفاضلی با روش DQM با متلب
برنامه نویسی پروژه نرم افزاری به زبان جاوا برنامه نویسی پروژه نرم افزاری به زبان جاوا
افزودن به سبد خرید
پروژه برنامه نویسی نرم افزار کتابخانه با netBeans IDE پروژه برنامه نویسی نرم افزار کتابخانه با netBeans IDE azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com افزودن به سبد خرید
شبیه سازی پروژه درسی دینامیک سازه های دریایی شبیه سازی پروژه درسی دینامیک سازه های دریایی با آباکوس
تحقیق حسگر های جبهه موج و حسگر جبهه موج شاکهارتمن تحقیق حسگر های جبهه موج و حسگر جبهه موج شاکهارتمن دسته بندی دادگان با نرم افزار وکا weka
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com عنوان پروژه: دانلود فایل دسته بندی دادگان با نرم افزار وکا weka رشته: مهندسی IT نرم افزار مورد استفاده:weka وکا فرمت: .arff فایل راهنما: دارد(15 صفحه) فیلم آموزش نرم افزار: دارد
پس از خرید، بلافاصله فایلهای دانلود فایل دسته بندی دادگان با نرم افزار وکا weka برای شما ایمیل خواهد شد.
فایلهای پروژه به صورت 100% تست شده و تمامی فایل ها سالم می باشد.
درخواست تخفیف! دسته: پروژه برنامه نویسی آماده, پروژه آماده کامپیوتر برچسب: weka, بیز ساده, پروژه, جنگل تصادفی, دادگان, درخت تصادفی, درخت تصمیم, دسته بندی, دسته بندی دادگان با نرم افزار وکا weka, شبکه عصبی, ماشین بردار پشتیبان, نزدیک ترین همسایگی, وکا Item sold: 0
توضیحات
دسته بندی دادگان با نرم افزار وکا weka مسئله
در این تمرین قصد داریم تا مسئله دسته بندی دادگان را مورد بررسی قرار دهیم. به همین منظور از 7 متد دسته بندی موجود در نرم افزار وکا استفاده میکنیم که به شرح زیر هستند: azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com شبکه عصبی ماشین بردار پشتیبان درخت تصمیم درخت تصادفی جنگل تصادفی بیز ساده نزدیک ترین همسایگی
دادگان مورد استفاده از سایت UCI استخراج شده است به گونه ای که تعداد داده ها بیش از 3000 نمونه و نوع داده برای کاربرد دسته بندی مهیا شده باشد. مراحل پردازشی
این دیتاست مربوط به پیش بینی سن صدف های آبالون از مشخصات فیزیکی آن است. دیتاست مورد نظر دارای 4177 نمونه است که هر نمونه دارای 8 ویژگی است. مقادیر گمشده در آن وجود ندارد و برای کاربرد دسته بندی مورد استفاده قرار میگیرد. این دیتاست دارای 28 کلاس است که در سال 1995 جمع آوری شده است. آماده سازی داده ها
نرم افزار وکا، داده ها را به فرمت خاصی دریافت میکند. در ابتدا باید نام متغیرها و نوع مقادیر آن را مشخص کنیم. به همین منظور فایل abalone.data.txt که داده های خام در آن هست را به نام دیگری با پسوند arff تبدیل میکنیم. آنگاه با استفاده از فایل abalone.names.txt که مشخصات ویژگی های دیتاست را در اختیار ما قرار میدهد اقدام به ساخت دیتاست abalone.data.arff برای بارگذاری در وکا میکنیم. فرمت وکا برای دادگان ما به صورت زیر خواهد شد.
اولین خط نام دیتاست را مشخص میکند که میتوانیم به صورت دلخواه بدهیم. خطوط بعدی ویژگی ها را مشخص میکند که در جلوی هر ویژگی باید نام ویژگی و نوع مقادیر آن را مشخص کنیم. اولین ویژگی مقادیر گسسته برای جنسیت را دارد. و سایر ویژگی ها به صورت عدد حقیقی هستند. در پایان نیز برچسب دیتاست را مشخص میکنیم که باید برچسب تمامی کلاسها را در آن ذکر کنیم. در دیتاست ذکر شده 28 کلاس داریم. و در پایان و بعد از بخش @DATA داده را میگذاریم.
دسته بندی دادگان با نرم افزار وکا weka توسط کارشناسان گروه ۱.۲.۳ پروژه پیاده سازی گردیده و به تعداد محدودی قابل فروش می باشد.فایلهای پروژه به صورت کامل پس از خرید فایل بلافاصله در اختیار شما قرار خواهد گرفت.
درصورتیکه این پروژه دقیقا مطابق خواسته شما نمی باشد، با کلیک بر روی کلید زیر پروژه دلخواه خود را سفارش دهید.
شما شاید این را هم دوست داشته باشید
خوشه بندی داده های جریانی با استفاده از مدل مخلوط گوسی و تئوری انتروپی با متلب خوشه بندی داده های جریانی با استفاده از مدل مخلوط گوسی و تئوری انتروپی با متلب
شبیه سازی تقسیم بندی تصاویر مغز مبتنی بر خوشه بندی فازیشبیه سازی تقسیم بندی تصاویر مغز مبتنی بر خوشه بندی فازی
شبیه سازی تقسیم بندی تصاویر مغز مبتنی بر خوشه بندی فازی با متلب
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com تحقیق مروری بر فناوری بلاک چین Blockchain – رمزهای پایه
شبیه سازی و حل روش مربعات تفاضلی با روش DQM با متلب
برنامه نویسی پروژه نرم افزاری به زبان جاوا برنامه نویسی پروژه نرم افزاری به زبان جاوا
افزودن به سبد خرید
پروژه برنامه نویسی نرم افزار کتابخانه با netBeans IDE پروژه برنامه نویسی نرم افزار کتابخانه با netBeans IDE azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com افزودن به سبد خرید
شبیه سازی پروژه درسی دینامیک سازه های دریایی شبیه سازی پروژه درسی دینامیک سازه های دریایی با آباکوس
تحقیق حسگر های جبهه موج و حسگر جبهه موج شاکهارتمن تحقیق حسگر های جبهه موج و حسگر جبهه موج شاکهارتمن
:: موضوعات مرتبط:
2222222 ,
,
:: بازدید از این مطلب : 319
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : چهار شنبه 23 بهمن 1398 |
نظرات ()
|
|
نوشته شده توسط : مطلب پروژه
آموزش الگوریتم ژنتیک آموزش هوش مصنوعی آموزش پردازش سیگنال پیشبینی سریهای زمانی
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
دادهکاوی و یادگیری ماشین
شبکههای عصبی مصنوعی آموزش پردازش تصویر و ویدئو آموزش نرمافزار متلب Matlab الگوریتمهای بهینهسازی هوشمند ● آموزشهای رایگان ● استخدام در فرادرس آموزش الگوریتم PSO الگوریتم PSO باینری الگوریتم ژنتیک و PSO حل مساله فروشنده دورهگرد الگوریتم ملخ GOA الگوریتم مورچگان الگوریتم چرخه آب الگوریتم زنبورها Bees الگوریتم کرم شب تاب الگوریتم جهش قورباغه الگوریتم علف هرز مهاجم الگوریتم رقابت استعماری الگوریتم جستجوی ممنوع
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
الگوریتم شبیه سازی تبرید
الگوریتم جستجوی هارمونی الگوریتم بهینهسازی فرهنگی الگوریتم کلونی زنبور مصنوعی پیادهسازی الگوریتم در پایتون دروس مهندسی برق دروس مهندسی کامپیوتر دروس مهندسی مکانیک دروس مهندسی قدرت دروس مهندسی کنترل دروس مهندسی مخابرات دروس مهندسی عمران دروس مهندسی صنایع دروس رشته اقتصاد ● آموزشهای رایگان ● تبلیغات کلیکی ● استخدام در فرادرس آموزش برنامه نویسی آموزش متلب Matlab آموزش اکسل Excel نرمافزارهای مهندسی برق
azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com
نرمافزارهای مهندسی عمران
نرمافزارهای مهندسی صنایع نرمافزارهای مهندسی مکانیک ابزارهای مهندسی کامپیوتر ● آموزشهای رایگان آموزش برنامه نویسی برنامهنویسی پایتون Python برنامهنویسی سیشارپ C# آموزشهای پروژه محور #C مجموعه آموزشهای جاوا Java آموزش پروژه محور برنامهنویسی
دها و برنامه های آماده داده کاوی یا Data Mining در متلب — دانیالی مجموعه: داده کاوی, کدهای آماده, یادگیری ماشینی
و برنامه های آماده داده کاوی یا Data Mining که به زبان برنامه نویسی متلب پیاده سازی شده اند، برای دانلود در اختیار مخاطبان گرامی قرار گرفته است. شما می توانید با کلیک بر روی لینک دانلود مختص هر کد، آن را از سرور متلب سایت دانلود نمایید.
این نوشته حاوی بخشی از مجموعه کامل کدها و برنامه های آماده است. برای دریافت سایر بخش ها، به لینک زیر مراجعه نمایید: azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com رنامه های آماده داده کاوی یا Data Mining در متل مجموعه: داده کاوی, کدهای آماده, یادگیری ماشینیبرچسب ها دانلود برنامه های آماده data mining, دانلود برنامه های آماده داده کاوی, دانلود پروژه آماده, دانلود پروژه های آماده, دانلود پروژه های آماده داده کاوی, دانلود پروژه های آمادهdata mining, دانلود رایگان برنامه آماده, دانلود رایگان برنامه های آماده, دانلود رایگان پروژه آماده, دانلود رایگان پروژه های آماده, دانلود رایگان کد, دانلود رایگان کد های آماده متلب, دانلود کد های آماده data mining, دانلود کد های آماده داده کاوی, دانلود کدها و برنامه های آماده, دانلود کدهای آماده, دانلود کدهای آماده متلب
پروژه آماده داده کاوی با نرم افزار Weka - Clementine 12 azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com 09367292276 09367292276 azsoftir@gmail.com azsoftir.com پروژه آماده داده کاوی با نرم افزارWeka - Clementine
:: موضوعات مرتبط:
2222222 ,
,
:: بازدید از این مطلب : 238
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : چهار شنبه 23 بهمن 1398 |
نظرات ()
|
|
|
|
|