malware detection
در نشریات گروه پدافند غیرعامل-
دستگاه های تلفن همراه مبتنی بر اندروید به دلیل راحتی در استفاده کاربران بسیار زیادی دارند. افراد در تلفن های همراه خود کارهای مختلفی از جمله فعالیت های بانکی، فعالیت در شبکه های اجتماعی و سامانه های متعدد و متنوع کسب وکار را انجام می دهند و به همین دلیل اطلاعات شخصی زیادی از آن ها به دلیل آسیب پذیری سیستم عامل اندروید در معرض خطر قرار می گیرد. به دلیل توسعه سریع بدافزار های اندرویدی، بسیاری از روش های سنتی تشخیص بدافزار دقت خود را ازدست داده اند. تحقیقات نشان می دهند یادگیری ماشین یک روش موثر برای تشخیص بدافزار ها است. توسعه سریع بدافزار ها باعث می شود دقت مدل های یادگیری شده بعد از مدتی کاهش پیدا کند. همچنین با جمع آوری داده های مربوط به بدافزارها از دستگاه های اندرویدی حریم خصوصی کاربران به خطر می افتد. برای حل این مشکل در این مقاله از یادگیری افزایشی و ائتلافی (فدرال) استفاده شده است. اخیرا یادگیری ائتلافی برای آموزش مدل های یادگیری ماشین در دستگاه های غیرمتمرکز با هدف حفظ حریم خصوصی معرفی شده است. این مقاله از شبکه عصبی (MLP) در چارچوب یادگیری ائتلافی استفاده نموده است. برای یادگیری افزایشی از روش پشته ای که یکی از انواع یادگیری جمعی است استفاده شده است. در این پژوهش از مجموعه داده CICMalDroid 2020 استفاده شده و با استفاده از داده های ایستا، مدل نهایی ایجاد شده است. حاصل این پژوهش مدلی با دقت 49/96 است که مقایسه آن با روش های موجود نشانگر بهبود قابل توجه پیچیدگی زمانی محاسبات به همراه حفظ کیفیت یادگیری و دقت مدل هاست.کلید واژگان: تشخیص بدافزار، یادگیری ماشین، یادگیری ائتلافی، یادگیری افزایشی، توزیع شدگیAndroid-based mobile devices are widely used due to their ease of use among users. Individuals perform various tasks on their mobile phones, such as banking activities, social networking, and diverse business systems, thereby exposing considerable personal information to risks due to the vulnerabilities of the Android operating system. The rapid development of Android malware has rendered many traditional malware detection methods less accurate over time. Research indicates that machine learning is an effective approach for detecting malware. The rapid evolution of malware contributes to the degradation of accuracy in trained models over time. Moreover, the collection of malware-related data from Android devices jeopardizes users' privacy. To address these issue, this paper employs federated and incremental learning. Recently, federated learning has been introduced for training machine learning models on decentralized devices with the aim of preserving privacy. This study utilizes a Multi-Layer Perceptron (MLP) within the framework of federated learning. Stacking, a type of ensemble learning, is employed for incremental learning. The CICMalDroid 2020 dataset is utilized in this research, using static data to develop the final model. The outcome of this study is a model with an accuracy of 96.49%, demonstrating significant improvement in computational time complexity along with maintaining the quality of learning and model accuracy compared to existing methods.Keywords: Malware Detection, Machine Learning, Federated Learning, Incremental Learning, Distribution
-
با رشد انفجاری تهدیدات برای امنیت اینترنت، بصری سازی بدافزارها در حوزه طبقه بندی بدافزارها به یک حوزه مطالعه امیدوار کننده در زمینه امنیت و یادگیری ماشین تبدیل شده است. این مقاله یک روش بصری سازی برای تجزیه و تحلیل بدافزار را بر اساس ویژگی های تعبیه سازی دنباله های کددستوری پیشنهاد می کند. بر اساس برخی اطلاعات کمکی مانند تعبیه سازی کلمه، روش اصلی طبقه بندی بدافزار پیشنهادی، انتقال اطلاعات آموخته شده از حوزه بدافزار به حوزه تصویر است که نیاز به مدل سازی همبستگی بین این حوزه ها دارد. با این حال، اکثر روش های فعلی از مدل سازی روابط غفلت می کنند که منجر به طبقه بندی نادرست بدافزارها می شود. برای غلبه بر این چالش، ما وظیفه تعبیه سازی کلمه را به عنوان استخراج اطلاعات معنایی در نظر می-گیریم. روش پیشنهادی یک روش طبقه بندی بدافزار با استفاده از مفاهیم تعبیه سازی کلمات و بصری سازی از توالی های کددستور و یک روش شبکه های عصبی شامل یادگیری عمیق (CNN) را پیشنهاد می کند. نتایج ما نشان می دهد که از مدل های بصری در حوزه تصاویر می توان برای طبقه بندی کارآمد بدافزارها استفاده کرد. ما روش خود را بر روی مجموعه داده kaggle ارزیابی کردیم و میانگین دقت طبقه بندی 0.9896 و امتیاز F1 برابر 0.9807 بدست آوردیم.
کلید واژگان: تشخیص بدافزار، بصری سازی بدافزار، تعبیه سازی بدافزار، تجزیه و تحلیل استاتیک، الگوریتم CNNWith the explosive growth of threats to Internet security, malware visualization in malware classification has become a promising study area in security and machine learning. This paper proposes a visualization method for malware analysis based on word embedding features of byte sequences.Based on some assistant information such as word embedding, the basic to a strong malware classification approach is to transfer the learned information from the malware domain to the image domain, which needs correlation modeling between these domains. However, most current methods neglect to model the relationships in an embedding way, ensue in low performance of malware classification. To catch this challenge, we consider the Word Embeddings duty as a Semantic Information Extraction. Our Proposed method aims to learn effective representations of malware families, which takes as input a set of embedded vectors corresponding to the malware. Word embedding is designed to generate features of a malware sample by leveraging its malware semantics. Our results show that visual models in the domain of images can be used for efficient malware classification. We evaluated our method on the kaggle dataset of Windows PE file instances, obtaining an average classification accuracy of 0.9896%.
Keywords: Malware Detection, Malware Visualization, Malware Embedding, Static Analysis, CNN Algorithm -
رشد روزافزون بدافزارها، از تهدیدات مهم حوزه سایبری است و تشخیص آن ها را همواره با چالش هایی همراه کرده است. فایل های اجرایی بداندیش ویندوزی از طریق دستکاری ویژگی های موجود در سرآیند آن ها و مبهم سازی رفتار خود، فعالیت های مخرب را در سطح سیستم عامل هدف و یا هر برنامه کاربردی دیگر انجام می دهند. تشخیص نمونه های مشکوک بداندیش از میان حجم انبوهی از نمونه های ورودی و همچنین کشف بدافزارهای جدید و ناشناخته از موضوعاتی است که همواره مورد تحقیق پژوهشگران است. در این پژوهش، روشی ترکیبی برای تعیین میزان بداندیش بودن فایل های اجرایی مشکوک پیشنهاد شده است. روش پیشنهادی کاشف، شامل دو ماژول ایستا، برای استخراج ویژگی های سرآیند فایل اجرایی، و دو ماژول رفتاری برای استخراج ویژگی هایی برای تولید امضا و مدل رفتاری بداندیش براساس روش های یادگیری ماشین است. هدف این پژوهش مشکوک یابی فایل های قابل اجرای ویندوزی از میان حجم انبوهی از فایل ها و تعیین میزان بداندیش بودن آن ها است. این روش، بدافزارها را بر اساس میزان احتمال بداندیش بودن اختصاص داده شده به هر فایل تشخیص می دهد. آزمایش ها، درصد بداندیشی شش نوع بدافزار را برای تشخیص گر مبتنی بر سرآیند فایل اجرایی، در بازه 62.7 تا 70 درصد، برای تشخیص گر مبتنی بر یارا، در بازه بین 70.8 تا 78.2درصد، برای تشخیص گر مبتنی بر امضای رفتاری، 98 درصد و برای تشخیص گر مبتنی بر یادگیری ماشین با استفاده از الگوریتم یادگیری جنگل تصادفی 99 درصد نشان می دهد. همچنین نتایج آزمایش ها نشان داد که کاشف با تشخیص 94 درصدی بدافزارهای محافظت شده، بهبود دو درصدی در مقایسه با نتایج 10 محصول مشابه دارد. و با تشخیص 98 درصدی بدافزارهای محافظت نشده، بهبود پنج درصدی در مقایسه با نتایج 10 محصول مشابه دارد.کلید واژگان: بدافزار، فایل اجرایی، تشخیص بدافزار، امضای رفتاری، الگوریتم جنگل تصادفیThe growing number of malware is one of the major threats in the field of cyber and its detection has always been associated with challenges. Windows-based malicious executable files perform malicious activity at the target operating system level or any other application by manipulating features in their header and obscuring their behavior. Detecting suspicious specimens from a large volume of input samples as well as discovering new and unknown malware is one of the topics that is always researched by researchers. In this study, a combined method has been proposed to determine the level of maliciousness of suspicious executable files. Kashif's proposed method consists of two static modules for extracting executable file header properties, and two behavioral modules for extracting signature-generating properties and a thoughtful behavioral model based on machine learning methods. The purpose of this study is to identify suspicious Windows executable files from the large volume of files and determine their maliciousness level. This method detects malware based on the maliciousness probability of being assigned to each file. Experiments showed a malignancy percentage of six types of malware for PE header detector module, in the range of 62.7 to 70%, Yara-based detector module, in the range of 70.8 to 78.2%, Behavioral signature-based detector module, 98% and ML-based detector module by using Random forest learning algorithm has been 99% accuracy. The experimental results also showed that Kashef detected 94% of the protected malware with a 2% improvement compared to the results of 10 similar products. And with 98% detection of unprotected malware, there is a 5% improvement compared to the results of 10 similar products.Keywords: Malware, Executable file, Malware Detection, Behavioral signature, Random Forest Algorithm
-
یکی از روش های محبوب شناسایی بدافزار، تطبیق الگوی امضای فایل بدافزار با پایگاه داده امضای بدافزارها است. پایگاه داده امضای بدافزار از قبل استخراج شده و به طور مداوم به روزرسانی می گردد. بررسی شباهت داده های ورودی با بهره گیری از امضاهای ذخیره شده موجب بروز مشکلات ذخیره سازی و هزینه محاسبات می گردد. علاوه بر این، شناسایی مبتنی بر تطبیق الگوی امضای بدافزاری در زمان تغییر کد بدافزار در بدافزارهای چند ریخت، با شکست مواجه می شود. در این مقاله با ترکیب روش تحلیل ایستای ساختار فایل اجرایی و الگوریتم های یادگیری ماشین، روش موثری جهت شناسایی بدافزارها ارایه شده است. مجموعه داده برای آموزش و ارزیابی روش پیشنهادی شامل 36567 نمونه بدافزاری و 17295 فایل بی خطر است و در روش پیشنهادی، بدافزارها را در 7 خانواده، خوشه بندی می نماید. نتایج نشان می دهد که روش پیشنهادی قادر است با دقت بیش از 99 درصد و با نرخ هشدار اشتباه کمتر از 4/0 درصد بدافزارها را از فایل های سالم تشخیص و خوشه بندی نماید. روش پیشنهادی نسبت به روش های مشابه، دارای سربار های پردازشی بسیار کم بوده و مدت زمان پویش فایل های اجرایی به طور متوسط 244/0 ثانیه طول است.کلید واژگان: تشخیص بدافزار، ساختار فایل اجرایی، تحلیل ایستا، خوشه بندی، یادگیری ماشینOne of the most popular ways to detect malware is to find a match for malware file signature pattern in the malware signature database. The malware signature database is pre-extracted and is constantly updated. Checking the similarity of input data using the stored signatures causes storage problems and increases the calculation costs. In addition, the detection based on adapting the malware signature pattern fails when changing the malware code in polymorphic malware. In this paper, by combining the static analysis of executable file structure and the machine learning algorithms, an effective method for malware detection is presented. The data set for training and evaluation of the proposed method includes 36,567 samples of malware and 17295 benign files, and the malware is clustered in 7 families. The results show that the presented method is able to detect and cluster malware from benign files with an accuracy of more than 99% and a false positive rate less than 0.4%. The proposed method has very low processing overheads compared to similar methods and the average scanning time of executable files is 0.244 second.Keywords: Malware Detection, executable file structure, Static Analysis, Clustering, Machine Learning
-
این مقاله ضمن معرفی و مقایسه روش های تشخیص بدافزار و خانواده های مختلف بدافزارها، یک روش جدید و کارا جهت تشخیص بدافزارها با استفاده از تحلیل ایستا ارائه می کند. این تحلیل مبتنی بر بررسی ساختار فایل های اجرایی PE است. روش پیشنهادی با بررسی و مطالعه دقیق سرآیند بدافزارها و فایل ها بی خطر، خواصی از ساختار فایل های اجرایی مانند تعداد، اندازه و نام قسمت ها، نام توابع و کتابخانه های موجود در جداول IAT و EAT، نقطه شروع و میزان آنتروپی را برای تشخیص و تفکیک بدافزارها و فایل های بی خطر پیشنهاد می کند. خواص مذکور با انتصاب امتیازات مثبت و منفی میزان بدخیم یا خوش خیم بودن یک فایل ناشناس را بر اساس فرمول های روش پیشنهادی تعیین می کنند. با انجام داده کاوی در حجم انبوهی شامل 15000 نمونه بدافزار و 13500 فایل بی خطر خواص پیشنهاد شده استخراج و با استفاده از تکنیک های یادگیری ماشین مدلی هوشمند برای تشخیص و خوشه بندی بدافزار مبتنی بر تولید قانون آموزش داده شده است. روش پیشنهادی این مقاله بدافزارها را در 5 خانواده و فایل های بی خطر را در 2 خانواده خوشه بندی می کند. این مقاله در پایان دقت روش پیشنهادی را در تشخیص و خوشه بندی بدافزار ها و فایل های بی خطر ارزیابی کرده و نشان می دهد که روش پیشنهادی می تواند با دقت بیش از 95 درصد بدافزاها را تشخیص داده و خوشه بندی نماید و از این حیث با روش های پیشین مقایسه شده و در جایگاه دوم قرار می گیرد.
کلید واژگان: تشخیص بدافزار، ساختار PE، تحلیل ایستا، سرآیند بدافزار، داده کاوی، تحلیل رفتاری، یادگیری ماشینThis article study and compare malware families and malware detection methods and propose a new and efficient method for malware detection by static analysis. Proposed method based on PE Structure of executable files. Our method propose some new feathers such as quantity، name and size of sections، name of system calls and their libraries in IAT and EAT table، entry point and entropy for detection and distinguishes malwares and benign files by observing and exploring PE structure and header of mentioned files very deeply. These feathers can assign positive and negative point to determine malignant or benign rate of an unknown executable file by formulas of proposed method. We extract these features by doing data-mining on a large scale consist near 15000 malwares and 13500 benign files and used machine learning techniques for train and learn an intelligent rule base model for malware detection. Proposed method of this article cluster malwares in 5 and benign files in 2 families. This article evaluate accuracy of proposed method in detection and clustering malware and benign files and indicate that proposed method can detect and cluster malwares by more than 95 percent in accuracy and compete with other methods and get second ranked.Keywords: Malware Detection, PE Structure, Static Analysis, Virus Header, Data Mining, Behavioral Analysis, Machine Learning
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.