machine learning algorithms
در نشریات گروه فنی و مهندسی-
هدف از این مقاله طراحی و پیاده سازی یک سیستم هوشمند برای تشخیص نشت جریان الکتریکی به کمک الگوریتم های یادگیری ماشین است. نشت جریان در سیستم های الکتریکی یکی از مشکلات اساسی در ایمنی و بهره وری این سیستم ها می باشد و تشخیص به موقع آن می تواند از وقوع حوادث و خسارات جبران ناپذیر جلوگیری کند. در این تحقیق، ابتدا مجموعه ای از داده های جریان و ولتاژ از سیستم های مختلف الکتریکی جمع آوری شد و سپس با استفاده از الگوریتم های یادگیری ماشین نظیر درخت تصمیم، شبکه های عصبی و ماشین بردار پشتیبان (SVM)، به تحلیل داده ها پرداخته شد. نتایج نشان داد که سیستم پیشنهادی توانایی تشخیص نشت جریان با دقت بالا را دارد و می تواند به عنوان یک ابزار کاربردی در سیستم های حفاظتی و کنترل الکتریکی استفاده شود. این روش علاوه بر افزایش دقت تشخیص، هزینه های نگهداری و تعمیرات سیستم های الکتریکی را نیز کاهش می دهد.
کلید واژگان: الگوریتم های یادگیری ماشین، ایمنی الکتریکی، تشخیص نشت، سیستم هوشمند، نشت جریانJournal of New Achievements in Electrical, Computer and Technology, Volume:5 Issue: 1, 2025, PP 58 -70The aim of this paper is to design and implement a smart system for detecting electrical leakage current using machine learning algorithms. Leakage current in electrical systems is a major issue concerning safety and efficiency, and timely detection can prevent accidents and irreversible damage. In this study, a dataset of current and voltage from various electrical systems was collected, and then data analysis was performed using machine learning algorithms such as decision trees, neural networks, and support vector machines (SVM). The results showed that the proposed system has the ability to accurately detect leakage currents and can be used as a practical tool in electrical protection and control systems. This approach, in addition to improving detection accuracy, also reduces maintenance and repair costs for electrical systems.
Keywords: Electrical Safety, Leakage Current, Leakage Detection, Machine Learning Algorithms, Smart System -
This paper presents a detailed exploration of the evolving landscape of depression detection through Sentiment Analysis (SA) in online communication platforms. With depression being a widespread and often undetected mental health concern, leveraging technology for early intervention is crucial. The study delves into three key approaches: lexicon-based methods, machine learning algorithms, and hybrid models, providing a thorough analysis of their strengths and limitations. It traces the historical evolution of SA, highlighting pivotal advancements, including deep learning techniques and multimodal data integration. The paper emphasizes the challenges, such as privacy concerns and algorithmic biases, and proposes future research directions, emphasizing multi-lingual analysis and interdisciplinary collaboration. The findings underscore the transformative potential of SA in reshaping mental health interventions and fostering inclusivity in support systems. Depression is a widespread challenge, often difficult to detect and monitor effectively. This paper explores how we can better understand and support individuals experiencing depression through SA. We delve into various methods used to analyze the emotions expressed in text, speech, and behaviour to identify signs of depression. We focus on the importance of spotting these signs early, assessing risks, and tailoring support for each person. Moreover, we discuss how we can advance these methods to improve mental health care. By looking closely at the current methods and their practical use, we aim to shed light on SA's role in caring for mental health. The goal is to emphasize the need for ongoing research and innovation to make these analyses even more effective in monitoring and supporting individuals dealing with depression.Keywords: Depression Detection, Sentiment Analysis, Lexicon-Based Methods, Machine Learning Algorithms, Hybrid Models
-
Journal of Artificial Intelligence, Applications, and Innovations, Volume:1 Issue: 2, Spring 2024, PP 72 -88In contemporary times, a substantial number of financial transactions and monetary transfers take place on the Internet and within electronic environments, thereby incentivizing fraudsters to infiltrate this domain. Consequently, the identification of individuals' identities in electronic service provision is exceedingly vital and crucial. This article aims to fraud detection in the banking system and present an optimal method utilizing artificial intelligence tools and model evaluation on the bank information of the Development and Cooperation Cooperative. In the initial phase, a gradient boosting algorithm, chosen for its high computational speed, is employed to train on a set of input data to identify and classify patterns of suspicious behaviors. In the second phase, an algorithm based on gradient boosting is utilized to refine results and optimize accuracy. To evaluate this approach, real data from a bank is employed, and the obtained results demonstrate that this method significantly enhances the speed and accuracy of fraud detection.Keywords: Fraud Detection, Banking Transactions, Machine Learning Algorithms, Feature Engineering, Optimization, Accuracy
-
مدل های ژئومکانیک استاتیک سنتی به طور گسترده ای برای تجزیه و تحلیل تنش ها در مخازن نفت و گاز مورد استفاده قرار می گیرند، اما در بررسی تنش های ناهمگن، مشکلاتی نظیر چرخش میدان تنش و خطاهای مرتبط ایجاد می شود. بنابراین، یک مدل شبیه سازی فیزیکی دینامیکی برای بررسی چهار بعدی تنش ها، کرنش ها و تغییر شکل مخزن نیاز است. هدف این مقاله ساخت مدل شبیه سازی کوپل ژئومکانیکی برای شبیه سازی تغییرات تنش، فشار منفذی و کرنش ناشی از تخلیه هیدروکربن، نشست و تغییر شکل مخزن می باشد. برای این منظور، از داده های استاتیکی و دینامیکی حاصل از نگاره های نفتی واقع بر یکی از میدان های مناطق نفت خیز جنوب ایران استفاده شده است. ابتدا، پیش پردازش داده ها و تعیین واحدهای ژئومکانیکی با استفاده از الگوریتم های یادگیری ماشین و ساخت مدل یک بعدی ژئومکانیکی، شامل مقاومت سنگ، مقاومت فشاری محصور نشده، مقاومت کششی، زاویه اصطکاک، پارامترهای تغییر شکل، مدول یانگ، نسبت پواسون، مدول برشی و بالک و فشار منفذی، به درستی با زبان برنامه نویسی پایتون انجام گرفت و تنش های برجا با استفاده از روابط پورالاستیک تعیین شدند. در ادامه این پژوهش، یک مدل شبیه سازی سه بعدی استاتیک، دینامیک و ژئومکانیک طراحی و پیاده سازی شد. در این مدل، از شبیه ساز تفاضل محدود مخزن (FDM) با استفاده از داده های دینامیکی برای ارزیابی فرآیند شیمیایی، هیدرولوژیکی و حرارتی (THC) با نرم افزار «ECLIPSE» استفاده شد. همچنین، از شبیه ساز المان محدود مخزن (FEM) جهت محاسبات فرآیند حرارتی، هیدرولوژیکی و مکانیکی (THM) با نرم افزار «VISAGE» به کار گرفته شد و محاسبات به صورت کوپل یک طرفه در محیط نرم افزار «PETREL» انجام گردید. در نتیجه، تغییرات تنش، کرنش، فشار منفذی و تغییر شکل مخزن در یک فاصله زمانی ده ساله از سال 2021 تا 2031 برای مخزن بنگستان به دست آمده است.کلید واژگان: مدل شبیه سازی ژئومکانیکی، الگوریتم های یادگیری ماشین، کوپل ژئومکانیکی، Eclipse، VISAGETraditional static geomechanical models are widely used for analyzing stresses in oil and gas reservoirs. However, when these models are employed to investigate heterogeneous stress conditions, challenges such as stress field rotation and errors arise, particularly observed in salt intrusion masses, salt domes, and reactivated faults due to gas injection. Therefore, predicting stress variations in static geomechanical models becomes impractical, especially in deep and ultra-deep reservoirs, heavy oil reservoirs, gas injection reservoirs, and enhanced oil recovery operations. Hence, there is a need for a dynamic physical simulation model to examine four-dimensional stresses, strains, and reservoir deformations. Therefore, the objective of this paper is to develop a coupled geomechanical simulation model to simulate variations in stress, pore pressure, strain resulting from hydrocarbon depletion, subsidence, and reservoir deformation. To achieve this goal, static and dynamic data from oil fields located in one of the oil-rich regions have been utilized. Initially, data preprocessing and determination of geomechanical units were performed using machine learning algorithms. Subsequently, a one-dimensional geomechanical model including rock strength parameters (unconfined compressive strength, tensile strength, friction angle), deformation parameters (Young's modulus, Poisson's ratio, shear modulus, bulk modulus), and pore pressure were constructed, and residual stresses were determined using elastic poroelastic relations. Furthermore, a three-dimensional static, dynamic, and geomechanical simulation model was developed. This model utilized a finite difference reservoir simulator for evaluating the thermo-hydro-chemical (THC) process using ECLIPSE software, alongside a finite element reservoir simulator for thermo-hydro-mechanical (THM) process calculations using VISAGE software, unilaterally coupled in the PETREL 2018 software environment. Consequently, several results including stress, strain, pore pressure changes, and reservoir deformation over ten years from 2021 to 2031 for the Bangestan reservoir were obtainedKeywords: Geomechanical Simulation Model, Machine Learning Algorithms, Coupled Geomechanics, Eclipse, VISAGE
-
شهرنشینی یک نگرانی رو به رشد است و تصاویر ماهواره ای نقش مهمی در ارزیابی رشد شهری دارند. برای شروع کار با تصاویر ماهواره ای، نمونه برداری و طبقه بندی تصاویر با توجه به عوارض منطقه ضروری است. در این مطالعه، از 4 الگوریتم یادگیری ماشین (K-نزدیک ترین همسایه، ماشین بردار پشتیبان، جنگل تصادفی (RandomTrees) و حداکثر احتمال) برای طبقه بندی تصاویر از سه دوره تصاویر ماهواره ای لندست (لندست 7، 8، 9) در فواصل 10 ساله (2003، 2013 و 2023) استفاده شده است. در چهار منطقه تهران (2، 5، 21، 22) این امر برای رشد شهری اعمال شده است. استفاده از یک روش طبقه بندی خاص برای سری های زمانی تصاویر ممکن است نتایج دقیقی برای ارزیابی تغییرات یک پدیده ایجاد نکند و تا حد زیادی به پراکندگی نمونه های گرفته شده از تصاویر بستگی دارد. با استفاده از روش KNN با ضریب کاپا 91 درصد، تصویر لندست 7 به دلیل یکنواختی نمونه ها بهترین عملکرد را داشت. علاوه بر این، تصاویر لندست 8 و 9 با روش SVM به ترتیب با دقت 97% و 94% و همچنین ضریب کاپا 95% و 89% با موفقیت تجزیه و تحلیل شدند. رشد شهری نیز با استفاده از روش های انتخاب شده برای هر تصویر ارزیابی می شود. بین سال های 2003 تا 2013، رشد شهری 10 درصد، بین سال های 2013 تا 2023، 24 درصد و در نتیجه، بین سال های 2023 تا 2003، 34 درصد بوده است. علاوه بر این، ما در این مطالعه تغییر در زمین های بایر و سبز را بررسی می کنیم. مطالعه ما دقیق ترین رویکرد ترکیبی را برای طبقه بندی تصاویر برای رشد شهری ارائه می دهد و می تواند اطلاعات ارزشمندی را برای برنامه ریزان شهری و سیاست گذاران برای مدیریت رشد شهری و ترویج توسعه پایدار در شهرها ارائه دهد.
کلید واژگان: لگوریتم های یادگیری ماشین، تصاویر ماهواره ای لندست، رشد شهری، نزدیک ترین همسایه، ماشین بردار پشتیبان، جنگل تصادفی، حداکثر احتمالUrbanization is a growing concern, and satellite images play a crucial role in assessing urban growth. To begin working with satellite images, it is necessary to take samples and classify the images according to the region's complications. In this study, 4 machine learning algorithms (K-Nearest Neighbor, Support Vector Machine, Random Forest(RandomTrees), and Maximum Likelihood) were used to classify images from three periods of Landsat satellite imagery (Landsat 7, 8, 9) at two 10-year intervals (2003, 2013, and 2023). In four areas of Tehran (2, 5, 21, 22), this has been applied to urban growth. Using a specific classification method for time series of images may not produce accurate results to evaluate the changes in a phenomenon, and much depends on the dispersion of the samples taken from the images. Using the KNN method with a Kappa coefficient of 91%, Landsat image 7 performed best due to the uniformity of the samples. Additionally, Landsat images 8 and 9 were successfully analyzed with the SVM method with an accuracy of 97% and 94%, respectively, as well as a Kappa coefficient of 95% and 89%. Urban growth is also evaluated using selected methods for each image. Between 2003 and 2013, urban growth was 10%, between 2013 and 2023, it was 24%, and as a result, between 2023 and 2003, it was 34%. Additionally, we examine the change in barren and green lands in this study. Our study offers the most accurate hybrid approach to image classification for urban growth, and it can provide valuable information to urban planners and policymakers for managing urban growth and promoting sustainable development in cities.
Keywords: Machine Learning Algorithms, Landsat Satellite Imagery, Urben Growth, KNN, SVM, RF, MLC -
Journal of Contributions of Science and Technology for Engineering, Volume:1 Issue: 1, Winter 2024, PP 32 -42
The liver, as the largest internal organ in the human body, plays a pivotal role in numerous physiological processes, orchestrating over 500 metabolic activities crucial for maintaining bodily functions. However, the Hepatitis C Virus (HCV) poses a grave threat to liver health, necessitating early identification of liver diseases to halt the progression to carcinoma and potentially save lives. This research aims to train ensemble-based algorithms for classifying and detecting Hepatitis, Fibrosis, and Cirrhosis. Employing rigorous preprocessing techniques, 80% of the dataset was allocated to train five ensemble-based algorithms: AdaBoost, Random Forest, Rotation Forest, XGBoost, and LightGBM. These algorithms were evaluated across four performance metrics—accuracy, precision, recall, and F1-score. Remarkably, LightGBM emerged as the frontrunner, boasting an exceptional accuracy rate of 98.37%. Rotation Forest followed closely with an accuracy of 96.74%, while XGBoost attained an accuracy of 95.12%. Random Forest and AdaBoost secured 94.19% and 93.30% accuracy, respectively. These findings underscore LightGBM’s prowess as a promising algorithm for detecting and classifying liver diseases. By leveraging advanced machine learning techniques, particularly ensemble-based algorithms, this research contributes to the ongoing efforts to enhance early detection, improve patient outcomes, and foster more effective management strategies for liver-related ailments in clinical settings
Keywords: Liver Diseases, Machine Learning Algorithms, Lightgbm, Adaboost, Random Forest, Xgboost -
کرونا ویروس، ویروس سارس و آنفلوانزای خوکی یک بیماری ناشی از سندروم حاد تنفسی است. این ویروس ها به سبب سرایت فوری در بین انسان ها نیاز به ابزارهای پیشرفته برای شناسایی عوامل خطرناک مرگ ومیر با دقت بالا نیاز دارند. روش های یادگیری ماشین مستقیما به این موضوع می پردازند و ابزارهای ضروری برای شناخت و هدایت مداخلات بهداشت عمومی هستند. در این مقاله از یادگیری ماشین برای بررسی اهمیت جمعیت شناختی و بالینی استفاده شده است. ویژگی های مورد بررسی شامل سن، جنسیت، تب، کشورها و جزئیات بالینی مانند سرفه، تنگی نفس و... می باشند. چندین الگوریتم یادگیری ماشین روی داده های جمع آوری شده، پیاده سازی و اعمال گردیده که الگوریتم K - نزدیک ترین همسایه با بالاترین دقت (بیش از 97%) برای پیش بینی و انتخاب ویژگی هایی که به درستی وضعیت ویروس ها را نشان می دهد، عمل می کند.
کلید واژگان: الگوریتم های یادگیری ماشین، بیماری های همه گیر، پیش بینیCorona virus, Severe Acute Respiratory virus and swine flu is a disease caused by acute respiratory syndrome. These viruses require advanced tools to identify dangerous mortality factors with high accuracy due to their immediate spread among humans. Machine learning methods directly address this issue and are essential tools for understanding and guiding public health interventions. In this article, machine learning is used to investigate demographic and clinical significance. The investigated characteristics include age, gender, fever, countries and clinical details such as cough, shortness of breath, etc. Several machine learning algorithms have been implemented and applied on the collected data, the K-Nearest Neighbor algorithm works with the highest accuracy (more than 97%) to predict and select features that correctly represent the status of viruses.
Keywords: Machine Learning Algorithms, Epidemics, Forecasting -
امروزه به دلیل افزایش اهمیت مصرف انرژی، روش های بسیاری با هدف پیش بینی دقیق میزان مصرف انرژی مورد استفاده قرار گرفته است. یکی از این روش ها استفاده از هوش مصنوعی است. برای انجام این کار از الگوریتمهای مختلفی استفاده میشود که میتوانند نتیجه دقیقتری نسبت به سایر ابزارهای شبیه سازی انرژی ساختمان ارایه دهند. این مقاله، با هدف شناسایی دقیقترین و پرکاربردترین الگوریتمها، تعدادی از تحقیقات مرتبط با این موضوع که در سال های اخیر انجام شده اند را بررسی میکند. الگوریتمهایی که دارای کمترین میزان خطا، بیشترین سرعت و دقت محاسبات هستند. پس از استفاده از الگوریتمهای مختلف، نقاط قوت و ضعف هر یک مشخص میشود. در این تحقیق، از چارچوب لایه ای برای انتخاب مقاالت استفاده شده است. درلایه اول، سال انتشار مقاله مورد توجه بوده؛ دوم، دارای کلمات کلیدی مرتبط و مطابق با دستاوردهای تحقیق بوده اند و سوم، مطابقت با موضوع مقاله بررسی شده است. هدف این مقاله شناخت بهتر ویژگیهای الگوریتمهای مختلف باتوجه به نوع استفاده از آنها است؛ علاوه بر این، بهترین و پرکاربردترین الگوریتمهای یادگیری ماشین در سالهای اخیر معرفی میشوند. الگوریتمهای پرکاربرد برای بهینه سازی مصرف انرژی و ، ماشین بردار پشتیبان, پیش بینی عملکرد انرژی ساختمانها به ترتیب شبکه عصبی مصنوعی ، جنگل تصادفی ، الگوریتم و رگرسیون خطی , ژنتیک , بوده است.
کلید واژگان: الگوریتمهای یادگیری ماشین، پیش بینی انرژی، عملکرد انرژی، بازده انرژی ساختمان، دقت نتایجNowadays, due to increasing importance of energy consumption, many methods have been applied aiming accurate. One of these methods is to use artificial intelligence. Many algorithms are used to do this; Which provide a more accurate result than other building energy simulation tools. This article, reviews some research that has been done in recent years, and related to this issue; To identify the most accurate and most widely used algorithms in this field; The algorithms have the lowest error rate, the highest speed and the most accurate calculations. When using different algorithms, the strengths and weaknesses of each are identified. Researchers have used various algorithms to predict the energy consumption of buildings. The purpose of this article is to better understand the features of different algorithms according to the type of their use; and introduce the best and most widely used machine learning algorithms in recent years. the most widely used methods in order to optimize energy consumption and predict the energy performance of buildings have been ANN, SVM, RF, GA and LR respectively. In this research, a layered framework has been used to select articles; In the first layer, articles that have been published in the recent years were considered; In the second layer, these articles had the keywords we wanted and were in line with our achievements; In the third layer, the subject of the articles was in line with our subject and machine learning algorithms were used to predict or optimize the energy consumption of building.
Keywords: Machine Learning Algorithms, Energy Prediction, Energy Performance, BuildingEnergy Efficiency, Accuracy -
تعیین فرآیندهای موثر در تشکیل کانسارهای فلزی که به عنوان کنترل کننده های کانی زایی در نظر گرفته می شوند، یک گام اساسی در مدل سازی پتانسیل معدنی می باشد. در این پژوهش، 5 معیار اکتشافی حاصل از داده های ژیوشیمیایی، ژیوفیزیکی، زمین شناسی، ساختاری و ماهواره ای مرتبط با کانی زایی طلای نوع اپی ترمال و کارلین در منطقه تخت سلیمان با هم ترکیب شدند. برای تولید نقشه ژیوشیمیایی چند عنصری، روش تحلیل مولفه های اصلی بر روی 8 عنصر انتخاب شده مرتبط با کانی زایی اعمال گردید و مشخص شد که عنصر طلا با عناصر ردیاب خود یعنی آرسنیک و آنتیموان ارتباط مکانی و ژنتیکی بالایی در مولفه دوم (PC2) نشان می دهد. سپس 10 لایه اکتشافی موثر با مقادیر پیوسته فازی بر اساس مقادیر مساحت زیر منحنی (AUC) منحنی های نرخ موفقیت برای تولید مدل های پیشگوی نواحی مستعد کانی زایی طلا انتخاب گردیدند. برای نیل به این هدف، دو روش نظارتی یادگیری ماشین شامل شبکه عصبی MLP و ماشین های بردار پشتیبان (SVM) با کرنل RBF بر اساس فرآیند آموزش و یادگیری مورد استفاده قرار گرفتند. نتایج نهایی بر اساس مقادیر AUC هر یک از منحنی های نرخ موفقیت مدل های مذکور، نشان داد که روش SVM-RBF از دقت بالاتر و عملکرد بهتر نسبت به روش شبکه عصبی MLP برخوردار می باشد که برای استفاده در مراحل اکتشاف تفضیلی جهت یافتن کانسارهای جدید طلا مناسب تر است.
کلید واژگان: مدل سازی پتانسیل معدنی، الگوریتم های یادگیری ماشین، شبکه های عصبی مصنوعی، ماشین های بردار پشتیبانDefinition of the efficient ore-forming processes which are considered as mineralization controls is a fundamental stage in mineral prospectivity mapping. In this contribution, five targeting criteria of geochemical, geophysical, geological, structural and hydrothemal alteration data related to epithermal and Carlin-type Au deposits in Takhte-soleyman district, NW Iran, were integrated. For creation of multi-element geochemical layer, principal component analysis was firstly conducted on stream sediment data of 8 selected elements and it was found that PC2 is the representative of Au-As-Sb elemental association in the study area. Then, 10 fuzzified efficient evidence layers were selected based on area under the curve (AUC) of success-rate curves and prepared for generation of predictive models of Au mineralization. For this purpose, two supervised machine learning algorithms, namely multi-layer perceptron (MLP) neural network and support vector machine (SVM) with RBF kernel were used. Comparison of the generated models demonstrates that the latter is more succeeded in delineating exploration targets than the former one.
Keywords: Mineral prospectivity mapping, Machine Learning Algorithms, Artificial Neural Networks, Support Vector Machines -
الگوریتم های تولید دامنه در شبکه های بات به عنوان نقاط ملاقات مدیر بات با خدمت دهنده فرمان و کنترل آن ها مورداستفاده قرار می گیرند و می توانند به طور مداوم تعداد زیادی از دامنه ها را برای گریز از تشخیص توسط روش های سنتی از جمله لیست سیاه،تولید کنند. شرکت های تامین کننده امنیت اینترنتی، معمولا لیست سیاه را برای شناسایی شبکه های بات و بدافزارها استفاده می کنند، اما الگوریتم تولید دامنه می تواند به طور مداوم دامنه را به روز کند تا از شناسایی لیست سیاه جلوگیری کند. شناسایی شبکه های بات مبتنی بر الگوریتم تولید دامنه یک مسئله چالش برانگیز در امنیت سامانه های کامپیوتری است. در این مقاله، ابتدا با استفاده از مهندسی ویژگی ها، سه نوع ویژگی (ساختاری، آماری و زبانی) برای تشخیص الگوریتم های تولید دامنه استخراج شده و سپس مجموعه داده جدیدی از ترکیب یک مجموعه داده با دامنه های سالم و دو مجموعه داده با الگوریتم های تولید دامنه بدخواه و ناسالم تولید می شود. با استفاده از الگوریتم های یادگیری ماشین، رده بندی دامنه ها انجام شده و نتایج به صورت مقایسه ای جهت تعیین نمونه با نرخ صحت بالاتر و نرخ مثبت نادرست کمتر جهت تشخیص الگوریتم های تولید دامنه مورد بررسی قرار می گیرد. نتایج به دست آمده در این مقاله، نشان می دهد الگوریتم جنگل تصادفی، نرخ صحت، نرخ تشخیص و مشخصه عملکرد پذیرنده بالاتری را به ترتیب برابر با 32/89%، 67/91% و 889/0 ارایه می دهد. همچنین در مقایسه با نتایج سایر الگوریتم های بررسی شده، الگوریتم جنگل تصادفی نرخ مثبت نادرست پایین تری برابر با 373/0 نشان می دهد.
کلید واژگان: شبکه بات، الگوریتم های تولید دامنه، الگوریتم های یادگیری ماشین، فهرست سیاه، خدمت دهنده فرمان و کنترلDomain generation algorithms (DGAs) are used in Botnets as rendezvous points to their command and control (C&C) servers, and can continuously provide a large number of domains which can evade detection by traditional methods such as Blacklist. Internet security vendors often use blacklists to detect Botnets and malwares, but the DGA can continuously update the domain to evade blacklist detection. In this paper, first, using features engineering; the three types of structural, statistical and linguistic features are extracted for the detection of DGAs, and then a new dataset is produced by using a dataset with normal DGAs and two datasets with malicious DGAs. Using supervised machine learning algorithms, the classification of DGAs has been performed and the results have been compared to determine a DGA detection model with a higher accuracy and a lower error rate. The results obtained in this paper show that the random forest algorithm offers accuracy rate, detection rate and receiver operating characteristic (ROC) equal to 89.32%, 91.67% and 0.889, respectively. Also, compared to the results of the other investigated algorithms, the random forest algorithm presents a lower false positive rate (FPR) equal to 0.373.
Keywords: Botnet, Domain Generation Algorithms (DGAs), Machine Learning Algorithms, Blacklist, C&C Server -
Plastic concrete is an engineering material, which is commonly used for construction of cut-off walls to prevent water seepage under the dam. This type of concrete shows great promise to satisfy the requirements of the strength, stiffness and permeability for remedial cut-off wall construction. This paper aims to explore three hybrid machine learning algorithms including Artificial Neural Network (ANN), Support Vector Machine (SVM) and Adaptive Neuro-Fuzzy Inference System (ANFIS) optimized with Particle Swarm Optimization (PSO) to predict the compressive and splitting tensile strength of plastic concretes. To this end, data were collected from different sources and data gaps were covered by extra experimental tests and finally, 387 data for compressive strength and 107 data for splitting tensile strength were gathered for modeling. This study shows that ANN-PSO is superior to SVM-PSO and ANFIS-PSO in case of predicting compressive as well as splitting tensile strength of plastic concretes. The coefficient of determination (R2) in case of ANN-PSO for both training and testing sets is more than 0.95. Results of this study can be used to predict the compressive and splitting tensile strength of plastic concretes with regards to constituent materials and specimen geometry of plastic concrete.Keywords: Plastic Concrete, Compressive Strength, Splitting Tensile Strength, Machine Learning Algorithms, Particle Swarm Optimization
-
امروزه تخمین متغیر با استفاده از روش های مبتنی بر هوش مصنوعی از جمله رویکردهای جدیدی است که فرآیند تصمیم گیری موثر را در بسیاری از علوم میسر ساخته است. تخمین عیار نیز از مسایل مهم در ارزیابی ذخایر معدنی در علوم زمین به شمار می رود. روش های زمین آماری از جمله روش های متداول تخمین متغیر در علوم زمین محسوب می شوند. از آنجایی که این روش ها در رابطه با داده هایی که تعداد آن ها محدود است و ماهیت پراکندگی و غیر خطی بودن دارند تا حدودی دچار مشکل می شوند، در این مطالعه از روش رگرسیون بردار پشتیبان به عنوان یکی از روش های هوشمند در حیطه الگوریتم های یادگیری ماشین برای تخمین عیار در کانسار فسفات اسفوردی استفاده شده است. دقت مدلسازی انجام گرفته با این روش بر اساس داده های آزمایش در حدود 84 درصد شد که نشان دهنده کارایی مدلسازی انجام شده است. بر اساس نتایج به دست آمده از مدلسازی انجام گرفته به روش رگرسیون بردار پشتیبان، اقدام به تخمین عیار در محدوده مدل بلوکی کانسار فسفات اسفوردی شد. نواحی معرفی شده به عنوان مناطق پرپتانسیل در مدل بلوکی تخمین زده شده به روش رگرسیون بردار پشتیبان می تواند در ادامه فرآیند اکتشاف به عنوان محل گمانه های تکمیلی مورد برداشت قرار گیرد. همچنین بر اساس نتایج به دست آمده از روش رگرسیون بردار پشتیبان در کانسار فسفات اسفوردی، مدل تناژ- عیار متوسط تهیه شد. به عنوان نمونه بر اساس این مدل به ازای عیار حد 6 درصد، تناژ ذخیره حدود 36/15 میلیون تن با عیار متوسط 59/13 درصد به دست آمد.کلید واژگان: الگوریتم یادگیری ماشین، رگرسیون بردار پشتیبان، مدل سازی، تخمین، فسفات اسفوردیNowadays, artificial intelligence methods have been broadly developed and applied for variable estimation to facilitate decision making in many fields. Grade estimation is an important issue in evaluating mineral deposits. Geostatistical methods are among the most commonly used approaches for variable estimation. Since these methods are somewhat defective in relation to limited numbers of dispersed nonlinear data, in this study, the support vector regression, a machine learning method, has been used for grade estimation in Esfordi phosphate deposit. The modeling accuracy was 84% according to the test data. Based on the results obtained from the modeling using the support vector regression method, grade estimation has been made within the block model in Esfordi phosphate deposit. The proposed potential areas in the block model can be taken as the the additional borehole sites in the further exploration stage. The tonnage-grade model was also prepared based on the results obtained by using the support vector regression modeling procedure. For example, based on this model, for a 6% cutoff grade, the reserve is about 15.36 million tons with an average grade of 13.59%.Keywords: Machine Learning Algorithms, Support Vector Regression, Modeling, Estimation, Esfordi Phosphate
-
Scientia Iranica, Volume:26 Issue: 5, Sep-Oct 2019, PP 2689 -2702Flight planning, as one of the challenging issue in the industrial world, is faced with many uncertain conditions. One such condition is delay occurrence, which stems from various factors and imposes considerable costs on airlines, operators, and travelers. With these considerations in mind, we implemented flight delay prediction through proposed approaches that are based on machine learning algorithms. Parameters that enable the effective estimation of delay are identified, after which Bayesian modeling, decision tree, cluster classification, random forest, and hybrid method are applied to estimate the occurrences and magnitude of delay in a network. These methods were tested on a U.S. flight dataset and then refined for a large Iranian airline network. Results showed that the parameters affecting delay in US networks are visibility, wind, and departure time, whereas those affecting delay in Iranian airline flights are fleet age and aircraft type. The proposed approaches exhibited an accuracy of more than 70% in calculating delay occurance and magnitude in both the whole-network US and Iranian. It is hoped that the techniques put forward in this work will enable airline companies to accurately predict delays, improve flight planning, and prevent delay propagation.Keywords: flight delay predictor, airline delay, Data mining, machine learning algorithms, visibility distance
-
قلب یکی از مهم ترین اعضای بدن بوده و بیشترین علت مرگ ومیر در دنیا و ایران، بیماری های قلبی است. ازاین رو تشخیص زودهنگام و بموقع، یکی از ارکان مهم برای جلوگیری و کاهش مرگ ومیر ناشی از این بیماری است. هدف از این پژوهش، ایجاد مدل های تشخیص بیماری های قلبی با استفاده از روش های یادگیری ماشینی است. مدل ها بر روی مجموعه داده های قلب کلیولند دانشگاه کالیفرنیا، ایروین ایجاد شده است. با توجه به روش پیشنهادی پژوهش، پس از پردازش کامل داده ها که شامل شناسایی داده های پرت، نرمال سازی، گسسته سازی و انتخاب ویژگی می باشد، با توجه به ماهیت الگوریتم ها، داده ها به دو شکل داده های عددی نرمال شده و گسسته شده به بازه های بهینه، تغییر یافته است. همچنین ورودی الگوریتم های مورد استفاده، یک بار ویژگی های پردازش شده و بار دیگر ویژگی های ایجادشده توسط الگوریتم تحلیل مولفه های اصلی می باشد. از طرفی با استفاده از روش های جست وجوی تصادفی با اعتبارسنجی متقابل و جست وجوی شبکه ای از طریق Talos Scan پارامتر های مناسب هر الگوریتم انتخاب و مدل ها ایجاد و ارزیابی شده است. در بین الگوریتم های درخت تصمیم، جنگل تصادفی، ماشین بردار پشتیبان و XGBoost، بیشترین صحت مربوط به ماشین بردار پشتیبان به میزان 92/9% و در بین شبکه های عصبی بیشترین صحت به میزان 94/6%، مربوط به شبکه عصبی پرسپترون چندلایه است.
کلید واژگان: پیش بینی بیماری های قلبی، دسته بندی، الگوریتم های یادگیری ماشینی، شبکه های عصبیHeart is one of the most important members of the body, and heart disease is the major cause of death in the world and Iran. This is why the early/on time diagnosis is one of the significant basics for preventing and reducing deaths of this disease. So far, many studies have been done on heart disease with the aim of prediction, diagnosis, and treatment. However, most of them have been mostly focused on the prediction of heart disease. The purpose of this study is to develop models for heart disease diagnosis using machine learning, neural network, and deep learning algorithms. The models have been developed using the Cleveland heart disease dataset from University of California Irvine (UCI) repository. After complete data processing, including outlier detection, normalization, discretization, feature selection and feature extraction, the dataset is transformed into two normalized data and discretized data, according to the nature of the algorithms. Moreover, in constructing models of machine learning and neural networks, two randomized searches with cross-validation and grid search with Talos scan approaches are used for model tuning. Among evaluated models, including decision tree algorithms, random forest, support vector machine (SVM) and XGBoost, the highest accuracy is 92.9% using SVM, and among neural network models, multilayer perceptron (MLP) has resulted in the highest accuracy of 94.6%.
Keywords: Heart disease prediction, Classification, Machine Learning Algorithms, Neural Networks
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.