classification algorithms
در نشریات گروه کشاورزی-
New evaluation and control methods are required to address the ecological, economic, and public health concerns raised by the contamination of the rivers Tigris and Euphrates. To minimize negative effects on ecosystems, our research built and implemented amachine learning framework to track down and foresee potential water contamination hotspots. To examine the causes of pollution and its consequences on aquatic ecosystems, researchers combined data from multiple sources, such as aerial photographs, field surveys, and official government documents. Predictive models encompass significant attributes such as pesticides, mineral composition, suspended particulates, diversity of macroinvertebrates, and habitat quality. Feature selection techniques, including LASSO regression and recursive feature elimination, ensured dependable model construction. Four machine learning algorithms of MCP, K-nearest neighbors, decision tree, and multi-layer perceptron were employed for pollution source recognition and impact prediction. The models correctly identified significant pollution sources, including untreated sewage, agricultural runoff, and industrial discharges. The concentration and distribution patterns of pollutants were elucidated by clustering and regression techniques. The results indicated reduced biodiversity, habitat degradation, and toxic algal blooms, as well as identified significant pollution areas. This research showsthat machine learning can transform environmental monitoring and water resource management.The study's practical findings, which integrate ecological and computational methodologies, can assist policymakers and water resource managers.
Keywords: Aquatic Ecology, Predictive Modeling, Classification Algorithms, Pollutant Sources -
پایش دقیق آب های سطحی یکی از کاربردهای مهم و ضروری در استفاده از سیستم های سنجش از راه دور است. برآوردن نیازهای مطرح شده در استفاده از داده های سنجش از دور برداشت شده از سطح زمین در بسیاری از کاربردها، تنها با استفاده از یک محصول و الگوریتم طبقه بندی کننده کافی و ممکن نیست و برای درک دقیق تر، ادغام داده ها می تواند گزینه بهتری باشد. لذا در این پژوهش از رویکردهای مختلفی همچون به کارگیری تصاویر دو سنجنده، شاخص های استخراج آب و الگوریتم های طبقه بندی جهت شناسایی پهنه های آبی استفاده گردید. در این راستا ابتدا تصاویر سنجندهای نوری لندست-8 و سنتینل-2 با یکدیگر ادغام شدند که در نتیجه آن وضوح مکانی این سنجنده ها با حفظ اطلاعات طیفی، از 30 به 10 متر ارتقا یافت. سپس شاخص های استخراج آب همچون (NDWI, MNDWI, AWEI_sh, AWEI_nsh, WI) بر تصاویر ادغام شده اعمال شد و پس از ترکیب آن با تصاویر اصلی ماهواره های منتخب، با استفاده از الگوریتم های طبقه بندی (SVM, Maximum Likelihood, Minimum Distance, Neural Network, Random Forest) محدوده مطالعاتی به دو دسته پهنه های آبی و غیرآبی طبقه بندی شد و در نهایت با استفاده از روش حداکثر رای گیری که از رویکردهای ادغام در سطح تصمیم گیری محسوب می شود نتایج حاصل از تمام الگوریتم های طبقه بندی برای تصاویر قبل و بعد از سیلاب استان مازندران در واقعه سیلاب سال 1398 شمسی با یکدیگر ادغام شدند. الگوریتم طبقه بندی جنگل تصادفی با دقت کلی 76/97 و 12/94 و ضریب کاپا 49/94 و 41/91 برای تصاویر قبل و پس از سیلاب بهترین عملکرد طبقه بندی در بین الگوریتم های مورداستفاده در این پژوهش را داشت. ادغام الگوریتم های طبقه بندی نشان از بهبود عملکرد تفکیک پهنه های آبی و غیرآبی با افزایش دقت کلی تفکیک به 41/98 و 24/95 و ضریب کاپا 12/96 و 81/92 برای تصاویر قبل و پس از سیلاب داشت.کلید واژگان: ادغام تصاویر، الگوریتم طبقه بندی، روش حداکثر رای گیری، سنجنده نوری، شاخص های استخراج آبAccurate monitoring of surface water is one of the important and necessary applications in the use of remote sensing systems. Meeting the needs raised in the use of remote sensing data collected from the earth's surface in many applications, using only one product and classification algorithm is not sufficient and possible, and for a more accurate understanding, data fusion can be a better option. In this system, various approaches such as water extraction indices or classification algorithms are used to identify water areas. In this research, an fusion approach of Landsat-8 and Sentinel-2 optical sensor images was used. Firstly, the spatial resolution of these sensors was enhanced from 30 to 10 meters by Pansharpening them and preserving spectral information. Then, water extraction indices such as NDWI, MNDWI, AWEI_sh, AWEI_nsh, and WI were applied to the integrated images. Subsequently, using classification algorithms such as SVM, Maximum Likelihood, Minimum Distance, Neural Network, and Random Forest, the study area was classified into two categories of water and non-water areas. Finally, the results obtained from all classification algorithms for pre and post-flood images of Mazandaran province in the 2019 flood event were merged using the majority voting method, which is considered an integration approach at the decision-making level. Random forest classification algorithm with overall accuracy of 97.76 and 94.12 and Kappa coefficient 94.49 and 91.41 for images before and after flood had the best classification performance among the algorithms used in this research. The fusion of classification algorithms showed an improvement in the separation performance of water and non-water areas with an increase in the overall accuracy of separation to 98.41 and 95.24 and Kappa coefficient 96.12 and 92.81 for the images before and after the flood.Keywords: Classification Algorithms, Image Fusion, Majority Voting Method, Optical Sensor, Water Extraction Indices
-
در کشورهای در حال توسعه با ارزش پولی پایین، شرکت های مشاوره برای کسب سود بیشتر به دنبال شرکت کردن در پروژه های بین المللی می باشند. اما شرکت در مناقصات بین المللی نیازمند صرف منابع زیادی (زمان، هزینه و منابع انسانی) برای خرید اسناد مناقصه، ارزیابی شرایط پروژه و آماده کردن پیشنهاد مناقصه است. از این رو پیش بینی نتیجه مناقصات بین المللی می تواند باعث جلوگیری از مصرف منابع برای شرکت در مناقصات نامناسب شود. هدف از این پژوهش شناسایی معیارهای موثر در نتیجه مناقصات بین المللی برگزار شده برای انتخاب مشاوران صنعت آب و مقایسه الگوریتم های داده کاوی در پیش بینی نتیجه این مناقصات است. معیارهای شناسایی شده شامل نوع امور تخصصی، نحوه ارسال پیشنهاد مناقصه، چگونگی آشنایی با مناقصه، نوع مناقصه، تامین کننده مالی، داشتن همکار در کشور مبدا و نوع پروژه می باشند و الگوریتم های مقایسه شده به ترتیب دقت شامل ماشین بردار پشتیبانی، Chaid، ID3، درخت تصمیم، بیز ساده و نزدیک ترین همسایه هستند. از میان الگوریتم های مذکور، الگوریتم ماشین بردار پشتیبانی با دقت 89.31 درصد دارای بیشترین دقت می باشد. بنابراین پیشنهاد می شود که از این الگوریتم به عنوان پردازشگر در سیستم های پشتیبان تصمیم مناقصات استفاده شود تا موجب بهبود تصمیم به شرکت/عدم شرکت مشاوران در مناقصات بین المللی صنعت آب شود.کلید واژگان: مناقصات صنعت آب، الگوریتم های دسته بندی، داده کاوی، مشاوران، تصمیم سازیIn developing countries where the value of money is low, consultant firms are keen to participate in international tenders. Participating in international tenders requires a lot of resources (time, cost, etc.) to evaluate the project condition and prepare a suitable proposal. Predicting the outcome of these tenders is important because it can prevent the use of resources to participate in inappropriate tenders. The aim of this paper is to identify factors that affect the outcome of water industry international tenders holding for selection of consultants and compare the classification algorithms in predicting the outcome of this tenders. effective factors include Lead department, Documents delivery method, Tender Identify Method, Type of Tender, Financer, Lead Department Partner, Final Status and Project Type and Compared algorithms include Decision Tree, ID3, Chaid, K-Nearest Neighbor (KNN), Naïve Bayes and Support Vector Machine (SVM). The most accurate algorithms are 1-SVM, 2-Chaid, 3-ID3, 4-Decision Tree, 5-Naïve Bayes and 6-KNN. so It is suggested to use the SVM algorithm as the processor in decision support systems to improve the bid/no-bid decision for consultant firms seeking to participate in the water industry international tenders.Keywords: Water Industry Tenders, Classification Algorithms, Data mining, Decision Making
-
لازمه اجرای برنامه های کنترل رسوب، شناسایی اهمیت نسبی منابع رسوب، میزان مشارکت آن ها و در نتیجه شناسایی مناطق بحرانی آبخیزهاست. در این پژوهش از الگوریتم های داده کاوی برای تفکیک منابع رسوبی حوضه نوده گناباد در استان خراسان رضوی با کمک متغیرهای ژئوشیمیایی، دانه بندی و سنگ شناسی استفاده شد. یازده الگوریتم برای طبقه بندی در نرم افزار MATLAB برنامه نویسی و نتایج براساس ضریب تبیین و میانگین مربع خطا با یکدیگر مقایسه شد. بررسی غلظت عناصر ژئوشیمیایی در هفت واحد زمین شناسی حوضه نشان داد که عناصر Ca، Fe، Mg وAL دارای بیشترین و عناصر B و Co دارای کمترین غلظت در نمونه های خاک است. ارزیابی کلی الگوریتم های طبقه بندی در مرحله آموزش نشان داد که الگوریتم های تحلیل ممیزی، جنگل تصادفی، k نزدیک ترین همسایه و ماشین های بردارپشتیبان با توابع خطی، چندجمله ای، چندگانه و شعاع مبنا با حداکثر مقدار ضریب تبیین (1=R2) و حداقل مقدار میانگین مربع خطا (0MSE=)، دقیق ترین الگوریتم ها در تفکیک منابع رسوبی هستند و روش درخت رگرسیونی ضعیف ترین عملکرد را دارد. در مرحله آزمون نیز ماشین های بردارپشتیبان با تابع شعاع مبنا، دقیق ترین الگوریتم و درخت طبقه بندی با بالاترین خطا، ناکارآمدترین الگوریتم بود. همچنین ورود متغیرهای ژئوشیمیایی منجر به بالاترین دقت در تفکیک منابع رسوبی شد و متغیرهای دانه بندی کمترین دقت تفکیک را باعث شد.کلید واژگان: الگوریتم های طبقه بندی، منشایابی، حوضه نوده، غلظت عناصرIntroductionReduction of sediment supply requires the implementation of soil conservation and sediment control programs in the form of watershed management plans. Sediment control programs require identifying the relative importance of sediment sources, their quantitative ascription and identification of critical areas within the watersheds. The sediment source ascription is involves two main steps so that in the first, several diagnostic tracers are selected for obvious and significant separation of potential sources of sediment and in the second step selected tracers for potential sources of sediment are compared, with corresponding values extracted from the sediment samples taken in the watershed outlet. Also, due to the large amount and complexity of data available, nowadays in geo- and environmental sciences, we face the need to develop and incorporate more robust and efficient methods for their analysis and modelling. Therefore recent fundamental progress in data mining algorithms can considerably contribute to the development of the emerging field - environmental data science.MethodologyAccording to what was said, in this research, the data mining algorithms used to separate sediment sources in the Nodeh watershed of Gonabad located in Razavi-Khorasan province by using the geochemical (includes the 21 elements of Mg, Sr, Mn, Ba, Zn, Y, V, Ti, Pb, P, Na, Li, K, Cu, Cr, Co, Ce, B, Ca, Al and Fe), granulometric (includes the D90, D50, D10, percent of sand, percent of silt, percent of clay, skewness and kurtosis and the diameters less than 1, 2 and 4 millimeters and less than 500, 250, 125 and 63 microns) and lithological variables (includes the quartz, tuff, laterite, dacite, andesite, dolomite, calcite, andesitic tuff, lithic andesite and salt). A set of 11 classification algorithms includes the decision tree, random forest, regression methods, discriminant analysis, local linear model tree, nearest neighbor analysis, support vector machine, logistic regression, artificial neural network, pattern recognition and group method of data handling programmed in the MATLAB software and the results compared based on the coefficient of determination and mean squared error.Results And DiscussionStudy of geochemical element concentrations in 7 geological units showed that the Ca, Fe, Mg and Al elements have the highest and B and Co have the lowest concentrations within the soil samples. Overall evaluation of classification algorithms in training stage showed that the discriminant analysis, random forest, k nearest neighbor and support vector machines with linear, polynomial, multiple and RBF kernels with maximum values of the coefficient of determination (R2=1) and minimum values of the mean squared error (RMSE=0) are the most accurate algorithms in sediment source separation but the regression trees method has the worst performance. Also, at testing stage, the support vector machines with RBF kernel was the most accurate and the classification trees with maximum error rate was the most inaccurate algorithm. Also, entrance of geochemical and granulometric variables lead to the highest and lowest accuracy in the sediment source separation, respectively. Using the geochemical variables for the separation of sediment sources, types of support vector machines, nearest neighbor analysis, discriminant analysis and the random forest algorithm had the highest coefficients of determination and lowest error values in the training and testing stages. By entering the lithological variables, the random forest algorithm had the highest accuracy for the sediment sources classification in the training and testing stages and the discriminant analysis and support vector machines were located thereafter. Finally, fitting the classification algorithms using granulometric variables showed that the support vector machines had highest accuracy in the training and testing stages of models and the random forest and nearest neighbor analysis were ranked thereafter.ConclusionTotally, due to the proper accuracy and performance of data mining classifier algorithms, application of these methods in the natural sciences is suggested especially in the large amounts of data. These algorithms are used to find patterns in large sets of data and help classify new information. Especially, the support vector machines that are supervised classifier algorithms and besides that, in the natural sciences have successful results. In the watershed management considering the time and cost, sediment source ascriptions are difficult to obtain using monitoring techniques, but data mining procedures, have emerged as a potentially valuable alternative. Therefore, application and evaluation of these methods are suggested for further studies and natural sciences data.Keywords: Classification algorithms, Element density, Nodeh watershed, Sediment source ascription.Classification algorithms, Element density, Nodeh watershed, Sediment source ascription
-
تهیه نقشه های کاربری اراضی یکی از مهمترین وظایف فن آوری سنجش از دور در مدیریت عرصه های مختلف محسوب می گردد. در تحقیق حاضر جهت تهیه نقشه کاربری اراضی حوزه آبخیز ابوالعباس از تصویر ماهواره ای لندست/TM سال 1388 استفاده شده است. سپس تصویر به کمک هر یک از الگوریتم های شبکه عصبی مصنوعی پرسپترون سه لایه، ماشین بردار پشتیبان شعاعی و الگوریتم حداکثر احتمال طبقه بندی شد. در نهایت میزان کارایی الگوریتم های مختلف طبقه بندی در تهیه نقشه کاربری اراضی منطقه ی مورد نظر، با استفاده از پارامترهای دقت کلی و ضریب کاپا مورد ارزیابی قرار گرفت. نتایج نشان داد که روش های ناپارامتریک مانند شبکه عصبی مصنوعی (دقت کلی 8/95 درصد، ضریب کاپای95/0) و ماشین بردار پشتیبان شعاعی (دقت کلی 8/95 درصد، ضریب کاپای94/0) با دقت کلی و ضریب کاپای تقریبا مشابه در بهترین حالت دارای صحت و دقت بالاتری در تهیه نقشه کاربری اراضی نسبت به روش پارامتریک حداکتر احتمال (دقت کلی7/93 درصد، ضریب کاپای91/0) می باشند. در کل مطالعه ی حاضر نشان داد که هر سه الگوریتم طبقه بندی شبکه عصبی مصنوعی، ماشین بردار پشتیبان و حداکثر احتمال قابلیت تهیه نقشه کاربری اراضی را با صحت بالا، دارا می باشند.کلید واژگان: تصویر ماهواره ای، الگوریتم طبقه بندی، نقشه کاربری اراضی، ضریب کاپا، دقت کلی، حوزه آبخیز ابوالعباسIranian Journal of Watershed Management Science and Engineering, Volume:10 Issue: 33, 2016, PP 73 -84One of the most important tasks of remote sensing technology is to producing land use maps. In this study, in order to produce land use map of abolabbas basin, landsat satellite image of TM scanner acquired on 01 June 2009 were employed. the image classified by using three-layer perceptron neural network, support vector machine with the radial basis kernel function and Maximum Likelihood algorithm. So, The performance of different classification algorithms in producing land use maps were investigated using overall accuracy and kappa coefficient. Results showed that Nonparametric algorithms such as artificial neural network (with 95.8% overall accuracy and 0.95 kappa coefficient) and support vector machine with the radial basis kernel function (with 95.8% overall accuracy and 0.94 Kappa coefficient) with the same performance were better than the third method which is Parametric maximum likelihood algorithm (with 93.7% overall accuracy and 0.91 Kappa coefficient). Overall, this study showed that three classification algorithms, neural network, support vector machine and maximum likelihood are capable to generate land use maps with high accuracy.Keywords: Satellite image, Classification algorithms, Land use map, Overall accuracy, Kappa coefficient, Abolabbas basin
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.