جنگل تصادفی
در نشریات گروه آب و خاک-
به دلیل افزایش فشار جهانی بر در دسترس بودن منابع آب، توجه به تلفات آب بیش تر از قبل مشخص می گردد، تبخیر و تعرق (ET) به عنوان بخش مهمی از تلفات بوده و تخمین آن برای بررسی تغییرات آب و هوا، جلوگیری از آبیاری ناکارآمد و استفاده مناسب از منابع آب، حیاتی است. علی رغم مدل های تجربی فراوان برای پیش بینی ET، هنوز هیچ اجماع جهانی در مورد استفاده از یک مدل تجربی مشخص وجود ندارد. مدل های محاسبات نرم به دلیل نیاز به داده های کم تر، برای جلوگیری از محدودیت مدل های تجربی و برای برآورد دقیق تر ET توسعه داده شده اند. در این تحقیق برای تخمین تبخیر و تعرق مرجع با داده های هواشناسی در حدفاصل سال های 1385 تا 1401 و در دشت اردبیل کارایی دو مدل جنگل تصادفی (RF) و رگرسیون خطی چندگانه (MLR) ارزیابی شد. برای ساخت مدل، از ترکیبب داده های 4 ایستگاه هواشناسی استفاده و از ایستگاه پنجم برای ارزیابی نهایی مدل ها استفاده شد. آماره های ارزیابی شامل R2، NSE و RMSE بود. نتایج به دست آمده برای مدل RF به ترتیب برابر بود با 74/0، 743/0 و 20/8 میلی متر که در مقایسه با نتایج مدل MLR از دقت بالاتری برخوردار بود. مطالعه حاضر نشان داد که مدل های جنگل تصادفی می تواند یک مدل مطمئن با در نظر گرفتن دقت و ثبات، برای پیش بینی ETo و با استفاده از مجموعه داده های محدود باشد. به طور کلی، با استفاده از نتایج این تحقیق می توان گفت که مدل های RF، تبخیر و تعرق مرجع را در مناطقی با داده های محدود با دقت قابل قبولی شبیه سازی می کند.کلید واژگان: جنگل تصادفی، رگرسیون خطی چندگانه، تبخیر و تعرق مرجع، یادگیری ماشینAs the global demand for water resources increases, the reduction in water loss, including Evapotranspiration, becomes more obvious. Although many models have been developed to predict evapotranspiration, no universally accepted model for all climate regions has been established. Several soft computational models have been created to circumvent the constraints of empirical models and accurately predict ET. Soft computing models typically require less data and are applicable across various climatic zones. This study aimed to analyze how well two Random Forest models and Multiple Linear Regression could predict ETo in the Ardabil plain region. Meteorological data from the Iranian Meteorological Organization were used to calculate the reference evapotranspiration from 2014 to 2016. In constructing the model, data from 4 meteorological stations were combined to generate a random time series, while the fifth station was reserved for evaluating the models. The assessment metrics used comprised RMSE, R2, and NSE. The RF model achieved higher accuracy with R2, NSE, and RMSE values of 0.74, 0.743, and 8.20 mm, respectively, compared to the MLR model. The results demonstrate that random forest models are reliable tools for forecasting ETo with minimal climate data. In general, using the results of this study and other similar research, we conclude that RF and MLR models simulate potential evapotranspiration with acceptable accuracy but are sensitive to the number of input parameters.Keywords: Machine Learning, Multiple Linear Regression, Random Forest, Reference Evapotranspiration
-
کشور ایران جزء مناطق خشک و نیمه خشک جهان است و با محدودیت شدید منابع آب مواجه است. از آنجا که بخش بسیار بزرگی از آب در دسترس به واسطه ی تبخیر-تعرق تلف می شود، برآورد دقیق آن حائز اهمیت می باشد. هدف از این تحقیق، مقایسه عملکرد روش های یادگیری ماشین شامل رگرسیون خطی چندگانه (MLR)، برنامه ریزی بیان ژن (GEP) و جنگل تصادفی (RF) در مدل سازی تبخیر-تعرق مرجع روزانه وتوزیع مکانی آن در استان زنجان است. برای این منظور از داده های هواشناسی 10ساله (1388-1398) ایستگاه های سینوپتیک زنجان، ماه نشان، خدابنده و خرمدره استفاده شد. چهار پارامتر هواشناسی (میانگین دما، میانگین رطوبت نسبی، سرعت باد و تابش خالص) به عنوان ورودی مدل ها و تبخیر-تعرق فائو پنمن مانتیث به عنوان خروجی مدل ها درنظر گرفته شد. برای مقایسه عملکرد روش های یادگیری ماشین با یکدیگر، معیارهای ارزیابی محاسبه، نمودارهای سری زمانی، پراکنش و ویولونی رسم گردید. طبق نتایج به دست آمده در تمامی ایستگاه ها به جز ایستگاه زنجان که مدل رگرسیون خطی چندگانه عملکرد خوبی داشت، مدل جنگل تصادفی دقت بالا و خطای کمتری در برآورد تبخیر-تعرق مرجع روزانه را دارد. سایر مدل ها نیز با داشتن دقت نزدیک به مدلRF، عملکرد قابل قبولی دارند. بنابراین از خروجی مدل RF جهت پهنه بندی تبخیر-تعرق مرجع روزانه استان زنجان به روش IDW در GIS استفاده گردید. نتایج نشان داد که در شمال غرب استان زنجان بر مقدار تبخیر-تعرق مرجع افزوده می شود که بیشترین مقدار آن در ایستگاه ماه نشان (4-3/4) میلی متر بر روز است.
کلید واژگان: برنامه ریزی بیان ژن، تبخیر-تعرق مرجع، جنگل تصادفی، رگرسیون خطی چندگانه، سامانه اطلاعات جغرافیاییIran is one of the world's semi-arid and arid regions, it has serious water resource limitations. Two important independent processes of the hydrological cycle are the combined processes of subsoil evaporation and transpiration from plant. It is critical to estimate evapotranspiration accurately since a significant amount of water is lost through this process. The FAO Penman-Monteith method is among the mostly-used indirect methods to calculate evapotranspiration. In this method, the water demands of the plant are calculated using the plant coefficients after estimating the reference evapotranspiration (Allen et al., 1998). Researchers typically use several kinds of models for predicting evapotranspiration in an effort to select a model with the highest accuracy, lowest error, and fewest input variables. This is because the FAO Penman-Monteith method requires a larger number of data points despite having acceptable accuracy. These models can be utilized for prediction since they do not have the problems and expenses of direct methods. This category of models involves machine learning models, that have excellent modeling potential that is not only in the area of evapotranspiration predicts but also in other areas of hydrology (Malekahmadi et al., 2022). The purpose of this research is to compare the performance of machine learning methods including multiple linear regression (MLR), gene expression programming (GEP) and random forest (RF) in modeling daily reference evapotranspiration and its spatial distribution in Zanjan province.
Keywords: GEP, GIS, MLR, RF, Reference Evapotranspiration -
تبخیر-تعرق مرجع (ET0) یکی از مهمترین پارامترها در مدیریت و برنامهریزی دقیقتر منابع آب است که بررسی آن، امکان مدل سازی و پیشبینی را فراهم میکند. تصاویر ماهوارهای منبع ارزشمند ولی با فواصل چندین روزه برای جبران کمبود اطلاعات هواشناسی هستند. در این پژوهش، جهت ریز مقیاس سازی این داده های ماهوارهای، دو روش درونیابی اسپیلاین (S) و بزیر (B) پیشنهاد شده اند. با این توابع، داده های چند روزه تصاویر ماهوارهای شامل دمای سطح زمین، شاخص سطح برگ و شاخص تفاضل نرمال شده پوشش گیاهی، به داده های روزانه تبدیل شدند و کاربرد الگوریتم جنگل تصادفی (RF)، تبخیر-تعرق مرجع روزانه تخمین زده شد. نتایج حاصل نشان داد که دقت تخمین تبخیر-تعرق مرجع در ایستگاه تبریز در مدلهای S-RF-10، B-RF-14 و در اردبیل با تلفیق پارامترهای هواشناسی و ماهوارهای به مقادیر حاصل از روش فائو پنمن-مانتیث نزدیکتر بود. علاوه بر این، تحلیل آماری پارامترهای خطای مدل S-RF-10 در تبریز (988/0=R2، 364 /0=RMSE، 987/0=NS) و مدل B-RF-14 (988/0=R2، 364 /0=RMSE، 987/0=NS)، در اردبیل مدل S-RF-9 (933/0=R2، 43/0=RMSE، 952/0=NS) و B- RF-12 (953/0=R2، 459 /0=RMSE، 946/0=NS) نشان دادند که در صورت استفاده از تمای داده های هواشناسی و ماهواره ای هر دو روش نتایج نزدیک به هم دارند ولی در صورت کاهش اطلاعات ورودی، روش درونیابی اسپیلاین نسبت به بزیر دقت بالاتری در ریز مقیاس سازی جهت برآورد تبخیر-تعرق مرجع روزانه دارد. در انتها یافته های تحقیق نشان داد که با استفاده از روش درونیابی اسپیلاین، بریز و کاربرد روش جنگل تصادفی میتوان مقادیر تبخیر- تعرق روزانه را با دقت قابل قبولی تخمین زد.
کلید واژگان: آب مصرفی گیاهان، اسپیلاین، بزیر، تبخیر-تعرق، جنگل تصادفیIntroductionReference evapotranspiration is one of the important processes in the water cycle that has a great impact on water resources and agriculture. Climate change can affect this process and requires accurate spatial-temporal analysis. The standard method for calculating reference evapotranspiration is the FAO-56 Penman-Monteith method that requires meteorological data. But in some areas, there is not enough data and therefore other methods such as machine learning and remote sensing are used. These methods can estimate reference evapotranspiration with high accuracy using different variables such as vegetation indices, temperature, humidity, and wind speed. Some of these methods are random forest, support vector regression, generalized regression neural network, and gene expression programming. These methods can also help in assessing the importance of predictor variables and their uncertainties.
Materials and MethodsThe aim of this article is to model daily reference evapotranspiration (ET0) using data collected from meteorological and satellite sources and implementing random forest (RF) algorithm. The standard FAO-Penman-Monteith method, which is based on the Penman-Monteith equation that integrates radiometric and aerodynamic parameters, was adopted as the base method for calculating ET0 of a reference crop. However, this method demands a large amount of meteorological data such as solar radiation, relative humidity, wind speed, and maximum/minimum temperature, which can be challenging to obtain. To overcome this limitation, satellite images from Google Earth Engine system for the years 2001 to 2021 were processed using Landsat and MODIS sensors to extract parameters such as land surface temperature (LST), enhanced vegetation index (EVI), leaf area index (LAI), and normalized difference vegetation index (NDVI). These parameters can be used to estimate effective evapotranspiration continuously in the short term by applying models and interpolations. One of the problems of planning and management based on satellite image data is the lack of daily images of the study area. One of the ways of time microscaling of this valuable information is interpolation. In other words, interpolation is a mathematical process that estimates unknown data at other points using data available at specific points. This process is used to fill in gaps, increase resolution, or create continuous maps from satellite data. The importance of satellite data interpolation is that it can help improve the quality and accuracy of data and use them to study and predict various meteorological, agricultural, geological, etc. phenomena. In this research, LST (8 days) and vegetation cover data (16 days) were converted into daily data using spline and cubic spline interpolation functions. This work has been done using spline and Bezier interpolation functions and for days without data with equal intervals by coding in Mathematica programming environment.
Results and DiscussionThis research used satellite and meteorological data and the random forest machine learning method to estimate the ET0 at Tabriz and Ardabil stations. The results showed that the saturation vapor pressure and the land surface temperature at night and day had the highest correlation and coefficient of determination with the ET0. The highest accuracy of ET0 estimation at Tabriz was in scenario 10 with error of 0.364 and at Ardabil in scenario 12 with error of 0.430. The best model was the combination of meteorological and satellite parameters. The spline interpolation method provided a better modeling than the bezier method. Additionally, increasing the parameters involved in machine learning and the LAI parameter reduced the accuracy.
Douna et al. (2021) investigated the ability of the RF method to predict daily ET0 in three regions in Australia from 2010 to 2014, using satellite data of LAI and LST and regional meteorological parameters. They stated that the LAI is the most important variable, and they also obtained satisfactory performance in three regions, with RMSE errors of about 1 mm per day. At the same time, for Tabriz and Ardabil stations, the LST values were more important than the LAI and more correlated with ET0. Therefore, by combining meteorological and satellite data, the amount of RMSE errors was reduced to 0.364 and 0.430 mm in Spline and Bezier intyerpolation functions.ConclusionThe results of the research showed that 1) at Tabriz station, among all meteorological parameters, saturation vapor pressure and among satellite parameters, land surface temperature at night had the highest correlation with daily ET0. 2) At Ardabil station, in the same time period, saturation vapor pressure also had the highest correlation of 0.887, but among satellite parameters, land surface temperature at day had the highest correlation of 0.737 with daily ET0. 3) The highest accuracy of daily ET0 estimation at Tabriz was in spline and random forest methods in scenario 10 with error of 0.364 and in bezier methods in scenarios 14 and 16 with error of 0.380. 4) At Ardabil station, both spline and bezier methods had the highest accuracy in scenario 12 with errors of 0.430 and 0.453, respectively. 5) In both spline and bezier interpolation methods, the most accurate model was the combination of meteorological and satellite parameters. 6) In general, spline interpolation method provided a better modeling than bezier. Increasing the parameters involved in machine learning, which were calculated using the available data, had no positive effect on the accuracy of the model. 7) Adding the LAI parameter, which was calculated using the EVI data, to the machine learning model, reduced the accuracy in spline method.
Keywords: Bezier, Evapotranspiration, Plant Water Consumption, Random Forest, Spline -
سابقه و هدف
مدیریت بهینه خاک و توسعه پایدار کشاورزی، نیاز به دسترسی اطلاعات دقیق و معتبر در مورد وضعیت و طبقه بندی خاک دارد و پیش بینی دقیق کلاس های خاک و تعیین مکانی آن ها از اهمیت بالایی برخوردار است. استفاده از روش های یادگیری ماشین و به خصوص رویکرد یادگیری حساس به هزینه می تواند با در نظر گرفتن نامتوازنی در توزیع کلاس های خاک، به بهبود دقت و کارایی پیش بینی کلاس های خاک کمک کرده و اطلاعات ارزشمندی برای مدیریت بهینه خاک و کشاورزی فراهم کند. با این هدف، این مطالعه در بخشی از اراضی جنوب غربی استان زنجان انجام شد.
مواد و روش هاتعداد 148 خاک رخ با روش الگوی شبکه بندی منظم و میانگین فاصله 500 متر حفر، تشریح و با تجزیه وتحلیل آزمایشگاهی تا سطح فامیل رده بندی شد. متغیرهای محیطی شامل اطلاعات نقشه های ژئومورفولوژی و زمین شناسی، مدل رقومی ارتفاع و داده های حاصل از تصاویر ماهواره ای لندست 8 بودند که بر اساس نظر کارشناسی و رویکرد تحلیل مولفه اصلی تعدادی از متغیرهای محیطی شامل اطلاعات نقشه های ژئومورفولوژی، اطلاعات زمین شناسی، سایه اندازی تپه ها، طلوع خورشید، عمق دره، شاخص طول در جهت شیب، فاصله تا شبکه آبراهه، شاخص رطوبتی توپوگرافی و شاخص همواری بالای پشته با درجه تفکیک بالا به عنوان موثرترین متغیرهای محیطی برای پیش بینی کلاس های خاک و ورودی مدل ها انتخاب شد. مدل سازی رابطه خاک - زمین نما با استفاده از الگوریتم یادگیرنده جنگل تصادفی و رویکرد یادگیری حساس به هزینه در محیط نرم افزار "Rstudio" انجام شد.
یافته هاخاک های منطقه در پنج کلاس با توزیع نامتعادل تا سطح زیرگروه شامل تیپیک کلسی زرپتز، تیپیک هاپلوزرپتز، جیپسیک هاپلوزرپتز، تیپیک زراورتنتز و لیتیک زراورتنتز بودند. مقادیر صحت کلی و ضریب کاپا برای ارزیابی نقشه خاک در مدل جنگل تصادفی 65 درصد و 32/0 و در رویکرد یادگیری حساس به هزینه 86 درصد و 77/0 به دست آمد. مقادیر صحت سنجی پیش بینی کلاس های خاک در سطح زیرگروه نشان داد پس از متعادل سازی با رویکرد یادگیری حساس به هزینه تمامی کلاس های خاک به ویژه دو کلاس اقلیت جیپسیک هاپلوزرپتز و لیتیک زراورتنتز به ترتیب با مقادیر صحت کاربر 100 درصد و صحت تولیدکننده 91 و 85 درصد، با صحت بسیار بالایی پیش بینی شدند. مقادیر شاخص حساسیت برای دو کلاس اقلیت جیپسیک هاپلوزرپتز (صفر) و لیتیک زراورتنتز (صفر) نشان می دهد که هیچ پیش بینی صحیحی برای این دو کلاس اقلیت انجام نگرفته است. مقادیر شاخص ویژگی برای کلاس-های جیپسیک هاپلوزرپتز و لیتیک زراورتنتز به ترتیب برابر 1 و 97/0 بود. این مقادیر نشان می دهند که توانایی مدل جنگل تصادفی در تشخیص این دو کلاس نسبت به سایر کلاس ها بسیار بالاتر است. نتایج صحت متعادل نشان داد که بااینکه تشخیص مدل در تمایز کلاس های اقلیت جیپسیک هاپلوزرپتز و لیتیک زراورتنتز با مقادیر 50/0 و 49/0 نسبت به سایر کلاس ها مشکل تر است اما بااین وجود مدل می تواند به صورت نسبتا خوب کلاس ها را پیش بینی کند.
نتیجه گیرینتایج مطالعه موید آن است که روش بهبود داده های نامتعادل با رویکرد یادگیری حساس به هزینه سبب افزایش دقت پیش بینی در کلاس های خاک و نقشه تولیدشده می شود. تمرکز مدل در روش یادگیری حساس به هزینه بر روی داده های با فراوانی کم (اقلیت) است و این موضوع، موجب کاهش خطای پیش بینی و افزایش دقت مدل می گردد. نتایج نشان داد که الگوریتم جنگل تصادفی با استفاده از رویکرد یادگیری حساس به هزینه می تواند بهبود معناداری در تمایز دادن کلاس های خاک به ویژه کلاس های اقلیت داشته باشد.
کلید واژگان: جنگل تصادفی، صحت متعادل، کلاس اقلیت، یادگیری ماشینBackground and objectivesOptimal soil management and sustainable agricultural development require access to accurate and reliable information about the condition and classification of soil, and accurate prediction of soil classes and their location is of great importance. The use of machine learning methods and especially the cost-sensitive learning approach can help to improve the accuracy and efficiency of soil class prediction by considering the imbalance in the distribution of soil classes and providing valuable information for optimal soil management and agriculture. With this aim, this study was conducted in a part of the southwest lands of Zanjan province.
Materials and methodsA number of 148 soil profiles were excavated using a regular grid pattern with an average spacing of 500 meters (and in some locations, up to 700 meters based on expert recommendations), described and classified by laboratory analysis up to the family level. Covariates included geomorphological and geological map information, digital elevation model (DEM), and data from Landsat 8 satellite images that used principal component analysis (PCA) and expert knowledge approaches, some covariates including geomorphological maps, geological information, analytical hill shading, sunrise, valley depth, LS factor, channel network distance, topographic wetness index and multi-resolution ridge top flatness as the most effective covariates for predicting soil classes and model input is selected. Modeling of the soil-landscape relationship was performed using the algorithm, random forest (RF), and ensemble model (after data balancing) in “Rstudio” software.
ResultsThe soils of the region at the subgroup level were categorized in five classes, with imbalanced distribution, including Typic Calcixerepts, Typic Haploxerepts, Gypsic Haploxerepts, Typic Xerorthents, and Lithic Xerorthents. The results of overall accuracy and Kappa coefficient for evaluating soil map in random forest model were 65% and 0.32 before data balancing and after balancing the data with a cost-sensitive learning approach 86% and 0.77, respectively. The accuracy values of the prediction of soil classes at the subgroup level showed that after balancing with a cost-sensitive learning approach, all soil classes, especially the two minority classes of Gypsic Haploxerepts and Lithic Xerorthents, with user accuracy values of 100% and 100% and producer accuracy of 91% and 85% respectively, were predicted with very high accuracy. The values of the sensitivity index for the two minority classes of Gypsic Haploxerepts (zero) and Lithic Xerorthents (zero) show that no correct prediction has been made for these two minority classes. The Specificity index values for Gypsic Haploxerepts and Lithic Xerorthents classes are equal to 1 and 0.97, respectively, these values show that the ability of the model to distinguish these two classes is very high compared to other classes. The results of balanced accuracy showed that the accuracy of the model in differentiating the minority classes of Gypsic Haploxerepts and Lithic Xerorthents with the values of 0.50 and 0.49 by the model is more difficult than other classes, but the model can predict the classes relatively well.
ConclusionThe results of the study confirm that the method of improving imbalanced data with a cost-sensitive learning approach increases the accuracy of prediction in soil classes and produced maps. The focus of the model in the cost-sensitive learning method is on the data with the low number (minority) and this reduces the prediction error and increases the accuracy of the model. The results showed that the random forest algorithm using the cost-sensitive learning approach can have a significant improvement in distinguishing soil classes, especially minority classes.
Keywords: Balanced Accuracy, Machine Learning, Minority Class, Random Forest -
زمینه و هدف
خصوصیات خاک در دشت های سیلابی دارای تغییرات مکانی زیادی هستند بافت خاک یکی از خصوصیات مهم خاک است که تاثیر زیادی بر بسیاری از فعالیت های کشاورزی و مدیریت خاک دارد به طوری که مقدار نگهداری آب و عناصر غذایی، نفوذپذیری، زهکشی، تخلخل و بسیاری از خواص مکانیکی و هیدرولیکی خاک تحت تاثیر آن است؛ لذا داشتن آگاهی از توزیع مکانی آن به ویژه در دشت های سیلابی که تغییرات آن زیاد است، ضرورتی مضاعف دارد. مطالعات صحرایی تغییرات مکانی خصوصیات خاک به علت برداشت تعداد زیاد نمونه به ویژه در مقیاس بزرگ پرهزینه و زمان بر است. روش نقشه برداری رقومی خاک در تلفیق با داده های سنجش ازدور به عنوان راهکاری سودمند برای تولید نقشه رقومی خصوصیات خاک با دقت بالا و صرف هزینه و زمان کمتر است.
روش پژوهشدر این پژوهش پیش بینی تغییرات مکانی اجزاء بافت خاک در دشت سیلابی سیستان در مقیاس بزرگ (مساحت 1300 کیلومتر مربع) انجام شده است. برای این منظور بر اساس روش تصادفی طبقه بندی شده در سری های مختلف خاک اراضی کشاورزی دشت سیستان تعداد 160 نقطه انتخاب گردید و سپس نمونه برداری ها از لایه سطحی خاک (cm0-30) انجام گردید. همچنین از داده های سنجش از دور تصویر ماهواره لندست 8 شامل تصاویر باندهای یک تا هشت، نسبت تصاویر باند چهارم به هشتم، باند چهارم به باند سوم و شاخص پوشش گیاهی، شاخص روشنایی، شاخص رس و شاخص اندازه ذرات خاک به عنوان متغیرهای کمکی برای میان یابی اجزاء بافت خاک کمک گرفته شد. برای یافتن ارتباط بین متغیرهای کمکی و اجزاء بافت خاک از روش جنگل تصادفی استفاده شد. این تکنیک، مدل توسعه یافته ای از روش طبقه بندی و رگرسیون درختی می باشد که در آن به جای رشد یک درخت صدها یا هزارن درخت طبقه بندی تولید می شود. 80 درصد داده ها به داده های آموزش و 20 درصد به داده های آزمون اختصاص یافتند. مدل سازی بر روی داده های آموزش و ارزیابی ها بر اساس داده های آزمون انجام گردید. از معیارهای RMSE, MBA MAE, و nRMSE و همچنین شاخص توافق ویلموت (dr) و ضریب کارایی (EF) برای ارزیابی و کارایی مدل استفاده شد.
یافته هاتجزیه و تحلیل همبستگی پیرسون نشان داد که در بین کسرهای بافت خاک، محتوای شن و ماسه با بیشترین متغیرهای محیطی دارای بیشترین رابطه معنی دار است. باند 8 بیشترین همبستگی را با میزان شن، سیلت و رس داشت. یافته های پژوهش بیانگر این است که استفاده از داده های سنجش ازدور موجب افزایش دقت پیش بینی ها شده اند. همچنین بااین حال که روش جنگل تصادفی مقادیر کمتری برای RMSE در مقایسه با یک مدل ساده کریجینگ برای پیش بینی مکانی ذرات شن، سیلت و رس خاک ارائه داد؛ اما به علت تغییرات زیاد خصوصیات خاک در دشت های سیلابی، مقادیر RMSE نسبتا بزرگ تر مقادیر شن و سیلت نسبت به رس به دلیل فراگیرتر بودن آنها در منطقه موردمطالعه است. مقدار RMSE در روش جنگل تصادفی برای پیش بینی شن، سیلت و رس در داده های اعتبارسنجی به ترتیب برابر 42/15، 56/12 و 97/8 درصد به دست آمد. این در حالی است که RMSE برای مدل کریجینگ معمولی به ترتیب 2/18، 3/13 و 53/9 برآورد شد که نسبت به روش جنگل تصادفی به ترتیب 18، 9/5 و 2/11 درصد بیشتر است. مقادیر نسبتا زیاد RMSE در این مطالعه ناشی از تغییرات زیاد خصوصیات خاک و شرایط تشکیل رسوبات در دشت های سیلابی است. مقادیر nRMSE برای اجزاء شن، سیلت و رس خاک به ترتیب برابر 19/0، 13/0 و 21/0 برای داده های پیش بینی و برابر 39/0، 29/0 و 34/0 برای داده های اعتبارسنجی است. همچنین بین متغیرهای کمکی، نتایج نشان داد که شاخص رس و شاخص اندازه دانه مهمترین متغیرهای محیطی برای پیش بینی بافت خاک به روش جنگل تصادفی در منطقه مورد مطالعه بودند. نتایج مقادیر ضریب توافق ویلموت (dr) نشان می دهد که مدل سازی بادقت قابل قبولی انجام شده است. همچنین بررسی مقادیر ضریب کارایی مدل (EF) نیز نشان می دهد که روش جنگل تصادفی به درستی نقشه های اجزاء بافت خاک را در محدوده موردمطالعه تولید کرده است. سایر متغیرهای محیطی مانند نسبت باند 4 - باند 8، باند 1، باند 8 و باند 7 نیز بر پیش بینی کسر بافت خاک تاثیر گذاشتند.
نتایجنتایج نشان داد در بین اجزاء بافت خاک شن دارای بالاترین ضریب هم بستگی پیرسون با متغیرهای محیطی بود و در بین متغیرهای کمکی باند 8 بیشترین ضریب هم بستگی را با اجزاء بافت خاک دارد. شاخص رس و شاخص اندازه ذرات خاک مهم ترین متغیرهای محیطی در جریان مدل سازی با روش جنگل تصادفی بودند. همچنین متغیرهای محیطی نسبت باند 4 به باند 8، باند 8، باند 7 و باند 2 ماهواره لندست 8 از دیگر متغیرهایی هستند که بر پیش بینی توزیع مکانی اجزاء بافت خاک تاثیر داشتند. در مجموع به علت تغییرات زیاد خصوصیات خاک در دشت های سیلابی مقادیر معیارهای ارزیابی نسبتا زیاد برآورد گردید که این به دلیل تغییرپذیری زیاد خصوصیات فیزیکی خاک در دشت سیستان است. دلیل دیگر آن می تواند به تعداد نمونه های مورداستفاده ارتباط داشته باشد؛ بنابراین پیشنهاد می شود که برای به دست آوردن نقشه های بادقت بهتر برای خصوصیات خاک به ویژه خصوصیات فیزیکی آن در دشت های آبرفتی، تعداد نمونه برداری های خاک افزایش یابد و همچنین تعداد نقاط بهینه در این مناطق تعیین گردد. همچنین به دلیل اینکه خصوصیات خاک در دشت های سیلابی تابع نحوه رسوب گذاری است که خود تابع نحوه پراکنش مسیرهای جریان آب منطقه است، پیشنهاد می شود در مطالعات آتی از شاخص های که به نحوی به این موضوع مرتبط است نظیر فاصله تا رودخانه ها، شبکه انهار منطقه، نقشه کاربری اراضی به عنوان متغیرهای کمکی استفاده شود.
کلید واژگان: بافت خاک، تغییرات مکانی، سنجش از دور، جنگل تصادفی، متغیر محیطیIntroductionSoil properties are highly spatially variable in flood plains. Soli texture is an important physical soil properties that have affect many agricultural and environmental activities, so it has strongly influenced water retention curve, fertility, drainage and porosity. So, knowledge on its spatial distribution is essential especially in alluvial plains and large scale. Field studies of Spatial Distribution of soil properties, especially on a large scale and in floodplains, a large number of soil samples may need to be collected, which is cost- and time-consuming. Digital soil mapping (DSM) method using remote sensing data are coupled as significant impact on predicting spatial distribution soil properties.
MethodsThe aim of this study was to predict the spatial distribution of soil texture fractions in Sistan flood plain at a regional scale (area 1300 km2). In this study, 160 soil samples collected under different of various soil series of the surface layer (0–30 cm) in the agriculture land of Sistan plain and soil texture fractions including percentage of sand, silt and clay content were measured. So, remotely sensed data including Landsat 8’s Band 1, Band 2, Band 3, Band 4, Band 5, Band 6, Band 7, Band 8 and Band 4/ Band 8, Band 4/ Band 3, NDVI index, brightness index, clay index, grain size index were used as auxiliary variables for interpolation of soil texture fractions. Random forest technique was used to examine the relation between auxiliary variables and the soil texture components. Random forest is a developed model of classification and regression tree (CART). In the RF model, hundreds or thousands of classification trees are produced. 80 % of data was used for prediction and 20 % of data was used for validation, and RMSE, nRMSE, Willmott index (dr), Effectiveness index (EF), MBE and MAE were used for evaluation.
ResultsPearson's correlation analysis showed that among soil texture fractions, sand content has the highest significant relationship with the most environmental variables. Band 8 had the highest correlation with sand, silt and clay content. The findings of the research show that the use of remote sensing data has increased the accuracy of predictions. The results show that the values of RMSE and MAE are lower for prediction set than validation set whereas the values of ME are similar for both sets. The values of RMSE of estimating percentage of sand, silt, clay at validation sites using RF method were 15.42, 12.56 and 8.97 %, respectively. Also, the values of RMSE of estimation by ordinary kriging were 18.2, 9.53 and 15.1% for sand, silt and clay, respectively that were 18, 5.9 and 11.2 % higher than those obtained by RF model. Also, the values of nRMSE were 0.19, 0.13 and 0.2 for prediction dataset and it was 0.39, 0.21 and 0.34 for validation dataset for sand, silt and clay fractions, respectively. The results of dr coefficient value shows that the modeling has been done with acceptable accuracy. Also value of EF shows that spatial maps of soil texture fraction produced by using RF model has good accurate. So, RF method when combined by remotely sensed data is a suitable method for mapping soil texture fractions in a regional scale. Also, between auxiliary variables, results showed that the clay index and grain size index were the most important environmental variables for predicting soil texture by the random forest method in the study area. The results of Wilmot's coefficient of agreement (dr) show that the modeling has been carried out with acceptable accuracy. Also, the evaluation of the efficiency factor (EF) values of the model shows that the random forest method has correctly produced the maps of soil texture components in the studied area. Other environmental variables such as Band 4 - Band 8 ratio, Band 1, Band 8 and Band 7 also influenced soil texture fractions prediction.
ConclusionRemote sensing data combined with the random forest model can be applied for an appropriate prediction of spatial distribution pattern of soil texture fractions in large scale floodplains with a hot and dry climate condition. Highly of RMSE value for sand and silt than clay, which could be due to the wider range of silt and sand over the study region. Another reason for this could be related to the number of samples used. Therefore, it is recommended that for better accuracy in soil property maps, especially physical properties, the number of soil sampling points be increased, and optimal sampling points in these areas be determined. For future works, the use of other co-variables such as land use map, distance from the river, soil series, and salinity map or remote sensing data of smaller resolution, as well as hyperspectral visible and near-infrared reflectance spectroscopy should be evaluated for a regional spatial prediction of soil fractions in floodplains.
Keywords: Environmental Variable, Random Forest, Remote Sensing, Soil Texture, Spatial Variation -
تا کنون توابع انتقالی نقطه ای و پارامتریک با روش های زیادی برای تخمین منحنی نگهداری آب خاک (SWRC) استفاده شده اند، اما از روش جنگل تصادفی (RF) با برخی متغیرهای ورودی تا کنون در هیچ مطالعه ای برای ایجاد توابع انتقالی شبه پیوسته استفاده نشده است. تعداد 120 نمونه خاک از دو استان تهران و همدان برداشت و ویژگی های فیزیکی آن ها اندازه گیری گردید. تعداد 10 تابع انتقالی شبه پیوسته با روش های رگرسیون خطی و RF ایجاد شد. از متغیرهای مکش آب خاک، بافت خاک، درصد رس و شن، جرم مخصوص ظاهری، میانگین و انحراف معیار هندسی قطر ذرات، و رطوبت در ظرفیت مزرعه ای (FC) و نقطه پژمردگی دائم (PWP) در ترکیب های مختلف برای تخمین SWRC استفاده شد. استفاده از مکش خاک به عنوان تنها متغیر ورودی برای تخمین SWRC در روش رگرسیون خطی، مدلی با نتایج قابل قبول ایجاد کرد (R2 مراحل آموزش و معتبرسازی به ترتیب 675/0 و 674/0 بود). استفاده از درصد رس و شن به عنوان تخمین گر موجب بهبود تخمین (5/1 تا 0/25 درصد) گردید. جرم مخصوص ظاهری موجب بهبود معنادار درستی تخمین ها در دامنه 9/6 تا 1/13 درصد گردید. بر خلاف PWP، استفاده از FC موجب بهبود درستی تخمین ها در دامنه 5/3 تا 4/24 درصد شد. توزیع خطا (RMSE) بر روی مثلث بافت خاک وابسته به نوع متغیرهای ورودی و روش ایجاد توابع بود. در تمام توابع شبه پیوسته، درستی تخمین ها، بر مبنای RMSE، در روش RF به طور معنادار و قابل توجهی در دامنه 22 تا 46 درصد بیشتر از رگرسیون خطی بود.
کلید واژگان: انحراف معیار هندسی، توابع انتقالی شبه پیوسته، جنگل تصادفی، رگرسیون خطی، رطوبت ظرفیت مزرعه ای، میانگین هندسی قطر ذرات خاکBackground and ObjectivesDirect methods of measuring soil water retention curve (SWRC) are time-consuming and expensive, so they are not easily applicable to large scales. Therefore, researchers use pedotransfer functions (PTFs) to obtain it. Various point and parametric pedotransfer functions have been used so far, with numerous methods to estimate the SWRC, each of which has its drawbacks. However, rare methods have been used to develop pseudo-continuous pedotransfer functions. The random forest (RF) method has not been utilized in any study so far, to create pseudo-continuous pedotransfer functions. Some variables have not been used as predictors in pseudo-continuous pedotransfer functions in any research. Therefore, the objectives of this article include investigating the potential of the RF method in creating pseudo-continuous pedotransfer functions, comparing its performance with linear regression, and examining the probability of improving the performance of these functions using the geometric mean and standard deviation of particles diameter and field capacity (FC) and permanent wilting point (PWP) as predictors.
MethodologyA total of 120 disturbed and undisturbed soil samples were collected from two provinces of Tehran and Hamedan. Soil texture, bulk density, and soil water retention curve in the range of 0 to 15000 hPa were measured. Then pseudo-continuous pedotransfer functions were created using two methods of linear regression and random forest. The soil water matric suction, soil texture, percentage of silt and sand, bulk density, geometric mean, standard deviation of particles diameter, and moisture content at FC and PWP were used in various combinations to estimate the soil water retention curve. The accuracy and reliability of the generated functions were compared between the two methods and within each method.
ResultsUsing soil water matric suction as the only input variable for estimating moisture at different matric suctions was not effective in the RF method, and no model was created. However, in the linear regression method, a model with acceptable results was developed (with R2 values of 0.675 and 0.674 for training and validation stages, respectively), which can be utilized in situations where additional information is not available. The inclusion of soil texture in the linear regression method significantly improved the accuracy of estimates by 5.4% and 5.3% in both training and validation stages, respectively. In the third function, incorporating the percentage of clay and sand alongside soil water matric suction as predictors improved SWRC estimation by 1.5% to 25.0% in both training and validation stages for both RF and linear regression compared to the second function. In the fourth function, using bulk density as an additional predictor led to a significant improvement in accuracy by 6.9% to 13.1%, because bulk density serves as an indicator of soil structure, enhancing the estimation of the soil water retention curve. Utilizing FC improved estimation accuracy by 3.5% to 24.4%, because FC is a point on the SWRC and enters direct information to the models. However, using the PWP as a predictor did not significantly improve estimation accuracy. Using geometric mean (dg) and geometric standard deviation (Sg) instead of percentage of clay and sand in pseudo-continuous pedotransfer functions did not lead to noticeable improvements. Error distribution across soil texture triangles in the linear regression method showed no dependence on soil texture. Because, in pedotransfer functions 1, 2, 4, 7, and 8, the highest error values were obtained in coarse-textured soils, while in pedotransfer functions 5, 6, 9, and 10, the lowest error values were associated with coarse-textured soils. Error distribution across soil texture triangles depended on the type of input variables and the method used to create pedotransfer functions. In all pseudo-continuous pedotransfer functions created by both methods, the accuracy of estimates in both training and validation stages in the RF method was significantly and noticeably higher, ranging from 22% to 46% more than those in linear regression.
ConclusionUsing the regression method and solely relying on soil water matric suction as a predictor, an acceptable pseudo-continuous pedotransfer function was developed. Investigating the potential of establishing a similar relationship using the state-of-the-art estimation methods may lead to independence from relying on numerous soil water retention curve models. Utilizing more detailed information such as particle size distribution and FC for estimating the SWRC through pseudo-continuous pedotransfer functions is recommended. The dependence of error distribution on soil texture triangles on the type of input variables and the method used to create pedotransfer functions underscores the importance of selecting an appropriate combination of input variables and method for creating pseudo-continuous pedotransfer functions for estimating the SWRC. Given the significant superiority of the random forest method over linear regression, using soil water matric suction, percentage of clay and sand, bulk density, and FC as predictors in pseudo-continuous pedotransfer functions with the RF method yielded the best results in estimating the SWRC.
Keywords: Geometric Mean Diameter, Geometric Standard Deviation, Pseudo-Continuous Pedotransfer Functions, Random Forest, Soil Moisture -
تعیین روند و بررسی تغییرات کاربری اراضی در مدیریت حوضه های آبریز امری ضروری است. هدف از این مطالعه بررسی تغییرات کاربری اراضی حوضه آبریز آب ملایر برای سال های 1379و 1399 با استفاده از تصاویر لندست در سامانه گوگل ارث انجین است. تهیه نقشه کاربری اراضی به شیوه ترکیب تصاویر لندست و پروداکت کاربری اراضی سنجنده مادیس و از الگوریتم طبقه بندی جنگل تصادفی استفاده شد. نتایج منطقه مورد مطالعه را به پنج کلاس، شامل کاربری های علفزار، زمین زراعی، چمن زار، شهری در سال 1379 و کاربری های جنگل، زمین زراعی، چمن زار ، شهری و بایر در سال 1399 تقسیم کرد. نتایج نشان داد که بیشترین تغییر کاربری اراضی علفزار مربوط به چمن زار به میزان 1/37 درصد و کم ترین آن به میزان صفر درصد مربوط به جنگل بود. بیشترین تغییر کاربری اراضی چمن زار مربوط به زمین های زراعی با میزان 6 درصد و کم ترین آن مربوط به جنگل های ساوانا با میزان 01/0 درصد است. از سوی دیگر، بیشترین تغییر کاربری اراضی زمین های زراعی به چمن زار 4/11 درصد و کمترین آن 2/0 درصد نیز به جنگل های ساوانا اختصاص داشت. در فرآیند صحت سنجی تصاویر طبقه بندی شده با الگوریتم جنگل تصادفی دقت کلی به ترتیب برای سال های 1379 و 1399 برابر با 73 و 75 درصد و ضریب کاپا برابر با 66/0 و 68/0 به دست آمد که این مقادیر نتایج قابل قبولی را برای طبقه بندی کاربری اراضی در منطقه مورد مطالعه ارائه کرد.
کلید واژگان: جنگل تصادفی، ضریب کاپا، سنجش از دور، گوگل ارث انجینDetermining the trend and examining land use changes is essential in managing watersheds. This study aims to investigate land use changes in the AB- Malayer watershed for the years 2001 and 2021 using Landsat images in the Google Earth Engine. The land use map was created by combining Landsat images with the MODIS land use product and applying the random forest classification algorithm. The analysis categorized the study area into five classes: grassland, cropland, forest, urban land, and barren land. In 2001, the land was primarily classified as grassland, cropland, and urban land. By 2021, the classifications expanded to include forest and barren land. The most significant change observed was in grassland, which decreased by 37.1%, while forest cover remained unchanged at 0%. Grassland primarily transitioned into agricultural land, accounting for a 6% change, whereas the smallest shift, 0.01%, involved conversion to savannah forests. Additionally, agricultural land experienced an 11.4% conversion to grassland, with the smallest change of 0.2% occurring towards savannah forests. The validation of the classification using the random forest algorithm yielded overall accuracy rates of 73% and 75%, and Kappa coefficients of 0.66 and 0.68 for the years 2001 and 2021, respectively. These results indicate a reliable land use classification for the study area.
Keywords: Kappa Coefficient, Google Earth Engine, Random Forest, Remote Sensing -
منابع آب برای زندگی انسان، رشد اقتصادی و حفظ محیط زیست حیاتی میباشند، اما با چالشهایی مانند تغییرات آب و هوایی و فعالیتهای انسانی، به ویژه در مناطق خشک مواجه هستند. برای رفع این مشکل، مدیریت پایدار آب بسیار مهم است. هوش مصنوعی، به ویژه یادگیری ماشین، به طور فزایندهای برای پیشبینی و مدیریت کیفیت آب استفاده میشود. این روش های هوش مصنوعی در تشخیص الگوها در داده های آب عالی هستند و به بهبود مدیریت کیفیت آب کمک می کنند. بنابراین در این مطالعه به بررسی کیفیت آب رودخانه مارون با استفاده از ترکیب روش تحلیل عاملی و یادگیری ماشین پرداخته شد. داده های 10 ساله پارامترهای مختلف کیفیت آب در سه ایستگاه جمع آوری گردید و شاخص کیفیت آب ایران برای هر سری داده محاسبه شد. سپس الگوریتم های مختلف یادگیری ماشین برای پیش بینی شاخص کیفیت آب به کار گرفته شده اند. در مرحله بعد تحلیل عاملی برای استخراج ویژگی های مهم ورودی به الگوریتم بهینه استفاده گردید. قابل ذکر است در هر مرحله عملکرد الگوریتمهای موردمطالعه با استفاده از معیارهای ارزیابی تعیین شد. نتایج نشان داد که در مرحله اول الگوریتم جنگل تصادفی (R2 (78/0)، RMSE (65/2)) بهترین عملکرد را در پیش بینی شاخص کیفیت آب داشت. همچنین مشخص شد که نیترات مهمترین پارامتر ورودی و اسیدیته کم اهمیت ترین پارامتر برای سه الگوریتم موردمطالعه است. قابل ذکر است در حالتی که تعداد ورودیها به 3 پارامتر با اهمیت کاهش یافت، عملکرد الگوریتم جنگل (R2 (74/0)، RMSE (86/2)) تصادفی تقریبا مشابه با 8 پارامتر ورودی بود. ترکیب بینش های حاصل از تحلیل عاملی و تحلیل اهمیت ویژگی ها می تواند درک جامع تری از روابط پیچیده بین پارامترهای کیفیت آب ارائه دهد و به ایجاد استراتژی های موثرتر برای مدیریت آب و کنترل آلودگی کمک کند.کلید واژگان: نیترات، رگرسیون خطی، جنگل تصادفی، معیار های ارزیابیWater resources face challenges such as climate change and human activities. Sustainable water management is extremely important to solve this problem. More and more people are using artificial intelligence, especially machine learning, to predict and manage water quality. These AI methods are excellent at identifying patterns in water data and improving water quality management. This study examines the water quality of the Maroon River using a combination of factor analysis and machine learning. Data on various water quality parameters were collected from three stations over a period of ten years and the water quality index was calculated. Then, different machine learning algorithms were used to predict the water quality index. In a further step, factor analysis was performed to extract the important features of the input for the optimal algorithm. The performance of the studied algorithms was determined at each step using evaluation criteria. The results showed that in the first step, the Random Forest algorithm (R2 (0.78), RMSE (2.65)) had the best performance in predicting water quality index. It was also found that among the three algorithms studied, nitrate is the most important input parameter, while acidity is the least important. By reducing the number of inputs to 3 important parameters, the performance of the Random Forest algorithm (R2 (0.74), RMSE (2.86)) almost reached the level of 8 input parameters. Combining insights from factor analysis and feature importance analysis can provide a more comprehensive understanding of the complex relationships among water quality parameters and help develop more effective water management.Keywords: Nitrate, Linear Regression, Random Forest, Evaluation Criteria
-
فرسایش آبکندی یکی از مخرب ترین اشکال فرسایش آبی است که باعث هدررفت حجم زیادی از خاک در مناطق خشک و نیمه خشک می شود. هدف از این پژوهش بررسی حساسیت حوزه آبخیز بالادست سد بوستان در شمال شرق استان گلستان به فرسایش آبکندی با استفاده از فناوری شیءگرا و الگوریتم های داده کاوی است. برای پایش و شناسایی آبکندهای موجود در منطقه با سنجش از دور، از تصاویر QuickBird سال 2021 و نرم افزار Orfeo برای قطعه بندی تصویر مورد نظر استفاده شد. سپس با بازدیدهای میدانی، 81 آبکند در منطقه انتخاب شد. در نهایت، در محیط پایتون (کولب) با استفاده از تحلیل هم خطی بر 23 شاخص موثر در وقوع فرسایش آبکندی با سه مدل جنگل تصادفی، حداکثر آنتروپی و ماشین بردار پشتیبان اقدام به مدل سازی شد. بعد از انجام تحلیل هم خطی، هفت عامل شامل فاصله از گسل، ارتفاع، NDBI، NDWI، Band3، Band5 و Band7 به دلیل مقدار تورم واریانس بالاتر از پنج، از مرحله مدل سازی حذف شدند. نتایج حاصل از بررسی متغیرهای تاثیرگذار نشان داد که در مدل جنگل تصادفی بارندگی، شاخص فاصله از رودخانه، شاخص HAND، فاصله از جاده و دره پراهمیت ترین شاخص ها می باشند. هم چنین، نتایج پهنه بندی با استفاده از این شاخص ها حاکی از آن بود که در مدل جنگل تصادفی، 65/8 درصد از مساحت منطقه در خطر فرسایش زیاد و خیلی زیاد قرار دارد که در مقایسه با دو مدل حداکثر آنتروپی و ماشین بردار پشتیبان با عملکرد بهتری نواحی مستعد فرسایش را پیش بینی کرده است. در نهایت، برای اعتبارسنجی مدل از منحنی ROC استفاده شد. مقادیر AUC در مدل جنگل تصادفی در دو مرحله آموزش و اعتبارسنجی 95/0 و 94/0 درصد به دست آمد که بیان گر صحت بالای این مدل در پیش بینی مناطق با حساسیت بالا به فرسایش آبکندی است. نتایج این پژوهش و کارایی فناوری شیء گرا در تفکیک آبکندها، می تواند به پژوهش گران کمک کند که با لحاظ کردن اقدامات حفاظتی و آبخیزداری در اراضی لسی از تمرکز رواناب های ناشی از بارش سیلابی، در مناطق با حساسیت زیاد به وقوع آبکند جلوگیری کنند.
کلید واژگان: جنگل تصادفی، حداکثر آنتروپی، سد بوستان، شاخص HAND، ماشین بردار پشتیبانIntroductionGully erosion is a particularly destructive form of water erosion that can lead to alarming rates of soil loss, especially in the vulnerable landscapes of dry and semi-arid regions. This type of erosion is recognized not only for its immediate impact on land but also as a critical environmental challenge that requires our urgent attention. As a result, there has been a growing emphasis on developing effective predictive models that can elucidate the temporal and spatial dynamics of gully erosion-specifically, how it forms, expands, and evolves over time. This endeavor has captured the interest of soil conservation experts and researchers alike, who understand the profound implications of this issueIn recent years, remote sensing and data mining techniques have emerged as valuable tools for identifying and mapping areas susceptible to gully erosion. These innovative methods provide essential insights for land managers and policymakers, enabling them to make informed decisions. Furthermore, the effectiveness of predictive models hinges on their advanced capabilities, which enhance their learning potential and improve the identification of relationships among various factors. Creating a sensitivity map is an essential strategy for land use planning, as it actively contributes to reducing land degradation and safeguarding our natural resources. Understanding the connection between gully occurrences and influential factors is not only beneficial; it is crucial for sustainable land management and environmental preservation.
Materials and MethodsThis research investigates the sensitivity of the upper basin of the Boustan Dam to gully erosion using object-based techniques and data mining algorithms. To achieve this, field visits were conducted to select 81 gullies for analysis. The study examines several factors, including slope, aspect, slope length index (LS), elevation, plan curvature, distance from the river, drainage density, topographic wetness index (TWI), height above the nearest drainage (HAND), average annual rainfall, distance from roads, distance from faults, land use, geomorphology, soil texture, and satellite bands B7, B5, and B3. Additionally, the normalized difference vegetation index (NDVI), normalized difference built-up index (NDBI), and normalized difference water index (NDWI) are considered, along with geological aspects. QuickBird satellite images from 2021 and Orfeo software were utilized to monitor and identify gullies in the area through image segmentation. Initially, a collinearity analysis of 23 effective erosion occurrence indices was performed, resulting in the removal of distance from the fault, digital elevation model (DEM), NDWI, NDBI, and satellite bands B3, B5, and B7 due to their collinearity exceeding five. Following this linear operation, all remaining indices were integrated with the segmentation map obtained from the Orfeo environment. Finally, three models -Random Forest, Maximum Entropy, and Support Vector Machine- were employed to model the selected indices using Python (Colab).
Results and DiscussionThe results from the object-oriented method in the Orfeo software further demonstrated its effectiveness in accurately identifying gullies. With an impressive accuracy rate of 91.3%, this method has proven to be highly reliable in generating machine learning maps with high precision. Findings indicate that the key factors contributing to gully erosion include the rainfall index, distance from the river, Height Above Nearest Drainage (HAND) index, distance from the road, and valley index. Torrential rain emerged as a significant driver of gully erosion, while the distance from the river was crucial due to the concentration of surface and subsurface flows toward waterways. The HAND index played a prominent role in modeling the sensitivity of the study area compared to other sub-indices derived from DEM, as it exhibited promising applications in assessing natural hazards. Locations close to roads were found to be more vulnerable to water erosion, and valleys were identified as especially susceptible to gully erosion due to their conducive conditions for rapid water flow and erosion. Extensive field studies support this observation. Furthermore, zoning results generated using these indices indicated that, within the random forest model, 544.23 hectares of the area are at high or very high risk of erosion. This model outperformed the Maximum Entropy and Support Vector Machine models in predicting erosion-prone areas. Finally, the ROC curve was utilized to validate the model, yielding AUC values of 0.95 and 0.94 in the random forest model during the training and validation stages, respectively. These results indicate the model's high accuracy in predicting areas highly susceptible to gully erosion.
ConclusionThis study effectively used object-based image analysis algorithms and data mining techniques to create a sensitivity map of the region. The object-based method efficiently identified the local gullies using the mean shift algorithm, while the random forest algorithm excelled in predicting areas prone to gully erosion. Key factors contributing to gully erosion were identified, including rainfall, distance from the river, soil HAND index, and distance from roads and valleys. The findings from this study provide valuable insights for managing and preserving basin resources. Implementing the recommendations from this research could help mitigate the impacts of gully erosion in the future and ensure the sustainability of the Boustan Dam and its surrounding ecosystem.
Keywords: Boustan Dam, HAND Index, Maximum Entropy, Random Forest Model, Support Vector Machine -
استفاده از تکنیک های سنجش از دور و یادگیری ماشین به طور فزاینده ای به عنوان روش های مقرون به صرفه برای نمایش نقشه شوری خاک شناخته می شود. در این مطالعه از داده های ماهواره ای لندست 8 و تکنیک های پیچیده یادگیری ماشینی برای ترسیم و ارزیابی سطوح شوری خاک در حوضه آبخیز بدر استفاده گردید. به این منظور، از چندین تکنیک یادگیری ماشین در نرم افزار R برای پیش بینی مقادیر شوری در حوضه آبخیز بدر استفاده شد. این الگوریتم ها نزدیک ترین همسایه K (KNN)، تحلیل درخت تصمیم (DTA)، شبکه عصبی مصنوعی (ANN) ، جنگل تصادفی (R.F.) و رگرسیون چند متغیره خطی ترکیبی (MLR) را در بر می گرفت.. برای انجام این مطالعه، بر اساس تکنیک ابر مکعب لاتین، محل 125 خاک رخ در منطقه مطالعاتی انتخاب و حفر شد. نمونه های خاک، پس از هوا خشک شدن در محیط آزمایشگاه، کوبیده شد و از الک 2 میلی متری عبور داده شد. سپس شوری خاک اندازه گیری گردید. برای برآورد ویژگی های خاک، دو حالت مختلف مورد بررسی قرار گرفت. در حالت اول، مدل های شبکه عصبی مصنوعی، تحلیل درخت تصمیم و رگرسیون چند متغیره خطی برای پیش بینی استفاده شد. همچنین، برای ترکیب نتایج مدل ها، از مدل نزدیک ترین همسایه استفاده شد. نتایج این مطالعه نشان داد که متغیرهای کمکی مهم در پیش بینی شوری خاک به ترتیب اهمیت عبارت اند از: ژئومورفولوژی، عمق دره، شاخص همواری قله برآمدگی با درجه تفکیک بالا، شاخص خیسی، جهت شیب، مدل رقومی ارتفاع، شیب حوضه، موقعیت نسبی شیب، مقدار شیب و طول شیب. همچنین، نتایج ارزیابی مدل ها نشان داد که در میان مدل های استفاده شده برای پیش بینی شوری، مدل رگرسیون چند متغیره خطی ترکیبی (MLR) با ضریب تعیین 0/611 و ریشه دوم متوسط مربعات خطا 0/032 از بیشترین دقت برای پیش بینی برخوردار بوده است.
کلید واژگان: لندست 8، الگوریتم نزدیک ترین همسایه، تحلیل درخت تصمیم، شبکه عصبی مصنوعی، جنگل تصادفی، رگرسیون چند متغیره خطی ترکیبیUse of remote sensing and machine learning techniques are increasingly recognized as cost-effective methods for displaying soil salinity maps. In this study, Landsat 8 satellite data and sophisticated machine learning techniques were used to map and evaluate soil salinity levels in the Badr Watershed. In this study, several Machine Learning techniques were used to predict salinity values in Badr Watershed. These algorithms included K-nearest neighbor (KNN), decision tree analysis (DTA), artificial neural network (ANN), random forest (RF) and mixed multivariate linear regression (MLR). In the first stage, auxiliary data such as Landsat 8 satellite images of the region and a digital elevation model with a spatial resolution of 10 meters were prepared from the country's Mapping Organization. The geological map of Qorveh was prepared from the geological site of the country, and the geological map of the Badr Watershed was extracted from it and digitized in the environment of the geographic information system. The geomorphological map was drawn and the location of the observation points was determined. Then, modeling was done, digital maps of soil classes and characteristics were prepared and the models were evaluated. Based on the Latin Supercube Technique, 125 outcrops were selected and excavated in the study area. After air-drying in the laboratory, the soil samples were pounded and passed through a 2 mm sieve. Then, soil salinity was measured. In order to estimate soil characteristics, two different conditions were investigated in this study. In the first case, ANN models, DTA and linear MLR were used for prediction. Also, to combine the results of the models, the nearest KNN was used. The results showed that the important auxiliary variables in predicting soil salinity, in order of importance, were geomorphology, depth of the valley, smoothness index of the ridge with a high degree of resolution, wetness index, slope direction, digital height model, basin slope, relative position of the slope, slope amount and slope length. Also, the results of the evaluation showed that among the models used to predict salinity, the combined MLR model with a coefficient of determination of 0.611 and a square root mean square error of 0.032 had the highest accuracy for prediction.
Keywords: Digital Mapping, Decision Tree Analysis, Machine Learning, Landsat 8, Multivariate Linear Regression -
مدیریت صحیح و منطقی و طراحی برنامه های کاربری اراضی در تامین تقاضای غذا در سراسر جهان مفید بوده است. ارزیابی و تعیین تناسب زمین در حصول اطمینان از استفاده بهینه از منابع اراضی و درعین حال حفظ پتانسیل آن برای نسل های آینده مفید است. هدف اصلی این مطالعه ارزیابی رقومی تناسب اراضی برای کشت آبی محصولات زراعی گندم، جو و یونجه در منطقه آبیک دشت قزوین است. بدین منظور از اطلاعات 288 تعداد پروفیل خاک برای محاسبه شاخص اراضی استفاده گردید. همچنین متغیرهای توپوگرافی شامل مشتقات اولیه و ثانویه مدل رقومی ارتفاع و متغیرهای مستخرج از تصاویر سنجش ازدور (ماهواره لندست 8) شامل شاخص های طیفی به عنوان متغیرهای محیطی جهت مدل سازی نقشه تحت کلاس تناسب اراضی برای سه محصول یونجه، گندم و جو و همچنین تهیه نقشه رده بندی خاک در سطح فامیل استفاده شدند. هشت عامل توپوگرافی، خاک و اقلیمی شامل درصد شیب، اقلیم، بافت، گچ، کربنات کلسیم معادل، هدایت الکتریکی (EC) و نسبت جذب سدیم (SAR) به عنوان عوامل موثر در ارزیابی تناسب زمین برای گندم، جو و یونجه شناسایی شدند. در ادامه از روش پارامتریک (ریشه دوم) برای محاسبه درجات تناسب سرزمین برای محصولات مورد نظر استفاده شد. مدل یادگیری ماشین جنگل تصادفی نیز جهت مدل سازی مکانی، تهیه نقشه پهنه بندی و تعیین درجه اهمیت متغیرهای محیطی مورداستفاده قرار گرفت. نتایج پیش بینی مکانی نشان داد که مدل جنگل تصادفی تناسب اراضی را برای گندم، جو و یونجه به ترتیب با ضرایب کاپا 81، 84، 85 درصد و دقت کلی 86، 88 و 89 درصد طبقه بندی کرد. به ترتیب نتایج ارزیابی تناسب اراضی نشان داد که بیشترین کلاس تناسب اراضی مربوط به جو با 40 درصد، یونجه با 5/35 درصد و گندم با 32 درصد از کل مساحت منطقه در کلاس S1 بود. در بین متغیرهای محیطی پیش بینی کننده برای محصول جو متغیرهایDiffuse ،SHt و MrVBF، برای محصول گندم متغیرهای Diffuse، MrVBF و TWI و برای محصول یونجه سه متغیر MrVBF، Diffuse و Valley_depth مهم ترین مشاهده گردیدند. بطور کلی، مهم ترین عوامل محدود کننده برای زراعت آبی محصولات مورد نظر مربوط به ویژگی های خاک بود، به نحوی که در نواحی شمالی بافت و در نواحی جنوبی ویژگی های درصد آهک، گچ، شوری و قلیاییت خاک ها به عنوان مهم ترین عوامل محدودکننده شناسایی شدند.
کلید واژگان: تناسب و ارزیابی رقومی، جنگل تصادفی، روش پارامتریک، نقشه برداری رقومی خاکIntroductionResearch and development in high-potential agricultural areas are of great importance for ensuring the food needs of the population and livestock. Neglecting these regions can lead to increased food prices and food shortages, which can have a negative impact on the economy and public health. Land suitability maps provide essential information for agricultural planning and are vital for reducing land degradation and evaluating sustainable land use. The utilization of modern mapping techniques such as digital soil mapping and machine learning algorithms can significantly improve the accuracy of land suitability assessment and crop performance prediction. These methods have been widely employed as primary tools for mapping and evaluating land suitability in various regions worldwide.
Materials and MethodsIn this study, a total of 288 soil profiles were utilized to compute the land suitability index for wheat, barley, and alfalfa crops. Various environmental variables were included, such as topographic factors derived from the digital elevation model and spectral indices obtained from Landsat 8 satellite imagery. Eight key factors, namely slope percentage, climate, texture, gypsum content, equivalent calcium carbonate, electrical conductivity (EC), and sodium absorption ratio (SAR), were identified as influential in the assessment of land suitability. To quantify the degrees of land suitability for the target crops, a parametric approach based on the square root method was employed. Moreover, the random forest machine learning model was utilized for spatial modeling, zoning mapping, and determining the significance of environmental variables in the land suitability evaluation process. By incorporating these comprehensive methodologies, a more detailed and accurate understanding of the land suitability for wheat, barley, and alfalfa cultivation can be achieved, facilitating informed decision-making in agricultural planning and land management strategies.
Results and DiscussionThe spatial prediction results demonstrated the effectiveness of the random forest model in classifying land suitability for wheat, barley, and alfalfa. The model achieved high accuracy, with Kappa coefficients of 81%, 84%, and 85% for wheat, barley, and alfalfa, respectively. The overall accuracies were also impressive, reaching 86% for wheat, 88% for barley, and 89% for alfalfa. Analyzing the land suitability assessment results, it was found that barley had the highest land suitability class, covering a significant portion of 40% in class S1. Alfalfa followed closely with 35.5% of the total area, and wheat occupied 32% in the same class. Delving into the predictive environmental variables for barley, Diffuse, SHt, and MrVBF emerged as the most influential factors. These variables played a crucial role in assessing the suitability of land for barley cultivation. Similarly, for wheat, the variables Diffuse, MrVBF, and TWI were identified as significant indicators, contributing to the accurate prediction of wheat performance. Regarding alfalfa, the variables MrVBF, Diffuse, and Valley_depth stood out as the most important variables, providing valuable insights into land suitability for alfalfa cultivation. In general, the limiting factors for irrigated cultivation of these crops were primarily associated with soil properties. In the northern regions, soil texture was identified as a significant limiting factor, impacting the suitability of the land for crop cultivation. On the other hand, in the southern regions, soil characteristics such as the percentage of lime, gypsum, salinity, and alkalinity were recognized as the most influential limiting factors, affecting the suitability of the land for successful crop production. These findings provide valuable information for land planners, farmers, and decision-makers in determining suitable areas for wheat, barley, and alfalfa cultivation. By considering the identified influential factors and addressing the limiting soil properties, agricultural practices can be optimized to maximize crop productivity and ensure sustainable land use.
ConclusionThe research aimed to evaluate land suitability for wheat, barley, and alfalfa crops under irrigation. Data selection focused on the most limiting factors for these crops. The model achieved acceptable predictions for wheat, barley, and alfalfa, with Kappa coefficients of 0.81, 0.85, and 0.84, and overall accuracies of 0.86, 0.89, and 0.88, respectively. Barley had the highest percentage of suitable land (40%), followed by alfalfa (39.5%) and wheat (32%). Soil constraints varied across the study area, including texture, stoniness, lime, gypsum, salinity, and alkalinity. The analysis identified 31 soil types, and the random forest model yielded a digital soil map with a Kappa coefficient of 0.76 and overall accuracy of 0.81. The findings support effective land management and agricultural planning.
Keywords: Digital Soil Mapping, Parametric Method, Random Forest, Suitability, Digital Assessment -
مطالعه وضعیت پایداری خاکدانه های خیس (WAS)، به عنوان شاخصی رایج از ساختمان خاک و نیز ارزیابی کیفیت آن، برای مدیریت بهینه منابع خاک و آب، حائز اهمیت است. در پژوهش حاضر، برای مدل سازی پایداری خاکدانه های خیس از مدل های یادگیری ماشین جنگل تصادفی (RF) و جنگل تصادفی بهینه شده با الگوریتم ژنتیک (GA-RF) استفاده شد. بدین منظور، ویژگی های بافت، ماده آلی و آهک 55 نمونه خاک از جنگل های ارسباران تعیین و سپس با ترکیب های ورودی مختلف بر اساس مقادیر همبستگی با پارامتر WAS، مدل سازی با استفاده از هفت سناریو انجام شد. به منظور تعیین توانایی مدل های اجرا شده، سه شاخص عملکرد ضریب همبستگی (CC)، جذر میانگین مربعات خطای نرمال شده (NRMSE) و ضریب ویلموت (WI) مورد استفاده قرار گرفت. نتایج نشان داد که مدل RF5 در بین مدل های جنگل تصادفی با 038/0NRMSE =، 736/0CC = ، 789/0WI = و مدل GA-RF5 در بین مدل های جنگل تصادفی بهینه شده با الگوریتم ژنتیک با 031/0NRMSE = ، 800/0CC = ، 842/0WI = با ورودی درصد شن و سیلت و رس، بهترین عملکرد را داشتند. علاوه براین نتایج RF1 ) 047/0NRMSE = ، 589/0CC = ، 721/0WI = (و GA-RF1 ) 036/0NRMSE = ، 662/0CC = ، 797/0WI = (نشان داد که درصد رس بالاترین درجه همبستگی را با پایداری خاکدانه ها دارد. همچنین، با اضافه شدن کربنات کلسیم معادل در سناریو 7، بهبود عملکرد و تاثیر مثبت این ویژگی در پیش بینی پایداری خاکدانه های خیس مشاهده گردید. بنابراین، مدل جنگل تصادفی بهینه شده با الگوریتم ژنتیک برای تعیین دقیق و مناسب پایداری خاکدانه های خیس در مطالعات مربوط به خصوصیات خاک توصیه می گردد.کلید واژگان: الگوریتم ژنتیک، جنگل تصادفی، پایداری خاکدانه های خیسIn order to effectively manage soil and water resources, it is imperative to investigate wet aggregate stability (WAS) as a fundamental indicator for assessing soil structure and quality. In this study, machine learning techniques, specifically random forest (RF) and random forest optimized with genetic algorithm (GA-RF), were employed. The analysis focused on determining the texture, organic matter content, and lime characteristics of 55 soil samples collected from the Arsbaran forests. Utilizing various input combinations based on correlations with WAS, modeling was performed across seven distinct scenarios. Furthermore, three performance metrics including correlation coefficient (CC), normalized root mean square error (NRMSE), and Wilmot coefficient (WI) were utilized to evaluate the effectiveness of the models. The findings indicated that the RF5 model exhibited superior performance among the random forest models, achieving NRMSE = 0.038, CC = 0.736, and WI = 0.789. Similarly, the GA-RF5 model, optimized through a genetic algorithm approach, demonstrated exceptional performance with NRMSE = 0.031, CC = 0.800, and WI = 0.842 when considering input percentages of sand, silt, and clay. Moreover, results from RF1 (NRMSE = 0.047, CC = 0.589, WI = 0.721) and GA-RF1 (NRMSE = 0.036, CC = 0.662, WI = 0.797) emphasized that clay content exhibited the strongest correlation with stability. Additionally, the incorporation of calcium carbonate equivalent in scenario 7 significantly enhanced model performance and positively influenced the prediction of wet aggregate stability. In summary, the hybrid model combining random forest with a genetic algorithm is recommended for precise and reliable determination of wet aggregate stability in studies focusing on soil properties.Keywords: Genetic Algorithm, Random Forest, Wet Aggregate Stability
-
تشکیل سله یکی از نمودهای تخریب خاک است که موجب افت کیفیت اراضی می شود. رفع چالش های ناشی از سله بستن خاک مستلزم شناسایی عرصه های تخریب یافته و بهبود مدیریت منابع خاک است. با توجه به اینکه ویژگی های خاک دارای پیوستگی مکانی هستند، لذا تهیه نقشه های رقومی به کمک متغیرهای محیطی می تواند اقدام موثری در مطالعات پراکنش مکانی باشد. بدین منظور، تعداد 107 نمونه به طور تصادفی از سطح استان آذربایجان شرقی تهیه و شاخص سله بندی بر اساس روش فائو محاسبه شد. به منظور پیش بینی شاخص سله بندی خاک برای محدوده مورد مطالعه، دو مدل جنگل تصادفی و رگرسیون خطی چندگانه در محیط برنامه نویسی R و با کاربرد دو گروه از متغییرهای محیطی مشتمل بر مشتقات مدل رقومی ارتفاع (18 شاخص) و شاخص های دورسنجی (8 شاخص) مورد ارزیابی قرار گرفت و در نهایت نقشه های رقومی با استفاده از مدل برتر تهیه گردید. نتایج نشان داد شاخص سله بندی خاک های منطقه مورد مطالعه از 07/0 تا 25/2 متغیر می باشد. همچنین مدل جنگل تصادفی با استفاده از داده های مشتقات مدل رقومی ارتفاع و مدل رگرسیون خطی چندگانه با کاربرد شاخص های دورسنجی به عنوان مدل های برتر در پیش بینی شاخص سله بستن خاک شناسایی شدند. بنابراین می توان نتیجه گرفت که انتخاب مدل برتر بستگی به نوع متغیرهای محیطی و داده هایی دارد که در مدل استفاده قرار می شوند. علیرغم وجود تفاوت های جزئی در مقادیر پیکسل های هر دو نقشه مستخرج از مدل های برتر معرفی شده، نقشه های نهایی دارای روند تقریبا یکسانی هستند. نتایج نشان داد که حداکثر مقدار شاخص سله بندی در قسمت های غربی و مرکز استان، سپس جنوب شرقی و شمال شرقی استان می باشد. نقشه های رقومی تهیه شده نشان می دهد که شاخص مذکور در اراضی جنگلی و مرتعی دارای حداقل مقدار بوده و اراضی زراعی و متفرقه در رتبه های بعدی جای داشتند که با مشاهدات میدانی نیز همخوانی دارد. این تحقیق اهمیت تکنیک نقشه برداری رقومی خاک در مدیریت منابع خاک را بیش از پیش نمایان می سازد.کلید واژگان: جنگل تصادفی، رگرسیون خطی چندگانه، سله بندی، مدل سازی، نقشه برداری رقومی خاکSoil crusting is one of the degradation features which causes to decrease the land quality. To fix the crises due to soil crusting, it is therefore needed to identify the degraded areas and improve soil resource management. Since the soil properties have a spatial continuity, providing the digital maps using environmental covariates could be an interesting issue to study the spatial distribution. For this, a total of 107 soil samples were randomly taken over the East Azerbaijan Province, subsequently soil crusting index was calculated based on FAO method. To predict the soil crusting index across the study area, two models i.e., random forests (RF) and multiple linear regression (MLR) within the R programming environment using the data derived from digital elevation model (DEM) (18 indices) as well as remote sensing (eight indices) were evaluated. Results showed that the calculated soil crusting index for the entire study area varied from 0.07 to 2.25. Based on the results, RF was superior to MLR when using DEM-derived data, while MLR was distinguished as a parsimonious model when using RS data. It is concluded that selection of the best-fit model mainly depends on the available soil and covariates data used in modelling. Despite somewhat differences in pixel values between provided maps by the relevant models, the final maps demonstrated a similar trend. Generally, based on the results, the highest soil crusting index was found for west and central part of province, followed by south-eastern and north-eastern areas. The provided maps show that the forest and pasture areas have low value of crusting index, while the cultivated and miscellaneous lands were in the following orders which was consistent with field observations. This research further supports the importance of the digital soil mapping (DSM) technique in soil resources management.Keywords: Crusting Index, Digital Soil Mapping, Modeling, Multiple Liner Regression, Random Forest
-
بافت خاک یکی از مهمترین ویژگی هایی است که رفتار فیزیکی، شیمیایی و بیولوژکی خاک را کنترل می کند. روش های مختلفی برای مدل سازی بافت خاک استفاده می شوند. یکی از راهکارهای سود بردن از مزایای این مدل ها ترکیب تخمین آنها است. با توجه به این که بافت خاک یک داده مرکب است، وقتی اجزاء آن جداگانه تخمین زده می شوند تضمینی برای اینکه جمع سه جزء برابر 100 شود وجود ندارد، هرچند می توان از تبدیل های نسبت لگاریتمی (log-ratio) استفاده کرد. اطلاعات کمی در خصوص کارآیی مدل های ترکیبی در مدل سازی داده های تبدیل شده و نشده بافت خاک وجود دارد و به نظر می رسد بر اساس این رویکرد تا کنون مطالعه ای روی بافت خاک انجام نشده است. در این بررسی، تعداد 200 نمونه خاک های سطحی از منطقه کوهدشت برداشت شد. سه مدل جنگل تصادفی (RF)، k نزدیکترین همسایه (kNN) و ماشین های بردار پشتیبان (SVM) و مدل حاصل از ترکیب آن ها به روش Granger-Ramanathan (GR) برای مدل سازی، روش های نسبت لگاریتمی جمع پذیر (alr)، نسبت لگاریتمی مرکزی (clr) و نسبت لگاریتمی ایزومتریک (ilr) برای تبدیل داده ها و داده های حاصل از مدل رقومی ارتفاع (DEM) و تصاویر لندست 8 و سنتینل 2 به عنوان ورودی مدل ها استفاده شد. نتایج نشان داد که متغیرهای استخراج شده از DEM اهمیت بیشتری در پیش بینی بافت خاک داشت. به طور کلی، هر چهار مدل با استفاده از تبدیل alr منجر به تخمین های بهتری نسبت به تبدیل های clr و ilr و داده های تبدیل نشده (UT) گردید. مدل ترکیبی (GR) با مقادیر RMSE برابر با 5/07، 4/21، 5/81 و 6/09 درصد برای رس، مقادیر 7/11، 5/15، 9/04 و 6/70 درصد برای سیلت و 9/20، 7/76، 11/69 و 8/74 درصد برای شن به ترتیب برای داده های UT و تبدیل های alr، clr و ilr منجر به بهبود تخمین ها نگردید. به طور کلی، کارآیی مدل SVM با داده های تبدیل شده به روش نسبت لگاریتمی جمع پذیر کمی بیشتر از سایر مدل ها بود. نتایج نشان داد که ترکیب چند مدل یادگیری ماشین الزاما باعث بهبود تخمین ها نمی گردد و می توان از یک مدل مناسب برای برآورد بافت خاک استفاده کرد.
کلید واژگان: تبدیل لگاریتمی، جنگل تصادفی، داده مرکب، مدل های ترکیبیSoil texture is one of the most important soil properties that govern soil physical, chemical and biological behaviors. In modeling soil textural fractions, different models are used. To combine the benefits from different models, one approach is combining their predictions. Since soil texture is a compositional data, when its fractions are estimated separately there is no guarantee that the estimates will sum to 100. Log-ratio transformations before modeling are ways to deal with the problem. Little is known about modeling transformed and untransformed (UT) soil texture data using a combination of different models. In the present study, 200 surface soil samples (0-30 cm) were collected from Kuhdasht region. Random forest (RF), k-nearest neighbors (kNN) and support vector machines (SVM) and their combination using Granger-Ramanathan (GR) method were used to model soil texture data. Additive log-ratio (alr), centroid log-ratio (clr) and isometric log-ratio (ilr) transformations were used to transform texture data. Environmental variables derived from Landsat 8 and Sentinel-2 images and a digital elevation model (DEM) were used as input for all models. Results indicated that covariates derived from DEM were more important in modeling soil texture. All models improved the estimates of soil texture fractions when alr transformed data was compared to UT, clr, and ilr transformed data. The combined model (i.e. GR) did not show superiority over other models. Using GR model RMSE values for alr, clr, ilr transformed clay data and UT were 5.07%, 4.21%, 5.81%, and 6.09%, respectively. For silt RMSE values (in the same order as clay) were 7.11%, 5.15%, 9.04%, and 6.70%, and for sand were 9.20%, 7.67%, 11.69% and 8.74%, respectively. Generally, SVM using alr transformed data showed a slightly higher potential for modeling soil texture. Generally, results indicated that combining different machine learning algorithms did not necessarily improve the estimates. Therefore, it is possible to use a single appropriate model for modeling soil texture.
Keywords: Compositional Data, Ensemble Model, Log-Ratio Transformation, Random Forest -
ماهی ها حیواناتی خونسرد هستند و متابولیسم، رشد و تغذیه آنها با دمای آب ارتباط تنگاتنگی دارد. تغییرات دمایی باعث بروز تنش در ماهی ها و بعضا شیوع بیماری ها به هنگام گذر از آستانه های تحمل آنها می شود. با توجه به اهمیت موضوع، در این پژوهش به کمک داده های مشاهداتی روزانه ایستگاه هواشناسی کشاورزی رشت در استان گیلان، مربوط به بازه زمانی خرداد 1396 تا آبان ماه سال 1398، متغیرهای دمای بیشینه و کمینه استخر پرورش ماهیان گرمابی با استفاده از چند روش یادگیری ماشین مدلسازی شد. برای این منظور، روش های شبکه عصبی مصنوعی، تقویت گرادیان و جنگل تصادفی، برای مدلسازی دمای بیشینه و کمینه استخرهای یک مجموعه پرورش ماهی مورد استفاده قرار گرفتند. نتایج به دست آمده از ارزیابی عملکرد این رهیافت ها با داده های اندازه گیری شده، نشان داد برای مدلسازی دمای کمینه، شبکه عصبی (با ریشه میانگین مربعات 93/1 و همبستگی 92/0) و برای مدلسازی دمای بیشینه، مدل جنگل تصادفی (با ریشه میانگین مربعات 61/1 و همبستگی 95/0) دارای دقت بیشتری هستند. در صورت تدقیق بیشتر، با کاربست مدل های پیشنهادی می توان با استفاده از داده های روزانه پیش بینی هواشناسی، به عنوان ورودی، دمای بیشینه و کمینه را برای استخر پرورش ماهیان پیش بینی نمود و در صورت لزوم اقدامات مدیریتی مقتضی را با توجه به شرایط دمایی پیش بینی شده انجام داد.
کلید واژگان: ماهی گرمابی، یادگیری ماشین، شبکه عصبی، جنگل تصادفی، روش تقویتی گرادیانFish are cold blooded animals and their metabolism, growth and feeding are strongly dependent on water temperature. Temperature changes in fish breeding pools cause stress and disease outbreaks occur especially above the tolerance thresholds. The aim of this study is predicting pool water temperature from observed air temperate using several machine learning approaches, namely artificial neural network, gradient boosting and random forest in Gilan province.Maximum and minimum air temperature data of Rasht Agrometorological station for the period of June 2016 to November 2018 were collected and used for prediction of corresponding data of fish breeding pond .The obtained results showed that for prediction of the minimum temperature, the neural network model (with a root mean square of 1.93 and a correlation of 0.92) and for the pool water maximum temperature, the random forest model (with a root mean square of 1.61 and a correlation of 0.95) did a better job comparing to other two approaches. These selected models can be applied for prediction of water temperature using air Tmax and Tmin for improved management options under changing conditions.
Keywords: Artificial Neural Network, Boosting, Gradient, Machine Learning, Prediction, Random Forest, Warm-Water Fish -
نقشه برداری خصوصیات خاک با استفاده از تصاویر ماهواره ای ابرطیفی و چند طیفی در کنار رویکردهای آماری و با استفاده از مدل های یادگیری ماشین از جمله جنگل های تصادفی پیشرفت زیادی در دقت و صحت نقشه های تهیه شده داشته است. این تحقیق برای بررسی عملکرد تصاویر پریسماو لندست8 در مدل سازی کربنات کلسیم معادل و درصد رس با مدل جنگل تصادفی، در بخشی از اراضی شهرستان آبیک استان قزوین از مهرماه سال 1399 تا مهرماه 1401 انجام شده است. در ابتدا، با استفاده از 229 داده که از خاک سطحی جمع آوری شده در منطقه آبیک استان قزوین به مساحت 60 هزار هکتار اندازه گیری شد، در مرحله بعد مجموعه داده های طیفی دو ماهواره پریسماو لندست8 ، استخراج و داده های بازتاب خاک به دست آمدند. در این تحقیق از شاخص های طیفی، شاخص های مدل رقومی ارتفاع و تجزیه مولفه های اصلی به عنوان متغییر کمکی استفاده شد. در مرحله بعدی، مدل رگرسیون جنگل تصادفی جهت تخمین ویژگی های خاک با استفاده از 80% از داده ها آموزش داده شد و از 20% داده ها برای آزمون مدل استفاده شد. نتایج نشان داد که بهترین دقت در بازیابی ویژگی های خاک سطحی توسط داده های پریسما، با استفاده از مجموعه داده های کمکی تجزیه مولفه های اصلی، شاخص های طیفی و شاخص های مستخرج از مدل رقومی ارتفاع به دست آمد. به طور دقیق تر، استفاده از این سه دسته داده، بیشترین ضریب تبیین، انحراف پیش بینی باقی مانده و نسبت عملکرد به فاصله بین چارکی و کمترین ریشه میانگین مربعات خطا و ریشه میانگین مربعات خطا نرمال شده را برای تخمین کربنات کلسیم معادل و درصد رس خاک نشان داد. بهترین مدل برای تخمین درصد رس، با مدل جنگل های تصادفی، شاخص های آماری (ضریب تبیین: 90/0؛ریشه میانگین مربعات خطا : 91/4؛ ریشه میانگین مربعات خطا نرمال شده : 23/0؛ نسبت دامنه بین چارکی: 8/0؛ نسبت انحراف عملکرد: 29/2) و بهترین مدل برای تخمین کربنات کلسیم معادل، با مدل جنگل های تصادفی، شاخص های آماری (ضریب تبیین: 61/0؛ریشه میانگین مربعات خطا : 72/0؛ ریشه میانگین مربعات خطا نرمال شده : 20/0؛ نسبت دامنه بین چارکی: 77/0؛ نسبت انحراف عملکرد: 27/1) به دست آمد.
کلید واژگان: جنگل تصادفی، درصد رس، کربنات کلسیم، ماهواره ابرطیفی پریسماMapping soil properties using hyperspectral and multispectral satellite images, along with statistical approaches, and machine learning models such as Random Forests (RF), has shown great progress in accurately preparing agricultural maps. This study aimed to compare the performance of PRISMA and Landsat 8 images in modeling calcium carbonate and clay percentage using a Random Forest model. Firstly, Surface soil data was collected from Abik region of Qazvin province from October 2020 to October 2022. Furthermore, PRISMA and Landsat 8 spectral datasets were extracted from images downloaded from the websites of these two satellites, and soil reflectance data were obtained. The Random Forest regression model was then calibrated to estimate soil properties. The results of this study showed that the best accuracy in estimating soil characteristics using PRISMA data was obtained by using Auxiliary Variables such as principal components analysis, spectral indices, and indices extracted from the digital elevation model. The use of these three data sets provided the uppermost value for following statistical indices for estimating calcium carbonate and soil clay percentage: coefficient of determination (R2), and Ratio of Performance to Inter Quartile range (RPIQ), Ratio Performance Deviation (RPD) and the lowest Root Mean Squared Error (RMSE) and Normalized Root Mean Squared Error (NRMSE). The best model for estimating clay percentage, using the Random Forest model and statistical indices, had an R2 of 0.90, RMSE of 4.11, NRMSE of 0.18, RPIQ of 0.95, and RPD of 2.29. The best model for estimating calcium carbonate, using the Random Forest model and statistical indices, had an R2 of 0.62, RMSE of 0.72, NRMSE of 0.20, RPIQ of 0.77, and RPD of 1.27. The results supported the expectation of the good ability of the PRISMA imager to estimate surface soil properties.
Keywords: Random Forest, Clay Percentage, Calcium Carbonate, PRISMA Hyperspectral Satellite -
آب های زیرزمینی یکی از کلیدی ترین منابع آب در سطح کره خاکی هستند که در بخش کشاورزی، صنعت و شرب دارای اهمیت بوده و ضامن حیات برای نسل آینده به شمار می آیند. در این تحقیق از 227 سری داده مربوط پارامترهای هواشناسی و آب زیرزمینی دشت سراوان در استان سیستان و بلوچستان جهت پیش بینی و برآورد سطح ایستابی آب زیرزمینی با استفاده مدل های هوشمند یادگیری ماشین استفاده شد. از این تعداد سری داده، 159 سری برای استفاده در بخش آموزش مدل ها و 68 سری برای آزمون مدل ها در سناریوهای طراحی شده تخصیص یافت. عملکرد مدل های جنگل تصادفی و M5P در برآورد متوسط سطح ایستابی دشت سراوان مورد ارزیابی قرار گرفت. عملکرد مدل ها با استفاده از شاخص های آماری ضریب همبستگی (R)، خطای مجذور میانگین مربعات (RMSE) و خطای بایاس میانگین (MBE) مقایسه شد. نتایج به دست آمده نشان داد هر دو مدل بکاررفته از توانایی خوبی در مدل سازی سطح ایستابی برخوردارند، اما مدل M5P با ضریب همبستگی بالاتر خطاهای کمتری نسبت به مدل جنگل تصادفی دارد. سناریوی چهارم مدل M5P با مقادیر ضریب همبستگی، MBE و RMSE به ترتیب 961/0، 0001/0- و 727/0 در بخش آموزش و 871/0، صفر و 265/0 در بخش آزمون به عنوان بهترین مدل در بین سناریوهای دو مدل انتخاب شد. پیشنهاد می شود سطح ایستابی دشت سراوان با سایر روش های هوش مصنوعی و یادگیری ماشین نیز ارزیابی و با مطالعه حاضر مقایسه شود.کلید واژگان: آبخوان، تراز آب زیرزمینی، درخت تصمیم، جنگل تصادفی، مدیریت منابع آبGroundwater is one of the key sources of water on the surface of the earth, which is important in agriculture, industry and drinking, and is considered as the guarantor of life for the future generation. In this research, 227 data series related to meteorological and groundwater parameters of Saravan plain in Sistan and Baluchistan province were used to predict and estimate the groundwater level using intelligent machine learning models. Out of this number of data series, 159 series were allocated for use in model training and 68 series for model testing in designed scenarios. The performance of random forest and M5P models was evaluated in estimating the monthly mean groundwater level of Saravan Plain. The performance of the models was compared using statistical indices of correlation coefficient (R), root mean square error (RMSE) and mean bias error (MBE). The obtained results showed that both used models have a good ability to groundwater level modeling, but the M5P model with a higher correlation coefficient has fewer errors than the random forest model. The fourth scenario of the M5P model is selected as the best model among the scenarios of two models with correlation coefficient, MBE and RMSE values of 0.961, -0.0001 and 0.727 in the training section and 0.871, zero and 0.265 in the test section, respectively. It is suggested that the groundwater level of Saravan Plain be evaluated with other methods of artificial intelligence and machine learning, and compared with the present study.Keywords: aquifer, groundwater level, decision tree, Random forest, Water Resources Management
-
تناسب اراضی یک عامل اساسی در برنامه ریزی استفاده از اراضی و تولید پایدار محصولات کشاورزی است. ارزیابی تناسب اراضی به بهینه سازی استفاده از اراضی، ترویج استفاده پایدار از اراضی، حفاظت از محیط زیست و اطمینان از استفاده بهینه از منابع طبیعی کمک می کند. این تحقیق در منطقه آبیک استان قزوین واقع در شمال غرب ایران به وسعت 60 هزار هکتار انجام شده است، پس از جمع آوری داده ها از 300 خاکرخ و تعیین کلاس های تناسب زمین برای گندم با آبیاری سطحی با استفاده از سامانه طبقه بندی فائو، نقشه های رقومی به دو روش مرسوم و یادگیری ماشینی با استفاده از متغیرهای محیطی مستخرج از مدل رقومی ارتفاع، تصاویر ماهواره لندست-8 و سنتینل-2 بدست آمد. نتایج نشان داد که روش یادگیری ماشینی با دقت کلی 74 درصد و شاخص کاپای 68 توانست دقت بالاتری را نسبت به روش مرسوم با دقت کلی 62 درصد و شاخص کاپای 53 از خود نشان دهد. همچنین مهم ترین متغیرهای محیطی که در مدلسازی یادگیری ماشینی استفاده شدند متغیرهای مستخرج از مدل رقومی ارتفاع و ماهواره لندست-8 بود. بیشترین وسعت منطقه برای کشت گندم با آبیاری سطحی در کلاس نسبتا مناسب (S2) با 30753 هکتار در روش جنگل های تصادفی و 21028 هکتار در روش سنتی بدست آمد و کمترین وسعت نیز متعلق به کلاس نامناسب (N) با 3052 هکتار در روش جنگل های تصادفی و 7185 هکتار در روش سنتی شناسایی شد. 15000 هکتار از منطقه مورد مطالعه نیز بدون محدودیت (S1) کشت برای گندم با آبیاری سطحی گزارش گردید.
کلید واژگان: جنگل تصادفی، خصوصیات ژئومرفولوژیک، روش پارامتریک، گندمLand suitability is a crucial factor in land use planning and sustainable agricultural production. Evaluating land suitability helps optimize land use, promote sustainable land use, protect the environment, and ensure optimal use of natural resources. This study was conducted in the Abiek region of Qazvin province in northwest Iran, covering an area of 60,000 hectares. After collecting data from 300 soil profiles and determining land suitability classes for wheat cultivation with surface irrigation using the FAO classification system, digital elevation models, Landsat-8 and Sentinel-2 satellite images, and environmental variables extracted from the digital elevation model were used to create digital maps using both traditional and machine learning methods. The results showed that the machine learning method had a higher accuracy rate of 74% and a Kappa index of 68 compared to the traditional method with an accuracy rate of 62% and a Kappa index of 53. The most important environmental variables used in the machine learning model were those extracted from the digital elevation model and Landsat-8 satellite images. The largest area for wheat cultivation with surface irrigation was found in the relatively suitable class (S2), with 30,753 hectares in the random forest method and 21,028 hectares in the traditional method. In contrast, the smallest area belongs to the unsuitable class (N), with 3,052 hectares in the forest method. Additionally, random fields and 7185 hectares were identified in the traditional method. Also, 15,000 hectares of the study area are suitable for wheat cultivation without restrictions.
Keywords: Geomorphological characteristics, parametric method, Random forests, Wheat -
اهمیت پتاسیم در بالا بردن کمیت و کیفیت محصولات کشاورزی، تقاضا را برای کودهای پتاسیمی افزایش داده است. تضمین استخراج پتاسیم از شورابه های زیرزمینی مقدار عیار پتاسیم در آنهاست. هدف این پژوهش استفاده از الگوریتم های جنگل تصادفی (RF) و ماشین بردار پشتیبان (SVM) به منظور اولویت بندی پارامترهای موثر بر عیار پتاسیم شورابه زیرزمینی در پلایای خور و بیابانک استان اصفهان است. به همین منظور تعداد 55 پارامتر در 12 گمانه حفاری اندازه گیری شد. پارامترهای اندازه گیری شده به عنوان متغیرهای مستقل شامل درصد رطوبت اشباع مغزه در 15عمق مختلف، جرم مخصوص ظاهری مغزه در 15عمق مختلف، تخلخل مغزه در 15عمق مختلف، مساحت پلی گون، عمق آب زیرزمینی، عمق لایه نمک، پتاسیم لایه سطحی، دانسیته شورابه و میزان عناصر کلسیم، منیزیم، سدیم، کلر و عیار پتاسیم به عنوان متغیر وابسته وارد مدل شدند. در مدلRF برای اولویت بندی، پارامترها از روش های اهمیت ویژگی جایگشت (PFI) و حذف ویژگی جایگشتی (RFE) استفاده شد. در کرنل های مختلف الگوریتم SVM به منظور جلوگیری از هم خطی پارامترهای مستقل، تمام ترکیب های حاصل از متغیرهای مستقل با در نظر گرفتن ضریب تورم واریانس کمتر از 8 و بالاترین ضریب تعیین و کمترین خطای MSE بررسی و به عنوان بهترین ترکیب انتخاب شدند. پارامترهای موثر در پیش بینی عیار پتاسیم شورابه در الگوریتم RF و تابع خطی الگوریتم SVM به ترتیب sp، ap، duw، slp، SAR و n، sp، duw و SAR بودند که منجر به بهترین نتیجه (ضریب تعیین زیاد و خطای کم) شدند. ضریب تعیین برای هر دو مدل به ترتیب 99/0 و 97/0 که نشان دهنده دقت خوب هر دو الگوریتم است.
کلید واژگان: پیش بینی عیار، جنگل تصادفی، شورابه، ماشین بردار پشتیبانThe importance of potassium in agricultural products has increased the demand for potassium fertilizers. Potassium grade in aquifers ensures its extraction. The purpose of this research is to use RF and SVM algorithms in order to prioritize the effective parameters on the potassium grade of saline water groundwater in playa Khoor and Biabank in Isfahan province. For this purpose, 55 parameters were measured in 12 drilling holes.The parameters measured as independent variables include the percentage of saturated moisture, the apparent specific gravity and the porosity of the core at 15 different depths, the area polygon, the depth of the underground water, the depth of the salt layer, the potassium of the surface layer, the density of the brine and the amount of Elements of calcium, magnesium, sodium, chlorine and grade potassium were included in the model as dependent variables. In the RF model, the (PFI) and (RFE) were used for prioritization. In the different kernels of the SVM algorithm, in order to prevent the collinearity of the independent parameters, all the combinations of the independent variables, considering the variance inflation factor less than 8 and the highest coefficient of determination and the lowest MSE error, were examined and selected as the best combination. The effective parameters in predicting the grade potassium of the brine in the RF algorithm and the linear function of the SVM algorithm are sp, ap, duw, slp, SAR and n, sp, duw, and SAR respectively, which led to the best results. The coefficient of determination for both models is 0.99 and 0.97, respectively, which indicates the good accuracy of both algorithms.
Keywords: grade prediction, Random forest, Saline water, Support vector machine -
شبیه سازی فرآیند بارش-رواناب می تواند نقش بسزایی در مدیریت منابع آب و مسائل هیدرولوژی داشته باشد. در این تحقیق با استفاده از مدل های داده کاوی ماشین بردار پشتیبان (SVM) و جنگل تصادفی (RF) اقدام به مدل سازی بارش- رواناب دو ایستگاه بناب و خرمازرد به ترتیب واقع بر روی رودخانه های صوفی چای و ماهپری چای (دشت مراغه) شده است. در مطالعه حاضر داده های ایستگاه های هواشناسی و هیدرومتری منطقه از سال 1355 تا 1397 از شرکت آب منطقه ای و سازمان هواشناسی استان آذربایجان شرقی دریافت گردید. تغییر روند رواناب جاری در سال 1374، باعث گردید مدت مطالعه به دو دوره قبل و بعد آن تقسیم شود. مقدار بارش و رواناب با تاخیر زمانی یک ماه بعنوان ورودی به این مدل وارد و سپس مقادیر رواناب ماهانه مشاهداتی با رواناب ماهانه تخمین زده شده با استفاده از معیارهای ارزیابی خطا مورد بررسی گرفت. نتایج نشان داد که در هر دو دوره برای ایستگاه بناب مدل SVM کارآیی بالاتری نسبت به مدل RF داشت و در ایستگاه خرمازرد نیز برای این دو دوره، مدل RF عملکرد بهتری از مدل SVM ارائه کرد. نتایج مدل سازی در مجموعه تست در دو ایستگاه نشان داد که مقدار همبستگی متقابل برای دو دوره مطالعاتی اول و دوم ایستگاه بناب به ترتیب برابر با 85/0 و 84/0 و برای ایستگاه خرمازرد برابر با 79/0 و 75/0 بدست آمد. با توجه به نتایج مقادیر آماره من کندال و سری های زمانی برای هر دو ایستگاه، روند مشخصی برای بارش در طول دوره مشاهده نشد، ولی دبی رودخانه صوفی چای در ایستگاه بناب، بخصوص بعد از سال 1374 روند صعودی و دبی رودخانه ماهپری چای روند کاملا نزولی داشته است.
کلید واژگان: بارش- رواناب، جنگل تصادفی، دشت مراغه، صوفی چای، ماشین بردار پشتیبان، مدل سازیIntroductionWater plays a crucial role in ensuring the sustainable development of any region. Given that our country consists primarily of arid and semi-arid regions, where the majority of rivers are also found, along with the critical state of groundwater extraction and the growing importance of surface water, It is crucial to have a deep understanding of the future condition of water resources within the country's watersheds (Fathollahi et al., 2015). By utilizing intelligent models, it becomes feasible to represent the inherent relationships between data that cannot be solved by conventional mathematical methods. Support vector machine (SVM) and Random Forest algorithms are two types of machine learning methods that utilize essential algorithms for making repeated and accurate predictions (Kisi & Parmarm, 2016). The most recent study conducted by Zarei et al. (2022) evaluated the risk of flooding using data mining models of SVM and RF (case study: Frizi watershed). By analyzing the results, it was found that both the SVM algorithm and the new random forest algorithm showed higher accuracy in predicting flooding risks, both in terms of the educational data and algorithmic performance. The purpose of this study is to simulate the precipitation-runoff process in the hydrometric stations at the end of the Maragheh plain (Khormazard station on the Mahpari chai river and Bonab station on the Sufichai river) in East Azerbaijan province using support vector machine and random forest modeling algorithms. This study has been conducted over a period of 43 years, making it one of the few research cases in this area.
Materials and MethodsThe Maragheh Sufi chai basin is situated in the eastern region of Lake Urmia, within the East Azarbaijan province. It covers an area of 611.89 square kilometers and is located between longitudes 45° and 40´ to 46° and 25´and latitudes from 37° and 15´ to 37° and 55´ north. The average height of the basin is 1767 meters above sea level (Sharmod et al., 2015). Based on the substantial changes observed in the runoff trend in the data since 1994 (without any noticeable change in the precipitation trend), the available data was divided into two distinct periods. The first period spans from 1976 to 1994, and the second period covers the years 1995 to 2019. To simulate rainfall-runoff, first the average rainfall of Maragheh plain was calculated by polygonal method. Subsequently, this data was combined with the discharge output from Bonab and Khormazard stations, with a one-day time lag. These inputs were then utilized in two models, SVM (kernel function) and RF. For this purpose, 70% of the data was used for the training stage and 30% of the data was used for the validation stage. Then, the rainfall and runoff training sets from one day before were chosen as the predictor variables, while the runoff training set was designated as the target variable. Several combinations of runoff and rainfall inputs were evaluated for the purpose of modeling. The inputs consist of the monthly Q and P values that were recorded previously (Pt, Qt-1), while the output represents the current runoff data (Qt), with the subscript t indicating the time step. As a result, two input combinations were constructed from Q and P data (as seen in Table 3) and SVM and RF models were used for rainfall-runoff modeling to determine the optimal input combination.
Calculating average rainfall through the Thiessen Polygons method Thiessen polygons, which are Voronoi cells, are used to define rainfall polygons that correspond to the surface area (Ai). These polygons are used to weight the rainfall measured by each rain gauge (ri). Consequently, the area-weighted rainfall is equivalent to:
(1)
Random Forest Algorithm
Random forest is a modern type of tree-based methods that includes a multitude of classification and regression trees. This algorithm is one of the most widely used machine learning algorithms due to its simplicity and usability for both classification and regression tasks.
Support Vector Machine (SVM) algorithm
Support vector machines works like other artificial intelligence methods based on data mining algorithm. The most important functions of the support vector machine model are classification and linearization or data regression.
Evaluation Criteria
To evaluate the models and compare their effectiveness, this research employs metrics such as the root mean square error (RMSE), correlation coefficient (r), explanation coefficient (R2) and Nash-Sutcliffe efficiency coefficient (NS) are used. Below are the relationships among these criteria:
(2)
(3)
(4)
(5)Results and DiscussionFigure 6 displays the time series data for rainfall and runoff during the two study periods, before and after 1994.The analysis of the figures showed that for Bonab station, during the two study periods, the value of Kendall's statistic for precipitation variable was 0.044 and 0.028, respectively. For Khormazard station, this statistic value for the first and second period was 0.030, and 0.028, respectively. However, these values are not significant at the 95% level. This indicates that the annual rainfall for the two studied stations during these years is not statistically significant. Therefore, it is concluded that the annual rainfall in these stations between the years 1976 to 2019 did not show any significant trend. The variations observed during this period were deemed normal, suggesting that the time series of rainfall displayed fluctuating patterns. However, it should be noted that there were instances of both increasing and decreasing trends in certain years Examining the time series reveals varying trends Initially, the outflow from Bonab station (both a and b) displayed fluctuating patterns, followed by periods of both decreasing and increasing trends. However, in recent years, there has an increase in outflow from this station. The Mann-Kendall test statistic for the two study periods for this station is 0.325 and 0.512, respectively. These values are significantly different at the 95% level, indicating that the increasing trend of discharge for both time periods was statistically significant. The reason for this trend at the Bonab station, compared to other entrance stations to Lake Urmia, is the lower demand for water in the Sofichai basin for agricultural and industrial purposes, in contrast to other rivers. To explore the root cause of this issue, studies should be conducted to examine both underground and surface water sources, as well as the utilization of water in the agricultural and industrial sectors of this region. On the contrary, the trend observed at Khormazard station (c and d) is different. Unlike Bonab station, the discharge from Khormazard station exhibited a complete downward trend. The Mann-Kendall test statistic for the discharge variable during our two research periods were -0.269 and -0.412, respectively. At the 95% level, the decreasing trend of discharge in this station was found to be significant. On the other hand, it is apparent that the volume of discharge in this hydrometric station has decreased drastically since 1976 (d). Apart from 2007, when there was a sudden increase in discharge volume, the water inflow into lake Urmia has remained at its lowest level throughout the years. To analyze the Bonab and Khormazard stations during two distinct periods, rainfall and runoff statistics (average, minimum, maximum) for the first period (1976-1994) and the second period (1995-2019) are presented in Tables 4 and 5. Based on the data presented in both tables, the Bonab station displays the highest average rainfall and runoff values in the total data column, while the Khormazard station has the lowest average rainfall and runoff values.
As mentioned, in order to model rainfall-runoff data using SVM and RF models, a portion of the data was used for training purposes, while another portion was used for validation. Tables 5 and 6 present the values of the calculated statistical indicators associated with the results obtained from the training and validation sections for both SVM and RF models. According to the results of Tables 6 and 7, it is clear that in both study periods, the SVM model outperformed the RF model at the Bonab station. The SVM model demonstrated superior accuracy in simulating both flow rate and monthly rainfall. Conversely, at the Kharmazard station during these periods, the RF model displayed better performance compared to the SVM model. The modeling results in the test set for both stations revealed that the mutual correlation values for the first and second study periods at the Bonab station were 0.85 and 0.84, respectively. For the Kharmazard station, these values were 0.79 and 0.75, respectively.ConclusionThe results indicate that for both periods at the Bonab station, the SVM model exhibited higher efficiency compared to the RF model. Conversely, at the Khormazard station, the RF model outperformed the SVM model for both periods. Mutual correlation values for the test sets were 0.85 and 0.84 for the first and second study periods at the Bonab station, respectively, for the SVM model test set. For the Khormazard station, these values were 0.79 and 0.75, respectively, for the RF model test set. Other notable findings of this research include the analysis of the time series data for rainfall and runoff over 43 years. Graphs obtained for both stations, along with the Mann-Kendall statistic for precipitation and flow parameters, revealed no discernible trend in precipitation during the two study periods. Instead, precipitation in these areas displayed fluctuating patterns However, the analysis of the time series and statistical values for the discharge of Sofichai and Mahpari chai rivers at the Bonab and Khormazard stations showed different results. In the Bonab station, the discharge exhibited fluctuations, with an increase observed in the second period. Conversely, at the Khormazard station, the discharge trend was downward in both study periods. The volume of Mahpari chai River outflow notably decreased in recent years, as evidenced by the Mann-Kendall statistic showing a decreasing trend.
Keywords: Maragheh Plain, Modeling, Rainfall-Runoff, random forest, Sufi Chai, Support vector machine
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.