gaussian process regression
در نشریات گروه آب و خاک-
توزیع عمودی غلظت رسوبات معلق یکی از اساسی ترین پارامترها در هیدرولیک انتقال رسوبات در رودخانه ها محسوب می شود. این پارامتر نقش مهمی در محاسبه دبی کل رسوبات در کانال ها و رودخانه ها دارد. به همین دلیل اندازه گیری دقیق این پارامتر همواره یکی از اهداف پژوهشگران بوده است. یکی از راه های برآورد دقیق این پارامتر، استفاده از مدل های هوشمند است. برای این منظور، در این تحقیق برای پیش بینی توزیع غلظت رسوبات (C/Ca)، چهار مدل داده کاوی KNN، KNN-PSO، GPR، GPR-PSO استفاده شده است. تمامی مدل ها در محیط نرم افزار MATLAB کدنویسی شدند. با توجه به نتایج مشخص شد که بهینه سازی انجام شده بر روی مدل KNN و GPR تاثیر گذار بوده و سبب افزایش عملکرد (دقت) این مدل ها شده است. با مقایسه بین مدل ها، نشان داده شد که مدل GPR-PSO دقت بیشتری نسبت به سایر مدل ها دارد. دقت این مدل در مرحله آموزش برابر با 0297/0 = RMSE، 9878/0 = R2 و 9776/0 = KGE بوده و در مرحله آزمون برابر با 0226/0 = RMSE، 9907/0 = R2 و 9715/0 = KGE است. از لحاظ دقت، بعد از GPR-PSO، مدل KNN-PSO با 0295/0 = RMSE، 9870/0 = R2 و 9864/0 = KGE در مرحله آموزش و 0374/0 = RMSE، 9808/0 = R2 و 9569/0 = KGE در مرحله آزمون قرار گرفت. پس از مدل های یادشده، GPR و KNN قرار گرفتند. همچنین با تحلیل نتایج مشخص شد که دو پارامتر y/D و y/a، مهم ترین پارامترها در تعیین نتایج دقیق تر هستند.کلید واژگان: توزیع غلظت، رسوبات معلق، مدل های داده کاوی، رگرسیون فرآیند گاوسیThe vertical distribution of suspended sediment concentration (SSC) is one of the most important parameters in the hydraulics of sediment transport in rivers. This parameter plays an important role in calculating the total sediment discharge in channels and rivers. For this reason, accurate measurement of this parameter has always been one of the goals of researchers. One way to accurately predict this parameter is to use intelligent models. For this purpose, in this study, four data mining models, KNN, KNN-PSO, GPR, and GPR-PSO, have been used to predict the distribution of sediment concentration (C/Ca). All models were coded in the MATLAB software environment. According to the results, it was found that the optimization performed on the KNN and GPR models was effective and increased the performance of these models. By comparing the models, it was shown that the GPR-PSO model has more accuracy than other models. The accuracy of this model in the training phase is equal to RMSE = 0.0297, R2 = 0.9878, and KGE = 0.9776, and in the testing phase equal to RMSE = 0.0226, R2 = 0.9907, and KGE = 0.9715. After GPR-PSO, the KNN-PSO model was ranked with RMSE = 0.0295, R2 = 0.9870, and KGE = 0.9864 in the training phase and RMSE = 0.0374, R2 = 0.9808, and KGE = 0.9569 in the testing phase. After the aforementioned models, GPR and KNN were respectively ranked. Also, by analyzing the results, it was determined that the two parameters y/D and y/a are the most important parameters in determining the most accurate results.Keywords: Concentration Distribution, Suspended Sediments, Data Mining Models, Gaussian Process Regression
-
یکی از راه های جلوگیری از ایجاد فشار منفی و کاویتاسیون در سرریزها، هوادهی به جریان عبوری از سرریزها می باشد. شناخت نحوه توزیع تغییرات غلظت هوا در طول سرریز جهت تخمین میزان هوادهی از اهمیت زیادی برخوردار است. در پژوهش حاضر کاربرد روش های فرامدل رگرسیونی فرآیند گاوسی (GPR) و ماشین بردار پشتیبان (SVM) در پیش بینی غلظت هوا مورد بررسی قرار گرفت. بدین منظور مجموعه داده های آزمایشگاهی (2268) به دست آمده از مدل های هیدرولیکی سرریز شوت در فرآیند مدل سازی به کار گرفته شد. مدل های ورودی متنوعی بر اساس ترکیب مختلفی از پارامترهای اندازه گیری شده تعریف گردید. نتایج به دست آمده نشان دهنده توانایی بالای هر دو روش در برآورد غلظت هوای مورد نیاز بر روی سرریز است. در برآورد میزان غلظت هوا در سرریز شوت برای حالتی که هوادهی مصنوعی توسط هواده انجام می گیرد پارامترهای دبی جریان (QW)، نسبت فاصله طولی از انتهای دفلکتور به عرض کانال (L/W) و نسبت عمق (عمود بر سرریز) بر عرض کانال (Y/W) تاثیر زیادی داشتند. نتایج شاخص های آماری ضریب همبستگی (R)، ضریب تبیین (DC) و خطای جذر میانگین مربعات برای این حالت در روش GPR به ترتیب 9214/0، 8451/0 و 1008/0 و مقادیر 9333/0، 8662/0 و 0937/0 در روش SVM است. برای حالتی که هوادهی مصنوعی توسط هواده انجام نمی گیرد، مدل با پارامترهای ورودی Qw، L/W، Y/W و ΔP (اختلاف فشار ما بین فشار اتمسفر و فشار زیر جت) با دارا بودن مقادیر 9222/0=R، 8644/0=DC و 0914/0=RMSE در روش GPR و به ترتیب با مقادیر 87/0، 7543/0 و 123/0 به عنوان برترین مدل انتخاب گردیدند.کلید واژگان: رگرسیون فرآیند گاوسی، سرریز شوت، ماشین بردار پشتیبان، هوادهیOne of the ways to prevent creating negative pressure and cavitation in spillways is to introduce air into the flow over the spillways. Understanding the distribution of air concentration variations along the spillway is of significant importance for estimating the aeration level. This study explores the application of GPR and SVM molels in predicting air concentration. To achieve this, a dataset of 2268 laboratory experiments obtained from hydraulic models of chute spillways was utilized in the modeling process. Various input models were defined based on different combinations of measured parameters. The results demonstrate the high capability of both methods in estimating the required air concentration over the spillway. In predicting air concentration in the chute spillway under artificial aeration conditions, flow discharge (QW), longitudinal distance ratio from the end of the deflector to the channel width (L/W), and depth ratio (perpendicular to the spillway) to channel width (Y/W) significantly influenced the outcomes. Statistical indices, including R, DC, and RMSE for this case were 0.9214, 0.8451, and 1.008, respectively, in the GPR, and 0.9333, 0.8662, and 0.937 in the SVM. For scenarios without artificial aeration, the model with input parameters QW, L/W, Y/W, and ΔP (pressure difference between atmospheric pressure and the pressure under the jet) achieved the best performance in the GPR method with values of R=0.9222, DC=0.8644, and RMSE=0.914. In the SVM, the same model with values of 0.87, 0.7543, and 0.123 for R, DC, and RMSE, respectively, was selected as the superior model.Keywords: Aeration, Chute Spillway, Gaussian Process Regression, Support Vector Machine
-
تبخیر یکی از عوامل اثرگذار در چرخه هیدرولوژیکی است که تخمین صحیح آن نقش مهمی در توسعه پایدار و مدیریت بهینه منابع آب در کشورهای مواجه با بحران آب ایفا می کند. هدف از این پژوهش، ارزیابی عملکرد روش های داده کاوی جهت برآورد تبخیر روزانه از تشت کلاس A در ایستگاه تبریز می باشد. در این پژوهش از داده های هواشناسی روزانه ایستگاه تبریز در طی دوره 16 ساله (2018- 2003) استفاده گردید. برآورد میزان تبخیر از تشت کلاس Aبا استفاده از روش های رگرسیون بردار پشتیبان (SVR)، رگرسیون فرآیند گاوسی (GPR)، مدل درختی M5، جنگل تصادفی (RF) و رگرسیون خطی (LR) انجام گرفت. 10 سناریو ترکیبی بر اساس همبستگی بین متغیرهای هواشناسی و تبخیر برای واسنجی و صحتسنجی روش های مورد مطالعه مدنظر قرار گرفت. نتایج بررسی های آماری نشان داد که در ایستگاه تبریز، مقادیر تخمینی تبخیر روش GPR با جذر میانگین مربعات خطای برابر با 9/1 میلی متر بر روز و ضریب نش- ساتکلیف برابر با 81/0 و در روش SVR با جذر میانگین مربعات خطای برابر با 92/1 میلی متر بر روز و ضریب نش- ساتکلیف 80/0، از عملکرد مناسبی در شبیه سازی مقدار تبخیر روزانه از تشت کلاس Aبرخوردار بوده اند. در نهایت برای ایستگاه هواشناسی تبریز، مدل های GPR و SVR برای سناریو شماره 10 با همه متغیرها و دارا بودن بهترین عملکرد، به عنوان مدل هایی با دقت مناسب پیشنهاد گردید. همچنین متغیرهای سرعت باد و تابش خورشیدی به عنوان موثرترین متغیرها در برآورد میزان تبخیر از تشت کلاس A معرفی شدند.
کلید واژگان: تبخیر، جنگل تصادفی، رگرسیون بردار پشتیبان، رگرسیون خطی، رگرسیون فرآیند گاوسیBackground and ObjectivesEvaporation is one of the main components of hydrological cycle and one of the effective climatic variables in arid areas such as Iran. Accurate estimate of evaporation rate plays an important role in sustainable development and optimal management of water resources. Evaporation is one of the essential processes, because it depends on meteorological variables such as solar radiation, air temperature, wind speed, relative humidity and atmospheric pressure, which are related to the topography and the climate of the region. Class A pan-evaporation is one of the standard and direct tools for measuring evaporation, which is used all over the world due to its ease of application in determining evaporation. However, in most stations accurate evaporation recording is not practical due to instrument limitations and maintenance problems. On the other hand, the temporal and spatial distribution of evaporation stations compared to meteorological stations is limited, so according to the problems mentioned, the use of meteorological variables in estimating the rate of evaporation from the pan will be useful. In different regions, the impact of different climatic factors on changes evaporation from the pan has not be fully understood, so the relatively accurate estimation and prediction of this phenomenon is an effective step in the relevant fields. In recent years, for estimating the amount of evaporation from the pan, a variety of intelligent systems and software calculations such as data mining methods have been developed.
MethodologyIn this study, meteorological data of Tabriz station in the period of 2003 to 2018 have been used to estimate the evaporation values from the class A pan. For this purpose, a simple correlation between meteorological variables and evaporation from class A pan was created and based on the result of this correlation, in the studied station the minimum temperature and relative humidity were inversely and the maximum and average temperature were directly affected by evaporation. Thus, ten combined scenarios were defined and modeling was performed using Support vector regression (SVR), Gaussian process regression (GPR), M5tree, Random forest (RF) and Linear regression (LR) methods. It should be noted that in this study, 70% of the data were selected for training and 30% for testing. Finally, the performance of each method in estimating evaporation values was evaluated using root mean squared error (RMSE), mean absolute error (MAE), Nash- Sutcliffe coefficient (NS) and Akaike information criterion (AIC).
FindingsThe results showed that GPR10 method with RMSE = 1.90 mm/day, MAE = 1.48, NS = 0.81 and SVR10 method with RMSE = 1.92 mm/day, MAE = 1.51, NS = 0.8 had reasonable performance in estimating the values of daily evaporation from class A pan. The GPR method showed its higher capability to estimate daily evaporation values in all definition scenarios with the least error and the most accuracy. The SVR model with appropriate results was in the second place. The results of statistical parameters for random forest model were even weaker than the results of linear regression. In general, scenario number 10 with all meteorological variables and scenario number 1 with only the input minimum temperature variable had the best and weakest results among all defined scenarios, respectively. Scenarios 6 to 10 have more accuracy and less error and modeling structures with the least number of variables has the least accuracy. Also, wind speed and solar radiation variables were introduced as the most effective factors in estimating the evaporation rate from class A pan.
ConclusionEvaporation is one of the important processes that cause the losses of half of precipitation in arid and semi- arid regions. Accordingly, knowledge of the amount of evaporation and its modeling as one of the most important hydrological variables in agricultural research and factors related to water and soil of great importance. So, accurate estimation of this phenomenon is essential. In this study, meteorological data from Tabriz station were utilized to assessment capability of machine learning methods. Evaporation values were estimated using five data mining methods including SVR, GPR, M5, RF and LR. Conclusively, the results of evaluation criteria indicated that GPR and SVR models using all variable of meteorological data performed more accurate than others. Finally, both of them are recommended to estimate the amount of evaporation from class A pan.
Keywords: Evaporation, Gaussian process regression, Linear Regression, Random forest, Support Vector Regression -
پیش بینی کیفیت آب نقش مهمی در پایش زیست -محیطی، پایداری اکوسیستم و آبزی پروری ایفا می کند. روش های پیش بینی سنتی نمی توانند غیر خطی و غیر ثابت بودن کیفیت آب را به خوبی نشان دهند. در مطالعه حاضر پارامتر کیفی اکسیژن محلول در آب با استفاده از روش های هوشمند ماشین بردار پشتیبان (SVM)، رگرسیون فرآیند گاوسی (GPR) و روش حافظه طولانی کوتاه-مدت (LSTM) بر روی سه ایستگاه متوالی بر روی رودخانه ساواناه واقع در ایالات متحده آمریکا مدل سازی شد. بدین منظور شش پارامتر هیدرولیکی و هیدرولوژیکی جریان شامل دمای آب، کدورت، دبی، میانگین سرعت جریان، pH و رسانایی ویژه در مدت هفت سال (2015-2021) به صورت روزانه به عنوان پارامترهای ورودی، جهت مدل سازی اکسیژن محلول به کار گرفته شدند. نتایج نشان دهنده برتری کامل روش یادگیری عمیق بر روش های یادگیری ماشین بود. با توجه به نتایج بدست آمده روش حافظه طولانی کوتاه-مدت برای مدل آخر که شامل تمامی پارامترها بود در ایستگاه سوم با دارا بودن ضریب همبستگی و ضریب تبیین و جذر میانگین مربعات خطا به ترتیب 981/0R= و 956/0DC= و 034/0RMSE= برای داده های آزمون از عملکرد بهتری برخوردار بود. در نهایت با انجام تحلیل حساسیت، با حذف پارامتر دمای آب، مشخص گردید معیارهای ارزیابی DC، به میزان 14% کاهش و RMSE، به میزان 100% افزایش داشت. بنابراین دمای آب به عنوان تاثیرگذارترین پارامتر در پیش بینی اکسیژن محلول در آب معرفی شد.کلید واژگان: پارامتر اکسیژن محلول، حافظه طولانی کوتاه-مدت، رگرسیون فرآیند گاوسی، کیفیت آب، ماشین بردار پشتیبانWater quality forecasting plays an important role in environmental monitoring, ecosystem sustainability and aquaculture. Traditional forecasting methods cannot show the non-linearity and instability of water quality well. In the present study, the water quality parameter of dissolved oxygen was modeled using intelligent Support Vector Machine (SVM), Gaussian Process Regression (GPR) and Long Short-Term Memory (LSTM) methods on three consecutive stations on Savanah River located in USA. For this purpose, six different flow hydraulic and hydrological parameters including water temperature, turbidity, discharge, mean water velocity, pH and specific conductivity were used daily for seven years (2021-2015) as input parameters to model dissolved oxygen. The results showed the complete superiority of the deep learning method over the machine learning methods. According to the results, the long short-term memory method for the last model, which included all parameters, in the third station with correlation coefficient, coefficient of determination and root mean square error, respectively R = 0.981, DC = 0.956 and RMSE = 0.034 for test data performed better. Finally, by performing sensitivity analysis, by removing the water temperature parameter, it was found that DC evaluation criteria decreased by 14% and RMSE increased by 100%. Therefore, water temperature was introduced as the most influential parameter in predicting dissolved oxygen in water.Keywords: Dissolved Oxygen parameter, Long Short-Term Memory, Water quality, Support vector machine, Gaussian process regression
-
در مهندسی هیدرولیک و رودخانه، بارهای جامد رسوبی نقش اساسی را در تعیین رفتار رودخانه و کنترل مورفولوژی دارند؛ به همین دلیل ارزیابی و برآورد صحیح انتقال بار جامد رسوبی از دیرباز یکی از مسایل عمده و اصلی در علوم مرتبط با مهندسی رودخانه و محیط زیست می باشد. هدف از این تحقیق برآورد میزان انتقال بار بستر در 19 رودخانه با بستر شنی می باشد. بدین منظور، ابتدا روند همبستگی آماری بین پارامتر انتقال رسوب (دبی بار بستر) و پارامترهای هیدرولیکی و رسوبی (دبی جریان، عمق جریان، سرعت متوسط جریان، قطر متوسط ذرات رسوب، عدد فرود و...) بررسی شده و دبی بار بستر به صورت تابع رگرسیونی تک متغیره برآورد می شود. مطابق نتایج ارایه شده به یک همبستگی مطلوبی بین پارامتر انتقال رسوب و پارامترهای هیدرولیکی و رسوبی رسیده شد و نتایج نشان داد این روابط رگرسیون ساده در اکثر رودخانه ها از دقت قابل قبولی برخوردار بوده است. ثانیا، عملکرد 10 رابطه تجربی در پیش بینی بار بستر مورد بررسی قرار گرفت. همه فرمول ها از نتایج خیلی ضعیفی برخوردار بوده اند؛ به همین دلیل پارامترهای مربوط به فرمول هایی که نتایج نسبتا بهتری نسبت به فرمول های دیگر داشته اند، انتخاب شده و به منظور افزایش دقت برآورد، بار دیگر با استفاده از دو روش یادگیری ماشین مبتنی بر کرنل: ماشین بردار پشتیبان (SVM)، رگرسیون فرآیند گاوسی (GPR) مدل سازی انجام شد. نتایج حاصله نشان داد روش های ماشینی از دقت قابل قبولی در پیش بینی بار بستر برخوردار بوده اند و مدل مربوط به پارامترهای فرمول بگنولد که شامل پارامترهای قدرت جریان، عمق جریان و قطر متوسط ذرات رسوب می باشد، با دارا بودن ضریب همبستگی و شاخص نش - ساتکلیف به ترتیب برابر 923/0R= و 851/0 NSE=برترین مدل حاصل از روش های ماشینی می باشد.
کلید واژگان: پیش بینی رسوب، همبستگی آماری، روابط تجربی، ماشین بردار پشتیبان، رگرسیون فرآیند گاوسیIn hydraulic and river engineering, solid load sediment play an essential role in determining river behavior and morphological control; For this reason, the assessment and correct estimation of solid load sediment transfport from a long time ago is one of the important issues in the sciences related to river engineering and the environment. The purpose of this study is to estimate the bed load transfer in 19 gravel-bed rivers. For this purpose, first the statistical correlation trend between sediment transport parameter (bed load discharge) and hydraulic and sedimentary parameters (flow discharge, flow depth, flow velocity, the median bed material particle diameter, Froude number,…) is investigated and the bed load discharge is estimated as a univariate regression function. According to the presented results, a favorable correlation was reached between the sediment transport parameter and hydraulic and sedimentary parameters and the results showed that these simple regression relationships in most rivers had acceptable accuracy. Also, the performance of 10 experimental formulas in bed load prediction was investigated. All formulas have had very poor results. For this reason, the parameters related to the formulas that had relatively better results than the other formulas were selected and, in order to increase the estimation accuracy, once again using two kernel-based machine learning methods Support Vector Machine (SVM). Gaussian process regression (GPR) modeling was performed. The results showed that the machine methods have acceptable accuracy in predicting the bed load and the model is related to the parameters of Begnold formula, which includes the parameters of the stream power, the average flow depth and the median bed material particle diameter, with R =0.923 and NSE =0.851 has the best results in the machine methods.
Keywords: Sediment Prediction, Statistical Correlation, Experimental Formula, Support vector machine, Gaussian process regression -
تبخیر به عنوان یک عامل کلیدی در مطالعات هیدرولوژیکی، آب و هوایی، مدیریت آب کشاورزی، برنامه ریزی آبیاری و غیره در نظر گرفته می شود. تبخیر به دلیل فعل و انفعالات عوامل مختلف آب و هوایی، یک پدیده پیچیده و غیرخطی است. بنابراین، برای تخمین تبخیر باید از مدل های پیشرفته مانند معادلات تجربی و هوش مصنوعی استفاده کرد. در سال های اخیر، معادلات تجربی به طور گسترده برای تخمین تبخیر استفاده شده است. در این تحقیق عملکرد مدل های رگرسیون فرایند گاوسی (GPR) و رگرسیون ماشین بردار پشتیبان (SVR) در تخمین تبخیر روزانه دو ایستگاه آمل و بم، در بازه زمانی 2020- 2016 ارزیابی شده است. داده های روزانه هواشناسی میانگین دما، رطوبت نسبی، ساعات آفتابی و سرعت باد، به عنوان ورودی مدل های GPR و SVR برای تخمین تبخیر روزانه استفاده شد. در مطالعه حاضر چهار سناریو ترکیبی از پارامترهای هواشناسی به منظور تخمین تبخیر بکار گرفته شدند. نتایج حاصل از مدل های مذکور نشان داد که هر دو مدل GPR و SVR عملکرد قابل قبولی در تخمین تبخیر دارند (ضریب همبستگی حدود 94/0). همچنین با توجه به ارزیابی های انجام شده، مشخص شد که مدل GPR عملکرد بهتری نسبت به مدل SVR داشته است (جذر میانگین مربعات خطا به ترتیب 56/1 و 62/1). در تحقیق حاضر از کرنل PUK به دلیل داشتن دقت بالا، بیشترین ضریب همبستگی و کمترین خطا (94/0 و 84/0) استفاده گردید.
کلید واژگان: تخمین تبخیر، رگرسیون فرایند گاوسی، رگرسیون ماشین بردار پشتیبان، آمل، بمEvaporation is considered as a key factor in hydrological, climatic, agricultural water management, irrigation planning, etc. studies. Evaporation is a complex and nonlinear phenomenon due to the interactions of various climatic factors. Therefore, advanced models such as experimental equations and artificial intelligence should be used to estimate evaporation. In recent years, experimental equations have been widely used to estimate evaporation. In this study, the performance of Gaussian process regression (GPR) and support vector machine regression (SVR) models in estimating the daily evaporation of Amol and Bam stations in the period 2020-2016 has been evaluated.Daily meteorological data on mean temperature, relative humidity, sunshine hours and wind speed were used as input of GPR and SVR models to estimate daily evaporation. In the present study, four combined scenarios of meteorological parameters were used to estimate evaporation. The results of the mentioned models showed that both GPR and SVR models have acceptable performance in estimating evaporation (correlation coefficient about 0.94). Also, according to the evaluations, it was found that the GPR model had a better performance than the SVR model (root mean square error of 1.56 and 1.62, respectively). In the present study, the PUK kernel was used due to its high accuracy, highest correlation coefficient and lowest error (0.94 and 0.84).
Keywords: Evaporation estimation, Gaussian process regression, Support vector machine regression, Amol, Bam -
پیش بینی دبی رسوبی با دقت بالاتر، از مهم ترین مولفه های فرآیندهای هیدرولوژیکی در مدیریت منابع آب می باشد. به دلیل پیچیدگی پدیده انتقال رسوب و وجود چندین پارامتر موثر در تخمین آن، تعیین روابط حاکم مشکل می باشد. این تحقیق به منظور ارایه مدل بهینه برآورد بار رسوب معلق در دو ایستگاه هیدرومتری متوالی یک رودخانه طبیعی انجام گرفته است. در این راستا، جهت کاهش مقدار خطا در پیش بینی دبی رسوبی از روش های پیش پردازش سری زمانی به همراه روش های هوشمند مبتنی بر کرنل ماشین بردار پشتیبان (SVM) و رگرسیون فرآیند گاوسی (GPR) استفاده شده است. دو سناریو بررسی دبی رسوب معلق برای حالت تک ایستگاهی و ارتباط بین ایستگاهی در نظر رفته شد و مدل های متفاوتی بر اساس مشخصات هیدرولیکی و ذرات رسوبی تعریف گردید و مورد ارزیابی قرار گرفت. در استفاده از روش های پیش پردازش، ابتدا روش تبدیل موجک (WT) به کار رفت، سپس زیر سری های با فرکانس بالای بدست آمده از روش WT با روش تجزیه مد تجربی (EMD) دوباره تجزیه گردیدند. در نهایت زیر سری های تاثیرگذار به عنوان ورودی مدل های مبتنی بر کرنل استفاده شدند. نتایج حاصل از تحلیل مدل های تعریف شده، دقت بالای روش های تلفیقی به کار رفته در تحقیق را در تخمین رسوب معلق به خوبی نشان داد. نتایج نشان داد که در حالت اول، مقدار معیار خطا برای مدل برتر به ترتیب از 0.035 و 0.037 برای روش های GPR و SVM به 0.28 و 0.29 برای مدل های تلفیقی کاهش یافت. به طور کلی، مدل های ترکیبی دقت مدل سازی را بین 20 تا 25 درصد افزایش دادند. جهت ارزیابی قابلیت اطمینان مدل برتر، از تحلیل عدم قطعیت مونت کارلو استفاده شد و نتایج نشان داد که مدل GPR دارای درجه عدم اطمینان مطلوبی در مدل سازی است.
کلید واژگان: پیش پردازش، تجزیه مد تجربی، رگرسیون فرآیند گاوسی، رسوب معلقIntroductionSediment transportation and accurate estimation of its rate is a significant issue for river engineers and researchers. So far, various and complex relationships have been proposed to predict the amount of suspended sediment transport rate, such as velocity and critical shear stress based equations. However, the complex nature of sediment transport and lack of validated models make it difficult to model the suspended sediment concentration and suspended sediment discharge carried by rivers. Although the developed models led to promising results in sediment transport prediction, due to the importance of sediment transport and its impact on hydraulic structures it is necessary to use other methods with higher efficiency. On the other hand, in recent years, the Meta model approaches have been applied in investigating the hydraulic and hydrologic complex phenomena. Hybrid models involving signal decomposition have also been shown to be effective in improving the prediction accuracy of time series prediction methods, as indicated in. Complementary Ensemble Empirical Mode Decomposition analysis is one of the widely used signal decomposition methods for hydrological time series prediction. Decomposition of time series reduces the difficulty of forecasting, thereby improving forecasting accuracy.In this study, due to the complexity of the sediment and erosion phenomenon and the effect of different parameters in estimating, time series pre-processing methods along with support vector machine (SVM) and Gaussian process regression (GPR) kernel based approaches were used to estimate suspended sediment load of a natural river at two consecutive hydrometric stations. For this purpose, different models were defined based on hydraulic and sediment particles characteristics. Moreover, the capability of integrated pre-processing and post-processing methods in two states of inter-station and between-stations was investigated. First, the Wavelet Transform (WT) method was used for data pre-processing then, the high-frequency sub-series were selected and re-decomposed using the Empirical Mode Decomposition (EMD). Finally, the most effective sub-series were imposed as inputs for kernel-based models. In addition, to assess the reliability of the superior model, Monte Carlo uncertainty analysis was used.The results showed that the GPR model had a desirable degree of uncertainty in modeling.
Materials and MethodsIn this study, data of two stations of Housatonic River was used. The distance between stations was approximately 50 km. The first station is located near Great Brighton, Massachusetts, and the second station is in Connecticut. The basin area for the stations is 282 and 634 square miles, respectively. The flow path is from the first station to the second station. SVM and GPR models are based on the assumption that adjacent observations should convey information about each other. Gaussian processes are a way of specifying a prior directly over function space. This is a natural generalization of the Gaussian distribution whose mean and covariance are a vector and matrix, respectively. Due to prior knowledge about the data and functional dependencies, no validation process is required for generalization, and GP regression models are able to understand the predictive distribution corresponding to the test input. Wavelet Transform (WT) uses a flexible window function (mother wavelet) in signal processing. The flexible window function can be changed over time according to the signal shape and compactness. After using WT, the signal will decompose into two approximations (large-scale or low-frequency component) and detailed (small-scale component) components. EEMD was proposed to solve the mode mixing issue of empirical mode decomposition (EMD) which specifies the true IMF as the mean of an ensemble of trials. Each trial consists of the decomposition results of the signal plus a white noise of finite amplitude. EMD can be used to decompose any complex signal into finite intrinsic mode functions and a residue, resulting in subtasks with simpler frequency components and stronger correlations that are easier to analyze and forecast. Another important feature of empirical model of decomposition is that it can be used for noise reduction of noisy time series, which can be effective in improving the accuracy of model predictions. In the uncertainty analysis method, two elements are used to test the robustness and to analyze the models uncertainty. The first one is the percentage of the studied outputs which are in the range of 95PPU and the next one is the average distance between the upper (XU) and lower (XL) uncertainty bands. In this regard, the considered model should be run many times (1000 times in this study), and the empirical cumulative distribution probability of the models be calculated. The upper and lower bands are considered 2.5% and 97.5% probabilities of the cumulative distribution, respectively.
Results and DiscussionIn order to evaluate and review the performance of the tested models and determine the accuracy of the selected models, three performance criteria named Correlation Coefficient (CC), Determination Coefficient (DC), and Root Mean Square Errors (RSME) were used. The obtained results indicated that the accuracy of the applied integrated models was higher than the single SVM and GPR models. The use of integrated methods decreased the error criteria between 20 to 25 %. The obtained results for the uncertainty analysis showed that in suspended sediment load modeling the observed and predicted values were within the 95 PPU band in most of the cases. Moreover, it was found that the amount of d-Factors for train and test datasets were smaller than the standard deviation of the observed data. Therefore, based on the results, it could be induced that the suspended sediment modeling via integrated WT-EEMD-GPR model led to an allowable degree of uncertainty.
ConclusionComparison of the developed models’ accuracy revealed that integrated GPR and SVM models had higher performance compared with single GPR and SVM models in predicting the suspended sediment discharge. The use of these two methods approximately decreased the error criteria between 20 to 25 %. According to the results, for the models that were developed based on the station data, the model with the input parameters of Dwt, Dwt-1, and Dst-1 and in the case of investigating the relationship between the stations, the model with the input parameters of Dst-2, Dwt-1, and Dst-1 were superior models. Also, based on the uncertainty analysis, the integrated GPR model had an allowable degree of uncertainty in suspended sediment modeling. However, it should be noted that the used methods are data sensitive models. Therefore, further studies using data ranges out of this study and field data should be carried out to determine the merits of the models to estimate suspended sediment load in the real conditions of flow.
Keywords: Experimental mode decomposition, Gaussian process regression, Pre-processing, Suspended sediment -
تخمین ضریب دبی جریان در دریچه ها از جمله مسایل اساسی در علوم مربوط به مهندسی آب می باشد. در سال های اخیر روابط نیمه تجربی مختلفی به منظور تخمین ضریب دبی دریچه های قطاعی توسعه داده شده که کاربرد این روابط در شرایط جریان مستغرق با خطاهای بزرگی همراه بوده است. هدف از تحقیق حاضر استفاده از روش های قدرتمند رگرسیون فرایند گاوسی (GPR) و ماشین بردار پشتیبان (SVM) به منظور تخمین ضریب دبی دریچه های قطاعی در شرایط جریان مستغرق و مقایسه نتایج حاصل با روش های نیمه تجربی مرسوم می باشد. بدین منظور مجموعه ی وسیعی شامل 2136 داده آزمایشگاهی مورد استفاده قرار گرفته و پس از تعریف پارامترهای بدون بعد مختلف، عملکرد روش های مذکور مورد ارزیابی قرار گرفت. نتایج به دست آمده کارآیی بالای روش های به کار گرفته شده را نسبت به روش های تجربی به خوبی نشان داد. بررسی مدل های مختلف نشان داد رگرسیون فرآیند گاوسی به همراه پارامترهای ورودی y0-yt/w و yt/w با دارا بودن مقادیر R=0.983، NSE=0.967 و RMSE=0.027 عملکرد بهتری نسبت به ماشین بردار پشتیبان و سایر روش های نمیه تجربی در تخمین ضریب دبی دیچه های قطاعی در شرایط جریان مستغرق دارا می باشد.کلید واژگان: شرایط جریان، دقت برآورد، ماشین بردار پشتیبان، رگرسیون فرایند گاوسیPrediction of flow discharge coefficient of gates is one of the essential issues in water engineering sciences. In recent years, various semi-empirical equations have been developed in order to predict the discharge coefficient of radial gates that the application of these formulas under submerged flow conditions suffered from large errors. The aim of present study is to apply robust Gaussian Process Regression (GPR) and Support Vector Machine (SVM) to predict discharge coefficient of radial gates under submerged flow conditions and compare the obtained results with well-known semi-empirical approaches. For this purpose, an extensive experimental dataset comprises 2136 data points were used to feed the utilized methods. Different combinations of dimensionless parameters were prepared and the performance of aforementioned methods were assessed. The obtained results showed that GPR method with input parameters of y0-yt/w and yt/w yields a correlation coefficient (R) of 0.983, a Nash- Sutcliffe efficiency (NSE) of 0.967 and root mean squared error (RMSE) of 0.027 and indicated superior performance compared with employed SVM and other semi-empirical approaches.Keywords: Flow conditions, Prediction accuracy, Gaussian Process Regression, Support Vector Machine
-
پیش بینی دقیق دبی در رودخانه ها، از مهم ترین مولفه های فرآیندهای هیدرولوژیکی و هیدرولیکی در مدیریت منابع آب، به ویژه در اتخاذ تدابیر مناسب در مواقع خشکسالی و بروز سیلاب است. در این تحقیق از تابع موجک و تجزیه مد تجربی یکپارچه که از ابزارهای محاسبات نرم محسوب می شوند، جهت استخراج ویژگی های سری زمانی استفاده گردیده و کارایی مدل های موجک- گوسین (DWT- GPR) و تجزیه مد تجربی یکپارچه- گوسین (EEMD- GPR) برای پیش بینی دبی بین سه ایستگاه متوالی رودخانه هوستونیک، واقع در آمریکا مورد بررسی قرار گرفته است. برای این منظور در گام اول، مقدار دبی ایستگاه پایین دست، توسط ایستگاه های بالادست با استفاده از مدل رگرسیون فرایند گاوسی پیش بینی شده است. سپس سری های زمانی دبی و اشل توسط تبدیل موجک و تجزیه مد تجربی یکپارچه به زیرسری هایی تجزیه گشته و این زیرسری ها جهت شبیه سازی رابطه دبی- اشل وارد مدل رگرسیون فرایند گاوسی شدند. همچنین تاثیر هر یک از زیرسری های روش تجزیه مد تجربی یکپارچه (Residual and IMFs) در نتایج پیش بینی، بررسی گردید. مشاهده گردید که ناکارآمدترین زیرسری در تجزیه مد تجربی یکپارجه، زیرسری باقیمانده (Residual) می باشد. نتایچ حاکی از آن است که روش های ترکیبی موجک (DWT- GPR) و تجزیه مد تجربی یکپارچه (EEMD- GPR) تا حدود زیادی باعث بهبود نتایج گردیدند. به عنوان نمونه،برای مرحله آزمون مدل برتر پیش بینی دبی ایستگاه دوم، مدل تلفیقی تجزیه مد تجربی یکپارچه- گوسین 74/0DC= را به 80/0DC= و مدل تلفیقی موجک- گوسین 74/0DC= را به 83/0DC= ارتقاء داد.
کلید واژگان: دبی رودخانه، تجزیه مد تجربی یکپارچه، تبدیل موجک گسسته، رگرسیون فرایند گاوسی، ایستگاه های متوالیAccurate forecasting of river flow is one of the most important factors in surface water resources management, especially during flood and drought periods. In this research, the wavelet function and the ensemble empirical mode decomposition (EEMD), which are considered as soft computing tools, were used to derive the time series features, and the efficiency of the wavelet- Gaussian and the ensemble empirical mode decomposition-Gaussian models for predicting the discharge between the three consecutive stations located in the Housatonic river have been investigated. For this purpose, in the first step, the discharge of downstream stations is predicted by upstream stations using the Gaussian process regression model. Then, the discharge-stage time series was broken up by wavelet transform and ensemble empirical mode decomposition into cages, and these subclasses were introduced into the Gaussian process regression modeling to simulate the discharge-stage relationship. Also, the effect of each of the sub-series of ensemble empirical mode decomposition model (Residual and IMFs) was studied to improve predictive outcomes. It was observed that the most inefficient subseries in the ensemble empirical mode decomposition model is the residual subseries. The results indicate that wavelet compound techniques (DWT-GPR) and ensemble empirical mode decomposition (EEMD-GPR) have improved the results to a certain extent. As an example, for the test stage, the best prediction model of the second station, the combined model of ensemble empirical mode decomposition-Gaussian upgraded determination coefficient (DC) from 0.74 to 0.80 and the combined model of wavelet-Gaussian upgraded DC from 0.74 to 0.83.
Keywords: discharge, Ensemble empirical mode decomposition, Discrete Wavelet Transform, Gaussian process regression, Sequential stations -
انجام مطالعات فراوان در رابطه با انتقال رسوب و به ویژه پیش بینی این پدیده نشانگر اهمیت بسیار بالای آن در علوم مرتبط با مهندسی و مدیریت منابع آب می باشد. در این بین روش های هوشمند در سال های اخیر به طور موفقیت آمیزی در پیش بینی بار بستر، بار معلق و همچنین بار کل رسوب به کار گرفته شده است. با این حال با توجه به کمبود داده های مرتبط به بار کل برای رودخانه های با بستر شنی، مطالعات انجام گرفته در این راستا محدود می باشد. هدف از تحقیق حاضر استفاده از روش های قدرتمند ماشین بردار پشتیبان، شبکه عصبی مصنوعی و رگرسیون فرآیند گاوسی به منظور پیش بینی بار کل رسوب در 19 رودخانه شنی واقع در ایالات متحده آمریکا و مقایسه نتایج حاصل با روش های کلاسیک مرسوم می باشد. بدین منظور پارامترهای بدون بعد مختلفی مبتنی بر هیدرولیک جریان و مشخصات رسوب تعریف و عملکرد روش های مذکور مورد ارزیابی قرار گرفت. با توجه به نتایج به دست آمده شبکه عصبی مصنوعی با دارا بودن ضریب همبستگی و معیار ناش- ساتکیف به ترتیب برابر با 952/0 R= و 903/0 NSE= برای داده های صحت سنجی از عملکرد بهتری نسبت به دو روش دیگر برخوردار می باشد. در نهایت با انجام تحلیل حساسیت، پارامتر نسبت سرعت متوسط به سرعت برشی جریان به عنوان تاثیرگذارترین پارامتر در پیش بینی بار کل رسوب معرفی شد.کلید واژگان: بار کل رسوبی، رودخانه های شنی، ماشین بردار پشتیبان، شبکه عصبی مصنوعی، رگرسیون فرآیند گاوسیNumerous studies on sediment transport, especially prediction of this phenomenon, indicate its high importance in the sciences related to engineering and water resources management. In recent years, intelligent methods have been applied successfully to predict bed, suspended and total sediment load. However, due to the lack of measured data, limited researches have been done to deal with prediction of total load in gravel-bed rivers. The aim of this study is to apply Support Vector Machine (SVM), Artificial Neural Network (ANN) and Gaussian Process Regression (GPR) to predict total sediment load for 19 gravel-bed rivers and to compare the obtained results with well- known classic methods. For this purpose, different non-dimensional parameters based on hydraulic condition and sediment characteristics were defined and the performance of these methods was evaluated. According to the obtained results, the ANN model with correlation coefficient of R =0.952 and Nash–Sutcliffe efficiency (NSE=0.903) showed a better performance as compared to the other methods. Finally, by performing sensitivity analysis, the ratio of mean flow to shear velocity was introduced as the most effective parameter in predicting total sediment load.Keywords: Total load, Gravel-bed rivers, Support vector machine, Artificial neural network, Gaussian process regression
-
بارش همواره از مهم ترین اجزاء چرخه آب شناخته شده است و نقش بسیار مهمی در تامین منابع آبی مورد نیاز دارد؛ از این رو پیش آگاهی از میزان بارش در برنامه ریزی مدیریت منابع آب تاثیر بسزایی دارد. در این تحقیق میزان کارایی روش های رگرسیون بردار پشتیبان و رگرسیون فرآیند گاوسی در پیش بینی بارش ماهانه شهر مشهد با استفاده از پارامترهای هواشناسی مختلف بررسی شد و نتایج نشان داد بهترین ترکیب پارامتر ورودی شامل شاخص ماهانه، میانگین رطوبت نسبی، میانگین بیشینه رطوبت نسبی، اختلاف میانگین دمای کمینه و بیشینه و بارش در ماه قبل بود. مدل ها توسط آماره های ضریب همبستگی، ریشه میانگین مربعات خطا و میانگین خطای مطلق ارزیابی شدند. نتایج نشان دهنده کارایی بالای هر دو روش بررسی شده در این زمینه و برتری نسبی روش رگرسیون فرآیند گاوسی با ارائه مقادیر (87 /0= R، 74 /0=N_S، (mm) 37 /12=RMSE و (mm) 85 /7=MAE) بود. با بررسی نمودار سری زمانی مقادیر محاسباتی و مشاهداتی بارش ماهانه مشهد مشاهده شد که روش رگرسیون فرآیند گاوسی توانایی بیشتری در پیش بینی مقادیر بیشینه بارش ماهانه داشته و در اکثر موارد پیش بینی های دقیق تری در مقادیر بارش ماهانه بیشینه ارائه کرده که این مورد در پیش بینی وقوع سیلاب ها بسیار مهم و کاربردی است.کلید واژگان: رگرسیون بردار پشتیبان، مشهد، پیش بینی بارش ماهانه، رگرسیون فرآیند گاوسیThe detailed and correct information on precipitation in different areas has an important role in the hydrological and climate studies of a region, such as the estimation of floodwaters, drought, runoff, sediment, river basin management, agriculture, irrigation scheduling and etc. Precipitation is a highly non-linear phenomenon, which changes temporally and spatially. Many factors influence precipitation variation. Generally, these factors can be divided into two climatic and geographical groups. Given technological developments, although it is not impossible to predict precipitation in the range of time and space, there are many complications. Despite many conceptual and statistical models that have been proposed to predict and forecast climatic variables, nowadays tools such as the artificial neural networks, decision trees and kernel-based methods are used to model hydrological processes and water engineering. In the current study, the efficiencies of support vector regression (SVR) and the Gaussian process regression (GPR) were investigated on prediction the amount of monthly precipitation in Mashhad. The sensitivity of precipitation to other meteorological parameters was also analyzed.
In this study, we use different kinds of meteorological parameters on monthly data scale in the Mashhad region, located in Razavi Khorasan Province in Iran. Different combinations of these meteorology parameters have been entered to support vector regression and Gaussian process regression as our chosen data mining methods. Support vector machines fall into two groups, including support vector regression and support vector classification. Based on the statistical learning theory, the support vector machine (SVM), introduced by Vapnik in 1995, is one of the supervised learning methods. Sometimes in this method, complicated and non-linear structures are required to separate data. The Gaussian process regression is a useful method employed to define prior distributions for the flexible models of regression and classification, in which regression or class probability functions are not limited to the simple parametric forms. The concept of Gaussian processes is based on the normal distribution, which was named after Carl Friedrich Gauss the Gaussian distribution. . It can be said that the Gaussian process is actually an infinite dimensional generalization for multivariate infinite distributions. The Gaussian processes are very important and prevalent in statistical modelling because they bear normal characteristics (Neal, 1997). Designing methods for support vector regression and Gaussian process regression also includes using the concept of the kernel function. In fact, with a non-linear transform from the input space to a characteristic space having more dimensions, even infinite, the problems can be made linearly separable. The most important kernel functions are linear, polynomial, normalized polynomial, radial basis function and Pearson function. In this study, kernel functions were used.
After investigating different kernel functions, it was observed that optimal results were obtained when the Pearson kernel function was employed in both support vector regression and Gaussian process regression. The research results indicated a higher accuracy and fewer errors when the parameters like monthly index, the mean of monthly relative humidity, the mean of maximum monthly relative humidity, difference between the means of minimum and maximum monthly temperatures and previous-month precipitation were used. This shows the greater impact of these parameters on precipitation. The results also indicated the higher efficiencies of modern data mining methods like support vector regression and the Gaussian process regression in predicting monthly precipitation. The Gaussian process regression provided the correlation coefficient, Nash-Sutcliffe coefficient, root-mean-square error, and the mean of absolute error with 0.870, 0.736, 12.37 (mm) and 7.85 (mm). It is introduced as the best method for predicting monthly precipitation in similar cases. The results also indicated that the Gaussian process regression was more powerful in predicting maximum monthly precipitation. It also led to more accurate predictions in cases that monthly precipitations were maximized, a fact which is very important and applicable in the prediction of floodwaters. Analyzing the sensitivities of models to input variables indicated that monthly precipitation was mostly influenced by previous-month precipitation, monthly index and the minimum monthly temperature. Both support vector regression and Gaussian process regression method had good performance in predicting monthly rainfall. The results showed that both methods had almost equal performance but that, in this case, Gaussian process regression provided more accurate predictions, especially in maximum precipitations. Therefore, this method could be considered an efficient and practical application for rainfall measurement.Keywords: Gaussian process regression, Monthly rainfall forecasting, Mashhad, Support vector regression
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.