cross validation
در نشریات گروه علوم انسانی-
نشریه آموزش و ارزشیابی، پیاپی 65 (بهار 1403)، صص 169 -192
هدف پژوهش حاضر این است که با به کارگیری رگرسیون چندگانه در روش هارویچ که یک رویکرد تصمیم گیری است نمره برش آزمون تولیمو برای داوطلبان دکتری متقاضی فرصت های مطالعاتی خارج از کشور را تعیین کند. جامعه آماری این پژوهش شامل داوطلبان یک دوره از آزمون تولیمو است که 461 نفر بودند. روش پژوهش این مطالعه مبتنی بر رویکرد کمی است و از نظر هدف جزء پژوهش های کاربردی و از نظر تحلیلی جزء مطالعات تحلیل ثانویه محسوب می شود و از نمره های همه 461 داوطلب به هر کدام از بخش های گرامر، درک مطلب، شنیداری و نوشتاری برای تعیین نمره برش استفاده می گردد. بر اساس نتایج مطالعه و با توجه به مقدار خطای طبقه بندی ناچیز، در صورت استفاده از نمره کل، میانگین مقادیر شاخص هارویچ به نمره برش 481 و در صورت معنی دار بودن مدل رگرسیون خطی با به کارگیری نتایج شاخص هارویچ در رگرسیون چندگانه، از نمره برش 491 به عنوان نمره برش می توان استفاده کرد. روش پیشنهادی به طور قابل توجهی دقت تعیین نمره برش را در مقایسه با روش های آنگوف و بوک مارک بهبود می بخشد. با توجه یافته های به دست آمده از اعتبارسنجی متقابل و مقادیر خطا، نمره برش به دست آمده از استراتژی ترکیبی منجر به نتایج دقیق تر و با خطای طبقه بندی صفر می شود.
کلید واژگان: نمره برش، روش هارویچ، رگرسیون چندگانه، روش آنگف، روش بوک مارک، اعتبارسنجی متقابل، آزمون تولیموThe aim of the current research is to determine the cutoff score of the Tolimo test for doctoral candidates applying for study opportunities abroad by applying multiple regression in the Hurwicz method, which is a decision-making approach. The statistical population of this research includes the candidates of one course of Tolimo exam, which were 461 people. The research method of this study is based on a quantitative approach, and in terms of its purpose, it is part of applied research, and in terms of analysis, it is part of secondary analysis studies, and the scores of all 461 candidates in each of the grammar, reading comprehension, listening, and writing sections are used to determine the cutoff score. becomes Based on the results of the study and considering the small amount of classification error, if the total score is used, the average value of the Hurwicz index is the cutoff score of 481, and if the linear regression model is significant, using the results of the Hurwicz index in multiple regression, the cutoff score is 491. It can be used as a cutoff score. The proposed method significantly improves the accuracy of determining the cutoff score compared to Angoff and Bookmark methods. According to the findings obtained from cross-validation and error values, the cutoff score obtained from the combined strategy leads to more accurate results with zero classification error.
Keywords: Cut Score, Hurwicz Method, Multiple Regression, Angoff Method, Bookmark Method, Cross-Validation, Tolimo Test -
شن از مهم ترین اجزای بافت خاک است که برای عملیات مدل سازی زیست محیطی و پهنه بندی رقومی خاک، باید مورد توجه واقع شود. از آن جا که این ویژگی، دستخوش تغییرپذیری های مکانی بوده، لذا تشخیص، پهنه بندی و پایش آن در مقیاس وسیع و با روش های نمونه برداری و تحلیل آزمایشگاهی معمول، بسیار هزینه بر و وقت گیر است. با ظهور فناوری مجاورت سنجی بازتابی (VNIR-DRS)، روزنه ای در بررسی این ویژگی خاک ایجاد شده است. طی تحقیق حاضر، از طیف سنجی بازتابی مجاورتی، برای بررسی اجزای شن در قسمت هایی از استان مازندران استفاده شد. جمعا 128 نمونه از عمق 20 سانتی متری سطح خاک، براساس روش نمونه برداری طبقه بندی شده تصادفی و نیز با کمک اطلاعات جانبی همچون: زمین شناسی، کاربری اراضی، نقشه راه ها، و خاک شناسی استان جمع آوری شد. در ابتدا مجموع نمونه ها به دو قسمت برای عملیات واسنجی و اعتبارسنجی تقسیم شد. با بهره گیری از تحلیل رگرسیون چندمتغیره PLSR و براساس روش اعتبارسنجی متقاطع و عملیات پیش پردازشی چون: میانگین گیری (روش کاهش داده های طیفی)، هموارسازی و مشتق اول طیفی براساس الگوریتم ساویتسکی-گولای، مدل نهایی با تعداد 2 و 4 عامل؛ به ترتیب: با همبستگی دوطرفه پیرسون (RP) حدود 0.83 و0.82 ، ضریب تبیین (R2P) حدود 0.68 و 0.67 ، میانگین مربعات خطای کالیبراسیون (RMSEP) حدود 8.68 و 8.83%، و نیز RPDP تقریبی 1.78 و 1.75، RPIQP تقریبی 2.45 و 2.41 (ست اعتبارسنجی مستقل)، به عنوان مطلوب ترین مدل به منظور برآورد مقادیر شن منطقه مورد مطالعه، شناخته شد که نتایج، نشان دهنده توانایی مناسب مدل در برآورد مقادیر شن منطقه بوده است. درنهایت، قابلیت فن اوری مجاورت سنجی، در بررسی اجزای شن منطقه به اثبات رسید. همچنین، از این مدل و نیز دامنه های طیفی موثر به دست آمده می توان به عنوان مبنایی برای بررسی مقادیر شن در مقیاس بسیار وسیع، با عملیات بیش مقیاس سازی توسط داده های ابرطیفی هوایی- ماهواره ای، بهره برد. که این امر نشان دهنده اهمیت طیف سنجی مجاورتی در تشخیص طول موج های مفید و نیز ایجاد مدل، به منظور استفاده آن در داده های ماهواره ای، خواهد بود.
کلید واژگان: اعتبارسنجی متقاطع، پهنه بندی رقومی، سنجش مجاورتی، شن، PLSRIntroductionSoil is considered to be dynamic and complex both spatially and temporally and thus, many physical, chemical and biological properties should be determined before assessing its quality. To reach this purpose, a large sample must be collected for laboratory tests which is both time-consuming and costly and requires lots of attention and precision. Compared to other components of soil, sand is closely related with the quality of soil and crop growth. Therefore, environmental modeling and digital soil mapping projects should pay special attention to this part of soil texture. However, large-scale detection, mapping and monitoring of sand content using common traditional sampling and usual laboratory analytical procedures are both time-consuming and costly due to the vast spatial variability of sand. Compared to laboratory-based and field spectroscopy, spaceborne and airborne remote sensing have a lower level of accuracy due to atmospheric effects, compositional and structural effects, lower spatial and spectral resolution, geometric distortions and spectral mixing. Hence, an appropriate technology is required to overcome these imperfections and study spatially variable factors. Lab Diffuse reflectance Spectroscopy (LDRS) which utilizes fundamental vibration, overtones and a combination of functional groups has been introduced as a promising tool for soil investigation. The present research uses proximal soil sensing technology to study sand content.
Materials and Methods128 samples were collected from a soil depth of 20cm in accordance with stratified randomized sampling method and supplementary data (geology, pedology, land use, etc.). The samples were then divided into two subsets: calibration subset with 96 and validation subset with 32 samples. Afterward, definitive calibration model was developed and reviewed with two & four latent variables in accordance with R, R2, RMSE, RPD and RPIQ indices using multivariate regression analysis-PLSR method, LOOCV cross-validation technique and preprocessing algorithms such as spectral averaging (spectral reduction method), smoothing and 1st derivative (Savitzky-Golay algorithm).
Results & Discussion:
The estimating model indicated that out of the seven latent variables, the first two and four variables can provide the best estimate of the volume of sand in 96 calibration samples and the 32 validation subset. Since more than 60% of the variance of sand variable and 95% of the variance of spectral variables can be concentrated in these selected factors, the predicting model was calibrated based on the first four LVs and the full LOOCV procedure. The best model was calibrated with these features: Rc=0.76, R2C=0.57, RMSEc= 9.77 and SEc of about 9.82. The correlation coefficients (R) between sand contents and the effective spectral bands were calculated and equaled UV-390nm= 0.46, Vis-510 to 540nm about 0.53, 680 to 690 about 0.55, NIR- 950 to 970 about 0.67 and 1100nm= 0.70, SWIR- 1410 nm=0.76, 1860 to 1900 about 0.76, 2180 to 2220 about 0.77 indicating that the selected spectral bands (spectral ranges) with the maximum R contents were the most effective independent predictors in the present modeling process. Furthermore, the most influential spectral domains in the modeling process were determined as follows: UV-390 nm, Vis-440-540 nm, NIR- 740-990 nm, SWIR- 1430-1890, 1930, 2190-2240, 2330-2440 nm which was in agreement with previous studies. The quality of the calibrated sand predicting model was evaluated with Hotelling, Adjusted leverage and residual variances tests. The model was validated based on 32 independent samples. General characteristics of the validation process for LV=4 were Rp= 0.82, R2p= 0.67, RMSEp= 8.83, SEp= 8.92 and bias= -0.93 and Rp= 0.83, R2p= 0.68, RMSEp= 8.68, SEp= 8.72 and bias= -1.26 for LV=2.
ConclusionResults indicate that the final model was capable of predicting sand contents and thus for two factors (LV=2): RPDc= 1.51, RPIQc= 2.44, RPDp= 1.78 and RPIQp= 2.45 were obtained while for four factors (LV=4): RPDc= 1.54, RPIQc= 2.48, RPDp= 1.75 and RPIQp= 2.41 were reached. A RPIQ of more than 2 shows that the model is capable of estimating soil sand content in Mazandaran province using data collected through diffuse reflectance spectroscopy. Since a new generation of hyperspectral remote sensors with high spectral resolution is now available, results of the present study can be the starting point for more accurate mapping of sand particles in soil texture using RS platforms. However, proximal spectroscopy must be more thoroughly investigated. Determining and detecting the key wavelengths in the modeling process can enhance the upscaling operation and the new airborne/satellite hyperspectral sensors and thus result in more precise mapping of the soil texture. Finally, the VNIR-DRS technology was proved to be potentially capable of estimating soil sand content in Mazandaran province. The present model and key spectral domains identified in the present study can make a basis for future studies investigating the sand content in very large-scale samples using airborne/satellite hyperspectral data. This shows the importance of LDRS and its role in identifying optical wavelengths which will be used in space-borne data (upscaling process).
Keywords: Cross validation, Digital mapping, Partial least squares regression, Proximal soil sensing, Sand -
ژوهش حاضر به منظور ارزیابی کاربرد مدل های جبری و زمین آماری در پهنه بندی عمق آبهای زیرزمینی دشت تبریز در یک بازه زمانی 13 ساله (1380 تا 1392)، با استفاده از داده های 42 حلقه چاه پیزومتری در سطح دشت به انجام رسیده است. مدلهای مورد استفاده شامل، مدل IDW و مجموعه روش های توابع شعاعی(RBF)، به عنوان نماینده روش های جبری و مدل کریجینگ به عنوان نماینده روش های زمین آماری می باشد. از اعتبار سنجی متقاطع، شاخص های خطای، میانگین انحراف خطا(MBE)، ریشه دوم میانگین مربع خطا(RMSE) و ضریب تعیین جهت انتخاب روش مناسب و اعتبار سنجی مدل های مربوطه استفاده شده است. نتایج به دست آمده نشان داد که برای پهنهبندی عمق آب زیرزمینی روش کریجینگ در مقایسه با سایر روش های میانیابی مورد بررسی (مدل Gaussian) با خطای RMSE و MBE به ترتیب برابر با 08/19 و 37/0 و R2 برابر با 35/0 ، دارای دقت بالایی بوده و با نقشه-های کاربری اراضی منطقه، شبکه آبراهه های و زمین شناسی محدوده مطالعاتی همخوانی بسیار بالایی دارد. بنابراین بهترین روش جهت پهنه بندی عمق آبهای زیرزمینی دشت تبریز محسوب می گردد. هم چنین مقایسه نقشه های پهنه بندی مکانی عمق آب زیرزمینی در طول دوره های زمانی مورد بررسی نشان داد که در قسمت های جنوب شرقی، شرقی، جنوب محدوده مورد مطالعه افزایش در عمق آب زیرزمینی مشاهده شده که البته با توجه به اینکه در این قسمتها اراضی باغی وجود دارد می توان دلیل افزایش عمق آب زیرزمینی را بهره برداری بی رویه از منابع آب زیرزمینی دانست.کلید واژگان: مدلهای جبری، مدل های زمین آماری، اعتبار سنجی متقاطع، عمق آب های زیرزمینی، دشت تبریزDue to high salinity of surface waters in Tabriz plain, which is one of the major concerns about irrigation and sustainable agriculture in the area, farmers exploit groundwater as supplement for surface water to irrigate their fields. This study aimed to apply Algebraic and Geo-statistical models for mapping groundwater depth through Tabriz plain over a period of 13 years (1380 to 1392) using data collected from 42 piezometric wells. Used models include Inverse Distance Weighted (IDW) and Radial Basis Functions (RBF), as representative of algebraic methods and Kriging as representative of Geo-statistical methods. Selection of appropriate method and validation of models were done by means of cross validation, mean bias error (MBE), root mean square error (RMSE) and coefficient of determination (R2). Results indicated that Kriging is more precise than other methods for zoning mapping the depth of groundwater, and the output map corresponds highly with land use, drainage networks, geology and through the study area. So, the method is considered to as the best model to zoning mapping the groundwater depth through Tabriz plain. Also, comparison of groundwater depth zoning maps over examined periods is indicative of an increase in groundwater depth in Southeast, East, South and partly North of the study area. This increase of groundwater depth could be related to improper exploitation of groundwater resources considering given garden lands located on the parts of the study areaKeywords: Algebraic Models, Geo-statistical Models, Cross-validation, groundwater level, Tabriz plain
-
فصلنامه فضای جغرافیایی، پیاپی 50 (تابستان 1394)، صص 209 -231دو روش قطعی شامل توابع شعاع محور (آر بی اف) و روش عکس فاصله وزنی (آی دی دبلیو) و دو روش زمین آماری شامل روش کریجینگ و کوکریجینگ درون یابی، به منظور برآورد بارش سالانه 29 ایستگاه سینوپتیک استان اردبیل، مورد آزمون قرار گرفتند. برای این منظور، از داده های ایستگاه های مختلف در سطح استان شامل 4 ایستگاه سینوپتیک، 1 ایستگاه کلیماتولوژی و 24 ایستگاه باران سنجی، در یک بازه زمانی 10 ساله (2005-1995)، استفاده شد. بررسی عملکرد مدل های فوق، با استفاده از روش اعتبار سنجی متقاطع و نیز شاخص های خطای میانگین انحراف خطا، میانگین قدر مطلق خطا و ریشه دوم میانگین مربع خطا، انجام گرفت. در نهایت، جهت شناسایی مناطق برآورد پایین و یا بالا برآورد هر مدل در سطوح ارتفاعی بالاتر از توزیع مکانی ایستگاه ها، خروجی هریک از مدل ها کنترل شد. نتایج نشان داد که مدل کریجینگ نسبت به سایر روش ها دارای خطای کم تری بوده و با نقشه توزیع ارتفاعی منطقه هم خوانی دارد. لذا روش مذکور، به عنوان بهترین روش برآورد بارندگی مناطق فاقد اطلاعات با اختلاف توپوگرافیک شدید استان اردبیل، تشخیص داده شد.
کلید واژگان: نگاشت بارش، روش های قطعی و زمین آماری درون یابی، اعتبارسنجی متقاطع، استان اردبیلGeographic Space, Volume:15 Issue: 50, 2015, PP 209 -231Two deterministic methods [Radial Basis Functions (RBF) and Inverse Distance Weighting (IDW)], and two stochastic interpolation methods [Kriging and Co-Kriging] have been evaluated to estimate the annual precipitation in Ardebil Province. For this purpose, we used data taken from various stations across the province [4 synoptic stations, 1 climatological station and 24 rain gauges], over a decade (2005-1995). The performance of the above model was examined using cross validation and the indices of Mean Bias Error (MBE), Mean Absolute Error (MAE) and Root Mean Square Error (RMSE).Finally, to identify under-estimated and over-estimated areas of each method at elevations above the spatial distribution of stations, the output of each model was examined. The results suggested that Kriging model had lower errors than other methods and was more compatible with the elevation surfaces. Therefore, this method was identified as the best option for estimating f precipitation in areas without adequate data and intense topographic gradients in Ardebil Province.Keywords: Precipitation Mapping, Deterministic, Stochastic Interpolation Methods, Cross Validation, Ardebil Province -
مناطق خشک و نیمه خشک همواره با بحران آب مواجه بوده اند، به همین دلیل ذخایر هرچند اندک برفی در سرشاخه های کوهستانی این مناطق، نقش شایان توجهی در تغذیه و تعادل هیدرولوژیکی مناطق مذکور ایفا می کنند. چگالی برف از جمله پارامتر هایی است که به عنوان پارامتر مبدل عمق برف به آب معادل برف، اهمیت فراوانی دارد. در این مقاله، کارآیی یکی از روش های هوش مصنوعی در شبیه سازی پراکنش مکانی چگالی برف در یکی از سرشاخه های دشت یزد – اردکان ارزیابی شده است. به همین منظور، ابتدا داده های چگالی برف با استفاده از نمونه بردار مدل مونت رز در 216 نقطه از منطقه سخوید یزد برداشت گردید. سپس با استفاده از مدل رقومی ارتفاع و در محیط جغرافیایی ساگا 32 پارامتر ژئومرفومتری، به عنوان داده های ورودی استخراج شد. الگوریتم مورد استفاده در هوش مصنوعی، شبکه عصبی مصنوعی بوده که جهت دستیابی بهینه به آن، مدل ها و توابع متفاوت با آرایش نورون های مختلفی بررسی گردیدند. بهترین شبکه به صورت 1-9-32 و حاوی مدل پرسپترون چند لایه و با الگوریتم پس انتشار خطاو تابع فعالیت سیگموئید و خروجی خطی بود. نتایج پژوهش نشان داد که میزان ضریب همبستگی داده های مشاهداتی و برآورد شده 86 درصد و مجذور میانگین مربع خطا برابر 1/5 است. بدین ترتیب استفاده از ابزارهای هوش مصنوعی به خوبی توانسته است توزیع مکانی چگالی برف را برآورد نماید.کلید واژگان: چگالی برف، نقشه برداری رقومی، میان یابی، شبکه عصبی مصنوعی، مناطق نیمه خشکWater crisis is one of the most important problems in arid and semi-arid regions, so snowfall occurring in upstream parts of mountainous basins has an enormous role in hydrological balance. In this paper, the spatial distribution of snow density in Sakhvid, Yazd has been studied using an artificial neural network. Snow density is an important parameter for assessment of water resources in mountain basins, and, with thecorresponding data and snow depth, snow water equivalent values can be calculated. For this purpose, 216 in-situ snow density data were measured using the Mt. Rose sampler. Then, using SGA-GIS software, 32 geo-morphometric parameters were calculated from DEM. The best network was 1-9-32 with a multilayer perceptron model, the back-propagation algorithm,the sigmoid activation function, and a linear output. In order to evaluatethe network, the ANN correlation coefficient and the root mean square error (RMSE) were used. The results showed that the correlation coefficient and RMSE of the observed and estimated data were 86 percent and 5.1 respectively. So, application of artificial intelligent can simulate the spatial distribution of snow density very well.Keywords: Digital mapping, Interpolation, Cross validation, Snow density, Artificial neural network
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.