partial least square regression
در نشریات گروه آب و خاک-
کانی های رسی جزء اصلی و بنیادی خاک هستند و تعیین مقدار آنها در مدیریت خاک ها از اهمیت ویژه ای برخوردار است. لذا، این مطالعه با اهداف بررسی توانایی روش طیف سنجی مرئی-مادون قرمز نزدیک در تعیین مقدار کانی های رسی غالب خاک های استان اصفهان و بررسی محدودیت های احتمالی در تعیین مقدار کانی های رسی اجرا شد. آنالیزهای کانی شناسیبر روی 100 نمونه خاک سطحی جمع آوری شده از کل استان اصفهان، با استفاده از دستگاه XRD و بصورت نیمه کمی انجام شد. آنالیز طیفی نمونه های خاک با استفاده از دستگاه طیف سنج زمینی با دامنه طول موج 350 تا 2500 نانومتر انجام شد. بعلاوه، رگرسیون حداقل مربعات جزئی و طیف های حذف پیوستار برای مدلسازی به کار رفت. نتایج کاربرد روش حذف پیوستار در پیش بینی مقادیر سه کانی ایلیت، اسمکیتت و پالیگورسکیت از عدم توانایی این روش حکایت داشت. مقایسه دو روش رگرسیون حداقل مربعات جزئی و حذف پیوستار در پیش بینی کانی های خاک نشان داد که قابلیت روش رگرسیون حداقل مربعات جزئی بسیار بیشتر از حذف پیوستار است. بررسی علل عدم موفقیت روش طیف سنجی در برآورد کانی های رسی خاک نشان داد که اختلاط هر یک از کانی ها (پالیگورسکیت، اسمکتیت و ایلیت) با یکدیگر تاثیر چشمگیری بر موقعیت جذبی سایر کانی ها گذاشته و پیش بینی مقدار کانی را مشکل می سازد. در مناطق خشک و نیمه خشک، با تنوع کانی شناسی فراوان و حضور گچ و کربنات ها، سیستم خاک پیچیده تر شده و امکان کسب اطلاع از طیف ها مشکل می شود و بنابراین، پیش بینی مقادیر کانی ها با دقت کمی همراه است.
کلید واژگان: پالیگورسکیت، ایلیت، اسمکتیت، رگرسیون حداقل مربعات جزئی، طیف حذف پیوستارClay minerals constitute a fundamental fraction of soils and their quantitative information is important in soil management. Therefore, the objectives of this research were to evaluate the ability of vis-NIR spectroscopy to quantify the dominant clay minerals of soils and to determine the limitations of this approach. One hundred surface soil samples were collected from the Isfahan province. Semi-quantitative mineralogical analyses were performed by XRD. Soil spectral analyses were carried out by a field spectrometer using 350-2500 nm wavelength range. Partial least squares regression and continuum-removed spectra were used for modeling. Modeling by continuum-removed spectra could not precisely predict dominant clay minerals. Clay minerals estimation by partial least square regression was more accurate than continuum-removed spectra. It appears that mixing the clay fraction with each mineral (palygorskite, smectite and illite) significantly influences the special absorption features of mineral and makes it difficult to estimate clay minerals accurately. In arid and semi-arid regions, mineralogical diversity is high and the presence of gypsum and carbonates increases the complexity of the soil system. Therefore, information from spectra is difficult to obtain and clay minerals could not be accurately estimated.
Keywords: Palygorskite, Illite, Smectite, Partial least square regression, Continuum removed spectrum -
شور شدن خاک ها در جهان به گونه ای روزافزون روبه گسترش است و درنتیجه تولید محصولات کشاورزی در مواجهه با این تنش کاهش می یابد. سیاست گذاران و تصمیم سازان در راستای برنامه ریزی برای تطبیق با تغییرات اقلیمی و افزایش نیاز به غذا نیازمند پایش کمی مستمر شوری خاک می-باشند. شاخص های طیفی حاصل از سنجنده های ماهواره ای و یا سنجنده های نزدیک به سطح زمین به طور روزافزونی برای پایش شوری خاک مورداستفاده قرار می گیرند به نحوی که تا کنون تعداد زیادی شاخص برای پایش شوری خاک معرفی شده اند. برای مدل سازی و سنجش اعتبار مدل حاصله روش های رگرسیونی مختلفی مورداستفاده قرار گرفته که مهم ترین آن ها رگرسیون خطی چندگانه (شامل رگرسیون گام به گام، انتخاب رو به جلو و حذف رو به عقب) و رگرسیون حداقل مربعات جزئی است. در این پژوهش به منظور ارزیابی این دو روش در مدل سازی تغییرات شوری خاک از اندازه-گیری های آزمایشگاهی و الکترومغناطیسی شوری خاک مربوط به 97 نقطه در سال 1392 و 225 نقطه در سال 1393 در بخشی از دشت سبزوار- داورزن به مساحت حدود 50 هزار هکتار استفاده شد. تعداد 23 شاخص طیفی از تصاویر ماهواره لندست 8 مربوط به تاریخ های نمونه برداری استخراج و به همراه مدل رقومی ارتفاع به عنوان متغیر مستقل مورداستفاده قرار گرفت. روش های مختلف رگرسیون خطی چندمتغیره با استفاده از داده های سال اول به عنوان آموزش و سال دوم به عنوان آزمون و بالعکس هرچند ضریب تبیین بین حدود 22 تا 88 درصد ایجاد کرد، ولی این همبستگی در دسته اعتبار سنجی از 29 درصد تجاوز نکرد. به علت وجود هم راستایی خطی چندگانه در بین متغیرهای مستقل روش رگرسیون خطی چندگانه برای تمام متغیر ها قابل کاربرد نبود. حذف متغیرهای دارای هم راستایی خطی، تبدیل لگاریتمی و تصادفی کردن کل داده ها در دو دسته آموزش و آزمون، ضریب رگرسیون مدل و اعتبار آن را به طور قابل قبولی افزایش داد. استفاده از رگرسیون حداقل مربعات جزئی با استفاده از داده های اصلی و تبدیل لگاریتمی شده سال اول و دوم به عنوان آموزش و آزمون و بالعکس نیز در دسته آموزش ضریب تبیین بین 39 تا 85 درصد ایجاد کرد، ولی از برآورد در دسته آزمون ناتوان بود. تصادفی کردن داده ها و تقسیم مجدد آن ها به دو دسته آموزش و آزمون موجب ارتقای چشمگیر ضریب تعیین در دسته اعتبارسنجی شد. تکرار عملیات تصادفی کردن نشان داد که روش از ثبات لازم برای برآورد ضرایب متغیرها برخوردار است.کلید واژگان: اعتبار سنجی، رگرسیون خطی چندمتغیره، رگرسیون حداقل مربعات جزئی، سنجش ازدور، شاخص های طیفیIntroductionSoil salinization is increasing across developing world countries and agricultural production is decreasing as a result of this stress. Climate change could adversely affect soil salinization trend through the decrease in rainfall and increased evapotranspiration in arid regions. Policy and decision makers require continuous and quantitative monitoring of soil salinity to adapt with the adverse effects of climate change and increasing need for food. Indices derived from near surface or satellite based sensors are increasingly applied for monitoring of soil salinity so a considerable number of these indices are introduced already for soil salinity monitoring. Different regression methods have been already used for modeling and verification of developed models amongst them multiple linear regression (including stepwise, forward selection and backward elimination) and partial least square regression are the most important methods.Materials And MethodsTo evaluate different approaches for modeling soil salinity against remotely sensed data, an area of about 50000 ha was selected in Sabzevar- Davarzan plain during 2013 and 2014 years. The locations of sampling points were determined using Latin Hypercube Sampling (LHS) strategy. Sampling density was 97 points for 2013 and 25 points for 2014. All points were sampled down to 90 cm depth in 30 cm increments. Totally 366 soil samples were analyzed in the laboratory for electrical conductivity of saturated extract. Electromagnetic induction device (EM38) was also used to measure bulk soil electrical conductivity for the sampling points at the first year and sampling points and 8 points around it at the second year. Totally 97 and 225 EM measurements were also recorded for first and second years respectively. Mean measured soil EC data were calibrated against the EM measurements. Finding the fair correlations, the EM and EC data could be converted to each other. 23 spectral indices derived from Landsat 8 images in the sampling dates along with DEM were used as independent variables. Multiple Linear Regression (MLR) and Partial Least Square Regression (PLSR) methods were evaluated for their fitness in predicting soil salinity from independent variables in different calibration and verification datasets.Results And DiscussionDifferent multiple linear regression approaches using the first year data for training and second year data for testing the models and vice versa were evaluated which produced determination coefficients of about 22 to 88 percent in the training dataset but this regression did not reach to 29 percent in the test dataset. Due to the multiple co-linearity amongst the independent variables the multiple linear regression methods were not applicable to all variables. Excluding the co-linear variables, log- transforming and randomizing them into train and test datasets improved the determination coefficient of model and its validation at an acceptable level. Application of partial least square regression using the original and log- transformed data of first and second years as train and test datasets and vice versa introduced determination coefficients of about 39 to 85 percent in the training dataset but were not able to predict in the test dataset. Random dividing of all data into train and test datasets considerably increased the determination coefficient in the verification dataset. Repeating the randomization showed that the approach has the required consistency for predicting the coefficients of variables.ConclusionsWide range of independent variable could be used for predicting soil salinity from remotely sensed data and indices. On the other hand the independent variables generally show multi-colinearity amongst themselves. Correlation matrix, variance inflation factor and tolerance indices could be used to identify multi-colinearity. Removing or scaling the variable with high colinearity could improve the regression. Different data transformation methods including log- transformation could also significantly improve the strength of regression. In this research EM data showed more significant correlations with spectral indices in comparison with laboratorial measured EC data. As the EM38 device measures the reflectance in special range of spectrum this higher correlation could be expected. Such models should be calibrated and verified against ground truth data. Generally a part of data set is used for calibrating (making the model) and the remained for verifying (testing the model). Random dividing of the total data of 2 years into calibration (2/3 of data) and verification (1/3 of data) could significantly improve the regression in the verification data set. This procedure increases the range of variability for data used for calibration and verification and prevents outlier predictions.Keywords: Multiple linear regression, Partial least square regression, Remote sensing, Spectral indices, Verification
-
گندم دیم منبع غذایی اصلی غالب کشورهای درحال توسعه است که عوامل مختلفی بر تولید آن موثر است. هدف از این پژوهش ارائه مدلی است که عملکرد دانه گندم دیم را بر اساس ویژگی های فیزیکی و شیمیایی خاک برآورد کند. بدین منظور، مقادیر عملکرد دانه گندم دیم و ویژگی های فیزیکی و شیمیایی در سه تکرار به طور جداگانه در یک سال زراعی ،1393، در 53 مزرعه گندم دیم، در سطح استان زنجان اندازه گیری شد. با به کارگیری روش رگرسیون حداقل مربعات جزئی، مدلی برای بیان رابطه عملکرد دانه گندم دیم و ویژگی های خاک ارائه شد (40n= و 6/0R2=). سیلت و کربنات کلسیم معادل، موثرترین عوامل بر عملکرد گندم دیم و ضرایب استانداردشده آن ها در مدل برآوردکننده به ترتیب 23/0 و 24/0- بود. نتایج پژوهش حاضر نشان داد که برخی ویژگی های فیزیکی و شیمیایی خاک شامل میزان سیلت، کربنات کلسیم معادل و پتاسیم به ترتیب اولویت تاثیر بیشتری بر عملکرد دانه گندم دیم دارد.کلید واژگان: اعتبارسنجی ضربدری، تجزیه مولفه اصلی، رگرسیون حداقل مربعات جزئیRainfed wheat is a food resource for developing countries that various factors may contribute in its production. The aim of the present study was developing a model that estimate rainfed wheat grain yield based on physico-chemical properties of the soil. Therefore, wheat grain yield was measured at 53 rainfed wheat fields over Zanjan province in agronomical year 2014. Also, 18 soil physico-chemical properties were measured in triplicates in the fields. Using partial least square regression, a model was developed to explain the relationship between rainfed wheat grain yield and soil properties (n=40, R2= 0.6). The highest and lowest standardized coefficients of the model belonged to silt and calcium carbonate percentages which were equal to 0.23 and -0.24, respectively. The results of the present research revealed that some soil physico-chemical properties, in order of priority, including silt, calcium carbonate and potassium has more effects on rainfed wheat grain yield.Keywords: Cross validation, Principal component analysis, Partial least square regression
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.