multiple regression
در نشریات گروه زراعت-
مقدمه
امروزه بسته های نرم افزاری قدرتمند و کاربردی، تحلیل داده ها را ساده کرده و در نتیجه کاربرد علم داده را در تمام زمینه های تحقیقاتی توسعه داده است. بر این اساس، رگرسیون تقریبا در تمام جنبه های علوم زیستی، از سلامت انسان گرفته تا کشاورزی و علوم دامی اعمال شده است. اما در دهه های گذشته اشتباهات شایان توجهی در استفاده از این مدل گزارش شده است. هدف از این مقاله بررسی مدل سازی با این روش مهم آماری و آشنا کردن خوانندگان جهت کاربرد درست این روش و مفروضات و شرایط استفاده از آن است.
مواد و روش هادر این مقاله مروری از داده های واقعی استفاده گردیده است و نحوه انجام تحلیل های انجام شده در نرم افزارهای آماری SAS و R و کدهای مربوط به آنها در قسمت پیوست آورده شده است.
یافته هادر مفروضات مورد نیاز مدل رگرسیونی، باقیمانده های مدل باید به طور نرمال توزیع شده باشند، اما انجام آزمون نرمال بودن برای مقادیر واقعی متغیر پاسخ یا هر یک از متغیرهای مستقل اجباری نیست. از سوی دیگر، تقریبا تمام روش های تست توزیع نرمال، مانند Kolmogorov-Smirnov، برای تعداد زیاد داده، طراحی شده اند. این نشان می دهد که استفاده از چنین روش هایی برای آزمون نرمال بودن باقیمانده های مدل تخمین زده شده بر اساس تعداد داده پایین، عمدتا کمتر از صد مورد، چندان دقیق نخواهد بود. موضوع دیگر مربوط به هم خطی بین متغیرهای مستقل است. باید به این نکته توجه کرد که یافتن ضریب همبستگی برابر با صفر (R = 0) حتی بین هر جفت متغیر تصادفی جداگانه بسیار دشوار است. بنابراین در تمامی مدل های رگرسیونی به نوعی همبستگی بین متغیرهای مستقل وجود خواهد داشت، اما موضوع مهم این است که فقط همبستگی زیاد باعث ایجاد مشکلات شدید در مدل می شود. پیشنهاد می گردد که به جای استفاده از روش ساده همبستگی از روش های تخصصی مانند ضریب تورم واریانس (VIF) یا تجزیه و تحلیل مولفه اصلی (PCA) برای تشخیص شدت هم خطی استفاده گردد. یکی دیگر از مفروضات رگرسیون مربوط به خطی بودن مدل است که گاهی تبدیل این مشکل را برطرف کند. باید توجه شود که تبدیل داده ها منجر به تغییر واحد متغیرها یا تغییر جهت برداری آنها در یک فضای هندسی و در برخی موارد تغییر ساختار صحیح آنها می شود.
نتیجه گیریدر مدل رگرسیون با افزایش تعداد داده، درجه آزادی خطا به سرعت افزایش می یابد و میانگین مجذور خطای نهایی به میزان قابل توجهی کاهش می یابد. مقدار کم میانگین مربعات خطا منجر به یک مدل بسیار معنی دار می شود. در مقابل، پراکندگی نقاط داده در اطراف خط رگرسیون ممکن است بسیار گسترده باشد. به همین دلیل، استفاده از ضریب تبیین که معمولا معیار مناسبی برای تست برازش مدل است. هرچه پراکندگی نقاط مربوط به داده ها در اطراف خط رگرسیون گسترده تر باشد، مقدار ضریب تعیین کمتر است. مقادیر بالای این ضریب نشان دهنده مدل مناسب برای مجموعه داده های مورد استفاده است. یک مقدار مناسب برای ضریب تبیین را نمی توان بین دامنه ای از مقادیر برای همه آزمایش ها توصیه کرد.
کلید واژگان: آزمون دوربین واتسون، باقیمانده های مدل، توزیع نرمال باقیمانده، رگرسیون چندگانه، میانگین مربعات خطاIntroductionPowerful and practical statistical packages have simplified the analysis and thus developed the application of data science in all research fields. Accordingly, regression has been applied to almost all aspects of the life sciences. However, misuse of this model has been reported in the past decades. This article aims to examine modeling with this important statistical method and introduce readers to the correct use of this method.
Materials and methodsThis review article uses real data, and the supplementary materials provide the method for performing the regression analysis in SAS and R statistical software and their related codes.
ResultsIn the required assumptions of the regression model, the residuals of the model must be normally distributed, but performing the normality test for the actual values of the response variable or any of the explanatory variables is not mandatory. Therefore, researchers should not obsess more than necessary about the normal distribution of real data. On the other hand, almost all normality test methods, such as Kolmogorov-Smirnov, are designed for large numbers of data, typically more than a thousand samples. This suggests that using such methods to test the normality of model residuals estimated from a small number of data, mostly less than a hundred cases, would be inaccurate. Another issue regarding applying the regression model is related to the co-linearity of the explanatory variables. There are still signs of correlation in a data set where all variables are generated separately and randomly in a statistical package. This means that it is very hard to find a correlation coefficient equal to zero (r = 0) even between any pair of separate, random variables. Therefore, in all regression models, there are some kinds of correlation between explanatory variables, but the important issue here is that only high correlation causes severe problems in the model. For collinearity test it would be better to use specialized methods such as Variance Inflation Factor (VIF) or Principal Component Analysis (PCA). The linearity of the model is one other assumption of regression model. Data transformation might be helpful under the situation of non-linearity of the model. However, transformation changes the variables unit, altering the array direction in a geometric space. Researchers should be careful regarding the use of modeling a large number of data affects the probability values in variance analysis due to increasing the value of the degree of freedom of the model.
ConclusionAs the number of data points increases, the degree of freedom of the error term increases rapidly. Therefore, the final error mean squared significantly reduces. In contrast, the scatter of data points around the regression line may be too wide. For this reason, using the coefficient of determination, usually called (R-Squared), is a suitable criterion for testing the model's fit. High coefficient values indicate a suitable model for the data set used. It should be noted that in a multiple regression model, the higher the number of explanatory variables used in the model, the higher the value of this coefficient increases. For such conditions, when the number of explanatory variables is large, another form of this coefficient, called the adjusted coefficient of determination (adjusted R2), has been introduced. The use of this coefficient in the approximations creates a limit on the number of variables used in the regression model. Accordingly, the number of variables in the model as explanatory variables should not exceed the number of samples (or the number of tens) in a set, and researchers should avoid using more variables than the number of samples.
Keywords: Multiple Regression, Durbin-Watson, Error Mean Squares, Model Residuals, Residual Normal Distribution -
سابقه و هدفتعیین خصوصیات فیزیکی و شیمیایی خاک نقشی کلیدی در درک تغییرات مکانی در بهره وری مزارع کشاورزی دارد (25). تغییرات عملکرد تحت تاثیر عوامل مهمی همچون تغییرات مکانی بافت، خصوصیات فیزیکی و شیمیایی، فراهمی عناصر غذایی خاک و مدیریت زراعی میباشد (49). تغییرات مکانی خصوصیات فیزیکی و شیمیایی خاک به طور مستقیم بر رشد و عملکرد گیاه زراعی موثر میباشد (18 و 43). از اینرو، درک تغییرات مکانی خصوصیات خاک در بومنظامهای زراعی برای بهینهسازی نهاده های کشاورزی و عملکرد ضروری می باشد که این تغییرات به طور معنی داری در بهره وری خاک در بوم نظام های زراعی تاثیر دارد (18 و 34). بنابراین، اهداف این مطالعه شامل (1) ارزیابی اثر خصوصیات فیزیکی و شیمیایی خاک بر شاخص های عملکرد گندم آبی و (2) تعیین همبستگی بین خصوصیات فیزیکی و شیمیایی خاک و عملکرد این گیاه بودند.مواد و روش هانمونه برداری به روش تصادفی- سیستماتیک از 50 مزرعه در استان خراسان رضوی در سال های 1396 و 1397 انجام شد. خصوصیات مورد مطالعه شامل بافت، ماده آلی، نیتروژن کل، پتاسیم قابل دسترس، فسفر قابل دسترس، اسیدیته و نسبت کربن به نیتروژن خاک و عملکرد دانه، عملکرد بیولوژیکی، تعداد سنبله در متر مربع، تعداد دانه در سنبله، وزن 1000 دانه و شاخص برداشت گندم بودند. به منظور تعیین رابطه بین پارامترهای خاک (متغیرهای مستقل) و شاخص های عملکرد گندم (متغیرهای وابسته) از رگرسیون چندگانه استفاده شد و برای شناسایی تاثیرگذارترین عوامل از بین خصوصیات فیزیکی و شیمیایی خاک بر خصوصیات عملکرد، آنالیز رگرسیون گام به گام انجام گردید.یافته هانتایج نشان داد که میانگین عملکرد دانه، عملکرد بیولوژیکی، تعداد سنبله در متر مربع، تعداد دانه در سنبله، وزن هزار دانه و شاخص برداشت گندم آبی به ترتیب برابر با 3816/27 کیلوگرم بر هکتار، 11079/07 کیلوگرم بر هکتار، 341/91 سنبله در متر مربع، 37/96 دانه در سنبله، 38/19 گرم و 35/72 درصد بدست آمد. بیشترین و کمترین ضریب تغییرات به ترتیب برای تعداد سنبله در مترمربع (0/78) و عملکرد بیولوژیکی (0/13) محاسبه شد. اثر بافتهای مختلف خاک بر خصوصیات شیمیایی خاک و عملکرد گندم معنی دار (P<0/05)بود. بالاترین میزان ماده آلی، نیتروژن کل، پتاسیم قابل دسترس و اسیدیته برای بافت رسی شنی به ترتیب برابر با 2/41 درصد، 0/31 درصد، 199 پی پی ام، 0/05 پی پی ام و 7/56 بدست آمد. بالاترین عملکرد دانه برابر بافت رسی (با 4313/83 کیلوگرم بر هکتار) بیشترین عملکرد بیولوژیکی برای بافت لومی رسی سیلت (با 11924/86 کیلوگرم بر هکتار) حاصل گردید. بالاترین ضریب همبستگی برای درصد ماده آلی با وزن هزار دانه (r=0/935**) به دست آمد. مهمترین خصوصیات شیمیایی خاک موثر بر عملکرد دانه بر اساس آنالیز رگرسیون گام به ترتیب رتبه شامل درصد ماده آلی و فسفر قابل دسترس بودند.نتیجه گیریپایداری دراز مدت بومنظامهای زراعی به خصوصیات فیزیکی و شیمیایی خاک و به ویژه حاصلخیزی آن وابسته می باشد. مدیریت ضعیف خاک باعث تخریب خاک و کاهش عملکرد گیاه زراعی میشود. نتایج این مطالعه پیشنهاد میکند که از رهیافت های مدیریت زراعی برای حفظ پایداری خاک و عملکرد بهره گیری شود.کلید واژگان: پایداری، تغییرات مکانی، رگرسیون چندگانه، ماده آلیIntroductionCharacterization of physical and chemical soil criteria is a key step in understanding the source of spatial variability in the productivity across agricultural fields (21). Crop yield variability can be caused by many factors, including spatial variability of soil texture, crop management, soil physical and chemical properties and nutrient availability (45). Understanding the spatial variability of soil physical and chemical characteristics is essential for crop management, as it is directly contributing to variability in growth and yield of crop (38 & 14). Hence, understanding their spatial variability across agricultural fields is essential in optimizing the application of agricultural inputs and crop yield and it could help significantly in managing the spatial variability in the productivity of soil agroecosystems (30 & 14). Therefore, the objectives of this study were: (i) evaluate the effect of soil physical and chemical criteria on yield indices of wheat and (ii) to investigate the correlation between physical and chmical soil properties and wheat yield.Materials and MethodsSamplings were performed based on random-systematic method from 30 fields in Khorasan-e Razavi province during 2017 and 2018. Studied characteristics were texture, organic matter (OM), organic carbon (OC), total nitrogen (TN), available P, available K, pH and C:N ratio of soil and seed yield, biological yield, straw yield, 1000-seed weight and harvest index (HI) of wheat. Multiple regression model was used to identify the relationship between soil variables (independent variables) and wheat yield indices (dependent variables). In addition, determining the most important factors of soil physical and chemical properties which have on wheat yield criteria was done by stepwise regression analysis.Results and discussionThe results revealed showed that the mean values of seed yield, straw yield, biological yield, 1000-seed weight and HI of wheat were observed with 3588.47 kg.ha-1, 7362.80 kg.ha-1, 10951.27 kg.ha-1, 35.40 g and 48.56%, respectively. The highest and the lowest standard errors were computed for biological yield (198.40) and 1000-seed yield (0.74), respectively. Also, The effect of soil textures was significant (p≤0.05) on soil chemical criteria and wheat yield. The maximum OM, OC, TN, available P, available K and pH were observed for sandy clay with 1.86%, 1.09%, 0.18%, 166.20 ppm, 0.05 ppm and 7.37, respectively. The maximum seed yield and biological yield were related for clay soil (with 4313.83 and 11924.86 kg.ha-1, respectively). The highest correlation coefficients were computed for OM (r=0.935**) and OC (r=0.933**) with 1000-seed weight. The most important factors influencing wheat yield by using step by step regression were OM, available P, TN and available K, respectively.ConclusionLongterm sustainability of agroecosystems depends on soil quality and its fertility. Poor soil management practices can lead to degraded soil and environmental quality and reduction in crop yields. Results suggest that novel management approaches are needed to maintain the longterm sustainability of soil resources and crop yields without seriously degrading the environment that this will help in reducing the cost of fertilization and improving soil and environmental quality without altering crop yields.Keywords: Sustainability, Spatial variability, Multiple regression, Organic matter
-
سابقه و هدفمتخصصین اصلاح نباتات جهت انتخاب اهداف اصلاحی خود از میان صفات مختلف فیزیولوژیکی و مورفولوژیکی نیازمند دسته بندی محدودیت ها و همچنین قابلیت های موجود در گیاهان هستند؛ این موضوع باعث به وجود آمدن مفهومی به نام تیپ ایده آل شده است. رسیدن به تیپ ایده آل گیاهان زراعی مستلزم استفاده از روش های آماری مناسب است. هدف این مطالعه معرفی روش استفاده از مدل سازی رگرسیونی جهت تعیین تیپ ایده آل گیاهان زراعی به صورت موردی بر روی گیاه آفتابگردان در جنوب شهرستان گنبد کاووس می باشد.مواد و روش هابا انجام آزمایشی با طرح پایه بلوک های کامل تصادفی با چهار تکرار و 12 هیبرید آفتابگردان، داده های مورد نیاز جهت استفاده در مدل سازی رگرسیونی جمع آوری شدند. به منظور تعیین مهمترین صفات و نشان دادن سهم صفات مختلف در تشکیل و تعیین عملکرد دانه از روش گزینش متغیر و رگرسیون چندگانه استفاده شد. با استفاده از رگرسیون چندگانه، ارتباط بین عملکرد با کلیه صفات به صورت کمی تعیین شد. همچنین با توجه به همبستگی منفی و یا مثبت موجود بین متغیرهای موثر در عملکرد، برای تعیین تیپ ایده آل فرضیه های مختلفی مطرح و جوانب مختلف آن مورد بررسی قرار گرفت.یافته هاپنج صفت حداکثر تجمع ماده خشک، حداکثر تعداد برگ، وزن هزار دانه، درصد پوکی و درصد روغن که در افزایش عملکرد بیشترین نقش را داشتند، با استفاده از رگرسیون چندگانه، شناسایی و مقدار مطلوب هر یک از آنها مشخص شدند. این پنج متغیر، 57 درصد از تغییرات عملکرد را توجیه نمودند. نتایج نشان داد چنانچه ارتباط و همبستگی موجود بین برخی صفات دستخوش تغییرات قرار گیرد، می توان از آن به نفع عملکرد بهره جست. با توجه به همبستگی منفی موجود بین دو متغیر درصد روغن و حداکثر ماده خشک، برای تعیین تیپ ایده آل فرضیاتی مطرح شدند. اگر همبستگی موجود بین صفات درصد روغن و حداکثر تجمع ماده خشک قابل شکستن نباشد، عملکرد تیپ ایده آل نسبت به متوسط عملکرد هیبریدهای آفتابگردان 812 (از 2080 به 2892) کیلوگرم در هکتار افزایش خواهد یافت. در صورتی که مقدار حداکثر ماده خشک افزایش و درصد روغن در حد متوسط بماند، عملکرد تیپ ایده آل 873 (از 2080 به 2953) کیلوگرم در هکتار افزایش می یابد و چنانچه همبستگی بین حداکثر ماده خشک و درصد روغن شکسته شود، مقدار افزایش عملکرد 999 (از 2080 به 3079) کیلوگرم در هکتار خواهد بود.نتیجه گیریتیپ ایده آل تعیین شده باعث می شود متوسط عملکرد از 2080 کیلوگرم در هکتار به 2892 تا 3079 کیلو گرم در هکتار در تیپ ایده آل قابل افزایش یابد. نتایج روش مورد استفاده در این تحقیق به علت اینکه به اختلافات ژنتیکی بین ارقام توجه دارد، می تواند در کنار سایر روش ها راهگشای متخصصان اصلاح نباتات در جهت حرکت به سمت تیپ ایده آل گیاهان زراعی باشد.کلید واژگان: آفتابگردان، تیپ ایده آل، مدل عملکرد، رگرسیون چندگانهBackground And ObjectivesPlant breeders to select their breeding objectives through the physiological and morphological characteristics, require classification of the limitations and capabilities which exists in plants; this issue leads to the concept of the ideotype. Designing plant ideotypes entails appropriate statistical methods. The objective of this study was to introduce a method based on multiple regressions to find ideotype with a case study of sunflower in Gonbad.Materials And MethodsSunflower was chosen as an example. Data were produced using 12 sunflower genotypes in a randomized block design in south of Gonbad city. Using multiple regressions in order to determine the important traits and to show the contribution of each trait in formation of yield. The method identified the relation between yield and all variables in a quantify matter. Also according to the positive or negative correlation between the variables affecting the yield, to designing ideotype, various hypotheses put forward and various aspects of them was examined.ResultsFive important traits in determining sunflower yield were recognized in this study. They were total dry mass production, maximum leaf number, grain weight, the percentage of empty achene and the percentage of oil. Then, the optimal values of each trait were determined by the method. These five variables explained 57% of yield. The results indicate that if the correlation between some traits would be changed, it can be used for the benefit of yield. Regarding negative correlation between oil percentage and total dry mass, several hypotheses were evaluated. If the negative correlation between max. dry matter and oil content is not breakable, the yield of ideotype would have an increasing of 812 (from 2080 to 2892) kg ha-1 in comparison with sunflower hybrids. If with increasing max. dry mater, oil content stay at moderate level, it would be an increasing of 873 (from 2080 to 2953) kg ha-1 in ideotype, and if correlation between max. dry matter and oil content is breakable, it would be an increasing of 999 (from 2080 to 3079) kg ha-1 in ideotype.ConclusionThe designed ideotype would increase grain yield from an average of 2080 kg ha-1 to 2892-3079 kg ha-1 in the ideotype. It was concluded that the method used in this study, because of concerning the genetic differences between varieties, can be used in determining plant ideotypes in conjunction with other methods and it can guide plant breeders to move through ideotype crops.Keywords: Plant breeding, plant ideotype, multiple regression, correlation
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.