linear regression
در نشریات گروه فیزیک-
در این مقاله با استفاده از شبیه سازی کوانتومی مبتنی بر نظریه تابعی چگالی، گاف انرژی 300 ترکیب نیتریدی مورد بحث و بررسی قرار گرفت. گاف انرژی ترکیبات با استفاده از دو تقریب GGA-PBE و HSE06 محاسبه شده است. پارامترهای مورد بررسی در مطالعات یادگیری ماشین به دو دسته پارامترهای اتمی و کریستالی دسته بندی شده اند. پارامترهای اتمی عبارتند از شعاع کووالانسی، الکترونگاتیوی، تعداد الکترون های ظرفیت و اولین انرژی یونیزاسیون. بعد از جمع آوری داده های ویژگی های اتمی مدل رگرسیون خطی چندگانه به داده ها برازش داده شد. در ادامه با روش رگرسیون گام به گام با معیار AICc انتخاب متغیر انجام شده است و اندازه اثر ویژگی های مختلف محاسبه شده است. همچنین برای افزایش دقت مدل در پیش بینی HSE، سه ویژگی بلوری نیز در مدل گنجانده شده اند و 8 مدل مختلف هر کدام با حضور یک یا چند مورد از سه ویژگی بلوری فوق برازش داده شده است. یافته ها نشان می دهد مدلی که هیچکدام از متغیرهای بلوری در آن حضور ندارند دارای ضریب تعیین تعدیل شده (R2) به میزان به ترتیب 75.45% است که با اضافه شده ویژگی های بلوری، نتایج به میزان قابل توجهی بهبود پیدا می کند. به طور مشخص اضافه شدن متغیر گاف انرژی PBE باعث افزایش R2 به میزان 99.03% (از 75.45% به 99.03%) دارد.
کلید واژگان: گاف انرژی، نظریه تابعی چگالی، نیمه رسانا، یادگیری ماشین، رگرسیون خطیIn this article, the energy gap of 300 nitride compounds was analyzed and investigated using quantum simulations based on Density Functional Theory (DFT). The energy gaps of the compounds were calculated using two approximations, GGA-PBE and HSE06. The parameters considered in the machine learning studies were categorized into two groups: atomic and crystalline parameters. The atomic parameters include covalent radius, electronegativity, the number of valence electrons, and the first ionization energy. After collecting data on atomic features, a multiple linear regression model was fitted to the data. Subsequently, variable selection was performed using the stepwise regression method with the AICc criterion, and the effect size of various features was calculated. Additionally, to improve the accuracy of the model in predicting HSE06, three crystal features were incorporated into the model, and eight different models were fitted, each including one or more of these crystal features. The findings indicate that the model without any crystal variables has an adjusted coefficient of determination (R²) of 75.45%. However, with the inclusion of crystal features, the results improve significantly. Specifically, adding the PBE energy gap as a variable increases the R² to 99.03% (from 75.45% to 99.03%).
Keywords: Energy Gap, Density Functional Theory, Semiconductor, Machine Learning, Linear Regression -
نواقص آماری عاملی رایج در داده های اقلیمی هستند و برای تخمین آنها تا به حال روش های متنوعی توسعه یافته اند. در این میان، روش های نسبت نرمال، رگرسیون خطی، رگرسیون چندمتغیره و عکس مجذور فاصله یا IDW از کاربرد گسترده ای در مطالعات منابع طبیعی کشور ما برخوردار هستند. در پژوهش حاضر، قابلیت هر یک از روش های مذکور در بازسازی نواقص آماری بارش روزانه، ماهانه و سالانه مناطق خشک کشور متناسب با میزان نسبت نقص داده از 5 درصد تا 50 درصد داده ها موردارزیابی قرارگرفت. نتایج نشان داد که هر روش متناسب با شرایط میزان داده های گم شده از عملکرد متفاوتی برخوردار است. روش رگرسیون چند متغیره هنگامی که نقص داده ها زیاد نباشد از دقت بیشتری در بازسازی داده های روزانه برخوردار است ولی در کل به میزان نسبت داده های گم شده حساس می باشد. روش نسبت نرمال در بازسازی نواقص بارش روزانه مناسب نیست ولی نسبت به میزان نقص داده ها از سایر روش ها پایدارتر است. در سری های زمانی ماهانه عملکرد IDW و سپس نسبت نرمال مناسب است. در سری های سالانه به ترتیب، روش همبستگی خطی، نسبت نرمال و IDW عمکرد بهتری دارند. در کل هر روش متناسب با شرایط بایستی مورد استفاده قرارگیرد و پیشنهاد می شود برای بازسازی نواقص آماری، یک بسته نرم افزاری برای کل کشور ارایه شود.
کلید واژگان: نقص داده، نسبت نرمال، همبستگی خطی، بازسازی، بارشMissing data are common issue in climate data. Also precipitation is a very important part of the hydrological cycle and meteorological and hydrological studies of watersheds, initially depend on the quantity and quality of recorded rainfall data and its distribution in the area. Complete and reliable sets of climatic and hydrological data are required for planning and design of these projects. Therefore for treatment of precipitation missing data, various methods have been developed and applied. Normal ratio method, linear regression, multivariate regression and inverse distance weighting (IDW) have a wide applications in natural resources study in our country. Therefore, it is necessary to determine the ability of these methods, especially in relation to the precipitation parameter, which plays a crucial role in the study of natural resources. In this study, the capability of each mentioned methods for infilling missing data of daily, monthly and annual precipitation time series in the arid regions of Iran was investigated for varying proportion of missing data from 5 to 50% of total data. In fact, the main purpose of this study is to answer the question of which of the four mentioned methods are more effective for infilling precipitation missing data. The daily data of Iran’s synoptic meteorological stations were used for the present study. Using the Run homogeneity test, the data homogeneity was investigated. Also, using graphical exploring data, and especially boxplot diagrams, outlier data were identified and flagged as missing data. The average annual precipitation and temperature of 400 stations were determined, and then based on these data their de Martonne coefficients were computed. In the next step, stations with de Martonne coefficient less than 10 were selected as arid climate. Among them, 73 stations that had sufficient data from 1986 to 2017 were distinguished. To evaluate each of the data reconstruction methods, part of the actual data was deliberately discarded from the original data and then reconstructed. Due to high volume of calculations, this process was programmed in MATLAB software. The results showed that each method had different functionality according to the conditions. Daily data are not well estimated using the normal ratio method to estimate the missing data less than the actual one. The use of linear regression method showed that in daily time scale, unlike the normal ratio method, the model accuracy in data reconstruction is higher. For linear regression approach, the distance between the fitted line between the observed and estimated data is small at first, and as the precipitation increases, this distance increases, indicating that the model is less accurate in estimating the extreme values. Given that the fitting line is below the 1:1 line, the linear regression method estimates the actual values below normal. The same results can be found for IDW producer. The multivariate regression method is more accurate for daily time series when the proportion of missing data are not considerable, but is generally very sensitive to the proportion of missing data. The normal ratio method is not suitable for reconstructing daily missing values, however it is more stable than other methods when missing data increase. In monthly time series, the performance of the IDW method and then the normal ratio is better. In annual series, linear correlation, normal ratio, and IDW have better performances, respectively. The findings of this study show that in general, the accuracy of reconstructions on annual scales is more than monthly and on monthly scales is higher than daily. This is due to smoother time series in the monthly and annual time series than the daily ones. Also it should be noted that the scale of current studies is in Iran. If the data from the reserved rain-gauge stations of the Meteorological Organization and the Ministry of Energy are added to this data, the accuracy of the methods is expected to increase. As the results of the present study show, the accuracy of the models decreases with increasing incomplete data ratio. Therefore, if new data is included in missing data processing, there is an expectation of better performance of each of these methods. Finally it should be considered that each method should be used in accordance with the given conditions, and therefore it is recommended to develop a software package for infilling missing data in Iran.
Keywords: Gap in data, linear regression, Normal Ratio, Infilling, Precipitation
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.