جستجوی مقالات مرتبط با کلیدواژه
imputation methods
در نشریات گروه فنی و مهندسی
تکرار جستجوی کلیدواژه imputation methods در مقالات مجلات علمی
-
Diabetes poses significant challenges due to its prevalence and the potential consequences of inaccurate or delayed diagnosis. This study focuses on enhancing prediction reliability to mitigate such risks. Initially, it identifies diabetes-related factors through correlation analysis with the target variable and implements models to address missing data. Subsequently, various imputation methods including CART, GMM, and RFR are employed to evaluate these factors. Results from each imputation scenario inform the selection of the most effective method. The study then employs ensemble algorithms like AdaBoost, Bagging, Gradient Boosting, and RF to enhance classification model accuracy. Further refinement is achieved by optimizing hyper-parameters through grid search. Evaluation involves comparing model predictions with those of medical professionals to assess accuracy. The findings reveal superior performance of optimized machine learning models over human predictions, indicating potential for improved diagnosis accuracy and reduced medical errors. This research contributes to advancing predictive modeling in diabetes diagnosis, offering prospects for enhanced community health and reduced socioeconomic burdens.Keywords: Diabetes, Prediction, Machine Learning, Ensemble Learning, Gaussian Mixture Models, Imputation Methods
-
در این تحقیق به بررسی روش های جانهی مقادیر سانسور شده در مجموعه داده های چند متغیره ژئوشیمیایی پرداخته شده است. وجود مقادیر گم شده باعث محدودیت در استفاده از اغلب روش های آماری همچون تحلیل مولفه های اصلی می شود. حذف نمونه های شامل داده های گم شده باعث اریب شدن نتایج و از دست دادن اطلاعات می شود به همین دلیل در نظر گرفتن رویکردی مناسب در مواجهه با داده های گم شده یک نیاز اساسی در تحلیل مجموعه داده های ناکامل است. در این مقاله، با توجه به ماهیت ترکیبی داده های ژئوشیمیایی، چند روش مناسب برای جانهی مقادیر گم شده که در چند سال اخیر ارائه شده اند و به سادگی در محیط نرم افزار آماری Rقابل اجرا هستند، معرفی شده اند. در نهایت با استفاده از یک مجموعه داده کامل مربوط به منطقه ظفرقند، این روش ها با یکدیگر مقایسه شده اند. نتایج نشان می دهند که استفاده از روش های چند متغیره برای جانهی و به طور خاص روش ilr-EMنسبت به دیگر روش ها ارجحیت دارند.
کلید واژگان: داده های ژئوشیمیایی، مقادیر سانسور شده، روش های جانهی، ماهیت ترکیبی، روش ilr، EMThis study deals with the imputation methods of censored values in the multivariable geochemical data. Presence of the missing values causes limitation in the use of most of statistical methods, e.g. principle component analysis. Excluding the samples which include missing values bias the results and leads to the loss of information. Due to this, consideration of an appropriate approach to deal with missing values is necessary in the analysis of incomplete datasets. In this paper considering the nature of geochemical data, various approaches for imputing the missing values, which have been suggested in the recent years and are easy to be used in the R statistic software, are introduced. Finally, using the complete dataset of the Zafarghand region, these methods are compared with each other. Results show that the application of the multivariable methods in the imputation and particularly the ilr-EM method is preferable to the other methods.Keywords: Geochemical data, censored values, imputation methods, compositional nature, ilr, Em -
Quality of products has been one of the most important issues for manufacturers in the recent decades. One of the challenging issues is evaluating capability of the process using process capability indices. On the other hand, usually the missing data is available in many manufacturing industries. So far, the performance of estimation methods of missing data on process capability indices has not been evaluated. Hence, we analyze the performance of a process capability index when we deal with the missing data. For this purpose, we consider a multivariate process capability index and evaluate four methods including Mean Substitution, EM algorithm, Regression Imputation and Stochastic Regression Imputation to estimate missing data. In the analysis, factors including percent of missing data (k), sample size (m), correlation coefficients (r) and the estimation methods of missing data are investigated. We evaluate the main and interaction effects of the factors on response variable which is defined as difference between the estimated index and the computed index with full data by using General Linear Model in ANOVA table. The results of this research show that the Stochastic Regression Imputation has the best performance among the estimation methods and the percent of missing data (k) has the highest effect on response variable. Also, we conclude that the sample size has the lowest effect on response variable among the mentioned factors.Keywords: Process Capability Index, Missing Data, Imputation Methods, Response Variable, Main, Interaction Effects
نکته
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.