unsupervised method
در نشریات گروه برق-
با گسترش سریع تکنولوژی، حجم عظیمی از داده های بدون برچسب با ابعاد زیاد، نیاز به پردازش پیدا کردند. برای کاهش ابعاد، انتخاب ویژگی غیرنظارتی، به عنوان یک پیش مرحله مهم قبل از وظایف یادگیری ماشین، شناخته می شود. در این مقاله، یک روش انتخاب ویژگی غیرنظارتی پیشنهاد می شود. روش مذکور بر اساس گراف ماتریس و ماتریس وزنی، به صورت پویا و مقیاس پذیر عمل می کند. برای بهبود عمکرد این روش، به جای استفاده از تابع لاگرانژ در ساخت ماتریس وزنی، تیوری گراف دو قسمته اعمال می شود. انتخاب ویژگی روی گراف ماتریس انجام می شود. این گراف با به کارگیری k نزدیک ترین همسایه ساخته می شود، که روش را نسبت به نویز مقاوم تر می کند. همچنین ساختار سراسری داده ی اصلی، از طریق ساخت ماتریس وزن بازسازی شده با کمک محدودیت رتبه پایین، حفظ می شود. علاوه براین، نمره ی ویژگی، که به طور صریح قدرت مندی ویژگی ها را منعکس می کند، با کمک تابع Frobenius norm مدل می شود. روش پیشنهادی با روش های مشابه در سه معیار دقت کلاس بندی، حساسیت به پارامتر و پیچیدگی زمانی مقایسه شده است. آزمایش ها نشان می دهد که دقت کلاس بندی روش ارایه شده ی این مقاله، به طور متوسط 2.83% بهبود یافته است. همچنین پیچیدگی زمانی آن تا max{O(n2d),O(nm)} کاهش یافته است، که n تعداد نمونه ها، d تعداد ویژگی ها و m تعداد نقاط لنگر هستند.
کلید واژگان: داده کاوی، پیش پردازش، انتخاب ویژگی، روش غیرنظارتی، گرافJournal of Iranian Association of Electrical and Electronics Engineers, Volume:20 Issue: 3, 2023, PP 135 -148With the rapid spread of technology, large volumes of unlabeled data with large dimensions needed to be processed. To reduce the dimensions, unsupervised feature selection is known as an important pre-step before machine learning tasks. In this paper, an unsupervised feature selection method is proposed. The method works dynamically and is scalable based on matrix graphs and weighted matrices. To improve the performance of this method, instead of using the Lagrange function to construct a weight matrix, a bipartite graph theory is applied. Feature selection is done on the matrix graph. This graph is constructed using k nearest neighbors, which makes the method more robust to noise. The global structure of the original data is also preserved by constructing a Reconstruction Weight Matrix with low-rank constraint. In addition, the feature score, which explicitly reflects the strength of the features, is modeled using the Frobenius norm function. The proposed method is compared with similar methods in three criteria of classification accuracy, parameter sensitivity and complexity. Experiments show that the classification accuracy of the method presented in this paper has improved by an average of 2.83%. Its complexity has also been reduced to max{O(n2d),O(nm)}, where n is the number of samples, d is the number of features and m is the number of anchor points.
Keywords: Data mining, Preprocessing, Feature selection, Unsupervised method, Graph
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.