به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت
جستجوی مقالات مرتبط با کلیدواژه

instance selection

در نشریات گروه برق
تکرار جستجوی کلیدواژه instance selection در نشریات گروه فنی و مهندسی
تکرار جستجوی کلیدواژه instance selection در مقالات مجلات علمی
  • پرستو محقق، سمیرا نوفرستی *، مهری رجائی

    در عصر کلان داده ها، تکنیک های تجزیه و تحلیل خودکار مانند داده کاوی به طور گسترده ای برای تصمیم گیری به کار گرفته شده و بسیار موثر واقع شده اند. از جمله تکنیک های داده کاوی می توان به طبقه بندی اشاره کرد که یک روش رایج برای تصمیم گیری و پیش بینی است. الگوریتم های طبقه بندی به طور معمول بر روی مجموعه داده های متوازن به خوبی عمل می کنند. با وجود این، یکی از مشکلاتی که الگوریتم های طبقه بندی با آن مواجه هستند، پیش بینی صحیح برچسب نمونه های جدید بر اساس یادگیری بر روی مجموعه داده های نامتوازن است. در این نوع از مجموعه داده ها، توزیع ناهمگونی که داده ها در کلاس های مختلف دارند باعث نادیده گرفته شدن نمونه های کلاس با تعداد نمونه کمتر در یادگیری طبقه بند می شوند؛ در حالی که این کلاس در برخی مسائل پیش بینی دارای اهمیت بیشتری است. به منظور مقابله با مشکل مذکور در این مقاله، روشی کارا برای متعادل سازی مجموعه داده های نامتوازن ارائه می شود که با متعادل نمودن تعداد نمونه های کلاس های مختلف در مجموعه داده ای نامتوازن، پیش بینی صحیح برچسب کلاس نمونه های جدید توسط الگوریتم یادگیری ماشین را بهبود می بخشد. بر اساس ارزیابی های صورت گرفته، روش پیشنهادی بر اساس دو معیار رایج در ارزیابی طبقه بندی مجموعه داده های نامتوازن به نام های «صحت متعادل» و «ویژگی»، عملکرد بهتری در مقایسه با روش های دیگر دارد.

    کلید واژگان: انتخاب نمونه، داده افزایی، طبقه بندی، مجموعه داده نامتوازن، داده کاوی، یادگیری ماشین
    Parastoo Mohaghegh, Samira Noferesti *, Mehri Rajaei

     In the era of big data, automatic data analysis techniques such as data mining have been widely used for decision-making and have become very effective. Among data mining techniques, classification is a common method for decision making and prediction. Classification algorithms usually work well on balanced datasets. However, one of the challenges of the classification algorithms is how to correctly predicting the label of new samples based on learning on imbalanced datasets. In this type of dataset, the heterogeneous distribution of the data in different classes causes examples of the minority class to be ignored in the learning process, while this class is more important in some prediction problems. To deal with this issue, in this paper, an efficient method for balancing the imbalanced dataset is presented, which improves the accuracy of the machine learning algorithms to correct prediction of the class label of new samples. According to the evaluations, the proposed method has a better performance compared to other methods based on two common criteria in evaluating the classification of imbalanced datasets, namely "Balanced Accuracy" and "Specificity".

    Keywords: Instance selection, data augmentation, classification, imbalanced data, data mining, machine learning
  • جواد حمیدزاده*، منا مرادی

    تحلیل تفکیک کننده خطی یکی از روش های پرکاربرد در حوزه کاهش ابعاد فضای ویژگی و طبقه بندی داده ها به وسیله بیشینه سازی نسبت پراکندگی بین طبقه ها به پراکندگی درون طبقه ها است. این روش مبتنی بر معیار فیشر بوده و از تحلیل واریانس برای بیان تفکیک پذیری طبقه ها استفاده می کند. مهم ترین محدودیت این معیار در مواجهه با داده های ناهمگن است. برای رفع این محدودیت، استفاده از فواصل توزیعی نظیر معیار چیرنف پیشنهاد شده است. معیار چیرنف با در نظر گرفتن فاصله چیرنف میان دو توزیع داده، قادر به اندازه گیری فواصل میان توابع چگالی احتمال و استخراج ویژگی هایی با بیش ترین قابلیت تفکیک کنندگی است؛ اما ایراد این روش آن است که چنانچه دو توزیع طبقه داده های ناهمگن از یکدیگر فاصله کمی داشته باشند، موجب هم پوشانی طبقه ها در فضای نگاشت شده و باعث افزایش خطای طبقه بندی می شود. این مقاله، با معرفی روش انتخاب نمونه با نام حاشیه بیشینه ای به شناسایی نمونه های مرزی و غیرمرزی پرداخته و با بهره گیری از نمونه های مرزی، ماتریس پراکندگی مطلوبی برای افزایش کارایی تحلیل تفکیک کننده خطی ایجاد می کند. در روش پیشنهادی، فرایند انتخاب نمونه همانند یک مساله بهینه سازی مقید دودویی در نظر گرفته شده و جواب های مساله با استفاده از تابع پرکننده به دست می آیند. عملکرد روش پیشنهادی بر روی داده های برگرفته شده از پایگاه داده UCI به وسیله روش اعتبارسنجی ضرب دری ده تایی ارزیابی و با طبقه بندهای سنتی و مرز دانش مقایسه شده است. آزمایش ها نشان دهنده برتری روش پیشنهادی از نظر صحت طبقه بندی و زمان محاسبه است.

    کلید واژگان: طبقه بندی داده ها، معیار چیرنف، حاشیه حداکثری، تابع پرکننده
    Javad Hamidzadeh*, Mona Moradi

    Linear discriminant analysis is a well-known matrix-based dimensionality reduction method. It is a supervised feature extraction method used in two-class classification problems. However, it is incapable of dealing with data in which classes have unequal covariance matrices. Taking this issue, the Chernoff distance is an appropriate criterion to measure distances between distributions. In the proposed method, for data classification, LDA is used to extract most discriminative features but instead of its Fisher criterion, the Chernoff distance is employed to preserve the discriminatory information for the several classes with heteroscedastic data. However, the Chernoff distance cannot handle the situations where the component means of distributions are close and leads to the component distribution overlap and underperforming classification. To overcome this issue, the proposed method designs an instance selection method that provides the appropriate covariance matrices. Aiming to improve LDA-based feature selection, the proposed method includes two phases: (1) it removes non-border instances and keeps border ones by introducing a maximum margin sampling method. The basic idea of this phase is based on keeping the hyperplane that separates a two-class data and provides large margin separation. In this way, the most representative instances are selected. (2) It extracts features on selected instances by the proposed extension of LDA which generates a desirable scatter matrix to increase the efficiency of LDA. In the proposed method, the instance selection process is considered a constrained binary optimization problem with two contradicting objects, and the problem solutions are obtained by using a heuristic method named filled function. This optimization method does not easily get stuck in local minima; meanwhile, it is not affected by improper initial points. The performance of the proposed method on data collected from the UCI database is evaluated by 10-fold validation. The results of experiments are compared to several competing methods, which show the superiority of the proposed method in terms of classification accuracy percentage and computational time.

    Keywords: Chernoff criterion, Data classification, Instance selection, Filled function, Maximum margin
  • زینب عباسی، محسن رحمانی*، حسین غفاریان

    افزایش استفاده از اینترنت و برخی از پدیده ها مانند شبکه های حس گر، منجر به افزایش غیر ضروری اطلاعات شده است. اگرچه این امر مزایای بسیاری دارد، اما باعث ایجاد مشکلاتی مانند نیاز به فضای ذخیره سازی و پردازنده های بهتر و همچنین پالایش اطلاعات برای حذف اطلاعات غیرضروری می شود. الگوریتم های کاهش داده، روش هایی برای انتخاب اطلاعات مفید از مقدار زیادی داده های تکراری، ناقص و زاید فراهم می کنند. در این مقاله، الگوریتم ReliefF که یک الگوریتم رتبه بندی ویژگی است، تغییر داده شده تا به طور هم زمان ویژگی ها و نمونه ها را انتخاب کند. الگوریتم پیشنهاد شده می تواند بر روی ویژگی های اسمی و عددی و مجموعه داده ها با مقادیر مفقود اجرا و هم چنین، می تواند به صورت موازی روی یک پردازنده چند هسته ای اجرا شود، که این امر باعث کاهش بسیار چشم گیر زمان اجرا و امکان اجرای آن روی مجموعه داده های بزرگ می شود؛ علاوه بر این، در این الگوریتم، انتخاب نمونه از هر رده متناسب با احتمال پیشین رده است و در نتیجه توازن و نسبت اولیه رده ها در مجموعه اصلی از بین نخواهد رفت. نتایج آزمایش بر روی چهار مجموعه داده نشان دهنده موفقیت الگوریتم پیشنهادی در این امر است.

    کلید واژگان: کاهش داده ها، انتخاب نمونه، انتخاب ویژگی، ReliefF
    Zeinab Abbasi, Mohsen Rahmani*, Hossein Ghaffarian

    Increasing the use of Internet and some phenomena such as sensor networks has led to an unnecessary increasing the volume of information. Though it has many benefits, it causes problems such as storage space requirements and better processors, as well as data refinement to remove unnecessary data. Data reduction methods provide ways to select useful data from a large amount of duplicate, incomplete and redundant data. These methods are often applied in the pre-processing phase of machine learning algorithms. Three types of data reduction methods can be applied to data: 1. Feature reduction.2. Instance reduction: 3. Discretizing feature values. In this paper, a new algorithm, based on ReliefF, is introduced to decrease both instances and features. The proposed algorithm can run on nominal and numeric features and on data sets with missing values. In addition, in this algorithm, the selection of instances from each class is proportional to the prior probability of classes. The proposed algorithm can run parallel on a multi-core CPU, which decreases the runtime significantly and has the ability to run on big data sets. One type of instance reduction is instance selection. There are many issues in designing instance selection algorithms such as representing the reduced set, how to make a subset of instances, choosing distance function, evaluating designed reduction algorithm, the size of reduced data set and determining the critical and border instances. There are three ways of creating a subset of instances. 1) Incremental. 2) Decremental. 3) Batch. In this paper, we use the batch way for selecting instances. Another important issue is measuring the similarity of instances by a distance function. We use Jaccard index and Manhattan distance for measuring. Also, the decision on how many and what kind of instances should be removed and which must remain is another important issue. The goal of this paper is reducing the size of the stored set of instances while maintaining the quality of dataset. So, we remove very similar and non-border instances in terms of the specified reduction rate. The other type of data reduction that is performed in our algorithm is feature selection. Feature selection methods divide into three categories: wrapper methods, filter methods, and hybrid methods. Many feature selection algorithms are introduced. According to many parameters, these algorithms are divided into different categories; For example, based on the search type for the optimal subset of the features, they can be categorized into three categories: Exponential Search, Sequential Search, and Random Search. Also, an assessment of a feature or a subset of features is done to measure its usefulness and relevance by the evaluation measures that are categorized into various metrics such as distance, accuracy, consistency, information, etc. ReliefF is a feature selection algorithm used for calculating a weight for each feature and ranking features. But this paper is used ReliefF for ranking instances and features. This algorithm works as follows: First, the nearest neighbors of each instances are found. Then, based on the evaluation function, for each instance and feature, a weight is calculated, and eventually, the features and instances that are more weighed are retained and the rest are eliminated. IFSB-ReliefF (Instance and Feature Selection Based on ReliefF) algorithm is tested on two datasets and then C4.5 algorithm classifies the reduced data. Finally, the obtained results from the classification of reduced data sets are compared with the results of some instance and feature selection algorithms that are run separately.

    Keywords: data reduction, instance selection, feature selection, ReliefF
  • خدیجه کمری، فرزان رشیدی*، عبدالله خلیلی

    داده های ریزآرایه نقش موثری در طبقه بندی و تشخیص انواع بافت های سرطانی ایفا می کنند. با این حال در پژوهش های مرتبط با سرطان، تعداد نسبتا کم نمونه ها در مقایسه با تعداد بسیار زیاد ژن ها‏، باعث ایجاد مشکلاتی از قبیل کاهش کارایی طبقه بندها، افزایش هزینه های محاسباتی و پیچیدگی در طبقه بندی سلول های سرطانی خواهد شد. یک راهکار‏ مناسب جهت افزایش کارایی طبقه بندها، حذف ژن ها‏ی نامربوط و انتخاب نمونه های مناسب برای آموزش طبقه بندها است. در این مقاله یک مدل ترکیبی بر پایه الگوریتم بهینه سازی جستجوی فاخته چندهدفه و خوشه بندی فازی برای طبقه بندی داده های ریزآرایه پیشنهاد شده است. در این مطالعه از نسخه دودویی الگوریتم جستجوی فاخته چندهدفه به منظور انتخاب ویژگی های مرتبط با بیماری و از نسخه پیوسته آن برای انتخاب تعداد نمونه های مناسب برای آموزش طبقه بندها استفاده شده است. به منظور تسریع در فرایند بهینه سازی و جلوگیری از گیرافتادن الگوریتم در بهینه های محلی، راهکار‏های ابتکاری جدیدی نیز به الگوریتم اضافه شده اند. برای بررسی عملکرد مدل پیشنهادی، شبیه سازی های متعددی بر روی شش مجموعه داده سرطانی انجام گرفته و نتایج آن با دیگر مقالات مقایسه شده است. نتایج به دست آمده نشان می دهند در بسیاری از موارد مدل پیشنهادی قادر است در مقایسه با سایر روش ها، با انتخاب مجموعه کوچک تری از ژن ها‏ی متمایز، منجر به افزایش کارایی طبقه بندها شود.

    کلید واژگان: انتخاب ویژگی، انتخاب نمونه، داده کاوی، ریزآرایه، الگوریتم جستجوی فاخته چندهدفه، خوشه بندی فازی
    kh. Kamari, f. rashidi*, a. Khalili

    Microarray datasets have an important role in identification and classification of the cancer tissues. In cancer researches, having a few samples of microarrays in cancer researches is one of the most concerns which lead to some problems in designing the classifiers. Moreover, due to the large number of features in microarrays, feature selection and classification are even more challenging for such datasets. Not all of these numerous features contribute to the classification task, and some even impede performance. Hence, appropriate gene selection method can significantly improve the performance of cancer classification. In this paper, a modified multi-objective cuckoo search algorithm is used to feature selection and sample selection to find the best available solutions. For accelerating the optimization process and preventing local optimum trapping, new heuristic approaches are included to the original algorithm. The proposed algorithm is applied on six cancer datasets and its results are compared with other existing methods. The results show that the proposed method has higher accuracy and validity in comparison to other existing approaches and is able to select the small subset of informative genes in order to increase the classification accuracy.

    Keywords: Feature selection, instance selection, microarray, multi-objective Cuckoo search algorithm, fuzzy clustering
  • Zeinab Basereh, Shahram Golzari, Abbas Harifi
    In this paper, the binary gravitational search algorithm and support vector machines have been used to diagnose epilepsy. At first, features are extracted from EEG signals by using wavelet transform and fast fractional Fourier transform. Then, the binary gravitational search algorithm is used to perform feature selection, instance selection and parameters optimization of support vector machines, and finally constructed models are used to classify normal subjects and epilepsy patients. The appropriate choice of instances, features and classifier parameters; considerably affects the recognition results. In addition, the dimension reduction of the features and instances is important in terms of required space to store data and required time to execute the classification algorithms. Feature selection, instance selection and parameters optimization of support vector machines have been implemented both simultaneously and stepwise. The performance metrics in this study are accuracy, sensitivity, specificity, number of selected features, number of selected instances and execution time. The results of experiments indicate that the simultaneous implementation of feature selection, instance selection and support vector machines parameters optimization leads to better results in terms of execution time in comparison with the stepwise implementation. In the stepwise implementation, performing instance selection process before feature selection leads to better results in terms of accuracy, sensitivity and specificity, as well as reduction of execution time. The results show that the proposed methods achieve noteworthy accuracy in comparison with other methods that were used to diagnose epilepsy.
    Keywords: Epilepsy Diagnosis, Gravitational Search Algorithm, Support Vector Machines, Instance Selection, Feature Selection, Parameters Optimization
نکته
  • نتایج بر اساس تاریخ انتشار مرتب شده‌اند.
  • کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شده‌است. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
  • در صورتی که می‌خواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال