nonnegative matrix factorization
در نشریات گروه برق-
Journal of Electrical and Computer Engineering Innovations, Volume:11 Issue: 2, Summer-Autumn 2023, PP 443 -458Background and ObjectivesCommunity detection is a critical problem in investigating complex networks. Community detection based on modularity/general modularity density are the popular methods with the advantage of using complex network features and the disadvantage of being NP-hard problem for clustering. Moreover, Non-negative matrix factorization (NMF)-based community detection methods are a family of community detection tools that utilize network topology; but most of them cannot thoroughly exploit network features. In this paper, a hybrid NMF-based community detection infrastructure is developed, including modularity/ general modularity density as more comprehensive indices of networks. The proposed infrastructure enables to solve the challenges of combining the NMF method with modularity/general modularity density criteria and improves the community detection methods for complex networks.MethodsFirst, new representations, similar to the model of symmetric NMF, are derived for the model of community detection based on modularity/general modularity density. Next, these indices are innovatively augmented to the proposed hybrid NMF-based model as two novel models called ‘general modularity density NMF (GMDNMF) and mixed modularity NMF (MMNMF)’. In order to solve these two NP-hard problems, two iterative optimization algorithms are developed.Resultsit is proved that the modularity/general modularity density-based community detection can be consistently represented in the form of SNMF-based community detection. The performances of the proposed models are verified on various artificial and real-world networks of different sizes. It is shown that MMNMF and GMDNMF models outperform other community detection methods. Moreover, the GMDNMF model has better performance with higher computational complexity compared to the MMNMF model.ConclusionThe results show that the proposed MMNMF model improves the performance of community detection based on NMF by employing the modularity index as a network feature for the NMF model, and the proposed GMDNMF model enhances NMF-based community detection by using the general modularity density index.Keywords: Complex Networks, Nonnegative Matrix Factorization, Modularity, General Modularity Density, Graph Clustering
-
سیستم های توصیه گر، یکی از ابزارهای موثر برای کمک به کاربران است تا آیتم های مورد علاقه خودشان را پیدا کنند. سیستم های پالایش گروهی یکی از مشهورترین الگوریتم های توصیه به شمار می روند و در کارهای تجاری مختلفی استفاده شده اند. اما این سیستم ها در برخورد با کاربران و کالاهایی(آیتم هایی) که اطلاعات کمی از آن ها وجود دارد (کاربران یا کالاهای با شروع سرد) دارند، کارایی ضعیفی از خود نشان می دهند. برای مقابله با این چالش، در این مقاله، یک روش جدید مبتنی بر اطلاعات شبکه اجتماعی کاربران ارایه می شود که اطلاعات اعتماد بین کاربران را با تجزیه نامنفی ماتریس ترکیب می کند تا یک مدل مناسب برای توصیه به کاربر ایجاد شود. روش پیشنهادی اطلاعات مهم مانند، رتبه و اعتماد را برای کاهش پراکندگی داده و برخورد با مشکلات ناشی از شروع سرد، استفاده می کند. به علاوه، در روش پیشنهادی از راه کار بهینه سازی جهت متناوب برای افزایش همگرایی الگوریتم و کاهش پیچیدگی زمانی به طور مناسبی استفاده می شود. برای ارزیابی روش پیشنهادی چندین آزمایش روی دو مجموعه داده معتبر و مشهور انجام شده است. نتایج تجربی نشان می دهد که روش پیشنهادی، به ویژه، برای کاربران شروع سرد عملکرد بهتری نسبت به روش های جدید، برای توصیه در شبکه های اجتماعی دارد.کلید واژگان: سیستم های توصیه گر، تجزیه نامنفی ماتریس، اطلاعات اعتماد، روش جهت متناوب، پالایش گروهی، شروع سردRecommender systems has shown as effective tools that are proposed for helping users to select their interested items. Collaborative filtering is a well-known and frequently used recommender system applied successfully in many e-commerce websites. However, these systems have poor performance while facing cold-start users (items). To address such issues, in this paper, a social regularization method is proposed which combines the social network information of users in a nonnegative matrix factorization framework. The proposed method integrates multiple information sources such as user-item ratings and trust statements to reduce the cold-start and data sparsity issues. Moreover, the alternating direction method is used to improve the convergence speed and reduce the computational cost. We use two well-known datasets to show that the proposed method performs much better, especially for cold start users, than state-of-the-art recommendation methods for recommendation in social networks.Keywords: Recommender systems, nonnegative matrix factorization, trust relationships, alternating direction method, collaborative filtering, cold-start
-
امروزه با فراگیر شدن دسترسی به اینترنت و به خصوص شبکه های اجتماعی، امکان به اشتراک گذاری عقاید و نظرات کاربران فراهم شده است. از سوی دیگر تحلیل احساس و عقاید افراد می تواند نقش به سزایی در تصمیم گیری سازمان ها و تولیدکنندگان داشته باشد. از این رو وظیفه تحلیل احساس و یا عقیده کاوی به زمینه پژوهشی مهمی در حوزه پردازش زبان طبیعی تبدیل شده است. یکی از چالش های استفاده از شیوه های یادگیری ماشینی در حوزه پردازش زبان طبیعی، انتخاب و استخراج ویژگی های مناسب از میان تعداد زیاد ویژگی های اولیه برای دست یابی به مدلی با صحت مطلوب است. در این پژوهش دو روش فشرده سازی براساس تجزیه های ماتریسی SVD و NMF و یک روش بر اساس شبکه های عصبی برای استخراج ویژگی های موثرتر و با تعداد کمتر در زمینه تحلیل احساس در مجموعه داده نظرات به زبان فارسی مورد استفاده و تاثیر سطح فشرده سازی و اندازه مجموعه داده در صحت مدل های ایجاد شده مورد ارزیابی قرارگرفته شده است. بررسی ها نشان می دهد که فشرده سازی نه تنها از بار محاسباتی و زمانی ایجاد مدل کم می کند، بلکه می تواند صحت مدل را نیز افزایش دهد. بر طبق نتایج پیاده سازی، فشرده سازی ویژگی ها از 7700 ویژگی اولیه به دوهزار ویژگی با استفاده از شبکه عصبی، نه تنها باعث کاهش هزینه محاسسباتی و فضای ذخیره سازی می شود، بلکه می تواند صحت مدل را از % 05/77 به % 85/77 افزایش دهد. از سوی دیگر در مجموعه داده کوچک با استفاده از روش SVD نتایج بهتری به دست می آید و با تعداد ویژگی دوهزار می توان به صحت % 92/63 در مقابل % 57/63 دست پیدا کرد؛ هم چنین آزمایش ها حاکی از آن است که فشرده سازی با استفاده از شبکه عصبی در صورت بزرگی مجموعه داده برای ابعاد پایین مجموعه ویژگی، بسیار بهتر از سایر روش ها عمل می کند. به طوری که تنها با یکصد ویژگی استخراج شده با استفاده از فشرده ساز شبکه عصبی از 7700 ویژگی اولیه می توان به صحت قابل قبول % 46/74 در مقابل صحت اولیه % 05/77 با 7700 ویژگی دست یافت.
کلید واژگان: پردازش زبان طبیعی، تحلیل احساس، کدگذار خودکار، تجزیه مقدار تکین، تجزیه نامنفی ماتریسNowadays, users can share their ideas and opinions with widespread access to the Internet and especially social networks. On the other hand, the analysis of people's feelings and ideas can play a significant role in the decision making of organizations and producers. Hence, sentiment analysis or opinion mining is an important field in natural language processing. One of the most common ways to solve such problems is machine learning methods, which creates a model for mapping features to the desired output. One challenge of using machine learning methods in NLP fields is feature selection and extraction among a large number of early features to achieve models with high accuracy. In fact, the high number of features not only cause computational and temporal problems but also have undesirable effects on model accuracy. Studies show that different methods have been used for feature extraction or selection. Some of these methods are based on selecting important features from feature sets such as Principal Component Analysis (PCA) based methods. Some other methods map original features to new ones with less dimensions but with the same semantic relations like neural networks. For example, sparse feature vectors can be converted to dense embedding vectors using neural network-based methods. Some others use feature set clustering methods and extract less dimension features set like NMF based methods. In this paper, we compare the performance of three methods from these different classes in different dataset sizes. In this study, we use two compression methods using Singular Value Decomposition (SVD) that is based on selecting more important attributes and non-Negative Matrix Factorization (NMF) that is based on clustering early features and one Auto-Encoder based method which convert early features to new feature set with the same semantic relations. We compare these methods performance in extracting more effective and fewer features on sentiment analysis task in the Persian dataset. Also, the impact of the compression level and dataset size on the accuracy of the model has been evaluated. Studies show that compression not only reduces computational and time costs but can also increase the accuracy of the model. For experimental analysis, we use the Sentipers dataset that contains more than 19000 samples of user opinions about digital products and sample representation is done with bag-of-words vectors. The size of bag-of-words vectors or feature vectors is very large because it is the same as vocabulary size. We set up our experiment with 4 sub-datasets with different sizes and show the effect of different compression performance on various compression levels (feature count) based on the size of dataset size. According to experiment results of classification with SVM, feature compression using the neural network from 7700 to 2000 features not only increases the speed of processing and reduces storage costs but also increases the accuracy of the model from 77.05% to 77.85% in the largest dataset contains about 19000 samples. Also in the small dataset, the SVD approach can generate better results and by 2000 features from 7700 original features can obtain 63.92 % accuracy compared to 63.57 % early accuracy. Furthermore, the results indicate that compression based on neural network in large dataset with low dimension feature sets is much better than other approaches, so that with only 100 features extracted by neural network-based auto-encoder, the system achieves acceptable 74.46% accuracy against SVD accuracy 67.15% and NMF accuracy 64.09% and the base model accuracy 77.05% with 7700 features.
Keywords: Natural Language Processing, Sentiment Analysis, Opinion Mining, Auto-Encoder, Singular Value Decomposition, Nonnegative Matrix Factorization -
در سال های اخیر جداسازی داده های سنجش از دور با استفاده از عامل بندی ماتریس نامنفی (Nonnegative Matrix Factorization) مود توجه قرار گرفته است و برای بهبود کارایی آن، به تابع هزینه اقلیدسی قید های کمکی می افزایند. چالش اصلی در این میان معرفی قید های است که بتواند نتایج بهتری را استخراج کند. همبستگی بین باند های تصاویر ابر طیفی مساله ای است که کمتر مورد توجه الگوریتم های جداسازی قرار گرفته است. این مساله در جداسازی کلاس های مشابه بیشتر مشخص می شود. در این مقاله ما یک روش جدید برای جداسازی داده های ابر طیفی سنجش از دور با استفاده از عامل بندی ماتریس نیمه نامنفی (Semi-NMF) و تحلیل مولفه های اصلی پیشنهاد کردیم. در روش پیشنهادی جداسازی طیفی و مکانی به صورت همزمان انجام می شود و تمام محدودیت های فیزیکی مساله بر اساس مدل مخلوط خطی اعمال می گردد. همچنین، علاوه بر محدودیت های فیزیکی، از ویژگی داده های ابرطیفی در فرآیند جداسازی بهره برداری شده است. تنکی ضرایب فراوانی یکی از ویژگی های مهم داده های ابر طیفی است که در این مقاله ما با استفاده از ماتریس nsNMF به درون تابع هزینه اعمال کرده ایم. در روش پیشنهادی قواعد بروز رسانی الگوریتم با استفاده از روش ALS بدست آمده است. در بخش انتهایی این مقاله از داده های ابر طیفی مصنوعی و واقعی به منظور بررسی کارآمدی الگوریتم پیشنهادی استفاده شده است. نتایج بدست آمده برتری الگوریتم پیشنهادی را در مقایسه با برخی از الگوریتم ها جداسازی نشان می دهد.
کلید واژگان: تصاویر ابرطیفی، جداسازی داده های سنجش از دور، جداسازی کور منابع، عامل بندی ماتریس نیمه نامنفی، تجزیه و تحلیل مولفه های اصلیUnmixing of remote-sensing data using nonnegative matrix factorization has been considered recently. To improve performance, additional constraints are added to the cost function. The main challenge is to introduce constraints that lead to better results for unmixing. Correlation between bands of Hyperspectral images is the problem that is paid less attention to it in the unmixing algorithms. In this paper, we have proposed a new method for unmixing of Hyperspectral data using semi-nonnegative matrix factorization and principal component analysis. In the proposed method, spectral and spatial unmixing is performed simultaneously. Physical constraints applied based on Linear Mixing Model. In addition to physical constraints, characteristics of Hyperspectral data have been exploited in the unmixing process. Sparseness of the abundance is one of the important features of Hyperspectral data, which is applied using the nsNMF matrix. In the proposed method update rules is derived using the ALS algorithm. In the final section of this paper, real and synthetic Hyperspectral data is used to verify the effectiveness of the proposed algorithm. Obtained results show the superiority of the proposed algorithm in comparison with some unmixing algorithmsKeywords: Hyperspectral Image, Remote Sensing Data Unmixing, Blind Source Separation, Semi, nonnegative Matrix Factorization, Principal Component Analysis
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.