text clustering
در نشریات گروه برق-
خوشه بندی متن، روشی برای جداسازی اطلاعات از دادگان متنی است که می تواند متن را براساس موضوع و احساس طبقه بندی کند و اخیرا مورد توجه بسیاری قرار گرفته است. روش های مبتنی برخوشه بندی عمیق به دلیل دقت بالا، در میان تکنیک های خوشه بندی از اهمیت ویژه ای برخوردار هستند. این روش ها شامل دو جزء اصلی کاهش ابعاد و خوشه بندی می باشد. بسیاری از روش های پیشین عمیق، از خودرمزگذار برای کاهش ابعاد استفاده کرده اند. با این حال، آنها قادر به کاهش ابعاد بر اساس ساختارهای منیفولد نیستند و نمونه هایی که شبیه یکدیگر هستند لزوما در ابعاد پایین نیز در کنار یکدیگر قرار نمی گیرند. در این مقاله، ما یک روش خوشه بندی متن عمیق را براساس یک منیفولد محلی در لایه خودرمزگذار (DCTMA) توسعه می دهیم که از ماتریس های شباهت متعدد برای درنظرگرفتن جهت، اندازه و معنا استفاده می کند، به طوری که ماتریس شباهت نهایی از میانگین این ماتریس ها به دست می آید. ماتریس به دست آمده به لایه بازنمایی پنهان در خودرمزگذار اضافه می شود. هدف اصلی DCTMA تولید بازنمایی های مشابه برای نمونه های متعلق به یک خوشه است. پس از کاهش ابعاد با دقت بالا، خوشه ها با استفاده از خوشه بندی عمیق انتها به انتها شناسایی می شوند. نتایج تجربی نشان می دهد که روش پیشنهادی در مقایسه با روش های پیشرفته فعلی در مجموعه داده های متنی، عملکرد شگفت آوری دارد.
کلید واژگان: خوشه بندی متن، خوشه بندی عمیق، یادگیری عمیق، یادگیری منیفولد، خودرمزگذارText clustering is a method for separating specific information from textual data and can even classify text according to topic and sentiment, which has drawn much interest in recent years. Deep clustering methods are especially important among clustering techniques because of their high accuracy. These methods include two main components: dimensionality reduction and clustering. Many earlier efforts have employed autoencoder for dimension reduction; however, they are unable to lower dimensions based on manifold structures, and samples that are like one another are not necessarily placed next to one another in the low dimensional. In the paper, we develop a Deep Text Clustering method based on a local Manifold in the Autoencoder layer (DCTMA) that employs multiple similarity matrices to obtain manifold information, such that this final similarity matrix is obtained from the average of these matrices. The obtained matrix is added to the bottleneck representation layer in the autoencoder. The DCTMA's main goal is to generate similar representations for samples belonging to the same cluster; after dimensionality reduction is achieved with high accuracy, clusters are detected using an end-to-end deep clustering. Experimental results demonstrate that the suggested method performs surprisingly well in comparison to current state-of-the-art methods in text datasets.
Keywords: Text Clustering, Deep Clustering, Deep Learning, Manifold Learning, Autoencoder -
یادگیری ماشین در طی دهه های گذشته به دلیل طیف گسترده کاربردهای آن مورد استفاده زیادی قرار گرفته است. در اکثر کاربردهای یادگیری ماشین مانند خوشه بندی و طبقه بندی، ابعاد داده ها زیاد می باشد و استفاده از روش های کاهش ابعاد داده ضروری است. تجزیه ماتریس غیر منفی با استفاده از استخراج ویژگی ها معنایی از داده های با ابعاد زیاد کاهش ابعاد را انجام می دهد و در تجزیه ماتریس غیر منفی فقط نحوه مدل سازی هر بردار ویژگی در ماتریس های تجزیه شده را در نظر می گیرد و روابط بین بردارهای ویژگی را نادیده می گیرد. ارتباطات میان بردارهای ویژگی، تجزیه بهتری را برای کاربردهای یادگیری ماشین فراهم می کنند. در این مقاله، یک روش بر مبنای تجزیه ماتریس غیر منفی برای کاهش ابعاد داده ها ارایه شده که محدودیت هایی را بر روی هر جفت بردارهای ویژگی با استفاده از معیارهای مبتنی بر فاصله ایجاد می کند. روش پیشنهادی از نرم فروبنیوس به عنوان تابع هزینه برای ایجاد قوانین به روز رسانی استفاده می کند. نتایج آزمایش ها روی مجموعه داده ها نشان می دهد که قوانین به روز رسانی ضربی ارایه شده، سریع همگرا می شوند و در مقایسه با الگوریتم های دیگر نتایج بهتری را ارایه می کنند.
کلید واژگان: کاهش ابعاد، تجزیه ماتریسی غیر منفی، نرم فروبنیوس، قوانین به روز رسانی، خوشهبندی متنMachine learning has been widely used over the past decades due to its wide range of applications. In most machine learning applications such as clustering and classification, data dimensions are large and the use of data reduction methods is essential. Non-negative matrix factorization reduces data dimensions by extracting latent features from large dimensional data. Non-negative matrix factorization only considers how to model each feature vector in the decomposed matrices and ignores the relationships between feature vectors. The relationships between feature vectors provide better factorization for machine learning applications. In this paper, a new method based on non-negative matrix factorization is proposed to reduce the dimensions of the data, which sets constraints on each feature vector pair using distance-based criteria. The proposed method uses the Frobenius norm as a cost function to create update rules. The results of experiments on the data sets show that the proposed multiplicative update rules converge rapidly and give better results than other algorithms.
Keywords: Dimension reduction, Non-negative matrix factorization, Frobenius norm, Multiplicative update rules, Text clustering
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.