deep clustering
در نشریات گروه برق-
خوشه بندی متن، روشی برای جداسازی اطلاعات از دادگان متنی است که می تواند متن را براساس موضوع و احساس طبقه بندی کند و اخیرا مورد توجه بسیاری قرار گرفته است. روش های مبتنی برخوشه بندی عمیق به دلیل دقت بالا، در میان تکنیک های خوشه بندی از اهمیت ویژه ای برخوردار هستند. این روش ها شامل دو جزء اصلی کاهش ابعاد و خوشه بندی می باشد. بسیاری از روش های پیشین عمیق، از خودرمزگذار برای کاهش ابعاد استفاده کرده اند. با این حال، آنها قادر به کاهش ابعاد بر اساس ساختارهای منیفولد نیستند و نمونه هایی که شبیه یکدیگر هستند لزوما در ابعاد پایین نیز در کنار یکدیگر قرار نمی گیرند. در این مقاله، ما یک روش خوشه بندی متن عمیق را براساس یک منیفولد محلی در لایه خودرمزگذار (DCTMA) توسعه می دهیم که از ماتریس های شباهت متعدد برای درنظرگرفتن جهت، اندازه و معنا استفاده می کند، به طوری که ماتریس شباهت نهایی از میانگین این ماتریس ها به دست می آید. ماتریس به دست آمده به لایه بازنمایی پنهان در خودرمزگذار اضافه می شود. هدف اصلی DCTMA تولید بازنمایی های مشابه برای نمونه های متعلق به یک خوشه است. پس از کاهش ابعاد با دقت بالا، خوشه ها با استفاده از خوشه بندی عمیق انتها به انتها شناسایی می شوند. نتایج تجربی نشان می دهد که روش پیشنهادی در مقایسه با روش های پیشرفته فعلی در مجموعه داده های متنی، عملکرد شگفت آوری دارد.
کلید واژگان: خوشه بندی متن، خوشه بندی عمیق، یادگیری عمیق، یادگیری منیفولد، خودرمزگذارText clustering is a method for separating specific information from textual data and can even classify text according to topic and sentiment, which has drawn much interest in recent years. Deep clustering methods are especially important among clustering techniques because of their high accuracy. These methods include two main components: dimensionality reduction and clustering. Many earlier efforts have employed autoencoder for dimension reduction; however, they are unable to lower dimensions based on manifold structures, and samples that are like one another are not necessarily placed next to one another in the low dimensional. In the paper, we develop a Deep Text Clustering method based on a local Manifold in the Autoencoder layer (DCTMA) that employs multiple similarity matrices to obtain manifold information, such that this final similarity matrix is obtained from the average of these matrices. The obtained matrix is added to the bottleneck representation layer in the autoencoder. The DCTMA's main goal is to generate similar representations for samples belonging to the same cluster; after dimensionality reduction is achieved with high accuracy, clusters are detected using an end-to-end deep clustering. Experimental results demonstrate that the suggested method performs surprisingly well in comparison to current state-of-the-art methods in text datasets.
Keywords: Text Clustering, Deep Clustering, Deep Learning, Manifold Learning, Autoencoder
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.