topic detection
در نشریات گروه برق-
Automatic topic detection seems unavoidable in social media analysis due to big text data which their users generate. Clustering-based methods are one of the most important and up-to-date categories in topic detection. The goal of this research is to have a wide study on this category. Therefore, this paper aims to study the main components of clustering-based-topic-detection, which are embedding methods, distance metrics, and clustering algorithms. Transfer learning and consequently pretrained language models and word embeddings have been considered in recent years. Regarding the importance of embedding methods, the efficiency of five new embedding methods, from earlier to recent ones, are compared in this paper. To conduct our study, two commonly used distance metrics, in addition to five important clustering algorithms in the field of topic detection, are implemented by the authors. As COVID-19 has turned into a hot trending topic on social networks in recent years, a dataset including one-month tweets collected with COVID-19-related hashtags is used for this study. More than 7500 experiments are performed to determine tunable parameters. Then all combinations of embedding methods, distance metrics and clustering algorithms (50 combinations) are evaluated using Silhouette metric. Results show that T5 strongly outperforms other embedding methods, cosine distance is weakly better than other distance metrics, and DBSCAN is superior to other clustering algorithms.Keywords: Topic Detection, Transfer learning, Embedding Methods, Distance Metrics, Clustering Methods, Covid-19
-
متون کوتاه رسانه های اجتماعی مانند توییتر اطلاعات زیادی در مورد موضوع های داغ و افکار عمومی ارائه می دهند. برای درک بهتر اطلاعات دریافتی از شبکه های اجتماعی، شناسایی و ردیابی موضوع امری ضروری است. در بسیاری از روش های ارائه شده در این زمینه، تعداد موضوع ها باید از پیش مشخص باشد و نمی تواند در طول زمان تغییر کند. از این منظر، این روش ها برای داده های در حال افزایش و پویا مناسب نیستند. همچنین مدل های تکاملی موضوعی غیر پارامتری به دلیل مشکل کمبود داده ها، بر روی متون کوتاه عملکرد مناسبی ندارند. در این مقاله، یک مدل خوشه بندی تکاملی جدید ارائه کرده ایم که به طور ضمنی از فرایند رستوران چینی وابسته به فاصله (dd-CRP) الهام گرفته است. در روش ارائه شده برای حل مشکل کمبود داده ها، از اطلاعات شبکه اجتماعی در کنار شباهت متنی، برای بهبود ارزیابی شباهت بین توییت ها استفاده شده است. همچنین در روش پیشنهادی، برخلاف اکثر روش های مطرح شده در این زمینه، تعداد خوشه ها به صورت خودکار محاسبه می شود. در واقع در این روش، توییت ها با احتمالی متناسب با شباهتشان به هم متصل می شوند و مجموعه ای از این اتصال ها یک موضوع را تشکیل می دهد. برای افزایش سرعت اجرای الگوریتم، از یک روش خلاصه سازی مبتنی بر خوشه بندی استفاده نموده ایم. ارزیابی روش بر روی مجموعه داده واقعی که در طول دو ماه و نیم از شبکه اجتماعی توییتر جمع آوری شده است، انجام می شود. ارزیابی به صورت خوشه بندی متون و مقایسه بین آنها می باشد. نتایج ارزیابی نشان می دهد که روش پیشنهادی نسبت به روش های مقایسه شده دارای انسجام موضوعی بهتری بوده و می تواند به طور موثر برای تشخیص موضوع بر روی متون کوتاه رسانه های اجتماعی استفاده گردد.
کلید واژگان: تشخیص موضوع، خوشه بندی تکاملی، شبکه اجتماعی، مدل احتمالاتیShort texts of social media like Twitter provide a lot of information about hot topics and public opinions. For better understanding of such information, topic detection and tracking is essential. In many of the available studies in this field, the number of topics must be specified beforehand and cannot be changed during time. From this perspective, these methods are not suitable for increasing and dynamic data. In addition, non-parametric topic evolution models lack appropriate performance on short texts due to the lack of sufficient data. In this paper, we present a new evolutionary clustering algorithm, which is implicitly inspired by the distance-dependent Chinese Restaurant Process (dd-CRP). In the proposed method, to solve the data sparsity problem, social networking information along with textual similarity has been used to improve the similarity evaluation between the tweets. In addition, in the proposed method, unlike most methods in this field, the number of clusters is calculated automatically. In fact, in this method, the tweets are connected with a probability proportional to their similarity, and a collection of these connections constitutes a topic. To speed up the implementation of the algorithm, we use a cluster-based summarization method. The method is evaluated on a real data set collected over two and a half months from the Twitter social network. Evaluation is performed by clustering the texts and comparing the clusters. The results of the evaluations show that the proposed method has a better coherence compared to other methods, and can be effectively used for topic detection from social media short texts.
Keywords: Topic detection, evolutionary clustering, social networks, probabilistic model
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.