topic modeling
در نشریات گروه علوم انسانی-
بررسی ها نشان داده است که بسیاری از سازمان ها برای ایجاد دانش و بهبود تصمیم گیری از تحلیل نظرات و محتوای تولید شده توسط کاربران در شبکه های اجتماعی بهره برداری کرده اند. در این پژوهش، به تحلیل عملکرد مالی سازمان های غیرانتفاعی با استفاده از تحلیل نظرات کاربران پرداخته شده است. مجموعه داده ی استفاده شده در این پژوهش شامل 26714 توییت کاربران از جمعا 23 حساب توییتری در سراسر جهان می باشد و ده سال داده ی مالی شامل سال های 2010-2020 این سازمان ها از 5 سازمان غیرانتفاعی منتخب جمع آوری شده است. نتایج حاصل از روش های مدل سازی موضوع و تحلیل احساسات به داده های پانلی تبدیل شده اند. نتایج مدل سازی موضوعی و تحلیل احساسات به داده های پنلی تبدیل و با استفاده از روش های حداقل مربعات معمولی و حداقل مربعات معمولی پویا تحلیل شده اند. نتایج نشان می دهند که محتوای تولید شده توسط کاربران و عملکرد مالی سازمان های غیرانتفاعی رابطه معنی داری دارند. در حالی که احساسات مثبت تاثیر معنی داری بر عملکرد مالی این سازمان ها ندارند، احساسات منفی و بازتوئیت ها تاثیر منفی و علاقمندی ها رابطه ی مثبتی با عملکرد مالی را نشان می دهند.کلید واژگان: تحلیل احساسات، سازمان های غیرانتفاعی، مدل سازی موضوع، شبکه اجتماعی، داده پانلیResearches have demonstrated that many organizations leverage the analysis of user-generated opinions and content on social networks to cultivate knowledge and enhance decision-making. This study aims to analyze the financial performance of non-profit organizations by examining user-generated opinions. The dataset comprises 26,714 user tweets from 23 global Twitter accounts and ten years of financial data (2010-2020) from five selected non-profit organizations. The results of topic modeling and sentiment analysis were converted into panel data. These results were analyzed using ordinary least squares (OLS) and dynamic ordinary least squares (DOLS) methods.Findings indicate a significant relationship between user-generated content and the financial performance of non-profit organizations. While positive sentiments did not exhibit a significant impact on financial performance, negative sentiments and retweets demonstrated a negative relationship, whereas likes showed a positive correlation with financial performance. By harnessing insights from user-generated content, non-profit organizations can optimize their content strategies to improve financial outcomes. Nevertheless, it is imperative to consider the adverse effects of negative sentiments and retweets to achieve substantial improvements in financial performance.Keywords: Sentiment Analysis, Nonprofit Organizations, Topic Modeling, Social Network, Panel Data
-
این پژوهش، روشی برای کمی سازی اطلاعات بدون ساختار اخبار اقتصادی برای به کارگیری در ارزیابی به هنگام شرایط اقتصادی را پیشنهاد می دهد. به همین منظور، اخبار اقتصادی به صورت روزانه از ابتدای سال 1384 تا انتهای آذرماه سال 1402، از پایگاه اینترنتی خبرگزاری فارس استخراج شده است. متون خبری، پس از پیش پردازش اولیه، با استفاده از مدل تخصیص پنهان دیریکله (LDA) در دسته های مختلفی طبقه بندی شدند به نحوی که هر دسته، یک موضوع خبری را نشان می دهد. سپس با استفاده از رویکرد تحلیل احساس مبتنی بر واژه نامه، امتیاز یا نمره حسی هر خبر مشخص شده است. از تجمیع فصلی امتیازات حسی اخبار ذیل هر موضوع، سری های زمانی حسی ایجاد و توانایی این سری های زمانی در پیش بینی تولید ناخالص داخلی فصلی ایران با استفاده از روش های ریج، لسو، الستیک نت و تقویت گرادیان ارزیابی شده اند. نتایج نشان داده اند که به کارگیری داده های حسی می تواند خطای پیش بینی را بین 12 تا 18 درصد نسبت به الگوی سری زمانی تک متغیره کاهش دهد. علاوه بر این، با استفاده از رویکرد پیشنهادی این پژوهش می توان بلافاصله بعد از اتمام هر فصل مرجع و با استفاده از اخبار اقتصادی منتشر شده در همان فصل، برآوردی به هنگام از تولید ناخالص داخلی فصلی ارائه کرد
کلید واژگان: اخبار اقتصادی، پیش بینی به هنگام، تولید ناخالص داخلی، مدل سازی موضوعی، تحلیل احساسThis study examines textual data's ability to nowcast Iran's gross domestic product (GDP). To this end, 301,498 economic news articles from March 2005 to December 2023 were extracted from the Fars news agency website using a web crawling technique. Following initial preprocessing, the news texts were sorted into various categories via the Dirichlet Latent Allocation (LDA) model, wherein each category corresponds to a distinct news topic. Subsequently, to ascertain whether an article conveys a positive or negative sentiment, we executed lexicon-based sentiment analysis utilizing SentiStrength. Ultimately, by aggregating the news sentiment scores seasonally under each topic, we constructed a seasonal sentiment time series. These time series were then assessed for their efficacy in nowcasting Iran's quarterly GDP, employing ridge regression, lasso regression, elastic net, and gradient boosting methods. The findings reveal that incorporating textual data can reduce prediction errors by 12 to 18 percent relative to a univariate time series model. Moreover, our results suggest that sentiment extracted from textual content, particularly news articles, is a viable approach. This strategy could potentially enable the provision of immediate GDP estimates following the end of each reference quarter.
Keywords: Economic News, Nowcasting, GDP, Topic Modeling, Sentiment Analysis -
هدف
پژوهش حاضر با هدف شناسایی و تحلیل پژوهش های حوزه فناوری اطلاعات، استخراج موضوعات آن و ارائه اطلاعات علم سنجی مربوط به این موضوعات انجام شده است.
روش شناسی:
در این مقاله، موضوعات حوزه ی فناوری اطلاعات استخراج و ارتباطات بین واژگان پرکاربرد و تکامل زمانی آن ها تجزیه و تحلیل و در نهایت دسته بندی شده است. برای این منظور از مدل سازی موضوعی که روشی شناخته شده برای خوشه بندی اطلاعات متنی است استفاده شد.
یافته هاروندهای ده ساله تغییرات کلیدواژه ها در مجموعه مطالعات، استخراج شد و پس از خوشه بندی مقالات، کلیدواژه های مهم هر خوشه استخراج شد. مقالات استخراج شده در حوزه فناوری اطلاعات به 8 دسته موضوعی تقسیم شدند که از موضوعات سخت افزار، ارتباطات و شبکه تا موضوعات کاربردهای هوشمند مانند اینترنت اشیا را شامل می شد. مشخص شد که کلیدواژه های پرکاربرد در این منابع همواره در گذر زمان در حال تغییر بوده است.
نتیجه گیریدر زمینه فناوری اطلاعات موضوعات در حال ترکیب و در بین دسته های مختلف فناوری اطلاعات در حال تغییر است. باتوجه به تغییر سمت و سو پژوهش های این حوزه از سخت افزار و ارتباطات به سمت کاربردها و تحلیل، به نظر می رسد زمینه های علمی آتی شامل کاربردهای روزمره و ایجادکننده ارزش افزوده با توجه به تحلیل داده و ارتباطات بین انسان و ماشین شکل خواهند گرفت و کاربردهای فناوری اطلاعات در علوم دیگر نمایان تر شده است. همچنین تمرکز بر پژوهش هایی که کمتر جنبه توسعه ای داشته و بیشتر کاربردی هستند و یا ارزش افزوده بیشتری برروی زیرساخت های موجود ایجاد نموده اند در این تغییرات مشهود است.
کلید واژگان: فناوری اطلاعات، مدل سازی موضوعی، تحلیل متون، علم سنجیBackground and ObjectivesIT's rapid progress and far-reaching impact on other scientific disciplines have not only necessitated significant changes in its own subjects but have also catalyzed extensive changes in the form, amount, and methodology of research in other fields. The objective of the present investigation was to analyze research conducted in the realm of information technology, extract its central themes, and furnish scientometric data pertaining to these themes.
MethodologyThis paper explores the topics of the information technology field by extracting and categorizing the relationships between commonly used terms and their temporal evolution. To achieve this, the researchers employed topic modeling, a well-established method for clustering textual data. Topic modeling algorithms utilize statistical methods to analyze and interpret the primary words in documents, allowing for the examination of the presented issues and their interconnections and changes over time. Considering the rapid changes in the field of information technology, this paper drew upon materials spanning the last decade, including 10,000 papers sourced from top-tier journals featured in the Web of Science database.
FindingsThe study extracted trends in keyword changes over the past decade and identified important keywords for each paper cluster after grouping them. The papers within the information technology domain were then categorized into eight themes, including hardware, communications, networks, and intelligent applications such as the Internet of Things. The study found that frequently used keywords have been continuously changing over time. The paper highlights that emerging keywords, including the Internet of Things, cloud computing, and Big Data, along with work areas such as Machine Learning and Deep Learning, are shaping the definition of information technology fields in the new era.
DiscussionGiven the shift in research emphasis from hardware and communication to analysis and practical applications, it is likely that future scientific fields will focus on creating value through data analysis and human-machine communication in everyday applications, and information technology's relevance in other sciences will become more apparent. Future research can also concentrate on comparing global trends in information technology with domestic research, enabling the evaluation of the gap between the country's research and that of the world.
Keywords: Information Technology, Topic Modeling, Text Analysis, Scientometrics -
This paper examines recent literature in the quest to uncover emerging patterns in the use of business intelligence in marketing. We conducted searches in pertinent academic journals and identified 1044 articles published between 2000 and 2023. To sift through this substantial body of work, we employed text mining techniques to extract pertinent terms in the realms of business intelligence and marketing. Additionally, we applied latent Dirichlet allocation modeling to categorize the articles into various pertinent topics. This analysis was performed within the domains of marketing and business intelligence. This approach enabled us to discover connections between terms and topics, which in turn allowed us to generate hypotheses regarding future research directions. To validate these hypotheses, we gathered and closely examined relevant articles. By pinpointing current research areas, this study underscores potential avenues for future investigation. The findings reveal that the predominant trend in business intelligence applications for marketing is the utilization of business intelligence systems, with a particular emphasis on marketing planning to enhance marketing strategies. Additionally, there is considerable interest in areas such as pricing models for marketing, enhancing brand value through effective social media marketing, employing predictive algorithms for customer data analysis, and harnessing big data for marketing analytics.
Keywords: Text Mining, Latent Dirichlet Allocation, Business Intelligence, Topic Modeling, Marketing -
امروزه با رشد روز افزون اینترنت و گسترش سریع فضای مجازی و ویژگی های چشمگیر آن از جمله افزایش سرعت تبادل اطلاعات، ، دسترسی آسان و رایگان به اطلاعات ، متنوع بودن موضوعات و غیره، باعث شده افراد بیشتر زمان خود در فضای مجازی به ویژه فعالیت در شبکه های اجتماعی اختصاص دهند، در این راستا نظرات ثبت شده توسط کاربران در شبکه های مجازی رشد روزافزونی داشته و اهمیت بسیاری پیدا کرده؛ بر این اساس، هدف پژوهش حاضر تحلیل و بررسی نظرات کاربران توییتر درباره ی فناوری واقعیت مجازی با بهره گیری از روش های یادگیری ماشین و رویکرد مبتنی بر واژه نامه می باشد که با جمع آوری حدود 1 میلیون توییت در زمینه فناوری واقعیت مجازی توسط خزشگر وب به پیش پردازش داده ها شامل حذف ایست واژه ها و لینک ها، بن واژه سازی پرداخته شد، سپس مدل سازی موضوعی تخصیص پنهان دیریکله روی داده ها اجرا شد و توسط امتیاز انسجام درجه تشابه معنایی بین کلمات و تمایز بین موضوعات را به دست آمد و تعداد موضوعاتی که بیشترین امتیاز را داشت انتخاب شد و داده ها در 9 موضوع دسته بندی شدند، برای ارزیابی مدل نیز از معیار سرگشتگی استفاده شد که مقدار آن 44/9- به دست آمد که نشان از کارایی مدل دارد. سپس موضاعات مرتبط با فناوری واقعیت مجازی نام گذاری شد .
کلید واژگان: داده کاوی، متن کاوی، فناوری واقعیت مجازی، مدل سازی موضوعی تخصیص پنهان دیریکلهIn recent years, the rapid growth of virtual space has made people devote more of their time in virtual space, especially to social networks, which can be attributed to the remarkable features of virtual space; including increasing the speed of information exchange, easy and free access to information and variety of knowledge topics. In this regard, the opinions recorded by users in virtual networks have grown day by day and have become very important, and extracting the opinions and feelings of users' opinions for more informed decision-making is of great help to businesses, on the other hand, virtual reality technology in the past few decades It has undergone technical changes and improved immersion and the feeling of remote presence; This technology is used in various fields such as education, tourism, health, sports, entertainment, architecture and construction, etc. The increasing progress of virtual reality technology has caused many businesses to operate in this field, but due to changes Continuous market and the need for timely information, companies should use differentiation and growth strategies, in this regard, they need to ask users' opinions and in line with that, try to grow and improve their business, considering that Users' comments are textual, and reading and summarizing them is time-consuming and difficult. Based on this, the aim of the current research was to categorize comments related to virtual reality technology using machine learning methods and a dictionary-based approach. Therefore, about one million tweets in the field of virtual reality technology were collected by the web crawler, and after data preprocessing, 480,432 samples remained in the data, then Dirichlet's hidden allocation topic modeling was implemented on the data. This modeling separated different topics by examining the distribution of words in tweets; The tweets whose distribution of words were similar were placed into a topic and the number of topics with the highest coherence score was selected, the number of topics 9 had higher coherence and the data were grouped into 9 topics, so once again the Dirichlet hidden allocation modeling was set to 9. The topic was done, with this the tweets were grouped into 9 different topics. To evaluate the model, considering that we had a probability distribution, the confusion criterion was used, the value of which was -9.44, and the coherence score was used for the degree of semantic similarity between words and the distinction between subjects, and the result was 0.47. The lower the confusion criterion and the higher the coherence score, the more efficient the model is. With the help of keyword weights obtained by Dirichlet hidden allocation modeling and examining at least 5 different tweets from each topic, 9 topics related to virtual reality technology were identified: "New Technology", "Creation and Make", "Technological Business", "Education", "Virtual Games", "Progress", "Gadget", "Metaverse", and "Indiegame", the topics were analyzed with the help of several graphs. We found that the number of neutral comments on topics such as "New Technology" and "Metaverse" is more than positive and negative comments, which indicates the lack of sufficient information or the lack of use of these technologies, and it is necessary for businesses in this field, to try more in this regard, in the same way, if we observe the graph of "Virtual Games" and "Technological Business", we can see that it changes almost with the same ratio in different years, in the sense that this The two graphs are related, in fact, businesses should keep in mind that the factors affecting these two issues are the same, but users pay more attention to the issue of "Virtual Games", as a result, if the creators of "Technological Business" Focus specifically on "Virtual Games", they will grow more due to the more attention of users, also the creators of games should consider that "Virtual Games" are a topic of more attention than "Indiegame". Is. In the subjects of "Education" and "Gadget", users lost their attention to these subjects in the field of virtual reality over time, in fact they showed their attention to other subjects, so it is better for businesses that operate in this field to take measures To advertise and attract users or change their user area if there is no growth.
IntroductionConstant changes in the market and the need for timely information force companies to use differentiation and growth strategies appropriate to the needs of customers. (Sánchez, Folgado-Fernández, & Sánchez, 2022). Companies can check and analyze their customers' opinions through microblogging sites (Facebook, Twitter, etc.) and finally improve the desired products or services (Ahmad, Aftab, Bashir, & Hameed, 2018). Today, users express their opinions and feelings and review products in online social networks. Therefore, user comments and the analysis of these comments have become a valuable resource for businesses (Kim et al., 2015; Loureiro et al., 2019).
Virtual reality and augmented reality have undergone technical developments in the past few decades and have improved immersion and the feeling of remote presence. Several examples of applications of such techniques can be found in stores, the tourism industry, hotels, restaurants, etc. (Loureiro, Guerreiro, & Ali, 2020). Due to the constant changes in the market and the need for timely information, companies should use differentiation and growth strategies, nowadays, due to the rapid evolution of the Internet, instead of collecting their opinions through time-consuming and expensive methods such as questionnaires and interviews, etc., they express in the context of social networks, which is very useful for businesses in their development, and they can measure the feelings of customers towards products and services, and understand the needs of users, and finally make appropriate and appropriate decisions in the direction of adopt growth, but in order to use the produced content correctly, text mining and sentiment analysis techniques should be used, which has not been researched in Iran so far. Analysis of users' opinions and feelings about virtual reality technology can help businesses that operate in the field of metaverse, virtual game production, virtual education, virtual tourism, etc., to make better decisions and plans.Literature ReviewSocial media generates a large amount of real-time social signals that can provide new insights into human behavior and emotions. People around the world are constantly engaged with social media. (Al-Samarraie, Sarsam, & Alzahrani, 2023).
On the other hand, the amount of data is increasing day by day. Almost all institutions, organizations and business industries store their data electronically. A huge amount of text is circulating on the Internet in the form of digital libraries, repositories, and other textual information such as blogs, social media networks, and emails (Sagayam, Srinivasan, & Roshni, 2012).
Topic modeling is one of the most powerful techniques in text mining for data mining, discovering hidden data and finding relationships between data and textual documents (Jelodar et al., 2017).
The technological advances of the last century have confronted societies with new realities that have indisputably improved daily life, making it more convenient and interesting. In recent decades, technology using virtual reality and wearable devices have had a significant impact in the fields of education, tourism, health, sports, entertainment, architecture and construction, etc. (Kosti et al., 2023).
Virtual reality is a technology that allows a user to interact with a computer-simulated environment, whether that environment is a simulation of the real world or an imaginary one. With virtual reality, we can experience the most frightening and overwhelming situations with safe play and a learning perspective (Mandal, 2013). Most people are curious about the possibilities and future of new technologies, considering the various applications it is supposed to offer such as virtual meetings, learning environments and many others, however, there are also concerns about potential negative effects. because real world signals can be transmitted in the virtual world. In this regard, people express their feelings in different social networks (Bhattacharyya et al., 2023).MethodologyAccording to the main goal of the research, which is to classify comments related to virtual reality technology using machine learning methods and a dictionary-based approach, therefore, about one million tweets in the field of virtual reality technology were collected by the web crawler and After data preprocessing, 480,432 samples remained in the data, then Dirichlet hidden allocation thematic modeling was implemented on the data. By examining the distribution of words in tweets, this modeling tries to separate different topics by detecting the distribution of words; The tweets whose distribution of words are similar were put into a topic, and the number of topics with the highest score was selected, the number of topics 9 has higher coherence, and the data was grouped into 9 topics, so once again, Dirichlet hidden allocation modeling was applied 9 topics were done, whereby the tweets were grouped into 9 different topics. Considering that we have a probability distribution, the confusion criterion was used to evaluate the model. The lower the confusion criterion and the higher the coherence score, the more efficient the model is. With the help of keyword weights obtained by Dirichlet hidden allocation modeling and examining at least 5 different tweets from each topic, 9 topics related to virtual reality technology were identified: "New Technologies", "Creation and Make", "Technological Business", "Education", "Virtual Games", "Progress", "Gadget", "Metaverse" and "Indiegame" were named.
Discussion and ConclusionIn this research, by examining topics in different years, we observed that the topic of "Progress" was the most popular topic among users from 2017 to the end of 2021, in early 2022, this topic gave way to "Metaverse", currently "Metaverse" is one of the most popular topics being discussed by users. Businesses in the field of virtual reality should strive for the attractiveness of "Metaverse" and attract users. Likewise, if we observe the "Virtual Games" and "Technological Business" graphs, we can see that they change with almost the same ratio in different years, meaning that these graphs are related to each other, in fact, business and keep in mind that the factors affecting these two issues are the same, but in the case of "Virtual Games" it has more effects, and if "Technological Businesses" specifically focus on virtual games, they will grow more due to the greater attention of users. had Similarly, "Indiegame" which have had a series of changes but in recent years have had a declining trend and then no change, now the creators of these games should check, and in general "Virtual Games" are a more interesting topic than "Indiegame". In the subjects of "Education" and "Gadget" it has been decreasing since the beginning of 2017, which shows that users lost their attention to these subjects in the field of virtual reality over time, in fact to other topics showed their attention, so it is better for businesses that are active in this field to take measures to advertise and attract users, or change their user field if there is no growth.
Keywords: Data mining, Text Mining, Virtual Reality Technology, Topic Modeling, Latent Dirichlet Allocation -
سالانه، پژوهشگران در حوزه های گوناگون علمی یافته های پژوهش های خود را به صورت گزارش های فنی یا مقاله هایی در مجموعه مقالات یا مجله ها چاپ می کنند. گردآوری این نوع داده توسط موتورهای جست وجو و کتابخانه های دیجیتال، برای جست وجو و دسترسی به نشریه های پژوهشی به کار گرفته می شود که معمولا مقاله های مرتبط بر اساس کلیدواژه های پرسمان به جای موضوعات مقاله بازیابی می گردد. در نتیجه، دسته بندی دقیق مقاله های علمی می تواند کیفیت جست وجوی کاربران را هنگام جست وجوی یک سند علمی در پایگاه های اطلاعاتی افزایش دهد. هدف اصلی این مقاله، ارایه یک مدل دسته بندی برای تعیین موضوع مقاله های علمی است. به این منظور، مدلی را پیشنهاد کردیم که از دانش بافتی غنی شده مقاله های فارسی مبتنی بر معناشناسی توزیعی بهره می برد. بر این اساس، شناسایی حوزه خاص هر سند و تعیین دامنه آن توسط دانش غنی شده برجسته، دقت دسته بندی مقاله های علمی را افزایش می دهد. برای دست یابی به هدف، ما مدل های درونه یابی بافتی، اعم از ParsBERT یا XLM-RoBERTa را با موضوع های پنهان در مقاله ها را برای آموزش یک مدل پرسپترون چندلایه غنی می کنیم. بر اساس یافته های تجربی، عملکرد کلیParsBERT-NMF-1HT 72/37 درصد (ماکرو) و 75/21 درصد (میکرو) بر اساس معیار-اف بود که تفاوت عملکرد این مدل در مقایسه با مدل پایه از نظر آماری معنادار (p<0/05) بود.
کلید واژگان: تحلیل محتوایی مقاله، بازنمایی بافتی، معناشناسی توزیعی، شبکه عصبی، دسته بندی مقاله علمی، مدل سازی موضوعAnnually, researchers in various scientific fields publish their research results as technical reports or articles in proceedings or journals. The collocation of this type of data is used by search engines and digital libraries to search and access research publications, which usually retrieve related articles based on the query keywords instead of the article’s subjects. Consequently, accurate classification of scientific articles can increase the quality of users’ searches when seeking a scientific document in databases. The primary purpose of this paper is to provide a classification model to determine the scope of scientific articles. To this end, we proposed a model which uses the enriched contextualized knowledge of Persian articles through distributional semantics. Accordingly, identifying the specific field of each document and defining its domain by prominent enriched knowledge enhances the accuracy of scientific articles’ classification. To reach the goal, we enriched the contextualized embedding models, either ParsBERT or XLM-RoBERTa, with the latent topics to train a multilayer perceptron model. According to the experimental results, overall performance of the ParsBERT-NMF-1HT was 72.37% (macro) and 75.21% (micro) according to F-measure, with a statistical significance compared to the baseline (p<0.05).
Keywords: Article Content Analysis, Contextualized Representation, Distributional Semantics, Neural Network, Scientific Article Classification, Topic Modeling -
In recent years, there has been a growing interest in Systems Thinking (ST) as a significant area of research. It has become increasingly crucial to provide a detailed overview of the ST domain and to identify the prevailing research focuses and trends within this realm. This study represents the most comprehensive and pioneering effort, using topic modeling analysis to analyze the landscape of ST research from the past to the present. The primary objective of this study was to identify the current state of research and the predominant areas of focus within articles related to ST. To achieve this research aim, a search was conducted on August 20, 2023, using the Scopus database, yielding 1400 articles. The bibliometric analysis findings of this study indicate a substantial surge in the number of publications in this field, especially since 2016, with a significant majority of these studies originating from the United States. While the research is characterized by its interdisciplinary nature, most publications fall within social science. Employing Latent Dirichlet Allocation (LDA), Non-Negative Matrix Factorization (NMF), and Bidirectional Encoder Representations (BER) Topic algorithms for topic modeling analysis, the study classified the articles into ten distinct topics. These topics encompass "comprehending and modeling complex systems," "sustainability in business," "interdisciplinary learning and problem-solving in education," "enhancing healthcare delivery," "system dynamics modeling," "engineering education," "chemistry education," "enhancing patient outcomes," "environmental sustainability," and "improving organizational performance." The most prominent topics that represent common research areas in the field of Systems Thinking include "system dynamics modeling," "enhancing healthcare delivery," "interdisciplinary learning and problem-solving in education," "comprehending and modeling complex systems," "environmental sustainability," and "improving organizational performance". In conclusion, this study is expected to provide valuable guidance for future research in the field of Systems Thinking by aiding in identifying research interests and trends.
Keywords: System Thinking, Topic Modeling, BER Topic, Latent Dirichlet Allocation, Non-Negative Matrix Factorization -
One area of growing interest in computational psychology is the analysis of psychopathological networks. Numerous related studies and several recent review articles have been published in this field. Understanding the characteristics, authors, relationships, and focus areas of the studies can provide greater benefits to researchers in this field. This article presents the first analysis of co-authorship networks in computational network-oriented psychopathology research. To this end, bibliographic data were collected from Google Scholar. Given the difficulty and potential for errors in manually reviewing the 2,799 research articles published between 2000 and 2022, co-authorship network analysis was conducted using machine learning methods for graph analysis. Network density, average degree, clustering coefficient, and the number of communities were calculated, and temporal changes were evaluated. Prominent authors were identified based on centrality measures. The co-authorship network for the entire period consisted of 6,025 nodes and 9,808 weighted edges. Time series analysis showed a linear correlation between the number of authors and the number of connections. Furthermore, the number of communities was linearly correlated with the number of authors. Identifying research clusters through topic modeling revealed that keywords such as user, event, family, and comments were the most commonly used representative texts in articles in this field. Additionally, we highlighted disorders that may have potential for more research in the field of network analysis, those with no related publications, for further investigation. Finally, the findings show a lack of collaboration between computer science researchers and specialists in this area.
Keywords: Psychopathology networks, Bibliometric analysis, Co-authorship analysis, topic modeling -
در سال های اخیر، توسعه هوش مصنوعی بر جنبه های مختلف زندگی بشر تاثیر چشمگیری داشته است. یکی از مهم ترین کاربردهای هوش مصنوعی، استفاده از چت بات هاست که چت جی پی تی، به عنوان یکی از معروف ترین آن ها، تغییر در نحوه تعامل انسان با فناوری را وعده می دهد. با گسترش استفاده از این نوع فناوری، نگرانی هایی درباره حریم خصوصی و امنیت داده ها پدیدار شده است. ارزیابی این نگرانی ها می تواند به ارائه بینش هایی ارزشمند در زمینه ادراک عمومی و بهبود سیاست های حریم خصوصی کمک کند. در حالی که پژوهش های قبلی بیشتر به جنبه های فنی چت جی پی تی پرداخته اند، بررسی احساسات عمومی به این فناوری تحول آفرین می تواند به ارزیابی موفقیت یا شکست آن و شناسایی قوت ها و ضعف ها کمک کند. در این پژوهش، هدف بررسی درک کاربران شبکه اجتماعی توییتر نسبت به چت جی پی تی از طریق تحلیل احساسات و مدل سازی موضوع است. ابتدا 478,266 توییت از طریق رابط کاربری رسمی توییتر جمع آوری شد. تحلیل احساسات با استفاده از مدل BERT یکی از پیشرفته ترین الگوریتم های یادگیری عمیق، انجام شد و دقت 82 درصد به دست آمد. همچنین، مدل سازی موضوع با استفاده از الگوریتم BERTopic مبتنی بر BERT با انسجام 632/0 (C_V) و انسجام 957/2- (U_Mass) انجام شد. نتایج پژوهش نشان می دهد که نه موضوع اصلی مورد بحث کاربران عبارت اند از: هوش مصنوعی، موتورهای جستوجو، مشاغل آینده، پاسخ دهی به سوال ها، آموزش، برنامه نویسی، مدل های زبان بزرگ، کسب وکار و سلامت. بر اساس یافته ها، کاربران نسبت به موضوعات مدل های زبان بزرگ، آموزش و کسب وکار احساسات مثبت بیشتری ابراز کرده اند، در حالی که موضوعات مشاغل آینده، سلامت و هوش مصنوعی بیشتر با احساسات منفی مواجه شده اند. با وجود اینکه نظرهای خنثی بیشترین درصد را در داده ها به خود اختصاص داده است، تعداد توییت های مثبت به طور چشمگیری بیشتر از توییت های منفی بوده است که رضایت و امیدواری عمومی را از فناوری چت جی پی تی نشان می دهد.کلید واژگان: تحلیل احساسات، مدل سازی موضوع، چت جی پی تی، توییتر، مدل برتInformation management, Volume:9 Issue: 1, 2023, PP 179 -202In recent years, we have witnessed significant advancements in artificial intelligence across many aspects of human life. One way AI can enhance human life is through the use of chatbots. A chatbot that has recently been introduced with much attention and is promised to revolutionize the way people interact with technology is ChatGPT. However, with the widespread use of AI chatbots, concerns about data privacy and security have emerged. Evaluating these concerns can offer insights into public perceptions and help improve data privacy policies. Previous research on this technology has mainly focused on its technical aspects, whereas understanding public sentiment about ChatGPT as a transformative technology can provide insights into its potential success or failure, as well as its strengths and weaknesses. In line with this, the present study aims to examine the perceptions of Twitter users regarding ChatGPT through sentiment analysis and topic modeling. A total of 478,266 tweets were collected via the official Twitter API, and following sentiment analysis using the BERT model—one of the advanced algorithms in deep learning—the results showed an accuracy of 82%. Additionally, through topic modeling using the BERTopic algorithm, based on BERT, the results achieved a coherence (C_V) score of 0.632 and a U_Mass score of -2.957. According to the study’s findings, the nine most discussed topics among Twitter users are: artificial intelligence, search engines, future jobs, answering questions, education, programming, large language models, business, and healthcare. The results indicate that users expressed the highest percentage of positive sentiment towards the topics of large language models, education, and business, while the most negative sentiments were expressed regarding future jobs, healthcare, and artificial intelligence. After neutral opinions, which made up the largest portion of the data, positive tweets significantly outnumbered negative ones, reflecting the public’s satisfaction and optimism towards ChatGPT technology.Keywords: Sentiment Analysis, Topic Modeling, Chatgpt, Twitter, BERT Model
-
International Journal of Information Science and Management, Volume:21 Issue: 3, Summer 2023, PP 363 -382Publications on knowledge and information creation have grown significantly due to their importance in information and knowledge management. This study aims to discover and analyze the hidden thematic topics of information and knowledge creation publications. The research applied was performed using text mining techniques and an analytical approach. The research population comprises publications on knowledge and information creation from 1900 to 2021, retrieved from the Web of Science Core Collection (WOSCC). The data were analyzed by Latent Dirichlet Allocation (LDA) algorithm and Python Programming Language. Forty-eight thousand two hundred sixty-five documents were retrieved and analyzed. "Data production," "Health seeking behavior," "Human Brain and Information processing," "Decision-making models," "Knowledge production," "Information needs," and "Digital Literacy" are among the essential topics in order of publication rate. The results indicated that the spectrum of the fourteen topics covered a variety of dimensions, including "data and knowledge creation," "information processing," "information needs and behavior," "digital literacy," and "critical thinking." The study's findings have shown the conceptual relationships between textual data and the presentation of the knowledge structure of information and knowledge creation. Based on this, it can be concluded that the creation of knowledge and information includes human mental and behavioral processes concerning knowledge.Keywords: knowledge creation, Information Creation, Data Creation, Data Mining, text mining, Topic Modeling, Latent Dirichlet Allocation (LDA)
-
International Journal of Information Science and Management, Volume:21 Issue: 2, Spring 2023, PP 85 -101Due to the importance of maternal health for the development of society and the role of information systems in improving healthcare, this study aims to investigate and analyze the characteristics and topics of articles published in the field of information systems in maternal health. The articles were retrieved from the Web of Science (WoS) on October 23, 2021. The bibliometric indicators included the number of documents and citations, top journals, institutes, and countries. The co-authorship collaboration network of the countries was examined using Bibliometrix 3.1 package and VOSviewer software (ver. 1.6.17). In addition to bibliometric analysis, the related topic modelling was calculated with Non-Matrix Factorization (NMF) algorithm in Python programming language. Overall, 1140 original articles were published in the selected field in the WoS database within the years 1991-2021. The results demonstrated an ascending growth in the number of publications. The "The University of London", the "London School of Hygiene Tropical Medicine", and the "World Health Organization" (WHO) contributed the most to this field orderly. Researchers from the USA with 372 (32.63%), Brazil with 267 (23.42%), and England with 150 (13.2%) documents had the most scientific collaboration on publishing in this regard. The USA and England had the most collaboration in 38 articles in the co-authorship network of countries. Based on topic modelling analysis, five topic clusters, including "maternal mortality", "child and infant mortality", "risk factors related to pregnancy and maternal health", "Geographic Information Systems (GISs)", and "data quality in Health Information Systems (HISs)" were considered for this research. According to the research results, it can be concluded that there is a rising trend in the number of articles published in the field of information systems in maternal health. The USA, Brazil, and England have played a prominent role in scientific production in this regard. Given that this study gives a snapshot of the current status of the research topic and visualizes the collaboration between countries, the obtained results can guide future collaboration and encourage scientific institutes to expand their interactions.Keywords: Bibliometrics, Topic Modeling, Maternal health, information systems
-
بیماری همه گیر کرونا موجب تغییراتی در سبک زندگی روزمره، مانند کاهش مراودات اجتماعی و ایجاد فاصله گذاری اجتماعی، شده است. در این پژوهش، دو هدف را پیگیری کرده ایم. هدف نخست تحلیل الگوریتمی نظرات و پیامهای مرتبط با کرونا به زبان فارسی است که توسط افراد مختلف، در دو رسانه اجتماعی توییتر و اینستاگرام، منتشر می شود. برای این هدف، با استفاده از مدل سازی موضوعی، به عنوان یک شیوه تحلیل محتوایی داده، داده ها را به موضوعات انتزاعی خوشه بندی کرده ایم. هدف دیگر، یافتن رابطه همبستگی بین موضوعات در نظرات و هشتگ های به کاررفته در نظرات است. برای تحقق این هدف، با گردآوری نظرات و پیامهای خزش شده مربوط به کرونا از این دو رسانه، یک پیکره زبانی تهیه شده است. از تحلیل محتوایی نظرات این پیکره، 24 موضوع انتزاعی به دست آمد که بهصورت دستی برچسبگذاری شد تا این موضوعها هویت پیدا کنند. با بررسی داده های این پیکره و آمار به دست آمده از پردازش موضوعی آن ها، می توان گمانه زنی کرد که حدود 25٪ از نظرات این پیکره بر دو موضوع «سیاسی» و «اجتماعی» متمرکز است. 10 موضوع دانه ریز این پیکره، یعنی 35٪ از حجم نظرات، به خود ویروس کرونا و ماهیت همهگیری آن مربوط است که بیانگر اهمیت توجه به رسانه های اجتماعی برای آگاه سازی و نشر اطلاعات است. علاوه برآن، فرضیه وجود رابطه بین هشتگ ها و موضوع ها، با استفاده از ضریب همبستگی پیرسون، از نظر آماری مورد بررسی قرار گرفت. برای 20 موضوع، همبستگی بالا بین موضوع و تعدادی از هشتگ ها یافت شد؛ ولی برای 4 موضوع این همبستگی یافت نشد. از این پژوهش می توان برای افزایش انسجام درونی متن و پیش بینی پذیری هشتگ ها استفاده کرد.کلید واژگان: رسانه های اجتماعی، ویروس کرونا، کووید 19، هشتگ، مدل سازی موضوع، تحلیل محتواییCoronavirus pandemic caused changes in the daily lifestyle, such as reducing social interactions and creating social distancing. In this research, we pursue two goals. One is algorithmic content analysis of comments/posts in Persian related to the Coronavirus on two social media, namely Tweeter and Instagram. To this end, topic modeling is used as a method for content analysis to cluster the data into abstract topics. The other goal is finding the correlation between topics and hashtags in the comments/posts. To this end, we developed a corpus from these two social media. We found 24 abstract topics by algorithmic content analysis of this corpus and they were manually labeled to be comprehensive. According to the corpus and the statistical information of the extracted topics, it can be speculated that about 25% of the comments/posts in this corpus focused on political and social issues of the virus. 10 fine-grained topics which contained 35% of the comments were related to the Coronavirus itself and its pandemic property. This indicates the importance of the attention that has been paid to social media for informing and disseminating information. Furthermore, the hypothesis of existing correlation between topics and hashtags was studied from statistical point of view by using the Pearson correlation coefficient. For 20 topics, a high correlation score between topics and hashtags was found; but this correlation was not found for 4 topics. The outcome of this research can be used to increase the internal coherence of a text and to make the hashtags predictable.Keywords: Social Media, Coronavirus, COVID-19, Hashtag, Topic Modeling, content analysis
-
زمینه و هدف :
هدف این پژوهش، بررسی نتایج استخراج خودکار کلیدواژه از فهرست مندرجات کتاب های الکترونیکی فارسی حوزه علوم با استفاده از مدل سازی موضوعی ال. دی. ای.، سنجش شباهت کلیدواژه های خروجی با کلیدواژه های استاندارد و ارزیابی کاربران از کلیدواژه های استخراج شده به صورت ماشینی است.
روش پژوهش:
این پژوهش کاربردی، از نوع پژوهش های متن کاوی و به جنبه روش های مورداستفاده در آن پژوهش آمیخته است. از مدل سازی موضوعی ال. دی. ای. برای استخراج کلیدواژه از فهرست های مندرجات کتاب ها استفاده شده و نتایج کاربرد مدل با دو روش سنجش کسینوس شباهت و پژوهش کیفی توسط کاربران مورد ارزیابی قرار گرفته است.
یافته هافهرست های مندرجات مورد بررسی با میانگین پیراسته 260.02 کلمه از متون با طول متوسط محسوب می شوند و حدود 20 درصد از کلمات آن ها را ایست واژه ها تشکیل داده اند. میان کلیدواژه های استاندارد سرعنوانی و کلیدواژه های خروجی مدل ال. دی. ای. کسینوس شباهت، 0.0932، بسیار پایین به دست آمد. توافق کامل کاربران نشان داد کلیدواژه های خروجی مدل موضوعی ال. دی. ای. حوزه موضوعی کل پیکره را نشان می دهند، اما ازنظر کاربران به ترتیب کلیدواژه های سرعنوانی استاندارد، کلیدواژه های مستخرج از مدل در زیرحوزه های موضوعی و کلیدواژه های مستخرج از مدل با کل پیکره در توصیف موضوعات هر تک مدرک موفق اند.
نتیجه گیریکلیدواژه های به دست آمده از مدل موضوعی ال. دی. ای. را می توان در مجموعه های ناشناخته به منظور استخراج محتوای موضوعی ناآشکار کل مجموعه به کار برد، اما برای ربط دقیق موضوع به مدرک در پیکره های بزرگ با موضوعات ناهمگن و متنوع، نمی توان از این روش استفاده کرد. این روش در رویه های رسمی توصیف موضوعی تک تک مدارک به صورت مستقل می تواند به عنوان یک سیستم پیشنهاددهنده کلیدواژه به نیروی انسانی نمایه ساز به کار گرفته شود.
کلید واژگان: استخراج ماشینی کلیدواژه، مدل سازی موضوعی، ال. دی. ای.، شباهت سنجی، ارزیابی کاربرPurposeThis study investigates the automatic keyword extraction from the table of contents of Persian e-books in the field of science using LDA topic modeling, evaluating their similarity with the golden standard, and users' viewpoints of the model keywords.
MethodologyThis is mixed text-mining research in which LDA topic modeling is used to extract keywords from the table of contents of scientific e-books. The evaluation of the used approach has been done by two methods of cosine similarity computing and qualitative evaluation by users.
FindingsTable of contents are medium-length texts with a trimmed mean of 260.02 words, about 20% of which are stop-words. The cosine similarity between the golden standard keywords and the output keywords is 0.0932 thus very low. The full agreement of users showed that the extracted keywords with the LDA topic model represent the subject field of the whole corpus, but the golden standard keywords, the keywords extracted using the LDA topic model in sub-domains of the corpus, and the keywords extracted from the whole corpus were respectively successful in subject describing of each document.
ConclusionThe keywords extracted using the LDA topic model can be used in unspecified and unknown collections to extract hidden thematic content of the whole collection, but not to accurately relate each topic to each document in large and heterogeneous themes. In collections of texts in one subject field, such as mathematics or physics, etc., with less diversity and more uniformity in terms of the words used in them, more coherent and relevant keywords are obtained, but in these cases, the control of the relevance of keywords to each document is required. In formal subject analysis procedures and processes of individual documents, this approach can be used as a keyword suggestion system for indexing and analytical workforce.
Keywords: Keyword extraction, Topic modeling, Latent Dirichlet Allocation (LDA), Similarity evaluation, Users' evalua-tion -
از زمان پیدایش اینترنت تاکنون، با حجم زیادی از داده هایی مواجه هستیم که در این بستر قرار گرفته است. این امر سبب شده است تا شیوه مطالعه داده ها و بررسی سیر تحول آنها از روش دستی به خودکار تغییر کند. هدف از انجام این پژوهش، استخراج موضوعات مطرح شده در مقالات رشته زبان شناسی و روندشناسی تحول موضوعات در طول زمان با کمک الگوریتم مدل سازی موضوعی است. برای این هدف از الگوریتم تخصیص پنهان دیریشله استفاده می شود. پیکره این پژوهش ازطریق خزش به دست آمده و پس از پالایش و پیش پردازش داده ها، تعداد 5، 10 و 15 موضوع از مقالات استخراج شده و براساس واژه های هر موضوع به صورت دستی برچسب گذاری شده است. توزیع مقالات از سال 1306 تا 1399 سبب شد تا این مدت به 5 مقطع زمانی تقسیم و موضوعات مربوط به هر برش زمانی پس از فرایند برچسب گذاری مشخص شود. رشد و افول موضوعات استخراج شده از مقالات در پردازش های با تعداد 5، 10 و 15 موضوع در بازه های زمانی قابل مشاهده است. دستاورد کاربردی این پژوهش سیاست گذاری در حوزه علم است که علاوه بر مطرح کردن یک روش شناسی فناورانه کاربردی در پژوهش، می توان موضوعات داغ میان پژوهشگران یک رشته علمی را مشخص کرد و خلاهای موضوعات پژوهشی را یافت و بر متنوع سازی و متوازن سازی موضوعات پژوهشی اهتمام ورزید.
کلید واژگان: تکوین، پردازش زبان طبیعی، مدل سازی موضوع، زبان شناسی پیکره ای، مقاله علمی، تحلیل محتواییSince the advent of the Internet, we have come across a large amount of data that has been placed on this platform. This has caused the way data is studied and examined to evolve from manual to automatic. This research aims to extract the topics raised in articles in the field of language and linguistics and to study the evolution of topics over time with the help of the topic modeling algorithm. To this end, the Latent Dirichlet allocation algorithm is used. The corpus of this research was developed through crawling; and after filtering and pre-processing of the data, the number of 5, 10 and 15 topics are extracted from the articles; and based on the words of each topic, they are manually labeled. Due to the distribution of articles from 1927 to 2020 (1306 to 1399 according to the solar calendar), the time is divided into 5 time span and the topics related to each time span is identified after the labeling process. Among the 5 extracted topics, including Education, Discourse Analysis, Psychology, Syntax and Dialectology, all topics, except Discourse Analysis, are progressively studied over time. The growth and decline of the topics extracted from the articles can be seen in 10 and 15 topics. The practical achievement of this research is policy-making in the field of science. In addition to introducing a practical, technological methodology in do research, it is possible to identify hot topics among researchers in a scientific field and to find the gaps in research topics and to try to diversify and balance research topics.
Keywords: Evolution, Topic Modeling, corpus linguistics, Scientific Article, Content analysis -
با توجه به محبوبیت جهانی حوزه رمزارزها به ویژه بیت کوین، انتظار می رود دیر یا زود دولت ها، بانک ها و سایر صنایع به استفاده از رمزارزها در معاملات روزمره خود روی آورند. بنابراین همانند هر حوزه مالی دیگر، نیاز به شناسایی چالش های موجود در این حوزه جهت ایجاد فضای سرمایه گذاری امن احساس می شود. از طرفی با گسترش شبکه های اجتماعی، داده های ساختارنیافته در حال افزایش هستند که می توان از این پدیده جهت ایجاد ارزش افزوده در حوزه های گوناگون همچون تحلیل احساسات بهره مند شد. از این رو پژوهش حاضر با هدف بررسی تاثیر ریسک درک شده توسط کاربران شبکه های اجتماعی بر روی قیمت بیت کوین انجام گردید. براساس یافته های پژوهش، ریسک های شناسایی شده در حوزه بیت کوین، شامل ریسک اجتماعی، اقتصادی، امنیتی، فناوری و حقوقی می باشند. برای استخراج ریسک های بیت کوین، از گفتگوهای سایت بیت کوین تاک استفاده گردید. پس از جمع آوری داده ها توسط خزشگر وب، به کمک الگوریتم تخصیص پنهان، گفتگوها در خوشه های موضوعی خوشه بندی شدند. تحلیل احساسات کاربران نیز با روش مبتنی بر واژگان و بکارگیری واژه نامه AFINN انجام گردید. برای سنجش اثرگذاری احساسات کاربران بر قیمت بیت کوین نیز از مدل شبکه عصبی غیرخطی با داده های برون زا بهره گرفته شد. نتایج به دست آمده نشان از وجود 0.99 همبستگی و میانگین مربعات خطا 0.001 دارد که به معنای وجود همبستگی میان قیمت واقعی و قیمت پیش بینی شده بیت کوین می باشد. یافته های این پژوهش می تواند توجه فعالان در حوزه بیت کوین را جلب نماید تا برنامه ریزی مناسبی جهت سرمایه گذاری و کاهش ریسک سرمایه گذاری داشته باشند.
کلید واژگان: بیت کوین، ریسک بیت کوین، تحلیل احساسات، مدلسازی موضوع، شبکه عصبی NARXDue to the global attention to cryptocurrencies especially bitcoin, governments, banks, and other industries are expected to use cryptocurrencies in their daily transactions. Therefore, as any other financial field, there is a need to identify the challenges in this field to safe investment. On the other hand, by the expansion of social networks, unstructured data is increasing, which can be used to create added value in various areas such as sentiment analysis. Therefore, this study was conducted to investigate the impact of perceived risk by social network users on the price of Bitcoin. According to the research findings, the identified risks in the field of bitcoin include social, economic, security, technological and legal risks., The conversations on the Bitcoin Talk Site were used to extract the bitcoin risks. After collecting these conversations by the web crawler, the conversations were clustered into thematic clusters using the Latent Dirichlet Allocation algorithm, which is one of the most popular methods in Topic Modeling. were analyzed using vocabulary-based method and AFINN dictionary. NARX Neural Network was used to measure the effect of Userschr('39') Sentiment on the price of Bitcoin. The results show a correlation of 0.99 and a mean square error of 0.001, which means that there is a correlation between the actual price and the predicted price of Bitcoin. The findings of this study can attract the attention of financial actors and businessmen in the field of bitcoin to plan a safe investment and reduce risk.
Keywords: Bitcoin, Bitcoin risk, Sentiment Analysis, Topic Modeling, NARX neural network -
با توسعه ارتباطات سیار و ظهور نسل پنجم، افزایش سرعت و قابلیت های اینترنت به عنوان توانمندساز اینترنت اشیا، تغییراتی را در زندگی و کار روزمره افراد ایجاد می کند. از سوی دیگر، مسایل زیست محیطی، احتمال بیماری-زایی و تردید در تحقق ویژگی های متصور وجود دارد که امروزه مورد بحث فراوان است. اکثر تحقیقات به ابعاد فنی و توسعه ای توجه داشته اند، در حالی که از منظر علوم اجتماعی، پذیرش فناوری جدید و از دیدگاه بازاریابی، رضایت مصرف کننده می تواند برای ارایه دهندگان خدمات مهم باشد. بر این اساس، هدف از این مطالعه بررسی درک کاربران شبکه اجتماعی توییتر به عنوان یک بستر میکروبلاگینگ در مورد نسل پنجم ارتباطات سیار با استفاده از روش های یادگیری ماشینی و تحلیل احساسات می باشد. از این رو، مجموعه ای از بیش از 40000 توییت در این زمینه از طریق رابط کاربری توییتر گردآوری شد و مدل شبکه عصبی بازگشتی با دقت 79 درصد ایجاد شد. در نهایت مدل سازی موضوع به روش آنالیز تشخیصی خطی برای تعمیق بیشتر انجام شد. نتایج نشان می دهد که اگرچه نارضایتی از کیفیت ارایه شده، هزینه و پوشش نسل پنجم ارتباطات سیار، نگرانی های بهداشتی، شایعات مربوط به کووید19 با نسل پنجم وجود دارد، اما همچنان افراد بیشتری نسبت به آینده این فناوری در زمینه های مختلف مانند اینترنت اشیا و هوش مصنوعی خوش بین هستند.
کلید واژگان: نسل پنجم ارتباطات سیار، تحلیل احساسات، توییتر، مدل سازی موضوع، شبکه عصبی بازگشتیWith the development of mobile communications and the advent of the Fifth Generation, increasing Internet speed and capabilities as enablers of the Internet of Things is creating changes in people's daily lives and work. On the other hand, there are environmental issues, the possibility of pathogenicity, and doubts about the realization of the imagined features, which are much debated today. Most researches has paid attention to technical and developmental dimensions of it, while from the social science perspective, the acceptance of new technology and from the marketing perspective, consumer satisfaction can be important for service providers. Accordingly, the purpose of this study is to investigate the perception of Twitter social network users as a microblogging platform about the fifth generation of mobile communication using machine learning methods and Sentiment Analysis .Therefore, a collection of more than 40,000 tweets on this topic was compiled through the Twitter user interface and the Recurrent Neural Network model was created with79% accuracy. Finally, the topic modeling was done by LDA method for further deepening. The results shows that although there is dissatisfaction with the quality provided, the cost and coverage of the fifth generation of mobile communications, health concerns, rumors that Covid19 is related to the fifth generation, but still more people are optimistic about the future of this technology in various fields such as the Internet of Things and artificial intelligence..
Keywords: Fifth Generation of Mobile Communication(5G), Sentiment Analysis, Twitter, Topic Modeling, Recurrent Neural Network(RNN) -
هدف
روش های مدل سازی موضوعات احتمالاتی متشکل از مجموعه ای از الگوریتم هایی است که هدف اصلی آنها کشف ساختار پنهان موضوعی در حجم وسیعی از اسناد است. هدف از انجام این پژوهش مدل سازی موضوعی مقالات پژوهشگران ایرانی در حوزه غدد درون ریز و متابولیسم در پایگاه استنادی وب علوم است.
روش شناسیپژوهش حاضر از نوع کاربردی است که با روش متن کاوی و تحلیل محتوا به انجام رسیده است. در این پژوهش کلیه داده های مورد نیاز، از پایگاه استنادی وب علوم با استفاده از کلیدواژه های ثبت شده در سرعنوان موضوعی پزشکی بدون محدودیت زمانی تا 15 آبان 97 بازیابی شدند. سپس با استفاده از الگوریتم تخصیص پنهان دریکله مجموعه اسناد در محیط متلب تجزیه و تحلیل شدند.
یافته هادسته های موضوعی به صورت دسته هایی از 20 واژه و در 10 دسته موضوعی استخراج شدند. سپس توسط فوق تخصصان غدد دسته های موضوعی بر اساس ارتباط آنها به موضوعات مختلف حوزه غدد درون ریز و متابولیسم نام گذاری شدند و به هر دسته عنوان موضوعی اختصاص یافت.
نتیجه گیرینتایج بیانگر این است که اجرای مدل تخصیص پنهان دریکله عملکرد قابل قبولی در ارایه دسته های موضوعات حوزه غدد داشته است. دسته های موضوعی استخراج شده دارای تجانس و ارتباط موضوعی خوبی با یکدیگر هستند.
کلید واژگان: غدد درون ریز و متابولیسم، مدل سازی موضوعی، تخصیص پنهان دریکله، متن کاوی، ایرانTopic Modeling of Endocrinology and Metabolism Articles by Iranian Researchers in the Web of SciencePurposeProbabilistic topic modeling methods consist of a set of algorithms whose main purpose is to discover the hidden subject structure in a large volume of documents. The purpose of this study is to thematically model the articles of Iranian researchers in the field of endocrinology and metabolism in the citation database of Web of Science.
MethodologyThe present research is of applied type and has been done by text mining and content analysis method. In this study, all required data were retrieved from the Web of Science Citation Database using the keywords registered in the medical subject heading without a time limit until November 6, 2018. Then, using a hidden allocation algorithm, the whole set of documents in MATLAB was analyzed.
FindingsSubject categories were extracted as groups of 20 words in 10 subject categories. Then, by endocrinologists, the subject categories were named based on their relationship to various topics in the field of endocrinology and metabolism, and each category was assigned a subject title.
ConclustionThe results indicate that the implementation of the latent Dirichlet allocation model has an acceptable performance in presenting the categories of endocrinology and metabolism. The extracted subject categories have good homogeneity and thematic relevance with each other.
Keywords: Endocrinology, metabolism, Topic modeling, LDA, Text mining, Iran -
امروزه شبکه های اجتماعی به عنوان محلی برای ارایه نظرات کاربران نسبت به موضوعات مختلف از جمله محصولات مصرفی تبدیل شده است و این نظرات به منبعی ارزشمند برای تحلیل احساسات و استخراج انتظارات مشتریان از محصولات تبدیل شده است. این موضوع فرصت مناسبی را برای شرکت ها جهت بازطراحی محصولات خود بر اساس نظرات کاربران فراهم کرده است. در این پژوهش برای ارایه توصیه به واحدهای طراحی محصولات شوینده، از تحلیل احساسات مشتریان و مصرف کنندگان این محصولات در شبکه های اجتماعی استفاده کرده ایم. بیش از 4200 مورد از نظرات کاربران شبکه اجتماعی توییتر بر اساس موضوع پژوهش در سال 2019 استخراج و در مرحله پیش پردازش متون پالایش و تگ گذاری شدند و پس از طی این مرحله با بکارگیری منطق فازی و مدلیابی موضوعی به تحلیل احساسات پرداخته شده است. مدلیابی موضوعی را به منظور یافتن ویژگی های مورد اشاره در نظرات برای داشتن رویکردی بهتر در واحدهای طراحی محصولات بکار بردیم و از منطق فازی برای استحصال میزان قطبیت نظرات به 5 دسته بسیار مثبت، مثبت، خنثی، منفی و بسیار منفی استفاده کرده ایم. نتایج بدست آمده از تحلیل احساسات در مدل پژوهش با استفاده از ماتریس آشفتگی مورد ارزیابی قرار گرفت و صحت 86.15% حاصل شد.در این پژوهش از زبان و کتابخانه های پایتون برای جمع آوری، پالایش و تحلیل اطلاعات استفاده گردید.کلید واژگان: تحلیل احساسات، سیستم توصیه گر، مدلیابی موضوعی، هوش تجاری، منطق فازیToday, social media has become a place for users to comment on various topics, including consumer products, and these comments have become a valuable resource for sentiments analyzing and extracting customer expectations of products. This subject provides companies with a good opportunity to redesign their products based on user feedback. In this study, to provide recommendations to the design units of detergent products, we used sentiment analysis of customers and consumers of this products on social media. More than 4200 tweets were extracted from Twitter in 2019 based on the research topic and refined and tagged during the pre-processing of the texts. Afterwards, we analyzed the emotions using fuzzy logic and topic modeling. We have used topic modeling to find the features mentioned in the comments for a better approach in the design units, and fuzzy logic to obtain the degree of polarity of ideas into 5 categories: very positive, positive, neutral, negative and very negative. We used confusion matrix for evaluating research model and an accuracy of 86.15 % has been recorded.In this research Python libraries are used for data gathering, cleansing and analysis.Keywords: Sentiments Analysis, Recommendation System, Topic Modeling, Business intelligence, Fuzzy logic
-
مقدمه
مدل سازی موضوعی یکی از تکنیک های متن کاوی است که امکان کشف موضوعات نامعلوم در مجموعه اسناد، تفسیر اسناد بر اساس این موضوعات و استفاده از این تفاسیر برای سازماندهی، خلاصه کردن و جستجوی متن ها را به طور اتوماتیک میسر می کند. آشنایی با مفهوم و تکنیک مدل سازی موضوعی، و کاربرد آن در کشف موضوعات و سازمان دهی منابع اطلاعاتی از اهداف اصلی این پژوهش است.
روش شناسیپژوهش حاضر از نوع کتابخانه ای است که در آن، ضمن معرفی مدل سازی موضوعی، به دسته بندی و مرور کاربردهای این تکنیک بر اساس ماهیت عملکردی آن و ارایه نمونه تحقیقاتی که از این تکنیک استفاده نموده اند پرداخته است.
یافته هاالگوریتم های مدل سازی موضوعی علاوه بر سه هدف اصلی مبنی بر کشف موضوعات پنهان، تفسیر اسناد بر اساس موضوعات و نهایتا سازمان دهی و طبقه بندی متون، در کشف موضوعات و روابط پنهان در حوزه های علوم، بازیابی اطلاعات، دسته بندی مدارک بر اساس موضوعات، کشف الگوهای برجسته و رویدادهای در حال ظهور، خوشه بندی مفاهیم حوزه های علمی، تحلیل سیر تحول مفهومی در طول دوره های تاریخی، تعیین روابط سلسه مراتبی مفاهیم یک حوزه یا زمینه خاص علمی و غنی سازی فهرست واژگان کاربرد دارد.
نتیجهمدل سازی موضوعی با تکیه بر یادگیری ماشین و بهره گیری از دانش هوش مصنوعی به عنوان یکی از رویکردهای نوین سازماندهی منابع اطلاعاتی مطرح شده و مطالعات جدی در این زمینه در حال انجام است. لذا با کاربرد الگوریتم های مدل سازی موضوعی در راستای خودکارسازی استخراج موضوع و کشف موضوعات نهان موجود در منبع می توان بر تقویت و روزآمدسازی نظام های نوین سازمان دهی منابع اطلاعاتی عمل کرد.
کلید واژگان: متن کاوی، مدل سازی موضوعی، کشف موضوع، سازماندهی اطلاعات، تشخیص موضوعIntroductionTopic modeling is one of the text mining techniques that allows you to discover unknown topics in a collection of documents, interpret documents based on these topics, and use these interpretations to organize, summarize, and search for texts automatically. Familiarity with the concept and technique of topic modeling, and its application in discovering topics and organizing information is one of the main goals of this research.
MethodologyThe present study is a review-analytical type in which, while introducing topic modeling, it has categorized and reviewed the applications of this technique based on its performance and provided a sample of research that has used this technique.
FindingsTopic modeling algorithms is used not only in addition to the three main objectives of discovering hidden topics, interpreting documents based on topics, and finally organizing and classifying texts, but also is used in discovering hidden topics and relationships in the fields of science, information retrieval, categorizing documents based on topics, discovering outstanding patterns and emerging events, clustering the concepts of scientific fields, analyzing the course of conceptual evolution during historical periods, determining the hierarchical relationships of concepts. A specific scientific field or field and vocabulary enrichment.
ConclusionTopic modeling based on machine learning and artificial intelligence knowledge has been proposed as one of the new approaches to organizing information resources and serious studies are being conducted in this field. Therefore, by using topic modeling algorithms in order to automate the extraction of the subject and discover the hidden issues in the source, it is possible to strengthen and update the new systems of organizing information resources.
Keywords: Text mining, Topic Modeling, Subject Discovery, Information Organization, Subject Diagnosis, Subject Allocation -
هدف
با توجه به تعدد و تنوع پژوهش های انجام شده در حوزه حسابرسی داخلی، این پژوهش با هدف شناخت عمیق تر پژوهش های حوزه حسابرسی، از طریق مرور سیستماتیک بر مطالعات موجود، به منظور طبقه بندی موضوعات و همچنین ترسیم برخی مسیرهای بالقوه تحقیقاتی آینده در این حوزه اجرا شده است.
روشبرای دستیابی به هدف پژوهش و بررسی کاراتر انبوهی از مقاله های مربوط به حوزه حسابرسی داخلی، از رویکرد «مرور ادبیات محاسبه محور (CLR)» استفاده شد و از این طریق، مجموعه مقاله های استخراج شده به لحاظ موضوعی مدل سازی شدند. اطلاعات لازم از پایگاه داده تامسون رویترز وب آف ساینس (WoS) برای 1401 مقاله، طی سال های 1920 تا 2021 جمع آوری شده اند.
یافته هاخروجی مدل سازی موضوعی، محوریت هفت حوزه در پژوهش های حسابرسی داخلی را به این شرح نمایش می دهد: حسابرسی داخلی در صنعت بهداشت و درمان؛ حسابرسی داخلی در حوزه های مدیریت ریسک و تقلب و کنترل های داخلی؛ شایستگی و آموزش و کیفیت حسابرسی داخلی و رابطه حسابرس مستقل و حسابرسی داخلی. بررسی جداگانه هر یک از این موضوعات شناسایی شده در ارتباط با حسابرسی داخلی، گویای اهم پژوهش های صورت گرفته در این حوزه مشخص و شناسایی فرصت های موجود برای پژوهش های بعدی است.
نتیجه گیریدر سیر تکامل حسابرسی داخلی (تقریبا 100 سال گذشته) از لحاظ فلسفه وجودی، می توان گفت که حصول اطمینان به صحت دفاتر و حساب های مالی و جلوگیری از سوءاستفاده از وجوه یا اموال شرکت، با کمک به ایجاد و افزودن ارزش برای شرکت ها تغییر کرده است؛ خدمات آن از اطمینان بخشی به گزارش های مالی و پاسخ گویی به ذی نفعان محدود آن، یعنی مدیران ارشد، به اطمینان بخشی و مشاوره و پیش بینی ریسک شرکت برای کلیه ذی نفعان شرکت و پاسخ گویی به آنان ارتقا یافته است. تغییر جهت پاسخ گویی حسابرسی داخلی و همکاری بیشتر آن با حسابرسان مستقل، به همراه رشد فناوری و افزایش پیچیدگی سازمان ها، به تغییر در شایستگی و مهارت های مورد نیاز، به علاوه بهبود استقلال و بی طرفی آن و همچنین درگیر شدن حسابرسان داخلی در سایر حوزه های تخصصی (به غیر از حسابداری و حسابرسی) منجر شده و انتظار می رود این روند در آینده ادامه یابد.
کلید واژگان: حسابرسی داخلی، مدل سازی موضوعی، مرور ادبیات محاسبه محور، روش تخصیص پنهان دیریکله (LDA)ObjectiveAccording to the variety and diversity of research conducted in the field of internal auditing, the purpose of this research is to gain a deeper understanding of the topic by conducting a systematic review of existing studies to classify topics and outline some potential future research directions.
MethodsIn order to achieve our purpose and to more efficiently examine a large number of articles, the "Computational Literature Review (CLR)" approach is used, and through this, the content of abstracts is analyzed automatically to provide a set of research topics within internal audit literature (Topic Modeling). The required information is collected from the Thomson Reuters Web of Science (WoS) database for 1401 articles over almost one hundred years (1920 to 2021).
ResultsThe results of Topic Modeling show the focus of seven areas in internal audit research as follows: internal audit in the healthcare industry; internal audit in the areas of risk management, fraud, and internal controls; competence and training and internal audit quality; and the relationship between the external auditor and the internal auditor. A separate review of each of these identified issues related to internal audit reveals the most critical research conducted in this area and identifies some avenues for future research.
ConclusionThe results of this study indicate that throughout the evolution of internal auditing during its history (almost 100 years), its philosophy has evolved from ensuring the accuracy of financial statements and accounts and preventing the misuse of corporate funds or assets by helping to create and add value to companies. Internal auditing services have been upgraded from assuring financial statements and responding to its limited stakeholders (i.e., senior managers), giving assurance, consulting, forecasting risk, and being accountable to all stakeholders. Also, the change in the accountability direction of internal audit and its greater cooperation with external auditors, and the growth of technology and increasing the complexity of organizations have led to changes in competencies and skills required and improving and promoting its independence and objectivity; also engaging internal auditors in other areas of expertise (other than accounting and auditing), then it is expected that the trend will continue in the future.
Keywords: Internal audit, topic modeling, Computational Literature Review, Latent Dirichlet Allocation (LDA)
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.