جستجوی مقالات مرتبط با کلیدواژه « متن کاوی » در نشریات گروه « کتابداری و مدیریت اطلاعات »
تکرار جستجوی کلیدواژه «متن کاوی» در نشریات گروه «علوم انسانی»-
تغییر رویکرد نظام های اطلاعاتی از پردازش واژه به پردازش مفهوم، موجب توجه به هستی شناسی ها شده است. در علوم پزشکی و بیماری های انسان، به لحاظ وجود تنوع در اصطلاحات و لزوم اشتراک اطلاعات از طریق نرم افزارهای مختلف مانند پرونده های پزشکی، سامانه های ثبت سوابق بهداشتی و... بکارگیری هستی شناسی ها ضروری به نظر می رسد. در پژوهش حاضر، رویکردی نیمه خودکار برای توسعه هستی شناسی پیشنهاد شده است که می تواند با استفاده از ابزارهای متن کاوی، شناسایی مولفه های ساختاری هستی شناسی و تعیین نسبی روابط را از متون علمی تسهیل کند. مدل پیشنهادی در قالب کد نرم افزاری با نام اختصاری «TmbOnt_Alfa [1]» ارایه شده است. این کد با استفاده از رابط کاربر، فایل متنی ورودی را فراخوانی کرده و پس از پردازش بر اساس تنظیمات، اصطلاحات کلیدی برای توسعه هستی شناسی را استخراج می کند. به منظور ارزیابی کارایی روش پیشنهادی، مطالعه موردی در حوزه بیماری «گلوکوم» با داده های متنی مشتمل بر10،000 چکیده مقاله از «PubMed [2]» برمبنای جستجوی واژگانی تهیه گردید. پس از مراحل پردازش، مفاهیم و ساختار سلسله مراتبی هستی شناسی حاصل در پروتژ وارد شد. سرانجام، سنجش قیاسی هستی شناسی توسعه یافته با سرعنوان پزشکی «MESH [3]»، «اصطلاح نامه وتوصیفگرهای پزشکی فارسی» و «هستی شناسی بیماری ها» و «هستی شناسی BAO [4]» نشان داد که میانگین دقت مفاهیم و میانگین دقت مکانی مفاهیم بیش از 70 درصد با هستی شناسی های بازنمایی شده در پایگاه های معتبر هستی شناسی بیماری های انسانی «Bio-Ontologies» انطباق داشته و به طور میانگین بیش از 30 درصد واژگان جدید برای افزودن به دامنه را فراهم کرده است.
کلید واژگان: بازنمایی دانش, گلوکوم, متن کاوی, هستی شناسی, بیماری چشم}Following recent trends in information management systems, conventional word-based information retrieval methods are changing to concept-based approaches by means of the broad application of ontologies. More specifically, the use of ontologies for knowledge management is significant in the medical sciences and human disease domains due to the diversity and necessity of information sharing between numerous data repositories such as medical records, health record systems, and so on. Furthermore, ontologies make natural language processing approaches more feasible by reducing semantic ambiguity and making concepts comprehensible to computer-based deductions. In this research, a semi-automated approach for ontology development is proposed, which assists in identifying structural components of an ontology and determining possible relations between them based on scientific text records. The proposed approach, in a general view, includes the gathering of a large volume of technical data in text format, processing, and extraction of results with a minimal contribution of human-based supervision. The processing stage is coded in Matlab code named TmbOnt_Alfa and applies two main techniques including word frequency and Lexico-Synactic patterns analysis, to identify concepts and relations, respectively. The role of the human supervisor is narrowed to entering target terms, eliminating unnecessary outputs, and finalizing the ontology structure. In order to evaluate the efficiency of the proposed method, a case study for ontological development in the field of glaucoma has been conducted, and results are compared with medical subject headings of MESH descriptors, the Persian medical thesaurus, ontology of diseases, and Bioassay ontology (BAO).According to results, the developed ontology, when compared by Glaucoma entry, covered 80% of the medical titles in Mesh, 100% of the medical terms developed in the Persian Medical Thesaurus, and 100% of the Persian medical descriptors. Moreover, the resultant ontology structure is compatible with more than 90% of the same ontology represented in Bioassay and 57% of the ontology of diseases (DO). It also proposed an average of 30% more terms for existing ontological structures.
Keywords: ontology, text mining, information representation, glaucoma, eye disease, medical thesaurus, protégé} -
هدف
با توجه به نقشی که مطالعه روند پژوهش های علم اطلاعات و دانش شناسی در نشان دادن نقاط ضعف، کاستی ها و مسیر پیشرفت و توسعه آن رشته دارد، پژوهش حاضر در صدد است تا به مطالعه موضوعات مقالاتی که توسط پژوهشگران ایرانی در سطح ملی و بین المللی در این حوزه انجام شده اند، بپردازد.
روش شناسی:
پژوهش حاضر از نوع کاربردی بوده و با رویکرد متن کاوی انجام گرفته است. جامعه مورد مطالعه شامل مقالات مستخرج از وبگاه نشریات ایرانی نمایه شده در پایگاه آی. اس. سی. در فاصله سال های 1398-1351 و مقالات انجام شده توسط پژوهشگران ایرانی که از سال 2019-1945 در پایگاه وب آوساینس نمایه شده اند، هستند. کلیه فرآیندهای مربوط به پیش پردازش و طبقه بندی به زبان برنامه نویسی پایتون پیاده سازی و اجرا شده اند.
یافته هابه منظور دسته بندی مطالعات علم اطلاعات و دانش شناسی، با بررسی پیشینه های مطالعاتی و ترکیب طبقه بندی های موجود و نظرخواهی از متخصصان این حوزه، طرحی مشتمل بر 31 حوزه موضوعی تهیه و مبنای تحلیل قرار گرفت. یافته ها نشان داد که بیشتر پژوهش های این رشته به ترتیب به حوزه های کتابخانه ها و مراکز اطلاعاتی و آرشیو؛ پژوهش، مطالعه و نشر؛ علم سنجی و اطلاع سنجی؛ اینترنت و مطالعات وب اختصاص یافته است.
نتیجه گیرینتایج حاصل از پژوهش حاضر می تواند به برنامه ریزی و تصمیم گیری در خصوص شناخت نیازهای آموزشی و پژوهشی، تدوین سرفصل های درسی و هدایت بروندادهای علمی آینده به سوی اولویت ها و تخصیص بهینه منابع به آن ها کمک نماید. این نتایج همچنین می تواند هدایتگر پژوهشگران در تصمیم گیری برای انتخاب موضوعات پژوهش های آینده در علم اطلاعات و دانش شناسی باشد.
کلید واژگان: تحلیل موضوعی, موضوعات پژوهش, علم اطلاعات و دانش شناسی, متن کاوی, طبقه بندی خودکار}ObjectiveConsidering the role of studying the thematic trend of knowledge and information science research in showing the weaknesses, shortcomings and the path of progress and development of that field, the present study intends to study the topics of articles conducted by Iranian researchers at the national and international levels in this field.
MethodologyThe present study is applied and has been done with the approach of text mining and automated classification analysis. The study population includes articles extracted from the website of Iranian journals indexed in the ISC database during 1977-2019, and the articles done by Iranian researchers that have been indexed in the Web of Science website from 2019-1945. All preprocessing and classification processes are implemented in the Python programming language.
FindingsIn order to categorize the studies of knowledge and information science, by examining the study backgrounds and combining the existing classifications and consulting experts in this field, a plan consisting of 31 subject areas was prepared and based on the analysis. The findings showed that most of the researches in this field are focused on libraries and information centers and archives; respectively; Research, study and publication; Scientometrics and informatics; and Internet and web studies. In contrast, areas of artificial intelligence; Semantic and ontological web; Information and knowledge-based society; and information systems have the least amount of research. An examination of the concepts and vocabulary used in the studies of this field showed that the word "library" in Iranian articles is the most frequent concept among other concepts in this period. Other commonly used concepts in this course include: Information, University, Science, Study, Knowledge, Management, Evaluation, Web, Library, Technology, Services, and Librarians. Among co-occurrence terms, the terms university library, public library, knowledge management, information science, information retrieval behavior, information technology, medical sciences, national library, digital library, central library, and information retrieval were among the most commonly used terms. Common use of terms such as knowledge, management, technology, knowledge management and information technology, digital, digital library, social network, information literacy, cloud computing and e-government shows the increasing attention of Iranian researchers to interdisciplinary and technology-based topics. Concepts and topics of Iranian research, especially in recent years, have undergone changes in various economic, social and cultural dimensions under the influence of web development and the development of semantic technologies, smart tools, globalization and advances in communication, and comprehensive development.
ConclusionThe results of the present study can help in planning and decision-making regarding recognizing educational and research needs, formulating curricula, and guiding future scientific outputs towards priorities and optimal allocation of resources to them. These results can also guide researchers in deciding to select future research topics in knowledge and information science.
Keywords: Thematic Analysis, Research topics, Knowledge, Information Science, text analysis, Automated Classification} -
استخراج کلمات کلیدی از مسایل مهم در زمینه پردازش و تحلیل متن بوده و خلاصه ای سطح بالا و دقیق از متن ارایه می دهد. بنابراین انتخاب روش مناسب برای استخراج کلمات کلیدی متن حایز اهمیت است. هدف پژوهش حاضر، مقایسه عملکرد سه رویکرد درکشف و استخراج کلیدواژه های موضوعی کتاب های الکترونیکی با استفاده از تکنیک های متن کاوی و یادگیری ماشین است. در این راستا سه رویکرد آزمایشی شامل: 1.اجرای متوالی فرآیند خوشه بندی، ارتقا کیفیت خوشه ها از نظر معنایی و غنی سازی کلمات توقف حوزه خاص؛ 2. استفاده از الگوی کلیدواژه های تخصصی؛ 3. استفاده از بخش های مهم متن در کشف و استخراج واژگان کلیدی و موضوعات مهم متن، معرفی و مورد مقایسه قرار گرفته است. جامعه آماری، شامل 1000 عنوان کتاب الکترونیکی از زیرشاخه های موضوعی حوزه علم اطلاعات و دانش شناسی بر اساس نظام رده بندی کنگره است که بعد از کسب اطلاعات کتابشناختی آن از پایگاه کتابخانه کنگره، اقدام به تهیه متن اصلی گردید. استخراج کلیدواژهای موضوعی و خوشه بندی داده های آموزش به کمک الگوریتم تجزیه نامنفی ماتریس و با سه رویکرد آزمایشی انجام شد و کیفیت و عملکرد خوشه های موضوعی حاصل از اجرای سه رویکرد در بخش دسته بندی خودکار داده های آزمایشی به کمک ماشین بردار پشتیبان مورد مقایسه قرار گرفت. یافته ها نشان داد افت همینگ (0.020) یا میزان خطا در دسته بندی صحیح متون آزمایشی در رویکرد سوم یعنی بهره گیری از بخش های مهم متن در استخراج کلیدواژه های موضوعی، از دو رویکرد دیگر کمتر است. همچنین امتیاز F1 (0.82) که میانگین دو معیار دقت (0.87) و بازخوانی (0.78) و بازتابی از عملکرد درست فرآیند دسته بندی در برچسب گذاری موضوعی متون است، در رویکرد سوم بهتر از نتایج دو رویکرد دیگر است. نتایج تحلیل ها نشان داد که کیفیت و انسجام معنایی خوشه های موضوعی حاصل از رویکرد سوم یعنی استفاده از بخش های مهم متن در کشف و استخراج موضوع، در مقایسه با دو رویکرد دیگر بهتر بود. بعلاوه کلیدواژه های به دست آمده از خوشه های موضوعی رویکرد سوم را می توان در مجموعه های توصیف نشده و ناشناخته به منظور استخراج محتوای موضوعی ناآشکار کل مجموعه به کار برد.کلید واژگان: : استخراج, کلیدواژه های موضوعی, متن کاوی, مدلسازی موضوعی, تجزیه ماتریس نامنفی, ماشین بردار پشتیبان, کتاب الکترونیکی}Keyword extraction is one of the most important issues in text processing and analysis and provides a high-level and accurate summary of the text. Therefore, choosing the right method to extract keywords from the text is important. The aim of the present study was to compare the performance of three approaches in discovering and extracting the subject keywords of e-books using text mining and machine learning techniques. In this regard, three experimental approaches have been introduced and compared; including the successive implementation of the clustering process, improving the quality of clusters in terms of semantics and enriching the stop words of a specific field; Use of specialized keyword template; Finally, the use of important parts of the text in discovering and extracting key words and important topics of the text. The statistical population includes 1000 e-book titles from the subject fields of library and information science based on the congress classification system. bibliographic information of EBooks was obtained from the congress library database, then the original text was prepared. The extraction of topic keywords and clustering of training data was performed using the non-negative matrix factorization algorithm with three experimental approaches. The quality and performance of the subject clusters resulting from the implementation of three approaches in the automatic classification of experimental data were compared using a support vector machine. The findings showed that the Hamming loss (0.020) and in other words the error rate in the correct classification of experimental texts in the third approach is far less than the other two approaches. Also, the F1 score (0.82), which is the average of the two criteria of Precision (0.87) and recall (0.78) and is a reflection of the correct performance of the classification process in topic labeling of texts, is better in the third approach than the other two approaches. The results showed that the quality and semantic coherence of the subject clusters obtained from the third approach, ie the use of important parts of the text in discovering and extracting the subject, was better compared to the other two approaches. In this approach, by focusing on the main parts of the data, which represent the main content and theme of the text, more meaningful topic clusters were obtained. In addition, the keywords obtained from the topic cluster of the third approach can be used in unspecified and unknown collections in order to extract the unknown thematic content of the whole collection. The results of third approach also was better in terms of accuracy and readability (0.79) and the rate of classification error (0.020) of texts, in comparison of other two approaches.Keywords: e-book, Extraction, subject keywords, text mining, subject modeling}
-
هدفتحلیل محتوای مقالات مجلات علمی، می تواند بیانگر مسیر تحولات و جهت گیری های موضوعی در هر رشته ای باشد. از این رو، پژوهش حاضر با هدف بررسی روند موضوعی حوزه علم اطلاعات و دانش شناسی در مجلات معتبر داخلی، براساس مدل LDA انجام شد.روشپژوهش حاضر از نظر ماهیت پژوهشی توصیفی- اکتشافی است؛ چرا که از فنون متن کاوی بهره برده است. تکنیک متن کاوی به کار گرفته شده در این پژوهش، برای شناسایی موضوع های پنهان و روند موضوعی حوزه علم اطلاعات و دانش شناسی، روش مدل سازی موضوعی و الگوریتمLDA است. جامعه آماری پژوهش نیز شامل چکیده و کلیدواژه های مقالات منتشر شده در 11 مجله علمی مصوب وزارت علوم، تحقیقات و فناوری در رشته علم اطلاعات و دانش شناسی در فاصله سال های 1395 تا 1399 است که 1581 مقاله را در برمی گیرد. روایی روش LDA در پژوهش های پیشین تایید شده و پایایی داده های استخراج شده با روش قابلیت اطمینان بین ارزیاب، مورد تایید قرار گرفت.یافته هابه طور کلی، موضوعات تحلیل استنادی، کتابخانه، و وب به ترتیب در رتبه اول تا سوم موضوعات مورد توجه پژوهشگران حوزه علم اطلاعات و دانش شناسی بودند. طی سال های 1395 تا 1399 به ترتیب، موضوعات فرهنگ سازمانی، شبکه های اجتماعی، سواد اطلاعاتی، مدیریت دانش و اینستاگرام، موضوعات اصلی حوزه علم اطلاعات و دانش شناسی هستند. دیگر یافته پژوهش نشان داد که در مجلات مختلف، موضوعات متفاوت و بعضا مشترکی مورد توجه پژوهشگران حوزه علم اطلاعات و دانش شناسی بوده است. مدیریت دانش و موضوعات مشابه و مرتبط با آن همانند: اشتراک دانش، تسهیم دانش، در دو مجله «مطالعات کتابداری و علم اطلاعات» و «پژوهشنامه پردازش و مدیریت اطلاعات»، بیشتر مورد توجه قرار گرفته و البته در بیشتر مجلات، کتابداران و کاربران جزو موضوعات اصلی مورد بررسی بوده اند.نتیجه گیریتکنیک های داده کاوی می تواند ابزار مناسبی برای تسهیل و تسریع در زمینه تدوین روند موضوعی در یک حوزه باشد. به منظور همگام شدن با مجلات رشته در سطح جهان، ضروری است موضوعات مرتبط با فناوری، در مجلات بیشتر مورد توجه قرار گیرد. همچنین سردبیران مجلات باید ضمن در نظر گرفتن سیر موضوعی مقالات مجله در گذر زمان، تلاش کنند تا براساس خط مشیء و حوزه های موضوعی مجلات، نسبت به انتشار مقالات اقدام نمایند.کلید واژگان: روند موضوعی, علم اطلاعات و دانش شناسی, الگوریتم تخصیص پنهان دیریکله, مدل LDA, متن کاوی, مجلات علمی}PurposeThe content analysis of the scientific papers can indicate the path of development and thematic orientations in any field. Therefore, this research aims to investigate the subjecttrends of the field of knowledge and information science in Iranian journals based on the LDA model.MethodThe current research is descriptive and exploratory; since text-mining techniques were used to identify hidden topics and topic trends in the field of knowledge and information science based on the LDA algorithm. The statistical population of the current research includes abstracts and keywords of papers published in 11 scientific journals approved by the Iran Ministry of Science, Research, and Technology in the field of knowledge and information science during 2015-2019, which includes 1581 papers. The validity of the LDA method has been confirmed in previous studies and the reliability of the extracted data was confirmed by the inter-rater reliability method.FindingsThe findings showed that, in general, the subjects of citation analysis, library, and web were the interest subjects of researchers in the field of knowledge and information science, respectively, in the first to third place. During 2015 - 2019, the subjects of "Organizational Culture", "Social Networks", "Information Literacy", "Knowledge Management" and "Instagram" were the main subjects of the field of knowledge and information science. Another finding of the research showed that in different journals, different and sometimes common topics have been of interest to researchers in the field of knowledge and information science. Knowledge management and similar and related topics such as knowledge sharing are more important in the two journals of "The Journal of Studies in Library and Information Science" and "The Iranian Journal of Information Processing & Management". Also in most journals "Librarians" and "Users" have been among the main subjects studied.ConclusionData mining techniques can be a suitable tool to facilitate and speed up the formulation of thematic processes in a field. In order to keep up with the journals of the field worldwide, it is necessary that the topics related to technology be considered in more journals. Also, journal editors should try to publish papers based on the policy and thematic areas overtime.Keywords: Thematic process, knowledge, Information Science, Linear Discriminant Analysis, LDA model, Text Mining, Scientific journals, subject area}
-
هدف
هدف اصلی پژوهش حاضر بررسی روابط موضوعی در عناوین منابع مورد استفاده توسط کاربران رایسست با استفاده از تکنیک متن کاوی بود. بنابراین، به بازتاب چگونگی روابط موضوعی در منابع اطلاعاتی کاربران در مرکز رایسست مبادرت شده، تا از طریق شناخت به رفتار و احساس استفاده کنندگان دست یابند.
روش پژوهش:
روش پژوهش مبتنی بر متن کاوی بود، که به داده کاوی بر روی متن، تحلیل متن و به منظور فرایند استخراج اطلاعات با کیفیت از متن اشاره دارد. دسترسی اطلاعات به متن کامل مقالات مجلات علمی - پژوهشی، علمی - ترویجی، مجموعه مقالات کنفرانس ها و همایش های علمی، کتاب های لاتین و فارسی جامعه آماری پژوهش را تشکیل داده، که با استفاده از روش سرشماری، کلیه داده های حاصل از گزارش گیری توسط رایسست بررسی گردید. به منظور تجزیه و تحلیل داده ها و تحلیل متن از نرم افزار ویانت، و برای پاکسازی و نرمال سازی داده ها از نرم افزار پایتون بهره جویی گردید.
یافته هابراساس یافته ها از داده های حاصل شده، 21 کلمه و 160 کلمه موضوعی پرتکرار از منبع مورد استفاده در پایگاه اطلاعاتی رایسست مشخص گردید. دور نمای لوم از چگونگی توزیع کلمات موضوعی با تکرار بالا تهیه شده و ضریب همبستگی تکرار موضوعات پر استفاده در عنوان های منابع اطلاعاتی تدوین شد. به منظور تدوین نمایه درهم کرد کلمات موضوعی پر تکرار ترند (Trend) استفاده شد.
نتیجه گیرینتایج نشان داد که تدوین پژوهش در مجموعه سازی منابع الکترونیکی پایگاه های اطلاعاتی و پیش نگری در آینده این دسته از منابع به مدیران مراکز اطلاع رسانی و کاربران آنها مفید است.
کلید واژگان: داده کاوی, متن کاوی, تحلیل هم رخدادی واژگان, پایگاه اطلاعاتی رایسست}ObjectiveThe main purpose of the present research was to investigate thematic relationships in the topics of resources used by RICeST users, using text mining techniques. Therefore, it has been attempted to reflect how the thematic relationships are in the information resources of users in the RICeST Center, in order to gain access to the required materials through understanding the behavior and feelings of users and clients.
MethodologyThe research method was based on text mining, which refers to data mining on the text, and text analysis in order to extract quality information from the text. Information access to the full text of articles in scientific-research, scientific-promotional journals, collections of scientific conference and conference articles, English and Persian books formed the statistical population of the research, and all the data obtained from the reporting by RICeST were checked using the census method. Data analysis and text analysis was done by Vianet software, and Python software was used to clean and normalize the data.
ResultsIn order to determine the main view of the most used topics by RICeST users, based on the findings from the obtained data, 21 frequent words (used more than 2000 times in the RICeST database in a two-year interval 2018/02/08 – 2020/02/08).
Conclusionthe conclusion was based on the fact that the compilation of the research in the collection of electronic resources of information databases and foresight in the future of this category of resources is useful to the managers of information centers and their users.
Keywords: Data mining, Text Mining, Co-word analysis, RICeST Database} -
پژوهش حاضر با هدف ارایه روشی برای سازماندهی اسناد متنی فارسی با استفاده از تکنیک خوشه بندی انجام شد. مجموعه داده های مربوط به پایان نامه ها و رساله ها شامل 2943 تحقیق به عنوان جامعه آماری در نظر گرفته شد. جمع آوری داده ها از مجموعه داده های مربوط به تحقیقات علمی که شامل 5000 پژوهش در قالب فایل اکسل بود، انجام شد. در این پژوهش پس از تبدیل داده ها به قالب ساخت یافته، با استفاده از اعمال پیش پردازش عملیات پردازش صورت گرفت. در مرحله پردازش از تکنیک خوشه بندی جهت ارایه الگوریتم پیشنهادی در راستای سازماندهی اسناد متنی فارسی بهره گرفته شد. این الگوریتم با بهبود الگوریتم K-means در جهت خوشه بندی اسناد ارایه شد. نتایج حاصل از ارزیابی نشان داد الگوریتم پیشنهادی بر اساس معیارهای خارجی نسبت به دو الگوریتم K-means و K-means++ در کیفیت خوشه بندی اسناد تاثیر مثبتی داشت. به طوری که تحقیقات هر رده تعیین شده در خوشه موضوعی مرتبط دارای توزیع یکنواختی شد، و منجر به حصول هدف پژوهش حاضر گردید. در جداول رده/ خوشه حاصل از دو الگوریتم K-means و K-means++ توزیع غیریکنواخت تحقیقات در خوشه ها مشاهده شد. بنابراین، ارزیابی بر اساس معیار های داخلی متاثر از تراکم متفاوت خوشه ها و شباهت بین خوشه ای بود. حجم دیتاست نیز متاثر از راهکارهای پیشنهادی برای انتخاب دیتاست نهایی و فرایند پژوهش نبود، بنابراین الگوریتم پیشنهادی برای ابعاد بالای ویژگی نیز مناسب عمل می کند.کلید واژگان: سازماندهی اسناد متنی, تکنیک خوشه بندی, متن کاوی, تجزیه و تحلیل هوشمند متن}The present study aimed to Designing a method for organizing Persian text documents using the clustering technique. The data set related to Theses and Dissertations including 2943 researches was considered as a statistical population. Data were collected from a set of data related to scientific research, which included 5,000 researches in Excel format. In this study, after converting the data into a structured format, the processing operation was performed using preprocessing operations. In the processing stage, the clustering technique was used to present the proposed algorithm in order to organize Persian text documents. This algorithm was introduced by improving the K-means algorithm for document clustering. The results of the evaluation showed that the proposed algorithm based on external criteria had a positive effect on the clustering quality of documents compared to the two algorithms K-means and K-means++. So that the research of each designated category in the related subject cluster had a uniform distribution, and led to the achievement of the purpose of the present study. In the category / cluster tables obtained from the two algorithms K-means and K-means++, we saw a non-uniform distribution of research in clusters, so the evaluation based on internal criteria was affected by different cluster densities and inter-cluster similarity. The size of the dataset was also not affected by the proposed solutions for selecting the final dataset and the research process, so the proposed algorithm works well for the high dimensions of the feature.Keywords: organizing text documents, clustering techniques, text mining, textual data mining}
-
در عصر حاضر، با توجه به گسترش روزافزون اینترنت، داده های متنی عظیم با سرعت زیاد تولید می شوند. در تجارت الکترونیک کلمات عضو جدانشدنی تعاملات خریدوفروش هستند. نظرهای آنلاین، اخبار، ارتباطات بازاریابی و دیگر تعاملات و همچنین، دیجیتالی شدن اطلاعات، مقدار زیادی داده متنی ایجاد می کنند که کسب وکارها تمایل به استفاده از آن ها دارند. داده های متنی توسط افراد، شرکت ها و جوامع ایجاد می شود. در گذشته محققان و کسب وکارها، برای کسب بینش درباره مشتریان خود، از روش های دستی استفاده می کردند که این روش ها به نیروی انسانی، هزینه مالی و زمان پردازش زیادی نیاز داشت و بهعلت دخالت انسان در تحلیل، این روش ها در مقابل سوگیری های تحلیل کننده و پاسخ دهنده ضعیف بودند. با استفاده از متن کاوی می توانیم اطلاعات موردنیاز برای شرکت ها را به صورت خودکار، با هزینه کم و به روز تحلیل کنیم تا شرکت ها بتوانند از آن در نوآوری مدل کسب وکار استفاده کنند. در این پژوهش توییت های مشتریان به پشتیبانی کمپانی اپل و پاسخ های آن ها به کمک روش های تحلیل احساس و روش انتساب نهفته دیریکله بررسی شده است. همچنین روش پیشنهادی ترکیبی جدیدی، بر اساس نتایج این دو روش برای دستیابی به بینش عمیق تر درباره داده ها ارائه شده و از نتایج به دست آمده، راهکارهایی برای بهبود مدل کسب وکار شرکت اپل پیشنهاد شده است.کلید واژگان: متن کاوی, تحلیل خودکار متن, تحلیل داده, نوآوری در مدل کسب وکار, انتساب نهفته دیریکله, تحلیل احساسات}Information management, Volume:8 Issue: 2, 2023, PP 202 -220In our current era, with the advancements in the use of Internet, a large amount of textual data is being rapidly created. Words are an inseparable part of online transactions in E-commerce. Online comments, news, marketing and other types of communication along with the digitalization of data creates a huge amount of textual data that businesses would like to use. Textual data gets created by people, organizations and communities. In the past, researchers and businesses employed manual methods to gain insights about their customers, which required significant human effort, financial resources, and processing time. Due to human intervention in analysis, these methods were susceptible to analyst and respondent biases. By using text mining we can analyze the necessary information for companies in an automatic and cost-effective way in real time, enabling the use of the results for business model innovation. This research examines customer tweets directed at the Apple company and the company's responses using sentiment analysis methods and Latent Dirichlet Allocation. Furthermore, a new method has been suggested to combine the results of these two methods in order to gain deeper insights into the data and use the results to give recommendations for enhancing Apple company’s business model.Keywords: Text Mining, Automatic Text Analysis, Data Analysis, Business Model Innovation, Latent Dirichlet Allocation, Sentiment Analysis}
-
شناسایی موضوعات داغ در حوزه های پژوهشی همواره موردتوجه بوده است؛ تصمیم گیری هوشمندانه در مورد آنچه باید مورد مطالعه و قرار بگیرد، همواره عاملی اساسی برای محققان بوده و می تواند برای پژوهشگران موضوعی چالش برانگیز باشد. هدف پژوهش حاضر، شناسایی موضوعات داغ در مقالات نمایه شده در پایگاه اسکوپوس در حوزه علم اطلاعات و دانش شناسی در سال های 2010 تا 2019 با استفاده از تکنیک های متن کاوی است. جامعه آماری، شامل 50995 مقاله منتشرشده در 249 عنوان مجله نمایه شده در پایگاه اسکوپوس در این حوزه در بازه زمانی 2010 تا 2019 است. برای شناسایی خوشه های موضوعی این حوزه، از الگوریتم های تکنیک تخصیص دیریکلت پنهان (LDA) استفاده شد و داده ها با استفاده از کتابخانه های متن کاوی در نرم افزار پایتون مورد تحلیل قرار گرفت. برای این کار، با اجرای الگوریتم وزن دهی لغات به روش TF-IDF و تشکیل ماتریس متنی، موضوعات در پیکره اسناد تعیین و ضرایب اختصاص هر سند به هر موضوع (تتا) مشخص شد. خروجی اجرای الگوریتم LDA، منجر به شناسایی تعداد 260 موضوع شد. تخصیص برچسب به هریک از خوشه های موضوعی، بر اساس کلمات با بالاترین وزن اختصاص یافته به هر موضوع و با نظر کارشناسان حوزه موضوعی، انجام گرفت. با انجام محاسبات با ضریب اطمینان 95%، تعداد 63 موضوع از بین 260 موضوع اصلی انتخاب شد. با محاسبه میانگین تتا برحسب سال، تعداد 24 موضوع دارای روند مثبت (موضوع داغ) و تعداد 39 موضوع دارای روند منفی (موضوع سرد) تعیین شد. بر اساس نتایج، موضوعات مطالعات سنجشی، مدیریت الکترونیکی/ بازاریابی الکترونیکی، بازیابی محتوا، تحلیل داده و مهارت الکترونیکی، ازجمله موضوعات داغ بود و موضوعات آموزش، آرشیو، مدیریت دانش، سازمان دهی و سلامت کتابداران ازجمله موضوعات سرد در حوزه علم اطلاعات و دانش شناسی در بازه زمانی 2010 تا 2019 شناسایی شد. تحلیل یافته ها نشانگر آن است که به دلیل رویکرد اغلب پژوهشگران در 10 سال گذشته به استفاده از فناوری های نوظهور، موضوعات مبتنی بر فناوری بیشتر باعث جذب آنان شده و در مقابل، موضوعات پایه ای این حوزه، کمتر موردتوجه قرارگرفته اند.
کلید واژگان: موضوعات داغ, موضوع سرد, تخصیص دیریکلت پنهان, متن کاوی, علم اطلاعات و دانش شناسی}Identification of hot topics in research areas has always been of interest. Making smart decisions about what is needed to be studied is always a fundamental factor for researchers and can be challenging for them. The goal of this study is to identify hot topics and thematic trend analysis of articles indexed in Scopus database in the field of Knowledge and Information Science (KIS), between 2010 and 2019, by Text Mining techniques.The population consists of 50995 articles published in 249 journals indexed in Scopus database in the field of KIS from 2010 to 2019. To identify thematic clusters, algorithms of Latent Dirichlet Allocation (LDA) technique were used and the data were analyzed using libraries in Python software. To do this, by implementing the word weighting algorithm, using the TF-IDF method, and weighting all of the words and forming a text matrix, the topics in the documents and the coefficients for assigning each document to each topic (Theta) were determined. The output of the LDA algorithm led to the identification of the optimal number of 260 topics. Each topic was labeled based on the words with the highest weight assigned to each topic and with considering of experts’ opinions. Then, Topic clustering, keywords and topics identification were done. By performing calculations with 95% confidence, 63 topics were selected from 260 main topics. By calculating the average theta in years, 24 topics with a positive trend or slope (hot topic) and 39 topics with a negative trend or negative slope (cold topic) were determined. According to the results, measurement studies, e-management/ e-marketing, content retrieval, data analysis and e-skills, are considered as hot topics and training, archive, knowledge management, organization and librarians' health, were identified as cold topics in the field of KIS, in the period 2010 to 2019. The analysis of the findings shows that due to the interest of the most researchers in the last 10 years in using of emerging technologies, technology-based topics have attracted them more. In contrast, basic issues are less considered to be developed.
Keywords: Hot Topics, Latent Dirichlet Allocation (LDA), Text Mining, Knowledge, Information Science} -
مقدمه
در عصرحاضر، حجم عظیمی از اطلاعات موجود در محیط وب، اسناد و مقالات متنی هستند. متن کاوی، روشی برای استخراج اطلاعات غیرساخت یافته و نیمه ساخت یافته از این حجم اطلاعات موجود در اینترنت و نیز، فرآیند استخراج دانش و الگوهای ناشناخته و غیرقابل فهم و بالقوه، از میان انبوه مجموعه های داده های متنی است.
روش هااین پژوهش از نوع مطالعات کتابخانه ای است. با اینکه روش های متن کاوی اکثرا بر روی منابع لاتین انجام گرفته-اند، اما با جستجو در پایگاه های اطلاعاتی فارسی، درمی یابیم طی یک دهه گذشته، موضوع متن کاوی برای محققان ایرانی به-خصوص دانشجویان رشته های علوم کامپیوتر و فناوری اطلاعات، اهمیتی دوچندان پیدا کرده است؛ به طوری که بخش قابل توجهی از مقالات کنفرانس های مربوط به علوم و فنون کامپیوتر را مقالات مربوط به این حوزه تشکیل می دهند.
یافته هایافته های پژوهش نشان می دهد که متن کاوی، کاربردی از داده کاوی است و تفاوت اصلی این دو، استخراج الگوها از متنی با زبان طبیعی در متن کاوی است درحالیکه داده کاوی بر روی پایگاه داده های ساخت یافته عمل می کند. فرایندهای متن کاوی دارای دو فاز اصلی پیش پردازش مستندات و استخراج دانش هستند. تاکنون هشت تکنیک نیز برای متن کاوی معرفی شده است که عبارتنداز: استخراج اطلاعات، بازیابی اطلاعات، خلاصه سازی متن، طبقه بندی، خوشه بندی، بصری-سازی، پردازش زبان طبیعی و عقیده کاوی.
نتیجه گیریدر سالیان اخیر، توجه بسیار زیادی در حوزه بین المللی و ملی به متن کاوی شده است. افزایش چشمگیر داده های متنی، پژوهشگران را بر آن داشته است که به دنبال روش هایی جهت کاوش در این داده ها باشند. طبیعی است که محققان ایرانی نیز ازین امر مستنثنا نبوده اند. متن کاوی به همراه تمامی روش ها و تکنیک های آن، کوششی است که پژوهشگران را در استخراج دانش و اطلاعات مفید و باارزش از انبوه متون غیرساخت یافته ای که در محیط اینترنت پراکنده اند، یاری می کند.
کلید واژگان: متن کاوی, کشف دانش, دسته بندی متن, فناوری اطلاعات, داده کاوی}nowadays, a huge amount of available information on the web is text documents and articles. Text mining is a way to extract unstructured and semi-structured information from this available information on the Internet and Also, mining process of the text of knowledge and unknown, incomprehensible and potential patterns among the multitude of datasets. This research is a type of library studies. Although text mining methods are mostly based on Latin sources, but by searching Persian databases, we have found over the past decade, the subject of text mining has become doubly important for Iranian researchers, especially students of computer science and information technology; So that a significant part of the conference papers related to computer science and technology are articles related to this field. Research findings show that text mining is an application of data mining and the main difference between them is : the extraction of patterns from text with natural language in text mining, while data mining operates on structured databases. Text mining processes have two main phases: document preprocessing and knowledge extraction. So far, eight techniques have been introduced for text mining which are: Information extraction, information retrieval, text summarization, classification, clustering, visualization, natural language processing and belief mining. In recent years, much attention has been paid to text mining in the international and national spheres. The dramatic increase in textual data has prompted researchers to look for ways to explore this data. Naturally, Iranian researchers have been no exception. Text mining, with all its methods and techniques, is an effort to assist researchers in extracting useful and valuable knowledge and information from the mass of unstructured texts scattered throughout the Internet.
Keywords: text mining, knowledge discovery, text categorization, informationtechnology, data mining} -
هدف
روش های مدل سازی موضوعات احتمالاتی متشکل از مجموعه ای از الگوریتم هایی است که هدف اصلی آنها کشف ساختار پنهان موضوعی در حجم وسیعی از اسناد است. هدف از انجام این پژوهش مدل سازی موضوعی مقالات پژوهشگران ایرانی در حوزه غدد درون ریز و متابولیسم در پایگاه استنادی وب علوم است.
روش شناسیپژوهش حاضر از نوع کاربردی است که با روش متن کاوی و تحلیل محتوا به انجام رسیده است. در این پژوهش کلیه داده های مورد نیاز، از پایگاه استنادی وب علوم با استفاده از کلیدواژه های ثبت شده در سرعنوان موضوعی پزشکی بدون محدودیت زمانی تا 15 آبان 97 بازیابی شدند. سپس با استفاده از الگوریتم تخصیص پنهان دریکله مجموعه اسناد در محیط متلب تجزیه و تحلیل شدند.
یافته هادسته های موضوعی به صورت دسته هایی از 20 واژه و در 10 دسته موضوعی استخراج شدند. سپس توسط فوق تخصصان غدد دسته های موضوعی بر اساس ارتباط آنها به موضوعات مختلف حوزه غدد درون ریز و متابولیسم نام گذاری شدند و به هر دسته عنوان موضوعی اختصاص یافت.
نتیجه گیرینتایج بیانگر این است که اجرای مدل تخصیص پنهان دریکله عملکرد قابل قبولی در ارایه دسته های موضوعات حوزه غدد داشته است. دسته های موضوعی استخراج شده دارای تجانس و ارتباط موضوعی خوبی با یکدیگر هستند.
کلید واژگان: غدد درون ریز و متابولیسم, مدل سازی موضوعی, تخصیص پنهان دریکله, متن کاوی, ایران}Topic Modeling of Endocrinology and Metabolism Articles by Iranian Researchers in the Web of SciencePurposeProbabilistic topic modeling methods consist of a set of algorithms whose main purpose is to discover the hidden subject structure in a large volume of documents. The purpose of this study is to thematically model the articles of Iranian researchers in the field of endocrinology and metabolism in the citation database of Web of Science.
MethodologyThe present research is of applied type and has been done by text mining and content analysis method. In this study, all required data were retrieved from the Web of Science Citation Database using the keywords registered in the medical subject heading without a time limit until November 6, 2018. Then, using a hidden allocation algorithm, the whole set of documents in MATLAB was analyzed.
FindingsSubject categories were extracted as groups of 20 words in 10 subject categories. Then, by endocrinologists, the subject categories were named based on their relationship to various topics in the field of endocrinology and metabolism, and each category was assigned a subject title.
ConclustionThe results indicate that the implementation of the latent Dirichlet allocation model has an acceptable performance in presenting the categories of endocrinology and metabolism. The extracted subject categories have good homogeneity and thematic relevance with each other.
Keywords: Endocrinology, metabolism, Topic modeling, LDA, Text mining, Iran} -
مقدمه
مدل سازی موضوعی یکی از تکنیک های متن کاوی است که امکان کشف موضوعات نامعلوم در مجموعه اسناد، تفسیر اسناد بر اساس این موضوعات و استفاده از این تفاسیر برای سازماندهی، خلاصه کردن و جستجوی متن ها را به طور اتوماتیک میسر می کند. آشنایی با مفهوم و تکنیک مدل سازی موضوعی، و کاربرد آن در کشف موضوعات و سازمان دهی منابع اطلاعاتی از اهداف اصلی این پژوهش است.
روش شناسیپژوهش حاضر از نوع کتابخانه ای است که در آن، ضمن معرفی مدل سازی موضوعی، به دسته بندی و مرور کاربردهای این تکنیک بر اساس ماهیت عملکردی آن و ارایه نمونه تحقیقاتی که از این تکنیک استفاده نموده اند پرداخته است.
یافته هاالگوریتم های مدل سازی موضوعی علاوه بر سه هدف اصلی مبنی بر کشف موضوعات پنهان، تفسیر اسناد بر اساس موضوعات و نهایتا سازمان دهی و طبقه بندی متون، در کشف موضوعات و روابط پنهان در حوزه های علوم، بازیابی اطلاعات، دسته بندی مدارک بر اساس موضوعات، کشف الگوهای برجسته و رویدادهای در حال ظهور، خوشه بندی مفاهیم حوزه های علمی، تحلیل سیر تحول مفهومی در طول دوره های تاریخی، تعیین روابط سلسه مراتبی مفاهیم یک حوزه یا زمینه خاص علمی و غنی سازی فهرست واژگان کاربرد دارد.
نتیجهمدل سازی موضوعی با تکیه بر یادگیری ماشین و بهره گیری از دانش هوش مصنوعی به عنوان یکی از رویکردهای نوین سازماندهی منابع اطلاعاتی مطرح شده و مطالعات جدی در این زمینه در حال انجام است. لذا با کاربرد الگوریتم های مدل سازی موضوعی در راستای خودکارسازی استخراج موضوع و کشف موضوعات نهان موجود در منبع می توان بر تقویت و روزآمدسازی نظام های نوین سازمان دهی منابع اطلاعاتی عمل کرد.
کلید واژگان: متن کاوی, مدل سازی موضوعی, کشف موضوع, سازماندهی اطلاعات, تشخیص موضوع}IntroductionTopic modeling is one of the text mining techniques that allows you to discover unknown topics in a collection of documents, interpret documents based on these topics, and use these interpretations to organize, summarize, and search for texts automatically. Familiarity with the concept and technique of topic modeling, and its application in discovering topics and organizing information is one of the main goals of this research.
MethodologyThe present study is a review-analytical type in which, while introducing topic modeling, it has categorized and reviewed the applications of this technique based on its performance and provided a sample of research that has used this technique.
FindingsTopic modeling algorithms is used not only in addition to the three main objectives of discovering hidden topics, interpreting documents based on topics, and finally organizing and classifying texts, but also is used in discovering hidden topics and relationships in the fields of science, information retrieval, categorizing documents based on topics, discovering outstanding patterns and emerging events, clustering the concepts of scientific fields, analyzing the course of conceptual evolution during historical periods, determining the hierarchical relationships of concepts. A specific scientific field or field and vocabulary enrichment.
ConclusionTopic modeling based on machine learning and artificial intelligence knowledge has been proposed as one of the new approaches to organizing information resources and serious studies are being conducted in this field. Therefore, by using topic modeling algorithms in order to automate the extraction of the subject and discover the hidden issues in the source, it is possible to strengthen and update the new systems of organizing information resources.
Keywords: Text mining, Topic Modeling, Subject Discovery, Information Organization, Subject Diagnosis, Subject Allocation} -
هدف
هدف اصلی این پژوهش، مطالعه اصطلاحات تخصصی در ادبیات حوزه مدیریت پروژه در طول زمان و بر اساس تحلیل واژگانی است.
روش شناسی:
این پژوهش بر اساس تحلیل واژگانی صورت گرفته و در آن با رویکرد توصیفی-اکتشافی، 2170 مقاله منتشرشده در مجله بین المللی مدیریت پروژه (IJPM) مورد بررسی و متن کاوی قرار گرفته اند. این نشریه بالاترین شاخص SJR را در میان مجلات تخصصی این رشته داراست و جامعه آماری این مطالعه، کلیه مقالات منتشرشده در این مجله از اولین شماره در سال 1983 تا پایان سال 2016 را شامل می شود.
یافته ها:
بر اساس اصطلاحات تخصصی پرکاربرد 10 گروه اصلی در حوزه مدیریت پروژه قابل شناسایی است. مدیریت ریسک، مدیریت طرح، مدیریت پورتفولیو و سازمان پروژه، یادگیری سازمانی و فرهنگ سازمانی از مهم ترین اصطلاحات ترکیبی مرتبط با موضوعات مدیریت و سازمان هستند. موضوعاتی چون تحلیل شبکه های اجتماعی، پروژه های هوافضا، پروژه های زیرساخت حمل و نقل و مدیریت ریسک اجتماعی از جدیدترین موضوعات سال های 2015 و 2016 هستند. همچنین مشخص شد که 4 دوره (فاز) در توسعه اصطلاحی در ادبیات حوزه مدیریت پروژه قابل شناسایی است و شکل گیری و ایجاد موضوعات جدید در تولیدات علمی این حوزه از سال 2004 با افول روبه رو شده است. اصطلاح سازمان پرکاربردترین اصطلاح تخصصی ادبیات حوزه مدیریت پروژه است که میزان اهمیت کاربردی آن در طول زمان افزایش یافته، به طوری که فراوانی این اصطلاح از 21.3 درصد در سال های 1983 تا 1995 به 30.7 درصد در بازه زمانی 2005-1996 و درنهایت 35.1 درصد در سال های 2006 تا 2016 رسیده است.
نتیجه گیری:
نتایج نشان می دهد که علی رغم دستیابی دانش مدیریت پروژه به سطوحی از بلوغ، این رشته به لحاظ محتوایی از کمبود اصول علمی و بنیان های نظریه ای رنج می برد. در این میان به کمک دانش واسطه ای علم سنجی، برخی موضوعات جدید، موضوعات کمتر پرداخته شده و موضوعات اشباع شده شناسایی شده اند که می تواند به انتخاب هدفمند موضوعات در پژوهش های آتی و در نتیجه مرتفع کردن خلاها و نقص های موجود کمک شایانی نماید.
کلید واژگان: تحلیل واژگانی, مدیریت پروژه, متن کاوی, مجله بین المللی مدیریت پروژه (IJPM)}PurposeThe current research aims to study the terms in the literature of project management in span of time based on a word-analysis method.
MethodologyThe research applies word-analysis technique to automatically explore and describe the terms used in PM literature. An amount of 2170 journal were extracted from the International Journal of Project Management (IJPM). IJPM has the highest SJR index among the journals in the field of project management. The research analyze the papers of IJPM published during 1983-2016.
FindingsTen top groups could be determined based on frequently used terms in PM. The prominent combined terms with the words management and organization are risk management, program management, portfolio management, project organization, organizational learning, and organizational culture. The emerging terms of 2015 and 2016 are social network analysis, aerospace projects, transportation infrastructure projects and social risk management. Four time phases in PM literature term development can be identified. Receiving new terms has been decreasing in PM field since 2004. The term "organization" is the most frequently used term in the PM literature. Its use has increased in the span of time so its frequency percentage has increased from 21.3% in 1983-1995 to 30.7% in 1996-2005 and has finally amounted 35.1% in 2006-2016.
Conclustion:
PM has experienced some maturity, but some scientific principles and theoretical foundations for the content are missing. Scientometric methods make it possible to identify recently emerged terms, less used terms and saturated terms. This enables us to determine the topics of future research projects and thus to close the current gaps.
Keywords: Word analysis, project management, Text analysis, International Journal of Project Management (IJPM)} -
زمینه و هدف
در این پژوهش چهار روش متن کاوی بررسی می شود و بر درک و شناسایی خصوصیات و محدودیت های آن ها در کشف موضوع تمرکز می کند. این چهار روش عبارت اند از 1) تجزیه وتحلیل معنایی پنهان(LSA) 2) تحلیل معنایی پنهان احتمالاتی(PLSA)، 3) تخصیص دیریکله پنهان(LDA) و 4) مدل سازی موضوعی همبسته(CTM).
روش پژوهشپژوهش حاضر از نوع کتابخانه ای است که در آن، ادبیات حوزه متن کاوی و مدل سازی موضوعی مرور و تحلیل شده است.
یافته هاتجزیه وتحلیل معنایی پنهان می تواند برای تشخیص موضوعات خاص و منحصربه فرد در مدارکی که تنها به یک موضوع پرداخته اند استفاده شود. سه روش دیگر متن کاوی، بر موضوعات و گرایش کلی متن متمرکز هستند. تحلیل معنایی پنهان احتمالاتی برای مدارکی که به یک موضوع پرداخته اند قابل استفاده است اما برخلاف تجزیه وتحلیل معنایی پنهان ، این روش در کشف موضوعات و مضامین کلی متن کاربرد دارد. درحالی که تخصیص دیریکله پنهان در مورد مدارکی که به چندین موضوع پرداخته اند کاربرد بیشتری دارد. روش مدل سازی موضوعی همبسته می تواند در تشخیص ارتباط بین دسته های موضوعی مختلف استفاده شود.
نتیجه گیریرویکردهای متن کاوی به خاطر بهره گیری از تحلیل معنایی در کشف و استخراج موضوع متون مناسب است
کلید واژگان: متن کاوی, مدل سازی موضوعی, تحلیل معنایی, کشف موضوع}Background and aimFour text mining methods are examined and focused on understanding and identifying their properties and limitations in subject discovery.
MethodologyThe study is an analytical review of the literature of text mining and topic modeling.
FindingsLSA could be used to classify specific and unique topics in documents that address only a single topic. The other three text mining methods focus on topics and general partiality of the text. PLSA is applicable to documents dealing with a topic, unlike the LSA, it is used to discover general themes and contexts. However, LDA is more applicable to documents that address several issues. The CTM, method can be used to identify relationship between different subject categories.
ConclusionText mining tactics are suitable for employing analysis in discovering and extracting the text subjects.
Keywords: Text mining, Topic Modeling, Semantic Analysis, Topic Discovery} -
تحلیل هم رخدادی واژگان یکی از روش های متن کاوی است که کاربردهای مختلفی در زمینه مدیریت اطلاعات دارد. یکی از این کاربردها که کمتر مورد توجه بوده است، بررسی قلمرو معنایی مشترک میان دیدگاه های نظری مختلف است. اهمیت این کارکرد از آن جهت است که روندهای علمی اخیر در حوزه های پژوهشی مختلف عموما از ترکیب نظریه ها و مفاهیم گوناگونی شکل گرفته اند. بر این مبنا، پژوهش حاضر در تلاش است تا کاربردپذیری تحلیل هم رخدادی واژگان را در بررسی قلمرو معنایی مشترک میان دو دیدگاه نظری نشان دهد. برای این منظور دیدگاه های قابلیت های پویا و دوسوتوانی به عنوان مورد مطالعه انتخاب گردیدند. قابلیت های پویا و دوسوتوانی از هم آیی قابل توجهی در مطالعات اخیر حوزه مدیریت استراتژیک برخوردار بوده اند؛ به حدی که پژوهشگران از آن ها به عنوان دو دیدگاه ادغام پذیر یاد کرده اند. بر همین اساس، هدف این مطالعه بررسی ساختار قلمرو معنایی مشترک بین قابلیت های پویا و دوسوتوانی است. به این منظور، با استفاده از تحلیل هم رخدادی واژگان، به وارسی بخش های عنوان، چکیده و کلیدواژه های مستندات علمی که تا سال 2018 در پایگاه داده های وب آوساینس یا اسکوپوس نمایه شده و در این بخش ها به هر دو نظریه اشاره داشته اند، پرداخته شد. در نتیجه، 14 عنوان مشتمل بر 1) قابلیت های پویا و عناصر آن، 2) دوسوتوانی و عناصر آن، 3) عملکرد، 4) نوآوری، 5) قابلیت ها و منابع سازمانی، 6) مزیت رقابتی پایدار، 7) دانش و یادگیری سازمانی، 8) تغییرات محیطی و سازمانی، 9) فناوری و فناوری اطلاعات، 10) رهبری، 11) کارآفرینی، 12) شبکه های همکاری، 13) مدل کسب وکار و 14) عملیات و زنجیره تامین به عنوان طبقات مفهومی اصلی در قلمرو مشترک این دو دیدگاه معرفی گردید. همچنین، بر اساس تحلیل زمانی واژگان، سیر مطالعاتی جاری میان این طبقات مفهومی نیز به معرض نمایش درآمد. بر این اساس، می توان پیش بینی نمود که افق آینده تحقیقاتی که در قلمرو مشترک قابلیت های پویا و دوسوتوانی شکل می گیرند، بیشتر به سمت موضوعاتی نظیر مدل کسب وکار، مدیریت عملیات و زنجیره تامین و کارآفرینی متمایل گردد.
کلید واژگان: دوسوتوانی, تحلیل هم رخدادی واژگان, قابلیت های پویا, متن کاوی, هم آیی دیدگاه های نظری}Information management, Volume:5 Issue: 2, 2020, PP 197 -219Word co-occurrence analysis is one of the text-mining methods that has various applications in the information management area. One of these applications, which has been less noticeable, is exploring the shared semantic territory between different theoretical views. The importance of this application is due to the formation of recent scientific trends of various research areas based on different theories and concepts. Accordingly, the current study attempts to reveal the applicability of word co-occurrence analysis in exploring the shared semantic territory between two theoretical views. To this end, the dynamic capabilities and ambidexterity views were chosen as the case of this study. Dynamic capabilities and ambidexterity have had a notable co-occurrence in recent strategic management studies to the extent that researchers considered them as two integrable views. Accordingly, this study aims at exploring the structure of shared semantic territory between dynamic capabilities and ambidexterity. To this end, all scientific documents related to both theories, indexed in the Web of Science or Scopus databases, and dated to 2018 were retrieved. Then, the authors analysed the corpus composed of titles, abstracts, and keywords of collected documents by using the word co-occurrence analysis. By doing so, they introduced 14 main conceptual categories in the shared territory of these two views: 1) dynamic capabilities and their components, 2) ambidexterity and its components, 3) performance, 4) innovation, 5) organizational capabilities and resources, 6) sustainable competitive advantage, 7) organizational knowledge and learning, 8) environmental and organizational change, 9) technology and information technology, 10) leadership, 11) entrepreneurship, 12) collaboration networks, 13) business model, and 14) operations and supply chain. Also, according to the word temporal analysis, research trends among the conceptual categories were revealed. Based on these trends, it is expected that further studies in the shared semantic territory between dynamic capabilities and ambidexterity will probably tend to subjects in the fields of business model, operations and supply chain, or entrepreneurship.
Keywords: Ambidexterity, co-occurrence of theoretical views, Dynamic Capabilities, Text-mining, word co-occurrence analysis} -
سازگاری کدهای رده بندی و اصطلاحات نمایه سازی از یک اصطلاحنامه مدون با عبارات و کلماتی که به طور خودکار استخراج شده با استفاده از نمایه سازی ماشینی ایجاد می شود. در طراحی نظام نمایه سازی خودکار، کامپیوتر به طور کامل جایگزین انسان می شود. این پژوهش با هدف استخراج کلمات کلیدی و شناسایی گرایش های موضوعی مقالات نمونه آماری در حوزه بازیابی اطلاعات و تخصص موضوعی نویسنده هر مقاله با روش متن کاوی و دسته بندی آنها با استفاده از هم رخدادی واژگان صورت گرفته است. روش این پژوهش از نوع کاربردی است و براساس مدل کریسپ [1] از مدل های فرآیند داده کاوی و الگوریتم های متن کاوی انجام گرفته است. جامعه پژوهش، 313 مقاله حوزه بازیابی اطلاعات نمایه شده در پایگاه نورمگز است. پس از نرمال سازی متن مقالات با نرم افزار ویراستیار، طی متن کاوی مقالات با نسخه 7.1 نرم افزار رپیدماینر، واژگان کلیدی از طریق محاسبه وزن آنها استخراج و داده ها با استفاده از دو الگوریتم کلاسیک دسته بندی یعنی ک.ان.ان.[2] و نایوبیز [3] تجزیه و تحلیل شدند. در پژوهش حاضر، کامپیوتر با کمک ابزارهای متن کاوی نرم افزار رپدماینر، متن ماشین خوان را با استفاده از بسامد واژه ها به طور خودکار نمایه سازی کرده است. بدین منظور با کمک عملگرهای ان-گرام [4] و محاسبه وزن کلمات براساس روش تی.اف ای.دی.اف.[5]، اصطلاحات و مفاهیم کلیدی و تخصص موضوعی نویسنده هر مقاله در قالب 16 دسته بندی استخراج شده است. سرانجام برتری مدل ک.ان.ان. در دسته بندی موضوعات هسته مقالات این پژوهش با دقت 85 درصدی نسبت به مدل نایوبیز تایید شد. مشاهده نتایج محاسبه دقت های ماخوذه مدل ها، گواه کارایی قابل قبول نرم افزار رپیدماینر در نمایه سازی ماشینی متون است. نمایه سازی متون با استفاده از این روش، می تواند به بهبود نتایج بازیابی اطلاعات و جلوگیری از ریزش کاذب اطلاعات در پایگاه های اطلاعاتی کمک کند.
کلید واژگان: نمایه سازی ماشینی, دسته بندی, رپیدماینر, متن کاوی, بازیابی اطلاعات}The compatibility of classification codes and indexing terms done from a codified thesaurus with words and phrases that are automatically extracted using machine indexing. In designing an outo-indexing system, the computer completely replaces humans. The purpose of this research was to identify and extracting keywords and the subject trends of articles in the field of information retrieval and the subject's specificity of the author of each article by using the text mining and categorizing (classifying) with the help of concurrence vocabularies.The method of this research is applied and based on the CRISP model of data mining and text mining algorithms are used. The research community has 313 articles has in the field of information retrieval indexed at Noormags database. After normalizing the text of with the Virastyar software, during the text mining of the articles with the 7.1 version of the RapidMiner software, the keywords are extracted by their weight and the data are categorized using two classical classification algorithms, namely, KNN and Naïve Bayse were analyzed. In this study, the computer automatically indexed the readable machine text by using the frequency of the words with the help of the text mining tools of RapidMiner software. For this purpose, we use N-gram operators and calculate the weight of the words according to tf-idf method, Terms and key concepts and subject and specialization of author of each article is extracted in the form of 16 categories. Finally, the superiority of the KNN model In the categorization of the core subjects of the papers, this study is proving to be 85% more accurate than the Naïve bayse model. Finding the results of calculating the accuracy of the models indicate the acceptable performance of the RapidMiner software in machine indexing of texts. Indexing texts using this method can help improve the results of information retrieval and prevent false dropping of information in databases.
Keywords: Machine Indexing, Classifying, RapidMiner, Text Mining, Information Retrieval (IR)} -
با گسترش اینترنت و رشد سریع و روزافزون مقالات الکترونیکی، دسته بندی متون به یکی از ابزارهای کلیدی و مهم برای سازماندهی و مدیریت داده تبدیل شده است. در دسته بندی متون، یک مجموعه دانش اولیه در اختیار سامانه قرار می گیرد تا با یادگیری از این مجموعه، اسناد جدید ورودی به یکی از گروه های موضوعی، ملحق گردد. در متون سلامت به علت تنوع زیاد موضوعات، آماده کردن چنین مجموعه آموزش اولیه عملی بسیار زمان بر و هزینه بر است. هدف از مقاله ارائه مدلی ترکیبی از یادگیری (با نظارت و بدون نظارت) برای دسته بندی موضوعی تولیدات علمی حوزه سلامت است که بدون نیاز به مجموعه برچسب خورده اولیه عمل دسته بندی را انجام دهد. برای استخراج مدل موضوعی متون تولیدات علمی سلامت طی سال های 2009 تا 2019 در پایگاه پابمد، با استفاده از روش آمیخته داده کاوی، شامل متن کاوی و یادگیری ماشینی انجام گرفت. بر اساس مدل موضوعی تخصیص پنهان دیریکله، دادها تحلیل و سپس برای دسته بندی متون، از مدل ماشین بردار پشتیبان استفاده شد. در یافته های این پژوهش، مدل دسته بندی متون سلامت در سه گام اصلی معرفی شد. در گام اول پیش پردازش های لازم بر روی مجموعه داده به دلیل حذف کلمات کم تکرار و غیرضروری از مجموعه داده و افزایش دقت مدل پیشنهادی انجام گرفت. در گام دوم موضوعات موجود در متون به کمک روش احتمالاتی تخصیص پنهان دیریکله استخراج و به عنوان یک مجموعه آموزش اولیه در گام سوم به الگوریتم دسته بندی ماشین بردار پشتیبان داده و عمل یادگیری دسته بند به کمک این موضوعات انجام گرفت. درنهایت به کمک دسته بند، موضوع هر سند مشخص گردید. نتایج نشان داد که مدل پیشنهادی می تواند، یک دسته بندی بهتر با استفاده از ترکیب کردن خواص بدون نظارت خوشه بندی و دانش پیشین نمونه ها بسازد. انجام دادن خوشه بندی روی نمونه های برچسب دار با یک معیار شباهت مشخص، متن های مرتبط را باهم ادغام و یک دانش پیشین ایجاد کرده، سپس الگوریتم یادگیری، دسته بندی را با روشی نظارتی آموزش می دهد. ترکیب دسته بندی و خوشه بندی می تواند دقت دسته بندی متون سلامت را افزایش دهد.
کلید واژگان: تولیدات علمی, دسته بندی متون, سلامت, متن کاوی, مدل تخصیص پنهان دیریکله, مدل موضوعی, ماشین بردار پشتیبان, یادگیری ماشینی}With the proliferation of the Internet and the rapid growth of electronic articles, text categorization has become one of the key and important tools for data organization and management. In the text categorization, a set of basic knowledge is provided to the system by learning from this set, the new input documents into one of the subject groups. In health literatures due to the wide variety of topics, preparing such a set of early education is a very time consuming and costly task. The purpose of this article is to present a hybrid model of learning (supervised and unsupervised) for the subject classification of health scientific products that performs the classification operation without the need for an initial labeled set. To extract the thematic model of health science texts from 2009 to 2019 at PubMed database, data mining and text mining were performed using machine learning. Based on Latent Dirichlet Allocation model, the data were analyzed and then the Support Vector Machine was used to classify the texts. In the findings of this study, model was introduced in three main steps. In the first step, the necessary preprocessing was done on the dataset due to the elimination of unnecessary and unnecessary words from the dataset and increasing the accuracy of the proposed model. In the second step, the themes in the texts were extracted using the Latent Dirichlet Allocation method, and as a basic training set in step 3, the data were backed up by the Support Vector Machine algorithm and the classifier learning was performed with the help of these topics. Finally, with the help of the categorization, the subject of each document was identified. The results showed that the proposed model can build a better classification by combining unsupervised clustering properties and prior knowledge of the samples. Clustering on labeled samples with a specific similarity criterion merges related texts with prior knowledge, then the learning algorithm teaches classification by supervisory method. Combining categorization and clustering can increase the accuracy of categorization of health texts.
Keywords: Scientific Productions, Text Classification, Health, Text Mining, Latent Dirichlet Allocation Model, Thematic Model, Support Vector Machine, Machine Learning} -
پژوهش حاضر با هدف ترسیم ساختار حوزه علم اطلاعات و دانش شناسی ایران در پایگاه استنادی علوم جهان اسلام، در دو دوره زمانی پنج ساله طی سال های 1385 تا 1394 انجام شده است. این پژوهش از لحاظ هدف از نوع پژوهش های کاربردی علم سنجی بوده و با استفاده از روش تحلیل هم رخدادی واژگان انجام گرفته است. جامعه پژوهش را 2467 مقاله تشکیل می دهند که در مجله های علمی-پژوهشی حوزه علم اطلاعات و دانش شناسی ایران در پایگاه استنادی علوم جهان اسلام نمایه شده اند. برای تجزیه و تحلیل و آماده سازی داده ها و همچنین ترسیم نقشه ها، از نرم افزارهای اس.پی.اس.اس، بیب اکسل و یو سی آی نت استفاده شده است. یافته های پژوهش نشان داد که در بازه زمانی اول 7 خوشه و در بازه زمانی دوم 13 خوشه موضوعی تشکیل شده است که در هر دو دوره زمانی خوشه علم سنجی مهم ترین خوشه می باشد. با وجود همپوشانی نسبی بین موضوعات دو دوره، موضوعات در دوره دوم از تعداد و وسعت بالاتری برخوردار بودند. در هر دو دوره زمانی موردبررسی، کلیدواژه دانشگاه به ترتیب با فراوانی 82 و 149 پرتکرارترین کلیدواژه به شمار می آید. کلیدواژه های نشریات وکتابخانه های دانشگاهی با فراوانی 54 و 108 به ترتیب در دوره اول و در دوره دوم در جایگاه بعدی قرار دارند. از تفاوت های اصلی موضوعات دوره دوم نسبت به دوره اول حضور موضوعات مرتبط با فناوری اطلاعات بیش از گذشته، نظیر کتابخانه دیجیتال است.
کلید واژگان: ترسیم ساختار علم, نقشه علمی, هم رخدادی واژگان, تحلیل محتوا, متن کاوی, تحلیل خوشه ای}: Using a co-word analysis, this study aims to mapping the intellectual structure of Iran KIS (Knowledge and Information Science) in Islamic World Science Citation Database (ISC) during two 5-year periods from 2006 to 2015. This is an applied scientometric research which uses co-word analysis. The research population consists of 2467 articles which have been published in the KIS journals and indexed in the ISC. SPSS, BibExcel and UCInet are utilized for preparing and analyzing data and also for visualizing maps. Findings showed that in the first time period (2006-2010), 7 clusters and in the second time period (2011-2016), 13 clusters were formed which in both time periods, “scientometric cluster” is the most important one. Despite the relative overlap between clusters of the two periods, the topics in the second period were of a higher number and breadth. In both periods of study, “university” is the most frequent keyword with 82 and 149 occurrences, respectively. “Journals” is the next frequent keyword in the first period, and “academic libraries” in the second period, with the occurrences of 54 and 108, respectively. The more emphasis on the IT related issues, such as digital libraries, in the second period is one of the main differences between the two time periods.
Keywords: Mapping the intellectual structure, Scientific map, co-word analysis, Content analysis, Text mining, Clustering analysis} -
سازماندهی و بازیابی دانش منتشر شده در محیط وب بعنوان یکی از مهمترین کاربردهای متن کاوی مطرح شده است. از جمله چالش های سازماندهی مجموعه عظیمی از متون در قالب یک پیکره متنی، ابعاد زیاد ویژگی ها و خلوت بودن ماتریس ویژگی ها است. نحوه ی انتخاب ویژگی ها و نحوه ی کاهش ویژگی ها در این مسئله تاثیر بسزایی در بالاتر رفتن دقت سازماندهی و بازیابی متون دارد. در بسیاری از پژوهش ها به بررسی منفک این دو چالش پرداخته شده است. این پژوهش با رویکرد توجه همزمان به این دو چالش شرح یافته است. پس از تعیین متون مرتبط با 20 گروه خبری وبی و پس از فاز پیش پردازش متون با استفاده از الگوریتم الگو سازی عنوان[1] ال دی ای[2]، کیسه ای (تجمیعی) از مفاهیم معنایی برای پیکره ی متنی مورد نظر ساخته شد. به منظور بررسی میزان تاثیر واژه های پیکره متون در هر مفهوم پنهان، به بررسی نحوه ی وزن دهی واژگان یک پیکره، در مفاهیم استخراج شده توسط الگوریتم ال دی ای پرداخته شد. از این رو، برای هر متن یک توزیع احتمال رخداد حول هر عنوان استخراج گردید که برای سازماندهی و بازیابی دانش موجود در آن مورد استفاده قرار گرفت. برای سازماندهی آن از الگوریتم نزدیکترین K همسایه با معیار شباهت واگرای کولبک لیبلر که میزان فاصله دو توزیع احتمال را می سنجد؛ استفاده شد. نتایج آزمون ها نشان داد که میزان صحت سازماندهی روش پیشنهادی در صورتی که از معیار وزن دهی واکشی اطلاعات متقابل نقطه ای و الگوریتم KL-KNN استفاده شده باشد 5/82% است. نتایج تحلیل ها نشان داد که این روش دارای دقت مشابهی با روش هایی است که از فنون یادگیری عمیق استفاده می نمایند. افزون بر این، روش بکارگرفته در این پژوهش نشان دهنده پیچیدگی کمتری در فرایند سازماندهی و بازیابی متون مورد مطالعه پژوهش بود.
4. Topic modeling
5. Latent Dirichlet Allocationکلید واژگان: متن کاوی, طبقه بندی متن, الگوسازی عنوان, بازیابی, سازماندهی دانش, هستی شناسی}Improvement in information retrieval performance relates to the method of knowledge extraction from large amounts of text information on web. Text classification is one of application of knowledge extraction with supervised machine learning methods. This paper proposed Kullback-Leibler divergence KNN for classifying extracted features based on term weighting with Latent Dirichlet Allocation Algorithm. LDA is Non Negative matrix factorization method proposed for topic modelling and dimension reduction of high dimensional feature space .In traditional LDA, each component value is assigned using the information retrieval TF measure, While this weighting method seems very appropriate for IR, it is not clear that it is the best choice for TC problems. Actually, this weighting method does not leverage the information implicitly contained in the categorization task to represent documents. In this paper, we introduce a new weighting method based on Point wise Mutual Information for accessing the importance of a word for a specific latent concept, then each document classified based on probability distribution over the latent topics. Experimental result investigated when we used PMI measure for term Weighing and KNN with Kullback-Leibler distance, accuracy has been 82.5%, with lower complexity and same accuracy versus complex deep learning methods.
Keywords: text mining, text classification, topic modeling, latent dirichlet allocation, document representation, Knowledge organization, Pointwise mutual Information} -
رده بندی متون پژوهشی به منظور شناسایی و تحلیل عرضه و تقاضای پژوهشی در حوزه های مختلف علوم اهمیت ویژه ای دارد. در این میان رده بندی پژوهش های حوزه محیط زیست به دلیل اهمیت فراوان آن در کشور و نیز میان رشته ای بودن آن ضروری است. این پژوهش روش رده بندی تک رده ای متون پژوهشی این حوزه را با استفاده از ماشین بردار پشتیبان ارائه می دهد و به ارزیابی پارامترهای مهم تاثیرگذار در کیفیت این رده بندی می پردازد. نتایج نشان می دهد که استفاده از مجموعه داده هسته توصیفی در یادگیری مدل، کارایی بهتری نسبت به هسته محتوایی دارد. همچنین، استفاده از هسته چندجمله ای و وزن دهی دودویی واژه ها در ماتریس بردار ویژگی ها نتایج بهتری نسبت به حالت های معمول دیگر ارائه می کند. در این مطالعه، روش جدید وزن دهی با نام NG-TF معرفی و ارائه شده است که نتایج ارزیابی آن نسبت به روش های دیگر، به ویژه در معیار دقت، برتری قابل توجهی دارد. از این رو، می توان از این روش وزن دهی برای تعیین واژگان نماینده یک حوزه پژوهشی استفاده کرد.کلید واژگان: محیط زیست, رده بندی تک رده ای, ماشین بردار پشتیبان, متن کاوی, وزن دهی NG-TF}The classification of research studies is important in order to identify and analyze the research supply and demand in various fields of science. In particular, the classification of environmental research is essential because of its importance in Iran and its interdisciplinary nature. This research proposes One-Class Classification (OCC) method to classify the research studies in this domain using Support Vector Machine (SVM) and consequently evaluates important parameters affecting the quality of this classification. The results show that the use of descriptive metadata has better performance than the content metadata in order to make a core data set to learn the model. Moreover, the use of the polynomial kernel and the binary weighing of words in the features vector matrix leads to better results than other states. In this paper a new weighing method has been proposed which is superior to the other methods especially in precision criterion. We call this weighing method as NG-TF, which can be used in term-document matrix to determine the indicator terms of scientific domains.Keywords: Environment, One-Class Classification, Support Vector Machine (SVM), Text Mining, NG-TF Weighting}
-
این پژوهش با هدف کشف ساختار درونی مطالعات روانشناسی مثبت صورت گرفته است. رویکرد پژوهش پیش رو، در بخش ادبیات نظری و پیشینه های پژوهش، مطالعه ی کتابخانهای و از لحاظ ماهیت، کاربردی و در تجزیه و تحلیل یافته ها، تحلیلی است و از روش همرخدادی واژگان و نهایتا خوشهبندی متن که از روش های متنکاویاند برای کشف ساختار درونی و روابط موضوعی مطالعات روان شناسی مثبت استفاده شده است. جامعه این پژوهش، مقالات حوزه روان شناسی مثبت نمایه شده در پایگاه اسکوپوس است. تعداد کل این مقالات که محدود به بازه زمانی 2000 تا 2012 است برابر 1086 مقاله می باشد. پس از استخراج واژه های مرتبط موضوعی از ناحیه عنوان، چکیده و کلیدواژه های همه مقالات و اعمال روش های متن کاوی و ریشه یابی واژه ها، یک ماتریس هم رخدادی با ابعاد 43 × 43 ایجاد شد. برای تفسیر روابط موضوع های اصلی و جزئی ماتریس مذکور استاندارد شده و براساس شباهت وارد نرم افزار ایکس.ال.استد شد. مفاهیم در 7 خوشه بهینه قرارگرفت. برای گام های بعدی تجزیه و تحلیل داده ها از نرم افزار متلب و از نرم افزار پاژک برای نمایش شبکه هم رخدادی واژگان استفاده شده است. نتایج این پژوهش نشان می دهد که خوشه 2 با 10 واژه و خوشه 4 با 9 واژه، به عنوان خوشه های اصلی شناخته می شوند. خوشه 5 بیشترین تعداد موضوع های اصلی از بین مفاهیم منتخب را داراست و خوشه های 2 و 1 کمترین فاصله را دارند، که نشان می دهد ارتباط بین موضوع های اصلی و جزئی در این خوشه ها بیشتر است.کلید واژگان: ساختار درونی علم, روانشناسی مثبت, متن کاوی, خوشه بندی, نمایه سالتون}This study has been done to explore the Intellectual Structure of the Positive Psychology studies. Library Studding is the approach of present research, in theoretical literature, and application in terms of the nature, and analytical in analysis of findings, and method and finally clustering have used, those are text mining techniques to explore the Intellectual Structure and relationships the topics of positive psychology studies. The populations studied in this research are the 1086 papers that are published in positive psychology topics around the world, since 2000 to 2012, and are indexed in the Scopus database. After extraction of related terms from the titles, abstracts and keywords of articles and applying text mining techniques and words stemming, a co-word matrix was created with dimensions of 43 × 43. For the interpretation of relationship major and minor categories, this matrix was standard and based on the similarity was interred to XL.STAT Software. The terms were optimized in 7 clusters. For the next steps of analysis has been used from MATHLAB software, and for display coword network from Pajak software. The results of this research show that Cluster 2 by 10, and Cluster 4 by 9 terms, are known as the principal clusters. The Cluster 5 has the most of selective terms from the major categories and Cluster 2 & 1 have minimum distance that it shows the relationship between the major and minor topics in these clusters is higher.Keywords: Intellectual structure of science, positive psychology, Text Mining, Clustering, Salton index}
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.