به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت
جستجوی مقالات مرتبط با کلیدواژه

text processing

در نشریات گروه برق
تکرار جستجوی کلیدواژه text processing در نشریات گروه فنی و مهندسی
تکرار جستجوی کلیدواژه text processing در مقالات مجلات علمی
  • Pedram Yamini, Fatemeh Daneshfar*, Abuzar Ghorbani

    With the exponential growth of unstructured data on the Web and social networks, extracting relevant information from multiple sources; has become increasingly challenging, necessitating the need for automated summarization systems. However, developing machine learning-based summarization systems largely depends on datasets, which must be evaluated to determine their usefulness in retrieving data. In most cases, these datasets are summarized with humans’ involvement. Nevertheless, this approach is inadequate for some low-resource languages, making summarization a daunting task. To address this, this paper proposes a method for developing the first abstractive text summarization corpus with human evaluation and automated summarization model for the Sorani Kurdish language. The researchers compiled various documents from information available on the Web (rudaw), and the resulting corpus was released publicly. A customized and simplified version of the mT5-base transformer was then developed to evaluate the corpus. The model's performance was assessed using criteria such as Rouge-1, Rouge-2, Rouge-L, N-gram novelty, manual evaluation and the results are close to reference summaries in terms of all the criteria. This unique Sorani Kurdish corpus and automated summarization model have the potential to pave the way for future studies, facilitating the development of improved summarization systems in low-resource languages.

    Keywords: Kurdish Language, Abstractive Summarization, Text Processing, Annotated Corpus
  • فاطمه صلاحی *

    گیاهخواری از جریان هایی است که بازخوردهای زیادی در شبکه های اجتماعی داشته است. مطالب منتشر شده توسط کاربران نشان دهنده ی احساسات و نظرات آنان نسبت به این جریان و جنبه های مختلف آن می باشد. در همین راستا، مجموعه داده ای شامل بیش از شصت هزار توییت منتشر شده در سال 2023 در مورد گیاهخواری جمع آوری شده است. این مجموعه برای استخراج احساسات کاربران نسبت به جنبه های مختلف گیاهخواری استفاده شده است. ابتدا روشی مبتنی بر مدل زبانی RoBERTa برای تحلیل احساسات ضمنی نهفته در توییت ها ارایه می شود. سپس با استفاده از مدل سازی موضوعی LDA ، تعدادی جنبه و موضوع مرتبط با گیاهخواری استخراج می شود. در مرحله بعد با استفاده از روشی مبتنی بر مدل زبانی DeBERTa به تحلیل احساسات توییت ها نسبت به جنبه های مختلف استخراج شده، پرداخته می شود. نمودارهای مختلف فراوانی و توزیع احساسات برای جنبه های مختلف در حیطه ی گیاهخواری مورد بررسی قرار می گیرد. با نمودارهایی نتایج حاصل از تحلیل احساسات مبتنی بر RoBERTa با نتایج حاصل از DeBERTa در کنار هم، مورد بحث و بررسی قرار می گیرد. تجزیه و تحلیل داده ها با استفاده از مدل مبتنی بر DeBERTa نشان می دهد که کاربران در مورد جنبه های plant و lifestyle توییت هایی اکثرا با جهتگیری مثبت منتشر کرده اند. در مورد جنبه Animal غالبا با احساسی منفی مطالبی منتشر کرده اند. برای هر یک از جنبه های Diet و Co با مقادیری نزدیک به هم، اکثر توییت ها مثبت و یا خنثی هستند. در میان بحث، تعدادی دانش ضمنی در رابطه با این موضوع مورد بررسی قرار می گیرد.

    کلید واژگان: تحلیل احساسات مبتنی بر جنبه، مدل سازی موضوعی، پردازش زبان طبیعی، پردازش متن
    Fatemeh Salahi

    Vegetarianism is one of the trends that has received a lot of feedback on social networks. The content published by users reflects their feelings and opinions towards this trend and its various aspects. In this regard, a dataset containing more than sixty thousand tweets published in 2023 about vegetarianism was collected. This dataset was used to extract user sentiment towards different aspects of vegetarianism. First, a method based on RoBERTa language model was proposed to analyze the implicit sentiment hidden in tweets. Then, using the Latent Dirichlet Allocation topic modeling approach, some relevant aspects and topics related to vegetarianism were extracted. In the next step, a method based on DeBERTa language model was used to analyze tweet sentiment towards different aspects that had been extracted. Various frequency and sentiment distribution charts for different aspects in the field of vegetarianism were examined. The results of emotional analysis based on RoBERTa and DeBERTa models were compared side by side. Data analysis using the DeBERTa model showed that users had mostly tweeted positive sentiments regarding the plant and lifestyle aspects. However, for the Animal aspect, most tweets were negative. For both Diet and Company aspects, most tweets were positive or neutral with values close to each other. During the discussion, some implicit knowledge related to this topic was also examined.

    Keywords: Aspect Based Sentiment Analysis, Topic Modeling, Natural Language Processing, Text Processing
  • نگار مجمع*، سارا باشتین

    در دهه اخیر با گسترش دسترسی به شبکه جهانی اینترنت، سرعت و سهولت در دسترسی به ایده ها، مستندات، مقالات، دست نوشته ها و داده های جمع آوری شده توسط دیگران افزایش یافته است. این موضوع باعث شده است که تبادل اطلاعات و افکار بین محققین و تولیدکنندگان علوم آسان تر شود، اما در مقابل باعث آسان شدن اعمال رونوشت غیرمجاز، خلاصه نویسی بدون ذکر منبع و در کل سرقت متون ادبی شده است. از آنجایی که دانشگاه ها و مراکز آموزشی، منابع علمی و پژوهشی را با سهولت در دسترس اغلب کاربران قرار می دهند، تشخیص میزان اصالت متون علمی در این مراکز مهم تر و بالطبع آن از حساسیت بیشتری برخوردار است. در این پژوهش روشی ارایه شده تا با استفاده از بلاک بندی قطعات اسناد، مقایسه بین قطعات مرتبط انجام شود. در روش پیشنهادی پس از دسته بندی اسناد به دو دسته اسناد اصلی و اسناد مشکوک، پیش پردازشی با هدف حذف ایست واژه ها و جمله بندی جدید صورت پذیرفته است. سپس اسناد قطعه بندی شده و با استفاده از شباهت کسینوسی، میزان شباهت متون با یکدیگر تعیین شده است. روش پیشنهادی در آزمون 50 سند موجود در مجموعه داده ها، دقت 94 درصدی را کسب کرده که به نسبت به یکی از روش های مشابه بهبود 2 درصدی داشته است.

    کلید واژگان: سرقت علمی ادبی، تشخیص اصالت متون علمی، فاصله ی کسینوسی، بلوک بندی متن، پردازش متن
    Negar Majma *, Sara Bashtin

    In the last decade, with the expansion of the World Wide Web, the speed and ease of access to ideas, documents, articles, manuscripts, and data collected by others has increased. This has made the exchange of information and ideas between researchers and producers of science easier, but on the other hand, it has made it easier to apply unauthorized copies, write summaries without mentioning the source, and steal literary texts in general. Since universities and educational centers make scientific and research resources easily available to most users, recognizing the authenticity of scientific texts in these centers is more important and, of course, more sensitive. In this research, a method is presented to compare the related parts using the blocking of document parts. In the proposed method, after classifying the documents into two categories of main documents and suspicious documents, preprocessing has been done with the aim of eliminating word stops and new wording. Then the documents are segmented and using cosine similarity, the degree of similarity of the texts with each other is determined. The proposed method in the test of 50 documents in the data set has an accuracy of 94%, which is an improvement of 2% compared to one of the similar methods.

    Keywords: Plagiarism, Recognizing the authenticity of scientific texts, Cosine distance, Block text, Text processing
  • زلیخا جهانبخش نقده، محمدرضا فیضی درخشی*، آرش شریفی

    شایعه یک تلاش جمعی است که در آن از قدرت واژگان برای تفسیر یک موقعیت مبهم ولی جذاب استفاده می شود؛ بنابراین، شناسایی زبان شایعه می تواند در تشخیص شایعات کمک کننده باشد. پژوهش های پیشین  برای حل مساله تشخیص شایعه بیشتر بر روی اطلاعات متنی موجود در ریتوییت و توییت پاسخ کاربران و کمتر بر روی متن اصلی شایعه متمرکز شده اند. اغلب این پژوهش ها بر روی زبان انگلیسی بوده و کارهای محدودی در زبان فارسی انجام شده است؛ از این رو، این مقاله تنها با تمرکز برروی متن اصلی شایعات فارسی و معرفی ویژگی هایی با ارزش اطلاعات محتوایی بالا، مدلی مبتنی بر ویژگی های محتوایی فیزیکی و غیرفیزیکی برای تشخیص شایعات فارسی منتشر شده برروی توییتر و تلگرام ارایه می کند. مدل پیشنهادی شایعات فارسی مجموعه داده توییتر را با معیار-F  848/0، شایعات مجموعه داده زلزله کرمانشاه را با معیار-F 952/0 و شایعات تلگرامی را با معیار-F 867/0 شناسایی کرده است؛ که نشان دهنده توانمندی مدل پیشنهادی برای شناسایی شایعات تنها با تمرکز بر ویژگی های محتوایی متن شایعه منبع است.

    کلید واژگان: تشخیص شایعات فارسی، تحلیل محتوی، ویژگی های محتوایی فیزیکی و غیرفیزیکی، پردازش متن
    Zoleikha Jahanbakhsh Nagadeh, MohammadReza Feizi Derakhshi*, Arash Sharifi

    The rumor is a collective attempt to interpret a vague but attractive situation by using the power of words. Therefore, identifying the rumor language can be helpful in identifying it. The previous research has focused more on the contextual information to reply tweets and less on the content features of the original rumor to address the rumor detection problem. Most of the studies have been in the English language, but more limited work has been done in the Persian language to detect rumors. This study analyzed the content of the original rumor and introduced informative content features to early identify Persian rumors (i.e., when it is published on news media but has not yet spread on social media) on Twitter and Telegram. Therefore, the proposed model is based on physical and non-physical content features in three categories including, lexical, syntactic, and pragmatic. These features are a combination of the common content features along with the proposed new content-based features. Since no social context information is available at the time of posting rumors, the proposed model is independent of propagation-based features and relies on the content-based information of the original rumor. Although in the proposed model, much information (including user information, the userchr('39')s reaction to the rumor, and propagation structures) are ignored, but helpful content information can be obtained for classification by content analysis of the original rumor.Several experiments have been performed on the various combinations of feature sets (i.e., common and proposed content features) to explore the capability of features in distinguishing rumors and non-rumors separately and jointly. To this end, three machine learning algorithms including, Random Forest (RF), AdaBoost, and Support Vector Machine (SVM) have been used as strong classifications to evaluate the accuracy of the proposed model. To achieve the best performance of classification algorithms on the training dataset, it is necessary to use feature selection techniques. In this study, the Sequential Forward Floating Search (SFFS) approach has been used to select valuable features. Also, the statistical results of the t-test on the P-value (<=0.05) demonstrate that most of the new features proposed in this study reveal statistically significant differences between rumor and non-rumor documents. The experimental results are shown the performance of new proposed features to improve the accuracy of the rumor detection. The F-measure of the proposed model to detect Persian rumors on the Twitter dataset was 0.848, on the Kermanshah earthquake dataset was 0.952 and on the Telegram dataset was 0.867, which indicated the ability of the proposed method to identify rumors only by focusing on the content features of the original rumor text. The results of evaluating the proposed model on Twitter rumors show that, despite the short length of Twitter tweets and the extraction of limited content information from tweets, the proposed model can detect Twitter rumors with acceptable accuracy. Hence, the ability of content features to distinguish rumors from non-rumors is proven.

    Keywords: Persian rumors detection, Content analysis, Physical, non-physical content features, Text processing
نکته
  • نتایج بر اساس تاریخ انتشار مرتب شده‌اند.
  • کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شده‌است. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
  • در صورتی که می‌خواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال