به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت
فهرست مطالب نویسنده:

masood ghayoomi

  • مسعود قیومی*، الهام صالحی، اعظم علیجانی

    در سند نقشه جامع علمی کشور، به ارتقای جایگاه زبان فارسی در مقام زبان علم در بین زبان های بین المللی علمی اشاره شده است. یکی از راه کارهای رسیدن به این هدف کلان، گسترش زبان فارسی ذکر شده است. برای رسیدن به این هدف که می تواند در حوزه سیاستگذاری های مربوط به زبان فارسی مطرح شود، به درک بیشتر از محتوای زبانی نیاز است. از این منظور، کتاب های درسی دانش آموزان که با مفاهیم پایه آموزش می بینند اهمیت زیادی پیدا می کند. توصیف این ویژگی ها می تواند به هنگام تهیه محتوای زبانی مد نظر قرار گیرد. در این پژوهش، پیکره ای از متون درسی کلاس های اول تا ششم ابتدایی به حجمی در حدود 208هزار واژه تهیه شده و برچسب گذاری شده است. این دروس شامل فارسی، علوم، مطالعات اجتماعی و هدیه های آسمانی است. تمام جملات دروس مختلف به تفکیک پایه و درس، در فایل های متنی ساده حروف نگاری شده و پس از هنجارسازی در فرایند پیش پردازش، در چهار سطح آوایی، بن واژه-ای، مقوله دستوری و تجزیه سازه ای نحوی برچسب گذاری شده و بررسی شده است. نتایج حاصل از این می تواند به شناخت بیشتر از محتوای کتاب های درسی کمک کند و در حوزه آموزش و سیاستگذاری در این حوزه مفید باشد.

    کلید واژگان: پیکره، زبانشناسی پیکره ای، آموزش، سیاست گذاری در آموزش
    Masood Ghayoomi *, Elham Salehi, Azam Alijani

    In the comprehensive scientific roadmap of the country (Iran), the promotion of Persian language as a science language among other international science languages is taken into consideration. One of the ways to reach this goal is suggested as expanding the usage of the Persian language. To achieve the goal, which can be raised in the field of Persian language policy making, it is necessary to understand more about the linguistic content properties and the basic concepts that are taught in the textbooks to students. The description of these features can be considered when preparing the language content. In this research, a corpus of textbooks from grades 1 to 6 (the primary school period) is developed that contains around 208,000 words and annotated. These courses include Farsi, Experimental Sciences, Social Studies and Heavenly Gifts. All the sentences of different courses are written in plain text files, separated by grade and course, and after normalization in the pre-processing process, they are annotated automatically at four levels: broad transliteration, lemmatization, part-of-speech and syntactic constituency parsing. The results of this research can help to know more about the content of textbooks and to be useful in the fields of education and policy making in language planning.

    Keywords: Corpus, Corpus Linguistics, Education, Policy Making In Education
  • اعظم علیجانی، مسعود قیومی*، مریم مسگرخویی، حوریه احدی، یلدا دلگشایی
    هدف از مطالعه حاضر، بررسی حرف اضافه «از» در کتاب های درسی است. چندمعنایی حرف اضافه موجب اشکالاتی در دریافت و درک بسیاری از دانش آموزان می شود. در این پژوهش از پیکره متنی کتب درسی فارسی، علوم، هدیه های آسمانی و مطالعات اجتماعی از پایه اول تا ششم ابتدایی بهره گرفته ایم. در تحلیل داده ها از رویکردهای پیش نمونه راش (Rosch) (1975) و چندمعنایی نظام مند تایلر و ایوانز (Tyler & Evans) (2003) در چارچوب معنی شناسی شناختی استفاده شده است. ابتدا جملات شاهد حاوی حرف اضافه «از» از پیکره جداسازی شدند. مجموعه معانی به دست آمده از مطالعه این زیرپیکره عبارتند از: «نوع»، «جزء کل»، «منشا»، «زمان»، «قیاس»، «به وسیله، به کمک، با»، «درباره»، «جهت»، «حرکت»، «مجاز» و «متمم». توزیع آماری معانی در کل زیرپیکره (دامنه عام) به معنی «جزء کل» تعلق دارد. معانی این حرف اضافه در میان درس ها و پایه های تحصیلی (دامنه خاص) یکسان به دست نیامد. در میان سه پایه اول تا سوم تحصیلی معنی «متمم» و سه پایه چهارم تا ششم تحصیلی معنی «جزء کل» سرنمون شد. این یافته ها نشان داد که معنای سرنمون دروس فارسی و هدیه های آسمانی «مجاز» و دروس علوم و مطالعات اجتماعی «جزء کل» است.
    کلید واژگان: معنی شناسی شناختی، نظریه پیش نمونه، چندمعنایی، پیکره کتب درسی
    Azam Alijani, Masood Ghayoomi *, Maryam Mesgarkhoyi, Houriyeh Ahadi, Yalda Delgoshaei
    The present study aimed to study the preposition /az/ (i.e., from) in primary school textbooks. Polysemy of prepositions is one of the sources of many students’ perception. A text corpus developed for this study from Farsi, Practical Science, Heavenly Gifts, and Social Studies of elementary school textbooks grades 1 to 6. To analyze the data, Rosch’s (1975) prototype theory and Tyler and Evans’ (2003) systematic prepositions polysemy approaches in the cognitive semantics framework were used. At first, the sample sentences which contained the preposition /az/ (from) were extracted to form the sub-corpus. The set of senses that are obtained from the sub-corpus are “Type”, “Whole Part”, “Tense, Source”, “Comparation”, “with the help of, By, With”, “About”, “Orientation”, “Motion”, “Metaphor”, and “Complement”. Statistical distribution of meanings in the whole sub-corpus (general domain) was “Whole Part”. The senses of the proposition among lessons and grades (domain restricted) are not similar to the prototype sense. This research showed that the sense “Complement” is the prototype for grades 1 to 3, and the sense “Whole Part” is more frequent in grade 4 to 6. Different forms of this preposition are used at the beginning, middle, and end of sentence. Furthermore, the findings showed that the sense “Metaphor” is the prototype for the book Farsi, the sense “Whole Part” is the prototype sense for Practical Science and Social Studies, and the sense “Tense” is the prototype sense for Heavenly Gifts.
    Keywords: Cognitive Semantics, Prototype Theory, Polysemy, Textbook Corpus
  • مسعود قیومی*

    گویش شناسی به مطالعه علمی یک گویش و توزیع جغرافیایی آن می پردازد. هر گویش یک زبان است و مطالعه یک گویش به تحلیل‎ های بسیار زیادی نیاز دارد که همین امر به طولانی ‎شدن مدت انجام مطالعات مربوط به یک گویش می‎انجامد. گردآوری داده ‎های گویشی بسیار پرزحمت و زمان بر است. از این‎رو، نیاز است این داده به ‎گونه‎ای تهیه شود تا قابلیت استفاده مجدد در بررسی‎های آتی را داشته باشد. داده خام کارایی چندانی در مطالعات گویش شناسی ندارد و نیاز است در چارچوب روش تحلیل زبان‎شناسی ساختگرایی، تحلیل‎ های زبان‎شناختی به آن اضافه گردد. باتوجه ‏به حجم زیاد داده گویشی در طرح‏هایی مانند تهیه اطلس گویش های یک کشور و تحلیل‎های زبان شناختی اضافه‎ شده به آن، به ساماندهی داده گویشی نیاز است. استفاده از رایانه به ‎عنوان یک ابزار موجب می‎شود داده براساس ساختار مشخصی انتظام یابد. هدف اصلی این پژوهش، معرفی یک استاندار برای سازماندهی داده ها و اطلاعات گویشی است. این استاندارد حاوی داده گویشی، فراداده ‎های مربوط به آن گویش و همچنین اطلاعات زبان‎ شناختی حاصل از تحلیل داده گویشی است. این اطلاعات براساس ساختار داده درختی و زبان نشانه گذاری گسترش پذیر سازماندهی می‎گردد. این ساختار داده، قابلیت جابه ‎جایی داشته و می‎تواند به‎سادگی به درون یک پایگاه داده خوانده شود.

    کلید واژگان: گویش شناسی، استانداردسازی، انتظام داده، گویش شناسی رایانشی، زبان نشانه گذاری
    Masood Ghayoomi *

    Dialectology studies a dialect scientifically along with its geographical distribution.Each dialect is a language; and to study a dialect various linguistic analyses are required.This property makes the study of a language a little long in terms of time.Collecting dialectical data is very time consuming and required a lot of effort.Raw data is not much usable in dialectology and it is required to add linguistic analyses to the data in the framework of structural linguistic analysis.Using a computer as a research tool causes to prepare the data in a specific structure.The main contribution of the current paper is proposing a standard to organize dialectic data and information.This standard contains the dialectic data, its relevant meta-data, and the linguistic information related to the analysis of this data.The meta-data and linguistic information are organized in the XML tree structure.This data structure is highly portable and it can be easily read into a database.

    Keywords: dialectology, standardization, Data Structuring, Computational Dialectology, Markup Language
  • مسعود قیومی*، مریم مسگرخویی
    امروزه وجود ابزارهای ارتباطی نوظهور سبب شده است که ارتباط میان گویشوران ازطریق نوشتن میسر شود. ماهیت الکترونیکی، جهانی و تعاملی این دسته از فناوری های نوظهور سبب تسهیل و افزایش سرعت در ارتباطات شده است. تعامل زبانی با به کارگیری این ابزارها و رابطه میان گفتار و نوشتار سبب می شود که گونه ای از نوشتار توسط کاربران یک زبان خلق شود، گونه ای که به نونویسی معروف است. هدف از انجام این پژوهش بررسی ویژگی های نونویسی در فارسی و طبقه بندی انواع آن براساس پیکره زبانی تهیه شده از داده های منتشرشده در شبکه های اجتماعی است. برای این هدف، داده های گردآوری شده در این پیکره براساس شیوه نگارش معیارشان، در سطوح آوایی، بن واژه ای و مقوله دستوری به صورت نیمه خودکار برچسب گذاری شده است. سپس واژه هایی که صورت نوشتاری شان متفاوت از صورت معیار است و دارای نوعی نونویسی است ازجنبه ویژگی های خط و همچنین ویژگی های زبانشناختی مورد بررسی قرار گرفت. نتایج حاصل از تحلیل این داده ها و برچسب هایشان نشان می دهد که نونویسی در فارسی در فضای مجازی در دو سطح نگارشی و آوایی-ساخت واژی اتفاق می افتد و واژه های محتوایی بیشترین میزان نونویسی واژه ها را متحمل می شود.
    کلید واژگان: نونویسی، شکسته نویسی، محاوره نویسی، فضای مجازی، دستور خط فارسی
    Masood Ghayoomi *, Maryam Mesgarkhoyi
    Nowadays, the existence of emerging communication tools has made communication between speakers possible through writing. The electronic, global and interactive nature of such emerging technologies has facilitated and increased the speed of communication. The linguistic interaction by using these tools and the relationship between speech and writing have causes a type of writing to be created by the users of a language, a writing type known as “neography”. The main aim of this research is to investigate the properties of neography in Persian and classify them into the categories based on a linguistic corpus developed from the data published in social media. To this end, the corpus is semi-automatically annotated based on the standard writing style, and the linguistic properties at phonetic, morphological and syntax levels. Then, the words whose written forms are different from the standard form and have a type of neography are studied based on the orthography properties and also linguistic features. The results of the analyzing the data and the assigned labels show that neography in Persian in the virtual space occurs at two levels of oryhography and morpho-phonetic, and the content words bear the highest amount of neography in the words.
    Keywords: neography, broken writing, colloquial writing, virtual space, Persian orthography grammar
  • مریم موسویان، مسعود قیومی*

    سالانه، پژوهشگران در حوزه های گوناگون علمی یافته های پژوهش های خود را به صورت گزارش های فنی یا مقاله هایی در مجموعه مقالات یا مجله ها چاپ می کنند. گردآوری این نوع داده توسط موتورهای جست وجو و کتابخانه های دیجیتال، برای جست وجو و دسترسی به نشریه های پژوهشی به کار گرفته می شود که معمولا مقاله های مرتبط بر اساس کلیدواژه های پرسمان به جای موضوعات مقاله بازیابی می گردد. در نتیجه، دسته بندی دقیق مقاله های علمی می تواند کیفیت جست وجوی کاربران را هنگام جست وجوی یک سند علمی در پایگاه های اطلاعاتی افزایش دهد. هدف اصلی این مقاله، ارایه یک مدل دسته بندی برای تعیین موضوع مقاله های علمی است. به این منظور، مدلی را پیشنهاد کردیم که از دانش بافتی غنی شده مقاله های فارسی مبتنی بر معناشناسی توزیعی بهره می برد. بر این اساس، شناسایی حوزه خاص هر سند و تعیین دامنه آن توسط دانش غنی شده برجسته، دقت دسته بندی مقاله های علمی را افزایش می دهد. برای دست یابی به هدف، ما مدل های درونه یابی بافتی، اعم از ParsBERT  یا XLM-RoBERTa را با موضوع های پنهان در مقاله ها را برای آموزش یک مدل پرسپترون چندلایه غنی می کنیم. بر اساس یافته های تجربی، عملکرد کلیParsBERT-NMF-1HT  72/37 درصد (ماکرو) و 75/21 درصد (میکرو) بر اساس معیار-اف بود که تفاوت عملکرد این مدل در مقایسه با مدل پایه از نظر آماری معنادار (p<0/05) بود.

    کلید واژگان: تحلیل محتوایی مقاله، بازنمایی بافتی، معناشناسی توزیعی، شبکه عصبی، دسته بندی مقاله علمی، مدل سازی موضوع
    Maryam Moosaviyan, Masood Ghayoomi *

    Annually, researchers in various scientific fields publish their research results as technical reports or articles in proceedings or journals. The collocation of this type of data is used by search engines and digital libraries to search and access research publications, which usually retrieve related articles based on the query keywords instead of the article’s subjects. Consequently, accurate classification of scientific articles can increase the quality of users’ searches when seeking a scientific document in databases. The primary purpose of this paper is to provide a classification model to determine the scope of scientific articles. To this end, we proposed a model which uses the enriched contextualized knowledge of Persian articles through distributional semantics. Accordingly, identifying the specific field of each document and defining its domain by prominent enriched knowledge enhances the accuracy of scientific articles’ classification. To reach the goal, we enriched the contextualized embedding models, either ParsBERT or XLM-RoBERTa, with the latent topics to train a multilayer perceptron model. According to the experimental results, overall performance of the ParsBERT-NMF-1HT was 72.37% (macro) and 75.21% (micro) according to F-measure, with a statistical significance compared to the baseline (p<0.05).

    Keywords: Article Content Analysis, Contextualized Representation, Distributional Semantics, Neural Network, Scientific Article Classification, Topic Modeling
  • مهدی پری زاده*، مسعود قیومی

    در زبان فارسی همکردهای فعل مرکب یا بخش فعلی موجود در عبارت های فعلی، خودشان فعل های قاموسی ساده ای بوده اند که معمولا در این نقش جدید در معنای اصلی به کار نمی روند. این پژوهش به دنبال مشخص کردن این است که چه افعالی در زبان فارسی نو این روند را طی کرده اند و کدام دسته از آنها حضوری باثبات تر و کدام دسته گرایشی قوی تر داشته اند تا در ساخت های فعلی جدید نیز به شکلی زایا در این نقش حضور یابند. برای مشخص شدن این موضوع از یک معیار کمی آماری به نام «ضریب تغییر» استفاده شده است. با استفاده از این معیار، رتبه بندی جدیدی برای این نوع افعال ترتیب داده شد که بازنمودی عددی از تغییر رفتار آنها را نشان می دهد. نتایج نشان می دهد فعل «زدن» بیشترین تغییر رفتار را نشان می دهد و بسیار به مشارکت در ساخت های فعلی جدید تمایل نشان داده و فعل «داشتن» پایدارترین رفتار را داشته است .

    کلید واژگان: همکرد، جزء فعلی، فعل مرکب، عبارات فعلی، همکردشدگی، ضریب تغییر، قفل واژه
    Mehdi Parizadeh *, Masood Ghayoomi

    The verb particles of the verb phrases in Persian were simple verbs in which new role don't have their primary meaning. The purpose of this research is to identify what verbs in New Persian have gone through this passage, which ones have been more stable in the language, and also which ones have had strong tendencies to have new roles in Persian verb phrases. For this, we have used a quantitative statistical criterion called “coefficient of variance”. This parameter creates a new ranking for verbs, which shows a numerical presentation of their behavioral changes. The results show that “zadan” has had the most behavioral change and “dāštan” has been the most stable verb particle.

    Introduction

    Verb is one of the essential elements of sentence.  Like the other linguistic components, verbs are also born, go through changes in their lifetime and then they may die or may have a longer lifetime. From one point of view, structurally, verbs can be classified into two general categories: simple verbs and verbs with complex structures. Generally, simple verbs, which are usually one word, have the same semantic content represented lexically.  The primary goal of this paper is to investigate which verbs have been used as verb particles in the structure of modern Persian non-simple verbs in the last twelve centuries. Therefore, instead of the term “light verb” used for the verb component in compound verbs, the term “verb particle” has been used to include more verb constructions. Besides, this research seeks to identify verbs used as verb participles and find those verbs that have been continuously present during recent 12 centuries. Obviously, the frequency of verbs that have this condition is not the same. So, if we are looking for a quantitative measure for it, it is clear that frequency is not a suitable one. Therefore, another goal of this research is to provide a quantitative measure to determine which of these verbs, which have always been verb particle, have a growing tendency to change from simple verbs to verb participles, and which ones show almost constant behavior.

    Theoretical framework

    In order to observe language change, Paul Baker has done a corpus survey on English. His study deals with the concept of “lockwords”. A lockword is a word that may change its meaning or even use, but still have an approximately equal number in the corpus, especially in multi-part historical corpuses. The aim of Baker's research was to examine how English vocabulary has developed over the past eight decades. His main research questions were to identify words whose frequency was increasing, decreasing, or remaining constant over time relative to other words. He tries to provide acceptable explanations for such phenomena. Unlike previous studies, Baker was also interested in stability including which words have not changed much over time in recent English corpora.

    Methodology

    Conducting this research required a historical corpus. This corpus contains 1200 pages of complete text, with 100 pages from each century as random samples. That is, 100 pages with 12 B Nazanin font have been selected from the texts of each century, excluding any type of paragraphing and punctuation marks. This body contains more than 1,000,000 words in total. But even with a text corpus, this research wouldn’t be completed. Rather, it was necessary to create a labeled body.

    Results & Discussion

    182 different verb participles were found in this corpus from which only 24 were used in all centuries. Their appropriate quantitative measure is the “coefficient of variance” that quantitatively determines their tendency during these centuries. Therefore, the frequency factor alone cannot show this trend accurately.

    Conclusion & Suggestion

    This research sought to find a quantitative measure to show which verbs have had a greater tendency to be used in more complicated verb structures, as well as in simple ones, from 10th century until now. First, we had to investigate which verbs participated in this process. Next, 182 verbs were found from which only 24 were continuously found in all centuries.
    Therefore, the investigation was continued on these 24 verb components. Then, by examining the tools provided by statistics, a search was made to find the best measure to quantify the behavior of these verb components. According to Baker, neither the frequency nor the standard deviation was appropriate for this research, but the appropriate measure was the coefficient of variance. Based on the results obtained from this criterion, a new ranking of the behavior of the verb components in terms of participation in more complex constructions was obtained. In this ranking, the verb “zadan” showed the most tendency to participate in this type of verb constructions and the verb “dāštan” had the least change. That is, “dāštan” has always participated in these types of verb constructions in a stable way during these centuries. Therefore, it can be concluded that “zaden” has shown the most tendency to participate in more complex verb constructions and the verb “dāštan” is the most stable lockword in the verb class in New Persian.

    Keywords: compound verb, verb particle, coefficient of variance, lockword
  • مسعود قیومی*
    گفتمان خبری گونه ای تحلیل گفتمان است که به تحلیل ساختار گفتمان خبری می پردازد. باتوجه به این که در قالب بندی اخبار دو ویژگی انتخاب و برجستگی در نمود ارتباطی خبر نهفته است، از ساختار هرم وارونه خبر برای درجه بندی اهمیت بخش های گفتمانی خبر استفاده می شود. اگرچه رعایت ساختار هرم وارونه خبر مطلوب است، گاهی ممکن است در گفتمان خبری این ساختار دچار تغییر شود که در این مقاله تلاش می شود با کمک تحلیل آماری، به تحلیل ساختار گفتمان وبگاه های خبری فارسی پرداخته شود. برای رسیدن به هدف می توان از علم داده استفاده کرد. این بین رشته ای از جنبه علمی به تحلیل داده، یافتن مفاهیم ضمنی به دست آمده از تحلیل داده ها و استخراج دانش از داده ها می پردازد. در چارچوب علم داده به بررسی پیکره ای متون خبری فارسی پرداخته شده و وجود رابطه همبستگی معنایی میان عنوان خبر و محتوای خبر در ساختار هرم وارونه خبر مورد مطالعه قرار می گیرد. برای دستیابی به این هدف، با استفاده از روش خزش، یک پیکره خبری نسبتا بزرگ با حجمی بالغ بر 14میلیارد واژه از 24 وبگاه خبری به دست آمده است. پس از پیش پردازش و اعمال یکدستی نسبی در این پیکره، در چارچوب معناشناسی توزیعی، بردار عنوان خبر و متن خبر با استفاده از مدل بردارسازی واژه ورد2وک به دست آمده و براساس آن بردار هر خبر ساخته شده است. پس از بخش بندی محتوای هر خبر براساس هرم وارونه خبر به سه قسمت سرنخ (لید)، بدنه و ارایه توضیحات بیشتر درمورد سرنخ، با استفاده از ضریب همبستگی پیرسون، میزان همبستگی میان عنوان و هر یک از سه بخش خبر محاسبه شده است. اگرچه ضریب همبستگی پیرسون برای حجم زیادی از خبرها مثبت بود، ارزش صفر و عدم وجود همبستگی برای خبرها یافت شد. به طور متوسط، همبستگی میان عنوان و بدنه خبر بیش از همبستگی میان عنوان و توسعه سرنخ بود. این پژوهش می تواند به عنوان روشی برای دقت در انتخاب عنوان و محتوا و پالایش خبری منطبق بر هرم وارونه استفاده گردد.
    کلید واژگان: پیکره خبری، ضریب همبستگی پیرسون، معناشناسی توزیعی، ورد2وک، هرم وارونه خبر
    Masood Ghayoomi *
    News discourse is a type of discourse analysis that deals with the analysis of news discourse. Due to the fact that in the formatting of news there are two hidden features of selection and prominence in the communication representation of news, the inverted pyramid of news is used to grade the importance of the discourse parts of the news. Although it is desirable to meet the structure of the inverted pyramid of news, sometimes this structure may change. In this article, we put an effort to analyse the discourse analysis of Persian news websites with the help of statistical analysis. To research the goal, data science can be used. This inter-discipline deals with data analysis from a scientific aspect, finding implicit concepts to be obtained from data analysis and extracting knowledge from the data. In the framework of data science, we examined the Persian news corpus and studied the existence of semantic correlation between the news title and the news content based on the structure of the news inverted pyramid. To achieve the goal, by using the crawling method, a relatively large news corpus with a volume of 14 billion words has been obtained from 24 news websites. After pre-processing and normalizing the corpus, in the framework of distributional semantics, the vector of title news and content have been created by using the Word2Vec tool for creating the vector model to have the vector representation of each news. After segmenting news content into three parts (lead, body and further explanation about the lead) according to the inverted pyramid, the Pearson correlation coefficient has been used to calculate the correlation between the title and each part of the news. Although Pearson's correlation coefficient was positive for a large number of news, zero value and no correlation was found for the news. On average, the correlation between the headline and the news lead and body was higher than the correlation between the headline and the lead development. This research can be used as a method to carefully select the title and content and filter the news according to the inverted pyramid structure.
    Keywords: news corpus, Pearson correlation coefficient, distributional semantics, Word2Wok, news inverted pyramid
  • مسعود قیومی*
    در این پژوهش تلاش می شود با استفاده از تحلیل آماری، ویژگی های اخبار جعلی فارسی مربوط به کوید-19 بررسی گردد. برای این هدف، ابتدا یک پیکره زبانی که حاوی اخبار موثق و جعلی در حوزه کرونا است تهیه می شود. سپس الگوهای زبانی این دو دسته داده و همچنین دو تحلیل آماری مقدار اطلاعات و خوانایی اخبار موثق و جعلی مورد بررسی قرار گرفته و با یکدیگر مقایسه می شود. براساس اطلاعات استخراج شده و نتایج عملی به دست آمده از پیکره خبرهای جعلی، الگوهای زبانی مشترک بین این دو دسته داده وجود دارد. همچنین، مقدار اطلاعات در اخبار موثق براساس دو معیار آنتروپی و شگفتی بیشتر از اخبار جعلی است. سطح خوانایی خبرهای جعلی با استفاده از تساوی های اندازه گیری خوانایی متن مورد ارزیابی قرار گرفته‎است و این نتیجه به دست آمده است که اخبار جعلی در مقایسه با اخبار موثق عمدتا ساده بوده و دشوار نیست. در فرایند برچسب گذاری خودکار خبرهای موثق و جعلی براساس سطح دشواری حجم زیادی از اخبار جعلی ساده تشخیص داده شده است و تعداد کمی از اخبار موثق با سطح زبانی دشوار بود. علاوه بر این دستاورد و بررسی آماری ویژگی های زبانی براساس میزان اطلاعات و خوانایی اخبار جعلی، جنبه کاربردی این اطلاعات آماری جهت تشخیص خبر جعلی با استفاده از روش های یادگیری ماشینی مورد مطالعه قرار گرفت.
    کلید واژگان: زبان رسانه، اخبار جعلی فارسی، کوید-19، نظریه اطلاعات، آنتروپی، شگفتی، خوانایی
    Masood Ghayoomi *
    In this research, an attempt is made to investigate the characteristics of Persian fake news related to Covid-19 by using statistical analysis.  To this end, first, a language corpus containing reliable and fake news in Persian in the field of Corona is prepared. Then, the language patterns of these two data sets, as well as two statistical analyzes of the amount of information and the readability of reliable and fake news, are examined and compared with each other. According to the exteracted information and the experimental results achieved from the developed corpus on COVID-19 fake news, there are common language patterns in these two datasets. Moreover, the amount of information in reliable news is more than fake news based on two measures of entropy and surprise. Based on the results, the readability level of the fake news is measured based on the readability formulas. According to the results, the text of fake news is simpler than real news. In the process of automatic labeling of reliable and fake news based on the level of difficulty, most news is recognized as simple texts. The results show that fake news is mostly simple and not difficult compared to reliable news. In addition to this achievement, to study linguistic properties of fake news statistically based on the information amount and readability, the applicablity of this statistical information was studied to detect fake news using machine learning methods.
    Keywords: Media Language, Persian fake news, COVID-19, information theory, Entropy, surprisal, Readability
  • مسعود قیومی*
    بیماری همه گیر کرونا موجب تغییراتی در سبک زندگی روزمره، مانند کاهش مراودات اجتماعی و ایجاد فاصله گذاری اجتماعی، شده است. در این پژوهش، دو هدف را پیگیری کرده ایم. هدف نخست تحلیل الگوریتمی نظرات و پیام‎های مرتبط با کرونا به زبان فارسی است که توسط افراد مختلف، در دو رسانه اجتماعی توییتر و اینستاگرام، منتشر می شود. برای این هدف، با استفاده از مدل سازی موضوعی، به عنوان یک شیوه تحلیل محتوایی داده، داده ها را به موضوعات انتزاعی خوشه بندی کرده ایم. هدف دیگر، یافتن رابطه همبستگی بین موضوعات در نظرات و هشتگ های به کاررفته در نظرات است. برای تحقق این هدف، با گردآوری نظرات و پیام‎های خزش شده مربوط به کرونا از این دو رسانه، یک پیکره زبانی تهیه شده است. از تحلیل محتوایی نظرات این پیکره، 24 موضوع انتزاعی به دست آمد که به‎صورت دستی برچسب‏گذاری شد تا این موضوع‏ها هویت پیدا کنند. با بررسی داده های این پیکره و آمار به دست آمده از پردازش موضوعی آن ها، می توان گمانه زنی کرد که حدود 25٪ از نظرات این پیکره بر دو موضوع «سیاسی» و «اجتماعی» متمرکز است. 10 موضوع دانه ریز این پیکره، یعنی 35٪ از حجم نظرات، به خود ویروس کرونا و ماهیت همه‎گیری آن مربوط است که بیانگر اهمیت توجه به رسانه های اجتماعی برای آگاه سازی و نشر اطلاعات است. علاوه برآن، فرضیه وجود رابطه بین هشتگ ها و موضوع ها، با استفاده از ضریب همبستگی پیرسون، از نظر آماری مورد بررسی قرار گرفت. برای 20 موضوع، همبستگی بالا بین موضوع و تعدادی از هشتگ ها یافت شد؛ ولی برای 4 موضوع این همبستگی یافت نشد. از این پژوهش می توان برای افزایش انسجام درونی متن و پیش بینی پذیری هشتگ ها استفاده کرد.
    کلید واژگان: رسانه های اجتماعی، ویروس کرونا، کووید 19، هشتگ، مدل سازی موضوع، تحلیل محتوایی
    Masood Ghayoomi *
    Coronavirus pandemic caused changes in the daily lifestyle, such as reducing social interactions and creating social distancing. In this research, we pursue two goals. One is algorithmic content analysis of comments/posts in Persian related to the Coronavirus on two social media, namely Tweeter and Instagram. To this end, topic modeling is used as a method for content analysis to cluster the data into abstract topics. The other goal is finding the correlation between topics and hashtags in the comments/posts. To this end, we developed a corpus from these two social media. We found 24 abstract topics by algorithmic content analysis of this corpus and they were manually labeled to be comprehensive. According to the corpus and the statistical information of the extracted topics, it can be speculated that about 25% of the comments/posts in this corpus focused on political and social issues of the virus. 10 fine-grained topics which contained 35% of the comments were related to the Coronavirus itself and its pandemic property. This indicates the importance of the attention that has been paid to social media for informing and disseminating information. Furthermore, the hypothesis of existing correlation between topics and hashtags was studied from statistical point of view by using the Pearson correlation coefficient. For 20 topics, a high correlation score between topics and hashtags was found; but this correlation was not found for 4 topics. The outcome of this research can be used to increase the internal coherence of a text and to make the hashtags predictable.
    Keywords: Social Media, Coronavirus, COVID-19, Hashtag, Topic Modeling, content analysis
  • فاطمه نایب لوئی*، سید مصطفی عاصی، آزیتا افراشی، مسعود قیومی
    تمایزات واژگانی میان زبان ها، بیانگر تفاوت در فرهنگ های مرتبط با هر زبان است. واژه های چندمعنا در هر فرهنگ، می تواند نمودی از این قبیل تمایزات واژگانی در یک زبان باشد. در معناشناسی شناختی، رویکردهای مختلفی به پدیده چندمعنایی در زبان وجود دارد؛ نظریه معناشناسی قالبی یکی از این رویکردها در معناشناسی شناختی است که به مسیله چندمعنایی، از منظر قالب های معنایی نگریسته است. صورت تکامل یافته این نظریه، در شبکه معنایی فریم نت، تحقق پیدا کرده است. قالب های معنایی بسته هایی معنایی هستند و هرکدام از قالب ها از برخی مولفه های معنایی تشکیل شده اند. روابط معنایی در این شبکه، به صورت روابط میان قالبی ارایه شده است. در این مقاله، سعی بر آن است تا تحلیلی معنایی و پیکره بنیاد از چندمعنایی افعال «شنیدن» و «گوش دادن» در زبان فارسی، بر مبنای اصول شبکه فریم نت در زبان انگلیسی، ارایه شود. براین اساس، دو کلیدواژه مذکور، در پیکره های موجود در پایگاه داده زبان فارسی، بررسی شدند و از میان مفاهیم موجود در جملات شاهد، هفت قالب معنایی «حس فعال»، «ادراک حسی»، «جستجو»، «آگاهی»، «فهمیدن»، «اطاعت» و «توجه» و سه رابطه میان قالبی «توارث» میان قالب والد «ادراک» و فرزند «حس فعال» و قالب والد «ادراک» و فرزند «ادراک حسی» و قالب والد «آگاهی» و فرزند «فهمیدن»، یک رابطه میان قالبی «کاربرد» میان قالب والد «توجه» و فرزند «حس فعال» و یک رابطه میان قالبی «بیشتر» میان قالب های «حس فعال» و «ادراک حسی» استخراج شد. نتایج تحلیل های انجام شده نشان می دهد که رویکرد حاضر به پدیده چندمعنایی، رویکردی کارآمد برای بررسی چندمعنایی افعال «شنیدن» و «گوش دادن» در زبان فارسی است.
    کلید واژگان: افعال «شنیدن» و «گوش دادن»، پیکره، معناشناسی شناختی، شبکه معنایی فریم نت، نظریه معناشناسی قالبی
    Fateme Nayeblui *, Mostafa Assi, Azita Afrashi, Masood Ghayoomi
    Vocabulary differences between languages indicate differences in the cultures associated with each language. Polysemous words in any culture can be an expression of such lexical differences in a language. In cognitive semantics, there are different approaches to the polysemous phenomenon in language; The theory of Frame semantics is one of these approaches in cognitive semantics that has looked at the issue of polysemy from the perspective of semantic frames. The revised form of this theory has been realized in FrameNet . Semantic frames are semantic packages and each frame is composed of semantic components called frame elements. Semantic relationships in this network are presented as relationships between semantic frames. In this article, an attempt is made to provide a semantic and corpus-based analysis of the polysemy of the conceptual domain of the verb "Listening" in Persian based on the principles of the FrameNet network in English. Accordingly, the keywords "šeno", " šenid" and "guš" have been studied in the Persian database . Among the concepts found in sentences extracted from the corpus, six semantic frames of Perception_active, Perception_experience, Awareness, Compliance, Seeking and Attention and two "inheritance" Frame to frame relations between "Perception-Active" and "Perception-Experience" Frames and "use" Frame to frame relations between "Attention" and Perception-Active" Frames were extracted. The results of the analysis show that the current approach to the phenomenon of polysemy is an efficient approach to study the meaning of the verb "Listening" in Persian and can provide a picture of Persian language culture in this conceptual area.
    Keywords: cognitive semantics, corpus, English FrameNet, hearing, listening, Theory of Frame Semantics
  • Masood Ghayoomi *

    This paper provides a comparative analysis of cross-lingual word embedding by studying the impact of different variables on the quality of the embedding models within the distributional semantics framework. Distributional semantics is a method for the semantic representation of words, phrases, sentences, and documents. This method aims at capturing as much information as possible from the contextual information in a vector space. The early study in this domain focused on monolingual word embedding. Further progress used cross-lingual data to capture the contextual semantic information across different languages. The main contribution of this research is to make a comparative study to find out the superior impact of the learning methods, supervised and unsupervised in training and post-training approaches in different embedding algorithms, to capture semantic properties of the words in cross-lingual embedding models to be applicable in tasks that deal with multi-languages, such as question retrieval. To this end, we study the cross-lingual embedding models created by BilBOWA, VecMap, and MUSE embedding algorithms along with the variables that impact the embedding models' quality, namely the size of the training data and the window size of the local context. In our study, we use the unsupervised monolingual Word2Vec embedding model as the baseline and evaluate the quality of embeddings on three data sets: Google analogy, mono- and cross-lingual words similar lists. We further investigated the impact of the embedding models in the question retrieval task.

    Keywords: Semantic Word Representation, Cross-lingual Context, Vector Space Model, distributional semantics
  • مسعود قیومی

    از زمان پیدایش اینترنت تاکنون، با حجم زیادی از داده هایی مواجه هستیم که در این بستر قرار گرفته است. این امر سبب شده است تا شیوه مطالعه داده ها و بررسی سیر تحول آنها از روش دستی به خودکار تغییر کند. هدف از انجام این پژوهش، استخراج موضوعات مطرح شده در مقالات رشته زبان شناسی و روندشناسی تحول موضوعات در طول زمان با کمک الگوریتم مدل سازی موضوعی است. برای این هدف از الگوریتم تخصیص پنهان دیریشله استفاده می شود. پیکره این پژوهش ازطریق خزش به دست آمده و پس از پالایش و پیش پردازش داده ها، تعداد 5، 10 و 15 موضوع از مقالات استخراج شده و براساس واژه های هر موضوع به صورت دستی برچسب گذاری شده است. توزیع مقالات از سال 1306 تا 1399 سبب شد تا این مدت به 5 مقطع زمانی تقسیم و موضوعات مربوط به هر برش زمانی پس از فرایند برچسب گذاری مشخص شود. رشد و افول موضوعات استخراج شده از مقالات در پردازش های با تعداد 5، 10 و 15 موضوع در بازه های زمانی قابل مشاهده است. دستاورد کاربردی این پژوهش سیاست گذاری در حوزه علم است که علاوه بر مطرح کردن یک روش شناسی فناورانه کاربردی در پژوهش، می توان موضوعات داغ میان پژوهشگران یک رشته علمی را مشخص کرد و خلاهای موضوعات پژوهشی را یافت و بر متنوع سازی و متوازن سازی موضوعات پژوهشی اهتمام ورزید.

    کلید واژگان: تکوین، پردازش زبان طبیعی، مدل سازی موضوع، زبان شناسی پیکره ای، مقاله علمی، تحلیل محتوایی
    Masood Ghayoomi

    Since the advent of the Internet, we have come across a large amount of data that has been placed on this platform. This has caused the way data is studied and examined to evolve from manual to automatic. This research aims to extract the topics raised in articles in the field of language and linguistics and to study the evolution of topics over time with the help of the topic modeling algorithm. To this end, the Latent Dirichlet allocation algorithm is used. The corpus of this research was developed through crawling; and after filtering and pre-processing of the data, the number of 5, 10 and 15 topics are extracted from the articles; and based on the words of each topic, they are manually labeled. Due to the distribution of articles from 1927 to 2020 (1306 to 1399 according to the solar calendar), the time is divided into 5 time span and the topics related to each time span is identified after the labeling process. Among the 5 extracted topics, including Education, Discourse Analysis, Psychology, Syntax and Dialectology, all topics, except Discourse Analysis, are progressively studied over time. The growth and decline of the topics extracted from the articles can be seen in 10 and 15 topics. The practical achievement of this research is policy-making in the field of science. In addition to introducing a practical, technological methodology in do research, it is possible to identify hot topics among researchers in a scientific field and to find the gaps in research topics and to try to diversify and balance research topics.

    Keywords: Evolution, Topic Modeling, corpus linguistics, Scientific Article, Content analysis
  • مسعود قیومی*، مریم موسویان

    از دهه 1380 شمسی، نگارش و انتشار مقالات علمی در ایران شدت بسیار زیادی به خود گرفته‎ و سبب شده است علاوه بر سازمان‎های دولتی مانند ایرانداک و سازمان اسناد و کتابخانه ملی جمهوری اسلامی ایران، سامانه های برخط متعدد دیگری چون پرتال جامع علوم انسانی، نورمگز، مگ ایران، علم نت، سیویلیکا و غیره اقدام به مدیریت دانش و تهیه بایگانی های ساختارمند مستندات علمی کند. هرکدام از این بایگانی ها، امکاناتی را در اختیار کاربر قرار می دهد. یکی از این امکانات، قابلیت جستجو است و جستجوی دقیق می تواند بر کاربری این سامانه ها تاثیر به سزایی بگذارد. برای افزایش دقت جستجو نیاز است حوزه علمی مقالات مشخص شود. دسته بندی حجم زیاد منابع علمی در حوزه های مختلف بسیار زمانبر است که استفاده از روش های ماشینی به عنوان یک راه حل می‎تواند از این کار طاقت فرسا بکاهد.هدف اصلی این مقاله، ارایه یک مدل دسته بندی برای تعیین حوزه مقالات علمی است. اگرچه در پژوهش های پیشین دسته بندی به طور عمده از الگوریتم های دسته بندی متداول برای متن ساده به کار رفته است، در این پژوهش تلاش می شود علاوه بر استفاده از این دسته بندها، از دسته بندهای مبتنی بر شبکه عصبی، مانند شبکه عصبی پیچشی[1] و پرسپترون[2]، به همراه بازنمایی معنایی مبتنی بر بافت، مانند ParsBERT، استفاده گردد و نتایج آن با سایر روش های متداول در ساخت بردار مستندات، مانند Word2Vec، مقایسه گردد. برای این هدف، از داده های پرتال علوم انسانی که دربرگیرنده مقالات متنوع علوم انسانی استفاده می کنیم. ویژگی این داده مشخص بودن حوزه تخصصی هر مقاله است. یکی از ویژگی های شبکه عصبی این است که برایندی از ویژگی های نهفته از داده در فضای برداری ساخته شده شکل می گیرد و برای آموزش مدل استفاده می گردد. براساس نتایج عملی، دسته بند پرسپترون مبتنی بر ParsBERT بالاترین کارایی 74/71 درصدی براساس امتیاز F میکرو و کارایی 72/55 درصدی براساس امتیاز F ماکرو را به دست آورده است.

    کلید واژگان: مستندات علمی، علوم انسانی، دسته‎بندی، شبکه عصبی، فضای برداری، ParsBERT، معناشناسی توزیعی
    Masood Ghayoomi*, Maryam Mousavian

    Since 2001s (1380s according to the Iran’s solar calendar), the increasing rate of writing and publishing scientific articles in Iran has become very intense. This caused in addition to the governmental organizations, such as Irandoc & the National Library and Archives of the Islamic Republic of Iran, numerous other online systems, such as the General Portal of Humanities, Noormags, Magiran, Elmnet, Civilica, etc, to manage knowledge and to provide structured archives of the scientific documents. Each of these archives provides facilities to the user. One of these facilities is searching on the documents. An accurate search can greatly improve the usage of these online systems. To increase the accuracy of the search result, it is necessary to determine the scientific field of articles. Classifying large volumes of scientific resources in different fields is very time-consuming. Using machinery methods can be a solution to reduce the severity of the task.The main contribution of this paper is to provide a classification model to classify Persian scientific articles. Although in previous studies, the classification task has been mainly used for simple texts, in this study, the neural network-based classification models, such as convolutional and perceptron neural networks, are used with the contextualized semantic representation, such as ParsBERT; and the results are compared with the other common method utilized for vectorization, namely Word2Vec. To this end, we use the data from the General Portal of Humanities, which includes various articles in the Humanities and each article contains the label of the field. One of the neural network characteristics is that a set of hidden features from the data in the vector space is created and used to train the model. According to the experimental results, the Perceptron classifier that utilized ParsBERT representation obtained the highest performance which is 74.71% based on the Micro F-score, and 72.55% based on the Macro F-score.

    Keywords: scientific publications, humanities, classification, neural network, vector space, BERT
  • لیلا رحمتی نژاد، مصطفی عاصی*، علیرضا قلی فامیان، مسعود قیومی

    «نظریه قالبی فیلمور» (1982) بیان گر اصلی مهم در معناشناسی شناختی است که معتقد است معانی واژه ها درون نظامی از دانش درک می شوند که ریشه در تجربه اجتماعی و فرهنگی انسان دارد. در این نظریه «قالب های معنایی» نمایانگر بخش های یک رویداد هستند که برای اتصال گروهی از کلمات به مجموعه ای از معانی به کار می روند. از طرفی، در یک رویداد، افعال نقش مهمی در تفسیر معنا ایفا می کنند و در اکثر موقعیت های آن حضور دارند. هدف پژوهش حاضر بررسی موردی فعل «شدن» در چارچوب نظریه مذکور بوده است تا از طریق تحلیل پیکره بنیاد و توصیفی به شناسایی این فعل و تعیین حوزه ها و قالب های معنایی آن پرداخته شود. نتیجتا، با استفاده از فرهنگ ها و پیکره های معاصر فارسی و نیز نگاشت با پایگاه فریم نت 14 قالب معنایی «شدن» شناسایی شد. همچنین، مفهوم «تغییر حالت دادن» به عنوان معنای اصلی این فعل تعیین و قالب اصلی آن ایجاد گردید.

    کلید واژگان: معناشناسی شناختی، نظریه معناشناسی قالبی فیلمور، فریم نت، قالب معنایی، چندمعنایی، سرنمون
    Leila Rahmatinejad, Mostafa Assi *, Alireza Gholi Famian, Masood Ghayoomi

    Fillmore's “Frame theory” (1982) suggests a major principle in Cognitive Semantics that believes the meanings of words are perceived within a system of knowledge arising from the human's cultural experience. It maintains that “Semantic Frames” display sections of an event used for connecting a group of words to a set of meanings. Verbs are present as the most important element in most of the situations of an event and play significant role in the interpretation of the meaning. The purpose of this study is to present a quantitative and corpus-based analysis in order to recognize the semantic frames of “∫odæn” (to become) in Persian within the framework of this theory. Thus, 14 semantic frames were recognized using encyclopedias, Persian contemporary corpora and FrameNet. Then, the concept of “tæɁɢir-e hαlæt dαdæn” (to turn to a state) was determined as the prototype of this verb and the main frame was created.

    Keywords: cognitive semantics, Frame Semantics theory, FrameNet, Semantic Frame, polysemy, prototype
  • مسعود قیومی*

    یکی از زیرحوزه های ارزیابی مهارت زبانی، پیش بینی سطح مهارت زبانی است. هدف این پژوهش ارایه یک مدل زبان شناسی رایانشی برای پیش بینی سطح مهارت زبانی و بیان ویژگی های کلی سطوح زبانی است. برای این هدف، حجمی از داده های کتاب های آموزش زبان فارسی به غیرفارسی زبانان را به عنوان یک پیکره زبانی گردآوری می کنیم و اطلاعات آماری و ویژگی های زبان شناختی را از این پیکره برای آموزش سه دسته بند به عنوان یادگیرنده استخراج می کنیم. عملکرد مدل ها باتوجه به الگوریتم یادگیرنده و مجموعه ویژگی هایی که برای آموزش مدل ها به کار رفته است متفاوت است. برای ارزیابی مدل، از معیارهای ارزیابی استاندارد صحت، دقت فراخوانی و امتیاز F استفاده شده است.براساس نتایج به دست آمده، مدل ساخته شده توسط دسته بند «جنگل تصادفی» بهترین کارایی را زمانی به دست آورده است که اطلاعات آماری را از داده خام استخراج کرده است. دسته بند «ماشین بردار پشتیبان» بهترین عملکرد را با استفاده از ویژگی های زبان شناختی پیکره که به صورت خودکار نشانه گذاری شده است به دست آورده است. این نتیجه بیانگر این است که غنی سازی مدل و فراهم آوری اطلاعات متنوع تضمینی برای عملکرد بهتر دسته بند (یادگیرنده) نخواهد بود.برای کشف روش شناختی مخفی به کاربرده ‍شده در شیوه آموزش کتاب های آموزشی، عملکرد کلی دسته بندها را براساس سطح زبانی و دانش زبان شناختی به کاررفته برای ساخت مدل مورد بررسی قرار می دهیم. براساس نتایج به دست آمده، تعداد ویژگی های استخراج شده نقش به سزایی در طول مرحله یادگیری دسته بند را دارد. همچنین، بهترین میانگین عملکرد دسته بندها با گسترش دانش زبان شناسی از الگوهای نحوی در سطح A به دانش کلی زبان شناسی در سطوح B و C قابل گسترش است.

    کلید واژگان: یادگیری ماشینی، دسته بندی، ویژگی، مدل شناختی رایانشی، فارسی آموز
    Masood Ghayoomi *

    One subfield of assessment of language proficiency is predicting language proficiency level.This research aims at proposing a computational linguistic model to predict language proficiency level and to explore the general properties of the levels. To this end, we collect the data from Persian learners' textbooks and extract statistical and linguistic features from this text corpus to train 3 classifiers as learners. The performance of the model varies based on the learning algorithm and the feature set(s) used for training the model. For evaluating the models, four standard metrics, namely accuracy, precision, recall, and F-measure are used. Based on the results, the model created by the Random Forest classifier performed the best when statistical features extracted from raw text is used. The Support Vector Machine classifier performed the best by using linguistic features extracted from the corpus annotated automatically. This determines that enriching the model and providing various kinds of information do not guarantee that a classifier (learner) performs the best.To discover the latent teaching methodology of the textbooks, we studied the general performance of the classifiers with respect to the language level and the linguistic knowledge used for creating the model. Based on the obtained results, the amount of extracted features plays an important role during to training a classifier. Furthermore, the average best performance of the classifiers is extending the linguistic knowledge from syntactic patterns at level A to all linguistic information at levels B and C.

    Keywords: Machine Learning, Classification, Feature, Computational Cognitive Model, Persian Learner
  • Masood Ghayoomi*

    Words in the natural language have forms and meanings, and there might not always be a one-to-one match between them. This property of the language causes words to have more than one meaning; as a result, a text processing system faces challenges to determine the precise meaning of the target word in a sentence. Using lexical resources or lexical databases, such as WordNet, might be a help, but due to their manual development, they become outdated by passage of time and language change. Moreover, the lexical resources might be domain dependent which are unusable for open domain natural language processing tasks. These drawbacks are a strong motivation to use unsupervised machine learning approaches to induce word senses from the natural data. To reach the goal, the clustering approach can be utilized such that each cluster resembles a sense. In this paper, we study the performance of a word sense induction model by using three variables: a) the target language: in our experiments, we run the induction process on Persian and English; b) the type of the clustering algorithm: both parametric clustering algorithms, including hierarchical and partitioning, and non-parametric clustering algorithms, including probabilistic and density-based, are utilized to induce senses; c) the context of the target words to capture the information in vectors created for clustering: for the input of the clustering algorithms, the vectors are created either based on the whole sentence in which the target word is located; or based on the limited surrounding words of the target word. We evaluate the clustering performance externally. Moreover, we introduce a normalized, joint evaluation metric to compare the models. The experimental results for both Persian and English test data showed that the windowbased partitioningK-means algorithm obtained the best performance.

    Keywords: Corpus Linguistics, Word Sense Induction, Clustering, Word Embedding, Sense Embedding, ParametricClustering, Non-parametric Clustering, Joint Evaluation Metric
  • فرزانه گشتاسب*، مسعود قیومی، نادیا حاجی پور ارطرانی

    رویکرد نوین در مطالعات زبان ‎شناختی یا یک پدیده زبانی بر اصل وجود مجموعه ای از داده های زبانی گردآوری شده نهادینه شده ‎است؛ بنابراین به تهیه یک پیکره زبانی نیاز  است که از تولیدات واقعی گویشوران و نه براساس شم زبانی فردی گردآوری شده‎است. این شیوه پژوهشی برای بررسی داده‎ های زبانی تاریخی که جزء زبان های مرده است و اکنون هیچگونه گویشوری ندارد از اهمیت به‎ سزایی برخوردار است. هدف از انجام این پژوهش، تهیه پیکره زبان پهلوی ساسانی (فارسی میانه) و ساماندهی آن در یک پایگاه است. برای هر واژه، شش لایه اطلاعاتی، اعم از حرف‏ نویسی متن پهلوی، آوانویسی واژه ها به همراه ترجمه فارسی آنها، تعیین مقوله دستوری دانه‎ریز واژه ها، بن واژه سازی واژه ها و تعیین هزوارش بودن آنها، تعریف شده‎ است. برای مقوله دستوری دانه‎ ریز واژه‎ ها، مجموعه برچسب مقولات دستوری فارسی معاصر تهیه‎ شده توسط بی‎جن‎خان و همکاران (2011) و ساختارمندشده توسط قیومی (2014) باتوجه‏ به نیازهای زبان پهلوی جرح و تعدیل شده است و از مجموعه جدید برای برچسب‎ گذاری واژه‎ های پهلوی استفاده شده است. پس ‎از نشانه گذاری واژه‎ها و ساماندهی اطلاعات، امکان استخراج اطلاعات آماری وجود دارد که می‎تواند بینش عمیق‎تری از محتوای متن منتقل نماید. ازاین رو، اطلاعات آماری از پیکره به دست آمده استخراج شده و توضیح داده می شود تا دورنمای کلی نسبت به منابع تشکیل دهنده این پیکره به دست آید.

    کلید واژگان: زبان پهلوی، زبان شناسی پیکره‎ای، پایگاه داده، نشانه‎گذاری داده
    Farzaneh Goshtasb *, Masood Ghayoomi, Nadia Hajipour Artarani

    Recent attitude towards studying a language and a linguistic phenomenon is based upon the existence of a collection of data; therefore it is required to develop a linguistic corpus that is naturally occurred and it is not collected from the one’s intuition. This research methodology is highly important to study linguistic historical data, which is dead and has no speaker.The current research puts an effort to develop a linguistic corpus of middle Persian and to organize the data in a data-base. To this end, six information levels are determined in the annotation process, including transliteration of the Pahlavi texts, transcription of the words along with their Persian translation, defining fine-grained syntactic category of the words, lemmatizing the words, and identifying whether the word is huzwāreš or not. To define fine-grained syntactic categories, the tag set for contemporary Persian developed by Bijankhan et al (2011) and organized by Ghayoomi (2004) are modified and adapted to the Pahlavi language according to the requirements. The new tag set is used to label Pahlavi words. After annotating words and organizing the information, extracting the statistical information is possible to deepen the insight over the text’s content.

    Keywords: the Middle Persian language, the Pahlavi texts, corpus linguistics, database, annotation
  • مسعود قیومی*
    دستور وابستگی یکی‎از دستورهای صورتگرا است که براساس وابستگی بین عناصر واژگانی یک جمله بنا نهاده شده‎است. این وابستگی‎ها مبتنی‎بر ظرفیت واژگان است؛ بنابراین، بازنمایی معنایی واژه‎ها در چارچوب ظرفیت ستون فقرات این دستور است. مقاله حاضر براساس سه راس مطالب، به بررسی و نقد کتاب «دستور زبان فارسی براساس نظریه گروه های خودگردان در دستور وابستگی» می پردازد. ابتدا مروری مختصر بر فصل های کتاب ارایه می گردد. سپس به تحلیل و ارزیابی اثر پرداخته شده و نقاط ضعف و قوت کتاب از زوایای مختلف بررسی می شود. در این بخش از نظر اصطلاح شناسی و بیان مفاهیم نکاتی مطرح می گردد. ازآنجاکه دستور وابستگی جزء دستورهای زایشی نیست مقایسه ای بین دستور وابستگی و ساخت سازه‎ای انجام شده است تا درک محتوا برای خواننده ای که پیش زمینه دستور زایشی دارد آسان گردد و از تشویش ذهن وی در مورد برخی مفاهیم پایه‎ای بکاهد. در انتها درمورد چگونگی توسعه دستور وابستگی در این کتاب، نکات و پیشنهاداتی ارایه می گردد.
    کلید واژگان: دستور صورتگرا، دستور وابستگی، زبان فارسی، نظریه خودگردان، امید طبیب زاده
    Masood Ghayoomi *
    The dependency grammar is one of the grammar formalisms that is originated according to the dependency relations of lexical elements in a sentence. This dependency is based on the valence of the lexicon; therefore, in this formalism the semantic representation of the words as valence is the backbone of the grammar. The current paper reviews the book entitled “Persian Grammar based on the Autonomous Theory in Dependency Grammar” according to three major contents. Firstly, the chapters of the book are briefly overviewed. Then, the book’s content is evaluated and analyzed and the weak and strong points of the book are studied from different perspectives. In this section, some suggestions are provided for the terminology and expressed concepts. Since dependency grammar does not belong to generative grammar, a comparison is made between the dependency and phrase structure grammar formalisms to understand the content better and to ease the mind of the reader with the generative grammar background about the basic concepts of the dependency grammar. At the end, suggestions are provided to extend the dependency grammar in the book.
    Keywords: Grammar Formalism, Dependency Grammar, Persian language, Autonomous Theory, Omid Tabibzadeh
  • Hourieh Ahadi *, Reza Nadarkhani, Masood Ghayoomi
    Introduction

    Reading is undoubtedly one of the most valuable skills of human beings. This complex behavior is composed of several distinct skills. Different theories about reading methods have been proposed and many researchers believe that reading methods varies in languages because of the different transparency in their orthography, so the purpose of this study is to investigate the Persian word reading pattern in children with dyslexia and normal children and compare their abilities.

    Materials and Methods

    For conducting this cross-sectional study, after issuing required permits, the elementary school children with dyslexia were identified by referring to learning disorders schools in Tehran City, Iran. After evaluating and diagnosing by the psychologist and speech therapist, 16 students with dyslexia were found. Then 32 normal age-matched students of Tehran’s public schools were randomly selected from the available population as the control group. The reading and phonological awareness tests were then performed in different sessions. The results of the tests were recorded and the data were analyzed by the Mann-Whitney and Spearman tests in SPSS version 20.

    Results

    There was a significant difference between children with dyslexia and their age-matched normal group in reading skills and phonological awareness (P<0.05). In both groups, the mean percentage in reading irregular words was higher than the mean percentage of non-word reading. There is a significant correlation between reading speed and reading irregular words in both groups, and also between reading accuracy and reading non-words (P<0.05). There was a significant correlation between the reading speed and reading non-words in the group with dyslexia (P<0.05). But in normal children, there is no significant correlation between these tasks. This difference shows the problem of children with dyslexia pertains to reading non-words.

    Conclusion

    Based on the results of the present study, in children with dyslexia, there is a problem with reading non-words, and the dual-route of word reading has changed to only the whole word reading route. So it is important to consider phonological awareness skills training in children with dyslexia.

    Keywords: Dyslexia, Persian-speakingchildren, Reading skills, Reading patterns
  • Masood Ghayoomi*

    Word Sense Induction (WSI) aims at inducing word senses from data without using a prior knowledge. Utilizing no labeled data motivated researchers to use clustering techniques for this task. There exist two types of clustering algorithm: parametric or non-parametric. Although non-parametric clustering algorithms are more suitable for inducing word senses, their shortcomings make them useless. Meanwhile, parametric clustering algorithms show competitive results, but they suffer from a major problem that is requiring to set a predefined fixed number of clusters in advance.
    Word Sense Induction (WSI) aims at inducing word senses from data without using a prior knowledge. Utilizing no labeled data motivated researchers to use clustering techniques for this task. There exist two types of clustering algorithm: parametric or non-parametric. Although non-parametric clustering algorithms are more suitable for inducing word senses, their shortcomings make them useless. Meanwhile, parametric clustering algorithms show competitive results, but they suffer from a major problem that is requiring to set a predefined fixed number of clusters in advance.
    The main contribution of this paper is to show that utilizing the silhouette score normally used as an internal evaluation metric to measure the clusters’ density in a parametric clustering algorithm, such as K-means, in the WSI task captures words’ senses better than the state-of-the-art models. To this end, word embedding approach is utilized to represent words’ contextual information as vectors. To capture the context in the vectors, we propose two modes of experiments: either using the whole sentence, or limited number of surrounding words in the local context of the target word to build the vectors. The experimental results based on V-measure evaluation metric show that the two modes of our proposed model beat the state-of-the-art models by 4.48% and 5.39% improvement. Moreover, the average number of clusters and the maximum number of clusters in the outputs of our proposed models are relatively equal to the gold data

    Keywords: Word Sense Induction, Word Embedding, Clustering, Silhouette Score, Unsupervised Machine Learning, Distributional Semantic, Density
  • محمدباقر صادق زاده*، محمدرضا رزازی، مسعود قیومی

    عدم دقت در طراحی دستورهای مستقل از متن و استفاده از ساختارهای نامناسب مانند فرم نرمال چامسکی به خودی خود می تواند عملکرد تجزیه ‍ گرهای آماری مستقل از متن را تضعیف کند. در این پژوهش ساختار ترکیبات عطفی درخت بانک فارسی را مورد بررسی قرار دادیم. نتایج حاصل از این پژوهش نشان می دهد که با اضافه کردن وابستگی های ساختاری به دستورهای مستقل از متن و اصلاح قواعد اولیه، می توان از ترکیبات عطفی رفع ابهام کرد و صحت عملکرد تجزیه گر دستور مستقل از متن آماری را افزایش داد. فرض استقلال ضعیف، یکی از مشکلات مربوط به دستورهای مستقل از متن است که سعی شده است تا با تزریق وابستگی های ساختاری از طریق نشانه گذاری گره های والد و فرزند مرتفع شود. تاثیر ریزدانگی و درشت دانگی برچسب های اجزای واژگانی کلام و همین طور ادغام ناپایانه ها بر تجزیه گر دستور مستقل از متن آماری فارسی از جمله موارد مورد بررسی قرار گرفته شده در این پژوهش است.

    کلید واژگان: دستور مستقل از متن آماری، تجزیه گر، ترکیبات عطفی، نشانه گذاری قواعد، برچسب اجزای واژگانی کلام
    Mohammadbagher Sadeghzadeh*, Mohammadreza Razzazi, Masood Ghayoomi

    In linguistics, a tree bank is a parsed text corpus that annotates syntactic or semantic sentence structure. The exploitation of tree bank data has been important ever since the first large-scale tree bank, The Penn Treebank, was published. However, although originating in computational linguistics, the value of tree bank is becoming more widely appreciated in linguistics research as a whole. For example, annotated tree bank data has been crucial in syntactic research to test linguistic theories of sentence structure against large quantities of naturally occurring examples. The natural language parser consists of two basic parts, POS tagger and the syntax parser. A Part-Of-Speech Tagger (POS Tagger) is a piece of software that reads text in some languages and assigns parts of speech to each word (and other token), such as noun, verb, adjective, etc., although generally computational applications use more fine-grained POS tags like 'noun-plural'. A natural language parser is a program that works out the grammatical structure of sentences, for instance, which groups of words go together (as "phrases") and which words are the subject or object of a verb. Probabilistic parsers use knowledge of language gained from hand-parsed sentences to try to produce the most likely analysis of new sentences. These statistical parsers still make some mistakes, but commonly work rather well. Inaccurate design of context-free grammars and using bad structures such as Chomsky normal form can reduce accuracy of probabilistic context-free grammar parser. Weak independence assumption is one of the problems related to CFG. We have tried to improve this problem with parent and child annotation, which copies the label of a parent node onto the labels of its children, and it can improve the performance of a PCFG. In grammar, a conjunction (conj) is a part of speech that connects words, phrases, or clauses that are called the conjuncts of the conjunctions. In this study, we examined the conjunction phrases in the Persian tree bank. The results of this study show that adding structural dependencies to grammars and modifying the basic rules can remove conjunction ambiguity and increase accuracy of probabilistic context-free grammar parser. When a part-of-speech (PoS) tagger assigns word class labels to tokens, it has to select from a set of possible labels whose size usually ranges from fifty to several hundred labels depending on the language. In this study, we have investigated the effect of fine and coarse grain POS tags and merging non-terminals on Persian PCFG parser.

    Keywords: Probabilistic context free grammar, parser, tree bank, conjunction phrases, parent annotation, child annotation, part of speech tags
  • مسعود قیومی*

    واژه کوچکترین واحد زبان است که دارای «صورت» و «معنا» است. واژه ممکن است بیش از یک معنا داشته باشد که باتوجه به کاربرد واژه در بافت زبانی، معنی دقیق آن مشخص می شود. گردآوری تمام معانی یک واژه به صورت دستی کار بسیار پرزحمت و زمان بر است. افزون بر آن، ممکن است معانی واژه با گذشت زمان دچار تغییر شود به این صورت که معانی موجود واژه کم کاربرد شود یا معانی جدید به آن اضافه شود. یکی از روش هایی که می توان برای تعیین معنای واژه استفاده کرد به کارگیری روش های رایانشی برای تعیین معنای واژه باتوجه به بافت زبانی است.در پژوهش حاضر تلاش می شود با ارائه یک الگوریتم محاسباتی، معانی واژه های هم‎نگاره فارسی باتوجه‏به بافت زبانی به صورت خودکار و بدون نیاز به ناظر انسانی تعیین شود. برای رسیدن به این هدف، از روش تعبیه معنای واژه در یک مدل فضای برداری استفاده می گردد. برای ساخت بردار واژه، از یک رویکرد مبتنی بر شبکه عصبی استفاده می شود تا اطلاعات بافت جمله به خوبی در بردار واژه گنجانده شود. در گام بعدی مدل پیشنهادی، برای ساخت بردار متن و تعیین معنای واژه، دو حالت جمله بنیان و بافت بنیان معرفی می شود. در حالت جمله بنیان، تمام واژه های جمله ای که واژه هدف در آن وجود دارد در ساخت بردار نقش دارد؛ ولی در حالت بافت بنیان فقط تعداد محدودی از واژه های اطراف واژه هدف برای ساخت بردار در نظر گرفته می شود. دو نوع شیوه ارزیابی درونی و برونی برای ارزیابی کارایی الگوریتم خوشه بندی به کار گرفته می شود. معیار ارزیابی درونی که محاسبه مقدار تراکم داده در هر خوشه است برای دو حالت جمله بنیان و بافت بنیان محاسبه می گردد. ارزیابی برونی به داده استاندارد طلایی نیاز دارد که برای این هدف، یک مجموعه داده شامل 20 واژه هدف فارسی و تعداد 100 جمله نشانه گذاری شده برای هر یک از این واژه ها تهیه شده است. براساس نتایج به دست آمده از ارزیابی درونی، تراکم خوشه ای حالت جمله بنیان با تفاوت معناداری بالاتر از حالت بافت بنیان است. با درنظرگرفتن دو شاخص V و F در ارزیابی برونی، مدل بافت بنیان به‎صورت معنادار کارایی بالاتری را نسبت به جمله ‏بنیان و مدل‏های پایه به دست آورده است.

    کلید واژگان: تعبیه معنایی واژه، خوشه بندی، یادگیری ماشین بی نظارت، فضای برداری، پردازش زبان طبیعی، بازنمایی معنایی واژه، زبان فارسی
    Masood Ghayoomi*

    A word is the smallest unit in the language that has 'form' and 'meaning'. The word might have more than one meaning in which its exact meaning is determined according to the context it is appeared. Collecting all words’ senses manually is a tedious and time consuming task. Moreover, it is possible that the words’ meanings change over time such that the meaning of an existing word will become unusable or a new meaning will be added to the word. Computational methods is one of the approaches used for identifying words’ senses with respect to the linguistic contexts.In this paper, we put an effort to propose an algorithm to identify senses of Persian words automatically without a human supervision. To reach this goal, we utilize the word embedding method in a vector space model. To build words’ vectors, we use an algorithm based on the neural network approach to gather the context information of the words in the vectors. In the proposed model of this research, the divisive clustering algorithm as one of hierarchical clustering algorithms fits with the requirements of our research question. In the proposed model, two modes, namely the Sentence-based and the Context-based, are introduced to identify words’ senses. In the Sentence-based mode, all of the words in a sentence that contain the target word are involved to build the sentence vector; while in the Context-based mode, only a limited number of surrounding words of the target word is involved to build the sentence vector. Two evaluation methods, namely internal and external, are required to evaluate the performance of the clustering algorithm. The silhouette score for each cluster is computed as the internal evaluation metric for both modes of the proposed model. The external evaluation requires a gold standard data for which a data set containing 20 ambiguous words and 100 sentences for each target word is developed.According to the obtained results of the internal evaluation, the Sentence-based mode has higher density of clusters than the Context-based mode, and the difference between them is statistically significant. According to the V- and F-measure evaluation metrics in the external evaluation, the Context-based mode has obtained higher performance against the baselines with statistically significant difference.

    Keywords: word embedding, clustering, unsupervised machine learning, vector space, natural language processing, word sense representation, Persian
  • لیلا رحمتی نژاد، سید مصطفی عاصی*، علیرضا قلی فامیان، مسعود قیومی

    یکی از دستاوردهای مهم زبان شناسی شناختی، «نظریه معنا شناسی قالبی» فیلمور (1982) است. این نظریه بیانگر اصلی مهم در معناشناسی شناختی است که بیان می کند  معانی واژه ها درون نظامی از دانش درک می شوند که در تجربه اجتماعی و فرهنگی انسان ریشه دارد. درواقع، فیلمور در این نظریه درک معنای واژه ها را از طریق قالب هایی که هر واژه فرا می خواند، میسر می داند و «قالب های معنایی» را نمایانگر بخش های یک رویداد می داند که برای اتصال گروهی از کلمات به مجموعه ای از معانی به کار می روند. از طرفی، افعال به عنوان مهم ترین ارکان زبان در بیشتر حالت ها و اعمال یک رویداد حضور دارند و در تفسیر معنا نقش بسزایی ایفا می کنند. هدف پژوهش حاضر، ارائه تحلیل پیکره بنیاد و توصیفی برای شناسایی حوزه ها و قالب های معنایی فعل «گفتن» در زبان فارسی و ترسیم قالب اصلی آن در چارچوب نظریه معناشناسی قالبی و طرح تحقیقاتی فرهنگ نگاری «فریم نت» است. برای نیل به این هدف، با بهره گیری از فرهنگ ها، پیکره های معاصر فارسی و سامانه فریم نت 44 حوزه و قالب معنایی از فعل «گفتن» در زبان فارسی شناسایی شد. سپس، مفهوم «بر زبان آوردن و بیان کردن» به عنوان معنای اصلی و سر نمون این فعل تعیین و «انگاره شعاعی» آن برای نخستین بار ترسیم گردید. در نهایت، قالب اصلی این فعل با استفاده از اصول و مفاهیم مطرح در نظریه قالبی فیلمور ایجاد شد.

    کلید واژگان: نظریه معناشناسی قالبی، قالب معنایی، فریم نت، چندمعنایی، مقوله شعاعی
    Leila Rahmati Nejad, Mostafa Assi*, Ali Reza Gholi Famian, Masood Ghayoomi

    The movement of  “Cognitive Semantics” appears against the independence of the syntax from lexical domain and calls into question the semantics being peripheral as it is mentioned in Chomsky's (1982) “Generative theory”. In this regard, Fillmore's (1982) “Frame Semantics theory” is one of the major achievements of cognitive semantics. In this theory Fillmore states that understanding the meanings of words is possible through frames that each word calls for. He also maintains that “Semantic Frames” display sections of an event used for connecting a group of words to a set of meanings and the meanings of words are perceived within a system of knowledge arising from the human's social and cultural experience. In fact, the difference between Frame Semantics with other lexico semantic hypotheses is its emphasis on the background knowledge based on which the meaning of words can be interpreted (Fillmore & Atkins, 1992, 1994, 2000; Fillmore & Baker, 2010). Also, the “FrameNet Project” is a Corpus-based study based on Fillmore's theory (Fillmore, et al., 2003). It is a lexicographic research project housed and administered at the International Computer Science Institute in Berkeley, California.  In this system, the meaning of words can be understood on the basis of semantic frames that are mental concepts. On the other hand, verbs are present as the most important element in most of the situations of an event and play significant role in the interpretation of the meaning; thus, working on it is a useful idea.
            The purpose of this study is to present a quantitative and corpus-based analysis in order to recognize the semantic domains and frames of the verb “Goftan” (to Tell) in Persian and sketch its main frame within the framework of Frame Semantics theory and the fact-finding model of FrameNet lexicography. In fact, it attempts to investigate what Fillmore and his colleagues did in English FrameNet and others in different languages as well as in the domain of Frame Semantics to be considered in Persian too. So, the main questions of this study are:
    What are the semantic domains and frames of the verb “Goftan” (to Tell) in Persian based on the major concepts of Frame Semantics theory and FrameNet?
     Is it possible to design the main semantic frame of the verb “Goftan” (to Tell) in Persian?

    To answer these questions, the authors investigate the background of studies and introduce Frame semantics theory and FrameNet lexicography. Then, they tried to be familiar with the verb “Goftan” and it’s frequency in Persian based on Persian Language Database (PLDB). To this end, 44 semantic domains and frames of the verb “Goftan” were recognized using encyclopedias, Persian contemporary corpora and FrameNet database. Then, the concept of “bar zabân Ɂâvardan va bayân kardan” (to express) was determined as the main meaning and prototype of this verb and for the first time its “Radial category” the authors sketched. Finally, the main frame of “Goftan” was created using principles and concepts proposed in Fillmore's Frame Semantics theory

    Keywords: Frame Semantics theory, semantic frame, frameNet, polysemy, radial category
  • ساره عبداللهی، مسعود قیومی، فریده حق بین*
    دستورنقش نمای واژگانی یکی از دستور های زایشی غیرگشتاری است که امروزه مبنای تحلیل و تهیه دادگان درختی در زبان شناسی رایانشی قرار گرفته است. از جمله ویژگی های این دستور آن است که در آن به جای تبدیل یک ساخت زیرین با کمک گشتار به روساخت، تنها یک ساخت ظاهری درنظر گرفته می شود و ازاین رو، این دستور به وجود گشتار قائل نیست. مهم ترین ویژگی این دستور این است که در آن چند سطح به طور موازی برای نمایش اطلاعات زبان شناختی وجود دارد. دو سطح اصلی در این دستور عبارت اند از سطح ساخت سازه ای که ساختار سلسله مراتبی عناصر جمله را به صورت درخت سازه ای نشان می دهد و سطح نقش نما که روابط دستوری و اطلاعات انتزاعی مربوط به معنی را در قالب یک ماتریس نمایش می دهد. علاوه بر این دو سطح عمده، سطوح دیگری شامل سطح ساخت موضوعی، سطح ساخت معنایی و سطح ساخت اطلاعی نیز وجود دارند. در مقاله حاضر، سطوح دستور نقش نمای واژگانی با تمرکز ویژه بر سطح نقش نما در برخی ساخت های زبان فارسی شامل جملات ساده و مرکب، بند متممی، ساخت های ملکی، مبتدایی و تمییز مورد بررسی قرار می گیرد. نتیجه به دست آمده بیانگر آن است که دستور نقش نمای واژگانی به خصوص درسطح نقش نما توانایی توصیف ویژگی ها و تبیین پدیده های زبان شناختی موجود در زبان فارسی از جمله غیرپایگانی بودن زبان فارسی و فرایند مجهول و مبتداسازی را دارد. همچنین، در این جستار مشخص گردید در زبان فارسی با توجه به مدل لودروپ [1] (2011) ، ده نقش دستوری قابل ارائه است که به دو دسته موضوع-غیر موضوع از طرفی و گفتمانی-غیرگفتمانی از طرف دیگر تقسیم می شوند.
    کلید واژگان: دستور نقش نمای واژگانی، سطوح موازی، سطح ساخت سازه ای، سطح نقش نما، نقش های دستوری
    Sare Abdollahi, Masood Ghayoomi, Farideh Haghbin*
    Lexical Functional Gramma (LFG) is a non-transformational generative grammar, which excludes concepts such as deep structure, surface structure and transformation. Rather than shifting a deep structure into a surface form through transformations, LFG maintains the idea that several structures exist in parallel levels. The two main structures in the LFG are constituent structure and function structure, which are abbreviated as c-structure and f- structure, respectively. LFG is also comprised of other structures including argument structure, semantic structure, and information structure. The present paper mainly focuses on the f-structure to prove the capability of LFG in explaining some linguistic phenomena and characteristics of Persian language such as passivization, non-configurationality, and topicalization. Certain Persian structures such as simple and compound sentences, complement clauses, and genitive structures are studied and, following 10 grammatical roles are introduced for Persian Lodrup’s (2011) model, which are classified as argument vs. non-argument and discourse vs. non-discourse.
    Keywords: lexical functional grammar, constituent structure, function structure, grammatical functions
  • مسعود قیومی *
    در این مقاله، به بررسی جایگاه برچسبزنی مقولات دستوری در تجزیه نحوی خودکار جملات فارسی پرداخته خواهد شد. به همین منظور، تاثیر کیفیت برچسبزنی مقولات دستوری و همچنین تاثیرگذاری میزان اطلاعات موجود در مقولات دستوری بر کارایی تجزیه خودکار جملات مورد مطالعه قرار خواهد گرفت. بهمنظور انجام این دو بررسی، سه سناریو برای تجزیه جملات ارائه شده و مقایسه میشود. در سناریو 1، تجزیهگر ابتدا داده ورودی را برچسبزنی کرده و سپس جمله را تجزیه میکند. در سناریو 2، از یک برچسبزن خارج از تجزیهگر و در سناریو 3 از برچسب معیار واژه ها برای تجزیه جملات استفاده میشود. در این بررسی، معیارهای ارزیابی متفاوت مورد استفاده قرار میگیرد تا میزان این تاثیرگذاری از ابعاد مختلف نشان داده شود. نتایج حاصل از آزمایشات نشان میدهد که کیفیت و میزان اطلاعات در مقولات دستوری واژه بر کارایی تجزیهگر تاثیر مستقیم دارد. کیفیت بالای برچسب مقولات دستوری سبب کاهش خطای تجزیهگر و افزایش کارایی آن میگردد. همچنین عدم وجود اطلاعات صرفینحوی تاثیر منفی بسزایی بر کارایی تجزیهگر دارد که این تاثیرگذاری در مقایسه با کیفیت برچسب مقولات دستوری بسیار بیشتر است.
    کلید واژگان: پردازش زبان فارسی، برچسب مقوله دستوری، تجزیه خودکار
    Dr. Masood Ghayoomi *
    In this paper, the role of Part-of-Speech (POS) tagging for parsing in automatic processing of the Persian language will be studied. To this end, the impact of the quality of POS tagging as well as the impact of the quantity of information available in the POS tags on parsing are studied. To reach the goals, three parsing scenarios are proposed and compared. In this study, various evaluation metrics are used to show the impacts from different points of views. The experimental results show that the quality of the POS tagger and the quantity of the information available in the POS tags have a direct effect on parsing performance. The high quality of the POS tags causes error reduction in parsing and also it increases parsing performance. Moreover, lack of morpho-syntactic information in the POS tags has a high negative impact on parsing performance. This impact is more pronounced than the impact of POS tagger performance.
    Keywords: processing of the Persian language, part-of-speech tagging, parsing
نمایش عناوین بیشتر...
بدانید!
  • در این صفحه نام مورد نظر در اسامی نویسندگان مقالات جستجو می‌شود. ممکن است نتایج شامل مطالب نویسندگان هم نام و حتی در رشته‌های مختلف باشد.
  • همه مقالات ترجمه فارسی یا انگلیسی ندارند پس ممکن است مقالاتی باشند که نام نویسنده مورد نظر شما به صورت معادل فارسی یا انگلیسی آن درج شده باشد. در صفحه جستجوی پیشرفته می‌توانید همزمان نام فارسی و انگلیسی نویسنده را درج نمایید.
  • در صورتی که می‌خواهید جستجو را با شرایط متفاوت تکرار کنید به صفحه جستجوی پیشرفته مطالب نشریات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال