a. bosaghzadeh
-
Journal of Electrical and Computer Engineering Innovations, Volume:10 Issue: 1, Winter-Spring 2022, PP 163 -174Background and ObjectivesVisual attention is a high order cognitive process of human brain which defines where a human observer attends. Dynamic computational visual attention models are modeled on the behavior of the human brain and can predict what areas a human will pay attention to when viewing a scene such as a video. However, several types of computational models have been proposed to provide a better understanding of saliency maps in static and dynamic environments, most of these models are used for specific scenes. In this paper, we propose a model that can generate saliency maps in a variety of dynamic environments with complex scenes.MethodsWe used a deep learner as a mediating network to combine basic saliency maps with appropriate weighting. Each of these basic saliency maps covers an important feature of human visual attention, and ultimately the final saliency map is very similar to human visual behavior.ResultsThe proposed model is run on two datasets and the generated saliency maps are evaluated by different criteria such as ROC, CC, NSS, SIM and KLdiv. The results show that the proposed model has a good performance compared to other similar models.ConclusionThe proposed model consists of three main parts, including basic saliency maps, gating network, and combinator. This model was implemented on the ETMD dataset and the resulting saliency maps (visual attention areas) were compared with some other models in this field by evaluation criteria and their results were evaluated. The results obtained from the proposed model are acceptable and based on the accepted evaluation criteria in this area, it performs better than similar models.Keywords: Visual Attention, Dynamic Visual Attention, Bottom-up Attention, Visual Saliency, Human Eye Fixation
-
پیشینه و اهداف
امروزه استفاده از چندرسانه ای در آموزش زبان خارجی متداول است. برای طراحی چندرسانه ای اصولی وجود دارد که به کارگیری آن ها موجب کاهش بار شناختی می شود. این اصول بر آمده از نظریه بار شناختی هستند. روش های اندازه گیری بار شناختی به دو دسته خودانگارانه و واقع گرایانه تقسیم می شوند. روش هایی مانند پرسشنامه شاخص بار کاری ناسا در دسته اندازه گیری های خودانگارانه جای می گیرند و روش هایی مانند تحلیل سیگنال های مغزی یا تحلیل رفتارهای حرکتی چشم در دسته واقع گرایانه قرار دارند. امروزه به دلیل مزیت هایی که در استفاده از روش های واقع گرایانه وجود دارد، استفاده از این نوع اندازه گیری ها در مطالعات شناختی متداول شده است. فناوری ردیابی حرکت چشم می تواند رفتارهای مختلف چشم مانند قطر مردمک، ساکاد، تثبیت، پلک زدن و میکروساکاد را با نرخ نمونه برداری بالا ثبت کند. از این اندازه گیری ها به صورت گسترده در مطالعات شناختی و بار ذهنی استفاده می شود. در این پژوهش بار شناختی در یادگیری چندرسانه ای زبان با استفاده از تحلیل داده های ردیاب چشمی مورد ارزیابی قرار گرفت.
روش هادو نسخه چندرسانه ای آموزش زبان انگلیسی با روایت یکسان به طول 342 ثانیه ساخته شد. در یکی اصول طراحی چندرسانه ای رعایت و در دیگری نقض شده است تا بار شناختی بیشتری نسبت به حالت با اصول اعمال شود. 10 فرد که توانایی شنیداری زبان انگلیسی آن ها با شبیه سازی آزمون آیلتس ارزیابی شدند، در آزمایش شرکت کردند و به صورت تصادفی به دو گروه 5 نفره تقسیم شدند. یک گروه، چندرسانه ای بدون اصول و گروه دیگر، چندرسانه ای با اصول را مشاهده کردند. توانایی شنیداری همه افراد در بازه یکسان قرار داشت. هر گروه یک نسخه از چندرسانه ای ها را مشاهده کردند و سپس هر فرد به 12 سوال چهارگزینه ای در رابطه با مفاهیم مطرح شده در چندرسانه ای به عنوان آزمون عملکرد پاسخ داد. در طول فرآیند مشاهده چندرسانه ای و آزمون، داده حرکت چشم از هر فرد شرکت کننده اخذ شد. سپس هر فرد به پرسش نامه شاخص بار کاری ناسا پاسخ داد. در تحلیل با استفاده از نتایج آزمون عملکرد و شاخص بار کاری ناسا، میزان دشواری چندرسانه ای بدون اصول نسبت به حالت با اصول اعتبارسنجی شد. داده های اخذ شده به بلوک های 30 ثانیه ای تقسیم شدند.
یافته هابر پایه نمرات پرسشنامه شاخص بار کاری ناسا، بار شناختی اعمال شده بر روی گروه چندرسانه ای بدون اصول بیشتر از بار شناختی اعمال شده بر روی گروه چندرسانه ای با اصول است که تاییدکننده فرض ما در رابطه با بار شناختی بیشتر توسط چندرسانه ای بدون اصول هست. اما در مورد نتایج عملکرد تفاوت معناداری بین دو گروه آزمایش یافت نشد. بر اساس آزمون های آماری، معیارهای قطر مردمک، طول ساکاد، سرعت ساکاد، تاخیر پلک زدن، و بزرگی میکروساکاد در بلوک های چندرسانه ای های دو گروه، دارای تفاوت معنادار بودند. برای معیارهای مدت زمان تثبیت، نرخ تثبیت و نرخ میکروساکاد، تفاوت معناداری یافت نشد.
نتیجه گیریبراساس یافته های این پژوهش معیارهای قطر مردمک چشم، طول ساکاد، سرعت ساکاد، تاخیر پلک زدن و بزرگی میکروساکاد دارای ارتباط معنادار با بار شناختی اعمال شده توسط چندرسانه ای آموزش زبان هستند که با ادبیات پژوهش نیز مطابقت دارند. بر پایه نتایج این پژوهش، داده حرکت چشم می تواند به عنوان معیار مناسبی، در کنار روش های خودانگارانه، برای ارزیابی بار شناختی یادگیری چندرسانه ای و کیفیت سنجی محتوای آموزشی در قالب چندرسانه ای، مورد استفاده قرار گیرد. نرخ پلک زدن نیز دارای تفاوت معناداری بین دو گروه مورد مطالعه است. در رابطه با سایر معیارهای حرکت چشم که در این پژوهش مطرح شدند، یعنی مدت زمان تثبیت، نرخ تثبیت و نرخ میکروساکاد نیاز به پژوهش بیشتر و طراحی آزمایش های مختلف است تا بتوان اظهارنظر قطعی در مورد ارتباط معنادار این پارامترها با بار شناختی اعمال شده توسط چندرسانه ای آموزش زبان مطرح کرد.
کلید واژگان: یادگیری چندرسانه ای، آموزش زبان، بار شناختی، ردیاب حرکت چشمBackground and ObjectivesToday, it is common to use multimedia in foreign language teaching. There are some principles for designing multimedia that would reduce task cognitive load. These principles are based on the cognitive load theory. The methods of cognitive load measurement are divided into two categories, namely the subjective and objective measurements. NASA-TLX is an example of the subjective measurements; methods such as electroencephalography and eye-tracking are among the objective measurements. Due to the advantages of objective measurements, using these methods is common in cognitive studies. Eye-tracking technology can record different eye-movements of humans such as pupil dilation, saccades, fixations, blinks and microsaccades with a high sampling rate. These measurements are being widely used in cognitive and mental workload studies. In this paper, the cognitive load in multimedia language learning has been evaluated, using eye-tracking data analysis.
MethodsTwo multimedia versions for teaching English were produced with the same narration and the length of 342s. In one version, the principles in designing multimedia were applied whereas in the other version, they were violated so that more cognitive load in comparison to the former version could be imposed. Ten subjects whose English listening comprehension was assessed with a simulation of the International English Language Testing System (IELTS) participated in the experiment and were randomly divided into two equal groups of five. The two groups were homogeneous with respect to their listening proficiency. One group watched the multimedia without principles while the other group watched the multimedia with principles. Then, each individual answered 12 multiple choice questions about the concepts presented in the multimedia as a performance test. During watching the multimedia and taking the performance test, the participants’ eye movement data were recorded. Then, each person filled out the NASA-TLX Questionnaire. Based on the results of the performance test and the NASA-TLX, the difficulty level of the multimedia without principles as compared to its version with principles was evaluated. The collected data were divided into blocks of 30 seconds.
FindingsBased on the NASA-TLX, the group who watched multimedia without principles experienced more cognitive load in comparison to the group who watched multimedia with principles, which approved our assumption about the higher load of the multimedia without principles. However, no significant difference was found in the results of the performance test between the two groups. According to statistical analyses, the pupil diameter, saccade length, saccade velocity, blink latency, and microsaccade amplitude in the multimedia blocks of both groups were significantly different. Nevertheless, no significant difference was found between the two groups in terms of the fixation time, the fixation rate, and the microsaccade rate.
ConclusionBased on the findings of this study, pupil dilation, saccade length, saccade velocity, blink latency, and microsaccade amplitude have a significant relationship with the amount of the load imposed by the instructional multimedia which corresponds to the literature review of the study. Based on the results of this study, along with the subjective methods, eye movement data can also be considered as an appropriate tool for assessing the cognitive load imposed by multimedia learning and qualifying the multimedia instructional content. A significant difference was also found between the two groups in the study in terms of their blinking rate. More investigation and different experiments are needed for examining other eye movement criteria that have been investigated in this study, including fixation time, fixation rate, and microsaccade rate so that a more definitive conclusion would be reached regarding a significant relationship between these parameters and the mental load imposed by the multimedia English teaching.
Keywords: Multimedia Learning, Language Learning, Cognitive load, Eye-tracking -
On many occasions, the evaluation of a phenomenon based on a single feature could not solely be resulted in comprehensive and accurate results. Moreover, even if we have several features, we don’t know in advance, which feature offers a better description of the phenomenon. Thus, selecting the best features and especially their combination could lead to better results. An affinity graph is a tool that can describe the relationship between the samples. In this paper, we proposed a graph-based sample-based ranking method that sorts the graphs based on six proposed parameters. The sorting is performed such that the graphs at the top of the list have better performance compared to the graphs at the bottom. Furthermore, we propose a fusion method to merge the information of various features and improve the accuracy of label propagation. Moreover, a method is proposed for parameter optimizations and the ultimate decision fusion. The experimental results indicate that the proposed scheme, apart from correctly ranking the graphs according to their accuracy, in the fusion step, increases the accuracy compared to the use of a single feature.Keywords: Affinity Graph, Decision Fusion, Label Propagation, Multiple Features
- در این صفحه نام مورد نظر در اسامی نویسندگان مقالات جستجو میشود. ممکن است نتایج شامل مطالب نویسندگان هم نام و حتی در رشتههای مختلف باشد.
- همه مقالات ترجمه فارسی یا انگلیسی ندارند پس ممکن است مقالاتی باشند که نام نویسنده مورد نظر شما به صورت معادل فارسی یا انگلیسی آن درج شده باشد. در صفحه جستجوی پیشرفته میتوانید همزمان نام فارسی و انگلیسی نویسنده را درج نمایید.
- در صورتی که میخواهید جستجو را با شرایط متفاوت تکرار کنید به صفحه جستجوی پیشرفته مطالب نشریات مراجعه کنید.