فهرست مطالب

مطالعات اندازه گیری و ارزشیابی آموزشی - پیاپی 30 (تابستان 1399)

فصلنامه مطالعات اندازه گیری و ارزشیابی آموزشی
پیاپی 30 (تابستان 1399)

  • تاریخ انتشار: 1399/06/11
  • تعداد عناوین: 7
|
  • مولود علی میرزایی، علی مقدم زاده*، اصغر مینایی، بلال ایزانلو، کیوان صالحی صفحات 7-31

    هدف از اجرای این پژوهش، بررسی تغییرناپذیری ساختار عاملی آزمون سراسری و پارامترهای سوال (بارعاملی و آستانه) در استان ها بود. روش پژوهش توصیفی همبستگی است. برای بررسی هدف پژوهش از هر استان نمونه ای به حجم 1000 نفر از شرکت کنندگان در آزمون ریاضی گروه آزمایشی ریاضی وفنی 1396 انتخاب شد. نتایج نشان داد عملکرد آزمودنی ها در تهران، اصفهان، خراسان رضوی، فارس، مازندران، یزد و البرز در بیشتر سوال ها در مقایسه با سایر استان ها بهتر است. تعداد سوال های تغییرپذیر در تهران و ایلام از سایر استان ها بیشتر است. روش بهینه سازی ترازبندی نشان داد 5/37% سوال ها در عامل اول و 16% درصد در عامل دوم برای تمامی استان ها دارای تغییرناپذیری تقریبی آستانه ها و 83% سوال ها در عامل اول و 71% در عامل دوم دارای تغییرناپذیری بارهای عاملی است. تعداد سوال های تغییرپذیر در عامل دوم، بیشتر از عامل اول است، بنابراین برای مقایسه آزمودنی ها در استان ها بهتر است از سوال های عامل اول استفاده شود. بررسی DIF در تعداد زیادی از گروه ها تنها با روش ترازبندی کافی نیست، اگر گروه خاصی در پژوهش موردنظر باشد لازم است روش های DIF دوگروهی استفاده شود.

    کلیدواژگان: تغییرناپذیری اندازه گیری، بهینه سازی ترازبندی، کارکرد افتراقی چندگروهی، آزمون ورودی دانشگاه
  • رسول گلکار، احمدرضا نصر اصفهانی*، محمدرضا نیلی صفحات 33-72

    هدف از اجرای پژوهش حاضر، بررسی نقش کارفرمایان در ارزشیابی برنامه های درسی دانشگاه های برتر کشور و جهان به منظور طراحی یک مقیاس ارزشیابی برنامه درسی ویژه کارفرمایان بود. روش پژوهش، ترکیبی اکتشافی متوالی از نوع ابزارسازی و جامعه آماری شامل شش گروه بوده است. گروه اول، اعضای هییت علمی و صاحب نظران برنامه ریزی درسی دانشگاه های برتر، گروه دوم، مسیولان مراکز برنامه ریزی آموزشی دانشگاه های برتر، گروه سوم، مسیولان ذی ربط وزارت علوم، گروه چهارم، دانشگاه های برترجهان، گروه پنجم، مدرسان دوره کارشناسی ارشد رشته های علوم تربیتی، علوم اجتماعی، علوم اداری دانشگاه های دولتی و گروه ششم کارفرمایان بودند. ابزار گرد آوری داده ها، مصاحبه نیمه سازمان یافته، تحلیل مستندات و مقیاس محقق ساخته بوده است. یافته ها نشان داد که در دانشگاه های معتبر جهان ارتباط تنگاتنگی بین دانشگاه و کارفرما وجود دارد و کارفرمایان در تدوین برنامه های درسی، تعیین استانداردهای حرفه ای مشاغل، ارزیابی دانش و مهارت دانشجویان، اعتبارسنجی برنامه های درسی، تبیین انتظارات از دانش آموختگان، مشاوره شغلی و حتی تدریس، نقش دارند. در مقایسه با آن، در دانشگاه های برتر کشور، کارفرمایان به جز در موارد معدود، در فرایند ارزشیابی برنامه های درسی مشارکت ندارند. با استفاده از داده ها، یک مقیاس ارزشیابی برنامه درسی از دیدگاه کارفرمایان شامل 21 عبارت و 6 پرسش باز تدوین شده است.

    کلیدواژگان: ارزشیابی برنامه درسی، دانشگاه های برتر کشور، دانشگاه های معتبر جهان، علوم انسانی، کارفرمایان
  • سید مجتبی هاشمیان، مجتبی پورسلیمی*، لیلا طباخیان، صدیقه براتی گلخندان صفحات 73-100

    هدف از اجرای این پژوهش، تدوین چارچوبی زمینه مند از بایسته های رفتاری اعضای هییت علمی دانشگاه از طریق کشف مضامین و فرامضامین نقش های آموزشی ایشان بوده است. روش پژوهش، پدیدار شناسی و میدان پژوهش، دانشجویان دوره های تحصیلات تکمیلی دانشگاه فردوسی مشهد در رشته های علوم انسانی بوده اند. نمونه گیری هدفمند از نوع حداکثر اختلاف صورت پذیرفت. گردآوری داده ها به وسیله فن مصاحبه نیمه ساختاریافته با مشارکت کنندگان انجام گرفت تا نهایتا در سی ودومین مصاحبه، اشباع حاصل شد. تحلیل داده ها به شیوه کلایزی نشان داد که چارچوب رفتارهای آموزشی اعضای هییت علمی دانشگاه از دید دانشجویان تحصیلات تکمیلی مشتمل بر 15 مضمون و 5 فرامضمون شامل خبرگی آموزشی، مربی گری، ارزیابی عادلانه، توانمندسازی و پاسخگویی است.

    کلیدواژگان: رفتارهای نقش آموزشی، رویکرد ذی نفع مدار، خبرگی آموزشی، مربی گری، ارزیابی عادلانه، توانمندسازی، پاسخگویی
  • محمدحسین بهرامی، بهروز مهرام*، طاهره جوادی کلاته صفحات 101-134

    هدف از اجرای این پژوهش، شناسایی الزام های ارزشیابی مطلوب از عملکرد معلمان دوره ابتدایی بود. روش پژوهش؛ پژوهش نظریه ای و منابع گردآوری داده ها شامل اسناد فرادست، نظرات متخصصان موضوعی، تجارب جهانی و نظرات معلمان ذی نفع بود. برای پاسخ به پرسش های پژوهش، از تحلیل مضمون و تحلیل اسناد استفاده شد. در این مطالعه، الزام های نه گانه ارزشیابی معلمان، استخراج شد. سپس مولفه ها و محورهای اصلی ارزشیابی مطلوب از عملکرد معلمان دوره ابتدایی در چهار محور ارتباط با دانش آموز، توسعه حرفه ای، ویژگی های شخصیتی و تعامل اجتماعی شناسایی شد. بر اساس همسویی داده های گردآوری شده از طریق منابع مختلف و اجماع کلی صاحب نظران، اعتبار کلی فرایند پژوهش و چارچوب الزام های ارزشیابی، مورد تایید قرار گرفت. بر اساس یافته های این مطالعه می توان استنتاج کرد که افزایش کیفیت ارزشیابی از معلمان، مستلزم تغییر نگاه سیاست گذاران آموزشی به ارزشیابی معلمان و مولفه های ارزشیابی است و باید از منابع و ذی نفعان متنوعی مشتمل بر همکاران، اولیا و دانش آموزان بهره گیری کرد. همچنین نیاز است که در زمینه شکل دهی انتظارات واقعی از معلمان توسط جامعه عمومی و ذی نفعان، فرهنگ سازی شده و از ابزارها و کاربرگ های ارزشیابی متنوعی بهره گیری شود. چنانچه رویه موجود در ارزشیابی معلمان تداوم یابد و به الزامات آن کم توجهی شود؛ بالندگی نظام آموزشی با مانع مواجه خواهد شد.

    کلیدواژگان: ارزشیابی، عملکرد، معلمان، دوره ابتدایی، الزام، مولفه های ارزشیابی
  • سلیمان ذوالفقارنسب، علی دلاور*، نورعلی فرخی، احسان جمالی صفحات 135-185
    عملکرد موفقیت آمیز داوطلب دوره دکتری مهم ترین عامل در تصمیم گیری اعضای کمیته پذیرش است که کمک می کند کدام داوطلب را بپذیرند. یکی از مباحثی که همیشه همراه با نمره های آزمون های پذیرش وجود داشته، مسئله روایی نمره های  در پیش بینی عملکرد موفقیت آمیز  داوطلبان بوده است. هدف از اجرای این پژوهش، بررسی روایی ملاکی-پیش بین نمره های آزمون های تخصصی  در چهار رشته دکتری مهندسی روی سنجه های مصاحبه  به عنوان ملاک عملکرد موفقیت آمیز  بوده است. در این پژوهش که توصیفی از نوع همبستگی است، رتبه های داوطلبان در آزمون های اختصاصی  و مصاحبه  در چهار رشته دکتری مهندسی در سال 1397 بر اساس تیوری تعمیم پذیری تحلیل شدند. بسته به رشته دانشگاهی داده های آزمون شوندگان دربرگیرنده نمره آنها روی 3 تا 8 خرده آزمون اختصاصی  و 2 نمره ترکیبی ملاک مصاحبه  بود. داده ها با نرم افزار mGENOVA بر اساس یک طرح تک رویه ای  تحلیل شدند. سپس همبستگی بین دو نمره جهانی ترکیبی با توزیع نرمال دومتغیری در نمودار پراکندگی نشان داده شده است. نتایج نشان می دهد نمره های آزمون های تخصصی  به خوبی می توانند نمره های افراد را در ملاک مصاحبه  به عنوان شاخص عملکرد موفقیت آمیز  یا کیفیت داوطلب پیش بینی کنند (به جز در رشته فناوری اطلاعات)؛ تعداد زیاد خرده آزمون های تخصصی، ناپایایی آنها و واریانس نابسته به سازه از عواملی هستند که می توانند پیش بینی های درست برای پذیرش یا رد داوطلبان را -به ویژه روی نمره برش- تحت تاثیر قرار دهند. اگرچه پیش بینی دقیق عملکرد موفقیت آمیز  داوطلبان دوره دکتری به وسیله نمره های آزمون ها  هدف دست نیافتنی است، اما تعریف بهتر آنچه ملاک موفقیت  در دوره دکتری است و بااهمیت تر شدن آزمون های عمومی زبان و استعداد  و هم زمان تعدیل سطوح دشواری این آزمون ها و کاهش خطای اندازه گیری سنجه های پیش بینی کننده  در یک برنامه سنجش دومرحله ای که در آن آزمون های عمومی زبان و استعداد به عنوان غربال اولیه توسط سازمان سنجش برگزار شود و آزمون های اختصاصی و مصاحبه توسط دانشگاه ها، می تواند راه بهینه ای باشد برای افزایش روایی نمره های آزمون ها  در پیش بینی عملکرد موفقیت آمیز  داوطلبان و پذیرش دانشجویان باکیفیت تر.
    کلیدواژگان: تئوری تعمیم پذیری، روایی پیش بین، آزمون های تخصصی، نمره برش، برنامه های دکتری
  • هاجرالسادات موسوی صالحی، اعظم اسفیجانی*، بی بی عشرت زمانی صفحات 187-215

    پژوهش حاضر با هدف تدوین و اعتبارسنجی چهارچوب ارزیابی کیفیت موک اجرا شده است. بدین منظور، عوامل موثر بر کیفیت موک ها از منابع علمی، استخراج و طبقه بندی و به صورت یک چهارچوب تدوین شدند. جامعه پژوهش، متخصصان تکنولوژی از سراسر کشور بودند. به علت پراکندگی جامعه، نمونه پژوهش (200 نفر) به روش غیرتصادفی و در دسترس انتخاب شدند. ابزار مورد استفاده پرسشنامه محقق ساخته بوده است که روایی صوری آن را استادان تکنولوژی آموزشی دانشگاه اصفهان تایید کردند. داده های مطالعه با روش تحلیل عاملی تاییدی و با استفاده از نرم افزار SmartPLS  تجزیه وتحلیل شدند. نتایج پژوهش نشان داد چهارچوب ارزیابی کیفیت موک (چکموک) از نظر ارزیابی مدل اندازه گیری، که با شاخص های آلفای کرونباخ، پایایی ترکیبی، روایی همگرا و روایی واگرا اندازه گیری شد، مطلوب، مناسب و قوی است؛ همچنین از نظر مدل ساختاری که از طریق شاخص های R2 و Q2 اندازه گیری شد نیز این چهارچوب قوی است.

    کلیدواژگان: دوره های آنلاین آزاد گسترده (موک ها)، ارزیابی کیفیت، اعتبارسنجی
  • سمیه بهمن آبادی، محمدرضا فلسفی نژاد*، علی دلاور، نورعلی فرخی، اصغر مینائی صفحات 217-264

    همترازسازی از مهم ترین مسایل در نظام سنجش تربیتی است و عدم برقراری مفروضات آن، اندازه گیری را با چالش های جدی مواجه می کند. در آزمون های چندبعدی، استفاده از روش های تک بعدی همترازسازی، سوگیری نتایج را به دنبال دارد. هدف از اجرای این پژوهش، شناسایی رویکرد بهینه هم ترازسازی در آزمون های چندبعدی بود. شش روش همترازسازی تک بعدی و چندبعدی مقایسه شدند. روش همصدک به لحاظ مقاوم بودن در برابر مفروضه تک بعدی بودن به عنوان ملاکی برای مقایسه سایر روش ها مدنظر قرار گرفت. جامعه آماری شامل همه داوطلبان گروه علوم ریاضی و فنی کنکور سراسری سال 96 و 97 بود. داده‎های آزمون ریاضی تعداد 5000 نفر از هر دو سال برای همترازسازی انتخاب شدند. ابعاد آزمون ها با استفاده از نرم افزارهای MPLUS و NOHARM  مشخص شد. برای برآورد پارامترهای تک بعدی از بسته ltm  و برای برآورد پارامترهای چندبعدی از بسته mirt در نرم افزار R استفاده شد. همترازسازی نمره مشاهده شده و نمره واقعی تک بعدی IRT با استفاده از نرم افزار PIE و هم ترازسازی همصدک با استفاده از نرم افزار R بسته equate انجام گرفت. از بسته های mirt، mvnorm و MASS در نرم افزار R نیز برای همترازسازی چندبعدی داده ها استفاده شد. نتایج نشان داد که در همترازسازی آزمون های چندبعدی بهینه ترین روش، همترازسازی چندبعدی کامل است و پس از آن روش نمره مشاهده شده چندبعدی تک بعدی شده، روش‎ مناسبی است، اما استفاده از روش های تک بعدی نمره مشاهده شده و نمره واقعی در چنین شرایطی، کارایی مناسبی ندارد. بنابراین پیشنهاد می شود در همترازسازی آزمون هایی که ساختار چندبعدی دارند، از روش همترازسازی نمره مشاهده شده چندبعدی کامل استفاده شود.

    کلیدواژگان: همترازسازی چندبعدی کامل، همترازسازی نمره واقعی چندبعدی تک بعدی شده، همترازسازی نمره مشاهده شده چندبعدی تک بعدی شده، همترازسازی همصدک، نظریه پرسش پاسخ چندبعدی
|
  • Molood Alimirzaie, Ali Moghadam Zadeh *, Asghar Minaei, Balal Ezanloo, Keyvan Salehi Pages 7-31

    The aim of this study was to investigate the invariance of the factor structure of the national test and the item parameters (factor and threshold) in the provinces. The research method is descriptive correlation. In order to investigate the purpose of the research, a sample of 1000 participants in the math test of the Mathematics and Technology experimental group of 1396 was selected from each province. The results showed that in most items, the performance of the examinees in Tehran, Isfahan, Khorasan Razavi, Fars, Mazandaran, Yazd and Alborz is better than most provinces. The number of non-invarince items in Tehran and Ilam is higher than other provinces. The alignment optimization method showed that 37.5% of the items in the first factor and 16% in the second factor for all provinces had approximate invariance of thresholds and 83% of the items in the first factor and 71% in the second factor had invariance in factor loadings. The number of non-invariance items in the second factor is higher than the first factor, so it is better to use the first factor items to compare the examinees in the provinces. Investigating DIF by using the alignment method alone is not enough in a large number of groups. If a specific group is involved in the study, it is necessary to use two-group DIF methods.

    Keywords: Measurement invariance, Alignment optimization, Multiple group differential functioning, Higher education entrance exam
  • Rasool Golkar, AhmadReza Nasr Esfahanei *, MohammadReza Nili Pages 33-72

    The aim of this study was to investigate the role of employers in the evaluation of curricula of the top universities of the country and the world in order to design a scale for employers. The research method has been a sequential exploratory mixed method of instrumentation types and the statistical population consisted of six groups. The first group is comprised of faculty members and experts in curriculum development of the top universities. The second group includes officials and educational planning centers of the top universities. The third group consists of relevant officials of the Ministry of Science, and the fourth group is the world’s top universities. Also, the fifth group involves instructors of master's degrees in educational sciences, social sciences and administrative sciences from public universities, and the sixth group consists of employers. Besides, data assimilation tools, semi-organized interviews, document analysis, and researcher-made scales are used in the research process. The findings show that in the world’s top universities, there is a close relationship between the university and the employers. Employers have roles such as helping to develop curricula, setting professional standards for jobs, assessing students' knowledge and skills, accreditation of curricula, explaining expectations to graduates, job counseling, and even teaching. In comparison, in the country's top universities, employers, except for a few cases, do not participate in the process of developing and evaluating curricula. By using the data, a curriculum evaluation scale has been developed from the opinion of employers, including 21 phrases and six open-ended questions.

    Keywords: curriculum evaluation, Top universities of the country, Top universities in the world, Humanities, employers
  • Seyed Mojtaba Hashemian, Mojtaba Poursalimi *, Leili Tabakhiyan, Sedighe Barati Golkhandan Pages 73-100

    The purpose of this study was to develop a contextual framework for the behavioral requirements of university faculty members by exploring the themes and meta-themes of their teaching roles. The research method was phenomenology and the research field were students of postgraduate courses in the humanities at Ferdowsi University of Mashhad. The purposive sampling of maximum variation type was performed. Data collection was done by semi-structured interviewing technique with participants and finally saturated in thirty-two interviews. The results of the data analysis by Colaizzi's method showed that the framework of teaching behaviors of faculty members from the viewpoint of postgraduate students has 15 thematic and 5 meta-thematic including teaching expertise, coaching, fair assessment, empowerment and accountability

    Keywords: Teaching role behaviors, Stakeholder orientation approach, Teaching expertise, Coaching, Fair assessment, empowerment, accountability
  • MohammadHossein Bahrami, Behrooz Mahram *, Tahereh Javidi Kalatejafarabadi Pages 101-134

    The aim of this study was to identify the requirements for optimal evaluation of the performance of primary school teachers.  The research method was based on theoretical inquiry and the resources of data included documents, the opinions of the experts, the global experiences, and the views of the beneficiary teachers. In order to answer the questions, two methods of thematic analysis and document analysis were used, and nine teachers' evaluation requirements were extracted. Then, the components for purposeful evaluation of the performance of elementary school teachers in four areas of communication with students, professional development, personality characteristics and social interaction were identified. Based on the alignment of the information gathered through different sources and the general consensus of experts and their alignment with the findings, the overall validity of the research process and the framework of assessment implications were confirmed. Based on the findings, enhancing the quality of education in the area under study requires policy makers to change their evaluation components and should involve a variety of sources including peers, parents and students to be used. It is also necessary to build on the real expectations of teachers by the general public and stakeholders, and use various valuation tools and sheets. If the existing procedure in teacher evaluation continues and little attention is paid to its requirements, the growth of the education system will be hampered.

    Keywords: Evaluation, Performance, teacher, Elementary level, Requirement, Evaluation factors
  • Soleyman Zolfagharnasab, Ali Delavar *, Norali Farokhi, Ehsan Jamali Pages 135-185
    The quality of a PhD candidate’s performance is the most important factor that can affect admission committee members’ decision-making and selection of applicants. One of the issues that has always accompanied candidates’ scores  in admission exams is the validity of these scores in predicting the candidates’ successful performance . The primary purpose of this research was evaluating the predictive criterion validity of subject tests scores  in four engineering PhDprograms on interview measures  as the criterion for successful performance . In this descriptive correlational study, candidates’ scores in subject tests  and interviews  in four engineering PhD programs in 2018 were analyzed based on the Generalizability theory. Depending on their majors, examinees’ data included their scores on 3 to 8 subtests in subject tests and 2 composite interview criteria . Data were analyzed using mGENOVA software based on a multivariate analysis with a single facet  design. The relationship between two composite universe scores was illustrated by the bivariate normal distribution in a typical scatter diagram. The results show that subject tests scores can predict candidates’ scores on the interview criterion as an index for successful performance except in the field of Information Technology. The large number of subtests in subject tests,their instability, and the construct irrelevant variance were among the factors that may influence the accuracy of predictions, especially on the cut scores, for accepting or rejecting candidates. Accurately predicting the success of an applicant’s performance  based on test scores   is an unattainable goal. However, precisely defining the criteria for success  in PhD programs, increasing the significance of general English and aptitude tests, adjusting the difficulty level of tests, reducing measurement error in predictive measures  , having a two-step assessment program in which the general language and aptitude tests are administered as a primary screening by NOET and the subject tests and interviews by universities can be effective method to increase the criterion validity of test scores in predicting candidates’ successful performance and enhance the chances of admitting more qualified students.
    Keywords: generalizability theory, Predictive validity, Subject test, Cut score, Doctoral programs
  • Hajarolsadat Mosavei Salehi, Azam Esfijani *, Bibieshrat Zamani Pages 187-215

    The purpose of this study was to develop and validate the quality assessment framework of massive open online courses. To achieve the purpose, the factors affecting the quality of MOOCs were extracted, classified and formulated as a framework. The research population comprised of educational technology experts across the country. The sample (200 n) were selected by convenience sampling technique due to the dispersion of the population. A researcher-made questionnaire was designed, validity and reliability of which was confirmed by the educational technology experts. The research data analyzed using confirmatory factor analysis method and SmartPLS software. The results indicate the MOOC quality assessment framework based on the Cronbach's alpha measures (composite reliability, convergent validity, and divergent validity) is desirable, suitable and robust. This framework is also robust in terms of the structural model measured by the R2 and Q2 indexes.

    Keywords: massive open online courses (MOOC), Quality Assessment, Validation
  • Somayeh Bahmanabadi, Mohammadreza Falsafinejad *, Ali Delavar, Noorali Farrokhi, Asghar Minaei Pages 217-264

    Equating is one of the most important issues in educational measurement, violation of the assumptions of which results in serious challenges in it. In multidimensional tests, the use of unidimensional equating methods causes bias in results. Therefore, the purpose of this study was to identify the optimal equating methods in multidimensional tests. Six equating methods consisting of unidimensional and multidimensional methods was compared with each other. The equipercentile method was considered as the criterion for comparing the other methods in terms of being robust against the unidimensionality assumption. The statistical population consisted of all the candidates in Mathematics’ entrance exam in the years 2017 and 2018. Mathematics’ exam data of 5,000 people from both years were selected for equating. Test dimensions were determined using NOHARM and MPLUS software, the ltm package was used to estimate the unidimensional parameters and the mirt package in the R software was used to estimate the multidimensional parameters. IRT unidimensional observed score and true score equating conduct with PIE program and equipercentile equating was performed using R equate package. The mirt, mvnorm, and MASS packages in R software were also used for multidimensional equating.  The results showed that the most optimal method for multidimensional tests equating was FULL MIRT observed score equating,and then the unidimensionalized MIRT observed score equating is the appropriate method and that using unidimensional methods of the observed score and true score are not efficient in such conditions. Therefore, it is recommended that FULL MIRT observed score methods are used in equating tests with multidimensional structure.

    Keywords: FULL MIRT equating, Unidimensionalized MIRT true score equating, Unidimensionalized MIRT observed score equating, Equipercentile equating, Multidimensional Item Response Theory