فهرست مطالب

مطالعات اندازه گیری و ارزشیابی آموزشی - پیاپی 42 (تابستان 1402)

فصلنامه مطالعات اندازه گیری و ارزشیابی آموزشی
پیاپی 42 (تابستان 1402)

  • تاریخ انتشار: 1402/04/01
  • تعداد عناوین: 6
|
  • رضا پیروی، محمدرضا فلسفی نژاد*، اصغر مینائی، علی دلاور، نورعلی فرخی صفحات 1-15
    هدف

    هدف مطالعه حاضر، مقایسه میزان دقت و خطای اندازه گیری مدل های دوارزشی و چند ارزشیIRT در نمره گذاری آزمون های توانایی سرنوشت ساز بود.

    روش پژوهش: 

    جامعه پژوهش شامل تمامی شرکت کنندگان آزمون سراسری پروانه وکالت سال های 1396 و 1398 بوده که از میان آن ها تعداد 5000 نفر از سال 1396 و تعداد 5000 نفر از سال 1398 با روش نمونه گیری تصادفی ساده انتخاب شدند. همچنین، گردآوری داده ها با استفاده از پاسخ های شرکت کنندگان آزمون انجام یافت. متغیر مستقل این پژوهش، شیوه و مدل نمره گذاری و متغیر وابسته، میزان برازش و آگاهی (دقت) مدل محسوب می شود. بر این اساس، روش پژوهش آزمایشی است.

    یافته ها

    تجزیه و تحلیل یافته ها نشان داد که از میان مدل های لجستیک دوارزشی IRT، مدل 3 پارامتری، و از میان مدل های چندارزشی اسمی مورد مطالعه نیز، مدل 3 پارامتری در مقایسه با سایر مدل ها، برازش و نیز آگاهی دهندگی بیشتر و مطلوب تری بر روی داده های مورد مطالعه داشتند.

    نتیجه گیری

    با توجه به برازش و میزان آگاهی مطلوب تر مدل 3 پارامتری دو ارزشی و مدل 3 پارامتری چندارزشی در مقایسه با سایر مدل ها، استفاده از این مدل ها در نمره گذاری می تواند به افزایش دقت اندازه گیری و کاهش خطا، و  نیز به منصفانه بودن فرآیند گزینش متقاضیان آزمون پروانه وکالت کمک نماید.

    کلیدواژگان: نمره گذاریIRT، مدل های دوارزشی IRT، مدل های چندارزشی اسمی IRT، منصفانه بودن سنجش
  • بلال ایزانلو*، سارا حاجت پور قلعه رودخانی صفحه 2
    هدف

     پژوهش حاضر به منظور بررسی میزان جدیت/تساهل و گرایش به مرکز ارزیابان در نمره گذاری آزمون های عملکردی سراسری سازمان سنجش انجام شد.

    روش پژوهش: 

    برای این منظور از داده های ثانویه آزمون های طراحی معماری سال های 1396 (5437 نفر)، اسکیس معماری 1397 (7459 نفر)، طراحی صنعتی سراسری سال 1396 (1365نفر)، موسیقی سال 1397 (569 نفر) و نمایش عروسکی سال 1397 (97 نفر) استفاده شد. داده ها با استفاده از روش های کلاسیک و مدل های چند وجهی راش تحلیل و نتایج استخراج شد.

    یافته ها

    در هر دو آزمون طراحی معماری، در کل میزان همسانی (مطابقت نسبی بین درجه بندی ارزیابان) قابل قبول، ولی در آزمون های طراحی صنعتی، شناخت موسیقی و نمایشنامه نویسی میزان همسانی پایین است. میزان اجماع (توافق) در هر پنج آزمون مورد بررسی نیز پایین است.

    نتیجه گیری

    نتایج حاصل از مدل های چندوجهی نشان داد اثر سخت گیری ارزیاب و استفاده از نمره های کرانه ای پایین در نمره گذاری، در هر دو آزمون طراحی معماری وجود داشت، ولی مطابق انتظار اثر گرایش به مرکز وجود نداشت. به دلیل استفاده از طرح های جمع آوری داده های نامناسب (مثلا در همه پاسخ ها یا تکالیف یک آزمون، هر داور فقط 2 مورد مجزا از هم را ارزیابی می کند و هیچ همپوشی بین موارد ارزیابی شده توسط ارزیابان وجود ندارد تا با هم به صورت درست مقایسه شوند یا این که در یک آزمون هر تکلیف یا سوال توسط داوران متفاوت ارزیابی می شود) در آزمون های طراحی صنعتی، شناخت موسیقی و نمایشنامه نویسی امکان تحلیل با مدل های چندوجهی وجود نداشت. با توجه به یافته ها توصیه می شود به هنگام ارزیابی آزمون های عملکردی سراسری، اولا از طرح مناسب برای ارزیابی استفاده شود و دوما با آموزش ارزیابان در زمینه نمره گذاری آزمون های عملکردی از تاثیر عواملی مثل جدیت یا تساهل و کاهش توافق جلوگیری به عمل آید.

    کلیدواژگان: مدل های چند وجهی راش، جدیت، تساهل، گرایش مرکزی، آزمون های عملکردی سراسری
  • مسعود کبیری* صفحه 3
    هدف

    امروزه سنجش شناختی تشخیصی برای کسب اطلاعات بیشتر در مورد یادگیری آزمودنی ها مورد توجه قرار گرفته است. در همین راستا، در مطالعه حاضر این شیوه به کار بسته شد تا اطلاعات بیشتری در مورد پاسخ های دانش آموزان پایه چهارم شرکت کننده در آزمون علوم مطالعه تیمز 2015 استخراج شود.

    روش پژوهش: 

    11 خصیصه مهم در آموزش علوم شناسایی و با بررسی سوالات ماتریس Q تشکیل شد. سپس، پاسخ 3823 دانش آموزی که 206 سوال آزمون علوم را داده بودند، با استفاده از مدل تشخیصی جی دینا تحلیل شد.

    یافته ها

    نتایج نشان داد که این مدل قدرت تولید اطلاعات تشخیصی را دارد. در مقایسه احتمال پاسخ خصیصه ها مشخص شد که سه خصیصه بازشناسی، ارایه مثال، و توصیف احتمال بالاتری نسبت به سایر خصیصه ها نشان دادند و احتمال تسلط بر آن ها از 50/0 بیشتر بود. با این حال، تنها خصیصه بازشناسی از ملاک مقبول 65/0 بیشتر بود. از طرف دیگر، دو خصیصه پیش بینی و کاوشگری علمی کم ترین احتمال پاسخ را داشتند.

    نتیجه گیری

    نتایج نشان داد که به طور کلی تفاوت زیادی بین احتمال پاسخ خصیصه های دانشی و خصیصه های دربرگیرنده تفکر سطح بالا در بین دانش آموزان ایران وجود دارد که می تواند به فاصله گرفتن برنامه اجرا شده علوم از برنامه مصوب آن مربوط باشد.

    کلیدواژگان: سنجش شناختی تشخیصی، آموزش علوم، مدل جی دینا، مطالعه تیمز، آموزش و پرورش ایران
  • رقیه باقی یزدل، ابوالقاسم نادری روشناوند*، ابراهیم خدایی، احسان جمالی صفحات 7-28

    هدف اصلی مقاله حاضر ارایه الگوی چندسطحی واکاوی نمرات آزمون سراسری ورود به دانشگاه ها و موسسات آموزش عالی می باشد. پژوهش حاضر به لحاظ هدف از نوع تحقیقات کاربردی و توصیفی است که به دنبال تحلیل و تبیین عوامل موثر بر نمره کل داوطلبان در آزمون ورود به دانشگاه ها است. در این خصوص اطلاعات آزمون سراسری سال 1398 شامل داده های مربوط به موقعیت اجتماعی اقتصادی خانواده داوطلبان و متغیرهای آموزشی، بهداشتی، فرهنگی و اقتصادی مربوط به شهرستان ها و استان های کشور را بکار گرفتیم و برای برآورد مدل های چندسطحی از نرم افزار HLM استفاده شد.مقادیر همبستگی درون گروهی و پایایی الگوی مولفه واریانس ساختار سلسله مراتبی داده ها را به صورت تجربی تایید کرد. تخمین الگوی سه سطحی نشان داد که 6/94 درصد از تغییرات نمره کل به تفاوت در ویژگی های فردی و خانوادگی داوطلبان مربوط می شود. 6/3 درصد از تغییرات نمره کل به عامل های آموزشی، بهداشتی و فرهنگی شهرستان و 8/1 درصد به نرخ مشارکت اقتصادی استان مربوط می شود. با استفاده از تخمین الگوی چندسطحی به صورت تجربی نشان داده شد که واریانس سطح اول که شامل متغیرهای موقعیت اجتماعی اقتصادی داوطلبان است بیشترین سهم را در واریانس نمره کل دارد و با توجه به اینکه 4/5 درصد از تغییرات نمره کل مربوط به موقعیت جغرافیایی است، می توان اذعان داشت تفاوت در نمره کل داوطلبان، نه تنها ریشه در موقعیت اجتماعی اقتصادی آنها دارد، بلکه تاثیر همزمان این موقعیت با سطح برخورداری شهرستان های کشور از منظر عوامل آموزشی، بهداشتی، اقتصادی و فرهنگی نیز در تشدید تفاوت در نمره کل ها سهیم است.

    کلیدواژگان: تحلیل چندسطحی، آزمون سراسری، موقعیت اقتصادی اجتماعی خانواده، منطقه جغرافیایی
  • مهدی محمدی*، رضا ناصری جهرمی، سولماز خادمی، صدیقه شادی، مجید کوثری صفحات 45-69
    هدف
    هدف کلی از انجام این پژوهش، تحلیل محتوای انواع مقالات مرتبط با الگوهای ارزشیابی برنامه درسی بر اساس تاکید بر عناصر برنامه درسی و معیارهای اثربخشی درونی و بیرونی بوده است.روش پژوهش: کمی، از نوع توصیفی و بر اساس تحلیل محتوای کمی می باشد. جامعه آماری تمامی منابع پژوهشی چاپ شده در حوزه ارزشیابی برنامه درسی است و تمامی آن ها بروز، در بازه زمانی پنج ساله 2017 تا 2022 و 1396 تا 1401 به عنوان نمونه انتخاب گردیدند. ابزار اندازه گیری اسنادی و روش گردآوری داده ها بر مبنای الگوهای ارزشیابی برنامه درسی و تجزیه و تحلیل داده ها با استفاده از تکنیک آنتروپی شانون انجام شد.
    یافته ها
    از میان ده عنصر، محتوا بالاترین و کارسازترین ضریب اهمیت و زمان یادگیری دارای کمترین ضریب اهمیت بود. در معیارهای ارزشیابی درونی و بیرونی، منطق دارای بالاترین ضریب اهمیت و انسجام دارای کمترین ضریب اهمیت بود. همچنین، از بین انواع الگوهای ارزشیابی برنامه درسی که برای تحلیل محتوای مقالات منتخب استفاده شد، الگوی کرک پاتریک موثرترین و بالاترین ضریب اهمیت و الگوی تین دارای کمترین ضریب اهمیت بود.
    نتیجه گیری
    جهت حصول اطمینان در مورد چگونگی اجرای صحیح یک برنامه درسی و بهبود و ارتقاء برنامه های درسی در حوزه آموزش و پرورش ضروری ست که اثربخشی همه عناصر برنامه درسی و معیارهای درونی و بیرونی برنامه درسی، در تحلیل ارزشیابی مقالات مورد توجه قرار گیرند.
    کلیدواژگان: تحلیل محتوا، الگوهای ارزشیابی برنامه درسی، عناصر برنامه درسی، معیارهای اثربخشی درونی و بیرونی برنامه درسی
  • بهروز رحیمی، رضوان حکیم زاده*، محمد جوادی پور، کیوان صالحی، محمد خادمی کله لو صفحات 87-114
    هدف
    پژوهش حاضر با هدف مطالعه تطبیقی نظریه های تصمیم گیری و انتخاب تحصیلی شغلی و به منظور ارایه راهبردی برای ارزیابی و بهبود برنامه هدایت تحصیلی شغلی نظام آموزش وپرورش ایران انجام شده است.روش پژوهش: این پژوهش با رویکرد تطبیقی و با روش تحلیلی اسنادی صورت پذیرفته است. بنابراین، اسناد نظری با بهره گیری از کلیدواژه های مرتبط و کتابخانه های دیجیتال و پایگاه های داده آنلاین گردآوری و از طریق فیش برداری محقق ساخته و تکنیک های تلخیص و طبقه بندی داده ها تحلیل گردیدند. جهت بررسی اعتبار یافته ها از معیارهای خود بازبینی محقق در طی فرایند جمع آوری و تحلیل داده ها و همچنین از توسعه و توصیف غنی داده ها جهت اطمینان از قابلیت انتقال پذیری استفاده شد.
    یافته ها
    عوامل اثرگذار در هدایت تحصیلی شغلی مبتنی بر نظریه های ارایه شده را می توان در سه بخش، شامل عوامل فردی، عوامل اجتماعی و عوامل محیطی اجتماعی دسته بندی نمود. نتایج ارزیابی برنامه هدایت تحصیلی شغلی نظام آموزش و پرورش ایران با طبقه بندی احصاء شده نیز نشان داد، علیرغم توجه به برخی از این عوامل، اما برنامه هدایت تحصیلی شغلی در اجرا چندان موفق نبوده است.
    نتیجه گیری
    اثربخشی برنامه های هدایت تحصیلی شغلی مستلزم شناسایی و درنظر گرفتن همه عوامل اثرگذار در این حوزه است. در این زمینه  با طراحی و اجرا برنامه درسی هدایت تحصیلی شغلی می توان تمام عوامل و ملاک هایی که در پایگاه نظری به عنوان عوامل مهم در انتخاب تحصیلی شغلی مطرح شده اند را طی فرایند و گام های سیستماتیک در کل مقاطع تحصیلی دانش آموزان در نظر گرفت.
    کلیدواژگان: نظریه، انتخاب، تحصیلی شغلی، ارزیابی، آموزش و پرورش، ایران
|
  • Reza Payravi, Mohammadreza Falsafinejad *, Asghar Minaei, Ali Delavar, Ali Farrokhi Pages 1-15
    Objective

    The aim of this study was to compare the accuracy and measurement error of dichotomous and Polytomous IRT models in scoring high-stakes, large-scale ability tests.

    Methods

    The statistical population of this study was included all the participants of the lawyer's license external tests in 2016 and 2018, from which 5000 persons and 5000 persons respectively were selected by random sampling. In addition, data collection was done using the responses of the participants of the above exam. Accordingly, the research method is experimental.

    Results

    The analysis of the findings showed that among the dichotomous IRT logistic models, the 3-parameter model, and among the nominal Polytomous models studied, the 3-parameter model are a better fits and information compared with other models on the data under study.

    Conclusion

    Considering the more favorable fit and the level of information of the 3-parameter dichotomous model and the 3-parameter Polytomous model compared with other models, the use of these models in scoring can increase the accuracy of measurement and reduce the error. In addition, the use of these models also helps the fairness of the selection process of the applicants for the lawyer's license exam.

    Keywords: IRT scoring, Dichotomous models, IRT nominal Polytomous models, Fairness of assessment
  • Balal Ezanloo *, Sara Hajatpour Page 2
    Objective

    The present study was done in order to examine the severity/leniency and the central tendency level of raters in scoring of performance tests performed by National Organization for Educational Testing (NOET).

    Methods

    For this purpose, the secondary data in Sketch Architecture Test (1396 and 1397 solar, respectively with 5437 and 7459 people), Industrial design test (1396 solar, 1365 people), Music recognition test (1397 solar, 569 people), playwriting test (1396 solar, 97 people). The data were analyzed by classical methods and many-faceted Rasch models and the results extracted.

    Results

    The results from classical methods show that in both Sketch Architecture Tests, raters’ consistency is generally acceptable, but in other tests (Industrial design, music cognition and playwriting) homogeneity is low. Raters’ consensus is low in all five examined tests. Results from many-facet Rasch models show that in both Sketch Architecture Tests rater's severity and use of lower scores of rating scale effects are present, but as expected, there was not any effect for central tendency. Unfortunately, due to the nature of incorrect data collection designs in Industrial design, music cognition and playwriting tests analysis with many-facet Rasch models was not possible.

    Conclusion

    Based on findings it is recommended that when global performance tests are evaluated by the NOET organization raters, firstly; the proper design for evaluating have been selected and used, and secondly; to prevent the effect of severity or leniency and agreement (consensus) reduction between raters, the training of them for scoring performance tests to be considered

    Keywords: Multi-faceted Rush models, Severity, Leniency, central tendency, performance tests tests
  • Masoud Kabiri * Page 3
    Objective

    Nowadays, cognitive diagnostic assessment (CDA) is highly attended due to attain deeply information about examinees. In present study, CDA is used to provide more information about science responses of Iranian fourth graders who participated in TIMSS 2015.

    Methods

    11 science attributes were identified and the Q matrix was created. Then, responses of 3823 students to 206 items was analyzed by G-DINA model.

    Results

    The results showed that the model can produce suitable diagnostic evidences. Also, three attributes including: Recognize, Providing examples, and Describe had higher attribute probabilities than others and their mastery probabilities were more than 0.50. Whereas, only probability of Recognize was higher than 0.65 and this is considered as mastered attribute. In other hand, Predict and Scientific inquiry had lowest attribute probabilities.

    Conclusion

    In general, the results revealed that there are sizable deference between knowledge-based attributes and higher-order thinking attributes in students, that can associated to distance between intended and implemented curricular.

    Keywords: Cognitive diagnostic assessment, Science education, G-DINA, TIMSS, Iran education
  • Roghayeh Baghi Yazdel, Abolghasem Nadery *, Ebrahim Khodaie, Ehsan Jamali Pages 7-28

    The main goal of this paper is to present a multi-level model for analyzing the scores of the national entrance exam to universities and higher education institutions.Based on its objective, this research is an applied and a descriptive research for analyzing and explaining the factors influencing the total score of the candidates participating in the university entrance exam. We used data of the 2019 year exam which include information on socio-economic status of the candidates' including educational, health, cultural and economic variables at individual level as well as at the level of counties and provinces of the country and We used the HLM software to stimate the multilevel models.The estimation of the three-level model showed that 94.6% of the changes in the total test score were due to the differences in the individual and family characteristics of the candidates. 3.6% of the changes in the total score were related to the educational, health and cultural factors of the city and 1.8% to the economic participation rate of the province. Cosidering that 5.4% of the changes in the total score are related to the geographical location, it can be acknowledged that the difference in the total score of the candidates is not only rooted in their socio-economic status, but the simultaneous effect of this situation with the level of prosperity of the cities from the perspective of educational, health, economic and cultural factors also contributes to the intensification of the difference in the total score.

    Keywords: multilevel analysis, national exam, socio-economic status of the family, geographical region
  • Mehdi Mohammadi *, Reza Naseri Jahromi, Solmaz Khademi, Sedigheh Shadi, Majid Kowsary Pages 45-69
    Purpose
    The total purpose of this research was to analyze the content of various articles related to curriculum evaluation patterns based on emphasis on curriculum elements and internal and external effectiveness criteria. 
    methods
    quantitative, descriptive and based on quantitative content analysis. The statistical population is all research sources published in the field of curriculum evaluation, and all of them were selected as samples in the five-year period from 2017 to 2022 and 2016 to 2016. Documentary measurement tools and data collection methods were based on curriculum evaluation patterns and data analysis was done using Shannon's entropy technique.
    Results
    Among ten elements, content had the highest and most effective importance coefficient and learning time had the lowest importance coefficient. In internal and external evaluation criteria, logic had the highest importance coefficient and coherence had the lowest importance coefficient. Also, among the types of curriculum evaluation models that were used to analyze the content of the selected articles, Kirkpatrick's model was the most effective and had the highest importance coefficient, and Tien's model had the lowest importance coefficient.
    Conclusion
    In order to ensure the correct implementation of a curriculum and the improvement and promotion of curricula in the field of education, it is necessary that the effectiveness of all curriculum elements and the internal and external criteria of the curriculum should be considered in the evaluation analysis of articles.
    Keywords: content analysis, curriculum evaluation patterns, curriculum elements, internal, external effectiveness criteria of the curriculum
  • Behrooz Rahimi, Rezvan Hakimzadeh *, Mohammad Javadipour, Keyvan Salehi, Mohammad Khademi Kolehlou Pages 87-114
    Objective
    The current research was conducted with the aim of comparative study of decision making theories and educational career choice and in order to provide a strategy for evaluating and improving the educational career guidance program of Iran's education system.
    Methods
      This research was done with a comparative approach and with an analytical documentary method. Therefore, the theoretical documents were collected using related keywords and digital libraries and online databases and were analyzed through the researcher's flash capture and data summarization and classification techniques. In order to check the validity of the findings, the researcher's self review criteria were used during the process of data collection and analysis, as well as the development and rich description of the data to ensure transferability.
    Results
    The effective factors in educational career guidance based on the presented theories can be categorized into three parts, including individual factors, social factors and environmental social factors. The results of the evaluation of Iran's educational career guidance program with the statistical classification also showed that, despite paying attention to some of these factors, the educational career guidance program has not been very successful in implementation.
    Conclusion
    The effectiveness of educational career guidance programs requires identifying and considering all the influencing factors in this field. In this context, by designing and implementing the educational career guidance curriculum, all the factors and criteria that have been proposed in the theoretical base as important factors in choosing an educational career can be taken into account during the process and systematic steps in the entire educational levels of the students.
    Keywords: Theory, Choice, educational career, Evaluation, education, Iran