پایان نامه آماده کارشناسی ارشد | مولفه های تعیین‌کننده در طراحی الگوریتم‌های اجرایی CAT

پایان نامه آماده کارشناسی ارشد | مولفه های تعیین‌کننده در طراحی الگوریتم‌های اجرایی CAT – پایان نامه های کارشناسی ارشد

ارسال شده در 1 دی 1401 توسط مدیر سایت در بدون موضوع

سنجش انطباقی کامپیوتری چگونه کار می‌کند؟

در سنجش انطباقی کامپیوتری (CAT)، سؤالات به صورت متغیر و چرخشی^[۱۰۲]، بر اساس سطح توانایی آزمودنی انتخاب می‌شوند. برای انتخاب سؤالاتی با مشخصات بهینه اندازه‌گیری در سطح توانایی برآورد شده‌ آزمودنی، روش‌های انطباقی به کار می‌رود. CAT دارای مزیت‌های مشابهی همانند آزمون‌های دیگری که مبتنی بر کامپیوتر هستند، می‌باشد. این مزیت‌ها عبارتند از؛ افزایش انعطاف و ارتباط با سیستم‌های اجرایی آزمون. علاوه براین، دو مزیت دیگری وجود دارد که تنها مختص CAT می‌باشند، یکی از این مزیت‌ها این است که طول تست می‌تواند تا تقریباً ۴۰ درصد کم شود، بدون آن‌‌که دقت اندازه‌گیری کاهش یابد، همچنین، مزیت دیگر این است که، آزمودنی‌ها با دریافت کردن سؤالاتی که برای آن‌ ها خیلی آسان یا خیلی سخت است، نا امید نمی‌شوند (واینر، دورانس، ایگنور، فلاگر، گرین، میسلوی، استنبرگ و تیسن، ۱۹۹۰؛ وندر لیندن و گلاس، ۲۰۰۰).

سیستم‌های CAT، از نظر تئوریکی، روی خصوصیات تئوری سؤال پاسخ (IRT) مبتنی می‌باشد. در IRT پارامترهای توانایی و سؤال جدا از یکدیگرند. فرض بر این است که پارامترهای سؤال، برای مقادیر متفاوت پارامترهای توانایی نامتغیر می‌باشند. ‌بنابرین‏، سؤالات می‌توانند مدرج شوند و پارامترهای سؤال نیز می‌توانند در خزانه‌ی سؤال مدرج شوند. از داخل همین خزانه‌ها، سؤالاتی که حداکثر آگاهی در پارامتر توانایی برآورد شده فراهم می‌کنند، انتخاب می‌شوند (ولدکمپ، ورشور و ایگن، ۲۰۰۷).

سنجش انطباقی ‌در مورد آزمون‌هایی که دارای سؤالات دو ارزشی هستند، تا حدودی متفاوت با آزمون‌های چند ارزشی (مانند، مقیاس مدرج^[۱۰۳] و اعتبار جزئی^[۱۰۴]) کار می‌کند (لیناکر، ۲۰۰۰). شرح کامل نحوه کار CAT در این فصل خارج از حوصله می‌باشد. از این‌رو، در این فصل به منظور شرح نحوه کار آن ها، از نمونه‌ای از CAT که در مطالعات مربوط به لیناکر (۱۹۹۰، ۱۹۹۵، ۱۹۹۶، ۱۹۹۸ و ۱۹۹۹) طراحی شده و فلوچارت آن ها در نمودار۲-۱ و ۲-۲ آورده شده است، استفاده می‌شود در فلوچارتی که برای این دو آزمون آورده شده است (هم CAT که دارای سؤالات دو ارزشی است و هم CAT که دارای سؤالات چند ارزشی است)، دشواری سؤالات در دامنه ۰ تا ۱۰۰ مدرج شده است. نحوه شروع آزمون ‌به این نحو است که، الگوریتم انتخاب سؤال اولین سؤال را با توجه به سطح توانایی برآورد شده‌ آغازین، که به صورت تخمینی برای آزمودنی توسط آزمون گیرنده تنظیم می‌شود، انتخاب می‌کند و یا خود کامپیوتر یک سؤال را به صورت تصادفی انتخاب و اجرا می‌کند، اغلب سیستم طراحی CAT ‌به این صورت است که دشواری سؤال اول را متوسط انتخاب می‌کند. انتخاب سؤال اول برای دقت اندازه‌گیری مهم نیست، ولی برای حالت روانشناختی آزمودنی مهم است (لیناکر، ۲۰۰۰، لیناکر و رایت، ۱۹۸۸). گرشون^[۱۰۵] (۱۹۹۲)، پیشنهاد می‌کند که سؤال اول و حتی همه‌ سؤالات باید کمی آسان‌تر از سطح توانایی آزمودنی باشند تا به آزمودنی احساس موفقیت دهند، امّا در عین حال، موقعیتی چالش برانگیز را ایجاد کنند. یک قاعده مهم برای شروع آزمون‌هایی که ملاک مرجع هستند و سطح قبول و رد دارند، این است که، آزمون از سؤالی شروع کند که دشواری‌اش اندکی زیر ملاک قبولی باشد. در هر دو مثال اجرای CAT، فرض بر این است که دشواری سؤال اول ۳۰ واحد است. امّا آزمودنی توانایی معادل با ۵۰ واحد دارد. ‌در مورد CAT چند ارزشی نیز نحوه شروع به همین صورت است، امّا، تفاوت در این است که شیوه نمره‌دهی به برخی از گزینه‌های انحرافی که به پاسخ صحیح نسبت به برخی گزینه‌های دیگر نزدیک‌ترند، متفاوت است. این نحوه اجرا ‌در مورد آزمون‌های نگرش و شخصیت هم صدق می‌کند، به گونه‌ای که نمره‌دهی به طبقات مقیاس مدرج هماهنگ با متغیر زیربنایی است که توسط طراح مشخص می‌شود. فلوچارت‌های زیر اجرای کامل CAT را شرح می‌دهند (لیناکر، ، ۲۰۰۰). همچنین، در نمودار ۲-۳ فلوچارتی از اجرای کامل CAT آورده شده، که بر اساس مطالعه‌ هالتیکس^[۱۰۶]، ۱۹۹۳ می‌باشد.

نمودار ۲-۱: اجرای CAT برای آزمونی با سؤالات دو ارزشی

نمودار ۲-۲: اجرای CAT برای آزمونی با سؤالات چند ارزشی

نمودار۲-۳: نمونه‌ای از الگوریتم اجرای CAT برای آزمون دارو‌شناسی، بر اساس مطالعه‌ هالتیکس، ۱۹۹۳

اجرای برنامه های سنجش در مقیاس بزرگ از طریق CAT

در بسیاری از برنامه های سنجش در مقیاس بزرگ، آزمون‌های مداد-کاغذی با CAT جایگزین شدند. برای مثال، نسخه‌ CAT آزمون GRE و آزمون استعداد شغلی نیروهای مسلح (ASVAB)، هم اکنون در دسترس می‌باشد. مؤسسه‌‌ی ملّی اندازه‌گیری آموزشی (CITO) در هلند، چندین CAT تا به حال اجرا کرده ‌است؛ مانند، MATCAT، (CITO، ۱۹۹۹)، TURCAT، (CITO، ۲۰۰۸)، DSLCAT، (CITO، ۲۰۰۲) و kindergartenCAT. MATCAT، برای تشخیص نقص‌های ریاضی در دانشجویان ایجاد شده‌است (ورشور و استریتمن^[۱۰۷]، ۲۰۰۰). TURCAT، مهارت زبان ترکی را به عنوان زبان دوم سنجش می‌کند، DLSCAT، نیز زبان هلندی را به عنوان زبان دوم سنجش می‌کند، و kindergartenCAT شامل آزمون‌هایی برای اندازه‌گیری ترتیب، زبان، توانایی جهت یابی زمانی و مکانی کودکان می‌باشد (ایگن، ۲۰۰۴). این CATها تقریباً همانند همه‌ سیستم‌های CAT عملیاتی با کاربرد سؤالاتی در خزانه سروکار دارد که به طور متنوعی توزیع می‌شوند (ولدکمپ، ورشور و ایگن، ۲۰۰۷).

مؤلفه‌ های تعیین‌کننده در طراحی الگوریتم‌های اجرایی CAT

ریکیسی(۱۹۸۹)، چهار مؤلفه‌‌ی عمده CAT را شیوه انتخاب سؤال اول و به دنبال آن شیوه انتخاب سؤالات بعدی و نمره‌دهی آزمون در طول اجرای آزمون، قاعده اتمام آزمون، برآورد توانایی و خزانه‌ی سؤال بیان کرد. در سال‌های اخیر دو مؤلفه‌‌ی دیگر به آن اضافه شدند و به طور وسیعی وارد مطالعه شده‌اند، این دو مؤلفه‌ عبارت‌اند از کنترل مواجهه سؤال و تعادل محتوایی. این دو مؤلفه‌ در انتخاب سؤال محدودیت‌هایی وارد می‌کنند، به‌طوری‌که سؤالاتی انتخاب شوند که نه تنها ویژگی‌های آماری‌شان بلکه ویژگی‌های محتوایی و امنیت آن ها نیز مدنظر باشد (برگستروم و لانز^[۱۰۸]، ۱۹۹۹).

الگوریتمهای انتخاب سؤال اول^[۱۰۹] و انتخاب سؤالات بعدی، قواعد اتمام آزمون^[۱۱۰]

دو مؤلفه‌‌ی اول CAT به دلیل این‌که به هم مرتبط هستند در این بخش شرح داده می‌شود. الگوریتم‌های انتخاب سؤال برای CAT از قواعدی تبعیت می‌کنند که عبارتند از؛ ۱). چه سؤالی باید برای شروع آزمون انتخاب شود، ۲). آزمون به چه صورتی ادامه یابد و آزمون به چه صورت نمره داده شود و ۳). چه موقع آزمون متوقف شود. پس از اینکه این مراحل انجام شد، برآورد توانایی پایانی و یا نمره پایانی آزمودنی محاسبه می‌شود (پارشال، اسپری، کالن و دیوی، ۲۰۰۲).

شیوه انتخاب سؤال اولیه

نقطه شروع در CAT به سطح دشواری سؤال آغازین و یا سؤالاتی که برای یک آزمودنی اجرا شده، وابسته است. سه رویکرد برای انتخاب سؤال آغازین وجود دارد:

۱). رویکرد بهترین حدس؛ رویکرد اول بیان می‌کند که، سؤالی با دشواری متوسط به عنوان سؤال آغازین اجرا شود. به عبارتی “اگر هیچ اطلاعی ‌در مورد سطح توانایی آزمودنی نداشته باشیم، بهترین حدس ما این است که او همانند اکثریت آزمودنی‌های دیگر عمل می‌کند”.

۲). رویکرد تخمین از روی نمرات تست دیگر و یا اطلاعات تست دیگر؛ این رویکرد بیان می‌کند که، برای تصحیح برآورد اولیه توانایی آزمودنی از آزمون‌های دیگر استفاده کنیم و سپس مناسب‌ترین سطح دشواری را برای سؤال اول انتخاب کنیم.