سنجش انطباقی کامپیوتری چگونه کار میکند؟
در سنجش انطباقی کامپیوتری (CAT)، سؤالات به صورت متغیر و چرخشی[۱۰۲]، بر اساس سطح توانایی آزمودنی انتخاب میشوند. برای انتخاب سؤالاتی با مشخصات بهینه اندازهگیری در سطح توانایی برآورد شده آزمودنی، روشهای انطباقی به کار میرود. CAT دارای مزیتهای مشابهی همانند آزمونهای دیگری که مبتنی بر کامپیوتر هستند، میباشد. این مزیتها عبارتند از؛ افزایش انعطاف و ارتباط با سیستمهای اجرایی آزمون. علاوه براین، دو مزیت دیگری وجود دارد که تنها مختص CAT میباشند، یکی از این مزیتها این است که طول تست میتواند تا تقریباً ۴۰ درصد کم شود، بدون آنکه دقت اندازهگیری کاهش یابد، همچنین، مزیت دیگر این است که، آزمودنیها با دریافت کردن سؤالاتی که برای آن ها خیلی آسان یا خیلی سخت است، نا امید نمیشوند (واینر، دورانس، ایگنور، فلاگر، گرین، میسلوی، استنبرگ و تیسن، ۱۹۹۰؛ وندر لیندن و گلاس، ۲۰۰۰).
سیستمهای CAT، از نظر تئوریکی، روی خصوصیات تئوری سؤال پاسخ (IRT) مبتنی میباشد. در IRT پارامترهای توانایی و سؤال جدا از یکدیگرند. فرض بر این است که پارامترهای سؤال، برای مقادیر متفاوت پارامترهای توانایی نامتغیر میباشند. بنابرین، سؤالات میتوانند مدرج شوند و پارامترهای سؤال نیز میتوانند در خزانهی سؤال مدرج شوند. از داخل همین خزانهها، سؤالاتی که حداکثر آگاهی در پارامتر توانایی برآورد شده فراهم میکنند، انتخاب میشوند (ولدکمپ، ورشور و ایگن، ۲۰۰۷).
سنجش انطباقی در مورد آزمونهایی که دارای سؤالات دو ارزشی هستند، تا حدودی متفاوت با آزمونهای چند ارزشی (مانند، مقیاس مدرج[۱۰۳] و اعتبار جزئی[۱۰۴]) کار میکند (لیناکر، ۲۰۰۰). شرح کامل نحوه کار CAT در این فصل خارج از حوصله میباشد. از اینرو، در این فصل به منظور شرح نحوه کار آن ها، از نمونهای از CAT که در مطالعات مربوط به لیناکر (۱۹۹۰، ۱۹۹۵، ۱۹۹۶، ۱۹۹۸ و ۱۹۹۹) طراحی شده و فلوچارت آن ها در نمودار۲-۱ و ۲-۲ آورده شده است، استفاده میشود در فلوچارتی که برای این دو آزمون آورده شده است (هم CAT که دارای سؤالات دو ارزشی است و هم CAT که دارای سؤالات چند ارزشی است)، دشواری سؤالات در دامنه ۰ تا ۱۰۰ مدرج شده است. نحوه شروع آزمون به این نحو است که، الگوریتم انتخاب سؤال اولین سؤال را با توجه به سطح توانایی برآورد شده آغازین، که به صورت تخمینی برای آزمودنی توسط آزمون گیرنده تنظیم میشود، انتخاب میکند و یا خود کامپیوتر یک سؤال را به صورت تصادفی انتخاب و اجرا میکند، اغلب سیستم طراحی CAT به این صورت است که دشواری سؤال اول را متوسط انتخاب میکند. انتخاب سؤال اول برای دقت اندازهگیری مهم نیست، ولی برای حالت روانشناختی آزمودنی مهم است (لیناکر، ۲۰۰۰، لیناکر و رایت، ۱۹۸۸). گرشون[۱۰۵] (۱۹۹۲)، پیشنهاد میکند که سؤال اول و حتی همه سؤالات باید کمی آسانتر از سطح توانایی آزمودنی باشند تا به آزمودنی احساس موفقیت دهند، امّا در عین حال، موقعیتی چالش برانگیز را ایجاد کنند. یک قاعده مهم برای شروع آزمونهایی که ملاک مرجع هستند و سطح قبول و رد دارند، این است که، آزمون از سؤالی شروع کند که دشواریاش اندکی زیر ملاک قبولی باشد. در هر دو مثال اجرای CAT، فرض بر این است که دشواری سؤال اول ۳۰ واحد است. امّا آزمودنی توانایی معادل با ۵۰ واحد دارد. در مورد CAT چند ارزشی نیز نحوه شروع به همین صورت است، امّا، تفاوت در این است که شیوه نمرهدهی به برخی از گزینههای انحرافی که به پاسخ صحیح نسبت به برخی گزینههای دیگر نزدیکترند، متفاوت است. این نحوه اجرا در مورد آزمونهای نگرش و شخصیت هم صدق میکند، به گونهای که نمرهدهی به طبقات مقیاس مدرج هماهنگ با متغیر زیربنایی است که توسط طراح مشخص میشود. فلوچارتهای زیر اجرای کامل CAT را شرح میدهند (لیناکر، ، ۲۰۰۰). همچنین، در نمودار ۲-۳ فلوچارتی از اجرای کامل CAT آورده شده، که بر اساس مطالعه هالتیکس[۱۰۶]، ۱۹۹۳ میباشد.
نمودار ۲-۱: اجرای CAT برای آزمونی با سؤالات دو ارزشی
نمودار ۲-۲: اجرای CAT برای آزمونی با سؤالات چند ارزشی
نمودار۲-۳: نمونهای از الگوریتم اجرای CAT برای آزمون داروشناسی، بر اساس مطالعه هالتیکس، ۱۹۹۳
اجرای برنامه های سنجش در مقیاس بزرگ از طریق CAT
در بسیاری از برنامه های سنجش در مقیاس بزرگ، آزمونهای مداد-کاغذی با CAT جایگزین شدند. برای مثال، نسخه CAT آزمون GRE و آزمون استعداد شغلی نیروهای مسلح (ASVAB)، هم اکنون در دسترس میباشد. مؤسسهی ملّی اندازهگیری آموزشی (CITO) در هلند، چندین CAT تا به حال اجرا کرده است؛ مانند، MATCAT، (CITO، ۱۹۹۹)، TURCAT، (CITO، ۲۰۰۸)، DSLCAT، (CITO، ۲۰۰۲) و kindergartenCAT. MATCAT، برای تشخیص نقصهای ریاضی در دانشجویان ایجاد شدهاست (ورشور و استریتمن[۱۰۷]، ۲۰۰۰). TURCAT، مهارت زبان ترکی را به عنوان زبان دوم سنجش میکند، DLSCAT، نیز زبان هلندی را به عنوان زبان دوم سنجش میکند، و kindergartenCAT شامل آزمونهایی برای اندازهگیری ترتیب، زبان، توانایی جهت یابی زمانی و مکانی کودکان میباشد (ایگن، ۲۰۰۴). این CATها تقریباً همانند همه سیستمهای CAT عملیاتی با کاربرد سؤالاتی در خزانه سروکار دارد که به طور متنوعی توزیع میشوند (ولدکمپ، ورشور و ایگن، ۲۰۰۷).
مؤلفه های تعیینکننده در طراحی الگوریتمهای اجرایی CAT
ریکیسی(۱۹۸۹)، چهار مؤلفهی عمده CAT را شیوه انتخاب سؤال اول و به دنبال آن شیوه انتخاب سؤالات بعدی و نمرهدهی آزمون در طول اجرای آزمون، قاعده اتمام آزمون، برآورد توانایی و خزانهی سؤال بیان کرد. در سالهای اخیر دو مؤلفهی دیگر به آن اضافه شدند و به طور وسیعی وارد مطالعه شدهاند، این دو مؤلفه عبارتاند از کنترل مواجهه سؤال و تعادل محتوایی. این دو مؤلفه در انتخاب سؤال محدودیتهایی وارد میکنند، بهطوریکه سؤالاتی انتخاب شوند که نه تنها ویژگیهای آماریشان بلکه ویژگیهای محتوایی و امنیت آن ها نیز مدنظر باشد (برگستروم و لانز[۱۰۸]، ۱۹۹۹).
الگوریتمهای انتخاب سؤال اول[۱۰۹] و انتخاب سؤالات بعدی، قواعد اتمام آزمون[۱۱۰]
دو مؤلفهی اول CAT به دلیل اینکه به هم مرتبط هستند در این بخش شرح داده میشود. الگوریتمهای انتخاب سؤال برای CAT از قواعدی تبعیت میکنند که عبارتند از؛ ۱). چه سؤالی باید برای شروع آزمون انتخاب شود، ۲). آزمون به چه صورتی ادامه یابد و آزمون به چه صورت نمره داده شود و ۳). چه موقع آزمون متوقف شود. پس از اینکه این مراحل انجام شد، برآورد توانایی پایانی و یا نمره پایانی آزمودنی محاسبه میشود (پارشال، اسپری، کالن و دیوی، ۲۰۰۲).
شیوه انتخاب سؤال اولیه
نقطه شروع در CAT به سطح دشواری سؤال آغازین و یا سؤالاتی که برای یک آزمودنی اجرا شده، وابسته است. سه رویکرد برای انتخاب سؤال آغازین وجود دارد:
۱). رویکرد بهترین حدس؛ رویکرد اول بیان میکند که، سؤالی با دشواری متوسط به عنوان سؤال آغازین اجرا شود. به عبارتی “اگر هیچ اطلاعی در مورد سطح توانایی آزمودنی نداشته باشیم، بهترین حدس ما این است که او همانند اکثریت آزمودنیهای دیگر عمل میکند”.
۲). رویکرد تخمین از روی نمرات تست دیگر و یا اطلاعات تست دیگر؛ این رویکرد بیان میکند که، برای تصحیح برآورد اولیه توانایی آزمودنی از آزمونهای دیگر استفاده کنیم و سپس مناسبترین سطح دشواری را برای سؤال اول انتخاب کنیم.