Тема 6. Шкалирование и интерпретация результатов тестирования

1. Основные шкалы оценивания

Разработка тестов и тестирование всегда приводит к необходимости выбора шкалы, по которой будет оцениваться качество выполнения теста. Классическая шкала – мало дифференцирующая, с большой долей субъективизма.

Первичная информация при тестировании обучаемого – его первичные ("сырые") баллы. Они наглядны, просты, но существенно зависят, например, от трудности заданий. Необходима более объективная шкала оценок подготовленности обучающихся, необходимо подтверждение уровня обученности на различных тестах, с заранее определенным уровнем трудности заданий.

Также следует избавиться и от нелинейности первичных баллов по отношению к уровню подготовленности.

Пример. Шкала оценок в школе позволяет заключить лишь то, что ученик Иванов учится лучше ученика Петрова. Каковы их различия, успехи, усилия и т.д.? – Такая шкала ответа на подобные вопросы не дает. Аналогично, первичные баллы лишь упорядочивают участников тестирования.

В таких порядковых шкалах основные статистики – медиана, квантили и ранговая корреляция.

Позиционирование испытуемых на числовой оси согласно результатам испытаний осуществляется различным образом. Поэтому используются различные типы шкал оценок, например, следующие.

Шкала итоговой оценкишкала, определяемая по минимальной и максимальной оценкам (баллам), это линейное преобразование отрезка от минимальной до максимальной оценки; например, шкала 100-балльная.

Шкала нормативнаяшкала, вводимая на основе справедливости гипотезы о нормальном законе распределения баллов; например, перевод в нормативную шкалу предполагает, что знания испытуемых в их произвольной выборке подчиняются нормальному закону распределения, следовательно, равным отрезкам под кривой нормального распределения соответствуют равные количества верных ответов.

Шкала порядковая, качественная, отношенийшкала для введения отношений порядка в совокупность шкалируемых объектов, систем и выполнения всех преобразований, не нарушающих это правило порядка; например, шкала оценок в средней школе – 2, 3, 4, 5 и в высшей школе – "неудовлетворительно", "удовлетворительно", "хорошо", "отлично".

Шкала номинальная (наименований) используется экспертами при классификации эмпирических объектов измерения. Такая шкала применяется тогда, когда педагогическое измерение группирует обучающихся без установления порядка следования групп; например, деление студентов на группы сдавших и не сдавших зачет.

Пример. Если тестируемый за правильный (неправильный) ответ по заданию получает 1 (0), то результаты тестирования представляются в номинальной шкале.

Шкала интервальнаяшкала, в которой допустимы лишь линейные функции преобразования, и в которых часто нельзя отметить ни начало, ни конец, ни единицу измерения (градацию) шкалы; например, температурные шкалы Фаренгейта и Цельсия связаны зависимостью: С = 5/9 (F – 32), С – температура (в градусах) по шкале Цельсия, F – температура по шкале Фаренгейта.

Интервальная шкалашкала количественная, для упорядочения данных (объектов) согласно отношениям эквивалентности, порядка и аддитивности. В ней определена метрика (начало отсчета, единица измерения и понятие расстояния между данными, объектами), поэтому решаема задача сравнения результатов тестирования.

У качественных шкал низкая точность измерения, у количественных – выше объективность.

Часто используемая в тестологии шкала логитов переводится обычно в шкалу тестовых баллов.

В нормативно-ориентированных тестах ставится задача определения рейтинга тестируемых в группе. Это место, естественно, зависит от "фона" - группы. Используют нормы, отражающие результаты тестирования для представительной выборки испытуемых.

В критериально-ориентированных тестах ставится задача: сопоставить учебные достижения каждого испытуемого с запланированным для усвоения объемом знаний (умений, навыков). Это больше зависит уже от конкретно проверяемого содержания ГОС (программы).

Для устранения зависимости интерпретации результата тестированного от результатов в группе участников тестирования используются эмпирически, экспертно устанавливаемые нормы выполнения теста, с которыми сопоставляются первичные баллы конкретного испытуемого. Это процесс стандартизации теста, например, по среднему и стандартному отклонению индивидуальных баллов.

Часто используемые преобразования "сырых" баллов:

процентильное, отражающее процент испытуемых из нормативной группы, результаты которых не выше данного значения первичного балла;

Z-оценка, линейная оценка – отношение индивидуального отклонения тестовых баллов к стандартному отклонению по баллам всей группы испытуемых, а также линейные преобразования Z-оценки (Т-шкала и др.);

шкалы станайнов и стенов (шкала Кэттела), получаемые делением шкалы первичных баллов на ряд интервалов.

2. Интерпретация результатов тестирования

Оценку результатов тестирования лучше производить баллами.

Любое тестирование должно заканчиваться не только выставлением оценок (баллов), но и анализом результатов тестирования, выявлением уровня обучения и качества тестов.

Оценку результатов тестирования нужно производить баллами в определенной шкале баллов.

Например, 1–2 балла – "цена вопроса" в группе A, 2–3 балла – в группе B, 3–5 баллов – в группе C. Такая оценка может быть переведена в классическую пятибалльную оценку или в другую желаемую шкалу оценок. Это одно из качеств тестирования, повышающих объективность оценки успехов.

Простейший критерий объективности: ответивших правильно на все вопросы в группе A и большую часть в группе B – большинство.

Для анализа полезны отборочные тесты с высокой мерой сложности и отсеивающие тесты с низкой мерой сложности.

Если тестирование проводится в системе оценок с двумя вариантами ответов ("да", "нет"), то и результат тестирования должен быть оценен в полярной шкале: "зачет – не зачет", "аттестован – не аттестован", "сдан – не сдан". Биполярная система – малоинформативная.

Если при оценке результатов тестирования используются баллы, то их число должно быть нечетным (1–5, 0–10, 1–101 и т. д.).

Распределение баллов зависит от процента правильных ответов и может лежать в различных границах, например, часты следующие границы: "отлично" – более 95% правильных ответов, "хорошо" – 80–94%, "удовлетворительно" – 60–79%, "неудовлетворительно" – менее 60%. К сожалению, такое распределение недостаточно информативно, в частности, не классифицирует последнюю, достаточно разнообразную, группу.

Для измерения "уровня образованности" ("уровня знаний") лучше использовать логарифмическую шкалу, так называемые "логиты". Поясним эту шкалу.

Очень трудные задания снижают учебную мотивацию многих учащихся, как и очень легкие. Поэтому используется шкала, которую ввел датский математик Г. Раш, шкала "логитов". По Рашу определены два логита:

1. "логит уровня знаний" – натуральный логарифм отношения доли правильных ответов испытуемого на все задания теста, к доле неправильных ответов;

2. "логит уровня трудности задания" – натуральный логарифм отношения доли неправильных ответов на задание теста к доле правильных ответов на это задание по множеству испытуемых.

Необходимо на всех этапах тестирования учитывать, что первичные баллы – необъективны (в математико-статистическом смысле).

Результаты тестирования могут свидетельствовать иногда и о том, что есть интеллектуально развитые обучаемые, показывающие плохие результаты тестирования, как и слабые обучаемые с так называемым критическим складом ума и хорошей моторной памятью, показывающие неплохие результаты.

Необходимо учитывать дидактическую ограниченность проверки на совпадение с эталоном ответа, особенно, при компьютерной проверке знаний и умений.

Тестирование обычно завершается математико-статистической обработкой данных тестирования.