Интересна геометрическая интерпретация доверительного интервала на оси наблюдаемых баллов, приведенная для балла i-го учащегося. Очевидно, что с ростом SE границы доверительного интервала будут раздвигаться, и вместе с тем будут увеличиваться возможные пределы отклонения истинного балла от наблюдаемых результатов измерения (более правильная с точки зрения теории трактовка: пределы отклонения наблюдаемых баллов от истинной компоненты измерения).
6.6. Валидность гомогенных тестов
Валидность – это характеристика способности теста служить поставленной цели измерения. Как правило, постановка целей создания теста носит комплексный характер, поэтому часто стараются проверить валидность с разных позиций сообразно различным направлениям использования теста. Например, нормативно-ориентированный тест для приема абитуриентов в вузы должен служить цели дифференциации испытуемых и прогностическим целям, так как мало выделить лучших абитуриентов в момент приема, нужно также спрогнозировать успешность дальнейшего обучения зачисленных в вузы абитуриентов.
Оценивание валидности всегда проводится путем соотнесения характеристик результатов измерения с внешними критериями [ 1,28, 36]. В качестве таких критериев могут выступать оценки экспертов при анализе содержания теста и его адекватности целям измерения (содержательная валидность), результатов по другим тестам (конструктная валидность), успешности дальнейшего обучения (прогностическая валидность). Высокая корреляция между анализируемыми результатами испытуемых и внешними критериями подтверждает высокую валидность теста. Основная трудность при такой валидизации носит не практический, а методологический характер, поскольку она состоит в выборе значимого внешнего критерия.
При разработке аттестационных тестов, конечно, на первом плане находится содержательная валидность, которая определяется как характеристика репрезентативности содержания теста по отношению к запланированным для проверки знаниям, умениям и требованиям ФГОС. Если тест позволяет проверить все то, что задумано авторами в спецификации и заложено в ФГОС, то он считается валидным относительно контролируемого содержания дисциплины и целей создания аттестационного теста. Представление о содержательной валидности не следует связывать только с полнотой отображения в тесте содержания требований ФГОС, необходимо также заботиться о правильности пропорций содержания теста. Если тест отображает второстепенные элементы содержания дисциплины вместо значимых разделов, то нельзя говорить о его высокой содержательной валидности.
Конечно, во всех случаях справедлив общий вывод – чем глубже и полнее отображение, тем выше уверенность в содержательной валидности теста. Однако при нормативно-ориентированном подходе есть свои особенности. Тест валиден по содержанию, если он обеспечивает высокую дифференциацию результатов испытуемых и в нем отображено все то главное, без чего нельзя говорить о знании курса. При этом отдельные содержательные разделы могут быть представлены фрагментарно, а другие и вовсе отсутствовать в тесте. Для повышения содержательной валидности в тест лучше включать задания, содержание которых не связано каким-либо заметным образом, и потому они не могут замещаться при проверке. При прочих равных условиях эта тенденция приведет к повышению полноты охвата содержания и, следовательно, к росту содержательной валидности теста. Таким образом, если речь идет о валидности, то конструктор заинтересован в выборе заданий с малыми коэффициентами интеркорреляции.
К противоположному выводу легко прийти, если стараться повысить надежность теста. Отбирая задания с большими коэффициентами интеркорреляции, можно обеспечить высокую однородность содержания и надежность теста. Это противоречие, отмеченное впервые Ф. Лордом [38], дает основание для возникновения серьезных проблем при конструировании теста. В частности, легко представить ситуацию разработки итогового теста по алгебре. Если включить в него только задания на решение уравнений одного вида, то можно достичь высокой надежности, близкой к 0,90. Однако, и это понятно без всяких объяснений, маловероятно, чтобы такой итоговый тест обладал приемлемой содержательной валидностью.
Таким образом, при конструировании гомогенного теста следует стремиться к повышению его надежности в разумных пределах, чтобы не снизить существенным образом содержательную валидность теста. Поэтому при отборе заданий в тест необходимо иметь четкое представление об их содержании и о множестве других факторов, а не просто отдавать предпочтение тем, которые высоко коррелируют друг с другом и обеспечивают хорошую надежность теста. Правда, по рассматриваемой выше проблеме есть другая точка зрения, принадлежащая Гилфорду и Ньюнелли [36]. Они полагают, что внутренняя согласованность теста является непременным условием его высокой содержательной валидности, и потому высокая надежность служит предпосылкой оптимальной валидности теста.
Кточке зрения Ф. Лорда присоединяются Кэттелл и Клайн [17]. По их мнению, максимум валидности может быть получен тогда, когда все задания слабо, но положительно коррелируют друг с другом, при этом каждое из них имеет высокую корреляцию с критерием по тесту. Поэтому повышению валидности способствует включение заданий, для которых характерны большие коэффициенты бисериальной корреляции с суммой баллов по тесту.
При количественных оценках валидности для педагогических тестов в качестве критерия обычно берутся оценки экспертов, выставленные ими при традиционной проверке знаний учеников без использования тестов. Процесс валидизации осложняется необходимостью установления меры согласованности оценок экспертов, которых обычно бывает не менее трех. Если мера согласованности достаточно высока, то для оценки валидности используется формула
где Хi – Х̅ – отклонение тестового балла i-го ученика от среднего балла по тесту; Хтi – Х̅э — отклонение балла i-го ученика у экспертов от Х̅э — среднего арифметического экспертных оценок; SX2 — дисперсия баллов учеников по тесту; Smx2 — дисперсия баллов экспертов; m — число экспертов.
Бывают случаи, когда педагог заинтересован в оценке прогностической валидности, например, указывающей меру вероятности прогноза успешности профессиональной деятельности выпускника вуза по результатам выполнения теста. В этом случае результаты по тесту коррелируют с результатами аттестации молодых специалистов, проводимой на предприятиях и организациях в течение нескольких первых лет работы. Высокая корреляция означает, что разработанные тесты прогностичны для отбора лучших выпускников вуза, обладающих сформированными профессиональными компетенциями.
В отличие от традиционных средств контроля тесты проходят процесс научного обоснования качества, предполагающий оценку соответствия характеристик тестов двум важнейшим критериям: надежности и валидности. Разработка тестов для принятия административно-управленческих решений в образовании требует длительного исследовательского периода, охватывающего в циклическом режиме все этапы создания теста.
Анализ эмпирических данных тестирования начинается с построения матрицы, отражающей взаимодействие испытуемых и заданий в процессе выполнения теста. Обработка данных матрицы в классической теории тестов основывается на дескриптивной статистике, анализ результатов обработки позволяет оценить качество тестовых заданий и всего теста.
Наибольшую трудность при создании теста представляет интерпретация результатов обработки эмпирических результатов тестирования, но только благодаря ей может быть достигнуто высокое качество теста. Полная стандартизация процедуры предъявления теста способствует повышению точности и созданию качественных тестов.
Для разработки аттестационных тестов в вузе рекомендуется использовать традиционную теорию тестов.
Практические задания и вопросы для обсуждения
В таблице приведены ответы 30 испытуемых на одно задание теста. Всех испытуемых можно разбить на две подгруппы, одна из которых содержит 15 испытуемых высокого уровня подготовленности, а другая – 15 человек низкого уровня подготовленности (сильная и слабая группа). По данным таблицы вычислите:
1 ) среднее значение тестовых баллов по сильной и по слабой группе, сравните их;
2) дисперсию баллов по всей группе (30 испытуемых);