Быстрый поиск

Дипломная работа: Особенности статистической оценки качества теста диагностики индивидуального прогресса учащихся общеобразовательной школы

Таким образом, возникает проблема при статистическом подтверждении уровня задачи. Необходим новый метод (дополнительный критерий), который будет подтверждать уровень задания.

Первая гипотеза подтвердилась о том, что уровни заданий положительно связаны с мерой их статистической трудности, но характер ее сложный.

Вывод: анализ «Мониторинга индивидуального прогресса учебных действий школьников» [15] показал, что авторы использовали следующие статистические показатели:

· средние значения;

· стандартное отклонение;

· критерий нормальности распределения;

· коэффициент корреляции

Кроме того, вычислялись классические характеристики для тестов:

· трудность задания;

· индекс трудности;

· трудность системы заданий;

· достижение учащегося;

А также вычислялись специальные характеристики, которые являются классическими, связанные с определение линейного и уровневнего прогресса.

Заметим, что для анализа качества заданий не пришлось использовать классические характеристики валидность и надежность. Также при анализе было обнаружено, что показатель трудности задания не всегда адекватно подтверждает уровень задания.

§3.3 ИЗУЧЕНИЕ ВОЗМОЖНОСТЕЙ ПРИМЕНЕНИЯ КЛАССИЧЕСКИХ СТАТИСТИЧЕСКИХ МЕТОДОВ ДЛЯ ОЦЕНКИ КАЧЕСТВА ЗАДАНИЙ ТЕСТА ДИАГНОСТИКИ ИНДИВИДУАЛЬНОГО ПРОГРЕССА

В предыдущем параграфе мы отметили, что разработчики теста диагностики ИП почти не использовали классические методы при обработке заданий теста. По всей видимости, это связано с тем, что применение этих методов требовало решения отдельной задачи – адекватности применения методов в данной ситуации. Целью данного параграфа является ответ на вопрос, какие методы классической теории тестирования можно использовать для обработки заданий теста диагностики ИП. Перед нами будут стоять две основные задачи:

1. Рассмотреть возможности применения классических методов оценки валидности, надежности, дискриминативности к тесту ИП;

2. Выделить метод статистического подтверждения уровня задания.

3.3.1 О применении методов оценки валидности, надежности, дифференцирующей способности

Так же как и для обычных педагогических тестов, мы можем применять описательную статистику и для теста диагностики ИП. Как мы уже выяснили, основными показателями, характеризующими качество педагогического теста, являются валидность, надежность и дифференцирующая способность (дискриминативность).

Мы рассмотрели два метода нахождения валидности. Анализ показал, что оба метода мы можем использовать для теста диагностики ИП. Но, как уже говорилось ранее, данный тест имеет сложную трехуровневую структуру. Может сложиться такая ситуация, что сумма индивидуальных баллов будет больше у испытуемого, который решил все задания первого уровня, чем у испытуемого, который решил не все задания первого уровня, но решил задания второго и третьего уровней. Поэтому, первый метод вычисления валидности мы применить не можем.

Рассмотрим еще раз второй метод нахождения валидности, которые вычисляют коэффициент корреляции по формуле Пирсона [21].

В нашем случае результаты вычисления можно интерпретировать следующим образом. В нормальной ситуации лучше, если связь заданий между собой средняя или слабая. Но заметим, в силу специфики теста, между некоторыми уровневыми заданиями должна быть сильная корреляция. Таким образом, этот метод можно применять с учетом особенностей его интерпретации:

· Между уровневыми заданиями → 1

· Между заданиями одного уровня < 0,5

Рассмотрим на примере нашего теста ИП вычисление тесноты связи заданий между заданиями разных уровней и заданиями одного уровня.

Расчет происходил над выборкой 488 человек. Задание (1-й уровень) решило 300 человек, задание (1-й уровень) решило 259 человек. Тесноту связи заданий рассчитываем по формуле:

где и - сумма квадратов отклонений по заданиям и , и - количество правильных ответов на то и другое задание соответственно; - сумма попарных произведений тестовых баллов, полученных по каждому из заданий.

Таким образом, в этом случае теснота связи между заданиями одного уровня является слабой. Это говорит о том, что задания являются валидными.

Теперь рассмотрим возможности применения методов вычисления надежности. Как мы уже знаем, надежность теста характеризует степень устойчивости результатов тестирования каждого испытуемого. Фактически коэффициент надежности показывает корреляционную связь между результатами измерений, проведенных в одинаковых условиях. Опять же, в силу специфической структуры теста диагностики ИП (используют задания разного типа и сложности и др.) мы не можем применять методы, которые требуют разбиение теста на две равные части. К ним относятся метод половинного деления и метод оценки достижений группы. Метод подсчета средней корреляции заданий теста и метод, который заключается в вычислении коэффициента надежности теста по формуле Кюдера-Ричардсона [21], не требующие разбиения теста на части, мы можем использовать для оценки качества заданий теста диагностики ИП. Эмпирическим путем нами было получено, что оценка надежности теста этими методами является удовлетворительной ( → 1). Но метод подсчета средней корреляции заданий теста требует составления корреляционной таблицы, на что уходит много времени. Поэтому, для обработки заданий теста диагностики ИП, мы будем вычислять надежность по формуле Кюдера-Ричардсона. Рассмотрим на примере теста диагностики ИП вычисление надежности по формуле Кюдера-Ричардсона:

Формула Кюдера-Ричардсона:

где - число заданий в тесте, - сумма дисперсий заданий теста, - дисперсия.

Число заданий в тесте 47, =71, =7,31

Таким образом, надежность найденная по формуле Кюдера-Ричардсона является удовлетворительной ( → 1).

Рассмотрим возможности применения методов нахождения дискриминативности. Анализ первого метода, который вычисляет коэффициент дискриминации, показал, что метод можно применять для данного теста. Второй и третий метод мы не можем использовать опять же в силу того, что тест имеет сложную структуру. А эти методы требуют разбиение теста на части. Четвертый и пятый методы также не подходят, так как в литературе недостаточно описана интерпретация результатов. Мы можем применять его, в том случае, если задать определенную выборку. Но это очень сложная процедура, которая требует много времени и действий.

Рассмотрим на примере теста диагностики ИП расчет дискриминативности методом, который вычисляет коэффициент дискриминации по формуле:

где x – среднее арифметическое значение всех индивидуальных оценок по тесту, - среднее арифметическое значение оценок по тесту у тех испытуемых, которые правильно решили задачу, - среднеквадратическое отклонение индивидуальных оценок по тесту для выборки, n – число испытуемых, правильно решивших задачу, - общее число испытуемых.

Общее число испытуемых ; число испытуемых, правильно решивших задачу ; среднее арифметическое значение всех индивидуальных оценок по тесту ; среднее арифметическое значение оценок по тесту у тех испытуемых, которые правильно решили задачу ; среднеквадратическое отклонение индивидуальных оценок по тесту для выборки .

Таким образом, дифференцирующая способность, найденная методом, который вычисляет коэффициент дискриминации, является удовлетворительной.

Вывод: нами были рассмотрены возможности применения классических методов оценки валидности, надежности, дискриминативности. Для обработки заданий теста диагностики ИП мы выделили: один метод нахождения валидности – вычисление коэффициента корреляции по формуле Пирсона; один метод нахождения надежности - вычисление коэффициента надежности теста формулой Кюдера-Ричардсона; и один метод нахождения дискриминативности, который вычисляет индекс дискриминации.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13