Быстрый поиск

Разработка опросника диагностики фобий и страхов

p align="left">2. Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы. Валидность по объему показывает, в каком объеме, в какой мере психическое свойство отражено в методике.

3. Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидации (проверке теста на валидность) тестов оценки умственных способностей школьников в качестве экспертов обычно выступают учителя.

4. Внешняя валидность означает, что впечатление, которое создается у неспециалистов при знакомстве со стимульным материалом и сугубо внешней стороной тестирования, соответствует заявленному содержанию метода.

Эффективная методика может быть создана, если она прошла все этапы валидации, то есть когда приняты меры для придания ей как содержательной валидности (см. общее значение понятия валидности выше), так и практической.

2.3.2. Надежность

О высокой надежности метода говорят в том случае, когда метод точно измеряет то свойство, для измерения которого он предназначен. В качестве критериев точности можно отметить следующие:

1. При повторном применении метода к тем же самым испытуемым в одних и тех же условиях через определенный интервал времени результаты обоих тестирований существенно не различаются между собой.

2. Действия случайных посторонних факторов не оказывают существенного влияния на результаты тестирования. В качестве посторонних факторов можно назвать следующие: эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, температура, освещенность помещения и др. Такие посторонние случайные факторы еще называют факторами нестабильности измерительной процедуры.

3. При повторном применении метода к тем же самым испытуемым через определенный интервал времени в измененных условиях результаты обоих тестирований существенно не различаются между собой. Под измененными имеется в виду следующие условия: другой экспериментатор, состояние респондента и др.

Существуют различные методы оценки надежности:

Ретестовый метод - повторное тестирование выборки испытуемых одним и тем же тестом через определенный интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни.

ТЕСТ ИНТЕРВАЛ РЕТЕСТ

За индекс надежности принимается коэффициент корреляции между результатами двух тестирований. Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа; низкая корреляция может быть результатом происшедших изменений с испытуемым, а также может свидетельствовать о ненадежности теста.

Надежность взаимозаменяемых форм - повторное тестирование выборки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях.

ТЕСТ А ИНТЕРВАЛ ТЕСТ А'

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя параллельными формами теста. Высокий коэффициент корреляции и большой интервал между двумя испытаниями свидетельствуют о высокой надежности теста.

Возможный обман со стороны испытуемого, его искушенность, события, происшедшие в интервале между тестированиями, не оказывают особого влияния (как в ретестовом методе) на степень надежности теста. Если фактор тренировки снижен при тестировании параллельными формами, то эффект переноса принципа заданий часто имеет место. Эффект переноса следует учитывать при построении параллельных форм.

Требования к построению параллельных форм:

параллельные формы должны быть независимо построенными тестами, но отвечать одним и тем же требованиям;

должны содержать одинаковое количество заданий со сходной степенью трудности;

эквивалентность параллельных форм необходимо проверять ретестовым методом.

Метод расщепления состоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов (например, тест Равена содержит две части: четные и нечетные задания).

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя этими частями. Он называется коэффициентом внутренней согласованности теста.

Валидность и надежность. Тест может быть надежен, но не валиден. Это означает, что он измеряет какое-то свойство очень точно, но какое именно - остается под вопросом. В такой ситуации необходима более точная валидизация теста, как содержательная, так и практическая.

Со стороны взаимодействия испытуемого с тестом, причины недостоверности результатов могут быть следующие:

1. у респондента может не быть четкого представления о том, о чем его спрашивают;

2. на респондента влияет фактор социальной желательности, то есть респондент пытается представить себя в наивыгодном свете, отвечает, ориентируясь на общепринятые нормы. Во избежании влияния такого фактора в опросники вводятся шкалы лжи;

3. респондент не способен оценить те черты, о которых его спрашивают;

4. позиционный стиль ответов, то есть через некоторое время испытуемый начинает отвечать в одном ключе, поймав какую-то нить (например, «да, да, да...»). Чтобы этого не происходило, вводят прямые и обратные вопросы;

5. респондент отвечает случайным образом. Чтобы избежать случайных ответов, вводят дублирующие друг друга вопросы (очень близкие синонимы).

2.4. Процесс разработки психодиагностических методик (опросников)

2.4.1. Определение гипотетического конструкта.

Прежде всего, необходимо точно определить, что будет измерять тест. Для этого анализируем соответствующую литературу, чтобы уточнить понятие. Сразу же стоит определить характеристики выборки, для которой тест предназначен - пол, возраст, другие особенности, если они важны. Результатом является т.н. теоретическое определение, раскрывающее сущность явления (измеряемого свойства) и его связи с другими психическими свойствами. Но для создания методики определение должно быть более подробным, и раскрывать также причины - другие, более глубокие явления, с которым связано измеряемое. При этом важно, чтобы определение было корректным с точки зрения логики, иначе тест, если и будет создан, будет измерять неизвестно что.

Далее, на основе теоретического, создаётся операциональное определение. Оно описывает соответствующее измеряемому свойству поведение и состояния.

Следующий шаг - выделение из операционального определения индикаторов.

2.4.2. Разработка первоначальной формы опросника

Принимается решение о форме ответов: дихотомия, трихотомия, количественная оценка и т.п.

Далее, к каждому индикатору придумывают ряд заданий (вопросов или утверждений). При этом должно быть примерно одинаковое число прямых и обратных заданий

Требования к формулировкам заданий:

неочевидность значений ответов;

понятность и недвусмысленность;

конкретность;

в каждом задании должен быть только один вопрос или утверждение;

следует избегать вопросов о частоте, если она не определена;

не должны навязываться определённые ответы;

формулировка должна побуждать к первому, пришедшему на ум ответу;

испытуемому над ответами не приходилось бы надолго задумываться;

задания должны охватывать всю область проявления.

Когда задания сформулированы, их следует «перемешать» так, чтобы

вопросы по одному индикатору не шли подряд;

прямые и обратные вопросы чередовались, лучше - случайным образом.

2.4..3. Психометрическая проверка (анализ пунктов).

С помощью первоначальной формы тестируют выборку испытуемых (т.н. первоначальное тестирование). По поводу необходимого её размера спорят, но все сходятся, что минимальное число испытуемых - 200 человек. Более точный размер зависит от специфики конструкта. Разумеется, выборка должна соответствовать стандартным требованиям.

После тестирования данные обрабатываются.

Для теста в целом основной показатель - коэффициент однородности б, показывающий, насколько задания в целом измеряют что-то одно. Чаще всего это коэффициент Кьюдера-Ричардсона, значение которого д.б. не менее 0.75 - 0.85, лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.

Используется также коэффициент корреляции при расщеплении пополам Спирмена-Брауна.

Для каждого задания существует ряд показателей, главные из которых

коэффициент корреляции с итоговым баллом и индекс дискриминативности

2.4.4. Отбор и корректировка заданий

На основании подсчитанных показателей отбираются пригодные. Отбрасываются, прежде всего, те, что имеют корреляцию с итоговым баллом, близкую к 1 . кстати. Потом выбрасываем недискриминативные задания. Обычно «вылетают» более половины заданий. Если оставшихся не хватает, то предпринимаем следующие меры:

в заданиях, имеющих отрицательную и значимую корреляцию с итоговым баллом ключ меняют на обратный;

В недискриминативных вопросах:

- смягчают или конкретизируют формулировку;

по-другому определяют объём;

анализируют содержание и определяют социокультурные факторы искажения, изменяют формулировку с учётом этого;

2.4.5. Проверка валидности и надёжности исправленной формы.

Из отобранных и изменённых заданий формируют исправленную форму с соблюдением тех же требований. Она проверяется на аналогичной, но другой выборке. Далее повторяется вся процедура проверки, но если отбор был произведён тщательно, отбрасывать больше нечего. В противном случае всё приходится начинать сначала.

Однако следует выяснить, что же измеряет получившийся, уже надёжный тест. Для этого существует два основных метода:

А) Метод контрастных групп

Б) Перекрёстная валидизация (проверка конкурентной валидности). Здесь мы снова обратимся к теоретическому определению и подберём уже проверенную надёжную методику, измеряющее то же, связанное или противоположное свойство. Эта методика предлагается тем же испытуемым, на которых проверялась исправленная форма. Между результатами этой и разрабатываемой методики подсчитывается коэффициент корреляции, он должен быть значимым .Если это действительно так, валидность можно считать подтверждённой.

Оптимально совместное использование обоих этих методов.

Следующий шаг - проверка ретестовой надёжности.

2.4.6. Стандартизация и комплектность готовой методики.

Тестовые показатели сами по себе не имеют смысла. Их необходимо сопоставить с усреднёнными нормами. Для современных методик существует требование переводить сырые баллы в стандартные единицы.

На этапе создания теста формируется некоторая группа испытуемых, на которой проводится данный тест. Средний результат выполнения этого теста в данной группе принято считать нормой. Средний результат - это не единственное число, а диапазон значений. Существуют определенные правила формирования такой группы испытуемых, или, как ее иначе называют, выборки стандартизации:

1) выборка стандартизации должна состоять из респондентов, на которых в принципе ориентирован данный тест.

2) выборка стандартизации должна быть репрезентативной, то есть представлять собой уменьшенную модель популяции (группы, для которой тест предназначен) по таким параметрам, как возраст, пол, профессия, географическое распределение и т.д.

Распределение результатов, полученных при тестировании испытуемых выборки стандартизации, можно изобразить с помощью графика - кривой нормального распределения (гистограммы). Он показывает, какие значения первичных показателей входят в зону средних значений (в зону нормы), а какие выше и ниже нормы.

Очень важный, наиболее сложный этап - создание интерпретации, то есть прогнозное описание поведения, свойственного испытуемым с таким-то стандартным баллом. Она создаётся на основе определения, с учётом обнаруженных при проверке валидности связей, анализе того, какие именно индикаторы остались после отбора заданий и т.п.

Итогом всей работы является руководство к тесту, в которое, если это приличный тест, входят:

Стандартный стимульный материал (бланк, опросник и инструкция).

Ключи и шаблоны для обработки.

Краткий теоретический обзор проблемы тестирования данного свойства.

Страницы: 1, 2, 3, 4, 5