Главная страница
Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей
qrcode

Методология измерений как потерять всех друзей-психологов и заставить их себя ненавидеть


НазваниеМетодология измерений как потерять всех друзей-психологов и заставить их себя ненавидеть
АнкорMetodologia.pptx
Дата23.06.2019
Размер3.47 Mb.
Формат файлаpptx
Имя файлаMetodologia.pptx.pptx
ТипДокументы
#55556
КаталогОбразовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей
Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей


Методология измерений: как потерять всех друзей-психологов и заставить их себя ненавидеть?
Денис Федерякин, Ирина Угланова НИУ ВШЭ, Институт образования, Измерения в психологии и образовании При подготовке использовались материалы Тюменевой Ю.А., Васина Г.М., Кардановой Е.Ю.


Дисклеймер Как потерять всех друзей-психологов и заставить их себя ненавидеть?
Нечего сказать про исследование?

Как выбрать лучший тест?


Педагогические и психологические тесты
это задание; вариант ответа «Абсолютно согласен» говорит о самом высоком уровне черты, которое может измерить задание.

Почему именно тесты? Отделение одной характеристики респондентов от смежных
Объективность и справедливость
Экономически выгодно
денег для организации заработают сотрудники в зависимости от корреляции баллов по инструменту и результативности сотрудника при сравнении с набранными случайно

Измерение
В естественных науках:
ВСЕГДА), но иногда ею можно пренебречьВ социальных науках:
Но: по одному шагу за раз.

Конструкты
Вы когда-нибудь видели критическое мышление
или тревожность ходящими по комнате? Ненаблюдаемые (латентные) конструкты не существуют в реальности
То, что мы измеряем – это наше представление об определенных чертах или способностях (операционализация конструкта, модель конструкта)

Операциональное определение


Операциональное определение


Валидность
Действительно ли Ваш тест измеряет конструкт в Вашем понимании?
Давным-давно в далекой-далекой галактике существовала только критериальная валидность, и все были очень тревожные. Конструктная валидность – это выход. Валидность – это сумма доказательств, поддерживающих вашу интерпретацию тестового балла Процесс валидизации никогда не может быть полностью завершен,
поэтому Вы можете собирать свидетельства о валидности хоть всю жизнь.

Разработка теста




Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Разработка теста


Зачем это все?
После получения тестового балла мы меняли только наше понимание того, что тестовый балл значит. Но больше ничего не менялось.
Мы работаем с выборкой. Если выборка репрезентативна, то на этих шагах делаются математические допущения о распределении черты в генеральной совокупности (во всей популяции людей, на которую мы можем распространять результаты). А если нерепрезентативная?

Кроме того: одномерность теста
Когда читаете про Альфу Кронбаха, всегда натыкаетесь на то, что «она не должна использоваться как мера одномерности теста»
Чё? Одномерность предполагает, что все многообразие поведения, стоящего за конструктом можно отразить одномерной шкалой.

Действия, которые должны относиться к нашему конструкту, происходят из-за нашего конструкта. И только из-за него.
Респондент не может быть лучше в одном аспекте конструкта, чем в другом.

Эталоны
Что такое тестовый балл?
Что является единицей измерения?

Концепт тестового балла


Ошибка измерения
Кто о ней вообще думает?
Самая известная модель классической теории тестирования:
X = T + E, где X – это полученный (наблюдаемый, тестовый) балл T – это истинный балл E – это ошибка определения истинного балла Ошибка есть всегда. Какие-то ответы определяются истинной способностью испытуемого, а какие-то – ошибкой.

Ошибка измерения
Поскольку определить ошибку напрямую невозможно, для нее придуманы философские допущения.

Есть случайная ошибка измерения.


Систематическая ошибка измерения систематически и предсказуемо изменяет его на одну и ту же величинуКак её определить?

Случайная ошибка измерения
Средняя ошибка при бесконечном повторении тестирования равна нулю.
Ошибки двух людей не связаны, ошибки двух вопросов не связаны.
Ошибка не связана с истинным баллом.

Ошибка измерения и надежность теста
Надежность теста – это мера того, насколько данные свободны от ошибки
Измеряет ли тест вообще что-либо или все результаты – набор ошибок?
[и самая плохая] – α Кронбаха

Инвариантность измерения относительно инструмента
Разные варианты (формы) теста.
Все задания разные: какие-то легче, какие-то труднее. Как доказать, что варианты теста эквивалентны?
Как определить, какие баллы по одному варианту эквивалентны каким баллам по другому?

Поговорим про практические аспекты?
Трудность задания
Надежность

Трудность задания
В дихотомическом случае (0/1 балл) коэффициент трудности равен доле правильно решивших задание от всей выборки (среднему баллу за задание)

Вы хотите, что бы ваши задания выполняли сильные респонденты, и не выполняли слабые, т.е., чтобы ваши задания дифференцировали респондентов по уровню способностиСуществует несколько способов измерить различительную способность задания


Коэффициенты корреляции
Мы можем посмотреть, как связан балл за одно задание
с итоговым баллом по тесту Связано должно быть сильно
И положительно, если вопрос прямой
Зачем на это смотреть?
Итоговый балл за задание – выраженность конструкта
Связь балла за задание с итоговым баллом – связь отдельного аспекта конструкта с конструктом в целом

Коэффициенты корреляции (КК)
Правомерно ли рассчитывать корреляцию баллов за задание с баллом за тест, в который входит это задание?
Скорректированные КК особенно критично применять, когда в тесте мало заданий, и вклад каждого задания в тестовый балл особенно силен; тем не менее, их рекомендуется применять всегда
Формулы скорректированных КК не отличаются ничем, но они рассчитываются на скорректированном тестовом балле, который лишен вклада изучаемого задания
*
*Скорректированный тестовый балл различается для всех заданий

Коэффициенты корреляции


Критические значения параметров
АЛЯРМ: КОНВЕНЦИОНАЛЬНЫЕ СТАНДАРТЫ!!!1
Трудность:
0.95) и экстремально трудных заданиях (<0.05)Различительная способность:
Но конвенциональный стандарт 0.20 един для всех мер

Изящество классической модели


Итого: абсолютный релятивизм
Измеряемые величины плавают от одного определения к другому, от одной операционализации к другой
Единых эталонов измерения нет, даже внутри одного теста
Ошибка измерения неотделима от истинного балла непосредственно, поэтому придумано множество косвенных способов, как её определить опосредованно (и ни один из них не правилен абсолютно)
Измерение зависит от варианта измерительного инструмента
Психология – наука победившего постмодернизма (как и педагогика).

Что же делать?
Один тест не может сравниваться с другим тестом, только если это не цели валидизации

«Модель конструкта, заложенная в этот тест, лучше отвечает целям нашей работы».

Нужны ли тесты вообще? Да. Особенно хорошие. Экономически выгоднее (тиражируемость)
Объективнее оценивают отдельные ключевые характеристики

Справедливость и равенство (лишены индивидуальных искажений экспертов)

Спасибо за внимание!






Психологическое тестирование: математический взгляд


Тестирование: математический взгляд


Про вероятность правильного ответа на вопрос


Шкалирование Гуттмана


Все сложнее: “дисперсия ошибки”


Классическая Теория Тестирования


Современная теория тестирования


Логистическая регрессия


Логистическая регрессия


θ – уровень подготовленности респондента
δ – уровень трудности задания
P – вероятность правильно ответить на задание

Мы допускаем, что есть некоторый параметр здания (трудность), который лежит на одной на одной шкале с параметром испытуемого (способностью)
Чем больше разница между этими параметрами (их разность по модулю,

Получение 1 балла по заданию перестает рассматриваться как часть итогового тестового баллаОно рассматривается как дихотомическое событие, вероятность наступления которого зависит от разницы между трудностью и способностью

Таким образом, мы можем смоделировать латентную непрерывную характеристику способностей испытуемых (и заданий)
NB!: вероятность никогда не будет равна 0 или 1 (в силу формулы)

Карта переменных (Wright Map, Kidmap, Variable Map)


Статистические основания продвинутых психометрических методов: пример теста из трех заданий


Поговорим про модели
Строго говоря, IRT – не теория, а набор моделей
Эти модели используются, потому что они удобны, никакой теоретической рамки за этим набором моделей нет
IRT Моделирует вероятность исхода случайного дихотомического события на основе ряда других дихотомических событий
Существует большое количество различных моделей, но традиционно их разделяют на два семейства:

Дихотомические модели: 1PL


“In reality no one does 3PL model. Even 2PL model using is seldom. However, I’m going to show you 5PL model.” Dr. David Stillwell, Cambridge Psychometrics Centre 7 Sep 2017

Дихотомические модели: 5PL

Специфические модели
Политомические модели (в том числе, для психологических данных)

Многомерные модели (когда несколько шкал коррелируют друг с другом)

Многофасетные модели (когда в модель включаются дополнительные фасеты, влияющие на вероятность получить определенный балл за задание, например, проверяющие)
Тестлет-модели (когда несколько шкал иерархически вкладываются в одну)
Многоуровневые модели (когда выборка кластеризована на основе содержательного признака)
Модели для номинальных данных (Nominal Response Models)
Модели для ипсативных данных (Thurtstonian IRT Model)
Модели, учитывающие время ответа на вопрос
И другие…

перейти в каталог файлов

Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей

Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей