Тема 4. Проверка статистических гипотезИ.Н. Дубина, доцент кафедры информационных систем вэкономике АлтГУ656049 г.Барнаул, пр. Социалистический, 68 Тел.: (385 2) 246558 din at econ.asu.ru Дистанционно-очный учебный курсМатематические основы проектирования и анализа результатовэмпирических социально-экономических исследований ( с) И.Н. Дубина, 2006 2 Содержание • Базовые термины и идеи • Статистическая значимость и обоснованность • Статистические гипотезы • Уровни статистической значимости • Логика и процедура проверки гипотез • Статистические методы проверки гипотез: виды и границы применения • Примеры использования статистических методов проверки гипотез • Литература и ресурсы
( с) И.Н. Дубина, 2006 3 « Статистика — это прежде всего способ мышления, и для ее применения нужно лишь иметь немного здравого смысла и знать основы математики» Мак-Коннелл
( с) И.Н. Дубина, 2006 4 Базовые термины и идеи • Генеральная совокупность (population) (иногда используется калька с англоязычного термина – «популяция) – все множество объектов, в отношении которых формулируется исследовательская гипотеза • Выборка (sample) – ограниченная по численности группа объектов ( респондентов), отбираемая из генеральной совокупности для изучения ее свойств • Сплошное и выборочное исследование • Репрезентативность выборки (representativeness of sample) – способность выборки представлять изучаемые явления достаточно полно с точки зрения их изменчивости в генеральной совокупности • Любое исследование направлено на определение некоторой характеристики или выявление связи между признаками • Связь может характеризоваться не только величиной (степенью связи) и направлением, но также и надежностью или статистической достоверности (statistical confidence) • Эта характеристика связи показывает, можно ли распространить результаты, полученные на данной выборке, на всю генеральную совокупность, из которой взята эта выборка
( с) И.Н. Дубина, 2006 5 Базовые термины и идеи • Статистическая гипотеза – утверждение относительно неизвестного параметра генеральной совокупности на основе выборочного исследования • Любое заключение, полученное из статистического наблюдения / исследования / анализа, – индуктивно и строится на конечном числе наблюдений, поэтому оно не полно и может быть не достоверно • Необходимо обоснование заключения, т.е. тестирование результатов, на которых строится гипотеза, на статистическую достоверность • Надежность (достоверность) непосредственно связана с репрезентативностью выборки, т.е. с тем, насколько уверенно данные, полученные по выборке, позволяют судить о соответствующих параметрах генеральной совокупности • Надежность определяется тем, насколько вероятно, что обнаруженная в выборке связь подтвердится (будет вновь обнаружена) на другой выборке той же генеральной совокупности • Какова вероятность случайного получения результата, подтверждающего наличие связи, которой нет в генеральной совокупности? ( с) И.Н. Дубина, 2006 6 Подход к проверке статистической гипотезы, основанный лишь на «здравом смысле» • Формулировка гипотезы • Измеряемые значения по выборке всегда отличаются от измеряемых значений по генеральной совокупности, поэтому нужно определить, насколько велико (значимо) это различие • Разница в измерениях может считаться значимой, если есть основания считать, что она не представляет случайную флуктуацию • Отклонение или констатация невозможности отклонения сформулированной гипотезы на основе имеющихся данных • Пример 1 (как проверить монетку по правилу «орел-решка»: фальшивая или настоящая?) • Пример 2 (производительность труда в разных возрастных группах)
( с) И.Н. Дубина, 2006 7 Пример: Проверяется гипотеза о том, что женщины тратят больше времени на разговоры по телефону, чем мужчины. Предположим, что в исследовании принимали участие 52 мужчины и 43 женщины. Среднее время разговора составило 37 мин. в день у мужчин и 41 мин. в день у женщин. На первый взгляд, различия обнаружены, и эти результаты подтверждают гипотезу. Однако такой результат может быть получен случайно, даже если в генеральной совокупности различий нет, как и наоборот, когда различия на самом деле существуют. Поэтому закономерен вопрос: достаточно ли полученного различия в средних значениях для того, чтобы утверждать, что вообще всеженщины в среднем говорят по телефону дольше, чем все мужчины? Какова вероятность, что это не так? Является ли это различие статистически значимым? Статистическая значимость и обоснованность ( с) И.Н. Дубина, 2006 8 Статистическая значимость и обоснованность • Точный ответ о различиях или связях в отношении генеральной совокупности по результатам выборочного исследования получить невозможно • Необходимо определить, достаточно ли велика разность между средними двух распределений для того, чтобы можно было объяснить ее действием независимой переменной, а не случайностью, связанной с малым объемом выборки • Многократное проведение исследования на разных выборках трудоемко, иногда не возможно и не может обеспечить точного ответа, пока не проведено сплошное исследование • Методы статистики позволяют оценить вероятность случайного получения такого различия при условии, что на самом деле различий в генеральной совокупности нет
( с) И.Н. Дубина, 2006 9 Статистические гипотезы • Нулевая гипотеза (null hypothesis) – гипотеза об отсутствии различий (утверждение об отсутствии различий в значениях или об отсутствии связи в генеральной совокупности) • Согласно нулевой гипотезе (Н 0 ), различие между значениями недостаточно значительно, а независимая переменная не оказывает никакого влияния Альтернативная гипотеза (alternative hypothesis) – гипотеза о значимости различий ( утверждает наличие различий или существование связи) • Альтернативная гипотеза (H А ) является «рабочей» гипотезой исследования. В соответствии с этой гипотезой, различия достаточно значимы и обусловлены влиянием независимой переменной • Ненаправленная и направленная альтернативы Н 0 : μ=50 Н А : μ≠50 Н А : μ>50 Н А : μ<50 • Нулевая и альтернативная гипотезы представляют полную группу несовместных событий: отклонение одной влечет принятие другой • Основной принцип метода проверки гипотез состоит в том, что выдвигается нулевая гипотеза Н 0 , с тем чтобы попытаться опровергнуть ее и тем самым подтвердить альтернативную гипотезу H А Если результаты статистического теста, используемого для анализа разницы между средними, окажутся таковы, что позволят отклонить Н 0 , это будет означать, что верна Н А , т.е. выдвинутая рабочая гипотеза подтверждается • Не можем отклонить нулевую гипотезу - не значит «принять» альтернативную ( нулевая гипотеза никогда не может быть абсолютно подтверждена!) ( с) И.Н. Дубина, 2006 10 Статистические ошибки при принятии решений Ошибки первого и второго рода • Статистическая ошибка первого рода (Type I Error) – ошибка обнаружить различия или связи, которые на самом деле не существуют « Истинная нулевая гипотеза отклоняется» • Статистическая ошибка второго рода (Type II Error) - не обнаружить различия или связи, которые на самом деле существуют « Ложная нулевая гипотеза не может быть отклонена» • Более «критичной» ошибкой считается статистическая ошибка первого рода • « Судебная» аналогия: Вердикт «Не виновен» или «Виновен» Ошибка первого рода - невинный обвинен Ошибка второго рода - виновный освобожден
( с) И.Н. Дубина, 2006 11 Уровни статистической значимости • Тот или иной вывод с некоторой вероятностью может оказаться ошибочным, и обычно вероятность ошибки тем меньше, чем больше выборка. Таким образом, чем больше получено результатов, тем в большей степени по различиям между двумя выборками можно судить о том, что действительно имеет место в той генеральной совокупности, из которой взяты эти выборки • Однако обычно используемые выборки относительно невелики, и в этих случаях вероятность ошибки может быть значительной • Уровень значимости (level of significance) (уровень достоверности, уровень надежности, доверительный уровень, вероятностный порог) - это пороговая ( критическая) вероятность ошибки, заключающейся в отклонении (не принятии) нулевой гипотезы, когда она верна. Другими словами, это допустимая (с точки зрения исследователя) вероятность совершения статистической ошибки первого рода – ошибки того, что различия сочтены существенными, а они на самом деле случайны • Обычно используют уровни значимости (обозначаемые α), равные 0,05, 0,01 и 0,001 • Например, уровень значимости, равный 0,05, означает, что допускается не более чем 5%-ая вероятность ошибки. Т.е. нулевую гипотезу можно отвергнуть в пользу альтернативной гипотезы, если по результатам статистического теста вероятность ошибки, т.е. вероятность случайного возникновения обнаруженного различия ( pуровень) не превышает 5 из 100, т.е. имеется лишь 5 шансов из 100 ошибиться. Если же этот уровень значимости не достигается (вероятность ошибки выше 5%), считают, что разница вполне может быть случайной и поэтому нельзя отклонить нулевую гипотезу • Таким образом, p-уровень значимости (p-value) соответствует риску совершения ошибки первого рода (отклонения истинной нулевой гипотезы). Если p< α, нулевая гипотеза отклоняется ( с) И.Н. Дубина, 2006 12 Уровни статистической значимости: содержательная интерпретация • Вопрос о приемлемом значении α, т.е. вопрос о том, при каком уровне можно отклонить Но, не имеет однозначного ответа • Для установленного значения α вероятность ошибки второго рода уменьшается с ростом объема выборки • При увеличении значения α (например, с 0,01 до 0,05) вероятность ошибки второго рода уменьшается • Значение α устанавливается исходя из «научных конвенций» - соглашений, принятых в научном сообществе на основе практического опыта в различных областях исследования. Традиционная интерпретация различных уровней значимости исходит из α = 0,05 и приведена в табл. Такое значение α рекомендовано для небольших выборок (когда высока вероятность ошибки второго рода). Если объемы выборок n≥100, то порог отклонения Но целесообразно снизить до α=0,01 и принимать решение о наличии связи (различий) при р ≤ 0,01( Наследов, 2004) Уровень значимости Решение Возможный статистический вывод p> 0,1 Н о не может быть отклонена «Статистически достоверные различия не обнаружены» p <= 0,1 сомнения в истинности Н о , неопределенность «Различия обнаружены на уровне статистической тенденции» p <= 0,05 значимость, отклонение Н о «Обнаружены статистически достоверные (значимые) различия» p<=0,01 высокая значимость, отклонение Н о «Различия обнаружены на высоком уровне статистической значимости»
( с) И.Н. Дубина, 2006 13 Логика проверки гипотез • Для принятия решений о том, какую из гипотез (нулевую или альтернативную) следует принять, используют статистические критерии, которые включают в себя методы расчета определенного показателя, на основании которого принимается решение об отклонении или принятии гипотезы, а также правила ( условия) принятия решения • Этот показатель называется эмпирическим значением критерия • Это число сравнивается с известным (например, заданным таблично) эталонным числом, называемым критическим значением критерия. • Критические значения приводятся, как правило, для нескольких уровней значимости: 5% (0,05), 1% (0,01) или еще более высоких • Если полученное исследователем эмпирическое значение критерия оказывается меньше или равно критическому, то нулевая гипотеза не может быть отклонена – считается, что на заданном уровне значимости (то есть при том значении a, для которого рассчитано критическое значение критерия) характеристики распределений совпадают • Если эмпирическое значение критерия оказывается строго больше критического, то нулевая гипотеза отвергается и принимается альтернативная гипотеза – характеристики распределений считаются различными с достоверностью различий 1 – α. • Например, если α = 0,05 и принята альтернативная гипотеза, то достоверность различий равна 0,95 или 95%
( с) И.Н. Дубина, 2006 14 Логика проверки гипотез • Если эмпирическое значение критерия для данного числа степенейсвободы (df=n-1) оказывается ниже критического уровня, соответствующего выбранному значению α (порогу вероятности), то нулевая гипотеза не может считаться опровергнутой, и это означает, что выявленная разница (или связь) недостоверна • Чем эмпирическое значение меньше критического значения критерия, тем больше степень совпадения характеристик сравниваемых объектов • Чем эмпирическое значение критерия больше критического значения, тем сильнее различаются характеристики сравниваемых объектов • Если эмпирическое значение критерия оказывается меньше или равно критическому, то можно сделать вывод, что характеристики экспериментальной и контрольной групп совпадают на уровне значимости α• Если эмпирическое значение критерия оказывается строго больше критического, то можно сделать вывод, что достоверность различий характеристик экспериментальной и контрольной групп равна α ( с) И.Н. Дубина, 2006 15 Процедура проверки статистической гипотезы • Сформулировать нулевую и альтернативной гипотезы • Выбрать соответствующий статистический тест • Выбрать требуемый уровень значимости (α=0.05, 0.01, 0.025, …) • Вычислить эмпирическое значение критерия по тесту • Сравнить с критическим значением критерия по тесту • Принять решение (для большинства тестов приемлемо правило: если вычисленное значение больше, чем критическое, нулевая гипотеза отклоняется)
( с) И.Н. Дубина, 2006 16 Статистические тесты • Для того чтобы судить о том, какова вероятность ошибиться, принимая или отвергая нулевую гипотезу, применяют статистические методы, соответствующие особенностям выборки • Для данных, полученных в метрических шкалах (интервальных или относительных) при распределениях, близких к нормальным, используют параметрические методы, основанные на таких показателях, как среднее и стандартное отклонение • В частности, для определения достоверности разницы средних для двух выборок применяют метод Стьюдента, а для того чтобы судить о различиях между тремя или большим числом выборок, — F-тест или дисперсионный анализ (ANOVA) • Если исследователь имеет дело с данными, полученными в неметрических ( номинативных или порядковых) шкалах или выборки слишком малы для уверенности в том, что ген. совокупности, из которых они взяты, подчиняются нормальному распределению, используют непараметрические методы — критерий χ2 (хи-квадрат), Манна-Уитни, Уилкоксона и др. Эти методы очень просты с точки зрения как расчетов, так и применения • Выбор статистического метода также зависит от того, являются ли выборки, средние которых сравниваются, независимыми (т. е., например, взятыми из двух разных групп испытуемых) или зависимыми (т. е. отражающими результаты одной и той же группы испытуемых до и после воздействия или после двух различных воздействий) • В зависимости от тестируемой выборки, возможно использование свыше 100 возможных вариантов тестирования ( с) И.Н. Дубина, 2006 17 Статистические тесты: Приложения • Сравнение отказов компьютеров после 20-часового тестирования • Уровень доходов разных групп населения • Предпочтения товаров в разных демографических группах • Сравнение числа подписчиков на журналы • Психологические характеристики (тревожность, IQ, коммуникативность, агрессивность, …) в разных группах • Сравнение производительности труда разных групп работников предприятия • Общественное мнение (выборы и др.)
( с) И.Н. Дубина, 2006 18 Пример параметрических тестов: Z-тест X X z σ µ − = n s X = σ Согласно одной из основных теорем статистики — центральной предельной теореме, распределение средних значений выборок, извлекаемых из одной и той же совокупности при достаточно большом n соответствует нормальному распределению. Среднее значение всех выборочных средних будет равно среднему значению совокупности (µ), а ст. отклонение выборочных средних составит величину где s – стандартное отклонение выборочной совокупности Эмпирическое значение z-критерия показывает, насколько выборочное среднее отличается от среднего ген. совокупности в единицах стандартного отклонения и определяется по формуле
( с) И.Н. Дубина, 2006 19 При нормальном распределении68.27% результатов, располагается в пределах одного стандартного отклонения по обе стороны от среднего значения, вне зависимости от величины стандартного отклонения. В пределах трех стандартных отклонений умещается почти вся генеральная совокупность — 99,73%. Zтест ( с) И.Н. Дубина, 2006 20 Zтест • Вычислив критическое значение z, по таблице параметров нормального распределения можно определить площадь под кривой (%), которая соответствует вероятности того, что случайное отклонение разности средних выборочной и генеральной совокупности от 0 будет меньше z. • Пусть, например, по данным выборки получено значение z=2. Тогда вероятность того, что данная выборка принадлежит генеральной совокупности со средним µ (то есть, что верна Но), составляет p=1 —0,954 = 0,046. • Это значение соответствует p-уровню значимости, т.е. вероятности того, что данный выборочный результат мог быть получен случайно, когда на самом деле в генеральной совокупности верна Но • Таким образом, при α=0.05 нулевая гипотеза отклоняется, поскольку p<α >99 99.73 3.00 95.00 95.00 1.96 90.10 90.10 1.65 68.27 68.27 1.00 Вероятность попадания в интервал, % Площадь покрытия, % Z
( с) И.Н. Дубина, 2006 21 Пример параметрических тестов: t-тест • Для выборок меньшего объема (n<100) распределение средних соответствует другому теоретическому распределению – t-распределению Стьюдента, но общая логика проверки и формула расчета эмпирического критерия остаются теми же, что и при использовании Z-теста • Для больших выборок Z и t-тесты обеспечивают почти идентичные результаты Н 0 : μ=50 – нулевая гипотеза Н А : μ>50 – альтернативная гипотеза X=52.5 – среднее по выборке s=14 – стандартное отклонение по выборке n=100 – объем выборки t=1.786 – эмпирическое значение критерия α=0.05 – уровень значимости df=99 – число степеней свободы t cr =1.66 – критическое значение критерия Вывод: 1.786>1.66 è Н 0 отклоняется n s X t / µ − =
( с) И.Н. Дубина, 2006 22 Пример непараметрических тестов: критерий Пирсона • Примеры использования –
Кто чаще обращается в службу занкомств: мужчины или женщины? –
Кто чаще совершает аварии: мужчины или женщины? –
Зависит ли количество аварий от дня недели? –
Повлияла ли рекламная компания на выбор одного из двух товаров? • Используется для номинативных шкал, но может использоваться и для шкал более высокого уровня • Тестируется значимость различия между наблюдаемыми данными и ожидаемыми данными (основанными на Н 0 ) • Сравнивается наблюдаемое (эмпирическое) распределение частот (О) и ожидаемое (теоретическое) распределение (Е) ∑ − = i i i E E O 2 2 ) ( χ 2 χ 2 χ df=(k-1)(l-1) – число степеней свободы ( необходимо для определения критического значения критерия при заданном α) k – число градаций l – количество сопоставляемых распределений
( с) И.Н. Дубина, 2006 23 Пример использования критерия • Опрос 200 студентов о желании посещать «Ланч-клуб» • Анализ результатов в зависимости от условий проживания • Н о : Желание посещать «Ланч-клуб» не зависит от условий проживания, т.е наблюдаемое распределение (observed) частот соответствует ожидаемому (expected) распределению (О=Е) 60 200 60 9 30 15 За городом 12 40 16 Квартира на окраине 12 40 13 Квартира в центре 27 90 16 Общежитие Ожидаемое ( Е) Опрошено всего Намерены посещать ( О) χ 2 =9.89 – эмпирическое значение критерия df= (4-1)(2-1)=3 α=0.05 χ 2 cr =7.82 – критическое значение критерия Вывод: Н о отклоняется 2 χ
( с) И.Н. Дубина, 2006 24 Литература и ресурсы • Cooper, D.R., Shindler, P.S. (1995) Business Research Methods. Irwin/McGrawHill. • Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. Учебное пособие. СПб.: Речь, 2004. • Статистика и обработка данных в психологии. Электронный ресурс • В.А. Дюк. Конструирование психодиагностических тестов: традиционные математические модели и алгоритмы. Электронный ресурс • Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. М.: ИНФРА-М, 1998. • StatSoft Russia. перейти в каталог файлов
|