Главная страница
qrcode

Краткий курс по методам математической статистики краткий курс методы математической статистики


НазваниеКраткий курс по методам математической статистики краткий курс методы математической статистики
АнкорMetodichka po mat statistike.pdf
Дата15.05.2017
Размер1.75 Mb.
Формат файлаpdf
Имя файлаMetodichka_po_mat_statistike.pdf
оригинальный pdf просмотр
ТипДокументы
#19159
страница1 из 4
Каталог
  1   2   3   4

Краткий курс по методам математической статистики
КРАТКИЙ КУРС «Методы математической статистики» - позволяет на основе базовых знаний
о статистических методах правильно подойти к выбору необходимой методики для
обработки данных. Ведь правильно выбранная статистическая методика – это 80% успеха
Вашей работы.
Данный КРАТКИЙ КУРС посвящен Вам, студенты и аспиранты, которые столкнулись с проблемой статистической обработки своих экспериментальных данных, но не имеющих представление какими методами пользоваться, с чего начать, а иногда и задающимися вопросом: «А что это такое? И зачем мне это нужно?».
Вы вероятно в данный момент не поверите мне, но статистическая обработка данных очень интересное и увлекательное занятие. Правда, при одном условии – статистика без страшно утомительных ФОРМУЛ!
Имея огромный опыт работы со студентами и аспирантами, прекрасно знаю, в чем они нуждаются. А большинство учебников, курсов и сайтов с материалами по статистике содержат только материал какие формулы необходимы для вычисления того или иного статистического метода.
В данном курсе Вы не найдете ни одной формулы, так как я прекрасно понимаю, что Вам нужно лишь объяснение сути методов, без огромного количества формул, которые могут запутать и сбить с толку.
Глава 1: Основные понятия статистики и дескриптивный анализ.
Шкалы измерений.
Генеральная совокупность и выборка.
Нормальное распределение. Уровень статистической достоверности.
Свойства описательных статистик (Часть 1)
Свойства описательных статистик (Часть 2)
Меры изменчивости.
Глава 2: Методы проверки статистических гипотез. Корреляции и методы
сравнения.
Коэффициент корреляции. Частная корреляция.
Коэффициент корреляции Пирсона, Спирмена и Кендалла
Параметрические методы сравнения данных
Непараметрические методы сравнения для независимых выборок.
Непараметрические методы сравнения для зависимых выборок.
Методы сравнения номинальных данных.
Глава
3:
Методы
проверки
статистических
гипотез.
Дисперсионный
и
регрессионный анализы.
Дисперсионный анализ (Часть 1).
Дисперсионный анализ (Часть 2).
Дисперсионный анализ (Часть 3).
Регрессионный анализ. Простая линейная регрессия.
Регрессионный анализ. Множественная линейная регрессия.

www.statwork.net
2
ОГЛАВЛЕНИЕ
Темы курса:
Шкалы измерений. стр. 3
Генеральная совокупность и выборка. стр. 5
Нормальное распределение. Уровень статистической достоверности. стр. 7
Свойства описательных статистик (Часть 1) стр. 11
Свойства описательных статистик (Часть 2) стр. 13
Меры изменчивости. стр. 15
Коэффициент корреляции. Частная корреляция. стр. 17
Коэффициент корреляции Пирсона, Спирмена и Кендалла стр. 19
Параметрические методы сравнения данных стр. 22
Непараметрические методы сравнения для независимых выборок. стр. 24
Непараметрические методы сравнения для зависимых выборок. стр. 27
Методы сравнения номинальных данных. стр. 29
Дисперсионный анализ (Часть 1). стр. 32
Дисперсионный анализ (Часть 2). стр. 34
Дисперсионный анализ (Часть 3). стр. 36
Регрессионный анализ. Простая линейная регрессия. стр. 38
Регрессионный анализ. Множественная линейная регрессия. стр. 40

www.statwork.net
3
Тема 1. Шкалы измерений
Глава 1. Основные понятия статистики и дескриптивный анализ.
Первый шаг на пути к успешной обработке данных, - это выяснить, в какой же, все-таки, шкале измерены ваши данные и подчиняются ли они закону нормального распределения. От этого зависит то, какими методами Вы будете обрабатывать данные, а значит, зависит верность ваших результатов и выводов. К тому же, Вы будете точно знать ответ на вопрос преподавателей: "Почему Вы выбрали в качестве метода именно этот анализ?".
Так же как нельзя съесть апельсин, не очистив его от кожуры, так и здесь, нельзя начать изучать статистические методы, не зная самых главных основ статистики.
В этом и будут заключаться первые несколько тем этого курса – знакомство с различными шкалами измерения, нормальным распределением и выборкой.
Обычно используют следующие типы шкал измерений: номинальная (названий или категорий), порядковая (ординальная), интервальная и относительная (шкала отношения или абсолютная шкала). Соответственно имеются четыре типа переменных: номинальная, порядковая (ординальная), интервальная, относительная (абсолютная).
1) Номинальные переменные используются только для качественной классификации. Это означает, что данные переменные могут быть измерены только в терминах принадлежности к некоторым существенно различным классам, при этом вы не сможете определить количество или упорядочить эти классы. Часто номинальные переменные называются категориальными.
ПРИМЕРОМ номинальных переменных являются фирма-производитель, тип товара, признак
(болен - здоров) и т. д.
2) Порядковые переменные позволяют ранжировать (упорядочить) объекты, если указано, какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют определить «на сколько больше» или «на сколько меньше» данного качества содержится в переменной. Порядковые переменные иногда также называют ординальными.
ПРИМЕР 1 - социоэкономический статус семьи. Мы понимаем, что верхний средний уровень выше среднего уровня, однако сказать, что разница между ними равна, допустим, 18%, мы не можем. Само расположение шкал в порядке возрастания их информативности - номинальная, порядковая, интервальная - является хорошим примером порядковой переменной.
ПРИМЕР 2 - интенсивность использования определенного цвета в картине художника.
Категориальные и порядковые переменные особенно часто возникают при анкетировании,
т.к. естественно отражают характер мышления человека. Например, измерение
интенсивности посещение ресторанов можно проводить в следующей шкале: не посещаю,
посещаю редко, посещаю, посещаю часто.

www.statwork.net
4
Категориальные и порядковые шкалы часто используются для описания качественных
признаков.
3) Интервальные переменные позволяют не только упорядочивать объекты измерения, но и численно выражать и сравнивать различия между ними. Такого рода переменные часто возникают в естественных науках, при снятии показателей с физических приборов, в медицине и т. д.
ПРИМЕР - температура, измеренная в градусах Фаренгейта или Цельсия, образует интервальную шкалу. Вы можете не только сказать, что температура 40 градусов выше, чем температура 30 градусов, но и то, что увеличение температуры с 20 до 40 градусов вдвое больше увеличения температуры от 30 до 40 градусов.
4) Относительные переменные очень похожи на интервальные переменные. Их характерной чертой является наличие определенной точки абсолютного нуля, таким образом, для этих переменных являются обоснованными утверждения типа: X в два раза больше, чем Y.
ПРИМЕР - температура по Кельвину образует шкалу отношения, и вы можете не только утверждать, что температура 200 градусов выше, чем 100 градусов, но и то, что она вдвое выше.
Интервальные шкалы (например, шкала Цельсия) не обладают данным свойством шкалы отношения. Однако в большинстве статистических процедур не делается тонкого различия между свойствами интервальных шкал и шкал отношения.
Перечисленные шкалы полезно характеризовать еще и по признаку их дифференцирующей способности (мощности). В этом отношении шкалы по мере возрастания мощности располагаются следующим образом: номинальная, ранговая, интервальная, абсолютная. Таким образом, неметрические шкалы заведомо менее мощные - они отражают меньше информации о различии объектов (испытуемых) по измеренному свойству, и, напротив, метрические шкалы более мощные, они лучше дифференцируют испытуемых. Поэтому, если у исследователя есть возможность выбора, следует применить более мощную шкалу.
Однако всегда можно перейти от более мощной шкалы к менее мощной. Так, непрерывные переменные можно искусственно превратить в категориальные.
Так, непрерывная переменная «рост человека в сантиметрах» может быть превращена в порядковую переменную с градациями: низкий, средний, высокий или очень низкий; низкий, средний, высокий; для размера одежды используют следующую порядковую шкалу: XS, S, M,
L, XL, XXL и т. д.

www.statwork.net
5
Тема 2. Генеральная совокупность и выборка
Глава 1. Основные понятия статистики и дескриптивный анализ.
Исследование обычно начинается с некоторого предположения, требующего проверки с привлечением фактов. Это предположение - гипотеза - формулируется в отношении связи явлений или свойств в некоторой совокупности объектов.
Для проверки подобных предположений на фактах необходимо измерить соответствующие свойства у их носителей. Но невозможно измерить тревожность у всех женщин и мужчин, как невозможно измерить агрессивность у всех подростков. Поэтому при проведении исследования ограничиваются лишь относительно небольшой группой представителей соответствующих совокупностей людей.
Генеральная совокупность
- это все множество объектов, в отношении которого формулируется исследовательская гипотеза.
В первом примере такими генеральными совокупностями являются все мужчины и все женщины. Во втором - все подростки, которые смотрят телепередачи, содержащие сцены насилия. Генеральные совокупности, в отношении которых исследователь собирается сделать выводы по результатам исследования, могут быть по численности и более скромными.
Таким образом, генеральная совокупность - это хотя и не бесконечное по численности, но, как правило, недоступное для сплошного исследования множество потенциальных испытуемых.
Выборка
- это ограниченная по численности группа объектов (в психологии - испытуемых, респондентов), специально отбираемая из генеральной совокупности для изучения ее свойств.
Соответственно, изучение на выборке свойств генеральной совокупности называется выборочным исследованием. Практически все психологические исследования являются выборочными, а их выводы распространяются на генеральные совокупности.
Таким образом, после того, как сформулирована гипотеза и определены соответствующие генеральные совокупности, перед исследователем возникает проблема организации выборки.
Выборка должна быть такой, чтобы была обоснована генерализация выводов выборочного исследования - обобщение, распространение их на генеральную совокупность. Основные критерии обоснованности выводов исследования - это репрезентативность выборки и статистическая достоверность (эмпирических) результатов.
Репрезентативность выборки
- иными словами, ее представительность - это способность выборки представлять изучаемые явления достаточно полно - с точки зрения их изменчивости в генеральной совокупности.

www.statwork.net
6
Конечно, полное представление об изучаемом явлении, во всем его диапазоне и нюансах изменчивости, может дать только генеральная совокупность. Поэтому репрезентативность всегда ограничена в той мере, в какой ограничена выборка. И именно репрезентативность выборки является основным критерием при определении границ генерализации выводов исследования. Тем не менее, существуют приемы, позволяющие получить достаточную для исследователя репрезентативность выборки.
Первый и основной прием - это простой случайный (рандомизированный) отбор. Он предполагает обеспечение таких условий, чтобы каждый член генеральной совокупности имел равные с другими шансы попасть в выборку.
Второй способ обеспечения репрезентативности - это отбор по свойствам генеральной совокупности. Он предполагает предварительное определение тех качеств, которые могут влиять на изменчивость изучаемого свойства (это может быть пол, уровень дохода или образования и т.д.). Затем определяется процентное соотношение численности различающихся по этих качествам групп в генеральной совокупности и обеспечивается идентичное процентное соотношение соответствующих групп в выборке. Далее в каждую подгруппу выборки испытуемые подбираются по принципу простого случайного отбора.
Статистическая достоверность, или статистическая значимость, результатов исследования определяется при помощи методов статистического вывода, которые предъявляют определенные требования к численности, или объему выборки.
Общие рекомендации по численности выборки:
- Наибольший объем выборки необходим при разработке диагностической методики - от 200 до 1000-2500 человек.
- Если необходимо сравнивать 2 выборки, их общая численность должна быть не менее 50 человек; численность сравниваемых выборок должна быть приблизительно одинаковой.
- Если изучается взаимосвязь между какими-либо свойствами, то объем выборки должен быть не меньше 30-35 человек.
- Чем больше изменчивость изучаемого свойства, тем больше должен быть объем выборки.
Поэтому изменчивость можно уменьшить, увеличивая однородность выборки, например, по полу, возрасту и т. д. При этом, естественно, уменьшаются возможности генерализации выводов.
Зависимые и независимые выборки.
Обычна ситуация исследования, когда интересующее исследователя свойство изучается на двух или более выборках с целью их дальнейшего сравнения. Эти выборки могут находиться в различных соотношениях - в зависимости от процедуры их организации. Независимые выборки характеризуются тем, что вероятность отбора любого испытуемого одной выборки не зависит от отбора любого из испытуемых другой выборки. Напротив, зависимые выборки характеризуются тем, что каждому испытуемому одной выборки поставлен в соответствие по определенному критерию испытуемый из другой выборки.
В общем случае зависимые выборки предполагают попарный подбор испытуемых в сравниваемые выборки, а независимые выборки – независимый отбор испытуемых.

www.statwork.net
7
Следует отметить, что случаи «частично зависимых» (или «частично независимых») выборок недопустимы: это непредсказуемым образом нарушает их репрезентативность.

www.statwork.net
8
Тема 3. Нормальное распределение. Уровень достоверности.
Глава 1. Основные понятия статистики и дескриптивный анализ.
Нормальный закон распределения играет одну из наиважнейших ролей в применении и выборе статистических методов. Закон нормального распределения на графике выражается в виде кривой «колоколообразной» формы.
Каждому биологическому и психологическому свойству соответствует свое распределение в генеральной совокупности. Чаще всего оно нормальное и характеризуется своими параметрами
– средним и сигмой. Так, среднее значение задает положение кривой на числовой оси, а сигма – задает ширину этой кривой и выступает как масштаб измерения.
Наиболее важным свойством кривых нормального распределения является одинаковая доля площади под кривой между одними и теми же значениями признака, выраженными в единицах стандартного отклонения.
Все многообразие нормальных распределений может быть сведено к одной кривой, если применить z-преобразование (преобразование выборки величин r (коэффициент корреляции) с тем, чтобы приблизить их к нормальному распределению) ко всем возможным измерениям свойств. Тогда каждое свойство будет иметь среднее 0 и сигму 1 – это называется единичным
нормальным распределением
, которое используется как эталон.
Рис. 1

www.statwork.net
9
Площадь под кривой интерпретируется как вероятность или относительная частота.
Полезно знать, что если распределение является нормальным, то:
90% всех случаев располагается в диапазоне значений М (среднее) ± 1,64 σ (сигма);
95% всех случаев располагается в диапазоне значений М (среднее) ± 1,96 σ (сигма);
99% всех случаев располагается в диапазоне значений М (среднее) ± 2,58 σ (сигма).
Как упоминалось в самом начале письма, соответствие или несоответствие нормальности распределения влияет на выбор статистических методов обработки данных. Так, данные, соответствующие нормальному распределению обрабатываются с помощью параметрических методов, а те данные, которые не соответствуют нормальности распределения обрабатываются с помощью непараметрических методов статистики. К тому же, в каждом последующем сложном методе обработки данных существуют условия использования того или иного метода, в которые часто входит и нормальность распределения.
Существуют такие способы проверки на нормальность распределения как графический способ, критерий асимметрии и эксцесса, критерий нормальности Колмогорова-Смирнова. Последний способ проверки на нормальность распределения рассмотрен в видеокурсе по статистике
«Базовый уровень».
Уровень статистической достоверности
Статистическая значимость или р-уровень значимости - основной результат проверки статистической гипотезы. Говоря техническим языком, это вероятность получения данного результата выборочного исследования при условии, что на самом деле для генеральной совокупности верна нулевая статистическая гипотеза - то есть связи нет. Иначе говоря, это вероятность того, что обнаруженная связь носит случайный характер, а не является свойством совокупности. Именно статистическая значимость, р-уровень значимости является количественной оценкой надежности связи: чем меньше эта вероятность, тем надежнее связь.
Предположим, при сравнении двух выборочных средних было получено значение уровня статистической значимости р=0,05. Это значит, что проверка статистической гипотезы о равенстве средних в генеральной совокупности показала, что если она верна, то вероятность случайного появления обнаруженных различий составляет не более 5%. Иначе говоря, если бы две выборки многократно извлекались из одной и той же генеральной совокупности, то в 1 из
20 случаев обнаруживалось бы такое же или большее различие между средними этих выборок.
То есть существует 5%-ная вероятность того, что обнаруженные различия носят случайный характер, а не являются свойством совокупности.
В отношении научной гипотезы уровень статистической значимости – это количественный показатель степени недоверия к выводу о наличии связи, вычисленный по результатам выборочной, эмпирической проверки этой гипотезы. Чем меньше значение р-уровня, тем выше статистическая значимость результата исследования, подтверждающего научную гипотезу.

www.statwork.net
10
Полезно знать, что влияет на уровень значимости. Уровень значимости при прочих равных условиях выше (значение р-уровня меньше), если:
- величина связи (различия) больше;
- изменчивость признака (признаков) меньше;
- объем выборки (выборок) больше.
Односторонние и двусторонние критерии проверки значимости
Если цель исследования том, чтобы выявить различие параметров двух генеральных совокупностей, которые соответствуют различным ее естественным условиям (условия жизни, возраст испытуемых и т. п.), то часто неизвестно, какой из этих параметров будет больше, а какой меньше.
Например, если интересуются вариативностью результатов в контрольной и экспериментальной группах, то, как правило, нет уверенности в знаке различия дисперсий или стандартных отклонений результатов, по которым оценивается вариативность. В этом случае нулевая гипотеза состоит в том, что дисперсии равны между собой, а цель исследования — доказать обратное, т.е. наличие различия между дисперсиями. При этом допускается, что различие может быть любого знака. Такие гипотезы называются двусторонними.
Но иногда задача состоит в том, чтобы доказать увеличение или уменьшение параметра; например, средний результат в экспериментальной группе выше, чем контрольной. При этом уже не допускается, что различие может быть другого знака. Такие гипотезы называются
односторонними.
Критерии значимости, служащие для проверки двусторонних гипотез, называются двусторонними, а для односторонних — односторонними.
Возникает вопрос о том, какой из критериев следует выбирать в том или ином случае. Ответ на этот вопрос находится за пределами формальных статистических методов и полностью зависит от целей исследования. Ни в коем случае нельзя выбирать тот или иной критерий после проведения эксперимента на основе анализа экспериментальных данных, поскольку это может привести к неверным выводам. Если до проведения эксперимента допускается, что различие сравниваемых параметров может быть как положительным, так и отрицательным, то следует использовать двусторонний критерий.
Если же есть дополнительная информация, например, из предшествующих экспериментов, на основании которой можно сделать предположение, что один из параметров больше или меньше другого, то используется односторонний критерий.
Когда имеются основания для применения одностороннего критерия, его следует
предпочесть двустороннему, потому что односторонний критерий полнее использует
информацию об изучаемом явлении и поэтому чаще дает правильные результаты.

www.statwork.net
11
Риск одностороннего критерия в том, что он может назвать значимой переменную, которая не является значимой на самом деле. Односторонний критерий – это шанс назвать вашу переменную значимой, когда двусторонний критерий не срабатывает.
Двусторонние тесты более строгие в отличие от односторонних. Коэффициент может быть незначим при двустороннем тесте и значим при одностороннем, поэтому использование односторонних тестов может оказаться полезным, так как хочется иметь значимые коэффициенты.
Если односторонний тест не позволил отвергнуть нулевую гипотезу, то есть значимость коэффициента обосновать не удалось, то более строгий двусторонний тест также не отвергнет нулевую гипотезу, и коэффициент является незначимым.

www.statwork.net
12
  1   2   3   4

перейти в каталог файлов


связь с админом