Краткий курс по методам математической статистики краткий курс методы математической статистики

Название	Краткий курс по методам математической статистики краткий курс методы математической статистики
Анкор	Metodichka po mat statistike.pdf
Дата	15.05.2017
Размер	1.75 Mb.
Формат файла
Имя файла	Metodichka_po_mat_statistike.pdf оригинальный pdf просмотр
Тип	Документы #19159
страница	2 из 4
Каталог		Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей

Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей

1 2 3 4

Тема 4. Свойства описательных статистик (Часть 1)
Глава 1. Основные понятия статистики и дескриптивный анализ.
Перейдем теперь к рассмотрению первичных методов статистической обработки данных – описательной статистике.
К описательным статистикам обычно относят числовые характеристики распределения измеренного на выборке признака. Основное назначение каждой из первичных описательных статистик - замена множества значений признака, измеренного на выборке, одним числом
(например, средним значением как мерой центральной тенденции). Компактное описание группы при помощи первичных статистик позволяет интерпретировать результаты измерений, в частности, путем сравнения первичных статистик разных групп.
Мера центральной тенденции - это число, характеризующее выборку по уровню выраженности измеренного признака.
Существуют три способа определения «центральной тенденции», каждому из которых соответствует своя мера: мода, медиана и выборочное среднее.
Наиболее просто получаемой мерой центральной тенденции является мода.
Мода
- это такое значение из множества измерений, которое встречается наиболее часто. Моде, или модальному интервалу признака, соответствует наибольший подъем (вершина) графика распределения частот. Если график распределения частот имеет одну вершину, то такое распределение называется унимодальным.
ПРИМЕР - когда два соседних значения встречаются одинаково часто и чаще, чем любое другое значение, мода есть среднее этих двух значений.
Распределение может иметь и не одну моду. Когда все значения встречаются одинаково часто, принято считать, что такое распределение не имеет моды.
Если распределение имеет несколько мод, то говорят, что оно мультимодально или многомодально (имеет два или более «пика»). Мультимодальность распределения дает важную информацию о природе исследуемой переменной.
ПРИМЕР - в социологических опросах, если переменная представляет собой предпочтение или отношение к чему-то, то мультимодальность может означать, что существуют несколько определенно различных мнений.

www.statwork.net
13
Мультимодальность также служит индикатором того, что выборка не является однородной и наблюдения, возможно, порождены двумя или более «наложенными» распределениями.
Медиана
- это такое значение признака, которое делит упорядоченное (ранжированное) множество данных пополам так, что одна половина всех значений оказывается меньше медианы, а другая - больше. Таким образом, первым шагом при определении медианы является упорядочивание (ранжирование) всех значений по возрастанию или убыванию. Далее медиана определяется следующим образом:
- если данные содержат нечетное число значений (8, 9, 10, 13, 15), то медиана есть центральное значение;
- если данные содержат четное число значений (5, 8, 9, 11), то медиана есть точка, лежащая посередине между двумя центральными значениями.
Среднее (выборочное среднее, среднее арифметическое)
- определяется как сумма всех значений измеренного признака, деленная на количество суммированных значений.
Среднее множества данных предполагает в основном арифметические операции. На величину среднего влияют значения всех результатов.
Каждая мера центральной тенденции обладает характеристиками, которые делают ее ценной в определенных условиях.
Для номинальных данных, разумеется, единственной подходящей мерой центральной тенденции является мода, или модальная категория - та градация номинальной переменной, которая встречается наиболее часто.
Для порядковых и метрических переменных, распределение которых унимодальное и симметричное, мода, медиана и среднее совпадают. Чем больше отклонение от симметричности, тем больше расхождение между значениями этих мер центральной тенденции.
По этому расхождению можно судить о том, насколько симметрично или асимметрично распределение.
Однако использование среднего ограничивается тем, что на его величину влияет каждое отдельное значение. Таким образом, среднее значение весьма чувствительно к «выбросам» - экстремально малым или большим значениям переменной.

www.statwork.net
14
Тема 5. Свойства описательных статистик (Часть 2)
Глава 1. Основные понятия статистики и дескриптивный анализ.
Помимо мер центральной тенденции в психологии широко используются квантили распределения, процентили, децили и квартили.
Одним из наиболее эффективных и полезных методов описания группы наблюдений является описание с помощью квантилей. Квантиль - общее понятие, а процентили, децили и квартили – три его примера.
Квантиль
- это точка на числовой оси измеренного признака, которая делит всю совокупность упорядоченных измерений на две группы с известным соотношением их численности. С одним из квантилей уже знакомы - это медиана. Это значение признака, которое делит всю совокупность измерений на две группы с равной численностью. Кроме медианы часто используются процентили и квартили.
Процентили
- это 99 точек - значений признака, которые делят упорядоченное (по возрастанию) множество наблюдений на 100 частей, равных по численности. Определение конкретного значения процентиля аналогично определению медианы. Например, при определении 10-го процентиля, Р10, сначала все значения признака упорядочиваются по возрастанию. Затем отсчитывается 10% испытуемых, имеющих наименьшую выраженность признака. Р10 будет соответствовать тому значению признака, который отделяет эти 10% испытуемых от остальных 90%.
На основе процентилей определяются процентильные баллы участников тестирования.
Дециль
характеризует распределение величин совокупности, при которой девять значений дециля делят ее на десять равных частей. Любая из этих десяти частей составляет 1/10 всей совокупности. Так, первый дециль отделяет 10 % наименьших величин, лежащих ниже дециля от 90 % наибольших величин, лежащих выше дециля.
Квартили
- это 3 точки - значения признака (Р25, Р50, Р75), которые делят упорядоченное (по возрастанию) множество наблюдений на 4 равные по численности части. Первый квартиль соответствует 25-му процентилю, второй - 50-му процентилю или медиане, третий квартиль соответствует 75-му процентилю.
Интерквартильным размахом называется разность между третьей и первой квартилями, то есть x0.75 − x0.25.

www.statwork.net
15
Интерквартильный размах является характеристикой разброса распределения величины и является робастным аналогом дисперсии. Вместе, медиана и интерквартильный размах могут быть использованы вместо математического ожидания и дисперсии в случае распределений с большими выбросами, либо при невозможности вычисления последних.
Процентили и квартили используются для определения частоты встречаемости тех или иных значений (или интервалов) измеренного признака или для выделения подгрупп и отдельных испытуемых, наиболее типичных или нетипичных для данного множества наблюдений.

www.statwork.net
16
Тема 6. Меры изменчивости
Глава 1. Основные понятия статистики и дескриптивный анализ.
Меры центральной тенденции говорят нам о концентрации группы значений на числовой шкале. Каждая мера дает такое значение, которое «представляет» в каком-то смысле все оценки, группы. В этом случае пренебрегают различиями, существующими между отдельными значениями. Для измерения вариации оценок внутри группы требуются другие описательные статистики. В этом письме будет рассмотрено несколько статистических характеристик, которые по-разному служат мерами изменчивости в группе данных.
Размах
просто измеряет на числовой шкале расстояние, в пределах которого изменяются оценки. Поскольку существуют несколько иные определения размаха, то надо разграничить два его типа: включающий и исключающий.
Исключающий размах
- это разность максимального и минимального значении в группе.
ПРИМЕР: исключающий размах значений 0, 2 3 5, 8 равен 8-0 = 8; значений -0,2; 0,4; 0,8;
1,6 имеют исключающий размах, равный 1,6 - (-0,2) = 1,8.
Включающий размах
- это разность между естественной верхней границей интервала, содержащего максимальное значение, и естественной нижней границей интервала, включающего минимальное значение.
ПРИМЕР: рост пяти мальчиков измеряется с точностью до ближайшего см. Получены следующие значения: 150, 155, 157, 165, 168 см. Фактический рост самого низкого мальчика находится где-то между 149,5 и 150 см и действительная нижняя граница равна 149,5 см.
Верхняя граница интервала, содержащего максимальное значение, составляет 168,5 см. Таким образом, включающий размах равен разности 168,5 - 149,5 = 19, которая на единицу больше, чем 168-150.
Размах является довольно грубой, но общераспространенной мерой изменчивости.
Размах представляет собой меру рассеяния, разброса, неоднородности или изменчивости, которая возрастает с ростом рассеяния и уменьшением однородности. Необходимо заметить, что, так же как и для моды и медианы, в ходе вычисления этой меры не учитывается каждое от- дельное значение.
Теперь мы сталкиваемся с четвертой мерой, при вычислении которой, как и для среднего, используется каждая оценка – дисперсия.

www.statwork.net
17
Дисперсия выборки
, или выборочная дисперсия (термин впервые введен Фишером), мера изменчивости для метрических данных, пропорциональная сумме квадратов отклонений измеренных значений от их арифметического среднего. Чем больше изменчивость в данных, тем больше отклонения значений от среднего, тем больше величина дисперсии.
Мерой изменчивости, тесно связанной с дисперсией, является стандартное отклонение.
Стандартное отклонение
(сигма, среднеквадратическое отклонение) - положительное значение квадратного корня из дисперсии. Использование сигмы необходимо при составлении таблиц средних для ваших приложений или для таблиц непосредственно находящихся в «теле» диплома, диссертации или статьи. Так как использование только среднего значения некорректно, то принято обозначать так: 5.62±1.97, где 5.62 – среднее, а 1.97 – стандартное
отклонение от среднего или сигма.
Одно из наиболее важных свойств распределения частот - степень асимметрии. Практически точно симметричные полигоны частот и гистограммы почти никогда не встречаются. Степень асимметрии распределения частот для выборки называется просто его асимметрией.
Асимметрия,
или
коэффициент
асимметрии
, является мерой несимметричности распределения, степень отклонения графика распределения частот от симметричного вида относительно среднего значения. Если этот коэффициент значительно отличается от 0, распределение является асимметричным (то есть несимметричным).
Для симметричного распределения асимметрия равна 0. Если чаще встречаются значения меньше среднего, то говорят о левосторонней, или положительной асимметрии (Ас > 0). Если же чаще встречаются значения больше среднего, то асимметрия - правосторонняя, или отрицательная (Ас<0). Чем больше отклонение от нуля, тем больше асимметрия.
Иногда важно получить представление о том, являются ли полигон частот или гистограмма островершинными или плоскими. Для этого используют эксцесс.
Эксцесс, или коэффициент эксцесса
, измеряет остроту пика распределения, мера плосковершинности или остроконечности графика распределения измеренного признака.
Островершинное распределение характеризуется положительным эксцессом (Ех> 0), а плосковершинное - отрицательным (-3 < Ех< 0). «Средневершинное» (нормальное) распределение имеет нулевой эксцесс (Ех = 0).

www.statwork.net
18
Тема 7. Коэффициенты корреляции. Частная корреляция.
Глава 2. Методы проверки статистических гипотез. Корреляции и методы
сравнения.
Коэффициент корреляции
- двумерная описательная статистика, количественная мера взаимосвязи (совместной изменчивости) двух переменных.
К настоящему времени разработано великое множество различных коэффициентов корреляции.
Однако самые важные меры связи - Пирсона, Спирмена и Кендалла. Их общей особенностью является то, что они отражают взаимосвязь двух признаков, измеренных в количественной шкале - ранговой или метрической.
Вообще говоря, любое эмпирическое исследование сосредоточено на изучении взаимосвязей двух или более переменных.
Если изменение одной переменной на одну единицу всегда приводит к изменению другой переменной на одну и ту же величину, функция является линейной (график ее представляет прямую линию); любая другая связь - нелинейная. Если увеличение одной переменной связано с увеличением другой, то связь - положительная (прямая); если увеличение одной переменной связано с уменьшением другой, то связь - отрицательная (обратная). Если направление изменения одной переменной не меняется с возрастанием (убыванием) другой переменной, то такая функция - монотонная; в противном случае функцию называют немонотонной.
Функциональные связи являются идеализациями. Их особенность заключается в том, что одному значению одной переменной соответствует строго определенное значение другой переменной. Например, такова взаимосвязь двух физических переменных - веса и длины тела
(линейная положительная). Однако даже в физических экспериментах эмпирическая взаимосвязь будет отличаться от функциональной связи в силу неучтенных или неизвестных причин: колебаний состава материала, погрешностей измерения и пр.
При изучении взаимосвязи признаков из поля зрения исследователя неизбежно выпадает множество возможных причин изменчивости этих признаков. Результатом является то, что даже существующая в реальности функциональная связь между переменными выступает эмпирически как вероятностная (стохастическая): одному и тому же значению одной переменной соответствует распределение различных значений другой переменной (и наоборот).
Простейшим примером является соотношение роста и веса людей. Эмпирические результаты исследования этих двух признаков покажут, конечно, положительную их взаимосвязь. Но несложно догадаться, что она будет отличаться от строгой, линейной, положительной - идеальной математической функции, даже при всех ухищрениях исследователя по учету

www.statwork.net
19 стройности или полноты испытуемых. Вряд ли на этом основании кому-то придет в голову отрицать факт наличия строгой функциональной связи между длиной и весом тела.
Итак, функциональная взаимосвязь явлений эмпирически может быть выявлена только как вероятностная связь соответствующих признаков. Наглядное представление о характере вероятностной связи дает диаграмма рассеивания - график, оси которого соответствуют значениям двух переменных, а каждый испытуемый представляет собой точку. В качестве числовой характеристики вероятностной связи используются коэффициенты корреляции.
Можно ввести три градации величин корреляции по силе связи: r < 0,3 — слабая связь (менее 10% от общей доли дисперсии);
0,3 < r < 0,7 — умеренная связь (от 10 до 50% от общей доли дисперсии); r > 0,7 — сильная связь (50% и более от общей доли дисперсии).
Частная корреляция
Часто бывает так, что две переменные коррелируют друг с другом только за счет того, что обе они меняются под влиянием некоторой третьей переменной. То есть, на самом деле связь между соответствующими свойствами этих двух переменных отсутствует, но проявляется в статистической взаимосвязи, или корреляции, под влиянием общей причины третьей переменной).
Таким образом, если корреляция между двумя переменными уменьшается, при фиксируемой третьей случайной величине, то это означает, что их взаимозависимость возникает частично через воздействие этой третьей переменной. Если же частная корреляция равна нулю или очень мала, то можно сделать вывод о том, что их взаимозависимость целиком обусловлена собственным воздействием и никак не связана с третьей переменной.
Также, если частная корреляция больше первоначальной корреляции между двумя переменными, то можно сделать вывод о том, что другие переменные ослабили связь, или "скрыли" корреляцию.
К тому же необходимо помнить о том, что корреляция не есть причинность. Исходя из этого, мы не имеем права безапелляционно говорить о наличии причинной связи: некоторая совершенно отличная от рассматриваемых в анализе переменная может быть источником этой корреляции. Как при обычной корреляции, так и при частных корреляциях предположение о причинности должно всегда иметь собственные внестатистические основания.

www.statwork.net
20
Тема 8. Коэффициенты корреляции Пирсона, Спирмена и Кендалла.
Глава 2. Методы проверки статистических гипотез. Корреляции и методы
сравнения.
Коэффициент корреляции Пирсона
r-Пирсона применяется для изучения взаимосвязи двух метрических переменных, измеренных на одной и той же выборке. Существует множество ситуаций, в которых уместно его применение. Влияет ли интеллект на успеваемость на старших курсах университета? Связан ли размер заработной платы работника с его доброжелательностью к коллегам? Влияет ли настроение школьника на успешность решения сложной арифметической задачи? Для ответа на подобные вопросы исследователь должен измерить два интересующих его показателя у каждого члена выборки.
На величину коэффициента корреляции не влияет то, в каких единицах измерения представлены признаки. Следовательно, любые линейные преобразования признаков
(умножение на константу, прибавление константы) не меняют значения коэффициента корреляции. Исключением является умножение одного из признаков на отрицательную константу: коэффициент корреляции меняет свой знак на противоположный.
Применение корреляции Спирмена и Пирсона.
Коэффициенты
Переменные
зависимая независимая
Корреляция
Пирсона
метрическая метрическая
Корреляция
Спирмена
ранговая ранговая метрическая ранговая метрическая метрическая
Корреляция Пирсона
есть мера линейной связи между двумя переменными. Она позволяет определить, насколько пропорциональна изменчивость двух переменных. Если переменные пропорциональны друг другу, то графически связь между ними можно представить в виде прямой линии с положительным (прямая пропорция) или отрицательным (обратная пропорция) наклоном.

www.statwork.net
21
На практике связь между двумя переменными, если она есть, является вероятностной и графически выглядит как облако рассеивания эллипсоидной формы. Этот эллипсоид, однако, можно представить (аппроксимировать) в виде прямой линии, или линии регрессии. Линия
регрессии
- это прямая, построенная методом наименьших квадратов: сумма квадратов расстояний (вычисленных по оси Y) от каждой точки графика рассеивания до прямой является минимальной
Особое значение для оценки точности предсказания имеет дисперсия оценок зависимой переменной. По сути, дисперсия оценок зависимой переменной Y - это та часть ее полной дисперсии, которая обусловлена влиянием независимой переменной X. Иначе говоря, отношение дисперсии оценок зависимой переменной к ее истинной дисперсии равно квадрату коэффициента корреляции.
Квадрат коэффициента корреляции зависимой и независимой переменных представляет долю дисперсии зависимой переменной, обусловленной влиянием независимой переменной, и называется коэффициентом детерминации. Коэффициент детерминации, таким образом, показывает, в какой степени изменчивость одной переменной обусловлена (детерминирована) влиянием другой переменной.
Коэффициент детерминации обладает важным преимуществом по сравнению с коэффициентом корреляции. Корреляция не является линейной функцией связи между двумя переменными.
Поэтому, среднее арифметическое коэффициентов корреляции для нескольких выборок не совпадает с корреляцией, вычисленной сразу для всех испытуемых из этих выборок (т.е. коэффициент корреляции не аддитивен). Напротив, коэффициент детерминации отражает связь линейно и поэтому является аддитивным: допускается его усреднение для нескольких выборок.
Дополнительную информацию о силе связи дает значение коэффициента корреляции в квадрате
- коэффициент детерминации: это часть дисперсии одной переменной, которая может быть объяснена влиянием другой переменной. В отличие от коэффициента корреляции коэффициент детерминации линейно возрастает с увеличением силы связи.
Коэффициенты корреляции Спирмена и τ-Кендалла (ранговые корреляции)
Если обе переменные, между которыми изучается связь, представлены в порядковой шкале, или одна из них - в порядковой, а другая - в метрической, то применяются ранговые коэффициенты корреляции: Спирмена или τ-Кенделла. И тот, и другой коэффициент требует для своего применения предварительного ранжирования обеих переменных.
Коэффициент ранговой корреляции Спирмена - это непараметрический метод, который используется с целью статистического изучения связи между явлениями. В этом случае определяется фактическая степень параллелизма между двумя количественными рядами изучаемых признаков и дается оценка тесноты установленной связи с помощью количественно выраженного коэффициента.

www.statwork.net
22
Если члены группы численностью были ранжированы сначала по переменной x, затем - по переменной y, то корреляцию между переменными x и y можно получить, просто вычислив коэффициент Пирсона для двух рядов рангов. При условии отсутствия связей в рангах (т.е. отсутствия повторяющихся рангов) по той и другой переменной, формула для Пирсона может быть существенно упрощена в вычислительном отношении и преобразована в формулу, известную как Спирмена.
Мощность коэффициента ранговой корреляции Спирмена несколько уступает мощности параметрического коэффициента корреляции.
Коэффицент ранговой корреляции целесообразно применять при наличии небольшого количества наблюдений. Данный метод может быть использован не только для количественно выраженных данных, но также и в случаях, когда регистрируемые значения определяются описательными признаками различной интенсивности.
Коэффициент ранговой корреляции Спирмена при большом количестве одинаковых рангов по одной или обеим сопоставляемым переменным дает огрубленные значения. В идеале оба коррелируемых ряда должны представлять собой две последовательности несовпадающих значений
Альтернативу корреляции Спирмена для рангов представляет корреляция τ-Кендалла. В основе корреляции, предложенной М.Кендаллом, лежит идея о том, что о направлении связи можно судить, попарно сравнивая между собой испытуемых: если у пары испытуемых изменение по x совпадает по направлению с изменением по y, то это свидетельствует о положительной связи, если не совпадает - то об отрицательной связи.
Коэффициенты корреляции были специально разработаны для численного определения силы и направления связи между двумя свойствами, измеренными в числовых шкалах (метрических или ранговых). Как уже упоминалось, максимальной силе связи соответствуют значения корреляции +1 (строгая прямая или прямо пропорциональная связь) и -1 (строгая обратная или обратно пропорциональная связь), отсутствию связи соответствует корреляция, равная нулю.
Дополнительную информацию о силе связи дает значение коэффициента детерминации: это часть дисперсии одной переменной, которая может быть объяснена влиянием другой переменной.

www.statwork.net
23

1 2 3 4

перейти в каталог файлов

Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей