Мастицкий С. Э. Методическое пособие по использованию программы STATISTICA при обработке данных биологических исследований. Методическое пособие по использованию программы statistica при обработке данных биологических исследований Минск руп Институт рыбного хозяйства

Название	Методическое пособие по использованию программы statistica при обработке данных биологических исследований Минск руп Институт рыбного хозяйства
Анкор	Мастицкий С. Э. Методическое пособие по использованию программы STATISTICA при обработке данных биологических исследований.pdf
Дата	13.01.2017
Размер	2.29 Mb.
Формат файла
Имя файла	оригинальный pdf просмотр
Тип	Методическое пособие #4471
страница	1 из 4
Каталог		Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей

Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей

1 2 3 4

РУП «ИНСТИТУТ РЫБНОГО ХОЗЯЙСТВА»
РУП «НАУЧНО-ПРАКТИЧЕСКИЙ ЦЕНТР НАЦИОНАЛЬНОЙ
АКАДЕМИИ НАУК БЕЛАРУСИ ПО ЖИВОТНОВОДСТВУ»
Мастицкий С. Э.
МЕТОДИЧЕСКОЕ ПОСОБИЕ
по использованию программы STATISTICA
при обработке данных биологических исследований
Минск
РУП «Институт рыбного хозяйства»
2009
Ру ко пи сь

УДК 57:519.24
Мастицкий С. Э. Методическое пособие по использованию программы STATISTICA при обработке данных биологических исследований. – Мн.: РУП «Институт рыбного хозяйства». –
76 С.
В пособии рассмотрены типовые задачи, с которыми сталкиваются исследователи-биологи в ходе статистической обработки результатов наблюдений и экспериментов (расчет параметров описательной статистики, сравнение двух и более групп, корреляционный и регрессионный анализы). Представлены пошаговые описания решений этих задач с использованием пакета прикладных программ
STATISTICA. Пособие предназначено для студентов, аспирантов, и научных работников биологических специальностей.
Рец ензент канд. биол. наук, доцент кафедры общей экологии и методики преподавания биологии Белгосуниверситета Т. А. Макаревич

Мастицкий С. Э.
РУП «Институт рыбного хозяйства»
Ру ко пи сь

1
Содержание
Предисловие .................................................................................. 3
Глава 1. Ознакомление с интерфейсом программы. Создание и сохранение файла .......................................................................... 5
1.1. Рабочее окно программы STATISTICA ............................... 5
1.2. Создание и сохранение файлов ........................................... 6
Глава 2. Описательная статистика ................................................ 8
2.1. Подготовка таблицы к вводу данных ................................ 8
2.2. Полигон распределения ..................................................... 10
2.3. Гистограммы .................................................................... 15
2.4. Расчет параметров описательной статистики ............ 17
2.5. Диаграммы диапазонов ..................................................... 21
2.4. Диаграммы размахов ........................................................ 23
2.5. Круговые диаграммы ........................................................ 26
Глава 3. Проверка соответствия анализируемых данных закону нормального распределения ........................................................ 28
3.1. О необходимости проверки нормальности распределения
анализируемых данных ............................................................ 28
3.2. Подгонка распределения ................................................... 28
3.3. Тесты Колмогорова-Смирнова и Шапиро-Уилка ............ 30
3.4. График нормальных вероятностей .................................. 32
Глава 4. Сравнение двух групп ................................................... 33
4.1. Случай независимых выборок ........................................... 33
4.2. Случай зависимых выборок ............................................... 38
4.3. Cравнение выборочной средней с константой ................ 40
Ру ко пи сь

2
Глава 5. Сравнение нескольких групп ........................................ 43
5.1. Параметрический однофакторный дисперсионный анализ
.................................................................................................. 43
5.2. Апостериорный анализ ..................................................... 47
5.3. Параметрический двухфакторный дисперсионный анализ
.................................................................................................. 48
5.4. Дисперсионный анализ Фридмана .................................... 50
5.5. Дисперсионный анализ Крускала-Уоллиса ........................ 52
Глава 6. Корреляционный анализ ................................................ 54
6.1. Коэффициент корреляции Пирсона ................................. 55
6.2. Сравнение двух коэффициентов корреляции Пирсона ..... 57
6.3. Коэффициент корреляции Спирмена ............................... 59
6.4. Коэффициент ассоциации (связанности) ........................ 60
Глава 7. Регрессионный анализ ................................................... 62
7.1. Оценка коэффициентов линейной регрессии ................... 62
7.2. Трансформация нелинейно связанных признаков ............. 68
7.3. Оценка коэффициентов уравнения нелинейной
зависимости ............................................................................. 72
Список использованных источников .......................................... 75
Предметный указатель................................................................. 76
Ру ко пи сь

3
Предисловие
Для того чтобы запечатлеть понравившуюся нам сцену можно использовать обычный пленочный фотоаппарат.
Открывая его затвор, мы собираем и определенным образом фиксируем визуальную информацию на поверхности фотопленки. Однако этого не достаточно. Фотография не появится, если пленка не будет должным образом обработана.
Есть и еще один этап: получившуюся фотографию можно снабдить красивой рамкой, чтобы она понравилась любому, кто на нее взглянет.
Через аналогичные стадии проходит любой современный ученый, в том числе и биолог, работая с числовой информацией.
Сначала он собирает данные, например, измеряя линейные размеры какого-либо органа, определяя концентрацию глюкозы в крови, подсчитывая число организмов в учетной рамке.
Дальше данные должны быть обработаны с применением методов статистики. На этом этапе становится ясно, о чем
«говорят» полученные цифры. Чтобы «заставить» их
«говорить», возможно, потребуется построить график или выполнить более сложный анализ. Наконец, извлеченную из данных информацию необходимо будет корректно представить тому, кто в ней заинтересован (коллегам-ученым, менеджерам, и т.п.).
Обработка числовой информации в наши дни немыслима без применения компьютера. Современный специалист-биолог обязан обладать навыками компьютерной обработки данных и иметь представление о программном обеспечении, с помощью которого ее можно выполнять. Сегодня существует большое количество специализированных приложений для статистического анализа. Одним из несомненных лидеров среди таких продуктов признана программа STATISTICA фирмы
StatSoft, Inc., США. Помимо очень мощного набора процедур статистического и графического анализа, эта программа обладает весьма дружественным интерфейсом, что делает ее достаточно легкой для освоения и удобной в работе.
В последние годы было издано несколько руководств по работе с программой STATISTICA (Боровиков 1998, 2003;
Боровиков, Ивченко 2000; Реброва 2003), среди которых, однако, практически нет пособий, учитывающих специфику
Ру ко пи сь

4 биологических исследований и получаемых в их ходе данных.
Цель настоящего пособия – помочь широкому кругу биологов приступить к освоению программы STATISTICA и начать активно использовать ее в своей работе. Несмотря на то, что совсем недавно была выпущена уже 9-я версия программы, данное пособие посвящено описанию 6-й версии, как наиболее распространенной в отечественных университетах и исследовательских учреждениях. В связи с ограниченным объемом, пособие содержит примеры и пошаговые описания решений лишь типовых задач, возникающих в биологических исследованиях (описательная статистика, сравнение двух и более групп, корреляционный и регрессионный анализы). Кроме того, предполагается, что читатель

прослушал как минимум вводный университетский курс биологической статистики,

имеет навыки работы в среде Microsoft Office,

уже установил STATISTICA 6.0 (в ее оригинальном англоязычном варианте) на своем компьютере с операционной системой Windows.
Некоторые факты из истории развития программы
STATISTICA (
по: Боровиков
1998, с дополнениями):
1991 г. –
выход первой версии программы для DOS
1992 г. –
выход первой версии программы для Macintosh
1993 г. –
выходит первая версия STATISTICA для Windows
1994 г. –
в результате сравнительного тестирования с пакетами
BMDP 1.0, SPSS 6.1, Statgraphics 1.0 и Systat 5.01 STATISTICA получает первое место в нескольких научных и компьютерных изданиях (INSIGH
T, MacWELT, C'T Magazine, WINDOWS
Magazine)
1995 г. –
программа включена в список 100 лучших программных продуктов (WINDOWS Magazine)
2001
–
выход 6
- й версии STATISTICA
Май 2009 –
выход 9
- й версии программы
Ру ко пи сь

5
Глава 1. Ознакомление с интерфейсом программы. Создание
и сохранение файла
1.1. Рабочее окно программы STATISTICA
Программа STATISTICA, являясь продуктом американской компании, имеет англоязычный интерфейс. Существующие русификаторы использовать не рекомендуется, поскольку в ряде случаев они грешат некорректным переводом статистических терминов. Учитывая то, что английский язык может вызвать затруднения у ряда читателей, все важные термины и опции меню будут при изложении материала сопровождаться переводом.
Запустив программу, вы увидите, что ее рабочее окно похоже на окна всех Windows-приложений. В самом верху слева находится заголовок окна в формате «Statistica – Data: Имя файла.sta (размер таблицы)». Далее следует строка основного меню, ряд разделов которого также стандартен для Windows- приложений: File (Файл), Edit (Правка), View (Вид), Insert
(Вставка), Format (Формат), Tools (Инструменты), Window
(Окно), Help (Помощь). Имеются, однако, и специфические разделы – Statistics (Статистические процедуры), Graphs
(Графики), Data (Данные). За строкой меню следуют настраиваемая пользователем панель инструментов и рабочая область, занимающая большую часть окна программы (рис. 1.1).
Анализируемые данные хранятся в STATISTICA в виде электронной таблицы, подобно тому, как это происходит, например, в программе MS Excel. Однако таблица с данными в
STATISTICA, которая носит название Spreadsheet, имеет свои особенности. В отличие от обычных электронных таблиц, в которых столбцы и строки равноправны, в таблице программы
STATISTICA столбцы называются Variables (Переменные), а строки – Cases (Наблюдения). В качестве переменных выступают исследуемые признаки (например, рост, вес, концентрация, скорость и т.п.). Под наблюдениями же понимаются конкретные значения, которые принимают переменные. Важно отметить, что программа STATISTICA может обрабатывать не только числовые, но и текстовые данные, что очень удобно при работе с качественными признаками. Кроме того, таблицы Spreadsheet поддерживают
Ру ко пи сь

6 различные стандартные операции с ячейками, такие как выделение и перетаскивание диапазона, автозамена, копирование/вставка, импорт из других приложений (например, из MS Excel, Access) и др.
Рисунок 1.1. Внешний вид рабочего окна STATISTICA.
1.2.
Создание и сохранение файлов
Запустите программу STATISTICA (из меню Windows
«Пуск» или кликнув по соответствующему ярлыку на Рабочем столе). По умолчанию откроется последний файл, с которым выполнялась работа в ходе предыдущего сеанса (если таковой имеется). Закройте этот файл и создайте новый. Для этого можно воспользоваться одним из трех способов:

В пункте основного меню File (Файл) выбрать New (Новый);

Нажать кнопку на панели инструментов;

Применить сочетание клавиш «Ctrl + N».
Ру ко пи сь

7
В результате появится диалоговое окно создания нового документа (Create new document; рис. 1.2), в котором необходимо указать, какой именно документ создается. Мы создаем новую таблицу с данными, поэтому останемся на закладке Spreadsheet, которая по умолчанию предстает перед пользователем первой. Пусть в таблице будет 1 столбец и 100 строк. Чтобы сообщить об этом программе, в поле Number of
variables (Количество переменных) выставим 1, а в поле Number
of cases (Количество наблюдений) – 100. Остальные опции этой закладки оставим без изменений
(поле
Placement
(Расположение): As a stand-alone window (Как самостоятельное окно)). После нажатия кнопки ОК (или клавиши «Ввод» на клавиатуре) в рабочей области программы появится таблица с 1 столбцом и 100 строками. Сохраним созданный файл под именем «Распределение». Для этого можно воспользоваться тремя способами:

В пункте основного меню File (Файл) выбрать Save
(Сохранить);

Нажать кнопку на панели инструментов;

Применить сочетание клавиш «Ctrl + S».
При этом появится стандартное для Windows диалоговое окно, в котором необходимо указать имя нового файла, а также место, в котором он будет храниться.
Рисунок 1.2. Диалоговое окно создания нового документа
Ру ко пи сь

8
Глава
2.
Описательная статистика
2.1.
Подготовка таблицы к вводу данных
Для быстрого ознакомления с полученными данными и выявления в них явных закономерностей на начальном этапе статистического анализа бывает полезно построить гистограмму или полигон распределения, которые представляют собой графики, отражающие связь между значениями изучаемого биологического признака и частотой встречаемости этих значений. Сейчас мы построим полигон распределения для представленных ниже данных о количестве птенцов в 100 гнездах лесной ласточки Iridoprocne bicolor:
5 4
5 5
4 5
4 3
5 4
7 5
6 1
6 4
4 4
5 5
3 5
5 5
5 5
4 6
2 3
4 5
5 5
5 5
5 4
4 5
5 6
4 6
2 5
5 3
5 3
7 3
4 6
4 5
5 5
5 5
5 5
6 4
5 4
6 7
6 3
5 5
6 5
5 6
4 4
2 4
4 6
2 6
5 4
6 4
5 5
5 4
5 4
6 5
4 7
4 4
Перед вводом этих данных необходимо выполнить определенную предварительную подготовку электронной таблицы. Воспользуемся уже созданным нами ранее файлом
«Распределение.sta» (разд. 1.2). Обратите внимание на заголовок единственного столбца в таблице этого файла. Он выделен серым цветом и помимо порядкового номера содержит имя
«Var1» (от англ. Variable – переменная). Когда в таблице есть лишь один столбец, никакой путаницы, конечно, не возникает.
Однако если ничего не менять, она обязательно появится при большом количестве переменных. Чтобы этого избежать, столбцам полезно присваивать уникальные (не повторяющиеся) имена. Для переименования переменной подведите курсор мыши к заголовку соответствующего столбца и дважды кликните по нему. Появится окно, в котором осуществляется настройка свойств переменной (рис. 2.1). Имя переменной указывается в поле Name. Установите курсор в это поле и наберите слово «Птенцы». Формат надписи (шрифт, его размер
Ру ко пи сь

9 и т.п.) можно задать с помощью стандартных инструментов для форматирования текста, расположенных выше.
Рисунок 2.1. Окно настройки свойств переменной.
В поле Type (Тип), расположенном справа от Name, указывается тип переменной. По умолчанию он выставлен на
Double (Двойной), что подходит для случаев, когда значения переменной выражаются числами, лежащими в интервале
±1,7

10 308
. Если анализируемые данные представляют собой только целые числа из интервала ±2 147 483 648, то следует выбрать тип Integer (Целое). Для переменных, которые выражаются целыми числами от 0 до 255 включительно можно установить специальный тип Byte (Байт). Наконец, если переменная содержит текстовые значения, то выбирают Text.
Поскольку количество птенцов ласточки по определению может выражаться только целыми числами, в поле Type выберем
Integer.
Более тонкая настройка типа переменной выполняется далее в поле Display format (Формат отображения). Поскольку мы намерены работать с числами, то выберем здесь Number (Число).
Справа появится дополнительное поле Decimal Places
(Десятичные знаки) – в нем указывается точность, с которой мы
Ру ко пи сь

10 хотим видеть в таблице наши данные, а также формат внешнего вида чисел. Установите количество десятичных знаков на 0.
Среди остальных элементов рассматриваемого окна особого внимания заслуживает поле Long name (Длинное имя). Его можно использовать как записную книжку, в которой бывает удобно оставить свои заметки о ходе анализа. Кроме того, здесь можно ввести формулу, в соответствии с которой будут пересчитаны значения переменной. Пример использования формул в программе STATISTICA будет рассмотрен ниже (разд.
7.2). После настроки переменной нажмите на кнопку ОК и введите в таблицу приведенные выше даные о количестве птенцов ласточки (все 100 значений – в один имеющийся в таблице столбец).
2.2.
Полигон
распределения
В программе
STATISTICA реализован графически- ориентированный подход к анализу данных. В связи с этим она обладает внушительным набором различных типов графиков, которые можно построить, обратившись к разделу главного меню Graphs или к соответствующим закладкам того или иного статистического модуля.
Продолжим работу с созданным ранее файлом
«Распределение.sta», который уже содержит данные о количестве птенцов лесной ласточки (разд. 2.1). Для того чтобы программа смогла построить полигон распределения, из имеющихся данных нужно сформировать вариационный ряд, т.е. двойной ряд чисел, в котором содержатся значения анализируемого признака и частоты их встречаемости. Перед тем как сделать это, добавим два столбца в нашу таблицу.
Подведите курсор к заголовку столбца «Птенцы» и нажмите правую клавишу мыши. В появившемся контекстном меню выберите пункт Add variables (Добавить переменные). Далее появится диалоговое окно, в котором нужно указать количество добавляемых переменных (поле How many – выставляем «2») и их положение в таблице (поле After (После) – наберите слово
«Птенцы»). Остальные настройки можно оставить без изменений. В таблице появятся два новых столбца с названиями
«NewVar1» и «NewVar2». Переименуйте их самостоятельно в
Ру ко пи сь

11
«Число птенцов» и «Количество гнезд» соответственно
(разд. 2.1).
Теперь сформируем вариационный ряд. Для этого в разделе основного меню Statistics (Статистические процедуры) выберем модуль Basic Statistics/Tables (Основные статистические показатели/Таблицы), а в нем – опцию Frequency tables
(Таблицы частот). В появившемся диалоговом окне необходимо указать, какую именно переменную мы собираемся анализировать. Для этого служит кнопка Variables (Переменные)
– она будет очень часто встречаться нам в дальнейшем (рис. 2.2).
При нажатии на нее появится еще одно окно (Select the variables
for the analysis), основная часть которого занята списком имеющихся в таблице переменных. Дважды кликните по пункту
«Птенцы», а затем нажмите либо кнопку Summary: Frequency
tables (Результат: Таблицы частот), либо Summary (Результат), либо просто клавишу «Ввод» на клавиатуре.
Рисунок 2.2. Выбор переменной для расчета таблицы частот.
В итоге программа сформирует таблицу, представляющую собой «расширенный» вариант вариационного ряда (рис. 2.3). В этой таблице имеются следующие столбцы:
Ру ко пи сь

12

Category (Категория): содержит ранжированные значения анализируемой переменной, отмеченные в выборке. В случае с нашим примером видим, что число птенцов в гнездах лесной ласточки изменялось от 1 до 7.

Count (Счет): здесь приведены частоты, с которыми встречались отмеченные значения переменной (так, было найдено только 1 гнездо с 1 птенцом, 4 гнезда с 2 птенцами, 7 гнезд с 3 птенцами и т.д.).

Cumulative count: накопленные частоты.

Percent: процент, который составляет каждая из частот от общего числа наблюдений.

Cumulative percent: накопленные процентные доли частот.
Последняя строка итоговой таблицы называется Missing
(Отсутствующие) – она имеет отношение к неотмеченным в быборке значениям переменной. Таковых в нашем примере нет
(встречались все возможные значения числа птенцов – от 1 до7), в связи с чем на пересечении столбца Count и строки Missing видим 0.
Рисунок 2.3. Таблица частот для данных о числе птенцов в гнездах лесной ласточки.
Обратите внимание: итоговая таблица анализа Frequency
Tables является частью окна с заголовком Workbook (Рабочая книга). Такая форма вывода результатов очень удобна и является характерной особенностью программы STATISTICA.
Результаты любого анализа, который в дальнейшем применялся бы к данным открытого в текущий момент файла, заносился бы в эту же рабочую книгу на отдельный лист. Каталог выполненных анализов отображается в отдельной области слева.
Ру ко пи сь

13
Рабочую книгу можно сохранить в виде самостоятельного файла
(с расширением .stw) и при необходимости вернуться к ней просмотра результатов выполненного анализа.
Внесите «вручную» необходимые значения из полученной таблицы частот в нашу исходную таблицу с данными (это можно сделать и путем копирования, однако описание этой процедуры не приводится).
Теперь у нас есть все необходимое, чтобы построить полигон распределения. В разделе главного меню Graphs (Графики) выберите 2D Graphs (Двухмерные графики) > Line plots
(Variables) (Линейные графики (по переменным)).
В появившемся диалоговом окне (рис. 2.4) выберите закладку
Advanced (Расширенные настройки). На ней в поле Graph type
(Тип графика) выберите XY Trace, а в выпадающем меню Display
points (Отображать точки) – On (Включить). Наконец, откройте закладку Options 1, разыщите на ней выпадающее меню Case
labels (Подписи наблюдений) и выберите пункт Off (Отключить).
Вы можете не выполнять последнюю операцию, если хотите, чтобы значения количества птенцов на графике отображались.
Рисунок 2.4. Диалоговое окно модуля
2D Line plots на закладке
Advanced.
Ру ко пи сь

14
Теперь необходимо «объяснить» программе, какой из столбцов таблицы с данными соответствуют числу птенцов
(ось X), а какой – частоте встречаемости (ось Y). Для этого вернитесь на закладку Advanced и нажмите уже знакомую вам кнопку Variables (Переменные). В результате появится окно с двумя списками переменных. В левом списке выделите пункт
«Число птенцов», а в правом – «Количество гнезд». Далее нажимаем кнопку ОК, затем еще раз ОК, и получаем долгожданный график (рис. 2.5). Заметьте: полученный график является составной частью рабочей книги Workbook, как это ранее было с итоговой таблицей анализа Frequency Tables.
Если кликнуть один раз по полученному графику правой кнопкой мыши и из контекстного меню выбрать опцию Copy
Graph, можно скопировать график в буфер обмена и затем вставить в документ практически любого другого Windows- приложения, например, MS Word или Excel. Кроме того, график можно сохранить как самостоятельный файл с расширением .stg.
Для этого необходимо выделить иконку графика в каталоге рабочей книги и, удерживая нажатой левую клавишу мыши, перетащить ее за пределы рабочей книги (рис. 2.5). В результате рисунок окажется в отдельном окне. Теперь, кликнув по нему правой кнопкой мыши, можно применить команду Save Graph
(Сохранить график).
Рисунок 2.5
Полигон распределения для данных о числе птенцов лесной ласточки
См. объяснения в тексте.
Ру ко пи сь

15
Программа
STATISTICA предоставляет широкие возможности для придания графикам необходимого внешнего вида. Достаточно кликнуть по интересующему вас элементу, и появится диалоговое окно с множеством опций по его настройке
(заголовки, оси и их названия, маркеры и их форма, цвет и размер, и т.п.).
2.3.
Гистограммы
В таблице ниже представлены результаты измерений длины клеток
(в мкм) инфузории-комменсала
Conchophthirus
acuminatus из мантийной полости двустворчатого моллюска
Dreissena polymorpha:
65 68 71 74 76 76 76 76 76 79 79 79 79 79 79 79 79 79 79 82 82 85 85 85 85 85 88 88 97 103
Размах значений длины клеток достаточно велик (103 - 65 =
38 мкм). Кроме того, в этом ряду некоторые значения отсутствуют (например, не встречены клетки с длиной 66, 78, 83 мкм). Для графического изображения частотного распределения в данном случае лучше подходит гистограмма, а не полигон распределения.
Создайте новый файл данных с одной переменной (назовите ее, например, «Инфузории») и 30 наблюдениями (см. разд. 1.2), присвойте ему имя (например, «Клетки.sta») и сохраните.
Введите приведенные выше значения длины клеток в столбец этой таблицы данных. Для построения гистограммы достаточно выполнить следующие действия:

В основном меню программы выбрать Graphs > 2D Graphs >
Histograms (Гистограммы).

В появившемся окне (рис. 2.6) выбрать закладку Advanced.
Нажав на кнопку Variables, выбрать для анализа переменную
«Инфузории». В поле Fit type (Тип подгонки) выбрать Off, а в выпадающем меню Y axis (Ось Y) – %. Остальные настройки можно оставить без изменений.

Нажмите на кнопку OK. В результате у вас должен получиться график, подобный приведенному на рис. 2.7.
Ру ко пи сь

16
Рисунок 2.6. Диалоговое окно модуля
2D Histograms
на закладке
Advanced.
Рисунок 2.7. Частотное распределение значений длины клеток инфузории
С. acuminatus
Ру ко пи сь

17
2.4.
Расчет параметров
описательной статистики
Расчет параметров описательной статистики в программе
STATISTICA выполняется при помощи модуля Descriptive
statistics (Описательная статистика). Для его запуска выполните одно из следующих действий (Примечание: любой анализ в программе STATISTICA можно запустить только если предварительно был открыт файл с данными, например,
«Распределение.sta» из разд. 1.2):

Войдите в раздел Statistics основного меню и выберите в нем пункт Basic statistics/Tables (см. разд. 2.2). В появившемся окне дважды кликните по пункту Descriptive statistics (рис.
2.8).

В разделе View (Вид) основного меню выберите Toolbars
(Инструменты) > Statistics. В верхней части рабочего окна появится дополнительная панель инструментов, содержащая кнопки быстрого запуска практически всех типов статистического анализа, реализованных в программе. Для запуска Basic statistics нажмите кнопку , после чего дважды кликните по пункту Descriptive statistics в открывшемся окне.
Рисунок 2.8.
Модуль
Descriptive
Statistics на закладке
Quick.
В диалоговом окне модуля Descriptive statistics (рис. 2.8) присутствует ряд элементов, встречающиеся в большинстве модулей программы, например:
Ру ко пи сь

18

кнопка Variables, с помощью которой выбираются анализируемые переменные;

кнопка Summary (Результат) – выводит результаты анализа;

кнопка Options (Опции) – позволяет настроить внешний вид программы и окон вывода результатов анализа;

стандартная для Windows кнопка Cancel (Отмена).
Кроме того, это окно имеет несколько закладок. По умолчанию перед пользователем первой предстает закладка
Quick (Быстро). Находясь на ней, можно выполнить следующие операции:

Рассчитать показатели описательной статистики – кнопка
Summary: Descriptive statistics. Перечень рассчитываемых показателей определяется настройками, заданными на другой закладке окна – Advanced.

Получить таблицу частот встречаемости каждого значения анализируемой переменной – кнопка Frequency tables (см. разд. 2.2);

Построить частотное распределение значений анализируемой переменной в виде гистограммы – кнопка Histograms.
Автоматически вместе с гистограммой программа нарисует теоретически ожидаемую нормальную кривую, глядя на которую можно заключить, подчиняются ли анализируемые данные нормальному закону распределения.

Построить для выбранной переменной (или для нескольких переменных одновременно) т.н. диаграмму размаха (см. разд.
2.4) – кнопка Box & whisker plot for all variables.
Для расчета подробного перечня показателей описательной статистики следует воспользоваться другой закладкой модуля –
Advanced (рис. 2.8). Основную часть этой закладки занимает список статистических показателей:

Valid N – объем выборки;

Mean – арифметическая средняя;

Sum – сумма значений анализируемой переменной;

Median – медиана;

Mode – мода;

Geom. mean – геометрическая средняя;

Harm. mean – гармоническая средняя;

Standard Deviation – стандартное отклонение;

Variance – дисперсия;
Ру ко пи сь

19

Std. err. of mean – стандартная ошибка средней;

Conf. limits for means: Interval % – доверительные пределы для средних: ширина доверительного интервала;

Skewness – коэффициент асимметрии;

Std. err., Skewness – стандартная ошибка коэффициента асимметрии;

Kurtosis – коэффициент эксцесса;

Std. err., Kurtosis – стандартная ошибка коэффициента эксцесса;

Minimum & maximum – минимальное и максимальное значения;

Lower & upper quartiles – нижний и верхний квартили;

Perсentile boundaries: First & Second: первый и второй процентили;

Range – размах;

Quartile range – интерквартильный размах.
На закладке Advanced имеются также следующие кнопки:

Select all stats – позволяет выбрать для расчета сразу все имеющиеся статистические показателей;

Reset – сброс «галочек» у всех показателей;

Save settings as default – используя эту кнопку, можно сохранить определенный набор показателей, которые программа будет предлагать для расчета по умолчанию при каждом запуске модуля Descriptive Statistics.
Следующей за
Advanced идет закладка
Normality
(Нормальность) (рис. 2.9). Это важная составляющая модуля описательной статистики, которой вам предстоит пользоваться очень часто. Здесь можно определить, насколько статистически значимо частотное распределение анализируемых данных отличается от нормального распределения. Наиболее важными элементами этой закладки являются:

Уже известные вам кнопки Frequency tables и Histograms;

Поле Categorization (Категоризация): воспользовавшись опцией Number of intervals, можно задать количество
«столбиков» на гистограмме. Эта опция используется в случаях, когда анализируемый биологический признак является непрерывным. Если же он дискретен, т.е. выражается только целыми числами, следует выбрать опцию
Integral intervals (Categories).
Ру ко пи сь

20

Опция Normal expected frequencies (Ожидаемые нормальные частоты): при ее выборе и последующем нажатии на кнопку
Frequency tables программа выдаст таблицу, которая помимо фактических частот численных значений переменной, будет содержать также теоретически ожидаемые нормальные частоты.

Тесты, применяемые для проверки соответствия анализируемых данных закону нормального распределения –
Kolmogorov-Smirnov & Lilliefors test for normality и Shapiro-
Wilk’s W test. Подробнее эти тесты будут рассмотрены в разд. 3.3.
Рисунок
2.9.
Модуль
Descriptive
Statistics на закладке
Normality.
В ряде случаев полезной может оказаться и закладка Prob. &
Scatterplots (Вероятностные графики и диаграммы рассеяния), следующая за закладкой Normality. В частности, с ее помощью можно построить двух- и трехмерные графики зависимости между анализируемыми переменными, а также проверить данные на нормальность с использованием графика нормальных вероятностей (Normal probability plot) (см. разд. 3.4).
Результаты практически любого статистического анализа воспринимаются гораздо легче, когда они представлены в графической форме. Как уже отмечалось ранее, графические возможности программы STATISTICA весьма обширны. Сейчас мы рассмотрим несколько типов графиков, которые наиболее часто используются в биологических исследованиях.
Ру ко пи сь

21
2.5.
Диаграммы
диапазонов
Диаграммы диапазонов (wisker plots) удобны для описания временной динамики или пространственного градиента исследуемых величин. Точки на таких графиках чаще всего соответствуют средней арифметической или, реже, медиане анализируемого признака.
Отличительной особенностью является наличие у точек т.н. «усов» (от англ. «whiskers») – вертикально или горизонтально отходящих линий, длина которых соответствует величине выбранного исследователем показателя разброса данных (минимум и максимум, стандартное отклонение, дисперсия, квартили) или точности оценки генеральных параметров (стандартная ошибка, доверительный интервал).
Рассмотрим следующий пример.
В течение 5 месяцев – с мая по сентябрь – в озере на постоянной станции выполняли измерение температуры воды на глубине 1 м.
Измерения проводились в полдень три раза в месяц. Полученные данные приведены на рис. 2.10
(создайте аналогичный файл данных и сохраните его – он потребуется нам также при рассмотрении следующего раздела). Изобразим графически динамику среднемесячной температуры в водоеме.
Обратите внимание на то, каким образом данные располагаются в таблице
(рис.
2.10).
Чтобы программа «поняла», какие из наблюдений относятся к конкретному месяцу, был введен дополнительный столбец «Сезон». В нем перечислены названия месяцев, а в соседнем столбце – «Температура» – приведены сами значения исследуемой переменной. Такой способ оформления данных характерен для многих видов статистического анализа, реализованных в STATISTICA, и будет неоднократно встречаться нам в дальнейшем. Столбец «Сезон» в
Рисунок 2.10. Пример оформления данных для построения диаграммы диапазонов
Ру ко пи сь

22 терминах программы называется «группирующей переменной»
(Grouping variable), а столбец, в котором непосредственно находятся значения исследуемого признака – зависимой переменной (Dependent variable). Последнее название является очень подходящим, т.к. указывает на то, что, например, температура воды зависит от сезона года.
Для построения диаграммы диапазонов необходимо в разделе
Graphs основного меню выбрать 2D Graphs, а затем – Means
w/Error plots (Графики средних с ошибками). Вешний вид появляющегося в результате этого окна представлен на рис. 2.11.
Рисунок
2.11.
Окно настройки параметров диаграммы диапазонов.
Как обычно, начинать следует с указания переменных, которые будут участвовать в анализе – для этого необходимо воспользоваться кнопкой Variables. Появится диалоговое окно
(Select variables for means with error plots) с двумя списками имеющихся в таблице переменных. В левом списке необходимо выбрать зависимую переменную (в нашем случае это
«Температура»), а в правом – группирующую переменную
(«Сезон»). После этого – нажать кнопку ОК.
Далее в поле Grouping intervals (Группирующие интервалы) нужно указать программе, на какие интервалы ей следует разбить ось Х. В нашем примере вдоль оси Х должны располагаться названия месяцев. Чтобы сообщить это
Ру ко пи сь

23 программе, нажимаем кнопку Codes (Коды), а на появляющейся панели – кнопки All (Все) и ОК (Пояснение: в качестве кодов в нашем примере выступают названия месяцев. Поскольку мы хотим, чтобы на графике были отображены данные для всех месяцев, в течение которых выполнялись измерения температуры, необходимо нажать кнопку All).
Осталось указать, чему на графике будут соответствовать
«усы», отходящие от точек. Для этого служит поле Whisker.
Предположим, мы хотим, чтобы длина «усов» была бы равна одному стандартному отклонению. В выпадающем меню Value
(Значение) выбираем Std dev (Стандартное отклонение), а в поле
Coefficient (Коэффициент) ставим 1 (рис. 2.11). Теперь все основные настройки завершены. После нажатия на кнопку ОК можно будет увидеть график, подобный приведенному на рис.
2.12.
Рисунок 2.12.
Диаграмма диапазонов, построенная по данным о температуре воды в озере.
2.4.
Диаграммы размахов
Диаграммы размаха, или «ящики с усами» (от англ. «box-
whisker plots»), получили свое название за характерный вид: точку, соответствующую средней арифметической или медиане, окружает вертикально расположенный прямоугольник («ящик»), длина которого соответствует одному из показателей разброса или точности оценки генерального параметра. Дополнительно от этого прямоугольника отходят «усы», также соответствующие
Ру ко пи сь

24 по длине одному из показателей разброса или точности. Таким образом, графики этого типа позволяют дать очень полную статистическую характеристику для каждой анализируемой выборки. Диаграммы размаха можно использовать для визуальной экспресс-оценки разницы между двумя или более группами
(например, между датами отбора проб, экспериментальными группами, участками пространства и т.п.).
Для построения диаграммы диапазонов необходимо в разделе
Graphs основного меню выбрать 2D Graphs, а затем – Box plots.
На рис. 2.13 представлен внешний вид данного модуля, открытый на закладке Advanced.
Рисунок 2.13.
Окно настройки параметров диаграммы размахов
Вернемся к примеру, рассмотренному ранее в разделе 2.2
(откройте сохраненный файл с данными по температуре воды).
Предположим, что мы хотим визуально сравнить, различается ли среднемесячная температура воды в озере в июне и сентябре.
Для построения графика необходимо установить следующие настройки (см. рис. 2.13):

На закладке Advanced нажать на кнопку Variables и указать, какая из переменных является зависимой (Dependent)
(«Температура»), а какая – группирующей (Grouping)
(«Сезон»).
Ру ко пи сь

25

В поле Grouping intervals выбрать опцию Codes, а затем нажать кнопку Specify codes (Определить коды), чтобы указать программе, какие именно месяцы будут участвовать в анализе. В появившемся окне ввести через пробел слова
«Июнь» и «Сентябрь».

В выпадающем меню Value поля Middle point (Средняя точка) выбрать Mean (Арифметическая средняя). Так мы сообщим программе, что на графике в качестве точек ей следует изображать средние значения температуры.

В выпадающем меню
Value
поля
Box выбрать, статистический показатель, который будет изображен в виде
«ящика» (например, Std error – Стандартная ошибка).
Coefficient выставить на 1.

В выпадающем меню Value поля Whisker выбрать статистический показатель, который будет изображен в виде
«усов» (например, Std dev – Стандартное отклонение).

В поле Outliers (Выбросы) выбрать Off (Отключить).
(Пояснение: в результате этого действия программа не будет изображать на графике точки-выбросы, т.е. значения признака, которые слишком велики или слишком малы по сравнению с остальными значениями в выборке.)
Остальные настройки можно оставить без изменений. После нажатия на кнопку ОК появится график, подобный приведенному на рис. 2.14. На полученном графике хорошо видно, что среднемесячная температура воды в июне была значительно выше, чем в сентябре.
Рисунок 2.14.
Диаграмма размахов, построенная по данным о температуре воды в озере за июнь и сентябрь.
Ру ко пи сь

26
2.5. Круговые диаграммы
Круговые диаграммы (pie charts) удобны при анализе качественных признаков. Например, такой график хорошо подойдет для описания соотношения растений с разной окраской цветков в изучаемой популяции. Допустим, при обследовании 15 растений получены результаты, приведенные на рис. 2.15.
Для построения круговой диаграммы, секторы которой были бы пропорциональны долям каждого из вариантов окраски цветков, необходимо выполнить следующее:

В разделе Graphs главного меню выбрать 2D Graphs > Pie chart.

В появившемся окне перейти на закладку Advanced (рис. 2.16).

В поле Graph type (Тип графика) выбрать Pie chart – Counts
(Кругова диаграмма – Счет).
Данная опция позволяет построить график на основе исходных данных – программа сама подсчитает, сколько в анализируемой совокупности было растений с белыми, розовыми и красными цветками.
Если бы мы ввели в таблицу предварительно рассчитанные доли каждой из окрасок, то в поле Graph type следовало бы выбрать Pie chart – Values (Кругова диаграмма – Значения).
Однако при этом пришлось бы оформить таблицу с данными несколько по-иному (здесь не рассматривается).

В поле Frequency intervals (Интервалы частот) выбрать опцию
Codes и нажать кнопку Specify codes. На появившейся панели нажать кнопку All, а затем ОК.

В поле Pie legend (Легенда диаграммы) выбрать вариант того, как будут подписаны сегменты круговой диаграммы.
Например, при выделении Text and Percent будут отображены названия вариантов окраски цветков и частота (%), с которой встречается каждый вариант в популяции.
Рисунок 2.15. Пример оформления данных для построения круговой диаграммы
Ру ко пи сь

27
Остальные настройки можно оставить неизменными.
Нажатие на кнопку ОК приведет к построению графика, подобного приведенному на рис. 2.17.
Рисунок 2.16.
Окно настройки параметров круговой диаграммы.
Рисунок 2.17.
Круговая диаграмма, построенная по данным об окраске цветков.
Ру ко пи сь

1 2 3 4

перейти в каталог файлов

Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей