Москва Додэка, дмк пресс, 2015

Название	Москва Додэка, дмк пресс, 2015
Анкор	Faktornyj analiz.pdf
Дата	04.11.2016
Размер	29.41 Mb.
Формат файла
Имя файла	Faktornyj_analiz.pdf оригинальный pdf просмотр
Тип	Документы #1062
страница	1 из 2
Каталог		Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей

Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей

1 2

Москва
Додэка, ДМК Пресс, 2015

УДК 519.233.5
ББК 22.172
Т15
Такахаси, Син.
Т15 Занимательная статистика. Факторный анализ. Манга. / Син Такахаси (ав
тор), Иноуэ Ироха (худож.); пер. с яп. Клионского А. Б. — М. : ДМК Пресс,
2015. — 256 с. : ил. — (Серия «Образовательная манга»). — Доп. тит. л. яп. —
ISBN 978-5-97060-270-6.
Руи влюблена в Ямамото, работающего в отделе, начальником которого являет
ся отец Руи. Но внезапно Ямамото улетает в длительную командировку. Узнав, что его работа в командировке связана с факторным анализом, Руи решает освоить эту науку, чтобы полететь к Ямамото и вместе с ним делать его работу.
А помогут ей в этом нелёгком деле её подруги, с которыми она подрабатывает в кафе Norns - аспирантка Риса и студентка Миу. Вмести с ними она узнает, для чего проводят факторный анализ и на конкретном примере освоит методы, применяе
мые при его проведении. Кроме того она ознакомится с методом главных компо
нент, который очень похож на факторный анализ, и узнает, в чём его отличие.
Если вас интересует, как можно узнать причины (или факторы), побуждающие людей отвечать на вопросы анкет так или иначе, то эта книга для вас.
УДК 519.233.5
ББК 22.172
Original Japanese edition
Manga de Wakaru Toukeigaku — Kaiki Bunseki-hen(Manga Guide: Statistics-Regression Analysis)
By Shin Takahashi (Author), Iroha Inoue (Illustrator) and
Trend-Pro Co., Ltd. (Producer)
Published by Ohmsha, Ltd.
3-1 Kanda Nishikicho, Chiyodaku, Tokyo, Japan
Russian language edition copyright © 2015 by DMK Press
Translation rights arranged with Ohmsha, Ltd.
Все права защищены. Никакая часть этого издания не может быть воспроизведена в лю
бой форме или любыми средствами, электронными или механическими, включая фотографирова
ние, ксерокопирование или иные средства копирования или сохранения информации, без пись
менного разрешения издательства.
ISBN 978-4-274-06662-2 (яп.) Copyright © 2006 by Shin Takahashi and Trend-Pro Co., Ltd.
ISBN 978-5-94120-265-2 (Додэка)
© Перевод, Издательский дом «Додэка-XXI», 2013
ISBN 978-5-97060-270-6 (ДМК Пресс)
© Оформление, издание, ДМК Пресс, 2015

Данная книга посвящена в основном объяснению
факторного анализа
и
метода
главных компонент.
Для лучшего понимания материала желательно, чтобы читатели уже ознакомились с предыдущими книгами данной серии — «Занимательная статистика. Манга»*, или же их знания в этой области не уступали разъяснённым в этих книгах.
Данная книга имеет следующую структуру:
• Глава 1. Базовые знания об анкетировании;
• Глава 2. Бланки анкет и вопросы;
• Глава 3. Базовые математические знания;
• Глава 4. Метод главных компонент;
• Глава 5. Факторный анализ.
Каждая из глав, в свою очередь, состоит из собственно манги и текстового допол- нения. Также в книге имеется приложение, знакомящее с несколькими общеизвест- ными методами анализа, включая рассмотренные в книгах «Манга о статистике» и
«Манга о статистике. Регрессионный анализ».
Читателю, сведущему в математике, будет полезно внимательно изучить подроб- нее описания процесса расчётов, которые есть в данной книге. Тому, кто не особо силён в математике, можно просто пробежать их глазами. Другими словами, читате- лю вполне достаточно думать: «Да, смысл этого метода мне не понятен, вычисления выглядят сложно, но, как бы там ни было, это вроде бы позволяет найти решение».
Не нужно пытаться понять всё сразу. Давайте заниматься спокойно, без спешки. Од- нако автор просит читателя обязательно пробежать взглядом даже по непонятным объяснениям!
Скажу прямо: содержание данной книги сложнее, чем у книг «Манга о статистике» и «Манга о статистике. Регрессионный анализ». Поэтому, возможно, многие из чита- телей, только взглянув на какой-либо из приведённых процессов вычислений, поду
мают: «Это слишком сложно. Мне не хочется даже смотреть на это». Я прошу Вас приложить усилие, чтобы переступить через это чувство. Вычисления факторного анализа действительно сложны, но для читателей с познаниями в математике на уровне вступительных экзаменов научных и технических факультетов они должны быть вполне понятны.
Правда, это означает также, что для не очень разбирающихся в математике понять приведённые вычисления будут всё-таки трудно. Как бы там ни было, любой слож
ный предмет можно легко освоить, если двигаться постепенно, шаг за шагом.
В связи с округлением, некоторые результаты вычислений, приведённые в книге не совсем совпадают с результатами, которые читатели получат самостоятельно.
* Син Такахаси. Занимательная статистика. Манга. М.: Додэка, 2010. 224 с.
Син Такахаси. Занимательная статистика. Регрессионный анализ. Манга. М.: ДМК Пресс, 2014. 214 с.

В заключение я хотел бы здесь выразить благодарность коллективу Отдела разра
боток издательства Ohmsha, которые дали мне шанс взяться за перо. Я благодарю также сотрудников компании Trend-Pro, благодаря усилиям которых моя рукопись смогла стать мангой, господина re_akino, отвечавшего за написание сценария, а так
же господина Иноуэ Ироха, художника этой манги. Кроме того, я глубоко благодарен господину Сакаори Фумитакэ, преподавателю факультета социологии университета
Риккё, давшему мне много ценных советов.
Син Такахаси октябрь, 2006

Число экземпляров, формирующих выборку, называют
размером выборки.
Чем больше размер выборки, тем лучше она представляет генеральную совокупность, поэтому есть смысл в сборе как можно большего количества данных.
Однако увеличение размера выборки — не всегда простая задача ввиду таких про
блем, как ограниченность сроков сбора данных или ограниченность финансирования.
Было бы хорошо, если бы существовал некий статистический критерий минимального размера выборки, которая представляла бы собой уменьшенную копию генеральной со
вокупности. Однако, к сожалению, такого критерия не существует.
И хотя в мире анкетирования существует представление о том, что критерий мини
мального размера выборки равен «примерно 400», это значение не следует слепо прини
мать на веру — лучше просто принять его к сведению. Однако почему-то многие думают:
«Это значение заслуживает доверия с точки зрения статистики, хотя я и не понимаю его смысла». Поэтому ниже я объясню метод получения этого значения, «примерно 400», и связанные с ним проблемы.
Представим, что газета А планирует через месяц провести следующее анкетирование:
Я не буду вдаваться в подробности, чтобы не усложнять объяснение, но скажу, что с точки зрения статистики ещё до проведения анкетирования с
доверительной вероят
ностью
95% известно следующее:

Это значение 384,2 и является вышеупомянутым «магическим числом» — «примерно
400».
По поводу этого значения «примерно 400» необходимо помнить о четырёх моментах.
Во-первых, нельзя думать, что сбор данных примерно 400 человек является гарантией получения приемлемого результата.
Это позволит нам получить следующий результат:
Кстати, доверительная вероятность здесь означает «достоверность утверждения в рамке», её ещё называют
доверительным уровнем
или
коэффициентом доверия.
Ещё раз внимательно взгляните на вышеприведённое утверждение в рамке. Чем мень
ше значение выражения тем меньше ширина интервала, и тем более убедительным будет утверждение. Здесь от
Вас требуется принять на веру следующие утверждения:

Например, если спросить: «Как вы относитесь к 9-й статье конституции Японии» у 400 подписчиков газеты А, то может быть, вам удастся выяснить мнение подписчиков газеты А, но никак не мнение всего народа Японии.
Во-вторых, нельзя думать, что результаты анализа данных, взятых у менее чем 400 че
ловек, не заслуживают доверия. Например, если вышеприведённый вопрос: «Как вы от
носитесь к 9-й статье конституции Японии», задать не 400 подписчикам газеты А, а 250 подписчикам газет А, В, С, D и Е, выбрав по 50 человек для каждой газеты, то результаты будут более убедительны.
В-третьих, вспомните процесс вывода этого значения «примерно 400». В анкете там был единственный вопрос: «поддерживаете ли вы кабинет министров», и только 2 вари
анта ответа: «поддерживаю», «не поддерживаю». Как вы, наверное, уже поняли, значение
«примерно 400» соответствует случаю «одного вопроса с двумя вариантами ответа», но неприменимо для случая, например, «десяти вопросов с пятью вариантами ответа». Дру
гими словами, это значение не универсально.
В-четвёртых, Вы, может быть, обратили внимание, что в рамке на предыдущей стра
нице были некоторые значения (1/10 и р =0,5). На самом деле это значения, которые ана
литик выбирает самостоятельно, они не являются чем то абсолютным. Другими слова
ми, исследователь может на своё усмотрение использовать 1/50 вместо 1/10 или
р =
0,273
вместо
р =
0,5. Поэтому, в зависимости от выбора этих величин, мы можем получить зна
чение, совершенно отличное от «примерно 400». Точнее говоря, мы его непременно по
лучим.
Все методы взятия выборок можно разделить на
методы случайного выбора
и
методы
преднамеренного выбора.
При использовании методов случайного выбора стремятся, чтобы все экземпляры, образующие выборку, выбирались из генеральной совокупности с равной вероятностью. Описанные на стр. 19-29 методы:
• метод простого случайного выбора;
• метод расслоенного выбора;
• метод двухступенчатого выбора;
• метод расслоенного двухступенчатого выбора относятся к методам случайного выбора.
При использовании методов преднамеренного выбора нет необходимости обеспечи
вать равную вероятность выбора экземпляров из генеральной совокупности.

* метод знакомых также называется методом связей или методом удобного случая. Метод, при котором респондентов набирают по цепочке через друзей или знакомых, называют
методом снежного кома.
Выборка, полученная одним из методов преднамеренного выбора, несомненно, никог
да не будет «точной миниатюрой генеральной совокупности». Можно подумать, что ме
тоды преднамеренного выбора являются какими-то неполноценными методами, но на самом деле это не так. Я затрону эту тему в следующем параграфе.
Примеры методов преднамеренного выбора приведены ниже в таблице.
Метод знакомых’
Выборка формируется из людей, готовых оказать содействие исследованию: знакомых, друзей и т.д.
Метод набора
Выборка формируется из людей, откликнувшихся на специальное приглашение, помещённое, например, в рекламной открытке книги.
Метод перехвата
Выборка формируется из людей, встреченных на улице и согласившихся принять участие в исследовании.

До этого мы обсуждали различные особенности методов взятия выборок и методов опроса, но прежде всего необходимо усвоить, что все исследования делятся на
количе
ственные исследования
и
качественные исследования.
При
количественном исследовании
объект изучается на основании «данных анкетиро
вания», «статистических материалов государственных служб» и т.п. За исключением данной главы, в данной книге рассматриваются только такие исследования. При
каче
ственном исследовании
объектом сбора данных является небольшая группа людей, по существу это интервью.
Количественное исследование даёт следующие преимущества:
• возможность получения объективных результатов;
• простота обобщения результатов;
• высокая воспроизводимость.

Исследование 1
Анкетирование 1000 человек, выбранных случайным образом, то есть среди них многие совершенно безразличны к товарам нашей компании, на предмет отношения к нашим товарам.
Исследование 2
Проведение круглого стола с участием 10 человек, проявляющих горячий интерес к товарам нашей компании, с целью досконального выявления их мнения по поводу наших товаров.
Недостатком количественного исследования является невозможность получения от каждого респондента информации глубокого содержания. Другими словами, возможно получения только информации о примерном положении дел в исследуемой группе. Каче- ственное исследование в этом смысле обладает прямо противоположными свойствами.
Так как это — сбор данных от небольшой группы людей, возможно получение информа
ции глубокого содержания от каждого опрашиваемого респондента. Однако качествен- нoe исследование имеет следующие недостатки:
• трудность получения объективных результатов;
• трудность обобщения результатов;
• невысокая воспроизводимость.
На первый взгляд может показаться, что качественное исследование — не очень хоро- ший метод. Однако это не так. Приведу доступный пример. Представьте, что вы — со- грудник компании, которая собирается провести в отношении своих товаров одно из следующих исследований.
Исследование 1 представляет собой «количественное исследование методом случайно
го выбора», а исследование 2 — «качественное исследование методом преднамеренного выбора». Чтобы дать однозначную оценку, нужно, конечно, учитывать также цели иссле
дования, однако можете ли вы сказать, что исследование 1 является самым лучшим ва
риантом, а исследование 2 проводить не стоит?
Кроме того, количественное исследование можно проводить не только в отношении выборок, полученных методами случайного выбора, но также и в отношении выборок, полученных методами преднамеренного выбора. Хотя качественное исследование в по
давляющем большинстве случаев проводится в отношении выборок, полученных мето
дами преднамеренного выбора, ничто не запрещает проводить его в отношении выбо
рок, полученных методом случайного выбора.

В данном параграфе я расскажу о важном моменте, который, однако, не связан с предыдущим содержанием.
Дело в том, что существует два подхода к анализу данных:
поисковый подход
и
под
тверж дающий подход.
Преимущество поискового подхода заключается в возможности быстрой и лёгкой реа
лизации, при условии наличия соответствующих данных, а недостаток — в возможности с помощью «заднего ума» получить произвольный результат: можно обрабатывать дан
ные так, как вздумается, насильно притягивать связи между переменными и т.д. Один неверный шаг — и можно получить всё, что угодно. Поэтому существует вероятность, что окружающие не сочтут убедительными полученные вами результаты, когда вы их опубликуете.
Подтверждающий подход требует первоначального построения гипотезы, поэтому на практике он сложнее. С другой стороны, так как сбор и анализ данных проводятся после построения гипотезы, в случае её подтверждения результаты анализа будут выглядеть для публики очень убедительно. Даже если гипотеза не подтвердится, вы, по крайней мере, сможете установить тот факт, что данная гипотеза неверна, тем самым внеся вклад в выбор направления дальнейших исследований.

Выше были описаны 4 типа вопросов, которые следует избегать:
• конкретные вопросы, касающиеся довольно личных обстоятельств;
• расплывчато сформулированные вопросы;
• неоднозначные вопросы;
• вопросы, требующие присвоения рангов.
Однако существуют и другие типы вопросов, которые лучше не задавать. Приведу здесь несколько из них.

Скорее всего, составлявший эту анкету исследователь решил, что 5 градаций ответов недостаточно для выражения всех нюансов психологии респондента. Я могу понять это
го исследователя и считаю, что вполне допустимо поместить в анкету несколько вопро
сов с большим числом градаций ответов. Однако если таких вопросов будет слишком много, то респондент в процессе заполнения устанет и подумает, например: «Да какая разница, что выбрать: 7 или 8!»
Осмелюсь здесь высказать своё личное мнение, не имеющее под собой научной осно
вы: градаций ответов должно быть не более 7.
Без добавления графической шкалы, подобной нижеприведённой, респонденту будет трудно представить себе интервалы между баллами, что вызовет затруднения при отве
те на вопрос.
Кроме того, можно обратить внимание, что в действительности непонятно, как расце
нивать значение «0 баллов»: то ли это «невкусно», то ли «нельзя сказать определённо», что также вызовет у респондента затруднения при ответе.
Вопросы, требующие ответа в свободной форме, обладают следующими преимуще-
:твами.
• Дают респонденту возможность ответить свободно в буквальном смысле.
• Дают исследователю возможность получить неожиданный и интересный ответ.

На первый взгляд кажется, что у этой формы вопроса одни преимущества, но в дей
ствительности она не так уж замечательна.
Попробуйте поставить себя на место респондента. Сможете ли вы сразу ответить на вопрос: «Кто Ваш любимый артист?», если вы, конечно, не ученик начальной школы.
Другими словами, сможете ли вы сразу ответить на вопрос по теме, к которой у вас нет особого интереса. Теперь представьте, что вы исследователь. В случае почтового опроса, именно вам придётся вводить в таблицу ответы в свободной форме.
Осознаёте ли вы, что за возможность получить разнообразные ответы вам придётся заплатить довольно долгим и кропотливым трудом?
Я считаю, вопросы, требующие свободной формы ответа, лучше использовать для предварительного опроса, а затем провести основной опрос, используя в качестве вари
антов ответа «пятёрку лучших», например, следующим образом:
Варианты ответа с градиентной оценкой могут включать или не включать нейтраль
ный (неопределённый) вариант ответа, то есть что-то вроде «нельзя сказать однозначно».

Включать или не включать нейтральный вариант — это дело исследователя. Однако отсутствие нейтрального варианта влечёт за собой:
• увеличение психологической нагрузки на респондента, который должен обязательно дать чёткий ответ: «да» или «нет»;
• уменьшение возможности того, что форма гистограммы будет близка к нормально
му распределению, по сравнению со случаем присутствия нейтрального варианта.
Если вы не знаете, стоит или нет включать нейтральный вариант, то я рекомендую по
пробовать провести подготовительный опрос, например, своих друзей или знакомых, и принять решение на основе его результатов.

Миу и Риса вместе с коллегами по работе пошли в караоке, где они разде
лились на 2 команды по 5 человек в каждой и стали состязаться в пении.
Оценки, полученные каждым участником, приведены в табл. 3.1.
Ниже приведены графики, построенные на основе данных об оценках со
стязания.

Средний балл как в команде Миу, так и в команде Рисы оказался одинако
вым — 60 баллов. Однако общая картина совершенно отличалась. У коман
ды Миу наблюдалась, так сказать, большая неравномерность баллов, или, другими словами, «степень разброса» данных была выше.
В качестве показателя «степени разброса» данных существуют такие вещи, как
сумма квадратов отклонений, дисперсия
и
среднеквадратичное отклоне
ние
(квадратичное отклонение).
Все эти показатели характеризуются следу
ющими свойствами:
• минимальное значение равно 0;
• значение тем больше, чем выше «степень разброса» данных.
Сумма квадратов отклонений
часто используется для различных методов анализа, начиная с регрессионного анализа, и находится как сумма квадра
тов разностей каждого из значений данных и среднего арифметического зна
чения. Этот показатель имеет один роковой недостаток — чем больше будет данных, тем больше будет его значение, поэтому в качестве показателя раз
броса данных он используется довольно редко.
Дисперсия
— это показатель, который исправляет недостаток показателя
сумма квадратов отклонений.
Он вычисляется
1
как:
Среднеквадратичное отклонение
(квадратичное отклонение),
имеющее аналогичный дисперсии смысл, вычисляется по формуле:
Давайте попробуем найти сумму квадратов отклонений, дисперсию и среднеквадратичное отклонение для обеих команд Миу и Рисы.

Из вышесказанного могло сложиться мнение, что первая главная компонента всегда означает общий показатель, но на самом деле это не так.
Рассмотрим такой пример. В табл. 4.1 приведены данные тестирования в одной сред
ней школе.
При анализе вышеприведённых данных методом главных компонент получается сле
дующее уравнение для первой главной компоненты:
Как вы думаете, какую общую силу выражает эта первая главная компонента? С точки зрения здравого смысла, она не выражает никакого общего показателя.
Приведу ещё один пример. Пусть вы собираетесь выявить «общий показатель спор
тивных способностей», действуя по следующему плану:
1) сбор различных переменных наобум, не важно каких: «силы захвата» или «любимой телепередачи»;
2) анализ собранных переменных методом главных компонент.
Но будет ли найденная таким образом первая главная компонента выражать «общий показатель спортивных способностей»?
Не кажется ли вам, что только следующий порядок анализа:
1) сбор переменных, которые могут иметь отношение к «общему показателю спортив
ных способностей»;

2) анализ собранных переменных методом главных компонент;
позволит первой главной компоненте быть выражением «общего показателя спортив
ных способностей».
Подведём итоги.
Первая главная компонента, полученная методом главных компо
нент, не является естественным выражением общего показателя. Первая главная компо
нента приобретает смысл «общего показателя» только в том случае, когда аналитик, на
меренный найти какой-либо «общий показатель», собирает подходящие переменные и применяет в отношении них метод главных компонент. Это можно уподобить овощному рагу. Повар вначале решает приготовить овощное рагу, а затем собирает соответствую
щие продукты, из которых потом готовит рагу. Если бы он просто брал всё, что попадёт
ся под руку, и варил это, рагу бы не получилось.
Представьте, что вы приготовили рагу из приправы для соуса карри, корейского сала
та кимчи и крабовых палочек. Однако можно ли будет сказать, что это «рагу»? Вы, ко
нечно, можете убеждать всех: «Это — настоящее рагу!» Однако окружающие не будут воспринимать это как рагу, более того, они станут упрекать вас во лжи. Тогда какие же ингредиенты надо сварить, чтобы получилось настоящее рагу? Хотя всякому ясно, что крабовые палочки тут совсем неуместны, однозначного ответа никто дать не сможет. На
верное, тут всё зависит от повара, его совести и знаний. Эту идею я хотел донести до вас в предыдущем, четвёртом, параграфе с названием «Выбор переменных и первая главная компонента».
Как я уже заметил, результаты анализа методом главных компонент принято пред
ставлять в виде двумерного точечного графика. Следовательно, чем больше будет значе
ние суммарного вклада двух первых главных компонент, тем больше у вас оснований утверждать: «Этот точечный график содержит довольно много информации проанали
зированных данных». Другими словами, вы сможете считать, что анализ был успешным.
К сожалению, не существует статистического критерия, позволяющего судить об успешности анализа на основе точного значения суммарного вклада двух первых глав
ных компонент.
Критерий «50%», о котором упоминалось на стр. 114 — это всего лишь моё личное мнение, основанное на таком рассуждении: «Трудно сформировать правильное мнение на основе точечного графика, не содержащего и половины информации проанализиро
ванных данных».

Следующий рассказ, наверное, повергнет читателя в смятение. Сначала возьмите две переменные, какие угодно, и примените к ним метод главных компонент. Думаю, вы уже поняли, что суммарный вклад двух первых главных компонент в этом случае обязатель
но окажется равным 100%. Затем примените метод главных компонент к двумстам пере
менным. Если это не какие-нибудь специфические данные, то суммарный вклад двух первых главных компонент, скорее всего, окажется меньше 50%. Да, в действительности использование критерия «50%» сильно зависит от количества анализируемых данных.
Таким образом, критерий суммарного вклада не является слишком достоверным. Од
нако это не развязывает вам руки окончательно. Ведь вряд ли кто-нибудь поверит в ре
зультаты вашего анализа, если суммарный вклад первых двух главных компонент будет, например, меньше 14%, да и сами вы, наверное, постесняетесь знакомить окружающих с такими результатами.
Я рекомендую вам, учтя вышеизложенное, прилагать усилия, направленные на выра
ботку вашего собственного критерия.
Читатели, которым не интересна математика, могут пропустить этот параграф.
Выше говорилось, что главные компоненты, начиная со второй, «находятся автомати
чески (или математически), помимо воли аналитика». На самом деле это не совсем так.
Например, вторая главная компонента — это ось, которую аналитик должен постро
ить так, чтобы она удовлетворяла следующим условиям:
• была ортогональна первой главной компоненте;
• проходила через область, дисперсия данных в которой вторая по величине после первой главной компоненты
1
Аналогично, третья главная компонента — это ось, которую аналитик должен постро
ить так, чтобы она удовлетворяла следующим условиям:
• была ортогональна первой и второй главным компонентам;
• проходила через область, дисперсия данных в которой третья по величине после первой и второй главных компонент
2
'Другими словами вторая главная компонента — это ось, ортогональная оси первой главной компоненты и проходя
щая через область со второй по величине дисперсией данных.
2
Другими словами третья главная компонента — это ось, ортогональная осям первой и второй главных компонент и проходящая через область с третьей по величине дисперсией данных. Аналогично, г'-я главная компонента — это ось, ортогональная осям предыдущих главных компонент и проходящая через область со г-й по величине дисперсией данных.

Читатели, которым не интересна математика, могут пропустить этот параграф.
Выше говорилось, что первая главная компонента — это ось, проходящая через об
ласть, в которой дисперсия данных максимальна. Помня об этом, посмотрите ещё раз на процесс вычисления главных компонент на стр. 107-111. Среди этих вычислений нет ни одного, связанного с дисперсией данных. Вместо этого почему-то упоминаются соб
ственные векторы и собственные значения.
Опустив подробное математическое доказательство, я замечу, что «нахождение оси, проходящей через область максимальной дисперсии данных» и «нахождение максималь
ного собственного значения и соответствующего ему собственного вектора для матрицы корреляции» — это одно и то же.
Аналогично, «нахождение оси, проходящей через область с i-й по величине дисперси
ей данных» и «нахождение i-го по величине собственного значения и соответствующего ему собственного вектора для матрицы корреляции» — это одно и то же.
Таким образом, главные компоненты, начиная со второй, не «находятся автоматиче
ски (математически), помимо воли аналитика», а «находятся только в результате удо
влетворения аналитиком определённых условий».
Некоторые из читателей, возможно, решат, что аналитик, даже не прилагая усилий для удовлетворения условий, может найти главные компоненты, начиная со второй, при по
мощи одной из программ анализа данных. Это действительно так. Просто программи
сты заранее позаботились о том, чтобы облегчить нам труд, заложив вышеупомянутые условия в свои программы.

В примере данной главы генеральная совокупность и выборка определяются сле
дующим образом.
Очевидно, что эта выборка сформирована не методом простого случайного выбо
ра, а методом преднамеренного выбора, основанного на произвольном решении Миу и Руи.
Наверное, многие читатели обвинят меня в непоследовательности: сказав в главе 1, что нет смысла в выборке, которая не является «точной миниатюрой генеральной со
вокупности», автор сам же приводит противоречащий этому пример при объясне
нии основной темы данной книги — факторного анализа. Простите меня, пожалуй
ста. Однако осмелюсь заметить, что при анализе данных, например, в маркетинге, подобная ситуация неизбежна. Поэтому приходится рассматривать выборку, на са
мом деле сформированную методом преднамеренного выбора, как сформированную методом простого случайного выбора. Без этого невозможно было бы провести не только факторный анализ, но никакой анализ вообще.
Я считаю, что такой подход, если, конечно, не доводить его до абсурда, вполне при
емлем для практического использования, кроме исследований в области науки и тех
ники, при наличии согласия окружающих. Поэтому при формировании выборки всё время размышляйте о том, сможет ли она заслужить доверие окружающих.

В этом разделе перечислены важные моменты факторного анализа, описанные на стр. 139-149, а также даны дополнения к некоторым из них.
Как это ни странно звучит, но для расчётов факторного анализа нужно, чтобы ана
литик задал число общих факторов «до» начала анализа.
Существуют математические критерии для задания числа общих факторов. Один из них, описанный на стр. 141 — это число собственных значений матрицы корреля
ции, которые по величине не меньше 1. Кроме того, есть, например, критерий числа собственных значений непосредственно перед пологой частью
графика каменистой
осыпи
(его ещё называют
графиком Кеттела
), на котором собственные значения ото
бражены в порядке убывания.
Вышеизложенное обычно описывается в распространённой литературе, посвящён
ной факторному анализу. Однако я не уверен, что следует погружаться в какие-либо математические размышления, например о «числе собственных значений», всего лишь ради «критерия». Мне кажется, что более практично будет, не мудрствуя лука
во, просто проанализировать несколько вариантов для разного заданного числа об
щих факторов, как говорилось на стр. 141.
Важный момент №4 имеет гораздо большее значение, чем предыдущий.

Наверное, некоторые из читателей сомневаются, можно ли считать окончательным результат только на том основании, что он понравился аналитику.
В действительности, существует подход, согласно которому «окончательным» мож
но считать результат, удовлетворяющий одному из следующих условий:
• заданное число общих факторов равно числу собственных значений матрицы корреляции, величина которых не меньше 1;
• заданное число общих факторов равно числу собственных значений непосред
ственно перед пологой частью «графика каменистой осыпи»;
• суммарный вклад заданного числа общих факторов превышает определённое значение
1
;
• заданное число общих факторов таково, что результат теста согласованности
2
не достигает уровня значимости;
• заданное число общих факторов таково, что индекс согласованности (Goodness of Fit Index, GFI)
3
принимает наилучшее значение.
Однако опыт, по крайней мере мой личный, показывает, что этим условиям нельзя слишком доверять. Другими словами, нельзя рассчитывать на то, что нижеописан
ная ситуация случится в действительности:
Конечно, считать «окончательным» тот результат, который больше понравился аналитику — это, наверное, преувеличение автора. Однако, как было отмечено, даже основательный подход не всегда приводит к заслуживающим доверия результатам — решение в конечном счёте принимается аналитиком.
По крайней мере, если в факторном анализе предполагается осуществлять враще
ние методами варимакс и промакс, то существует верхний предел числа общих фак
торов. Более подробно об этом я расскажу ниже.
1
Автор принимает это определённое значение равным 50%.
2
Про тест согласованности будет рассказано позже.
3
«Индекс согласованности» в этой книге не объясняется.

Как было сказано в начале главы 4, метод главных компонент и факторный ана
лиз — это разные методы. Однако есть много людей, считающих, что это одно и то же. Может быть, в этом виноваты некоторые компьютерные программы, не делаю
щие различия между этими двумя методами. Ещё раз посмотрите на схему стр. 138, и разница между методом главных компонент и факторным анализом станет для вас очевидна.
Как было сказано на стр. 148, для успешного факторного анализа необходимо сна
чала в некоторой мере построить гипотезу: «За этими откликами, возможно, скрыва
ются вот такие общие факторы». Другими словами, если основательно построить ги
потезу, то вероятность успеха, то есть вероятность получения желаемого результата, повышается. Да, факторный анализ на самом деле напоминает так называемый «до
говорной матч»
1
Для факторного анализа необходима тщательная проработка вопросов анкеты. Но даже это не даёт гарантию успеха — есть вероятность получения таких результатов, что аналитик сможет только покачать головой. Успех факторного анализа абсолютно невозможен, если приступать к нему, думая так: «Вот у меня под рукой есть данные недавнего анкетирования, попробую-ка я их проанализировать». Повторяю, абсо
лютно невозможен.
1
Конечно, назвать это «подтасовкой» у меня язык не поворачивается, но как бы там ни было, реальность фактор
ного анализа состоит в том, что аналитик направляет ход вычислений так, чтобы получить желаемый результат.

1
На самом деле факторный анализ делится на исследовательский факторный анализ и подтверждающий фактор
ный анализ (проверочный факторный анализ). Гермином «факторный анализ» обычно называют первый из них, и эта книга посвящена только ему.
Обычно факторный анализ определяют как:
• метод для описания корреляции между откликами с помощью нескольких об
щих факторов;
• метод для обнаружения скрытых общих факторов.
Я не могу согласиться ни с одним из этих определений. И вот почему. Первое из определений, действительно, математически приемлемо, но слишком сложно, чтобы быть понятым при первом взгляде на него, если только человек не обладает «сверх
проницательностью». Что касается второго определения, то как было отмечено в важном моменте №9, факторный анализ является «договорным матчем», поэтому это определение очевидно ошибочно. Однако оно является интуитивно понятным и хорошо подходит в качестве «первого шага» для начинающих изучать факторный анализ.
Сам я определяю факторный анализ как «метод для проверки значений фактор
ных нагрузок». Некоторые из читателей, возможно, покачают головой: «А не является ли это определением
подтверж дающего факторного анализа
1
?»
Но поймите меня пра
вильно — я ведь не говорю о «тщательной» проверке значений факторных нагрузок.

■ Рис.5.1.
Случай наличия откликов, почти не испытывающих влияния ни одного из общих факторов (факторные нагрузки с абсолютным значением выше 0,5 обозначены жирными стрелками)
В подобных случаях я рекомендую принять одну из следующих мер:
• исключить эти отклики и повторить факторный анализ;
• добиться отсутствия откликов, почти не испытывающих влияния ни одного из общих факторов, путём пошагового снижения минимального абсолютного значения факторной нагрузки, например, вот так: 0,5 -> 0,45->0,4 -> ... .
Минимальное абсолютное значение факторной нагрузки, при котором влияние об
щего фактора считается «сильным», с точки зрения статистики не имеет под собой особых оснований, но обычно выбирается из диапазона от 0,3 до 0,5.
В факторном анализе часто встречаются отклики, почти не испытывающие влия
ния ни одного из общих факторов, как показано на рисунке ниже.

1
Кстати, есть ещё такие методы, как метод наименьших квадратов, обобщённый метод наименьших квадратов.
2
Определители матриц в этой книге не объясняются.
'Функцию плотности вероятности многомерного нормального распределения я здесь не привожу, так как выра
жение громоздко само по себе и содержит много обозначений, которые пришлось бы объяснять отдельно. Просто считайте, что это многомерный случай нормального распределения, как и следует из названия.
4
Другая причина популярности метода максимального правдоподобия — возможность найти значение «индекса согласованности», который в этой книге не рассматривается.
Одной из причин слухов, что «метод максимального правдоподобия лучше метода главных факторов», является возможность проведения «теста согласованности»
4
Тест согласованности, если описывать его в общих чертах, заключается в проверке следующих гипотез.
Похоже, в последнее время гуляет слух, что «метод максимального правдоподобия лучше метода главных факторов». Меня беспокоит наметившаяся в последнее время тенденция безоглядного использования метода максимального правдоподобия.
Предпосылкой использования этого метода является соответствие данных в гене
ральной совокупности
многомерному нормальному распределению
3
. Помните об этом.
Одним из известных методов расчёта факторных нагрузок, помимо описанного ранее метода главных факторов, является
метод
максимального
правдоподобия
1
.
В этом методе для функции L, имеющей вид

Как отмечено на стр. 174, существуют различные виды вращения. Однако в дей
ствительности в подавляющем большинстве статей или докладов почему-то исполь
зуется только метод варимакс.
В чём же причина? Я не знаю точного ответа, так как не изучал «историю фактор
ного анализа», но однажды мне довелось услышать слова одного статистика: «Если для вращения используешь метод варимакс, то все будут довольны, а если другой метод — то подвергнешься критике.» В связи с этим, я могу выдвинуть следующую гипотезу:
1. Давным давно один исследователь (*не статистик) опубликовал результаты сво
их исследований, основанных на методе варимакс.
2. Другой исследователь, узнавший об этих результатах, подумал: «Да, этот фак
торный анализ выглядит интересно», и тоже опубликовал результаты исследова
ний на основе метода варимакс.
3. Изложенное в пунктах 1 и 2 повторялось много раз, и накопилось огромное ко
личество результатов исследований. В конце концов укоренился безоснователь
ный шаблон: «Вращение в факторном анализе — это метод варимакс!»
4. Вряд ли в прошлом совсем не было исследователей, которые задавались вопро
сом: «Почему и в тех, и в этих исследованиях используется метод варимакс?» Од
нако они, чтобы не создавать «лишних проблем», закрывали на это глаза и в ко
нечном итоге последовали утверждению: «Вращение в факторном анализе — это метод варимакс!»
В тесте согласованности, если значение
р
меньше уровня значимости а, то считает
ся верной альтернативная гипотеза: «число общих факторов не равно га». Если же значение
р
больше уровня значимости а, то делается вывод, что нулевую гипотезу нельзя признать ошибочной, другими словами: «Число общих факторов, может быть, равно га, а может быть, не равно га. Давайте истолкуем это широко и предположим, что оно находится где-то в районе га.»
Привлекательность теста согласованности заключается в возможности прибли
жённо оценить число общих факторов. Однако это не означает автоматического определения их оптимального числа, то есть этот метод вовсе не такой замечатель
ный, как кажется на первый взгляд.

5. Изложенное в пунктах 1 и 2 продолжало повторяться, и до настоящего времени накопился колоссальный объём вышеописанных исследований.
Прошу понять меня правильно: я вовсе не утверждаю, что «метод варимакс — пло
хой метод». Я просто задался вопросом, почему когда говорят «вращение», подразу
мевают только метод варимакс.
По моей оценке, та же самая ситуация в ближайшем будущем случится и с мето
дом промакс, о котором я расскажу позже. И так в действительности уже происходит.
«Содержание данного параграфа является абстрактным, поэтому не очень разби
рающиеся в математике читатели могут его пропустить», — я хотел бы сказать так и здесь, однако без усвоения содержания этого параграфа вы не сможете понять после
дующие, поэтому сделайте над собой усилие, пожалуйста.
В случае модели ортогональных факторов, матрицы факторных нагрузок и фак
торной структуры совпадают друг с другом. Другими словами, выполняются такие равенства:
факторных нагрузок
или
матрицей факторного отображ ения.

Если найти коэффициент корреляции для этих значений, то он окажется равным
0,79, то есть не будет совпадать с элементом Ь
п
=0,78 в матрице факторных нагрузок со стр. 179. Причина заключается в том, что факторные значения, приведённые в та
блице выше, являются не «точными значениями», а «предполагаемыми значениями»
1 1
Как отмечено на стр. 186, факторные значения можно вычислить либо регрессионным методом, либо методом
Бартлетта, либо методом Андерсена-Рубина. Такое разнообразие методов означает, другими словами, отсутствие
«единственного правильного» метода нахождения точных факторных значений.
В случае модели неортогональных факторов подобные равенства не выполняются.
Нужно также обратить внимание на следующее. В таблице ниже приведена часть данных со стр. 152 и факторные значения со стр. 188.
♦ Таблица 5.1.
Часть данных со стр. 152 и факторные значения со стр. 188.

Как отмечалось ранее, самым известным наклонным вращением является
метод
промакс.
Порядок его применения в общих чертах выглядит следующим образом:
1. Проводят вращение методом варимакс.
2. Предполагают вид «истинной матрицы факторных нагрузок», которая, «исходя из предшествующего опыта, непременно должна отражать положение дел в гене
ральной совокупности». Эту матрицу принято называть
целевой матрицей.
3. Вращают координатные оси пункта 1 так, чтобы как можно больше приблизить
ся к предполагаемой матрице пункта 2.
Теперь о главном. Мы изо дня в день вынуждены испытывать трудности именно потому, что не знаем положения дел в генеральной совокупности. То есть о возмож
ности «предположить вид целевой матрицы» не может быть и речи. Поэтому враще
ние методом промакс требует рассматривать матрицу С, расчёт которой для примера из данной главы приведён ниже, как целевую матрицу:
Здесь fr
2
i,
^22
и т.д. представляют собой значения нижеприведённой матрицы
В,
ко
торая является матрицей факторных нагрузок после вращения методом варимакс.

к
(греч. буква «каппа») — это значение, которое аналитик должен задать сам. Это значение, которое обычно задают равным 2, 3 или 4, в этом примере выбрано рав
ным 4.
Может быть, вышеизложенное вызовет у некоторых читателей ощущение какой-то недосказанности. Они могут почувствовать следующие сомнения:
• На чём основано утверждение, что «целевая матрица равна матрице С»?
• Допустимо ли, чтобы аналитик задавал значение
к
на свой субъективный взгляд?
• Почему нужно проводить вращение методом варимакс, то есть ортогональное вращение, в начале применения метода промакс, который является наклонным вращением?
Я вполне понимаю чувства этих читателей, но хочу, чтобы они перестроили своё мышление. Ведь всё это: и утверждение «целевая матрица равна матрице С», и выбор значения
к
на усмотрение аналитика, и вращение методом варимакс в самом нача
ле, — и является методом промакс.

Для примера этой главы матрица факторных нагрузок, матрица факторных корре
ляций и матрица факторной структуры находятся путём нижеследующих вычисле
ний. Матрица факторных корреляций — это матрица, состоящая из коэффициентов корреляции общих факторов друг с другом.
В нижеприведённом описании встречается много матриц, поэтому для удобства я обозначил матрицы как
Р, Q
и т.д.

Точность результатов анализа после вращения методом промакс нельзя проверить с помощью величин удельных вкладов или суммарного вклада. Вместо этого иногда используют проверку, основанную на таких критериях, как
вклад после исключения
влияния других общих факторов
, а также
вклад с игнорированием других общих фак
торов,
а иногда вообще не проверяют точность.
Идея «вклада после исключения влияния других общих факторов» трудна для по
нимания, поэтому здесь я объясню только «вклад с игнорированием других общих факторов»
1
«Вклад z-го общего фактора с игнорированием других общих факторов» вычисля
ется путём сложения возведённых в квадрат значений по столбцам матрицы фактор
ной структуры. Для примера данной главы это выглядит так:
Чем больше значение, тем сильнее соответствующий общий фактор влияет на мно
жество откликов. В отличие от метода варимакс, «вклад с игнорированием других общих факторов» не выражается в процентах.
«Вклад с игнорированием влияния других общих факторов» является не абсолют
ным, а относительным критерием. Другими словами, к нему надо относиться гибко, размышляя примерно так: «У этого общего фактора значение больше, чем у того, а вон у того больше, чем у этого». Поэтому не исключено, что этот критерий может разочаровать аналитика, потратившего силы на его нахождение.
!
Объяснение я не привожу только ввиду трудности для понимания, а не потому, что считаю вклад с исключением влияния других общих факторов плохим критерием.

Для примера данной главы, нахождение факторных значений после вращения ме
тодом промакс проводится с использованием регрессионного метода путём нижесле
дующих вычислений.

Запомните, что при факторном анализе, по крайней мере, с вращением по методам варимакс или промакс, существует верхний предел задаваемого числа общих факто
ров, который конкретно выглядит так:
На основе вышеприведённого неравенства я рассчитал верхние пределы задавае
мого числа общих факторов, приведённые в таблице ниже. Используйте эти значения для справки.

Данный параграф необходимо прочитать даже тем, кто впервые узнал о фактор
ном анализе из этой книги, хотя некоторые места здесь будут для них не очень по
нятны.
В примере данной главы в качестве метода расчёта факторных нагрузок был рас
смотрен метод главных факторов, а в качестве метода вращения — метод варимакс.
В действительности, и к методу главных факторов, и к методу главных компонент на
чинают относиться как к «устаревшим» и «плохим».
По нижеизложенным причинам, я не уверен в правильности подобного отноше
ния.
• Метод главных факторов по большому счёту представляет собой спектральный анализ
1
, то есть метод вычислений, который не может быть «новым или старым»,
«хорошим или плохим».
• Метод главных факторов, в отличие от метода максимального правдоподобия, не налагает такого большого ограничения, как «подчинение генеральной совокупно
сти многомерному нормальному распределению».
• Метод главных факторов на первый взгляд кажется сложным, но в действительно
сти вычисления в нём даже проще, чем в методе максимального правдоподобия
2
• Метод промакс, рассматриваемый как замена методу варимакс, тоже не идеален: вспомните довольно странный способ задания целевой матрицы, значения
к
• Хотя постулат метода варимакс о том, что «коэффициенты корреляции между лю
быми различными общими факторами равны 0» и не лишён натяжки, но представ
ляется непоследовательным сначала признавать этот метод по причинам, далёким от поиска истины: «относительной лёгкости вычислений», «недостаточной мощно
сти компьютеров», а потом клеймить его как «устаревший» и «плохой».
• Считать метод главных факторов и метод варимакс «устаревшими» и «плохими» равнозначно мнению: «Результаты исследований с использованием этих методов бесполезны и не заслуживают внимания. Давайте их игнорировать». Однако в пода
вляющем большинстве исследований, проведённых до настоящего времени
3
, исполь
зовалась комбинация «метод главных факторов + метод варимакс», поэтому окажет
ся, что практически не существует материалов, на которые можно опереться
4 1
Описанное на стр. 76-78 можно, в очень широком смысле, рассматривать как спектральный анализ.
2
Это личное мнение автора.
3
Эти строки были написаны в 2006 году.
4
Мне кажется, что если заявлять коллеге: «Ты что, делаешь факторный анализ с помощью метода главных факто
ров и метода варимакс?! Ты устарел!», — то в конечном итоге сам окажешься в дураках.

Что касается способа расчёта факторных нагрузок, я считаю, что метод главных факторов и метод максимального правдоподобия надо сравнивать не как «устарев
ший и современный» или «плохой и хороший», а просто как разные обычаи разных
«школ». Что касается метода вращения, действительно, постулат метода варимакс:
«значения коэффициентов корреляции между любыми различными общими факто
рами равны 0» не лишён натяжки, но метод промакс тоже вызывает непреодолимые сомнения. Мне даже кажется, что метод варимакс, по сравнению с методом промакс, не так уж и плох.
В данной книге я постоянно называл переменные отклика факторного анализа словом «отклики», однако их часто называют также
наблюдаемыми переменными.
Общие факторы иногда называют также
скрытыми переменными (ненаблюдаемы
ми переменными).
Факторные нагрузки иногда называют также
путевыми коэффици
ентами.

Как было сказано на стр. 11,
многомерный анализ
— это общее название для мето
дов анализа данных, состоящих из множества переменных, как показано в таблице ниже.
В этой главе я ознакомлю вас со следующими методами анализа из представлен
ных на рисунке выше:
• множественная регрессия;
• логистическая регрессия;
• кластерный анализ;
• квантификация Хаяши методом III.
В дополнение я опишу также
анализ соответствий
и
моделирование структурны
ми уравнениями.

М нож ественная регрессия
— это прогноз значений на основе множества объясня
ющих переменных.
В таблице ниже приведены данные сети кондитерских магазинов под названием
«Казами-Вакегу».
Предположив, что переменные связаны между собой следующим образом:
и проведя множественную регрессию, мы получим следующее уравнение:
Подставляя в это уравнение различные значения
х
х
и
х
2
,
мы можем моделировать значения
у.

1 2

перейти в каталог файлов

Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей