Рассмотрим пример из области географии. В 28 европейских странах в 1985 году были собраны следующие данные, выступающие здесь в качестве переменных:
Переменная |
Значение |
land |
Страна |
sb |
Процент городского населения |
lem |
Средняя продолжительность жизни мужчин |
lew |
|
ks |
Детская смертность на 1000 новорожденных |
so |
Количество часов ясной погоды в году |
nt |
Количество дней пасмурной погоды в году |
tjan |
Средняя дневная температура в январе |
tjul |
Средняя дневная температура в июле |
Эти данные вы увидите, если откроете файл europa.sav. Переменная land является текстовой переменной, предназначенной для обозначения страны.
Целью нашего кластерного анализа является нахождение стран с похожими свойствами. При самом общем рассмотрении переменных (от непосредственного указания стран мы здесь воздержимся) становится заметным, что данные, содержащиеся в файле связаны исключительно с ожидаемой продолжительностью жизни или с климатом. Лишь процентный показатель населения, проживающего в городах, не вписывается в эти рамки. Стало быть, сходства, которые возможно будут найдены между некоторыми странами, основываются на продолжительности жизни и климате этих стран.
Исходя из вышесказанного, в данном случае перед проведением кластерного анализа рекомендуется сократить количество переменных. Подходящим методом для этого является факторный анализ (см. гл. 19), который вы можете провести, выбрав в меню Analyze (Анализ) Data Reduction (Преобразование данных) Factor... (Факторный анализ)
Если Вы проведёте факторный анализ и примените, к примеру, вращение по методу варимакса, то получите два фактора. В первый фактор войдут переменные: lem. lew, ks и sb, а во второй фактор - переменные: so, nt, tjan и tjul. Первый фактор однозначно характеризует продолжительность жизни, причём высокое значение фактора означает высокую продолжительность жизни, а второй отражает климатические условия; здесь высокие значения означают тёплый и сухой климат. Вместе с тем, Вы наверняка заметили, что в первый фактор интегрирована и переменная sb, что очевидно указывает на высокую ожидаемую продолжительность жизни при высоких процентных долях городского населения. Вы можете рассчитать факторные значения для этих двух факторов и добавить их к файлу под именами fac1_1 и fac2_1. Чтобы Вам не пришлось самостоятельно проводить факторный анализ на этом этапе, указанные переменные уже включены в файл europa.sav. Вы можете видеть, к примеру, что высокой продолжительностью жизни обладают северные страны (высокие значения переменной fac1_1) или южные страны с тёплым и сухим климатом (высокие значения переменной fac2_1). Факторные значения можно вывести с помощью меню Analyze (Анализ) Reports (Отчёты) Case Summaries... (Итоги по наблюдениям)
Они выглядят следующим образом:
Case Summaries a (Итоги по наблюдениям)
LAND (Страна) |
Lebenserwartung (Ожидаемая продолжительность жизни) |
Klima (Климат) | |
1 |
ALBA |
-1,78349 |
,57155 |
2 |
BELG |
,55235 |
-,57937 |
3 |
BULG |
-,43016 |
-,13263 |
4 |
DAEN |
,97206 |
-,23453 |
5 |
DDR |
,26961 |
-,3351 1 |
6 |
DEUT |
,19121 |
-,44413 |
7 |
FINN |
-,30226 |
-1,28467 |
8 |
FRAN |
1,05511 |
1,04870 |
9 |
GRIE |
,12794 |
2,65654 |
10 |
GROS |
,75443 |
-,05221 |
11 |
IRLA |
,16370 |
-,66514 |
12 |
ISLA |
1,75315 |
-,97421 |
13 |
ITAL |
,40984 |
1,68933 |
14 |
JUGO |
-2,63161 |
-,44127 |
15 |
LUXE |
-.16469 |
-,98618 |
16 |
NIED |
1,31001 |
-,29362 |
17 |
NORW |
,96317 |
-,46987 |
18 |
OEST |
-,20396 |
-,31971 |
19 |
POLE |
-,65937 |
-,92081 |
20 |
PORT |
-1,10510 |
1,59478 |
21 |
RUMA |
-1,32450 |
,09481 |
22 |
SCHD |
1,22645 |
-,20543 |
23 |
SCHZ |
, 56289 |
-,45454 |
24 |
SOWJ |
-,67091 |
-1,32517 |
25 |
SPAN |
, 83627 |
1,91193 |
26 |
TSCH |
-,59407 |
-,40632 |
27 |
TUER |
-,52049 |
1,04424 |
28 |
UNGA |
-,75761 |
-,08695 |
Total N |
28 |
28 |
28 |
a. Limited to first 100 cases (Ограничено первыми 100 наблюдениями).
Распределим эти 28 стран по кластерам при помощи двух факторов: ожидаемая продолжительность жизни и климат.
Выберите в меню Analyze (Анализ) Classify (Классифицировать) Hierarchical Cluster... (Иерархический кластерный анализ)
Переменные fac1_1 и fac2_1 поместите в поле тестируемых переменных, а переменную land (страна) — в поле с именем Label cases by: (Наименование (маркировка) наблюдений).
После прохождения выключателя Statistics... (Статистики), наряду с таблицей порядка агломерации сделайте запрос на вывод информации о принадлежности к кластеру для наблюдений. Активируйте Range of solutions: (Область решений) и введите граничные значения 2 и 5.
Для сохранения информации о принадлежности отдельных наблюдений к кластеру в виде дополнительных переменных, воспользуйтесь выключателем Save... (Сохранить). В соответствии с установками, произведенными в диалоговом окне статистики, активируйте и здесь Range of solutions: (Область решений) и введите граничные значения 2 и 5.
Деактивируйте вывод дендрограмм. Так как переменные, используемые в данном кластерном анализе, являются факторными значениями с одинаковыми областями допустимых значений, то стандартизация (z-преобразование) значений является излишней.
Agglomeration Schedule
(Порядок агломерации) | ||||||
Stage (Шаг) |
Cluster Combined (Объединение в кластеры) |
Coefficients (Коэф-фициенты) |
Stage Cluster First Appears (Шаг, на котором кластер появляется впервые) |
Next Stage (Следу-ющий шаг) | ||
Cluster 1 (Кластер 1) |
Cluster 2 (Кластер 2) |
Cluster 1 (Кластер 1) |
Cluster 2 (Кластер 2) | |||
1 |
16 |
22 |
1,476 |
0 |
0 |
8 |
2 |
2 |
23 |
1,569 |
0 |
0 |
10 |
3 |
5 |
6 |
1,803 |
0 |
0 |
5 |
4 |
4 |
17 |
5,546 |
0 |
0 |
8 |
5 |
5 |
11 |
8,487 |
3 |
0 |
10 |
6 |
3 |
18 |
8,617 |
0 |
0 |
12 |
7 |
7 |
15 |
,108 |
0 |
0 |
15 |
8 |
4 |
16 |
,118 |
4 |
1 |
13 |
9 |
26 |
28 |
,129 |
0 |
0 |
12 |
10 |
2 |
5 |
,148 |
2 |
5 |
18 |
11 |
19 |
24 |
,164 |
0 |
0 |
15 |
12 |
3 |
26 |
,183 |
6 |
9 |
20 |
13 |
4 |
10 |
,228 |
8 |
0 |
18 |
14 |
13 |
25 |
,231 |
0 |
0 |
19 |
15 |
7 |
19 |
,254 |
7 |
11 |
20 |
16 |
1 |
21 |
,438 |
0 |
0 |
22 |
17 |
20 |
27 |
,645 |
0 |
0 |
22 |
18 |
2 |
4 |
,648 |
10 |
13 |
21 |
19 |
8 |
13 |
,810 |
0 |
14 |
23 |
20 |
3 |
7 |
,939 |
12 |
15 |
24 |
21 |
2 |
12 |
1,665 |
18 |
0 |
24 |
22 |
1 |
20 |
1,793 |
16 |
17 |
25 |
23 |
8 |
9 |
1,839 |
19 |
0 |
27 |
24 |
2 |
3 |
2,229 |
21 |
20 |
26 |
25 |
1 |
14 |
4,220 |
22 |
0 |
26 |
26 |
1 |
2 |
5,925 |
25 |
24 |
27 |
27 |
1 |
8 |
6,957 |
26 |
23 |
0 |
Сначала приводятся самые важные результаты. В таблице порядка агломерации Вы можете проследить последовательность образования кластеров; объяснения по этому поводу приводились в разделе 20.1. Скачкообразное изменение коэффициентов наблюдается при значениях 2,229 и 4,220; это означает, что после образования четырёх кластеров больше не должно происходит ни каких объединений и решение с четырьмя кластерами является оптимальным.
Принадлежность наблюдений к кластерам можно взять из нижеследующей таблицы, которая содержит также и информацию о принадлежности к кластерам для других вариантов решения (пять, три и два кластера).
Если Вы посмотрите на четырёхкластернное решение на нижеследующей таблице, то заметите, к примеру, что к третьему кластеру относятся следующие страны: Франция, Греция, Италия и Испания. Это страны с высокой продолжительностью жизни и тёплым климатом и поэтому не зря они являются предпочтительными для отдыха.
Cluster Membership (Принадлежность к кластеру)
Case (Случай) |
5 Clusters (5 кластеров) |
4 Clusters (4 кластера) |
3 Clusters (3 кластера) |
2 Clusters (2 кластера) |
1:ALBA |
1 |
1 |
1 |
1 |
2:BELG |
2 |
2 |
2 |
1 |
3:BULG |
3 |
2 |
2 |
1 |
4:DAEN 5:DEUT |
2 |
2 |
2 |
1 |
6:DDR |
2 |
2 |
2 |
1 |
7:FINN |
3 |
2 |
-3 |
2 |
8:FRAN |
4 |
3 |
-3 |
2 |
9:GRIE |
4 |
2 |
2 |
1 |
10:iGROS |
2 |
|
2 |
1 |
11:IRLA |
2 |
2 |
2 |
1 |
12:ISLA |
2 |
3 |
о |
2 |
13:ITAL |
4 |
4 |
1 |
1 |
14:JUGO |
5 |
2 |
2 |
1 |
1 5:LUXE |
3 |
2 |
2 |
1 |
16:NIED |
2 |
|
2 |
1 |
17:NORW |
2 |
2 |
2 |
1 |
18:OEST |
3 |
2 |
2 |
1 |
19:POLE |
3 |
2 1 |
1 |
1 |
20:PORT |
1 |
1 |
1 |
1 |
21:RUMA |
1 |
2 |
|
1 |
22:SCHD 23:SCHZ |
2 |
2 |
2 |
1 |
24:SOWJ |
3 |
1 |
i |
2 |
!25:SPAN |
4 |
1 |
|
|
26:TSCH |
3 |
1 |
1 |
1 |
27:TUER 28:UNGA |
1 |
2 |
1 |
1 |