В линейном регрессионном анализе, рассмотренном до настоящего времени, все наблюдения входят в модель равнозначно. При этом, исходной предпосылкой является тот факт, что все наблюдения должны иметь одинаковую дисперсию.
Если это условие не выполняется и дисперсия увеличивается с ростом значения независимой переменной, то отдельные точки можно взвесить так, чтобы наблюдения с большой дисперсией имели меньшее влияние.
В качестве примера рассмотрим тест, проверяющий знания детей в области географии. Дети в возрасте от 3 до 14 лет должны были в течение двух минут назвать как можно больше городов Германии. Результаты теста сведены в нижеследующей таблице, причём количество детей в каждой возрастной группе варьируется от двух до пяти:
Возраст |
Количество названных городов |
3 |
2, 1, 0, 4 |
4 |
4, 2, 6 |
5 |
3, 8, 4, 7 |
6 |
3, 8, 9, 5 |
7 |
6, 10 |
8 |
7, 14, 10 |
9 |
9, 16, 10 |
10 |
9, 16, 15, 9 |
11 |
18, 12 |
12 |
22, 11, 14, 16 |
13 |
14, 21 |
14 |
20, 15, 23, 14, 26 |
Эти данные для сорока детей в общей сложности хранятся в переменных alter (возраст) и staedte (города), которые содержатся в файле snamen.sav.
Откройте файл snamen.sav.
Выберите в меню Graphs (Графики) Scatterplot... (Диаграмма рассеяния)