Линейный регрессионный анализ

Статью подготовила доцент кафедры социально-гуманитарных дисциплин Волгушева Алла Александровна. Связаться с автором

Вернуться назад на Регрессионный анализ

Не забываем поделиться:

Для изучения этого метода используем данные, показанные в табл.40.

В качестве оценки (О) студентов (Ст) на контрольной работе здесь использован процент правильных результатов по отношению к общему количеству заданий и вопросов. Если студент успешно выполнил все задания и правильно ответил на все вопросы, то его оценка О = 100%. В данной выборке (табл.40) таких студентов нет. Самый лучший результат здесь у студента №22, который успешно выполнил 93% всех заданий. А, например, студент №1 не справился ни с одним заданием и не ответил верно ни на один вопрос.

Регрессионный анализ

ПО – процент отсутствия. Если студент присутствовал в течение всего времени тренировочных занятий, то ПО = 0%. В данной выборке таких меньшинство. А, например, студенты №1 и №12 пропустили более половины времени, в течение которого можно было готовиться к контрольной работе.

Остальные переменные содержат субъективные оценки, выставленные преподавателями по шкалам семантического дифференциала.

Допустим, главной целью занятий является изучение компьютерной программы. Тогда мы сразу же, уже на первых занятиях, замечаем существенные различия между студентами в скорости и безошибочности работы. Обусловленные не тренировочными занятиями, а предшествующим опытом. Чем большее количество программ студент изучил ранее, чем проще ему разбираться с новой. Это приобретенный ранее опыт, имеющий непосредственное отношение к теме занятий, к содержанию контрольной работы.

Один человек всегда работает эффективнее другого. Даже если они раньше получили, казалось бы, один и тот же опыт. Дело не только в опыте, но также и в способностях, которые не являются результатом опыта в данной конкретной области. Но всегда ли мы можем отделить одно от другого? В какой степени успехи студента обусловлены предшествующим опытом в данной области, а в какой степени – соответствующими способностями? Чтобы не отвечать на такой сложный вопрос, эти составляющие сейчас (табл.40) просто объединены в одну переменную: Опыт и способности (ОС).

Для оценивания использована следующая шкала: полюс 1 – отсутствие опыта и/или слабые способности; полюс 7 – большой опыт и/или высокий уровень способностей. Если, например, три преподавателя поставили студенту соответственно оценки 6, 7, 6, то его средняя оценка приблизительно такова ОС = 6,3. В данной выборке это студенты №6, №13 и №24.

ДС – другие способности. Они, в отличие от ОС, не имеют никакого отношения к теме занятий и содержанию контрольной работы. Оценка 1 соответствует отсутствию каких-либо проявлений подобных талантов, а оценка 7 – наоборот, высокой степени их выраженности. Мы могли бы уточнить понятие ДС, например, назвать эти способности коммуникативными.

Самое читаемое за неделю
Введение ковидных паспортов в 2021 году
Должен знать каждый: Сильное повышение штрафов с 2021 года за нарушение ПДД
Введение продуктовых карточек для малоимущих в 2021 году
Доллар по 100 рублей в 2021 году
Новая льготная ипотека на частные дома в 2021 году
Продление льготной ипотеки до 1 июля 2021 года
35 банков обанкротятся в 2021 году

Задавайте вопросы нашему консультанту, он ждет вас внизу экрана и всегда онлайн специально для Вас. Не стесняемся, мы работаем совершенно бесплатно!!!

Также оказываем консультации по телефону: 8 (800) 600-76-83, звонок по России бесплатный!

Но для изучения регрессионного анализа это не принципиально. Важно здесь только лишь то, что они не влияют на оценку по данному предмету.

П – поведение на тренировочном занятии. Оценку 7 получают студенты, которые активно и внимательно разбираются с заданиями. Оценка 1 – наоборот, соответствует отсутствию каких-либо попыток выполнить задания и понять их смысл. Переменная М содержит информацию о мотивации: 1 – низкий уровень мотивации, 7 – высокий уровень мотивации.

Итак, назовем переменные еще раз:

Ст – студент;
О – оценка на контрольной работе;
ПО – процент отсутствия;
ОС – приобретенные ранее опыт и способности, обеспечивающие быстрое и правильное выполнение заданий;
ДС – другие способности (не помогающие в выполнении заданий);
П – поведение на тренировочных занятиях;
М – мотивация.

Надо сразу же заметить, что большинство переменных здесь не являются метрическими. Скорее их надо отнести к порядковым. Кроме того, это небольшая выборка и на нормальность распределения переменные не проверены. Следовательно, применение параметрических методов, в том числе и линейного регрессионного анализа, можно признать некорректным. Однако, это замечание является критичным только лишь при проведении реальных исследований. Если же наша цель заключается только в изучении SPSS, то эту проблему можно проигнорировать.

Коэффициенты корреляции Пирсона. Перед выполнением регрессионного анализа проанализируем вначале корреляционные связи между всеми 6-ю переменными (Analyze > Correlate > Bivariate). Ок.

Как и следовало ожидать, Оценка на контрольной работе связана здесь со всеми переменными кроме Других способностей. Связь Оценки с Опытом-Способностями несколько менее значима (p = 0,02) по сравнению с остальными тремя переменными (p 0,01). В большей степени повлияли на Оценку присутствие и активная работа на тренировочных занятиях. Причем, связь О*ПО является отрицательной, что и неудивительно: чем больше занятий пропустил студент, тем меньше знаний и навыков он получил, что и привело к снижению Оценки. Кроме того, выявлена очень сильная связь между Поведением и Мотивацией. Это понятно, ведь различия в Поведении здесь обусловлены, прежде всего, различиями в Мотивации.

Регрессионный анализ. Откройте меню Analyze > Regression и выберите линейную модель. В качестве зависимой (dependent) переменной используем Оценку, а в качестве независимых (independents) переменных – Процент отсутствия, Опыт-Способности, Другие способности и Поведение. Не будем пока что включать в анализ только Мотивацию. Номера студентов здесь будут являться обозначениями случаев (case labels). В диалоговом окне Statistics включите дополнительно диагностику коллинеарности и диагностику остатков (residuals) для всех (all) случаев (cases). Continue, Ok.

Мы здесь рассмотрим только лишь небольшую часть возможностей регрессионного анализа. Более полное описание, при необходимости, можете найти в текстовом файле «Другие результаты».

Квадрат (square) множественного коэффициента корреляции (R) свидетельствует о том, что модель объясняет приблизительно 86% дисперсии. Или 83%, если использовать уточненное (adjusted) значение. Согласно таблице ANOVA, статистическая значимость модели очень высока (p < 0,001). Следовательно, данная модель достаточно хорошо описывает закономерность в исходных данных, и можно продолжать анализ.

В следующей таблице содержится информация о вкладе каждой независимой переменной в дисперсию зависимой переменной. Процент отсутствия, Опыт-Способности и Поведение вносят высоко значимый вклад (p<0,001). Другие способности не вносят существенного вклада (p=0,69), что вполне соответствует смыслу переменной ДС: это любые способности, но только не те, от которых зависит оценка на контрольной работе.

Таким образом, изучаемые нами данные (табл.40) можно описать следующим уравнением:

О = 0,46 – 0,63•ПО + 4,8•ОС + 0,5•ДС + 7,5•П

Тест "На сколько вы активны"
документ

Тест "Подходит ли Вам ваше место работы"
документ

Тест "На сколько важны деньги в Вашей жизни"
документ

Тест "Есть ли у вас задатки лидера"
документ

Тест "Способны ли Вы решать проблемы"

Тест "Для начинающего миллионера"
документ

Тест который вас удивит
документ

Семейный тест "Какие вы родители"
документ

Тест "Определяем свой творческий потенциал"
документ

Психологический тест "Вы терпеливый человек?"

Поскольку модель в целом высоко значима и объясняет достаточно большую долю дисперсии, это уравнение можно использовать для прогнозов. Подставьте в него наблюдаемые значения независимых переменных и получите ожидаемое значение зависимой переменной. Нестандартизованные коэффициенты интерпретируются легко. Коэффициент B представляет среднее изменение зависимой переменной при изменении на единицу соответствующей этому коэффициенту независимой переменной при неизменных других независимых переменных. Но близость коэффициентов B еще не свидетельствует о приблизительно равных вкладах соответствующих независимых переменных. Мы видим, например, что абсолютные значения коэффициентов для Процента отсутствия (0,63) и Других способностей (0,5) близки. Но сравнение шкал этих переменных: 0…100 и 1…7 позволяет понять, что переменная Процент отсутствия вносит в дисперсию зависимой переменной гораздо больший вклад.

Непосредственно сравнивать вклады независимых переменных позволяют стандартизованные коэффициенты регрессии Beta. Стандартизация здесь означает умножение коэффициента B на стандартное отклонение независимой переменной и его деление на стандартное отклонение зависимой переменной. Сравним независимые переменные: наибольший вклад вносит Поведение на тренировочном занятии (Beta=0,62), несколько меньший вклад вносит Процент отсутствия (Beta= – 0,46) и т.д. Заметьте, что уровни значимости Sig здесь менее удобны: если не пытаться выяснять их более точные значения, то можно сделать вывод, что все независимые переменные кроме Других способностей вносят одинаково большой вклад (p<0,001), что не вполне соответствует действительности.

Наблюдаемые и ожидаемые оценки. В таблице Casewise diagnostics для каждого студента показана его наблюдаемая оценка на контрольной работе О. Мы можем сравнить ее с оценкой, спрогнозированной (predicted) на основе регрессионной модели. Остаток (residual) - разница между наблюдаемым и ожидаемым значениями. В результате деления остатка на оценку его стандартного отклонения получается стандартизованный (Std) остаток. Анализируя остатки, мы можем сделать выводы о точности прогнозов. Наиболее точно здесь спрогнозирована оценка для студента №10 и наименее точно – для студента №18.

Просмотрите оценки 18-го студента в табл.40. Опыт-Способности не на высоком уровне и 22% времени на тренировочных занятиях пропущено. Но большую часть времени студент разбирался с заданиями достаточно активно (Поведение=6,4). В соответствии с регрессионной моделью, можно было бы ожидать (табл. Casewise diagnostics), что этот студент выполнит на контрольной работе более 44% всех заданий. Но фактически он выполнил только 26%. Почему? Может быть, он пропустил на тренировочных занятиях именно те темы, которые попались ему на контрольной работе? А может быть Опыт-Способности и/или Поведение этого студента были оценены неверно? Весьма вероятно. Но не менее вероятны также и другие причины.

Есть и противоположные примеры. Например, 22-й студент фактически получил гораздо более высокую оценку (93%) по сравнению с той, которую следовало бы ожидать в соответствии с моделью (79%). Часто мы можем только догадываться о настоящих причинах таких расхождений.

Но большинство из них можно свести к следующим:

1) повлияли факторы, не учтенные в модели;
2) измерения по некоторым переменным выполнены неточно;
3) линейная модель неспособна точно описать закономерность, наблюдающуюся в данных.

Мультиколлинеарность. Сильная связь между независимыми переменными может настолько искажать результаты регрессионного анализа, что доверять этим результатам уже невозможно. Просмотрите вычисленные ранее коэффициенты корреляции: сильных и значимых связей между переменными ПО, ОС, ДС, П не выявлено. Следовательно, проблем с мультиколлинеарностью здесь быть не может. Чтобы подтвердить это, необходимо убедиться, что показатели Condition index в таблице Collinearity diagnostics не превышают значение 15. Так оно и есть.

Теперь давайте убедимся, что может быть и иначе. Выполните регрессионный анализ еще раз, но теперь дополнительно добавьте в список независимых переменных переменную Мотивация. Теперь в модели будет 5 независимых переменных. Все остальные настройки диалоговых окон оставьте прежними. Ок.

Сравните результаты с предыдущими. Объясняемый моделью процент дисперсии изменился несущественно. В соответствии с коэффициентом детерминации (R square) он слегка повысился, однако в соответствии с уточненным (adjusted) коэффициентом – наоборот, слегка понизился. Модель в целом по-прежнему высоко статистически значима.

Просмотрите снова вычисленные ранее коэффициенты корреляции: Оценка сильно положительно связана и с Поведением и с Мотивацией. Но еще более сильно Поведение и Мотивация связаны между собой. Поскольку сейчас в модели обе эти переменные используются в качестве независимых, то сильная связь между ними должна настораживать. Убедитесь, что это действительно не лучшим образом повлияло на результаты (таблица coefficients). Во-первых, вклад Мотивации оказался отрицательным (B = -3,9). Во-вторых, вклад Поведения и Мотивации оказался статистически незначимым (p = 0,088 и p = 0,561). Как это понять? Ведь это полностью противоречит результатам, полученным ранее: Оценка значимо (p<0,001) положительно связана и с Поведением (r = 0,66) и с Мотивацией (r = 0,67).

Это «противоречие» заставляет усомниться в адекватности данной регрессионной модели. И в таблице Диагностика коллинеарности мы находим подтверждение этим сомнениям. Тот факт, что Condition index=52,7 превышает значение 30, свидетельствует об очень серьезных проблемах с мультиколлинеарностью. Причем большие доли дисперсии (proportions variance = 0,99) для высокого значения Condition index наблюдаются именно у Поведения и Мотивации. Следовательно, нельзя включать в модель и Поведение и Мотивацию одновременно. Необходимо либо объединить эти две переменные в одну, либо построить модель только на одной из них.