Управление финансами Получите консультацию:
8 (800) 600-76-83

Бесплатный звонок по России

документы

1. Введение продуктовых карточек для малоимущих в 2021 году
2. Как использовать материнский капитал на инвестиции
3. Налоговый вычет по НДФЛ онлайн с 2021 года
4. Упрощенный порядок получения пособия на детей от 3 до 7 лет в 2021 году
5. Выплата пособий по уходу за ребенком до 1,5 лет по новому в 2021 году
6. Продление льготной ипотеки до 1 июля 2021 года
7. Новая льготная ипотека на частные дома в 2021 году
8. Защита социальных выплат от взысканий в 2021 году
9. Банкротство пенсионной системы неизбежно
10. Выплата пенсионных накоплений тем, кто родился до 1966 года и после
11. Семейный бюджет россиян в 2021 году

О проекте О проекте    Контакты Контакты    Загадки Загадки    Психологические тесты Интересные тесты
папка Главная » Полезные статьи » Регрессионный анализ в статистике

Регрессионный анализ в статистике

Статью подготовила доцент кафедры социально-гуманитарных дисциплин Волгушева Алла Александровна. Связаться с автором

Регрессионный анализ

Вернуться назад на Регрессионный анализ
Не забываем поделиться:


Следующий пример использует файл данных Poverty. sta. Открыть его можно с помощью меню Файл, выбрав команду Открыть; наиболее вероятно, что этот файл данных находится в директории /Examples/Datasets. Данные основаны на сравнении результатов переписи 1960 и 1970 годов для случайной выборки из 30 округов. Имена округов введены в качестве идентификаторов наблюдений.

Следующая информация по каждой переменной приводится в электронной таблице Редактор спецификаций переменных (открывающийся при выборе команды Все спецификации переменных... в меню Данные).


Регрессионный анализ

Цель исследования. Мы проанализируем корреляты бедности (т.е. предикторы, "сильно" коррелирующие с процентом семей, живущих за чертой бедности). Таким образом, будем рассматривать переменную 3 (Pt_Poor), как зависимую или критериальную переменную, а все остальные переменные - в качестве независимых переменных или предикторов.

Начальный анализ. Когда вы выбираете команду Множественной регрессии с помощью меню Анализ, открывается стартовая панель модуля Множественная регрессия. Вы можете задать регрессионное уравнение щелчком мыши по кнопке Переменные во вкладке Быстрый стартовой панели модуля Множественная регрессия. В появившемся окне Выбора переменных выберите Pt_Poor в качестве зависимой переменной, а все остальные переменные набора данных - в качестве независимых. Во вкладке Дополнительно отметьте также опции Показывать описательные статистики, корр. матрицы.


Регрессионный анализ

Теперь нажмите OK этого диалогового окна, после чего откроется диалоговое окно Просмотр описательных статистик. Здесь вы можете просмотреть средние и стандартные отклонения, корреляции и ковариации между переменными. Отметим, что это диалоговое окно доступно практически из всех последующих окон модуля Множественная регрессия, так что вы всегда сможете вернуться назад, чтобы посмотреть на описательные статистики определенных переменных.

Распределение переменных. Сначала изучим распределение зависимой переменной Pt_Poor по округам.
Самое читаемое за неделю

документ Введение ковидных паспортов в 2021 году
документ Должен знать каждый: Сильное повышение штрафов с 2021 года за нарушение ПДД
документ Введение продуктовых карточек для малоимущих в 2021 году
документ Доллар по 100 рублей в 2021 году
документ Новая льготная ипотека на частные дома в 2021 году
документ Продление льготной ипотеки до 1 июля 2021 года
документ 35 банков обанкротятся в 2021 году


Задавайте вопросы нашему консультанту, он ждет вас внизу экрана и всегда онлайн специально для Вас. Не стесняемся, мы работаем совершенно бесплатно!!!

Также оказываем консультации по телефону: 8 (800) 600-76-83, звонок по России бесплатный!

Нажмите Средние и стд.отклонения для показа таблицы результатов.


Регрессионный анализ

Выберите Гистограммы в меню Графика, чтобы построить гистограмму для переменной Pt_Poor (во вкладке Дополнительно диалогового окна 2М Гистограммы установите опцию Число категорий в строке Категории равной 16). Как видно ниже, распределение этой переменной чем-то отличается от нормального распределения. Коэффициенты корреляции могут оказаться существенно завышенными или заниженными при наличии в выборке существенных выбросов. Однако, хотя два округа (две самые правые колонки) имеют более высокий процент семей, проживающих за чертой бедности, чем это можно было бы ожидать в соответствии с нормальным распределением, они все еще, как нам кажется, находятся "в рамках допустимого".


Регрессионный анализ

Это решение является в определенной степени субъективным; эмпирическое правило состоит в том, что беспокойство требуется проявлять только тогда, когда наблюдение (или наблюдения) лежат вне интервала, заданного средним значением ± 3 стандартных отклонения. В этом случае будет разумно повторить критическую (с точки зрения влияния выбросов) часть анализа с выбросами и без них, с тем, чтобы удостовериться в отсутствии их влияния на характер взаимных корреляций. Вы также можете просмотреть распределение этой переменной, щелкнув мышкой по кнопке Диаграмма размаха во вкладке Дополнительно диалогового окна Просмотр описательных статистик, выбрав переменную Pt_Poor. Далее, выберите опцию Медиана/квартили/размах в диалоговом окне Диаграммы размаха и нажмите кнопку OK.


Регрессионный анализ

(Заметим, что определенный метод вычисления медианы и квартилей может быть выбран для всей "системы" в диалоговом окне Параметры в меню Сервис.)

Диаграммы рассеяния. Если имеются априорные гипотезы о связи между определенными переменными, на этом этапе может оказаться полезным вывести соответствующую диаграмму рассеяния. Например, посмотрим на связь между изменением популяции и процентом семей, проживающих за чертой бедности. Было бы естественно ожидать, что бедность приводит к миграции населения; таким образом, должна наблюдаться отрицательная корреляция между процентом семей, проживающих за чертой бедности, и изменением популяции.

Возвратимся к диалоговому окну Просмотр описательных статистик и щелкнем мышкой по кнопке Корреляции во вкладке Быстрый для отображения таблицы результатов с корреляционной матрицей.


Регрессионный анализ

Корреляции между переменными могут быть отображены также и на матричной диаграмме рассеяния. Матричная диаграмма рассеяния для выбранных переменных может быть получена щелчком мыши по кнопке Матричный график корреляций во вкладке Дополнительно диалогового окна Просмотр описательных статистик и последующим выбором интересующих переменных.

Задание множественной регрессии. Для выполнения регрессионного анализа от вас требуется только щелкнуть по кнопке OK в диалоговом окне Просмотр описательных статистик и перейти в окно Результаты множественной регрессии. Стандартный регрессионный анализ (со свободным членом) будет выполнен автоматически.

Просмотр результатов. Ниже изображено диалоговое окно Результаты множественной регрессии. Общее уравнение множественной регрессии высоко значимо (см. главу Элементарные понятия статистики по поводу обсуждения проверки статистической значимости). Таким образом, зная значения независимых переменных, можно "предсказать" предиктор, связанный с бедностью, лучше, чем угадывая его чисто случайно.


Регрессионный анализ

Регрессионные коэффициенты. Чтобы узнать, какие из независимых переменных дают больший вклад в предсказание предиктора, связанного с бедностью, изучим регрессионные (или B) коэффициенты. Щелкните мышкой по кнопке Итоговая таблица регрессии во вкладке Быстрый диалогового окна Результаты множественной регрессии для вывода таблицы результатов с этими коэффициентами.


Регрессионный анализ

Эта таблица показывает стандартизованные регрессионные коэффициенты (Бета) и обычные регрессионные коэффициенты (B). Бета-коэффициенты - это коэффициенты, которые получатся, если предварительно стандартизовать все переменные к среднему 0 и стандартному отклонению 1. Таким образом, величина этих Бета-коэффициентов позволяет сравнивать относительный вклад каждой независимой переменной в предсказание зависимой переменной. Как видно из таблицы результатов, изображенной выше, переменные Pop_Chng, Pt_Rural и N_Empld являются наиболее важными предикторами для бедности; из них только первые два статистически значимы. Регрессионный коэффициент для Pop_Chng отрицателен; т.е. чем меньше прирост популяция, тем большее число семей живут ниже уровня бедности в соответствующем округе. Вклад в регрессию для Pt_Rural положителен; т.е. чем больше процент сельского населения, тем выше уровень бедности.
интересное на портале
документ Тест "На сколько вы активны"
документ Тест "Подходит ли Вам ваше место работы"
документ Тест "На сколько важны деньги в Вашей жизни"
документ Тест "Есть ли у вас задатки лидера"
документ Тест "Способны ли Вы решать проблемы"
документ Тест "Для начинающего миллионера"
документ Тест который вас удивит
документ Семейный тест "Какие вы родители"
документ Тест "Определяем свой творческий потенциал"
документ Психологический тест "Вы терпеливый человек?"


Частные корреляции. Другой путь изучения вкладов каждой независимой переменной в предсказание зависимой переменной состоит в вычислении частных и получастных корреляций (щелкните на кнопке Частные корреляции во вкладке Дополнительно диалогового окна Результаты множественной регрессии). Частные корреляции являются корреляциями между соответствующей независимой переменной и зависимой переменной, скорректированными относительно других переменных. Таким образом, это корреляция между остатками после корректировки относительно независимых переменных. Частная корреляция представляет самостоятельный вклад соответствующей независимой переменной в предсказание зависимой переменной.


Регрессионный анализ

Получастные корреляция являются корреляциями между соответствующей независимой переменной, скорректированной относительно других переменных, и исходной (нескорректированной) зависимой переменной. Таким образом, получастная корреляция является корреляцией соответствующей независимой переменной после корректировки относительно других переменных, и нескорректированными исходными значениями зависимой переменной. Иначе говоря, квадрат получастной корреляции является показателем процента Общей дисперсии, самостоятельно объясняемой соответствующей независимой переменной, в то время как квадрат частной корреляции является показателем процента остаточной дисперсии, учитываемой после корректировки зависимой переменной относительно независимых переменных.

В этом примере частные и получастные корреляции имеют близкие значения. Однако иногда их величины могут различаться значительно (получастная корреляция всегда меньше). Если получастная корреляция очень мала, в то время как частная корреляция относительно велика, то соответствующая переменная может иметь самостоятельную "часть" в объяснении изменчивости зависимой переменной (т.е. "часть", которая не объясняется другими переменными). Однако в смысле практической значимости, эта часть может быть мала, и представлять только небольшую долю от общей изменчивости.

Анализ остатков. После подбора уравнения регрессии всегда полезно изучить полученные предсказанные значения и остатки. Например, экстремальные выбросы могут существенно сместить результаты и привести к ошибочным заключениям. Во вкладке Остатки/предложения/наблюдаемые нажмите кнопку Анализ остатков для перехода в соответствующее диалоговое окно.

Построчный график остатков. Эта опция диалогового окна предоставляет вам возможность выбрать один из возможных типов остатков для построения построчного графика. Обычно, следует изучить характер исходных (нестандартизованных) или стандартизованных остатков для идентификации экстремальных наблюдений. В нашем примере, выберите вкладку Остатки и нажмите кнопку Построчные графики остатков; по умолчанию будет построен график исходных остатков; однако, вы можете изменить тип остатков в соответствующем поле.


Регрессионный анализ

Масштаб, используемый в построчном графике в самой левой колонке, задается в терминах сигмы, т.е. стандартного отклонения остатков. Если один или несколько наблюдений попадают за границы ± 3 * сигма, то, вероятно, следует исключить соответствующие наблюдения (это легко достигается с помощью условий отбора) и выполнить анализ снова, чтобы убедиться в отсутствии смещения ключевых результатов, вызванного этими выбросами в данных.

Построчный график выбросов. Быстрый способ идентификации выбросов состоит в использовании опции График выбросов во вкладке Выбросы. Вы можете выбрать просмотр всех стандартных остатков, выпадающих за границы ± 2-5 сигма, или просмотр 100 наиболее выделяющихся наблюдений, выбранных в поле Тип выброса во вкладке Выбросы. При использовании опции Стандартный остаток (>2*сигма) в нашем примере какие-либо выбросы не заметны.

Расстояния Махаланобиса. Большинство учебников по статистике отводят определенное место для обсуждения темы выбросов и остатков для зависимой переменной. Однако роль выбросов для набора независимых переменных часто упускается из виду. Со стороны независимых переменных, имеется список переменных, участвующий с различными весами (регрессионные коэффициенты) в предсказании зависимой переменной. Независимые переменные можно представить себе в виде точек некоторого многомерного пространства, в котором может располагаться каждое наблюдение. Например, если вы имеете две независимые переменные с равными регрессионными коэффициентами, то можно построить диаграмму рассеяния этих двух переменных и расположить каждое наблюдение на этом графике. Вы можете затем нарисовать точку средних значений обоих переменных и вычислить расстояния от каждого наблюдения до этого среднего (называемого теперь центроидом) в этом двумерном пространстве; в этом состоит концептуальная идея, стоящая за вычислением расстояний Махаланобиса. Теперь посмотрим на эти расстояния, отсортированные по величине, с целью идентификации экстремальных наблюдений по независимым переменным. В поле Тип выбросов отметьте опцию расстояний Махаланобиса и нажмите кнопку Построчный график выбросов. Полученный график показывает расстояния Махаланобиса, отсортированные в порядке убывания.


Регрессионный анализ

Отметим, что округ Shelby оказывается в чем-то выделяющимся по сравнению с другими округами на графике. Если посмотреть на исходные данные, можно обнаружить, что в действительности округ Shelby - значительно больший по размеру округ с большим числом людей, занятых сельским хозяйством (переменная N_Empld), и намного более весомой популяцией афроамериканцев. Вероятно, было бы разумно выражать эти числа в процентах, а не в абсолютных значениях, в этом случае расстояние Махаланобиса округа Shelby от других округов в данном примере не было бы столь велико. Однако мы получили, что округ Shelby оказывается явным выбросом.

Удаленные остатки. Другой очень важной статистикой, позволяющей оценить масштаб проблемы выбросов, являются удаленные остатки. Они определяются как стандартизованные остатки для соответствующих наблюдений, которые получились бы при исключении соответствующих наблюдений из анализа. Напомним, что процедура множественной регрессии подбирает прямую линию для выражения взаимосвязи между зависимой и независимыми переменными. Если одно из наблюдений является очевидным выбросом (как округ Shelby в этих данных), то линия регрессии стремиться "приблизится" к этому выбросу, с тем чтобы учесть его, насколько это возможно. В результате, при исключении соответствующего наблюдения, возникнет совершенно другая линия регрессии (и B-коэффициенты). Поэтому, если удаленный остаток сильно отличается от стандартизованного остатка, у вас есть основания полагать, что результаты регрессионного анализа существенно смещены соответствующим наблюдением. В данном примере удаленный остаток для округа Shelby является выбросом, который существенно влияет на анализ. Вы можете построить диаграмму рассеяния остатков относительно удаленных остатков с помощью опции Остатки и удалить остатки во вкладке Диаграммы рассеяния. Ниже на диаграмме рассеяния явно заметен выброс.


Регрессионный анализ

STATISTICA предоставляет интерактивное средство для удаления выбросов (Кисть на панели инструментов для графики;). Позволяющее экспериментировать с удалением выбросов и позволяющее сразу же увидеть их влияние на линию регрессии. Когда это средство активизировано, курсор меняется на крестик и рядом с графиком высвечивается диалоговое окно Закрашивание. Вы можете (временно) интерактивно исключать отдельные точки данных из графика, отметив (1) опцию Автообновление и (2) поле Выключить из блока Операция; а затем щелкнув мышкой на точке, которую нужно удалить, совместив ее с крестиком курсора.


Регрессионный анализ

Отметим, что удаленные точки можно "возвратить", щелкнув по кнопке Отменить все в диалоговом окне Закрашивание.

Нормальные вероятностные графики. Из окна Анализ остатков пользователь получает большому количеству дополнительных графиков. Большинство этих графиков более или менее просто интерпретируются. Тем не менее, здесь мы дадим интерпретацию нормального вероятностного графика, поскольку он наиболее часто используется при анализе справедливости предположений регрессии.

Как было замечено ранее, множественная линейная регрессия предполагает линейную связь между переменными в уравнении, и нормальным распределением остатков. Если эти предположения нарушаются, окончательные заключения могут оказаться неточными. Нормальный вероятностный график остатков наглядно показывает наличие или отсутствие больших отклонений от высказанных предположений. Нажмите кнопку Нормальный во вкладке Вероятностные графики для построения этого графика.


Регрессионный анализ

Этот график строится следующим образом. Сначала остатки регрессии ранжируются. Для этих упорядоченных остатков вычисляются z-значения (т.е. стандартные значения нормального распределения), исходя из предположения, что данные имеют нормальное распределение. Эти z-значения откладываются по оси Y на графике.

Если наблюдаемые остатки (отложенные по оси X) нормально распределены, то все значения будут располагаться на графике вблизи прямой линии; на данном графике все точки лежат очень близко к прямой линии. Если остатки не распределены нормально, то они будут отклоняться от линии. На этом графике также могут стать заметны выбросы.

Если имеющаяся модель плохо согласуется с данными, и данные на графике, похоже, образуют некоторую структуру (например, облако наблюдений принимает S-образную форму) около линии регрессии, то, возможно, будет полезным применение некоторого преобразования зависимой переменной (например, логарифмирование с целью "поджать" хвост распределения, и т.п.; см. также краткое обсуждение преобразований Бокса-Кокса и Бокса-Тидвелла в разделе Примечания и техническая информация). Обсуждение подобных методов лежит за рамками данного руководства. Однако слишком часто исследователи просто принимают свои данные, не пытаясь присмотреться к их структуре или проверить их на соответствие своим предположениям, что приводит к ошибочным заключениям. По этой причине одной из основных задач, стоявшей перед разработчиками пользовательского интерфейса модуля Множественной регрессии было максимально возможное упрощение (графического) анализа остатков.

тема

документ Монархия
документ Оценка предприятий
документ Теория организации
документ Оценочная деятельность
документ Теории мотивации

Получите консультацию: 8 (800) 600-76-83
Звонок по России бесплатный!

Не забываем поделиться:


Загадки

Будьте абсолютно точны и вы останетесь единственным в своей профессии. О какой профессии так говорил английский писатель Джон Голсуорси?

посмотреть ответ


назад Назад | форум | вверх Вверх

Загадки

Что есть общего меж двумя словами "кредит" и "декрет"?

посмотреть ответ
важное

Новая помощь малому бизнесу
Изменения по вопросам ИП

Новое в расчетах с персоналом в 2023 г.
Отчет по сотрудникам в 2023 г.
НДФЛ в 2023 г
Увеличение вычетов по НДФЛ
Что нового в патентной системе налогообложения в 2023
Что важно учесть предпринимателям при проведении сделок в иностранной валюте в 2023 году
Особенности работы бухгалтера на маркетплейсах в 2023 году
Риски бизнеса при работе с самозанятыми в 2023 году
Что ждет бухгалтера в работе в будущем 2024 году
Как компаниям МСП работать с китайскими контрагентами в 2023 г
Как выгодно продавать бухгалтерские услуги в 2023 году
Индексация заработной платы работодателями в РФ в 2024 г.
Правила работы компаний с сотрудниками с инвалидностью в 2024 году
Оплата и стимулирование труда директора в компаниях малого и среднего бизнеса в 2024 году
Правила увольнения сотрудников коммерческих компаний в 2024 г
Планирование отпусков сотрудников в небольших компаниях в 2024 году
Как уменьшить налоги при работе с маркетплейсами
Как защитить свой товар от потерь на маркетплейсах
Аудит отчетности за 2023 год
За что и как можно лишить работника премии
Как правильно переводить и перемещать работников компании в 2024 году
Размещение рекламы в интернете в 2024 году
Компенсации удаленным сотрудникам и налоги с их доходов в 2024 году
Переход бизнеса из онлайн в офлайн в 2024 г
Что должен знать бухгалтер о сдельной заработной плате в 2024 году
Как рассчитать и выплатить аванс в 2024 г
Как правильно использовать наличные в бизнесе в 2024 г.
Сложные вопросы работы с удаленными сотрудниками
Анализ денежных потоков в бизнесе в 2024 г
Что будет с налогом на прибыль в 2025 году
Как бизнесу правильно нанимать иностранцев в 2024 г
Можно ли устанавливать разную заработную плату сотрудникам на одной должности
Как укрепить трудовую дисциплину в компании в 2024 г
Как выбрать подрядчика по рекламе
Как небольшому бизнесу решить проблему дефицита кадров в 2024 году
Профайлинг – полезен ли он для небольшой компании?
Пени по налогам бизнеса в 2024 и 2025 годах



©2009-2023 Центр управления финансами.