Управление финансами
документы

1. Акт выполненных работ
2. Акт скрытых работ
3. Бизнес-план примеры
4. Дефектная ведомость
5. Договор аренды
6. Договор дарения
7. Договор займа
8. Договор комиссии
9. Договор контрактации
10. Договор купли продажи
11. Договор лицензированный
12. Договор мены
13. Договор поставки
14. Договор ренты
15. Договор строительного подряда
16. Договор цессии
17. Коммерческое предложение
Управление финансами
егэ ЕГЭ 2017    Психологические тесты Интересные тесты   Изменения 2016 Изменения 2016
папка Главная » Полезные статьи » Регрессионный анализ в статистике

Регрессионный анализ в статистике

Регрессионный анализ

Вернуться назад на Регрессионный анализ

Внимание!

Если Вам полезен
этот материал, то вы можете добавить его в закладку вашего браузера.

добавить в закладки

Следующий пример использует файл данных Poverty. sta. Открыть его можно с помощью меню Файл, выбрав команду Открыть; наиболее вероятно, что этот файл данных находится в директории /Examples/Datasets. Данные основаны на сравнении результатов переписи 1960 и 1970 годов для случайной выборки из 30 округов. Имена округов введены в качестве идентификаторов наблюдений.

Следующая информация по каждой переменной приводится в электронной таблице Редактор спецификаций переменных (открывающийся при выборе команды Все спецификации переменных... в меню Данные).


Регрессионный анализ

Цель исследования. Мы проанализируем корреляты бедности (т.е. предикторы, "сильно" коррелирующие с процентом семей, живущих за чертой бедности). Таким образом, будем рассматривать переменную 3 (Pt_Poor), как зависимую или критериальную переменную, а все остальные переменные - в качестве независимых переменных или предикторов.

Начальный анализ. Когда вы выбираете команду Множественной регрессии с помощью меню Анализ, открывается стартовая панель модуля Множественная регрессия. Вы можете задать регрессионное уравнение щелчком мыши по кнопке Переменные во вкладке Быстрый стартовой панели модуля Множественная регрессия. В появившемся окне Выбора переменных выберите Pt_Poor в качестве зависимой переменной, а все остальные переменные набора данных - в качестве независимых. Во вкладке Дополнительно отметьте также опции Показывать описательные статистики, корр. матрицы.


Регрессионный анализ

Теперь нажмите OK этого диалогового окна, после чего откроется диалоговое окно Просмотр описательных статистик. Здесь вы можете просмотреть средние и стандартные отклонения, корреляции и ковариации между переменными. Отметим, что это диалоговое окно доступно практически из всех последующих окон модуля Множественная регрессия, так что вы всегда сможете вернуться назад, чтобы посмотреть на описательные статистики определенных переменных.

Распределение переменных. Сначала изучим распределение зависимой переменной Pt_Poor по округам.


Нажмите Средние и стд.отклонения для показа таблицы результатов.


Регрессионный анализ

Выберите Гистограммы в меню Графика, чтобы построить гистограмму для переменной Pt_Poor (во вкладке Дополнительно диалогового окна 2М Гистограммы установите опцию Число категорий в строке Категории равной 16). Как видно ниже, распределение этой переменной чем-то отличается от нормального распределения. Коэффициенты корреляции могут оказаться существенно завышенными или заниженными при наличии в выборке существенных выбросов. Однако, хотя два округа (две самые правые колонки) имеют более высокий процент семей, проживающих за чертой бедности, чем это можно было бы ожидать в соответствии с нормальным распределением, они все еще, как нам кажется, находятся "в рамках допустимого".


Регрессионный анализ

Это решение является в определенной степени субъективным; эмпирическое правило состоит в том, что беспокойство требуется проявлять только тогда, когда наблюдение (или наблюдения) лежат вне интервала, заданного средним значением ± 3 стандартных отклонения. В этом случае будет разумно повторить критическую (с точки зрения влияния выбросов) часть анализа с выбросами и без них, с тем, чтобы удостовериться в отсутствии их влияния на характер взаимных корреляций. Вы также можете просмотреть распределение этой переменной, щелкнув мышкой по кнопке Диаграмма размаха во вкладке Дополнительно диалогового окна Просмотр описательных статистик, выбрав переменную Pt_Poor. Далее, выберите опцию Медиана/квартили/размах в диалоговом окне Диаграммы размаха и нажмите кнопку OK.


Регрессионный анализ

(Заметим, что определенный метод вычисления медианы и квартилей может быть выбран для всей "системы" в диалоговом окне Параметры в меню Сервис.)

Диаграммы рассеяния. Если имеются априорные гипотезы о связи между определенными переменными, на этом этапе может оказаться полезным вывести соответствующую диаграмму рассеяния. Например, посмотрим на связь между изменением популяции и процентом семей, проживающих за чертой бедности. Было бы естественно ожидать, что бедность приводит к миграции населения; таким образом, должна наблюдаться отрицательная корреляция между процентом семей, проживающих за чертой бедности, и изменением популяции.

Возвратимся к диалоговому окну Просмотр описательных статистик и щелкнем мышкой по кнопке Корреляции во вкладке Быстрый для отображения таблицы результатов с корреляционной матрицей.


Регрессионный анализ

Корреляции между переменными могут быть отображены также и на матричной диаграмме рассеяния. Матричная диаграмма рассеяния для выбранных переменных может быть получена щелчком мыши по кнопке Матричный график корреляций во вкладке Дополнительно диалогового окна Просмотр описательных статистик и последующим выбором интересующих переменных.

Задание множественной регрессии. Для выполнения регрессионного анализа от вас требуется только щелкнуть по кнопке OK в диалоговом окне Просмотр описательных статистик и перейти в окно Результаты множественной регрессии. Стандартный регрессионный анализ (со свободным членом) будет выполнен автоматически.

Просмотр результатов. Ниже изображено диалоговое окно Результаты множественной регрессии. Общее уравнение множественной регрессии высоко значимо (см. главу Элементарные понятия статистики по поводу обсуждения проверки статистической значимости). Таким образом, зная значения независимых переменных, можно "предсказать" предиктор, связанный с бедностью, лучше, чем угадывая его чисто случайно.


Регрессионный анализ

Регрессионные коэффициенты. Чтобы узнать, какие из независимых переменных дают больший вклад в предсказание предиктора, связанного с бедностью, изучим регрессионные (или B) коэффициенты. Щелкните мышкой по кнопке Итоговая таблица регрессии во вкладке Быстрый диалогового окна Результаты множественной регрессии для вывода таблицы результатов с этими коэффициентами.


Регрессионный анализ

Эта таблица показывает стандартизованные регрессионные коэффициенты (Бета) и обычные регрессионные коэффициенты (B). Бета-коэффициенты - это коэффициенты, которые получатся, если предварительно стандартизовать все переменные к среднему 0 и стандартному отклонению 1. Таким образом, величина этих Бета-коэффициентов позволяет сравнивать относительный вклад каждой независимой переменной в предсказание зависимой переменной. Как видно из таблицы результатов, изображенной выше, переменные Pop_Chng, Pt_Rural и N_Empld являются наиболее важными предикторами для бедности; из них только первые два статистически значимы. Регрессионный коэффициент для Pop_Chng отрицателен; т.е. чем меньше прирост популяция, тем большее число семей живут ниже уровня бедности в соответствующем округе. Вклад в регрессию для Pt_Rural положителен; т.е. чем больше процент сельского населения, тем выше уровень бедности.

Частные корреляции. Другой путь изучения вкладов каждой независимой переменной в предсказание зависимой переменной состоит в вычислении частных и получастных корреляций (щелкните на кнопке Частные корреляции во вкладке Дополнительно диалогового окна Результаты множественной регрессии). Частные корреляции являются корреляциями между соответствующей независимой переменной и зависимой переменной, скорректированными относительно других переменных. Таким образом, это корреляция между остатками после корректировки относительно независимых переменных. Частная корреляция представляет самостоятельный вклад соответствующей независимой переменной в предсказание зависимой переменной.


Регрессионный анализ

Получастные корреляция являются корреляциями между соответствующей независимой переменной, скорректированной относительно других переменных, и исходной (нескорректированной) зависимой переменной. Таким образом, получастная корреляция является корреляцией соответствующей независимой переменной после корректировки относительно других переменных, и нескорректированными исходными значениями зависимой переменной. Иначе говоря, квадрат получастной корреляции является показателем процента Общей дисперсии, самостоятельно объясняемой соответствующей независимой переменной, в то время как квадрат частной корреляции является показателем процента остаточной дисперсии, учитываемой после корректировки зависимой переменной относительно независимых переменных.

В этом примере частные и получастные корреляции имеют близкие значения. Однако иногда их величины могут различаться значительно (получастная корреляция всегда меньше). Если получастная корреляция очень мала, в то время как частная корреляция относительно велика, то соответствующая переменная может иметь самостоятельную "часть" в объяснении изменчивости зависимой переменной (т.е. "часть", которая не объясняется другими переменными). Однако в смысле практической значимости, эта часть может быть мала, и представлять только небольшую долю от общей изменчивости.

Анализ остатков. После подбора уравнения регрессии всегда полезно изучить полученные предсказанные значения и остатки. Например, экстремальные выбросы могут существенно сместить результаты и привести к ошибочным заключениям. Во вкладке Остатки/предложения/наблюдаемые нажмите кнопку Анализ остатков для перехода в соответствующее диалоговое окно.

Построчный график остатков. Эта опция диалогового окна предоставляет вам возможность выбрать один из возможных типов остатков для построения построчного графика. Обычно, следует изучить характер исходных (нестандартизованных) или стандартизованных остатков для идентификации экстремальных наблюдений. В нашем примере, выберите вкладку Остатки и нажмите кнопку Построчные графики остатков; по умолчанию будет построен график исходных остатков; однако, вы можете изменить тип остатков в соответствующем поле.


Регрессионный анализ

Масштаб, используемый в построчном графике в самой левой колонке, задается в терминах сигмы, т.е. стандартного отклонения остатков. Если один или несколько наблюдений попадают за границы ± 3 * сигма, то, вероятно, следует исключить соответствующие наблюдения (это легко достигается с помощью условий отбора) и выполнить анализ снова, чтобы убедиться в отсутствии смещения ключевых результатов, вызванного этими выбросами в данных.

Построчный график выбросов. Быстрый способ идентификации выбросов состоит в использовании опции График выбросов во вкладке Выбросы. Вы можете выбрать просмотр всех стандартных остатков, выпадающих за границы ± 2-5 сигма, или просмотр 100 наиболее выделяющихся наблюдений, выбранных в поле Тип выброса во вкладке Выбросы. При использовании опции Стандартный остаток (>2*сигма) в нашем примере какие-либо выбросы не заметны.

Расстояния Махаланобиса. Большинство учебников по статистике отводят определенное место для обсуждения темы выбросов и остатков для зависимой переменной. Однако роль выбросов для набора независимых переменных часто упускается из виду. Со стороны независимых переменных, имеется список переменных, участвующий с различными весами (регрессионные коэффициенты) в предсказании зависимой переменной. Независимые переменные можно представить себе в виде точек некоторого многомерного пространства, в котором может располагаться каждое наблюдение. Например, если вы имеете две независимые переменные с равными регрессионными коэффициентами, то можно построить диаграмму рассеяния этих двух переменных и расположить каждое наблюдение на этом графике. Вы можете затем нарисовать точку средних значений обоих переменных и вычислить расстояния от каждого наблюдения до этого среднего (называемого теперь центроидом) в этом двумерном пространстве; в этом состоит концептуальная идея, стоящая за вычислением расстояний Махаланобиса. Теперь посмотрим на эти расстояния, отсортированные по величине, с целью идентификации экстремальных наблюдений по независимым переменным. В поле Тип выбросов отметьте опцию расстояний Махаланобиса и нажмите кнопку Построчный график выбросов. Полученный график показывает расстояния Махаланобиса, отсортированные в порядке убывания.


Регрессионный анализ

Отметим, что округ Shelby оказывается в чем-то выделяющимся по сравнению с другими округами на графике. Если посмотреть на исходные данные, можно обнаружить, что в действительности округ Shelby - значительно больший по размеру округ с большим числом людей, занятых сельским хозяйством (переменная N_Empld), и намного более весомой популяцией афроамериканцев. Вероятно, было бы разумно выражать эти числа в процентах, а не в абсолютных значениях, в этом случае расстояние Махаланобиса округа Shelby от других округов в данном примере не было бы столь велико. Однако мы получили, что округ Shelby оказывается явным выбросом.

Удаленные остатки. Другой очень важной статистикой, позволяющей оценить масштаб проблемы выбросов, являются удаленные остатки. Они определяются как стандартизованные остатки для соответствующих наблюдений, которые получились бы при исключении соответствующих наблюдений из анализа. Напомним, что процедура множественной регрессии подбирает прямую линию для выражения взаимосвязи между зависимой и независимыми переменными. Если одно из наблюдений является очевидным выбросом (как округ Shelby в этих данных), то линия регрессии стремиться "приблизится" к этому выбросу, с тем чтобы учесть его, насколько это возможно. В результате, при исключении соответствующего наблюдения, возникнет совершенно другая линия регрессии (и B-коэффициенты). Поэтому, если удаленный остаток сильно отличается от стандартизованного остатка, у вас есть основания полагать, что результаты регрессионного анализа существенно смещены соответствующим наблюдением. В данном примере удаленный остаток для округа Shelby является выбросом, который существенно влияет на анализ. Вы можете построить диаграмму рассеяния остатков относительно удаленных остатков с помощью опции Остатки и удалить остатки во вкладке Диаграммы рассеяния. Ниже на диаграмме рассеяния явно заметен выброс.


Регрессионный анализ

STATISTICA предоставляет интерактивное средство для удаления выбросов (Кисть на панели инструментов для графики;). Позволяющее экспериментировать с удалением выбросов и позволяющее сразу же увидеть их влияние на линию регрессии. Когда это средство активизировано, курсор меняется на крестик и рядом с графиком высвечивается диалоговое окно Закрашивание. Вы можете (временно) интерактивно исключать отдельные точки данных из графика, отметив (1) опцию Автообновление и (2) поле Выключить из блока Операция; а затем щелкнув мышкой на точке, которую нужно удалить, совместив ее с крестиком курсора.


Регрессионный анализ

Отметим, что удаленные точки можно "возвратить", щелкнув по кнопке Отменить все в диалоговом окне Закрашивание.

Нормальные вероятностные графики. Из окна Анализ остатков пользователь получает большому количеству дополнительных графиков. Большинство этих графиков более или менее просто интерпретируются. Тем не менее, здесь мы дадим интерпретацию нормального вероятностного графика, поскольку он наиболее часто используется при анализе справедливости предположений регрессии.

Как было замечено ранее, множественная линейная регрессия предполагает линейную связь между переменными в уравнении, и нормальным распределением остатков. Если эти предположения нарушаются, окончательные заключения могут оказаться неточными. Нормальный вероятностный график остатков наглядно показывает наличие или отсутствие больших отклонений от высказанных предположений. Нажмите кнопку Нормальный во вкладке Вероятностные графики для построения этого графика.


Регрессионный анализ

Этот график строится следующим образом. Сначала остатки регрессии ранжируются. Для этих упорядоченных остатков вычисляются z-значения (т.е. стандартные значения нормального распределения), исходя из предположения, что данные имеют нормальное распределение. Эти z-значения откладываются по оси Y на графике.

Если наблюдаемые остатки (отложенные по оси X) нормально распределены, то все значения будут располагаться на графике вблизи прямой линии; на данном графике все точки лежат очень близко к прямой линии. Если остатки не распределены нормально, то они будут отклоняться от линии. На этом графике также могут стать заметны выбросы.

Если имеющаяся модель плохо согласуется с данными, и данные на графике, похоже, образуют некоторую структуру (например, облако наблюдений принимает S-образную форму) около линии регрессии, то, возможно, будет полезным применение некоторого преобразования зависимой переменной (например, логарифмирование с целью "поджать" хвост распределения, и т.п.; см. также краткое обсуждение преобразований Бокса-Кокса и Бокса-Тидвелла в разделе Примечания и техническая информация). Обсуждение подобных методов лежит за рамками данного руководства. Однако слишком часто исследователи просто принимают свои данные, не пытаясь присмотреться к их структуре или проверить их на соответствие своим предположениям, что приводит к ошибочным заключениям. По этой причине одной из основных задач, стоявшей перед разработчиками пользовательского интерфейса модуля Множественной регрессии было максимально возможное упрощение (графического) анализа остатков.

тема

документ Монархия
документ Оценка предприятий
документ Теория организации
документ Оценочная деятельность
документ Теории мотивации



назад Назад | форум | вверх Вверх

Управление финансами

важное

1. ФСС 2016
2. Льготы 2016
3. Налоговый вычет 2016
4. НДФЛ 2016
5. Земельный налог 2016
6. УСН 2016
7. Налоги ИП 2016
8. Налог с продаж 2016
9. ЕНВД 2016
10. Налог на прибыль 2016
11. Налог на имущество 2016
12. Транспортный налог 2016
13. ЕГАИС
14. Материнский капитал в 2016 году
15. Потребительская корзина 2016
16. Российская платежная карта "МИР"
17. Расчет отпускных в 2016 году
18. Расчет больничного в 2016 году
19. Производственный календарь на 2016 год
20. Повышение пенсий в 2016 году
21. Банкротство физ лиц
22. Коды бюджетной классификации на 2016 год
23. Бюджетная классификация КОСГУ на 2016 год
24. Как получить квартиру от государства
25. Как получить земельный участок бесплатно


©2009-2016 Центр управления финансами. Все права защищены. Публикация материалов
разрешается с обязательным указанием ссылки на сайт. Контакты