Управление финансами
документы

1. Акт выполненных работ
2. Акт скрытых работ
3. Бизнес-план примеры
4. Дефектная ведомость
5. Договор аренды
6. Договор дарения
7. Договор займа
8. Договор комиссии
9. Договор контрактации
10. Договор купли продажи
11. Договор лицензированный
12. Договор мены
13. Договор поставки
14. Договор ренты
15. Договор строительного подряда
16. Договор цессии
17. Коммерческое предложение
Управление финансами
егэ ЕГЭ 2017    Психологические тесты Интересные тесты   Изменения 2016 Изменения 2016
папка Главная » Полезные статьи » Регрессионный анализ

Регрессионный анализ

Регрессионный анализ

Для удобства изучения материала статью Регрессионный анализ разбиваем на темы:

Внимание!

Если Вам полезен
этот материал, то вы можете добавить его в закладку вашего браузера.

добавить в закладки

1. Регрессионный анализ
2. Метод регрессионного анализа
3. Регрессионный анализ в excel
4. Множественный регрессионный анализ
5. Регрессионный анализ в статистике
6. Линейный регрессионный анализ
7. Проведение регрессионного анализа
8. Суть регрессионного анализа
9. Основы регрессионного анализа
10. Задачи регрессионного анализа
11. Этапы регрессионного анализа
12. Виды регрессионного анализа

Регрессионный анализ

Регрессионный анализ - метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной.

Корреляционный анализ и регрессионный анализ являются смежными разделами математической статистики, и предназначаются для изучения по выборочным данным статистической зависимости ряда величин; некоторые из которых являются случайными. При статистической зависимости величины не связаны функционально, но как случайные величины заданы совместным распределением вероятностей.

Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных. Теория вероятностей и математическая статистика представляют лишь инструмент для изучения статистической зависимости, но не ставят своей целью установление причинной связи. Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление.

Числовые данные обычно имеют между собой явные (известные) или неявные (скрытые) связи.

Явно связаны показатели, которые получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в процентах, темпы роста, темпы прироста, индексы и т. д.

Связи же второго типа (неявные) заранее неизвестны. Однако необходимо уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Одну из таких возможностей предоставляет корреляционно-регрессионный анализ.


Математические модели строятся и используются для трех обобщенных целей:

* для объяснения;
* для предсказания;
* для управления.

Пользуясь методами корреляционно-регрессионного анализа, аналитики измеряют тесноту связей показателей с помощью коэффициента корреляции. При этом обнаруживаются связи, различные по силе (сильные, слабые, умеренные и др.) и различные по направлению (прямые, обратные). Если связи окажутся существенными, то целесообразно будет найти их математическое выражение в виде регрессионной модели и оценить статистическую значимость модели.

Регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений.

Постановка задачи регрессионного анализа формулируется следующим образом.

Имеется совокупность результатов наблюдений. В этой совокупности один столбец соответствует показателю, для которого необходимо установить функциональную зависимость с параметрами объекта и среды, представленными остальными столбцами. Требуется: установить количественную взаимосвязь между показателем и факторами. В таком случае задача регрессионного анализа понимается как задача выявления такой функциональной зависимости y = f (x2, x3, …, xт), которая наилучшим образом описывает имеющиеся экспериментальные данные.

Допущения:

- количество наблюдений достаточно для проявления статистических закономерностей относительно факторов и их взаимосвязей;
- обрабатываемые данные содержат некоторые ошибки (помехи), обусловленные погрешностями измерений, воздействием неучтенных случайных факторов;
- матрица результатов наблюдений является единственной информацией об изучаемом объекте, имеющейся в распоряжении перед началом исследования.

Функция f (x2, x3, …, xт), описывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии. Термин «регрессия» (regression (лат.) – отступление, возврат к чему-либо) связан со спецификой одной из конкретных задач, решенных на стадии становления метода.

Решение задачи регрессионного анализа целесообразно разбить на несколько этапов:

- предварительная обработка данных;
- выбор вида уравнений регрессии;
- вычисление коэффициентов уравнения регрессии;
- проверка адекватности построенной функции результатам наблюдений.

Предварительная обработка включает стандартизацию матрицы данных, расчет коэффициентов корреляции, проверку их значимости и исключение из рассмотрения незначимых параметров.

Выбор вида уравнения регрессии Задача определения функциональной зависимости, наилучшим образом описывающей данные, связана с преодолением ряда принципиальных трудностей.

В общем случае для стандартизованных данных функциональную зависимость показателя от параметров можно представить в виде:

y = f (x1, x2, …, xm) + e

где f - заранее не известная функция, подлежащая определению;
e - ошибка аппроксимации данных.

Указанное уравнение принято называть выборочным уравнением регрессии. Это уравнение характеризует зависимость между вариацией показателя и вариациями факторов. А мера корреляции измеряет долю вариации показателя, которая связана с вариацией факторов. Иначе говоря, корреляцию показателя и факторов нельзя трактовать как связь их уровней, а регрессионный анализ не объясняет роли факторов в создании показателя.

Еще одна особенность касается оценки степени влияния каждого фактора на показатель. Регрессионное уравнение не обеспечивает оценку раздельного влияния каждого фактора на показатель, такая оценка возможна лишь в случае, когда все другие факторы не связаны с изучаемым. Если изучаемый фактор связан с другими, влияющими на показатель, то будет получена смешанная характеристика влияния фактора. Эта характеристика содержит как непосредственное влияние фактора, так и опосредованное влияние, оказанное через связь с другими факторами и их влиянием на показатель.

В регрессионное уравнение не рекомендуется включать факторы, слабо связанные с показателем, но тесно связанные с другими факторами. Не включают в уравнение и факторы, функционально связанные друг с другом (для них коэффициент корреляции равен 1). Включение таких факторов приводит к вырождению системы уравнений для оценок коэффициентов регрессии и к неопределенности решения.

Функция f должна подбираться так, чтобы ошибка e в некотором смысле была минимальна. В целях выбора функциональной связи заранее выдвигают гипотезу о том, к какому классу может принадлежать функция f, а затем подбирают "лучшую" функцию в этом классе. Выбранный класс функций должен обладать некоторой "гладкостью", т.е. "небольшие" изменения значений аргументов должны вызывать "небольшие" изменения значений функции.

Частным случаем, широко применяемым на практике, является полином первой степени или уравнение линейной регрессии.

Для выбора вида функциональной зависимости можно рекомендовать следующий подход:

- в пространстве параметров графически отображают точки со значениями показателя. При большом количестве параметров можно строить точки применительно к каждому из них, получая двумерные распределения значений;
- по расположению точек и на основе анализа сущности взаимосвязи показателя и параметров объекта делают заключение о примерном виде регрессии или ее возможных вариантах;
- после расчета параметров оценивают качество аппроксимации, т.е. оценивают степень близости расчетных и фактических значений;
- если расчетные и фактические значения близки во всей области задания, то задачу регрессионного анализа можно считать решенной. В противном случае можно попытаться выбрать другой вид полинома или другую аналитическую функцию, например периодическую.

Вычисление коэффициентов уравнения регрессии

Систему уравнений на основе имеющихся данных однозначно решить невозможно, так как количество неизвестных всегда больше количества уравнений. Для преодоления этой проблемы нужны дополнительные допущения. Здравый смысл подсказывает: желательно выбрать коэффициенты полинома так, чтобы обеспечить минимум ошибки аппроксимации данных. Могут применяться различные меры для оценки ошибок аппроксимации. В качестве такой меры нашла широкое применение среднеквадратическая ошибка. На ее основе разработан специальный метод оценки коэффициентов уравнений регрессии – метод наименьших квадратов (МНК). Этот метод позволяет получить оценки максимального правдоподобия неизвестных коэффициентов уравнения регрессии при нормальном распределения вариант, но его можно применять и при любом другом распределении факторов.

В основе МНК лежат следующие положения:

- значения величин ошибок и факторов независимы, а значит, и некоррелированы, т.е. предполагается, что механизмы порождения помехи не связаны с механизмом формирования значений факторов;
- математическое ожидание ошибки e должно быть равно нулю (постоянная составляющая входит в коэффициент a0), иначе говоря, ошибка является центрированной величиной;
- выборочная оценка дисперсии ошибки должна быть минимальна.

Если же линейная модель неточна или параметры измеряются неточно, то и в этом случае МНК позволяет найти такие значения коэффициентов, при которых линейная модель наилучшим образом описывает реальный объект в смысле выбранного критерия среднеквадратического отклонения.

Качество полученного уравнения регрессии оценивают по степени близости между результатами наблюдений за показателем и предсказанными по уравнению регрессии значениями в заданных точках пространства параметров. Если результаты близки, то задачу регрессионного анализа можно считать решенной. В противном случае следует изменить уравнение регрессии и повторить расчеты по оценке параметров.

При наличии нескольких показателей задача регрессионного анализа решается независимо для каждого из них.

Анализируя сущность уравнения регрессии, следует отметить следующие положения. Рассмотренный подход не обеспечивает раздельной (независимой) оценки коэффициентов - изменение значения одного коэффициента влечет изменение значений других. Полученные коэффициенты не следует рассматривать как вклад соответствующего параметра в значение показателя. Уравнение регрессии является всего лишь хорошим аналитическим описанием имеющихся данных, а не законом, описывающим взаимосвязи параметров и показателя. Это уравнение применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т.е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции.

Главной причиной неточности прогноза является не столько неопределенность экстраполяции линии регрессии, сколько значительная вариация показателя за счет неучтенных в модели факторов. Ограничением возможности прогнозирования служит условие стабильности неучтенных в модели параметров и характера влияния учтенных факторов модели. Если резко меняется внешняя среда, то составленное уравнение регрессии потеряет свой смысл.

Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожна мала. Целесообразно определить доверительный интервал прогноза. Для индивидуальных значений показателя интервал должен учитывать ошибки в положении линии регрессии и отклонения индивидуальных значений от этой линии.

Для проведения регрессионного анализа необходимо следующее:

• Выбор одного блока, из которого берется координатный интервал, чьи данные (переменная значения) дают зависимую переменную регрессии. Например, в качестве переменной Y из блока заболеваемости берется обращаемость в координатном интервале "пневмония" координаты "диагноз".

• Выбор одного или нескольких блоков, из которых аналогично берутся факторы в качестве независимых переменных регрессии. Например, данные в координатном интервале "концентрация SO2" берутся в качестве X1, а в координатном интервале "скорость ветра" - в качестве X2. При этом необходимо, чтобы блок, дающий зависимую переменную, и все блоки, дающие независимые переменные, имели какие-либо общие координаты (обычно пространство и время), которые служат переменными развертки и дают точки, по которым проводится регрессионная кривая или поверхность.

• Выбор типа и "степени" функций от независимых переменных, которые включаются в регрессию. Например, при выборе полиномиальных функций с максимальной степенью 2 и при двух независимых переменных X1 и X2 регрессия ищется в виде

Y = a + bX1 + cX2 + dX12 + eX22 + fX1X2
(a - f -регрессионные коэффициенты).

• Задание координатных интервалов переменных сравнения, внутри которых регрессионная функция не должна значимо изменяться. Так, в вышеописанном случае можно потребовать, чтобы регрессионная функция вообще не зависела от половозрастной группы, или была одной для всех мужчин и другой - для всех женщин, или своей в каждой половозрастной группе. Эта информация используется для регуляризации регрессии гребневым или энтропийным методом.

• Регрессия проводится последовательно с увеличением числа независимых переменных и степени регрессионной функции. При этом общесистемным оптимизатором находится минимум среднеквадратичного отклонения точек данных от регрессионной кривой.

Для регрессионной кривой вычисляются характеристики неопределенности - показатели тесноты регрессии: кривые доверительного интервала и коэффициент детерминации. Последний может вычисляться сразу для всех комбинаций "зависимая переменная - независимая переменная" и представляться в виде цветокодированной таблицы. Такое представление близко к цветокодированию коэффициента корреляции. Разница между ними связана с возможностью выбора типа и степени регрессионной функции при регрессионном анализе.

Аналогично построению таблицы условных корреляций, в регрессионном анализе может строиться таблица "условных" коэффициентов детерминации. При этом в регрессию для каждой пары факторов дополнительно включается еще несколько факторов, выбранных пользователем. Например, строятся регрессии данных обращаемости по каждому диагнозу на концентрацию каждого загрязнителя, и при этом в регрессию дополнительно включается в качестве независимой переменной скорость ветра. Сравнение таких таблиц с аналогичными "безусловными" позволяет определить, в какие регрессии нужно дополнительно включить факторы, выбранные пользователем в качестве условных.

Как и для коэффициентов корреляции, для коэффициентов детерминации можно строить дерево вкладов координатных интервалов переменных развертки. Оно позволяет скорректировать выборку для достижения более тесной регрессии. Кроме того, выбрав координатный интервал в дереве, можно построить отдельные регрессионные функции во всех его подынтервалах и по результатам расслоить выборку на части с более устойчивой регрессией. В частности, можно построить "иерархическую регрессию", при которой коэффициенты регрессии внутри каждого координатного интервала рассчитываются как поправки к коэффициентам регрессии координатного интервала, следующего вверх по иерархии. При использовании такой регрессии в качестве эмпирической модели, разные коэффициенты выступают как варианты модели.

Как и корреляция, регрессия рассчитывается для фиксированных координатных интервалов каждой переменной сравнения. Как указано выше, проверяется устойчивость регрессии к смене координатного интервала на том же уровне иерархии. Строится также дерево вкладов подынтервалов для выбранных пользователем переменной сравнения и координатного интервала. Возможно также построение иерархической регрессии по дереву выбранной переменной сравнения. При этом, в отличие от иерархической регрессии по дереву переменной значения, разные регрессии в дереве выступают не как варианты, а применяются соответственно значениям переменных сравнения, подаваемым на вход модели. Возможно также построение отдельной регрессии для каждого диапазона значений независимой или зависимой переменной. В первом случае получаются сплайны с числом узлов, задаваемым пользователем. Во втором случае различные регрессии образуют пакет вариантов, так что выбор подходящего диапазона при использовании такой регрессии в качестве эмпирической модели осуществляется в рамках общей идеологии выбора оптимального варианта.

Для визуализации многофакторной регрессии пользователь выбирает тот фактор, который представляется как абсцисса регрессионной кривой, и фиксирует значения прочих независимых факторов. На коэффициенты регрессии это не влияет.

Метод регрессионного анализа

Термин «регрессия» ввел английский психолог и антрополог Ф.Гальтон.

Для точного описания уравнения регрессии необходимо знать чакон распределения результативного показателя у. В статистической практике обычно приходится ограничиваться поиском подходящих аппроксимаций для неизвестной истинной функции регрессии ffc), так как исследователь не располагает точным знанием условного закона распределения вероятностей анализируемого результатирующего показателя у при заданных значениях аргумента х.

Рассмотрим взаимоотношение между истинной f (х) = = М(у/х), модельной регрессией у и оценкой у регрессии.

Пусть результативный показатель у связан с аргументом х соотношением:

у=2х 1,5+o
где o – случайная величина, имеющая нормальный закон распределения.
Причем M o= 0 и d o– o 2.

Истинная функция регрессии в этом случае имеет вид:

f(х) = М(у/х) = 2х i 1,5+ o

Для наилучшего восстановления по исходным статистическим данным условного значения результативного показателя f(x) и неизвестной функции регрессии /(х) = М(у/х) наиболее часто используют следующие критерии адекватности (функции потерь). Согласно методу наименьших квадратов минимизируется квадрат отклонения наблюдаемых значений результативного показателя y(i = 1, 2, ..., п)от модельных значений y i= f(х i),где х i– значение вектора аргументов в i-м наблюдении:

o(y i– f(х i)2 > min

Получаемая регрессия называется среднеквадратической.

Согласно методу наименьших модулей, минимизируется сумма абсолютных отклонений наблюдаемых значений результативного показателя от модульных значений:

y i = f(x i)

И получаем среднеабсолютную медианную регрессию:

y-f(xj)- min

Регрессионный анализ – это метод статистического анализа зависимости случайной величины уот переменных х j(j=1,2, ..., k), рассматриваемых в регрессионном анализе как неслучайные величины, независимо от истинного закона распределения х j.

Регрессионный анализ в exсel

Анализ данных - область информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных.

Ms Excel представляет широкие возможности для проведения анализа данных, находящихся в списке.

К средствам анализа относятся:

• Обработка списка с помощью различных формул и функций;
• Построение диаграмм и использование карт Ms Excel;
• Проверка данных рабочих листов и рабочих книг на наличие ошибок;
• Структуризация рабочих листов;
• Автоматическое подведение итогов (включая мастер частичных сумм);
• Консолидация данных;
• Сводные таблицы;
• Специальные средства анализа выборочных записей и данных - подбор параметра, поиск решения, сценарии и др.

В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для проведения анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет проведен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде.

Статистические данные приводятся в виде длинных и сложных статистических таблиц, поэтому бывает весьма трудно обнаружить в них имеющиеся неточности и ошибки.

Графическое же представление статистических данных помогает легко и быстро выявить ничем не оправданные пики и впадины, явно не соответствующие изображаемым статистическим данным, аномалии и отклонения.

Графическое представление статистических данных является не только средством иллюстрации статистических данных и контроля их правильности и достоверности. Благодаря своим свойствам оно является важным средством толкования и анализа статистических данных, а в некоторых случаях - единственным и незаменимым способом их обобщения и познания.

Регрессия является инструментом пакета анализа данных Microsoft Excel. Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных.

Множественный регрессионный анализ

Общее назначение множественной регрессии состоит в анализе связи между несколькими независимыми переменными и одной зависимой переменной. В нашем случае, это анализ связи между значениями индикаторов и движением цены.

В самом простом виде такое уравнение может иметь вид:

Изменение цены = a * RSI + b * MACD + с

Построить регрессионное уравнение можно только при наличии корреляции между независимыми переменными и зависимой. Поскольку значения индикаторов, как правило, имеют связь друг с другом, то вклад индикаторов в предсказание может существенно меняться, если мы добавим или уберем какой-либо индикатор из анализа. Обратите внимание, что регрессионное уравнение – это только демонстрация числовой зависимости, а не описание причинных связей. Коэффициенты (a, b) показывают вклад каждой независимой переменной в связь с зависимой.

Регрессионное уравнение выражает идеальную зависимость переменных. Однако, на форекс такое невозможно, поэтому прогноз всегда будет отличаться от реальности. Разница между прогнозируемым значением и реальным называется остатком. Анализ остатков позволяет определить, в том числе, наличие нелинейной зависимости между индикатором и ценой. В нашем случае мы предполагаем, что между индикаторами и ценой есть только линейная зависимость. К счастью, регрессионный анализ устойчив к малым отклонениям от линейности.

Регрессионный анализ может быть использован только для анализа количественных показателей. Качественные показатели, которые не имеют переходных значений, не подходят для этого анализа.

Поскольку регрессионный анализ может "перемолоть" любое число показателей, то возникает соблазн включить в него их как можно больше. Однако если число независимых показателей будет больше, чем число наблюдений их взаимодействия с зависимым показателем, тогда есть большая вероятность получить уравнения с хорошими предсказаниями, но основанными на случайных колебаниях.

Число наблюдений должно быть в 10-20 раз больше, чем число независимых показателей.

В нашем случае количество индикаторов, которое содержит наша выборка данных, должно быть в 10-20 раз больше, чем число сделок в нашей выборке. Тогда полученное уравнение будет считаться надежным. В выборке, на основе которой был сделан робот в разделе 1, содержалось 33 показателя и 836 наблюдений. В результате число показателей было в 25 раз больше, чем число наблюдений. Это требование является общим правилом для статистики. Оно же действует и для оптимизатора тестера стратегий терминала MetaTrader 5.

При этом в оптимизаторе каждое заданное значение индикатора фактически является отдельным показателем. Другими словами, если мы тестируем 10 значений для индикатора, то это 10 независимых показателей, это следует учитывать, чтобы избежать переоптимизации. Возможно, в отчет оптимизатора следует добавить показатель: среднее количество сделок/количество значений всех оптимизируемых параметров. Если значение показателя будет меньше десяти, то высока вероятность переоптимизации.

Другое, что нужно учитывать, это выбросы в данных. Редкие, но сильные события (в нашем случае скачки цены) могут внести ложные зависимости в уравнение. Например, после выхода какой-либо неожиданной новости на рынке произошло сильное движение, продлившееся несколько часов. В этом случае значения технических индикаторов имели малую значимость в прогнозе, но регрессионный анализ припишет им высокую значимость, поскольку было сильное изменение цены. Поэтому желательно фильтровать данные в выборке или проверять наличие выбросов в данных.

Регрессионный анализ в статистике

Следующий пример использует файл данных Poverty. sta. Открыть его можно с помощью меню Файл, выбрав команду Открыть; наиболее вероятно, что этот файл данных находится в директории /Examples/Datasets. Данные основаны на сравнении результатов переписи 1960 и 1970 годов для случайной выборки из 30 округов. Имена округов введены в качестве идентификаторов наблюдений.

Следующая информация по каждой переменной приводится в электронной таблице Редактор спецификаций переменных (открывающийся при выборе команды Все спецификации переменных... в меню Данные).


Регрессионный анализ

Цель исследования. Мы проанализируем корреляты бедности (т.е. предикторы, "сильно" коррелирующие с процентом семей, живущих за чертой бедности). Таким образом, будем рассматривать переменную 3 (Pt_Poor), как зависимую или критериальную переменную, а все остальные переменные - в качестве независимых переменных или предикторов.

Начальный анализ. Когда вы выбираете команду Множественной регрессии с помощью меню Анализ, открывается стартовая панель модуля Множественная регрессия. Вы можете задать регрессионное уравнение щелчком мыши по кнопке Переменные во вкладке Быстрый стартовой панели модуля Множественная регрессия. В появившемся окне Выбора переменных выберите Pt_Poor в качестве зависимой переменной, а все остальные переменные набора данных - в качестве независимых. Во вкладке Дополнительно отметьте также опции Показывать описательные статистики, корр. матрицы.


Регрессионный анализ

Теперь нажмите OK этого диалогового окна, после чего откроется диалоговое окно Просмотр описательных статистик. Здесь вы можете просмотреть средние и стандартные отклонения, корреляции и ковариации между переменными. Отметим, что это диалоговое окно доступно практически из всех последующих окон модуля Множественная регрессия, так что вы всегда сможете вернуться назад, чтобы посмотреть на описательные статистики определенных переменных.

Распределение переменных. Сначала изучим распределение зависимой переменной Pt_Poor по округам. Нажмите Средние и стд.отклонения для показа таблицы результатов.


Регрессионный анализ

Выберите Гистограммы в меню Графика, чтобы построить гистограмму для переменной Pt_Poor (во вкладке Дополнительно диалогового окна 2М Гистограммы установите опцию Число категорий в строке Категории равной 16). Как видно ниже, распределение этой переменной чем-то отличается от нормального распределения. Коэффициенты корреляции могут оказаться существенно завышенными или заниженными при наличии в выборке существенных выбросов. Однако, хотя два округа (две самые правые колонки) имеют более высокий процент семей, проживающих за чертой бедности, чем это можно было бы ожидать в соответствии с нормальным распределением, они все еще, как нам кажется, находятся "в рамках допустимого".


Регрессионный анализ

Это решение является в определенной степени субъективным; эмпирическое правило состоит в том, что беспокойство требуется проявлять только тогда, когда наблюдение (или наблюдения) лежат вне интервала, заданного средним значением ± 3 стандартных отклонения. В этом случае будет разумно повторить критическую (с точки зрения влияния выбросов) часть анализа с выбросами и без них, с тем, чтобы удостовериться в отсутствии их влияния на характер взаимных корреляций. Вы также можете просмотреть распределение этой переменной, щелкнув мышкой по кнопке Диаграмма размаха во вкладке Дополнительно диалогового окна Просмотр описательных статистик, выбрав переменную Pt_Poor. Далее, выберите опцию Медиана/квартили/размах в диалоговом окне Диаграммы размаха и нажмите кнопку OK.


Регрессионный анализ

(Заметим, что определенный метод вычисления медианы и квартилей может быть выбран для всей "системы" в диалоговом окне Параметры в меню Сервис.)

Диаграммы рассеяния. Если имеются априорные гипотезы о связи между определенными переменными, на этом этапе может оказаться полезным вывести соответствующую диаграмму рассеяния. Например, посмотрим на связь между изменением популяции и процентом семей, проживающих за чертой бедности. Было бы естественно ожидать, что бедность приводит к миграции населения; таким образом, должна наблюдаться отрицательная корреляция между процентом семей, проживающих за чертой бедности, и изменением популяции.

Возвратимся к диалоговому окну Просмотр описательных статистик и щелкнем мышкой по кнопке Корреляции во вкладке Быстрый для отображения таблицы результатов с корреляционной матрицей.


Регрессионный анализ

Корреляции между переменными могут быть отображены также и на матричной диаграмме рассеяния. Матричная диаграмма рассеяния для выбранных переменных может быть получена щелчком мыши по кнопке Матричный график корреляций во вкладке Дополнительно диалогового окна Просмотр описательных статистик и последующим выбором интересующих переменных.

Задание множественной регрессии. Для выполнения регрессионного анализа от вас требуется только щелкнуть по кнопке OK в диалоговом окне Просмотр описательных статистик и перейти в окно Результаты множественной регрессии. Стандартный регрессионный анализ (со свободным членом) будет выполнен автоматически.

Просмотр результатов. Ниже изображено диалоговое окно Результаты множественной регрессии. Общее уравнение множественной регрессии высоко значимо (см. главу Элементарные понятия статистики по поводу обсуждения проверки статистической значимости). Таким образом, зная значения независимых переменных, можно "предсказать" предиктор, связанный с бедностью, лучше, чем угадывая его чисто случайно.


Регрессионный анализ

Регрессионные коэффициенты. Чтобы узнать, какие из независимых переменных дают больший вклад в предсказание предиктора, связанного с бедностью, изучим регрессионные (или B) коэффициенты. Щелкните мышкой по кнопке Итоговая таблица регрессии во вкладке Быстрый диалогового окна Результаты множественной регрессии для вывода таблицы результатов с этими коэффициентами.


Регрессионный анализ

Эта таблица показывает стандартизованные регрессионные коэффициенты (Бета) и обычные регрессионные коэффициенты (B). Бета-коэффициенты - это коэффициенты, которые получатся, если предварительно стандартизовать все переменные к среднему 0 и стандартному отклонению 1. Таким образом, величина этих Бета-коэффициентов позволяет сравнивать относительный вклад каждой независимой переменной в предсказание зависимой переменной. Как видно из таблицы результатов, изображенной выше, переменные Pop_Chng, Pt_Rural и N_Empld являются наиболее важными предикторами для бедности; из них только первые два статистически значимы. Регрессионный коэффициент для Pop_Chng отрицателен; т.е. чем меньше прирост популяция, тем большее число семей живут ниже уровня бедности в соответствующем округе. Вклад в регрессию для Pt_Rural положителен; т.е. чем больше процент сельского населения, тем выше уровень бедности.

Частные корреляции. Другой путь изучения вкладов каждой независимой переменной в предсказание зависимой переменной состоит в вычислении частных и получастных корреляций (щелкните на кнопке Частные корреляции во вкладке Дополнительно диалогового окна Результаты множественной регрессии). Частные корреляции являются корреляциями между соответствующей независимой переменной и зависимой переменной, скорректированными относительно других переменных. Таким образом, это корреляция между остатками после корректировки относительно независимых переменных. Частная корреляция представляет самостоятельный вклад соответствующей независимой переменной в предсказание зависимой переменной.


Регрессионный анализ

Получастные корреляция являются корреляциями между соответствующей независимой переменной, скорректированной относительно других переменных, и исходной (нескорректированной) зависимой переменной. Таким образом, получастная корреляция является корреляцией соответствующей независимой переменной после корректировки относительно других переменных, и нескорректированными исходными значениями зависимой переменной. Иначе говоря, квадрат получастной корреляции является показателем процента Общей дисперсии, самостоятельно объясняемой соответствующей независимой переменной, в то время как квадрат частной корреляции является показателем процента остаточной дисперсии, учитываемой после корректировки зависимой переменной относительно независимых переменных.

В этом примере частные и получастные корреляции имеют близкие значения. Однако иногда их величины могут различаться значительно (получастная корреляция всегда меньше). Если получастная корреляция очень мала, в то время как частная корреляция относительно велика, то соответствующая переменная может иметь самостоятельную "часть" в объяснении изменчивости зависимой переменной (т.е. "часть", которая не объясняется другими переменными). Однако в смысле практической значимости, эта часть может быть мала, и представлять только небольшую долю от общей изменчивости.

Анализ остатков. После подбора уравнения регрессии всегда полезно изучить полученные предсказанные значения и остатки. Например, экстремальные выбросы могут существенно сместить результаты и привести к ошибочным заключениям. Во вкладке Остатки/предложения/наблюдаемые нажмите кнопку Анализ остатков для перехода в соответствующее диалоговое окно.

Построчный график остатков. Эта опция диалогового окна предоставляет вам возможность выбрать один из возможных типов остатков для построения построчного графика. Обычно, следует изучить характер исходных (нестандартизованных) или стандартизованных остатков для идентификации экстремальных наблюдений. В нашем примере, выберите вкладку Остатки и нажмите кнопку Построчные графики остатков; по умолчанию будет построен график исходных остатков; однако, вы можете изменить тип остатков в соответствующем поле.


Регрессионный анализ

Масштаб, используемый в построчном графике в самой левой колонке, задается в терминах сигмы, т.е. стандартного отклонения остатков. Если один или несколько наблюдений попадают за границы ± 3 * сигма, то, вероятно, следует исключить соответствующие наблюдения (это легко достигается с помощью условий отбора) и выполнить анализ снова, чтобы убедиться в отсутствии смещения ключевых результатов, вызванного этими выбросами в данных.

Построчный график выбросов. Быстрый способ идентификации выбросов состоит в использовании опции График выбросов во вкладке Выбросы. Вы можете выбрать просмотр всех стандартных остатков, выпадающих за границы ± 2-5 сигма, или просмотр 100 наиболее выделяющихся наблюдений, выбранных в поле Тип выброса во вкладке Выбросы. При использовании опции Стандартный остаток (>2*сигма) в нашем примере какие-либо выбросы не заметны.

Расстояния Махаланобиса. Большинство учебников по статистике отводят определенное место для обсуждения темы выбросов и остатков для зависимой переменной. Однако роль выбросов для набора независимых переменных часто упускается из виду. Со стороны независимых переменных, имеется список переменных, участвующий с различными весами (регрессионные коэффициенты) в предсказании зависимой переменной. Независимые переменные можно представить себе в виде точек некоторого многомерного пространства, в котором может располагаться каждое наблюдение. Например, если вы имеете две независимые переменные с равными регрессионными коэффициентами, то можно построить диаграмму рассеяния этих двух переменных и расположить каждое наблюдение на этом графике. Вы можете затем нарисовать точку средних значений обоих переменных и вычислить расстояния от каждого наблюдения до этого среднего (называемого теперь центроидом) в этом двумерном пространстве; в этом состоит концептуальная идея, стоящая за вычислением расстояний Махаланобиса. Теперь посмотрим на эти расстояния, отсортированные по величине, с целью идентификации экстремальных наблюдений по независимым переменным. В поле Тип выбросов отметьте опцию расстояний Махаланобиса и нажмите кнопку Построчный график выбросов. Полученный график показывает расстояния Махаланобиса, отсортированные в порядке убывания.


Регрессионный анализ

Отметим, что округ Shelby оказывается в чем-то выделяющимся по сравнению с другими округами на графике. Если посмотреть на исходные данные, можно обнаружить, что в действительности округ Shelby - значительно больший по размеру округ с большим числом людей, занятых сельским хозяйством (переменная N_Empld), и намного более весомой популяцией афроамериканцев. Вероятно, было бы разумно выражать эти числа в процентах, а не в абсолютных значениях, в этом случае расстояние Махаланобиса округа Shelby от других округов в данном примере не было бы столь велико. Однако мы получили, что округ Shelby оказывается явным выбросом.

Удаленные остатки. Другой очень важной статистикой, позволяющей оценить масштаб проблемы выбросов, являются удаленные остатки. Они определяются как стандартизованные остатки для соответствующих наблюдений, которые получились бы при исключении соответствующих наблюдений из анализа. Напомним, что процедура множественной регрессии подбирает прямую линию для выражения взаимосвязи между зависимой и независимыми переменными. Если одно из наблюдений является очевидным выбросом (как округ Shelby в этих данных), то линия регрессии стремиться "приблизится" к этому выбросу, с тем чтобы учесть его, насколько это возможно. В результате, при исключении соответствующего наблюдения, возникнет совершенно другая линия регрессии (и B-коэффициенты). Поэтому, если удаленный остаток сильно отличается от стандартизованного остатка, у вас есть основания полагать, что результаты регрессионного анализа существенно смещены соответствующим наблюдением. В данном примере удаленный остаток для округа Shelby является выбросом, который существенно влияет на анализ. Вы можете построить диаграмму рассеяния остатков относительно удаленных остатков с помощью опции Остатки и удалить остатки во вкладке Диаграммы рассеяния. Ниже на диаграмме рассеяния явно заметен выброс.


Регрессионный анализ

STATISTICA предоставляет интерактивное средство для удаления выбросов (Кисть на панели инструментов для графики;). Позволяющее экспериментировать с удалением выбросов и позволяющее сразу же увидеть их влияние на линию регрессии. Когда это средство активизировано, курсор меняется на крестик и рядом с графиком высвечивается диалоговое окно Закрашивание. Вы можете (временно) интерактивно исключать отдельные точки данных из графика, отметив (1) опцию Автообновление и (2) поле Выключить из блока Операция; а затем щелкнув мышкой на точке, которую нужно удалить, совместив ее с крестиком курсора.


Регрессионный анализ

Отметим, что удаленные точки можно "возвратить", щелкнув по кнопке Отменить все в диалоговом окне Закрашивание.

Нормальные вероятностные графики. Из окна Анализ остатков пользователь получает большому количеству дополнительных графиков. Большинство этих графиков более или менее просто интерпретируются. Тем не менее, здесь мы дадим интерпретацию нормального вероятностного графика, поскольку он наиболее часто используется при анализе справедливости предположений регрессии.

Как было замечено ранее, множественная линейная регрессия предполагает линейную связь между переменными в уравнении, и нормальным распределением остатков. Если эти предположения нарушаются, окончательные заключения могут оказаться неточными. Нормальный вероятностный график остатков наглядно показывает наличие или отсутствие больших отклонений от высказанных предположений. Нажмите кнопку Нормальный во вкладке Вероятностные графики для построения этого графика.


Регрессионный анализ

Этот график строится следующим образом. Сначала остатки регрессии ранжируются. Для этих упорядоченных остатков вычисляются z-значения (т.е. стандартные значения нормального распределения), исходя из предположения, что данные имеют нормальное распределение. Эти z-значения откладываются по оси Y на графике.

Если наблюдаемые остатки (отложенные по оси X) нормально распределены, то все значения будут располагаться на графике вблизи прямой линии; на данном графике все точки лежат очень близко к прямой линии. Если остатки не распределены нормально, то они будут отклоняться от линии. На этом графике также могут стать заметны выбросы.

Если имеющаяся модель плохо согласуется с данными, и данные на графике, похоже, образуют некоторую структуру (например, облако наблюдений принимает S-образную форму) около линии регрессии, то, возможно, будет полезным применение некоторого преобразования зависимой переменной (например, логарифмирование с целью "поджать" хвост распределения, и т.п.; см. также краткое обсуждение преобразований Бокса-Кокса и Бокса-Тидвелла в разделе Примечания и техническая информация). Обсуждение подобных методов лежит за рамками данного руководства. Однако слишком часто исследователи просто принимают свои данные, не пытаясь присмотреться к их структуре или проверить их на соответствие своим предположениям, что приводит к ошибочным заключениям. По этой причине одной из основных задач, стоявшей перед разработчиками пользовательского интерфейса модуля Множественной регрессии было максимально возможное упрощение (графического) анализа остатков.

Линейный регрессионный анализ

Для изучения этого метода используем данные, показанные в табл.40.

В качестве оценки (О) студентов (Ст) на контрольной работе здесь использован процент правильных результатов по отношению к общему количеству заданий и вопросов. Если студент успешно выполнил все задания и правильно ответил на все вопросы, то его оценка О = 100%. В данной выборке (табл.40) таких студентов нет. Самый лучший результат здесь у студента №22, который успешно выполнил 93% всех заданий. А, например, студент №1 не справился ни с одним заданием и не ответил верно ни на один вопрос.


Регрессионный анализ

ПО – процент отсутствия. Если студент присутствовал в течение всего времени тренировочных занятий, то ПО = 0%. В данной выборке таких меньшинство. А, например, студенты №1 и №12 пропустили более половины времени, в течение которого можно было готовиться к контрольной работе.

Остальные переменные содержат субъективные оценки, выставленные преподавателями по шкалам семантического дифференциала.

Допустим, главной целью занятий является изучение компьютерной программы. Тогда мы сразу же, уже на первых занятиях, замечаем существенные различия между студентами в скорости и безошибочности работы. Обусловленные не тренировочными занятиями, а предшествующим опытом. Чем большее количество программ студент изучил ранее, чем проще ему разбираться с новой. Это приобретенный ранее опыт, имеющий непосредственное отношение к теме занятий, к содержанию контрольной работы.

Один человек всегда работает эффективнее другого. Даже если они раньше получили, казалось бы, один и тот же опыт. Дело не только в опыте, но также и в способностях, которые не являются результатом опыта в данной конкретной области. Но всегда ли мы можем отделить одно от другого? В какой степени успехи студента обусловлены предшествующим опытом в данной области, а в какой степени – соответствующими способностями? Чтобы не отвечать на такой сложный вопрос, эти составляющие сейчас (табл.40) просто объединены в одну переменную: Опыт и способности (ОС).

Для оценивания использована следующая шкала: полюс 1 – отсутствие опыта и/или слабые способности; полюс 7 – большой опыт и/или высокий уровень способностей. Если, например, три преподавателя поставили студенту соответственно оценки 6, 7, 6, то его средняя оценка приблизительно такова ОС = 6,3. В данной выборке это студенты №6, №13 и №24.

ДС – другие способности. Они, в отличие от ОС, не имеют никакого отношения к теме занятий и содержанию контрольной работы. Оценка 1 соответствует отсутствию каких-либо проявлений подобных талантов, а оценка 7 – наоборот, высокой степени их выраженности. Мы могли бы уточнить понятие ДС, например, назвать эти способности коммуникативными. Но для изучения регрессионного анализа это не принципиально. Важно здесь только лишь то, что они не влияют на оценку по данному предмету.

П – поведение на тренировочном занятии. Оценку 7 получают студенты, которые активно и внимательно разбираются с заданиями. Оценка 1 – наоборот, соответствует отсутствию каких-либо попыток выполнить задания и понять их смысл. Переменная М содержит информацию о мотивации: 1 – низкий уровень мотивации, 7 – высокий уровень мотивации.

Итак, назовем переменные еще раз:

Ст – студент;
О – оценка на контрольной работе;
ПО – процент отсутствия;
ОС – приобретенные ранее опыт и способности, обеспечивающие быстрое и правильное выполнение заданий;
ДС – другие способности (не помогающие в выполнении заданий);
П – поведение на тренировочных занятиях;
М – мотивация.

Надо сразу же заметить, что большинство переменных здесь не являются метрическими. Скорее их надо отнести к порядковым. Кроме того, это небольшая выборка и на нормальность распределения переменные не проверены. Следовательно, применение параметрических методов, в том числе и линейного регрессионного анализа, можно признать некорректным. Однако, это замечание является критичным только лишь при проведении реальных исследований. Если же наша цель заключается только в изучении SPSS, то эту проблему можно проигнорировать.

Коэффициенты корреляции Пирсона. Перед выполнением регрессионного анализа проанализируем вначале корреляционные связи между всеми 6-ю переменными (Analyze > Correlate > Bivariate). Ок.

Как и следовало ожидать, Оценка на контрольной работе связана здесь со всеми переменными кроме Других способностей. Связь Оценки с Опытом-Способностями несколько менее значима (p = 0,02) по сравнению с остальными тремя переменными (p 0,01). В большей степени повлияли на Оценку присутствие и активная работа на тренировочных занятиях. Причем, связь О*ПО является отрицательной, что и неудивительно: чем больше занятий пропустил студент, тем меньше знаний и навыков он получил, что и привело к снижению Оценки. Кроме того, выявлена очень сильная связь между Поведением и Мотивацией. Это понятно, ведь различия в Поведении здесь обусловлены, прежде всего, различиями в Мотивации.

Регрессионный анализ. Откройте меню Analyze > Regression и выберите линейную модель. В качестве зависимой (dependent) переменной используем Оценку, а в качестве независимых (independents) переменных – Процент отсутствия, Опыт-Способности, Другие способности и Поведение. Не будем пока что включать в анализ только Мотивацию. Номера студентов здесь будут являться обозначениями случаев (case labels). В диалоговом окне Statistics включите дополнительно диагностику коллинеарности и диагностику остатков (residuals) для всех (all) случаев (cases). Continue, Ok.

Мы здесь рассмотрим только лишь небольшую часть возможностей регрессионного анализа. Более полное описание, при необходимости, можете найти в текстовом файле «Другие результаты».

Квадрат (square) множественного коэффициента корреляции (R) свидетельствует о том, что модель объясняет приблизительно 86% дисперсии. Или 83%, если использовать уточненное (adjusted) значение. Согласно таблице ANOVA, статистическая значимость модели очень высока (p < 0,001). Следовательно, данная модель достаточно хорошо описывает закономерность в исходных данных, и можно продолжать анализ.

В следующей таблице содержится информация о вкладе каждой независимой переменной в дисперсию зависимой переменной. Процент отсутствия, Опыт-Способности и Поведение вносят высоко значимый вклад (p<0,001). Другие способности не вносят существенного вклада (p=0,69), что вполне соответствует смыслу переменной ДС: это любые способности, но только не те, от которых зависит оценка на контрольной работе.

Таким образом, изучаемые нами данные (табл.40) можно описать следующим уравнением:

О = 0,46 – 0,63•ПО + 4,8•ОС + 0,5•ДС + 7,5•П

Поскольку модель в целом высоко значима и объясняет достаточно большую долю дисперсии, это уравнение можно использовать для прогнозов. Подставьте в него наблюдаемые значения независимых переменных и получите ожидаемое значение зависимой переменной. Нестандартизованные коэффициенты интерпретируются легко. Коэффициент B представляет среднее изменение зависимой переменной при изменении на единицу соответствующей этому коэффициенту независимой переменной при неизменных других независимых переменных. Но близость коэффициентов B еще не свидетельствует о приблизительно равных вкладах соответствующих независимых переменных. Мы видим, например, что абсолютные значения коэффициентов для Процента отсутствия (0,63) и Других способностей (0,5) близки. Но сравнение шкал этих переменных: 0…100 и 1…7 позволяет понять, что переменная Процент отсутствия вносит в дисперсию зависимой переменной гораздо больший вклад.

Непосредственно сравнивать вклады независимых переменных позволяют стандартизованные коэффициенты регрессии Beta. Стандартизация здесь означает умножение коэффициента B на стандартное отклонение независимой переменной и его деление на стандартное отклонение зависимой переменной. Сравним независимые переменные: наибольший вклад вносит Поведение на тренировочном занятии (Beta=0,62), несколько меньший вклад вносит Процент отсутствия (Beta= – 0,46) и т.д. Заметьте, что уровни значимости Sig здесь менее удобны: если не пытаться выяснять их более точные значения, то можно сделать вывод, что все независимые переменные кроме Других способностей вносят одинаково большой вклад (p<0,001), что не вполне соответствует действительности.

Наблюдаемые и ожидаемые оценки. В таблице Casewise diagnostics для каждого студента показана его наблюдаемая оценка на контрольной работе О. Мы можем сравнить ее с оценкой, спрогнозированной (predicted) на основе регрессионной модели. Остаток (residual) - разница между наблюдаемым и ожидаемым значениями. В результате деления остатка на оценку его стандартного отклонения получается стандартизованный (Std) остаток. Анализируя остатки, мы можем сделать выводы о точности прогнозов. Наиболее точно здесь спрогнозирована оценка для студента №10 и наименее точно – для студента №18.

Просмотрите оценки 18-го студента в табл.40. Опыт-Способности не на высоком уровне и 22% времени на тренировочных занятиях пропущено. Но большую часть времени студент разбирался с заданиями достаточно активно (Поведение=6,4). В соответствии с регрессионной моделью, можно было бы ожидать (табл. Casewise diagnostics), что этот студент выполнит на контрольной работе более 44% всех заданий. Но фактически он выполнил только 26%. Почему? Может быть, он пропустил на тренировочных занятиях именно те темы, которые попались ему на контрольной работе? А может быть Опыт-Способности и/или Поведение этого студента были оценены неверно? Весьма вероятно. Но не менее вероятны также и другие причины.

Есть и противоположные примеры. Например, 22-й студент фактически получил гораздо более высокую оценку (93%) по сравнению с той, которую следовало бы ожидать в соответствии с моделью (79%). Часто мы можем только догадываться о настоящих причинах таких расхождений.

Но большинство из них можно свести к следующим:

1) повлияли факторы, не учтенные в модели;
2) измерения по некоторым переменным выполнены неточно;
3) линейная модель неспособна точно описать закономерность, наблюдающуюся в данных.

Мультиколлинеарность. Сильная связь между независимыми переменными может настолько искажать результаты регрессионного анализа, что доверять этим результатам уже невозможно. Просмотрите вычисленные ранее коэффициенты корреляции: сильных и значимых связей между переменными ПО, ОС, ДС, П не выявлено. Следовательно, проблем с мультиколлинеарностью здесь быть не может. Чтобы подтвердить это, необходимо убедиться, что показатели Condition index в таблице Collinearity diagnostics не превышают значение 15. Так оно и есть.

Теперь давайте убедимся, что может быть и иначе. Выполните регрессионный анализ еще раз, но теперь дополнительно добавьте в список независимых переменных переменную Мотивация. Теперь в модели будет 5 независимых переменных. Все остальные настройки диалоговых окон оставьте прежними. Ок.

Сравните результаты с предыдущими. Объясняемый моделью процент дисперсии изменился несущественно. В соответствии с коэффициентом детерминации (R square) он слегка повысился, однако в соответствии с уточненным (adjusted) коэффициентом – наоборот, слегка понизился. Модель в целом по-прежнему высоко статистически значима.

Просмотрите снова вычисленные ранее коэффициенты корреляции: Оценка сильно положительно связана и с Поведением и с Мотивацией. Но еще более сильно Поведение и Мотивация связаны между собой. Поскольку сейчас в модели обе эти переменные используются в качестве независимых, то сильная связь между ними должна настораживать. Убедитесь, что это действительно не лучшим образом повлияло на результаты (таблица coefficients). Во-первых, вклад Мотивации оказался отрицательным (B = -3,9). Во-вторых, вклад Поведения и Мотивации оказался статистически незначимым (p = 0,088 и p = 0,561). Как это понять? Ведь это полностью противоречит результатам, полученным ранее: Оценка значимо (p<0,001) положительно связана и с Поведением (r = 0,66) и с Мотивацией (r = 0,67).

Это «противоречие» заставляет усомниться в адекватности данной регрессионной модели. И в таблице Диагностика коллинеарности мы находим подтверждение этим сомнениям. Тот факт, что Condition index=52,7 превышает значение 30, свидетельствует об очень серьезных проблемах с мультиколлинеарностью. Причем большие доли дисперсии (proportions variance = 0,99) для высокого значения Condition index наблюдаются именно у Поведения и Мотивации. Следовательно, нельзя включать в модель и Поведение и Мотивацию одновременно. Необходимо либо объединить эти две переменные в одну, либо построить модель только на одной из них.

Проведение регрессионного анализа

Регрессионный анализ является одним из наиболее распространённых методов обработки экспериментальных данных при изучении зависимостей в физике, биологии, экономике, технике и других областях.

Исследование объективно существующих связей между явлениями – важнейшая задача общей теории статистики. Регрессионный анализ заключается в определении аналитического выражения, в котором изменение одной величины (называемой зависимой или результативным признаком) y обусловлено влиянием одной или нескольких независимых величин (факторов) x1, x2,…, xn, а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения.

Регрессия может быть однофакторной (парной) и многофакторной (множественной). Для простой (парной) регрессии в условиях, когда достаточно полно установлены причинно-следственные связи, можно использовать графическое изображение. При множественности причинных связей невозможно чётко разграничить одни причинные явления от других. В этом случае наиболее приемлемым способом определения зависимости (уравнения регрессии) является метод перебора различных уравнений, реализуемый с помощью компьютера.

После выбора вида регрессионной модели, используя результаты наблюдений зависимой переменной и факторов, нужно вычислить оценки (приближённые значения) параметров регрессии, а затем проверить значимость и адекватность модели результатам наблюдений.

Порядок проведения регрессионного анализа следующий:

• выбор модели регрессии, что заключает в себе предположение о зависимости функций регрессии от факторов;
• оценка параметров регрессии в выбранной модели методом наименьших квадратов;
• проверка статистических гипотез о регрессии.

Построим приближённую зависимость времени простоя техники от времени работы и месяца. На существование этой зависимости, причём линейной, указывает корреляционный анализ. Имея зависимость, выраженную в виде формулы, можно прогнозировать время простоя на следующий период и оценить недополученную прибыль в результате простоев, что так любят делать экономисты.

Линейный регрессионный анализ выполняется в модуле Statistics/ MultipleRegression. В стартовом диалоговом окне этого модуля при помощи кнопки Variables указываются зависимая (dependent) и независимые (independent) переменные.

В поле Inputfileуказывается тип файла с данными:

RawData – данные в виде строчной таблицы (по умолчанию);
CorrelationMatrix – данные в виде корреляционной матрицы.

В стартовом окне можно задать и дополнительные опции и параметры анализа. Например, можно выбрать определенное подмножество наблюдений для анализа или приписать вес переменным. Также можно задать и опции, которые относятся непосредственно к статистической процедуре: задать правило обработки пропущенных данных, выбрать метод анализа по умолчанию и др.

Для вывода результатов и их анализа нажмите на кнопку ОК. Система произведет вычисления, и на экране появится окно результатов. Оно имеет простую структуру: верхняя часть окна – информационная, нижняя содержит функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа.


Регрессионный анализ

Dependent – имя зависимой переменной. В нашем случае это «Простой».

No. of cases – число наблюдений, по которым построена регрессия. В примере число равно 12.

Multiple R – коэффициент множественной корреляции. Эта статистика полезна в множественной регрессии, когда вы хотите описать зависимости между переменными. Она может принимать значения от 0 до 1 и характеризует тесноту линейной связи между зависимой и всеми независимыми переменными.

R – квадрат коэффициента множественной корреляции (R2), называемый коэффициентом детерминации.

Коэффициент детерминации является одной из основных статистик в данном окне, он показывает долю общего разброса (относительно выборочного среднего зависимой переменной), которая объясняется построенной регрессией. Чем ближе коэффициент детерминации к единице, тем качественнее найдена модель (объясняет поведение большего числа точек).

Коэффициент детерминации обладает существенным недостатком. При равенстве числа независимых переменных q числу наблюдений n величина R2 равна 1. По мере добавления переменных в уравнение значение R2 неизбежно возрастает. Это ведет к неоправданному предпочтению моделей с большим числом независимых переменных. Отсюда следует, что необходима поправка к R2, которая бы учитывала число переменных и наблюдений. В результате получаем скорректированный коэффициент детерминации (adjusted R).

Включение новой переменной в регрессионное уравнение увеличивает R2 не всегда, а только в том случае, когда частный F-критерий при проверке гипотезы о значимости включаемой переменной больше или равен 1. В противном случае включение новой переменной уменьшает значение коэффициентов детерминации. Таким образом, скорректированный R2 можно с большим успехом (по сравнению с R2) применять для выбора наилучшего подмножества независимых переменных в регрессионном уравнении.

F-критерий используется для оценки адекватности регрессионной модели, определяет отношение дисперсии оценки модели к дисперсии остатка.

Standard Error of estimate – стандартная ошибка оценки. Эта статистика является мерой рассеяния наблюдаемых значений относительно регрессионной прямой.

Intercept – оценка свободного члена регрессии. Значение коэффициента b0 в уравнении регрессии.

Std. Error – стандартная ошибка оценки свободного члена. Стандартная ошибка коэффициента b0 в уравнении регрессии.

F – значения F-критерия для проверки гипотезы b1=0.
df – число степеней свободы F-критерия.
p – уровень значимости.
t–t-критерий для проверки гипотезы о равенстве нулю свободного члена уравнения. Если p больше заданного уровня значимости Alpha, то гипотеза b0=0 принимается.
Beta – коэффициенты b уравнения.

В информационной части прежде всего нужно смотреть на значение коэффициента детерминации. В нашем примере он равен 0,988... Это значит, что построенная регрессия объясняет 98,8 % разброса значений переменной «Простой» относительно среднего. Это хороший результат.

Далее смотрим на значение F-критерия и уровень его значимости p. F-критерий используется для проверки гипотезы, утверждающей, что между зависимой переменной «Простой» и независимой переменной «Работа» нет линейной зависимости, т.е. b1=0, против альтернативы «b1 не равен нулю». В данном примере большое значение F-критерия 373,3964 и даваемый в окне уровень значимости p=0,0112 показывают, что построенная регрессия значима.

При помощи кнопок диалогового окна Multiple Regressions Results результаты регрессионного анализа можно просмотреть более детально. Щёлкните далее на кнопку Summary:Regression rezults (краткие результаты регрессии).

Во втором столбце таблицы (Beta) выводятся стандартизованные коэффициенты регрессии, в третьем (Std.Err. of Beta) – их стандартные отклонения. В случае множественной регрессии стандартизованные коэффициенты регрессии используются для сравнения влияния на зависимую переменную факторов, имеющих различную размерность.

В четвёртом столбце таблицы имеются оценки неизвестных параметров модели:

b0 = –705,680;
b1 = 51,152;
b2 = 0,479;
в пятом столбце (St.Err. of B) – их стандартные отклонения.

Итак, искомая модель зависимости времени простоя техники от времени работы и месяца имеет вид:

Простой = –705,680+51,152*Месяц+ 0,479*Работа

Из модели очевидна необходимость снижения сезонности работ.

В шестом и седьмом столбцах таблицы выводятся t-статистики и соответствующие уровни значимости для проверки гипотезы о равенстве нулю коэффициентов регрессии. Для нашего примера гипотеза для b0 и b2 отклоняется.

Суть регрессионного анализа

Суть регрессионного анализа: построение математической модели и определение ее статистической надежности.

Вид множественной линейной модели регрессионного анализа:

Y = b0 + b1xi1 + ... + bjxij + ... + bkxik + ei

где ei - случайные ошибки наблюдения, независимые между собой, имеют нулевую среднюю и дисперсию s.

Назначение множественной регрессии: анализ связи между несколькими независимыми переменными и зависимой переменной.

Коэффициент множественной регрессии bj показывает, на какую величину в среднем изменится результативный признак Y, если переменную Xj увеличить на единицу измерения, т. е. является нормативным коэффициентом.

Матричная запись множественной линейной модели регрессионного анализа:

Y = Xb + e

где Y - случайный вектор - столбец размерности (n x 1) наблюдаемых значений результативного признака (y1, y2,..., yn);
X - матрица размерности [n x (k+1)] наблюдаемых значений аргументов;
b - вектор - столбец размерности [(k+1) x 1] неизвестных, подлежащих оценке параметров (коэффициентов регрессии) модели;
e - случайный вектор - столбец размерности (n x 1) ошибок наблюдений (остатков).

На практике рекомендуется, чтобы n превышало k не менее, чем в три раза.

Основы регрессионного анализа

Для решения задач экономического анализа и прогнозирования очень часто используются статистические, отчетные или наблюдаемые данные. При этом полагают, что эти данные являются значениями случайной величины. Случайной величиной называется переменная величина, которая в зависимости от случая принимает различные значения с некоторой вероятностью. Закон распределения случайной величины показывает частоту ее тех или иных значений в общей их совокупности.

При исследовании взаимосвязей между экономическими показателями на основе статистических данных часто между ними наблюдается стохастическая зависимость. Она проявляется в том, что изменение закона распределения одной случайной величины происходит под влиянием изменения другой. Взаимосвязь между величинами может быть полной (функциональной) и неполной (искаженной другими факторами).

Пример функциональной зависимости выпуск продукции и ее потребление в условиях дефицита.

Неполная зависимость наблюдается, например, между стажем рабочих и их производительностью труда. Обычно рабочие с большим стажем трудятся лучше молодых, но под влиянием дополнительных факторов образование, здоровье и т.д. эта зависимость может быть искажена.

Раздел математической статистики, посвященный изучению взаимосвязей между случайными величинами, называется корреляционным анализом (от лат. correlatio соотношение, соответствие).

Основная задача корреляционного анализа это установление характера и тесноты связи между результативными (зависимыми) и факторными (независимыми) (признаками) в данном явлении или процессе. Корреляционную связь можно обнаружить только при массовом сопоставлении фактов. Характер связи между показателями определяется по корреляционному полю. Если у зависимый признак, а х независимый, то, отметив каждый случай х (i) с координатами х и yi, получим корреляционное поле.

Теснота связи определяется с помощью коэффициента корреляции, который рассчитывается специальным образом и лежит в интервалах от минус единицы до плюс единицы.

Если значение коэффициента корреляции лежит в интервале от 1 до 0,9 по модулю, то отмечается очень сильная корреляционная зависимость. В случае если значение коэффициента корреляции лежит в интервале от 0,9 до 0,6, то говорят, что имеет место слабая корреляционная зависимость. Наконец, если значение коэффициента корреляции находится в интервале от – 0,6 до 0,6, то говорят об очень слабой корреляционной зависимости или полном ее отсутствии.

Таким образом, корреляционный анализ применяется для нахождения характера и тесноты связи между случайными величинами.

Регрессионный анализ своей целью имеет вывод, определение (идентификацию) уравнения регрессии, включая статистическую оценку его параметров. Уравнение регрессии позволяет найти значение зависимой переменной, если величина независимой или независимых переменных известна. Практически, речь идет о том, чтобы, анализируя множество точек на графике (т.е. множество статистических данных), найти линию, по возможности точно отражающую заключенную в этом множестве закономерность (тренд, тенденцию), линию регрессии.

По числу факторов различают одно-, двух- и многофакторные уравнения регрессии.

По характеру связи однофакторные уравнения регрессии подразделяются:

a. на линейные:
У= a*bx ,
где х экзогенная (независимая) переменная, у эндогенная (зависимая, результативная) переменная, а,b параметры;
b. степенные:
У= a*
c. показательные
У= a*

Задача №2. Основы регрессионного анализа

Необходимо:

1. Определить уравнение связи между производительностью труда и рентабельностью предприятия. Вычислить коэффициент корреляции между производительностью труда и рентабельностью предприятия. Проверить гипотезу о значимости отличия коэффициента корреляции от нуля.

Считая связь между производительностью труда и рентабельностью линейной, построить уравнения связи между названными показателями, используя метод наименьших квадратов. Проверить гипотезу об отличии от нуля коэффициента регрессии. Дать экономическую интерпретацию полученных результатов.

2. Предположить, что связь между производительностью труда и рентабельностью, например, степенная, показательная или др. Произвести все расчеты. Выбрать ту функциональную зависимость, где ошибка коэффициента регрессии Sa1 наименьшая.


Уровень рентабельности (млн. руб) у

Производительность  труда, тыс.руб. х

9,3

147

9,2

131

9,5

154

9,6

162

9,1

133

9,0

122

9,2

142

9,5

151

9,8

166

9,0

131

Задачи регрессионного анализа

Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии b0, b1,..., bk.

Задачи регрессионного анализа состоят в том, чтобы по имеющимся статистическим данным для переменных Xi и Y:

• получить наилучшие оценки неизвестных параметров b0, b1,..., bk;
• проверить статистические гипотезы о параметрах модели;
• проверить, достаточно ли хорошо модель согласуется со статистическими данными (адекватность модели данным наблюдений).

Построение моделей множественной регрессии состоит из следующих этапов:

1. выбор формы связи (уравнения регрессии);
2. определение параметров выбранного уравнения;
3. анализ качества уравнения и поверка адекватности уравнения эмпирическим данным, совершенствование уравнения.

Множественная регрессия:

• Множественная регрессия с одной переменной;
• Множественная регрессия с двумя переменными;
• Множественная регрессия с тремя переменными.

Этапы регрессионного анализа

Рассмотрим кратко этапы регрессионного анализа:

1. Формулировка задачи. На этом этапе формируются предварительные гипотезы о зависимости исследуемых явлений.
2. Определение зависимых и независимых (объясняющих) переменных.
3. Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель.
4. Формулировка гипотезы о форме связи (простая или множественная, линейная или нелинейная).
5. Определение функции регрессии (заключается в расчете численных значений параметров уравнения регрессии). 6. Оценка точности регрессионного анализа.
7. Интерпретация полученных результатов. Полученные результаты регрессионного анализа сравниваются с предварительными гипотезами. Оценивается корректность и правдоподобие полученных результатов.
8. Предсказание неизвестных значений зависимой переменной.

При помощи регрессионного анализа возможно решение задачи прогнозирования и классификации. Прогнозные значения вычисляются путем подстановки в уравнение регрессии параметров значений объясняющих переменных. Решение задачи классификации осуществляется таким образом: линия регрессии делит все множество объектов на два класса, и та часть множества, где значение функции больше нуля, принадлежит к одному классу, а та, где оно меньше нуля, - к другому классу.

Виды регрессионного анализа

Виды регрессионного анализа:

1) гиперболическая - регрессия равносторонней гиперболы: у = а + b / х + Е;
2) линейная - регрессия, применяемая в статистике в виде четкой экономической интерпретации ее параметров: у = а+b*х+Е;
3) логарифмически линейная - регрессия вида: In у = In а + b * In x + In E
4) множественная - регрессия между переменными у и х1 , х2 ...xm, т. е. модель вида: у = f(х1 , х2 ...xm)+E, где у - зависимая переменная (результативный признак), х1 , х2 ...xm - независимые, объясняющие переменные (признаки-факторы), Е- возмущение или стохастическая переменная, включающая влияние неучтенных факторов в модели;
5) нелинейная - регрессия, нелинейная относительно включенных в анализ объясняющих переменных, но линейная по оцениваемым параметрам; или регрессия, нелинейная по оцениваемым параметрам.
6) обратная - регрессия, приводимая к линейному виду, реализованная в стандартных пакетах прикладных программ вида: у = 1/a + b*х+Е;
7) парная - регрессия между двумя переменными у и x, т. е, модель вида: у = f (x) + Е, где у - зависимая переменная (результативный признак), x – независимая, объясняющая переменная (признак - фактор), Е - возмущение, или стохастическая переменная, включающая влияние неучтенных факторов в модели.

тема

документ Монархия
документ Оценка предприятий
документ Теория организации
документ Оценочная деятельность
документ Теории мотивации



назад Назад | форум | вверх Вверх

Управление финансами

важное

1. ФСС 2016
2. Льготы 2016
3. Налоговый вычет 2016
4. НДФЛ 2016
5. Земельный налог 2016
6. УСН 2016
7. Налоги ИП 2016
8. Налог с продаж 2016
9. ЕНВД 2016
10. Налог на прибыль 2016
11. Налог на имущество 2016
12. Транспортный налог 2016
13. ЕГАИС
14. Материнский капитал в 2016 году
15. Потребительская корзина 2016
16. Российская платежная карта "МИР"
17. Расчет отпускных в 2016 году
18. Расчет больничного в 2016 году
19. Производственный календарь на 2016 год
20. Повышение пенсий в 2016 году
21. Банкротство физ лиц
22. Коды бюджетной классификации на 2016 год
23. Бюджетная классификация КОСГУ на 2016 год
24. Как получить квартиру от государства
25. Как получить земельный участок бесплатно


©2009-2016 Центр управления финансами. Все права защищены. Публикация материалов
разрешается с обязательным указанием ссылки на сайт. Контакты