Регрессионный анализ является одним из наиболее распространённых методов обработки экспериментальных данных при изучении зависимостей в физике, биологии, экономике, технике и других областях.
Исследование объективно существующих связей между явлениями – важнейшая задача общей теории статистики. Регрессионный анализ заключается в определении аналитического выражения, в котором изменение одной величины (называемой зависимой или результативным признаком) y обусловлено влиянием одной или нескольких независимых величин (факторов) x1, x2,…, xn, а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения.
Регрессия может быть однофакторной (парной) и многофакторной (множественной). Для простой (парной) регрессии в условиях, когда достаточно полно установлены причинно-следственные связи, можно использовать графическое изображение. При множественности причинных связей невозможно чётко разграничить одни причинные явления от других. В этом случае наиболее приемлемым способом определения зависимости (уравнения регрессии) является метод перебора различных уравнений, реализуемый с помощью компьютера.
После выбора вида регрессионной модели, используя результаты наблюдений зависимой переменной и факторов, нужно вычислить оценки (приближённые значения) параметров регрессии, а затем проверить значимость и адекватность модели результатам наблюдений.
Порядок проведения регрессионного анализа следующий:
• выбор модели регрессии, что заключает в себе предположение о зависимости функций регрессии от факторов;
• оценка параметров регрессии в выбранной модели методом наименьших квадратов;
Задавайте вопросы нашему консультанту, он ждет вас внизу экрана и всегда онлайн специально для Вас. Не стесняемся, мы работаем совершенно бесплатно!!!
Также оказываем консультации по телефону: 8 (800) 600-76-83, звонок по России бесплатный!
• проверка статистических гипотез о регрессии.
Построим приближённую зависимость времени простоя техники от времени работы и месяца. На существование этой зависимости, причём линейной, указывает корреляционный анализ. Имея зависимость, выраженную в виде формулы, можно прогнозировать время простоя на следующий период и оценить недополученную прибыль в результате простоев, что так любят делать экономисты.
Линейный регрессионный анализ выполняется в модуле Statistics/ MultipleRegression. В стартовом диалоговом окне этого модуля при помощи кнопки Variables указываются зависимая (dependent) и независимые (independent) переменные.
В поле Inputfileуказывается тип файла с данными:
RawData – данные в виде строчной таблицы (по умолчанию);
CorrelationMatrix – данные в виде корреляционной матрицы.
В стартовом окне можно задать и дополнительные опции и параметры анализа. Например, можно выбрать определенное подмножество наблюдений для анализа или приписать вес переменным. Также можно задать и опции, которые относятся непосредственно к статистической процедуре: задать правило обработки пропущенных данных, выбрать метод анализа по умолчанию и др.
Для вывода результатов и их анализа нажмите на кнопку ОК. Система произведет вычисления, и на экране появится окно результатов. Оно имеет простую структуру: верхняя часть окна – информационная, нижняя содержит функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа.
Dependent – имя зависимой переменной. В нашем случае это «Простой».
No. of cases – число наблюдений, по которым построена регрессия. В примере число равно 12.
Multiple R – коэффициент множественной корреляции. Эта статистика полезна в множественной регрессии, когда вы хотите описать зависимости между переменными. Она может принимать значения от 0 до 1 и характеризует тесноту линейной связи между зависимой и всеми независимыми переменными.
R – квадрат коэффициента множественной корреляции (R2), называемый коэффициентом детерминации.
Коэффициент детерминации является одной из основных статистик в данном окне, он показывает долю общего разброса (относительно выборочного среднего зависимой переменной), которая объясняется построенной регрессией. Чем ближе коэффициент детерминации к единице, тем качественнее найдена модель (объясняет поведение большего числа точек).
Коэффициент детерминации обладает существенным недостатком. При равенстве числа независимых переменных q числу наблюдений n величина R2 равна 1. По мере добавления переменных в уравнение значение R2 неизбежно возрастает. Это ведет к неоправданному предпочтению моделей с большим числом независимых переменных. Отсюда следует, что необходима поправка к R2, которая бы учитывала число переменных и наблюдений. В результате получаем скорректированный коэффициент детерминации (adjusted R).
Включение новой переменной в регрессионное уравнение увеличивает R2 не всегда, а только в том случае, когда частный F-критерий при проверке гипотезы о значимости включаемой переменной больше или равен 1. В противном случае включение новой переменной уменьшает значение коэффициентов детерминации. Таким образом, скорректированный R2 можно с большим успехом (по сравнению с R2) применять для выбора наилучшего подмножества независимых переменных в регрессионном уравнении.
F-критерий используется для оценки адекватности регрессионной модели, определяет отношение дисперсии оценки модели к дисперсии остатка.
Standard Error of estimate – стандартная ошибка оценки. Эта статистика является мерой рассеяния наблюдаемых значений относительно регрессионной прямой.
Intercept – оценка свободного члена регрессии. Значение коэффициента b0 в уравнении регрессии.
Std. Error – стандартная ошибка оценки свободного члена. Стандартная ошибка коэффициента b0 в уравнении регрессии.
F – значения F-критерия для проверки гипотезы b1=0.
df – число степеней свободы F-критерия.
p – уровень значимости.
t–t-критерий для проверки гипотезы о равенстве нулю свободного члена уравнения. Если p больше заданного уровня значимости Alpha, то гипотеза b0=0 принимается.
Beta – коэффициенты b уравнения.
В информационной части прежде всего нужно смотреть на значение коэффициента детерминации. В нашем примере он равен 0,988... Это значит, что построенная регрессия объясняет 98,8 % разброса значений переменной «Простой» относительно среднего. Это хороший результат.
Далее смотрим на значение F-критерия и уровень его значимости p. F-критерий используется для проверки гипотезы, утверждающей, что между зависимой переменной «Простой» и независимой переменной «Работа» нет линейной зависимости, т.е. b1=0, против альтернативы «b1 не равен нулю». В данном примере большое значение F-критерия 373,3964 и даваемый в окне уровень значимости p=0,0112 показывают, что построенная регрессия значима.
При помощи кнопок диалогового окна Multiple Regressions Results результаты регрессионного анализа можно просмотреть более детально. Щёлкните далее на кнопку Summary:Regression rezults (краткие результаты регрессии).
Во втором столбце таблицы (Beta) выводятся стандартизованные коэффициенты регрессии, в третьем (Std.Err. of Beta) – их стандартные отклонения. В случае множественной регрессии стандартизованные коэффициенты регрессии используются для сравнения влияния на зависимую переменную факторов, имеющих различную размерность.
В четвёртом столбце таблицы имеются оценки неизвестных параметров модели:
b0 = –705,680;
b1 = 51,152;
b2 = 0,479;
в пятом столбце (St.Err. of B) – их стандартные отклонения.
Итак, искомая модель зависимости времени простоя техники от времени работы и месяца имеет вид:
Простой = –705,680+51,152*Месяц+ 0,479*Работа
Из модели очевидна необходимость снижения сезонности работ.
В шестом и седьмом столбцах таблицы выводятся t-статистики и соответствующие уровни значимости для проверки гипотезы о равенстве нулю коэффициентов регрессии. Для нашего примера гипотеза для b0 и b2 отклоняется.
Как известно, все исконно русские женские имена оканчиваются либо на «а», либо на «я»: Анна, Мария, Ольга и т.д. Однако есть одно-единственное женское имя, которое не оканчивается ни на «а», ни на «я». Назовите его.