Исходные данные для регрессионного анализа

Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет зависимость между исследуемыми переменными.

Последовательность этапов регрессионного анализа

Рассмотрим кратко этапы регрессионного анализа.

Формулировка задачи. На этом этапе формируются предварительные гипотезы о зависимости исследуемых явлений.

Определение зависимых и независимых (объясняющих) переменных.

Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель.

Формулировка гипотезы о форме связи (простая или множественная, линейная или нелинейная).

Определение функции регрессии (заключается в расчете численных значений параметров уравнения регрессии)

Оценка точности регрессионного анализа.

Интерпретация полученных результатов. Полученные результаты регрессионного анализа сравниваются с предварительными гипотезами. Оценивается корректность и правдоподобие полученных результатов.

Предсказание неизвестных значений зависимой переменной.

При помощи регрессионного анализа возможно решение задачи прогнозирования и классификации. Прогнозные значения вычисляются путем подстановки в уравнение регрессии параметров значений объясняющих переменных. Решение задачи классификации осуществляется таким образом: линия регрессии делит все множество объектов на два класса, и та часть множества, где значение функции больше нуля, принадлежит к одному классу, а та, где оно меньше нуля, — к другому классу.

Задачи регрессионного анализа

Рассмотрим основные задачи регрессионного анализа: установление формы зависимости, определение функции регрессии, оценка неизвестных значений зависимой переменной.

Установление формы зависимости.

Характер и форма зависимости между переменными могут образовывать следующие разновидности регрессии:

положительная линейная регрессия (выражается в равномерном росте функции);

положительная равноускоренно возрастающая регрессия;

положительная равнозамедленно возрастающая регрессия;

отрицательная линейная регрессия (выражается в равномерном падении функции);

отрицательная равноускоренно убывающая регрессия;

отрицательная равнозамедленно убывающая регрессия.

Однако описанные разновидности обычно встречаются не в чистом виде, а в сочетании друг с другом. В таком случае говорят о комбинированных формах регрессии.

Определение функции регрессии.

Вторая задача сводится к выяснению действия на зависимую переменную главных факторов или причин, при неизменных прочих равных условиях, и при условии исключения воздействия на зависимую переменную случайных элементов. Функция регрессииопределяется в виде математического уравнения того или иного типа.

Оценка неизвестных значений зависимой переменной.

Решение этой задачи сводится к решению задачи одного из типов:

Оценка значений зависимой переменной внутри рассматриваемого интервала исходных данных, т.е. пропущенных значений; при этом решается задача интерполяции.

Оценка будущих значений зависимой переменной, т.е. нахождение значений вне заданного интервала исходных данных; при этом решается задача экстраполяции.

Обе задачи решаются путем подстановки в уравнение регрессии найденных оценок параметров значений независимых переменных. Результат решения уравнения представляет собой оценку значения целевой (зависимой) переменной.

Рассмотрим некоторые предположения, на которые опирается регрессионный анализ.

Предположение линейности, т.е. предполагается, что связь между рассматриваемыми переменными является линейной. Так, в рассматриваемом примере мы построили диаграмму рассеивания и смогли увидеть явную линейную связь. Если же на диаграмме рассеивания переменных мы видим явное отсутствие линейной связи, т.е. присутствует нелинейная связь, следует использовать нелинейные методы анализа.

Предположение о нормальности остатков. Оно допускает, что распределение разницы предсказанных и наблюдаемых значений является нормальным. Для визуального определения характера распределения можно воспользоваться гистограммамиостатков.

При использовании регрессионного анализа следует учитывать его основное ограничение. Оно состоит в том, что регрессионный анализ позволяет обнаружить лишь зависимости, а не связи, лежащие в основе этих зависимостей.

Регрессионный анализ дает возможность оценить степень связи между переменными путем вычисления предполагаемого значения переменной на основании нескольких известных значений.

Уравнение регрессии выглядит следующим образом: Y=a+b*X

При помощи этого уравнения переменная Y выражается через константу a и угол наклона прямой (или угловой коэффициент) b, умноженный на значение переменной X. Константу a также называют свободным членом, а угловой коэффициент — коэффициентом регрессии или B-коэффициентом.

В большинстве случав (если не всегда) наблюдается определенный разброс наблюдений относительно регрессионной прямой.

Остаток— это отклонение отдельной точки (наблюдения) от линии регрессии (предсказанного значения).

Для решения задачи регрессионного анализа в MS Excel выбираем в меню Сервис"Пакет анализа"и инструмент анализа "Регрессия". Задаем входные интервалы X и Y. Входной интервал Y — это диапазон зависимых анализируемых данных, он должен включать один столбец. Входной интервал X — это диапазон независимых данных, которые необходимо проанализировать. Число входных диапазонов должно быть не больше 16.

На выходе процедуры в выходном диапазоне получаем отчет, приведенный в таблице 8.3а—8.3в.

Таблица 8.3а. Регрессионная статистика

Регрессионный и корреляционный анализ – статистические методы исследования. Это наиболее распространенные способы показать зависимость какого-либо параметра от одной или нескольких независимых переменных.

Ниже на конкретных практических примерах рассмотрим эти два очень популярные в среде экономистов анализа. А также приведем пример получения результатов при их объединении.

Регрессионный анализ в Excel

Показывает влияние одних значений (самостоятельных, независимых) на зависимую переменную. К примеру, как зависит количество экономически активного населения от числа предприятий, величины заработной платы и др. параметров. Или: как влияют иностранные инвестиции, цены на энергоресурсы и др. на уровень ВВП.

Результат анализа позволяет выделять приоритеты. И основываясь на главных факторах, прогнозировать, планировать развитие приоритетных направлений, принимать управленческие решения.

линейной (у = а + bx);
параболической (y = a + bx + cx 2 );
экспоненциальной (y = a * exp(bx));
степенной (y = a*x^b);
гиперболической (y = b/x + a);
логарифмической (y = b * 1n(x) + a);
показательной (y = a * b^x).

Рассмотрим на примере построение регрессионной модели в Excel и интерпретацию результатов. Возьмем линейный тип регрессии.

Задача. На 6 предприятиях была проанализирована среднемесячная заработная плата и количество уволившихся сотрудников. Необходимо определить зависимость числа уволившихся сотрудников от средней зарплаты.

Модель линейной регрессии имеет следующий вид:

Где а – коэффициенты регрессии, х – влияющие переменные, к – число факторов.

В нашем примере в качестве У выступает показатель уволившихся работников. Влияющий фактор – заработная плата (х).

В Excel существуют встроенные функции, с помощью которых можно рассчитать параметры модели линейной регрессии. Но быстрее это сделает надстройка «Пакет анализа».

Активируем мощный аналитический инструмент:

Нажимаем кнопку «Офис» и переходим на вкладку «Параметры Excel». «Надстройки».
Внизу, под выпадающим списком, в поле «Управление» будет надпись «Надстройки Excel» (если ее нет, нажмите на флажок справа и выберите). И кнопка «Перейти». Жмем.
Открывается список доступных надстроек. Выбираем «Пакет анализа» и нажимаем ОК.

После активации надстройка будет доступна на вкладке «Данные».

Теперь займемся непосредственно регрессионным анализом.

Открываем меню инструмента «Анализ данных». Выбираем «Регрессия».
Откроется меню для выбора входных значений и параметров вывода (где отобразить результат). В полях для исходных данных указываем диапазон описываемого параметра (У) и влияющего на него фактора (Х). Остальное можно и не заполнять.
После нажатия ОК, программа отобразит расчеты на новом листе (можно выбрать интервал для отображения на текущем листе или назначить вывод в новую книгу).

В первую очередь обращаем внимание на R-квадрат и коэффициенты.

R-квадрат – коэффициент детерминации. В нашем примере – 0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5 (такой анализ вряд ли можно считать резонным). В нашем примере – «неплохо».

Коэффициент 64,1428 показывает, каким будет Y, если все переменные в рассматриваемой модели будут равны 0. То есть на значение анализируемого параметра влияют и другие факторы, не описанные в модели.

Коэффициент -0,16285 показывает весомость переменной Х на Y. То есть среднемесячная заработная плата в пределах данной модели влияет на количество уволившихся с весом -0,16285 (это небольшая степень влияния). Знак «-» указывает на отрицательное влияние: чем больше зарплата, тем меньше уволившихся. Что справедливо.

Корреляционный анализ в Excel

Корреляционный анализ помогает установить, есть ли между показателями в одной или двух выборках связь. Например, между временем работы станка и стоимостью ремонта, ценой техники и продолжительностью эксплуатации, ростом и весом детей и т.д.

Если связь имеется, то влечет ли увеличение одного параметра повышение (положительная корреляция) либо уменьшение (отрицательная) другого. Корреляционный анализ помогает аналитику определиться, можно ли по величине одного показателя предсказать возможное значение другого.

Коэффициент корреляции обозначается r. Варьируется в пределах от +1 до -1. Классификация корреляционных связей для разных сфер будет отличаться. При значении коэффициента 0 линейной зависимости между выборками не существует.

Рассмотрим, как с помощью средств Excel найти коэффициент корреляции.

Для нахождения парных коэффициентов применяется функция КОРРЕЛ.

Задача: Определить, есть ли взаимосвязь между временем работы токарного станка и стоимостью его обслуживания.

Ставим курсор в любую ячейку и нажимаем кнопку fx.

В категории «Статистические» выбираем функцию КОРРЕЛ.
Аргумент «Массив 1» — первый диапазон значений – время работы станка: А2:А14.
Аргумент «Массив 2» — второй диапазон значений – стоимость ремонта: В2:В14. Жмем ОК.

Чтобы определить тип связи, нужно посмотреть абсолютное число коэффициента (для каждой сферы деятельности есть своя шкала).

Для корреляционного анализа нескольких параметров (более 2) удобнее применять «Анализ данных» (надстройка «Пакет анализа»). В списке нужно выбрать корреляцию и обозначить массив. Все.

Полученные коэффициенты отобразятся в корреляционной матрице. Наподобие такой:

Корреляционно-регрессионный анализ

На практике эти две методики часто применяются вместе.

Строим корреляционное поле: «Вставка» — «Диаграмма» — «Точечная диаграмма» (дает сравнивать пары). Диапазон значений – все числовые данные таблицы.
Щелкаем левой кнопкой мыши по любой точке на диаграмме. Потом правой. В открывшемся меню выбираем «Добавить линию тренда».
Назначаем параметры для линии. Тип – «Линейная». Внизу – «Показать уравнение на диаграмме».
Жмем «Закрыть».

Теперь стали видны и данные регрессионного анализа.

Период, кв	В	А2	А3	КЗ	у	х1	Х2
7=2/(3+4)	8=2/3	9=2/5
2004 г.
7,95	25,16	15,60
7,38	25,54	11,92
5,94	22,60	17,37
8,94	40,00	7,87
2005г.
8,11	16,15	7,03
9,06	16,92	5,80
11,39	16,14	3,77
10,76	10,55	1,82
2006г.
5,98	11,52	1,96
5,31	11,74	2,04
7=2/(3+4)	8=2/3	9=2/5
4,23	14,69	2,64
5,97	6,11	2,86
Итого	105,02	226,21	80,68

где В – выручка, тыс. руб.;

А2 = ТП+ ТО+ДЗ;

КЗ – кредиторская задолженность;

ТП –товарная прдукция;

ТО – товары отгруженные;

МЗ – материальные запасы товаров;

ДЗ – дебиторская задолженность.

Параметры уравнения регрессии исчислены c помощью программы MS Exel:

Уравнение регрессии примет вид:

Y=0,8902 + 0,3054*х1- 0,0294*х2 (3.2.)

Для проверки значимости уравнения регрессии находим фактический F-критерий Фишера по формуле:

(3.3.)

где Sfact –дисперсия фактическая, находиться по формуле:

(3.4.)

Soc –дисперсия остаточная, находиться по формуле:

(3.5.)

Расчеты приведены в таблице 3.2.

Таблица 3.2. –

Расчетная таблица

Период, кв	Sобщ	Sfact	S oc
2004г.
1,654	0,950	0,096	5,201211
0,498	1,326	0,199	8,289988
1,601	1,638	0,000	0,244661
18,228	18,208	0,000	0,026465
2005г.
0,310	0,377	0,003	1,395263
0,372	0,197	0,028	4,093849
0,079	0,267	0,055	5,354121
3,660	2,760	0,063	9,135648
2006г.
2,849	2,146	0,050	7,471683
1,852	2,024	0,004	1,864107
0,190	0,677	0,150	9,141343
0,490	0,559	0,002	1,206641
Итого	31,783	31,129	0,650	4,452

Таким образом, Fфакт = 31,129 / 0,650 = 478,9.

F-критерий Фишера при уровне значимости 0,01 равен 16,26 (табличное значение). При выполнении условия Fфакт > F_0,01 уравнение регрессии считается значимым, в данном случае это условие выполняется: 478,9 >= 16,26

Проверка качества составленной модели определяется при помощи показателя средней ошибки аппроксимации. Модель считается составленной качественно, если значение средней ошибки аппроксимации находится в интервале от 5 до 7% включительно.

Средняя ошибка аппроксимации находиться по формуле:

(3.6.)

где Ā — средняя ошибка аппроксимации

Расчет этого показателя приведен в таблице 20. Вычисленное значение средней ошибки аппроксимации равно 4,5 %, округляя до целого числа, получаем 5%. Это означает, что модель составлена качественно и пригодна для дальнейшего исследования.

Для того, чтобы определить в каком направлении разрабатывать мероприятия, определяем факторы, которые наиболее сильно влияют на результативный признак. Для этого вычисляются: коэффициенты эластичности; и коэффициенты корреляции.

Коэффициент эластичности вычисляется по формуле:

(3.7.)

Получены следующие данные:

Это означает, что факторы влияют на результативный признак следующим образом:

— повышение оборачиваемости материальных запасов (фактор х1) на 1% влечет повышение коэффициента мобильности оборотных средств на 0,3%;

— рост оборачиваемости кредиторской задолженности (фактор х2) на 1% понижает коэффициент мобильности оборотных средств на 0,04%;

Для проведения корреляционного анализа рассчитываются коэффициенты корреляции с помощью MS Exel.

Полученные показатели корреляции представлены в таблице 3.3.

Таблица 3.3. — Коэффициенты корреляции

Y	X₁	X₂
Y
X₁	0.1999
X₂	0.1905	0.0144

Полученные показатели характеризуют связи следующим образом:

— на результативный признак наибольшее влияние оказывает фактор оборачиваемость запасов товаров (коэффициент корреляции =0,0999) и только потом кредиторская задолженность (коэффициент корреляции = 0,1905).

— анализируемые факторы мало корреллируют между собой, поэтому все факторы уравнения регрессии значимы. При исчислении прогнозного результата (коэффициента мобильности оборотных средств) будут учитываться все факторы уравнения регрессии.

Как видно из рисунка 3.1., график прогноза уравнения регрессии на 2 месяца 2004 года имеет тенденцию к снижению. Это означает, что при реализации прежней финансовой политики коэффициент мобильности оборотных средств будет уменьшаться. В этом случае имеет место залеживание товаров на складах, увеличение затрат по хранению больших (сверх нормы) остатков товаров.

Рис.3.1. График уравнения регрессии.

Из регрессионного анализа видно, что наибольшее влияние на мобильность оборотных средств имеет оборачиваемость запасов товаров, это очевидно, так как данное предприятие занимается торгово-закупочными операциями.