Как найти скорректированный коэффициент детерминации

Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 22 апреля 2022 года; проверки требуют 2 правки.

Коэффициент детерминации (R^2 — R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру зависимости одной случайной величины от множества других. В частном случае линейной зависимости R^2 является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x.

Определение и формула[править | править код]

Истинный коэффициент детерминации модели зависимости случайной величины y от факторов x определяется следующим образом:

{displaystyle R^{2}=1-{frac {D[y|x]}{D[y]}}=1-{frac {sigma ^{2}}{sigma _{y}^{2}}},}

где {displaystyle D[y]=sigma _{y}^{2}} — дисперсия случайной величины y, а {displaystyle D[y|x]=sigma ^{2}} — условная (по факторам x) дисперсия зависимой переменной (дисперсия ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

{displaystyle R^{2}=1-{frac {{hat {sigma }}^{2}}{{hat {sigma }}_{y}^{2}}}=1-{frac {SS_{res}/n}{SS_{tot}/n}}=1-{frac {SS_{res}}{SS_{tot}}},}

где {displaystyle SS_{res}=sum _{i=1}^{n}e_{i}^{2}=sum _{i=1}^{n}(y_{i}-{hat {y}}_{i})^{2}} — сумма квадратов остатков регрессии, y_{i},{hat  y}_{i} — фактические и расчётные значения объясняемой переменной.

{displaystyle SS_{tot}=sum _{i=1}^{n}(y_{i}-{overline {y}})^{2}=n{hat {sigma }}_{y}^{2}} — общая сумма квадратов.

{bar  {y}}={frac  {1}{n}}sum _{{i=1}}^{n}y_{i}

В случае линейной регрессии с константой {displaystyle SS_{tot}=SS_{reg}+SS_{res}}, где {displaystyle SS_{reg}=sum _{i=1}^{n}({hat {y}}_{i}-{overline {y}})^{2}} — объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае — коэффициент детерминации — это доля объяснённой суммы квадратов в общей:

{displaystyle R^{2}={frac {SS_{reg}}{SS_{tot}}}}

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу[источник не указан 389 дней].

Интерпретация[править | править код]

  1. Коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50 % (в этом случае коэффициент множественной корреляции превышает по модулю 70 %). Модели с коэффициентом детерминации выше 80 % можно признать достаточно хорошими (коэффициент корреляции превышает 90 %). Значение коэффициента детерминации 1 означает функциональную зависимость между переменными.
  2. При отсутствии статистической связи между объясняемой переменной и факторами, статистика nR^{2} для линейной регрессии имеет асимптотическое распределение chi ^{2}(k-1), где k-1 — количество факторов модели (см. тест множителей Лагранжа). В случае линейной регрессии с нормально распределёнными случайными ошибками статистика F={frac  {R^{2}/(k-1)}{(1-R^{2})/(n-k)}} имеет точное (для выборок любого объёма) распределение Фишера F(k-1,n-k) (см. F-тест). Информация о распределении этих величин позволяет проверить статистическую значимость регрессионной модели исходя из значения коэффициента детерминации. Фактически в этих тестах проверяется гипотеза о равенстве истинного коэффициента детерминации нулю.
  3. Коэффициент детерминации не может быть отрицательным, данный вывод исходит из свойств коэффициента детерминации. Однако скорректированный коэффициент детерминации вполне может принимать отрицательные значения.

Недостаток R2 и альтернативные показатели[править | править код]

Основная проблема применения (выборочного) R^2 заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют. Поэтому сравнение моделей с разным количеством факторов с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

Скорректированный (adjusted) R2[править | править код]

Для того, чтобы была возможность сравнивать модели с разным числом факторов так, чтобы число регрессоров (факторов) не влияло на статистику R^2 обычно используется скорректированный коэффициент детерминации, в котором используются несмещённые оценки дисперсий:

{displaystyle {bar {R}}^{2}=R_{adj}^{2}=1-{frac {s^{2}}{s_{y}^{2}}}=1-{frac {SS_{res}/(n-k)}{SS_{tot}/(n-1)}}=1-(1-R^{2}){(n-1) over (n-k)}leqslant R^{2}}

который даёт штраф за дополнительно включённые факторы, где n — количество наблюдений, а k — количество параметров.

Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве факторов). Поэтому теряется интерпретация показателя как «доли». Тем не менее, применение показателя в сравнении вполне обоснованно.

Для моделей с одинаковой зависимой переменной и одинаковым объёмом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии {displaystyle s^{2}=SS_{res}/(n-k)} или стандартной ошибки модели s. Разница только в том, что последние критерии чем меньше, тем лучше.

Информационные критерии[править | править код]

AIC — информационный критерий Акаике — применяется исключительно для сравнения моделей. Чем меньше значение, тем лучше. Часто используется для сравнения моделей временных рядов с разным количеством лагов.
{displaystyle AIC={2k over n}+ln {SS_{res} over n}}, где k— количество параметров модели.

BIC или SC — байесовский информационный критерий Шварца — используется и интерпретируется аналогично AIC.
{displaystyle BIC={kln {n} over n}+ln {SS_{res} over n}}. Даёт больший штраф за включение лишних лагов в модель, чем AIC.

R2-обобщённый (extended)[править | править код]

В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации. Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию R^2. Эта проблема решается с помощью построения обобщённого коэффициента детерминации R_{{extended}}^{2}, который совпадает с исходным для случая МНК регрессии со свободным членом, и для которого выполняются четыре свойства, перечисленные выше. Суть этого метода заключается в рассмотрении проекции единичного вектора на плоскость объясняющих переменных.

Для случая регрессии без свободного члена:

R_{{extended}}^{2}=1-{Y'*(I-P(X))*Y over Y'*(I-pi (X))*Y},
где X — матрица nxk значений факторов, P(X)=X*(X'*X)^{{-1}}*X' — проектор на плоскость X, pi (X)={P(X)*i_{n}*i_{n}'*P(X) over i_{n}'*P(X)*i_{n}}, где i_n — единичный вектор nx1.

R_{{extended}}^{2} с условием небольшой модификации, также подходит для сравнения между собой регрессий, построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

История[править | править код]

Основой коэффициента детерминации является регрессионный анализ и коэффициент корреляции. Британский натуралист сэр Фрэнсис Гальтон (1822—1911) основал регрессионный анализ в 1870-х годах. Он, как и его двоюродный брат Чарльз Дарвин, был внуком Эразма Дарвина. Гальтон был известен своей сильной страстью к сбору данных любого рода. Например, он собрал данные о семенах сладкого горошка чина. Сравнивая диаметры семян, он построил то, что сегодня широко известно как корреляционная диаграмма. Связь, обнаруженную им в этой деятельности, он сначала окрестил «реверсией» (разворотом); однако позже он выбрал название «регрессия». Анализируя семена, он обнаружил явление регрессии к центру, согласно которому — после крайне неудачного изменения, последующее изменение снова приближается к среднему: средний диаметр потомства более крупных семян был меньше среднего диаметра семян родителей (изменения разворачиваются). В своих корреляционных диаграммах он нарисовал линию тренда, для которой он использовал коэффициент корреляции в качестве наклона.[1]

Термин «дисперсия» был введен статистиком Рональдом Фишером (1890—1962) в его статье 1918 года под названием «Корреляция между родственниками на основе предположения о менделевском наследовании» (The Correlation between Relatives on the Supposition of Mendelian Inheritance)[2]. Фишер был одним из самых выдающихся статистиков 20-го века и известен своим вкладом в эволюционную теорию. F-критерий, тесно связанный с коэффициентом детерминации, также назван в его честь. Карл Пирсон (1857—1936), основатель биометрики, предоставил формально-математическое обоснование коэффициента корреляции, квадратом которого является коэффициент детерминации.[3]

Коэффициент детерминации подвергся резкой критике в последующие годы. Это произошло потому, что у него есть свойство, что чем больше количество независимых переменных, тем большим он становится. И это не зависит от того, вносят ли дополнительные «объясняющие переменные» вклад в «объяснительную силу». Чтобы учесть это обстоятельство, эконометрик Анри Тейл (1924—2000) в 1961 году предложил скорректированный коэффициент детерминации[4] (Adjusted coefficient of determination (англ.)), который учитывает потерю степени свободы, связанную с ростом количества объясняющих переменных. Скорректированный коэффициент детерминации изменяется за счет штрафа, который накладывается на модель при увеличении числа переменных. Однако немецкий учёный Хорст Ринне подверг критике данный подход[5] за недостаточное штрафование за потерю степени свободы по мере увеличения числа объясняющих переменных.

Замечание[править | править код]

Высокие значения коэффициента детерминации, вообще говоря, не свидетельствуют о наличии причинно-следственной зависимости между переменными (так же как и в случае обычного коэффициента корреляции). Например, если объясняемая переменная и факторы, на самом деле не связанные с объясняемой переменой, имеют возрастающую динамику, то коэффициент детерминации будет достаточно высок. Поэтому логическая и смысловая адекватность модели имеют первостепенную важность. Кроме того, необходимо использовать критерии для всестороннего анализа качества модели.

См. также[править | править код]

  • Коэффициент корреляции
  • Корреляция
  • Мультиколлинеарность
  • Дисперсия случайной величины
  • Метод группового учёта аргументов
  • Регрессионный анализ

Примечания[править | править код]

  1. Franka Miriam Brückler: Geschichte der Mathematik kompakt: Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6, S. 116. (нем.)
  2. Ronald Aylmer Fisher: The correlation between relatives on the supposition of Mendelian inheritance. In: Trans. Roy. Soc. Edinb. 52, 1918, S. 399—433. (англ.)
  3. Franka Miriam Brückler: Geschichte der Mathematik kompakt: Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6, S. 117. (нем.)
  4. Henri Theil: Economic Forecasts and Policy. Amsterdam 1961, S. 213. (англ.)
  5. Horst Rinne: Ökonometrie: Grundlagen der Makroökonometrie. Vahlen, 2004. (нем.)

Литература[править | править код]

  • Бахрушин В. Е. Методы оценивания характеристик нелинейных статистических связей // Системные технологии. — 2011. — № 2(73). — С. 9—14.[1]
  • Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс.. — 6,7,8-е изд., доп. и перераб.. — Москва: Дело. — Т. “”. — 576 с. — ISBN 5-7749-0055-X.
  • Ершов Э.Б. Распространение коэффициента детерминации на общий случай линейной регрессии, оцениваемой с помощью различных версий метода наименьших квадратов (рус., англ.) // ЦЭМИ РАН Экономика и математические методы. — Москва: ЦЭМИ РАН, 2002. — Т. 38, вып. 3. — С. 107—120.
  • Айвазян С.А., Мхитарян В.С. Прикладная статистика. Основы эконометрики (в 2-х т.). — ??. — Москва: Юнити-Дана (проект TASIS), 2001. — Т. “1,2”. — 1088 с. — ISBN 5-238-00304-8.
  • Ершов Э.Б. Выбор регрессии максимизирующий несмещённую оценку коэффициента детерминации (рус., англ.) // Айвазян С.А. Прикладная эконометрика. — Москва: Маркет ДС, 2008. — Т. 12, вып. 4. — С. 71—83.

Ссылки[править | править код]

  • Глоссарий статистических терминов  (недоступная ссылка с 13-05-2013 [3655 дней] — история)

Коэффициент множественной детерминации
равен:

Следовательно, регрессия y
на x1 и x
2
объясняет 97% колебаний значений у.
Это свидетельствует о значительном
суммарном влиянии независимых переменных
x1 и x
2
на зависимую переменную у.

Для того чтобы была возможность сравнивать
модели с разным числом факторов так,
чтобы число регрессоров (факторов) не
влияло на статистику

обычно используется скорректированный
коэффициент детерминации
, в котором
используются несмещённые оценки
дисперсий:

где n – количество
наблюдений;

m – количество факторных
признаков.

Получаем:

Данный показатель всегда меньше единицы,
но теоретически может быть и меньше
нуля (только при очень маленьком значении
обычного коэффициента детерминации и
большом количестве факторов). Поэтому
теряется интерпретация показателя как
«доли». Тем не менее, применение показателя
в сравнении вполне обоснованно.

11. С помощью f -критерия Фишера оценить адекватность уравнения регрессии с надежностью 0,95.

Качество уравнения также оценивается
с помощью F-теста. Расчетное значение
F-критерия:

В данном случае
.
Поэтому получаем:

Критическое значение F-критерия
при уровне значимости

и
степенях
свободы составит:

Т.к.
,
признается статистическая значимость
уравнения регрессии.

12. Дать точечный и интервальный прогноз
с надежностью 0,99 величины валового
дохода для предприятия, на котором
стоимость основных фондов составляет
70 млн. руб., а стоимость оборотных средств
– 100 млн. руб.

При
,
находим точечный прогноз:


млн.руб.

Интервальный прогноз среднего значения
накоплений домохозяйств:

где

– соответственно верхняя и нижняя границы
доверительного интервала;


– вектор независимых переменных;


– квантиль распределения Стьюдента
(табличное значение);


– доверительная вероятность;


– количество степеней свободы.

Тогда
;

Пусть
,
тогда
;

Таким образом, при стоимости основных
фондов 70 млн. руб. и стоимости оборотных
фондов 100 млн.руб. с вероятностью 99%
валовой доход попадет в интервал от
208,1 до 256,2 млн. руб.

13. Проверить построенное уравнение на наличие мультиколлинеарности по: критерию Стьюдента; критерию χ2. Сравнить полученные результаты.

Для проверки построенного уравнения
множественного уравнения регрессии на
мультиколлинеарность
необходимо
определить коэффициент парной корреляции
между объясняющими переменными (расчеты
коэффициента см. выше):

,
что говорит о довольно сильной прямой
зависимости между стоимостью основных
фондов и оборотных средств.

Проверка существенности отличия
коэффициента корреляции от нуля
(значимости) проводится по схеме:

если
,

то гипотеза о существенном отличии
коэффициента корреляции от нуля
принимается, в противном случае –
отвергается.

Здесь

– уровень значимости (уровень доверия);


– количество степеней свободы;


– квантиль распределения Стьюдента
(находится по таблицам).

Следовательно, коэффициент корреляции
существенно не отличается от нуля и
линейная связь между

и

отсутствует. Следовательно, можно
сделать вывод об отсутствии
мультиколлинерности между факторными
признаками.

Проверим гипотезу о независимости
объясняющих переменных с помощью
критерия «хи-квадрат»:

Рассчитаем определитель матрицы
коэффициентов парной корреляции:

Для данной задачи:

Фактическое значение статистики
«хи-квадрат»:

где

– количество наблюдений;


– число объясняющих переменных.

Число степеней свободы:

Получаем:

Табличное значение статистики для

и

равно
.
В этом случае выполняется неравенство:

следовательно, гипотеза о независимости
объясняющих переменных подтверждается,
можно сделать вывод об отсутствии
мультиколлинеарности.

Ситуационная (практическая) задача
№2

Динамика выпуска
продукции за 1994-2008 гг. представлена в
таблице.

Требуется:

1. Проверить гипотезу о наличии тренда
во временном ряде.

2. Рассчитать коэффициенты автокорреляции.
Проверить наличие сезонных колебаний
во временном ряде.

3. Оценить параметры линейной трендовой
модели, проверить статистическую
значимость соответствующего уравнения
регрессии с надежностью 0,95.

4. Дать точечный и интервальный прогноз
выпуска продукции на 2009 г. с надежностью
0,95.

На рис. 1 приведен график исследуемого
временного ряда. По графику видно, что
имеет место тенденция к увеличению
выпуска продукции с течением времени.

Для выявления основной тенденции
развития изучаемого явления и сезонных
колебаний необходимо выявить соответственно
трендовую и сезонную составляющую
данного временного ряда.

Рис.1

Количественное измерение корреляции
осуществляется посредством использования
линейного коэффициента корреляции
между уровнями исходного временного
ряда и уровнями этого ряда, сдвинутыми
на несколько шагов во времени:

Если сдвиг во времени составляет всего
один шаг, то соответствующий коэффициент
корреляции называется коэффициентом
автокорреляции уровней ряда первого
порядка
. При этом лаг равен 1. Измеряется
же зависимость между соседними уровнями
ряда. В общем случае число шагов (или
циклов), на которые осуществляется
сдвиг, характеризующий влияние
запаздывания, также называется лагом.
С увеличением лага число пар значений,
по которым рассчитывается коэффициент
автокорреляции, уменьшается.

Таблица 2.

Расчетная таблица для определения
коэффициента автокорреляции

Год, t

Выпуск, у

Выпуск с
лагом 1

1

16

21

90,09183673

133,8979592

60,61734694

2

21

18

70,87755102

43,18367347

116,3316327

3

18

20

84,09183673

91,6122449

77,18877551

4

20

21

58,94897959

57,32653061

60,61734694

5

21

35

-40,83673469

43,18367347

38,61734694

6

35

33

31,30612245

55,18367347

17,76020408

7

33

26

-15,12244898

29,46938776

7,760204082

8

26

24

7,520408163

2,469387755

22,90306122

9

24

31

-7,908163265

12,75510204

4,903061224

10

31

36

24,73469388

11,75510204

52,04591837

11

36

31

18,66326531

71,04081633

4,903061224

12

31

38

31,59183673

11,75510204

84,90306122

13

38

36

75,23469388

108,755102

52,04591837

14

36

33

35,52040816

71,04081633

17,76020408

Сумма

386

403

464,7142857

743,4285714

618,3571429

Среднее

27,57142857

28,78571429

Получаем:

Так как коэффициент автокорреляции
первого порядка оказался высоким, то
исследуемый ряд содержит только
тенденцию.
Проверка значимости коэффициента
автокорреляции дает следующий результат:

По
таблице распределения Стьюдента
(двусторонняя критическая область) с
уровнем значимости α=0.05 и степенями
свободы k=12 находим:

Поскольку tнабл > tкрит, то
принимаем гипотезу о значимости
коэффициента автокорреляции, что, в
свою очередь, подтверждает наличие
сильной линейной тенденции.

Коэффициент автокорреляции 2-го порядка:

Таблица 3

Год, t

Выпуск, у

Выпуск с
лагом 2

1

35

37

120,9467456

115,9763314

126,1301775

2

40

39

53,25443787

33,28402367

85,20710059

3

37

40

72,17751479

76,89940828

67,74556213

4

39

47

8,331360947

45,82248521

1,514792899

5

40

52

-21,74556213

33,28402367

14,20710059

6

47

45

-3,976331361

1,514792899

10,43786982

7

52

48

-1,437869822

38,82248521

0,053254438

8

45

50

-1,360946746

0,591715976

3,130177515

9

48

55

15,10059172

4,976331361

45,82248521

10

50

50

7,485207101

17,89940828

3,130177515

11

55

57

80,94674556

85,20710059

76,89940828

12

50

55

28,63905325

17,89940828

45,82248521

13

57

52

42,33136095

126,1301775

14,20710059

45,76923077

48,23076923

400,6923077

598,3076923

494,3076923

Другими словами, коэффициент автокорреляции
1-го статистически значим, а коэффициент
2-го порядка нет, сезонная составляющая
отсутствует.

Рассчитаем трендовую компоненту ряда
динамики.

Т.к. исследование показало наличие
линейной связи, опишем его уравнением
прямой:

где

– выровненные значения ряда;


– параметры уравнения тренда.

Упрощенный расчет параметров уравнения
заключается в переносе начала координат
в середину ряда динамики. Тогда система
нормальных уравнений для расчета
параметров уравнения тренда имеет вид:

Необходимые промежуточные расчеты
приведены в таблице 4.

Таблица 4.

Расчетная таблица для нахождения
параметров уравнения тренда

Номер
года

Выпуск

t

1

16

-7

49

-112

18,406

2

21

-6

36

-126

19,767

3

18

-5

25

-90

21,128

4

20

-4

16

-80

22,489

5

21

-3

9

-63

23,85

6

35

-2

4

-70

25,211

7

33

-1

1

-33

26,572

8

26

0

0

0

27,933

9

24

1

1

24

29,294

10

31

2

4

62

30,655

11

36

3

9

108

32,016

12

31

4

16

124

33,377

13

38

5

25

190

34,738

14

36

6

36

216

36,099

15

33

7

49

231

37,46

Сумма

419

0

280

381

418,995

Таким образом, получаем:

Уравнение тренда имеет вид:

Коэффициент детерминации:
.

Фактическое значение F-статистики
Фишера

При уровне значимости 0,05 табличное
значение
.

Т.к.
,
то признается статистическая значимость
уравнения регрессии.

Расчетные (выровненные) значения
временного ряда по уравнению тренда
приведены в табл. 4.

Прогнозное значение выпуска на 2009 г
(t=8):


ед.

Таким образом, прогнозное значение
выпуска на 2012 г составляет 59 ед.

Интервальный прогноз:

,
рассчитаем


,

,
где
.
Т.е.

Т.е. с надежностью 95% объем выпуска в
2012 г . составит (33,647;43,995) единиц

Рис. 2. Исходные данные и линия тренда

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Скорректированный коэффициент детерминации

Скорректированный коэффициент детерминации (R2adj) – коэффициент детерминации, скорректированный на число факторов, и не чувствительный к числу регрессоров. R2adj рассчитывается по формуле:

Где:

  • R2. Коэффициент детерминации.

Для R2adj, рассчитанного по такой формуле, соотношение 0 ≤ R2adj ≤ 1 будет выполняться только для модели с оцениваемой константой.

Нецентрированный скорректированный коэффициент детерминации () учитывает это условие и рассчитывается в зависимости от наличия константы:

Значение константы оценивается Константа не используется Значение константы задается вручную

Где:

  • . Коэффициент детерминации (нецентрированный);

  • k. Количество факторов, включенных в модель;

  • N. Количество наблюдений.

При k>1 R2adjR2.

Предпочтительней модель с наибольшим значением критерия. Таким образом, при сравнении моделей множественной регрессии следует обращать внимание именно на значение R2adj.

См. также:

Библиотека методов и моделей | Коэффициент детерминации | ISummaryStatistics.AdjR2 | ISummaryStatistics.AdjR2_2

Теория по эконометрике

Основным показателем качества модели множественной регрессии является множественный коэффициент детерминации

.

Он показывает, какая доля изменений результата Y учтена в модели и обусловлена влиянием включенных факторов. Чем ближе R2 к единице, тем выше качество модели.

Заметим, что R2 всегда увеличивается при добавлении в модель новых факторов, даже не оказывающих существенного влияния на Y. Скорректированный (нормированный) коэффициент детерминации

может при этом уменьшаться. Поэтому добавление факторов в модель по методу включения прекращается, когда перестает расти.

Статистическую значимость отдельных коэффициентов регрессии проверяют по t-критерию Стьюдента, а уравнения в целом — по F–критерию Фишера.

Пример 3. По 12 транспортным предприятиям исследуется зависимость чистой годовой прибыли (Y, млн. руб.) от количества грузовых автомобилей с разрешенной максимальной массой: а) не более 3,5 т (X1, шт.), б) свыше 3,5 т (X2, шт.). В качестве фактора также учитывается форма собственности (фиктивная переменная X3: 0 — муниципальное предприятие, 1 — частное):

предприятия

Y

X1

X2

X3

1

13

23

9

0

2

22

28

8

1

3

17

20

12

0

4

19

28

13

0

5

24

25

7

1

6

33

27

20

1

7

8

13

10

0

8

17

25

10

0

9

32

36

10

1

10

21

23

17

1

11

27

28

8

1

12

20

23

10

0

Среднее

21,1

24,9

11,2

0,50

Стандартное отклонение

7,27

5,50

3,86

0,52

Проверим факторы на коллинеарность, для чего с помощью EXCEL рассчитаем матрицу парных коэффициентов корреляции:

Y

X1

X2

X3

Y

1

X1

0,805

1

X2

0,291

-0,016

1

X3

0,779

0,554

0,135

1

Ни один из коэффициентов корреляции между факторами не превышает по модулю 0,8, что свидетельствует об отсутствии коллинеарности. Можно попробовать построить трехфакторную модель.

С помощью Excel было получено уравнение линейной регрессии:

;

и коэффициенты детерминации: R2=0,865; .

Уравнение регрессии объясняет 86,5% изменений чистой прибыли, обусловленных изменением количества легких и тяжелых грузовых автомобилей. Каждый новый легкий «грузовик» приносит в среднем 0,755 млн. руб. прибыли в год, а каждый тяжелый «грузовик» дает дополнительно в среднем 0,457 млн. руб. прибыли. Частные предприятия (x3=1) при прочих равных условиях имеют в среднем на 5,973 млн. руб. прибыли больше, чем муниципальные (x3=0). Интерпретация свободного коэффициента b0=–5,82 здесь лишена экономического смысла.

R-квадрат (R2 или Коэффициент детерминации) — это статистическая мера, которая показывает степень вариации зависимой переменной из-за независимой переменной. В инвестировании он действует как полезный инструмент для технического анализа. Он оценивает эффективность ценной бумаги или фонда (зависимая переменная) по отношению к заданному эталонному индексу (независимая переменная).

R-квадрат

В отличие от корреляции (R), которая измеряет силу связи между двумя переменными, R-квадрат указывает на изменение данных, объясняемое связью между независимой переменной. Независимая переменная. Независимая переменная — это объект, период времени или входное значение, изменения которого используется для оценки влияния на выходное значение (т. е. конечную цель), которое измеряется в математическом, статистическом или финансовом моделировании. Подробнее и зависимая переменная. Значение R2 находится в диапазоне от 0 до 1 и выражается в процентах. В финансах он указывает процент, на который ценные бумаги перемещаются в ответ на движение индекса. Чем выше значение R-квадрата, тем синхроннее движение ценных бумаг с индексом и наоборот. В результате это помогает инвесторам отслеживать свои инвестиции.

Оглавление

  • Значение R-квадрата
    • Формула R-квадрата
    • Примеры расчета
      • Пример №1
      • Пример #2
    • Интерпретация R-квадрата
    • R-квадрат против скорректированного R-квадрата
    • R против R-квадрат
    • Часто задаваемые вопросы (FAQ)
    • Рекомендуемые статьи
  • R-квадрат измеряет степень движения зависимой переменной (акции или фонды) по отношению к независимой переменной (эталонный индекс).
  • Это помогает узнать производительность ценной бумаги по эталонному индексу.
  • Чем выше значение R2, тем больше зависимость зависимой переменной от независимой переменной и наоборот.
  • Значения R2 представлены в процентах в диапазоне от 1 до 100 процентов.
  • R, R2 и скорректированный R2 — это разные термины в статистике. R представляет собой корреляцию между переменными, R2 указывает на изменение данных, объясняемое корреляцией, а скорректированный R2 учитывает другие переменные.

Формула R-квадрата

Чтобы добраться до R2, сделайте следующее:

1. Определите коэффициент корреляцииКоэффициент корреляцииКоэффициент корреляции, иногда называемый коэффициентом взаимной корреляции, представляет собой статистическую меру, используемую для оценки силы взаимосвязи между двумя переменными. Его значения варьируются от -1,0 (отрицательная корреляция) до +1,0 (положительная корреляция). читать дальше (р)

R-квадрат Формула 1

где,

  • n = количество наблюдений
  • Σx = общее значение независимой переменной
  • Σy = общее значение зависимой переменной
  • Σxy = сумма произведения независимой и зависимой переменных
  • Σx2 = сумма квадратов значения независимой переменной
  • Σy2 = сумма квадратов значения зависимой переменной

2. Возведите в квадрат коэффициент корреляции (R)

коэффициент корреляции

Значение R2 лежит в диапазоне от 0 до 1. Это означает, что если значение равно 0, независимая переменная не объясняет изменения зависимой переменной. Однако значение 1 показывает, что независимая переменная прекрасно объясняет изменение зависимой переменной. Обычно R2 выражается в процентах для удобства.

Примеры расчета

Вот несколько примеров, чтобы прояснить концепцию R-квадрата.

Пример №1

Выясним зависимость между количеством статей, написанных журналистами в месяц, и их многолетним стажем. Здесь зависимая переменная (y) — количество написанных статей, а независимая переменная (x) — количество лет опыта.

Сначала найдите коэффициент корреляции (R), а затем возведите его в квадрат, чтобы получить коэффициент детерминацииКоэффициент детерминацииКоэффициент детерминации, также известный как R в квадрате, определяет степень дисперсии зависимой переменной, которую можно объяснить независимой переменной. Следовательно, чем выше коэффициент, тем лучше уравнение регрессии, так как это означает, что независимая переменная выбрана с умом. Подробнее или R2. Вот данные.

R-квадрат Пример 1Формула R-квадрат 1-1Пример 1-1

R2 = 0,932 = 0,8649

Следовательно, коэффициент детерминации составляет 86%. Это означает, что 86% различий в количестве написанных статей объясняются многолетним опытом автора.

Пример #2

Предположим, инвестор хочет контролировать свой портфель, просматривая индекс S&P. Поэтому он хочет знать корреляцию между доходностью своего портфеля. Доходность портфеля. Формула доходности портфеля вычисляет доходность всего портфеля, состоящего из различных отдельных активов. Формула рассчитывается путем вычисления рентабельности инвестиций в отдельный актив, умноженной на соответствующую весовую категорию в общем портфеле, и сложения всех результатов вместе. Rp = ∑ni=1 wi riчитать далее и эталонный индекс. Итак, он вычисляет R и R-квадрат. Высокое значение R-квадрата указывает на то, что портфель движется подобно индексу.

Вот список доходности портфеля, представленной зависимой переменной (y), и доходности эталонного индекса, обозначенной независимой переменной (x).

Пример R-квадрата 1-2

Наконец, R2 рассчитывается по формуле:

Формула 1-2Пример 1-3

Р2 = [0.8759 ]2

= 0,7672

Значение R2 подразумевает, что вариация доходности портфеля на 76,72% соответствует индексу S&P. Таким образом, инвестор может отслеживать движения своего портфеля, следя за индексом.

Интерпретация R-квадрата

R-квадрат измеряет влияние изменения независимой переменной на изменение зависимой переменной. На фондовых рынках это процент, на который ценные бумаги изменяются в ответ на движение эталонного индекса, такого как индекс S&P.

Если кто-то хочет, чтобы портфель ценных бумаг синхронизировался с эталонным индексом, он должен иметь высокое значение R2. Однако, если кто-то хочет, чтобы эталонный тест не влиял на производительность портфеля ценных бумаг, ему нужно искать портфель с низким значением R2.

Другими словами, если значение R2 находится в диапазоне:

  • 70-100 %, тогда портфель ценных бумаг имеет наибольшую связь с движением и доходностью эталонных индексов.
  • 40-70%, то соотношение между доходностью портфеля и доходностью эталонных индексов среднее
  • 1-40%, то связь между доходностью портфеля и доходностью эталонного индекса очень мала или отсутствует.

R-квадрат против скорректированного R-квадрата

И R2, и скорректированный R2 используются для измерения корреляции между зависимой переменной и независимой переменной. С одной стороны, R2 представляет собой процент дисперсии зависимой переменной, описываемой независимой переменной. С другой стороны, скорректированный R2 представляет собой пересмотренную версию R-квадрата, скорректированную с учетом количества используемых независимых переменных.

Скорректированный R-квадрат Скорректированный R-квадрат Скорректированный R-квадрат относится к статистическому инструменту, который помогает инвесторам измерять степень дисперсии зависимой переменной, которая может быть объяснена независимой переменной, и учитывает влияние только тех независимых переменных, которые оказывают влияние на изменение зависимой переменной. Читать далее обеспечивает более точную корреляцию между переменными, учитывая влияние всех независимых переменных на функцию регрессии. В результате легко определить точные переменные, влияющие на корреляцию. Кроме того, это помогает узнать, какие переменные более важны, чем другие.

R-квадрат имеет тенденцию к увеличению при добавлении независимых переменных в набор данных. Однако скорректированный R2 может устранить этот недостаток. Следовательно, всякий раз, когда добавленные переменные несущественны или отрицательны, скорректированное значение R2 соответственно уменьшается или корректируется. Следовательно, можно сказать, что скорректированный R2 более надежен, чем R2.

R против R-квадрат

R или коэффициент корреляции — это термин, который передает прямую связь между любыми двумя переменными, такими как доходность и риск ценной бумаги. Диапазон R составляет от -1 до 1. Отрицательное значение указывает на обратную связь, а +1 указывает на прямую связь между переменными.

R2 используется в наборе данных, который содержит несколько переменных с различными свойствами, такими как риск, доходность, процентная ставка и срок погашения ценных бумаг. Диапазон R2 составляет от 0 до 1, где 0 — плохой показатель, а 1 — отличный.

Часто задаваемые вопросы (FAQ)

Что означает R-квадрат?

В функции регрессии R2 означает меру взаимосвязи между зависимой и независимой переменными. Его также называют коэффициентом детерминации в статистике. В финансовой терминологии R2 представляет отношение безопасности портфеля к эталонному индексу. Более высокое значение R2 означает, что эталонный индекс представляет производительность портфеля ценных бумаг и наоборот.

Что такое идеальное значение R-квадрата?

Значение R2 находится в диапазоне от 0 до 1 и выражается в процентах. Более высокий процент, близкий к 100%, указывает на то, что независимая переменная, выбранная для определения зависимой переменной, является идеальной, и наоборот. При инвестировании желательным считается значение R2 70% и более.

Как рассчитывается R-квадрат?

R2 можно рассчитать по следующей формуле:
Формула R-квадрата 1-3

где n — количество наблюдений, x — независимая переменная, а y — зависимая переменная.

Рекомендуемые статьи

Эта статья была руководством по R-Squared и его значению. Здесь мы обсуждаем формулу R-Squared, интерпретацию значений в регрессии, примеры и различия с R. Вы можете узнать больше об экономике из следующих статей:

  • Эконометрика
  • Формула множественной регрессии
  • Нелинейная регрессия

Добавить комментарий