Как найти коэффициент детерминации в статистике

Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 22 апреля 2022 года; проверки требуют 2 правки.

Коэффициент детерминации (R^2 — R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру зависимости одной случайной величины от множества других. В частном случае линейной зависимости R^2 является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x.

Определение и формула[править | править код]

Истинный коэффициент детерминации модели зависимости случайной величины y от факторов x определяется следующим образом:

{displaystyle R^{2}=1-{frac {D[y|x]}{D[y]}}=1-{frac {sigma ^{2}}{sigma _{y}^{2}}},}

где {displaystyle D[y]=sigma _{y}^{2}} — дисперсия случайной величины y, а {displaystyle D[y|x]=sigma ^{2}} — условная (по факторам x) дисперсия зависимой переменной (дисперсия ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

{displaystyle R^{2}=1-{frac {{hat {sigma }}^{2}}{{hat {sigma }}_{y}^{2}}}=1-{frac {SS_{res}/n}{SS_{tot}/n}}=1-{frac {SS_{res}}{SS_{tot}}},}

где {displaystyle SS_{res}=sum _{i=1}^{n}e_{i}^{2}=sum _{i=1}^{n}(y_{i}-{hat {y}}_{i})^{2}} — сумма квадратов остатков регрессии, y_{i},{hat  y}_{i} — фактические и расчётные значения объясняемой переменной.

{displaystyle SS_{tot}=sum _{i=1}^{n}(y_{i}-{overline {y}})^{2}=n{hat {sigma }}_{y}^{2}} — общая сумма квадратов.

{bar  {y}}={frac  {1}{n}}sum _{{i=1}}^{n}y_{i}

В случае линейной регрессии с константой {displaystyle SS_{tot}=SS_{reg}+SS_{res}}, где {displaystyle SS_{reg}=sum _{i=1}^{n}({hat {y}}_{i}-{overline {y}})^{2}} — объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае — коэффициент детерминации — это доля объяснённой суммы квадратов в общей:

{displaystyle R^{2}={frac {SS_{reg}}{SS_{tot}}}}

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу[источник не указан 389 дней].

Интерпретация[править | править код]

  1. Коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50 % (в этом случае коэффициент множественной корреляции превышает по модулю 70 %). Модели с коэффициентом детерминации выше 80 % можно признать достаточно хорошими (коэффициент корреляции превышает 90 %). Значение коэффициента детерминации 1 означает функциональную зависимость между переменными.
  2. При отсутствии статистической связи между объясняемой переменной и факторами, статистика nR^{2} для линейной регрессии имеет асимптотическое распределение chi ^{2}(k-1), где k-1 — количество факторов модели (см. тест множителей Лагранжа). В случае линейной регрессии с нормально распределёнными случайными ошибками статистика F={frac  {R^{2}/(k-1)}{(1-R^{2})/(n-k)}} имеет точное (для выборок любого объёма) распределение Фишера F(k-1,n-k) (см. F-тест). Информация о распределении этих величин позволяет проверить статистическую значимость регрессионной модели исходя из значения коэффициента детерминации. Фактически в этих тестах проверяется гипотеза о равенстве истинного коэффициента детерминации нулю.
  3. Коэффициент детерминации не может быть отрицательным, данный вывод исходит из свойств коэффициента детерминации. Однако скорректированный коэффициент детерминации вполне может принимать отрицательные значения.

Недостаток R2 и альтернативные показатели[править | править код]

Основная проблема применения (выборочного) R^2 заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют. Поэтому сравнение моделей с разным количеством факторов с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

Скорректированный (adjusted) R2[править | править код]

Для того, чтобы была возможность сравнивать модели с разным числом факторов так, чтобы число регрессоров (факторов) не влияло на статистику R^2 обычно используется скорректированный коэффициент детерминации, в котором используются несмещённые оценки дисперсий:

{displaystyle {bar {R}}^{2}=R_{adj}^{2}=1-{frac {s^{2}}{s_{y}^{2}}}=1-{frac {SS_{res}/(n-k)}{SS_{tot}/(n-1)}}=1-(1-R^{2}){(n-1) over (n-k)}leqslant R^{2}}

который даёт штраф за дополнительно включённые факторы, где n — количество наблюдений, а k — количество параметров.

Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве факторов). Поэтому теряется интерпретация показателя как «доли». Тем не менее, применение показателя в сравнении вполне обоснованно.

Для моделей с одинаковой зависимой переменной и одинаковым объёмом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии {displaystyle s^{2}=SS_{res}/(n-k)} или стандартной ошибки модели s. Разница только в том, что последние критерии чем меньше, тем лучше.

Информационные критерии[править | править код]

AIC — информационный критерий Акаике — применяется исключительно для сравнения моделей. Чем меньше значение, тем лучше. Часто используется для сравнения моделей временных рядов с разным количеством лагов.
{displaystyle AIC={2k over n}+ln {SS_{res} over n}}, где k— количество параметров модели.

BIC или SC — байесовский информационный критерий Шварца — используется и интерпретируется аналогично AIC.
{displaystyle BIC={kln {n} over n}+ln {SS_{res} over n}}. Даёт больший штраф за включение лишних лагов в модель, чем AIC.

R2-обобщённый (extended)[править | править код]

В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации. Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию R^2. Эта проблема решается с помощью построения обобщённого коэффициента детерминации R_{{extended}}^{2}, который совпадает с исходным для случая МНК регрессии со свободным членом, и для которого выполняются четыре свойства, перечисленные выше. Суть этого метода заключается в рассмотрении проекции единичного вектора на плоскость объясняющих переменных.

Для случая регрессии без свободного члена:

R_{{extended}}^{2}=1-{Y'*(I-P(X))*Y over Y'*(I-pi (X))*Y},
где X — матрица nxk значений факторов, P(X)=X*(X'*X)^{{-1}}*X' — проектор на плоскость X, pi (X)={P(X)*i_{n}*i_{n}'*P(X) over i_{n}'*P(X)*i_{n}}, где i_n — единичный вектор nx1.

R_{{extended}}^{2} с условием небольшой модификации, также подходит для сравнения между собой регрессий, построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

История[править | править код]

Основой коэффициента детерминации является регрессионный анализ и коэффициент корреляции. Британский натуралист сэр Фрэнсис Гальтон (1822—1911) основал регрессионный анализ в 1870-х годах. Он, как и его двоюродный брат Чарльз Дарвин, был внуком Эразма Дарвина. Гальтон был известен своей сильной страстью к сбору данных любого рода. Например, он собрал данные о семенах сладкого горошка чина. Сравнивая диаметры семян, он построил то, что сегодня широко известно как корреляционная диаграмма. Связь, обнаруженную им в этой деятельности, он сначала окрестил «реверсией» (разворотом); однако позже он выбрал название «регрессия». Анализируя семена, он обнаружил явление регрессии к центру, согласно которому — после крайне неудачного изменения, последующее изменение снова приближается к среднему: средний диаметр потомства более крупных семян был меньше среднего диаметра семян родителей (изменения разворачиваются). В своих корреляционных диаграммах он нарисовал линию тренда, для которой он использовал коэффициент корреляции в качестве наклона.[1]

Термин «дисперсия» был введен статистиком Рональдом Фишером (1890—1962) в его статье 1918 года под названием «Корреляция между родственниками на основе предположения о менделевском наследовании» (The Correlation between Relatives on the Supposition of Mendelian Inheritance)[2]. Фишер был одним из самых выдающихся статистиков 20-го века и известен своим вкладом в эволюционную теорию. F-критерий, тесно связанный с коэффициентом детерминации, также назван в его честь. Карл Пирсон (1857—1936), основатель биометрики, предоставил формально-математическое обоснование коэффициента корреляции, квадратом которого является коэффициент детерминации.[3]

Коэффициент детерминации подвергся резкой критике в последующие годы. Это произошло потому, что у него есть свойство, что чем больше количество независимых переменных, тем большим он становится. И это не зависит от того, вносят ли дополнительные «объясняющие переменные» вклад в «объяснительную силу». Чтобы учесть это обстоятельство, эконометрик Анри Тейл (1924—2000) в 1961 году предложил скорректированный коэффициент детерминации[4] (Adjusted coefficient of determination (англ.)), который учитывает потерю степени свободы, связанную с ростом количества объясняющих переменных. Скорректированный коэффициент детерминации изменяется за счет штрафа, который накладывается на модель при увеличении числа переменных. Однако немецкий учёный Хорст Ринне подверг критике данный подход[5] за недостаточное штрафование за потерю степени свободы по мере увеличения числа объясняющих переменных.

Замечание[править | править код]

Высокие значения коэффициента детерминации, вообще говоря, не свидетельствуют о наличии причинно-следственной зависимости между переменными (так же как и в случае обычного коэффициента корреляции). Например, если объясняемая переменная и факторы, на самом деле не связанные с объясняемой переменой, имеют возрастающую динамику, то коэффициент детерминации будет достаточно высок. Поэтому логическая и смысловая адекватность модели имеют первостепенную важность. Кроме того, необходимо использовать критерии для всестороннего анализа качества модели.

См. также[править | править код]

  • Коэффициент корреляции
  • Корреляция
  • Мультиколлинеарность
  • Дисперсия случайной величины
  • Метод группового учёта аргументов
  • Регрессионный анализ

Примечания[править | править код]

  1. Franka Miriam Brückler: Geschichte der Mathematik kompakt: Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6, S. 116. (нем.)
  2. Ronald Aylmer Fisher: The correlation between relatives on the supposition of Mendelian inheritance. In: Trans. Roy. Soc. Edinb. 52, 1918, S. 399—433. (англ.)
  3. Franka Miriam Brückler: Geschichte der Mathematik kompakt: Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6, S. 117. (нем.)
  4. Henri Theil: Economic Forecasts and Policy. Amsterdam 1961, S. 213. (англ.)
  5. Horst Rinne: Ökonometrie: Grundlagen der Makroökonometrie. Vahlen, 2004. (нем.)

Литература[править | править код]

  • Бахрушин В. Е. Методы оценивания характеристик нелинейных статистических связей // Системные технологии. — 2011. — № 2(73). — С. 9—14.[1]
  • Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс.. — 6,7,8-е изд., доп. и перераб.. — Москва: Дело. — Т. “”. — 576 с. — ISBN 5-7749-0055-X.
  • Ершов Э.Б. Распространение коэффициента детерминации на общий случай линейной регрессии, оцениваемой с помощью различных версий метода наименьших квадратов (рус., англ.) // ЦЭМИ РАН Экономика и математические методы. — Москва: ЦЭМИ РАН, 2002. — Т. 38, вып. 3. — С. 107—120.
  • Айвазян С.А., Мхитарян В.С. Прикладная статистика. Основы эконометрики (в 2-х т.). — ??. — Москва: Юнити-Дана (проект TASIS), 2001. — Т. “1,2”. — 1088 с. — ISBN 5-238-00304-8.
  • Ершов Э.Б. Выбор регрессии максимизирующий несмещённую оценку коэффициента детерминации (рус., англ.) // Айвазян С.А. Прикладная эконометрика. — Москва: Маркет ДС, 2008. — Т. 12, вып. 4. — С. 71—83.

Ссылки[править | править код]

  • Глоссарий статистических терминов  (недоступная ссылка с 13-05-2013 [3655 дней] — история)

What Is the Coefficient of Determination?

The coefficient of determination is a statistical measurement that examines how differences in one variable can be explained by the difference in a second variable when predicting the outcome of a given event. In other words, this coefficient, more commonly known as r-squared (or r2), assesses how strong the linear relationship is between two variables and is heavily relied on by investors when conducting trend analysis.

This coefficient generally answers the following question: If a stock is listed on an index and experiences price movements, what percentage of its price movement is attributed to the index’s price movement?

Key Takeaways

  • The coefficient of determination is a complex idea centered on statistical analysis of data and financial modeling.
  • The coefficient of determination is used to explain the relationship between an independent and dependent variable.
  • The coefficient of determination is commonly called r-squared (or r2) for the statistical value it represents.
  • This measure is represented as a value between 0.0 and 1.0, where a value of 1.0 indicates a perfect correlation. Thus, it is a reliable model for future forecasts, while a value of 0.0 suggests that asset prices are not a function of dependency on the index. 

R-Squared

Understanding the Coefficient of Determination

The coefficient of determination is a measurement used to explain how much the variability of one factor is caused by its relationship to another factor. This correlation is represented as a value between 0.0 and 1.0 (0% to 100%).

A value of 1.0 indicates a 100% price correlation and is thus a reliable model for future forecasts. A value of 0.0 suggests that the model shows that prices are not a function of dependency on the index. 

So, a value of 0.20 suggests that 20% of an asset’s price movement can be explained by the index, while a value of 0.50 indicates that 50% of its price movement can be explained by it, and so on.

The coefficient of determination is the square of the correlation coefficient, also known as “r” in statistics. The value “r” can result in a negative number, but because r-squared is the result of “r” multiplied by itself (or squared), r2 cannot result in a negative number—regardless of what is found on the internet—the square of a negative number is always a positive value.

Calculating the Coefficient of Determination

To calculate the coefficient of determination. This is done by creating a scatter plot of the data and a trend line.

For instance, if you were to plot the closing prices for the S&P 500 and Apple stock (Apple is listed on the S&P 500) for trading days from Dec. 21, 2022, to Jan. 20, 2023, you’d collect the prices as shown in the table below.

S&P Daily Close APPL Daily Close
Jan. 20 $3,972.61 $137.87
19 $3,898.85 $135.27
18 $3,928.86 $135.21
17 $3,990.97 $135.94
13 $3,999.09 $134.76
12 $3,983.17 $133.41
11 $3,969.61 $133.49
10 $3,919.25 $130.73
9 $3,892.09 $130.15
6 $3,895.08 $129.62
5 $3,808.10 $125.02
4 $3,852.97 $126.36
3 $3,824.14 $125.07
Dec. 30 $3,839.50 $139.93
29 $3,849.28 $129.61
28 $3,783.22 $126.04
27 $3,829.25 $130.03
23 $3,844.82 $131.86
22 $3,822.39 $132.23
21 $3,878.44 $135.45

Then, you’d create a scatter plot. On a graph, how well the data fits the regression model is called the goodness of fit, which measures the distance between a trend line and all of the data points that are scattered throughout the diagram.

Spreadsheets

Most spreadsheets use the same formula to calculate the r2 of a dataset. So, if the data reside in columns A and B on your sheet:

= RSQ ( A1 : A10 , B1 : B10 )

Using this formula and highlighting the corresponding cells for the S&P 500 and Apple prices, you get an r2 of 0.347, suggesting that the two prices are less correlated than if the r2 was between 0.5 and 1.0.

Manual Calculation

Calculating the coefficient of determination by hand involves several steps. First, you gather the data as in the previous table. Second, you need to calculate all the values you need, as shown in this table, where:

  • x= S&P 500 daily close
  • y = APPL daily close
x x2 y y2 xy
Jan. 20 $3,972.61 $15,781,630.21 $137.87 $19,008.14 $547,703.74
19 $3,898.85 $15,201,031.32 $135.27 $18,297.97 $527,397.44
18 $3,928.86 $15,435,940.90 $135.21 $18,281.74 $531,221.16
17 $3,990.97 $15,927,841.54 $135.94 $18,479.68 $542,532.46
13 $3,999.09 $15,992,720.83 $134.76 $18,160.26 $538,917.37
12 $3,983.17 $15,865,643.25 $133.41 $17,798.23 $531,394.71
11 $3,969.61 $15,757,803.55 $133.49 $17,819.58 $529,903.24
10 $3,919.25 $15,360,520.56 $130.73 $17,090.33 $512,363.55
9 $3,892.09 $15,148,364.57 $130.15 $16,939.02 $506,555.51
6 $3,895.08 $15,171,648.21 $129.62 $16,801.34 $504,880.27
5 $3,808.10 $14,501,625.61 $125.02 $15,630.00 $476,088.66
4 $3,852.97 $14,845,377.82 $126.36 $15,966.85 $486,861.29
3 $3,824.14 $14,624,046.74 $125.07 $15,642.50 $478,285.19
Dec. 30 $3,839.50 $14,741,760.25 $139.93 $19,580.40 $537,261.24
29 $3,849.28 $14,816,956.52 $129.61 $16,798.75 $498,905.18
28 $3,783.22 $14,312,753.57 $126.04 $15,886.08 $476,837.05
27 $3,829.25 $14,663,155.56 $130.03 $16,907.80 $497,917.38
23 $3,844.82 $14,782,640.83 $131.86 $17,387.06 $506,977.97
22 $3,822.39 $14,610,665.31 $132.23 $17,484.77 $505,434.63
21 $3,878.44 $15,042,296.83 $135.45 $18,346.70 $525,334.70
Sum (Σ) $77,781.69 $302,584,424.00 $2,638.05 $348,307.23 $10,262,772.73

Next, use this formula and substitute the values for each row of the table, where n equals the number of samples taken, in this case, 20:

r

2

=

(

n

(

x

y

)

(

x

)

(

y

)

[

n

x

2

(

x

)

2

]

×

[

n

y

2

(

y

)

2

]

)

2

begin{aligned}&r ^ 2 = Big ( frac {n ( sum xy) – ( sum x )( sum y ) }{ sqrt { [ n sum x ^ 2 – ( sum x ) ^ 2 ] } times sqrt { [ n sum y ^ 2 – ( sum y ) ^ 2 ] } } Big ) ^ 2 \end{aligned}

r2=([nx2(x)2]×[ny2(y)2]n(xy)(x)(y))2

Where √ represents the square root of the product in the brackets that follow it.

r

2

=

(

20

(

10

,

262

,

772.73

)

(

77

,

781.69

)

(

2

,

638.05

)

[

20

(

302

,

584

,

424

)

(

77

,

781.69

)

2

]

×

[

20

(

348

,

307.23

)

(

2

,

638.05

)

2

]

)

2

begin{aligned}&r ^ 2 = Big ( tiny { frac {20 ( 10,262,772.73) – ( 77,781.69 )( 2,638.05 ) }{ sqrt { [ 20 ( 302,584,424 ) – ( 77,781.69 ) ^ 2 ] } times sqrt { [ 20 ( 348,307.23 ) – ( 2,638.05 ) ^ 2 ] } } } Big ) ^ 2 \end{aligned}

r2=([20(302,584,424)(77,781.69)2]×[20(348,307.23)(2,638.05)2]20(10,262,772.73)(77,781.69)(2,638.05))2

So you now have:

1.

(

20

×

10

,

262

,

772.73

)

(

77

,

781.69

×

2

,

638.05

)

=

63

,

467.32

2.

(

(

20

×

302

,

584

,

424

)

(

77

,

781.69

)

2

=

1

,

697

,

180.74

=

1

,

302.76

3.

(

(

20

×

10

,

262

,

772.73

)

(

2

,

638.05

)

2

=

6

,

836.85

=

82.69

begin{aligned}&1. tiny { ( 20 times 10,262,772.73 ) – ( 77,781.69 times 2,638.05 ) = 63,467.32 } \&2. tiny { (sqrt { ( 20 times 302,584,424 ) – ( 77,781.69 ) ^ 2 } = sqrt { 1,697,180.74 } = 1,302.76 } \&3. tiny { (sqrt { ( 20 times 10,262,772.73 ) – ( 2,638.05 ) ^ 2 } = sqrt { 6,836.85 } = 82.69 }\end{aligned}

1.(20×10,262,772.73)(77,781.69×2,638.05)=63,467.322.((20×302,584,424)(77,781.69)2=1,697,180.74=1,302.763.((20×10,262,772.73)(2,638.05)2=6,836.85=82.69

Then, multiply steps two and three, divide step one by the result, and square it:

(

63

,

467.32

1

,

302.76

×

82.69

)

2

=

0.347

begin{aligned}&Big ( frac { 63,467.32 }{ 1,302.76 times 82.69 } Big ) ^ 2 = 0.347end{aligned}

(1,302.76×82.6963,467.32)2=0.347

You can see how this can become very tedious with lots of room for error, especially, if you’re using more than a few weeks of trading data.

Interpreting the Coefficient of Determination

Once you have the coefficient of determination, you use it to evaluate how closely the price movements of the asset you’re evaluating correspond to the price movements of an index or benchmark. In the Apple and S&P 500 example, the coefficient of determination for the period was 0.347.

Because 1.0 demonstrates a high correlation and 0.0 shows no correlation, 0.357 shows that Apple stock price movements are somewhat correlated to the index.

Apple is listed on many indexes, so you can calculate the r2 to determine if it corresponds to any other indexes’ price movements.

One aspect to consider is that r-squared doesn’t tell analysts whether the coefficient of determination value is intrinsically good or bad. It is their discretion to evaluate the meaning of this correlation and how it may be applied in future trend analyses.

How Do You Interpret a Coefficient of Determination?

The coefficient of determination shows how correlated one dependent and one independent variable are. Also called r2 (r-squared), the value should be between 0.0 and 1.0. The closer to 0.0, the less correlated the dependent value is. The closer to 1.0, the more correlated the value is.

What Does R-Squared Tell You in Regression?

It tells you whether there is a dependency between two values and how much dependency one value has on the other.

What If the Coefficient of Determination Is Greater Than 1?

The coefficient of determination cannot be more than one because the formula always results in a number between 0.0 and 1.0. If it is greater or less than these numbers, something is not correct.

The Bottom Line

The coefficient of determination is a ratio that shows how dependent one variable is on another variable. Investors use it to determine how correlated an asset’s price movements are with its listed index.

When an asset’s r2 is closer to zero, it does not demonstrate dependency on the index; if its r2 is closer to 1.0, it is more dependent on the price moves the index makes.

R-квадрат (R2 или Коэффициент детерминации) — это статистическая мера, которая показывает степень вариации зависимой переменной из-за независимой переменной. В инвестировании он действует как полезный инструмент для технического анализа. Он оценивает эффективность ценной бумаги или фонда (зависимая переменная) по отношению к заданному эталонному индексу (независимая переменная).

R-квадрат

В отличие от корреляции (R), которая измеряет силу связи между двумя переменными, R-квадрат указывает на изменение данных, объясняемое связью между независимой переменной. Независимая переменная. Независимая переменная — это объект, период времени или входное значение, изменения которого используется для оценки влияния на выходное значение (т. е. конечную цель), которое измеряется в математическом, статистическом или финансовом моделировании. Подробнее и зависимая переменная. Значение R2 находится в диапазоне от 0 до 1 и выражается в процентах. В финансах он указывает процент, на который ценные бумаги перемещаются в ответ на движение индекса. Чем выше значение R-квадрата, тем синхроннее движение ценных бумаг с индексом и наоборот. В результате это помогает инвесторам отслеживать свои инвестиции.

Оглавление

  • Значение R-квадрата
    • Формула R-квадрата
    • Примеры расчета
      • Пример №1
      • Пример #2
    • Интерпретация R-квадрата
    • R-квадрат против скорректированного R-квадрата
    • R против R-квадрат
    • Часто задаваемые вопросы (FAQ)
    • Рекомендуемые статьи
  • R-квадрат измеряет степень движения зависимой переменной (акции или фонды) по отношению к независимой переменной (эталонный индекс).
  • Это помогает узнать производительность ценной бумаги по эталонному индексу.
  • Чем выше значение R2, тем больше зависимость зависимой переменной от независимой переменной и наоборот.
  • Значения R2 представлены в процентах в диапазоне от 1 до 100 процентов.
  • R, R2 и скорректированный R2 — это разные термины в статистике. R представляет собой корреляцию между переменными, R2 указывает на изменение данных, объясняемое корреляцией, а скорректированный R2 учитывает другие переменные.

Формула R-квадрата

Чтобы добраться до R2, сделайте следующее:

1. Определите коэффициент корреляцииКоэффициент корреляцииКоэффициент корреляции, иногда называемый коэффициентом взаимной корреляции, представляет собой статистическую меру, используемую для оценки силы взаимосвязи между двумя переменными. Его значения варьируются от -1,0 (отрицательная корреляция) до +1,0 (положительная корреляция). читать дальше (р)

R-квадрат Формула 1

где,

  • n = количество наблюдений
  • Σx = общее значение независимой переменной
  • Σy = общее значение зависимой переменной
  • Σxy = сумма произведения независимой и зависимой переменных
  • Σx2 = сумма квадратов значения независимой переменной
  • Σy2 = сумма квадратов значения зависимой переменной

2. Возведите в квадрат коэффициент корреляции (R)

коэффициент корреляции

Значение R2 лежит в диапазоне от 0 до 1. Это означает, что если значение равно 0, независимая переменная не объясняет изменения зависимой переменной. Однако значение 1 показывает, что независимая переменная прекрасно объясняет изменение зависимой переменной. Обычно R2 выражается в процентах для удобства.

Примеры расчета

Вот несколько примеров, чтобы прояснить концепцию R-квадрата.

Пример №1

Выясним зависимость между количеством статей, написанных журналистами в месяц, и их многолетним стажем. Здесь зависимая переменная (y) — количество написанных статей, а независимая переменная (x) — количество лет опыта.

Сначала найдите коэффициент корреляции (R), а затем возведите его в квадрат, чтобы получить коэффициент детерминацииКоэффициент детерминацииКоэффициент детерминации, также известный как R в квадрате, определяет степень дисперсии зависимой переменной, которую можно объяснить независимой переменной. Следовательно, чем выше коэффициент, тем лучше уравнение регрессии, так как это означает, что независимая переменная выбрана с умом. Подробнее или R2. Вот данные.

R-квадрат Пример 1Формула R-квадрат 1-1Пример 1-1

R2 = 0,932 = 0,8649

Следовательно, коэффициент детерминации составляет 86%. Это означает, что 86% различий в количестве написанных статей объясняются многолетним опытом автора.

Пример #2

Предположим, инвестор хочет контролировать свой портфель, просматривая индекс S&P. Поэтому он хочет знать корреляцию между доходностью своего портфеля. Доходность портфеля. Формула доходности портфеля вычисляет доходность всего портфеля, состоящего из различных отдельных активов. Формула рассчитывается путем вычисления рентабельности инвестиций в отдельный актив, умноженной на соответствующую весовую категорию в общем портфеле, и сложения всех результатов вместе. Rp = ∑ni=1 wi riчитать далее и эталонный индекс. Итак, он вычисляет R и R-квадрат. Высокое значение R-квадрата указывает на то, что портфель движется подобно индексу.

Вот список доходности портфеля, представленной зависимой переменной (y), и доходности эталонного индекса, обозначенной независимой переменной (x).

Пример R-квадрата 1-2

Наконец, R2 рассчитывается по формуле:

Формула 1-2Пример 1-3

Р2 = [0.8759 ]2

= 0,7672

Значение R2 подразумевает, что вариация доходности портфеля на 76,72% соответствует индексу S&P. Таким образом, инвестор может отслеживать движения своего портфеля, следя за индексом.

Интерпретация R-квадрата

R-квадрат измеряет влияние изменения независимой переменной на изменение зависимой переменной. На фондовых рынках это процент, на который ценные бумаги изменяются в ответ на движение эталонного индекса, такого как индекс S&P.

Если кто-то хочет, чтобы портфель ценных бумаг синхронизировался с эталонным индексом, он должен иметь высокое значение R2. Однако, если кто-то хочет, чтобы эталонный тест не влиял на производительность портфеля ценных бумаг, ему нужно искать портфель с низким значением R2.

Другими словами, если значение R2 находится в диапазоне:

  • 70-100 %, тогда портфель ценных бумаг имеет наибольшую связь с движением и доходностью эталонных индексов.
  • 40-70%, то соотношение между доходностью портфеля и доходностью эталонных индексов среднее
  • 1-40%, то связь между доходностью портфеля и доходностью эталонного индекса очень мала или отсутствует.

R-квадрат против скорректированного R-квадрата

И R2, и скорректированный R2 используются для измерения корреляции между зависимой переменной и независимой переменной. С одной стороны, R2 представляет собой процент дисперсии зависимой переменной, описываемой независимой переменной. С другой стороны, скорректированный R2 представляет собой пересмотренную версию R-квадрата, скорректированную с учетом количества используемых независимых переменных.

Скорректированный R-квадрат Скорректированный R-квадрат Скорректированный R-квадрат относится к статистическому инструменту, который помогает инвесторам измерять степень дисперсии зависимой переменной, которая может быть объяснена независимой переменной, и учитывает влияние только тех независимых переменных, которые оказывают влияние на изменение зависимой переменной. Читать далее обеспечивает более точную корреляцию между переменными, учитывая влияние всех независимых переменных на функцию регрессии. В результате легко определить точные переменные, влияющие на корреляцию. Кроме того, это помогает узнать, какие переменные более важны, чем другие.

R-квадрат имеет тенденцию к увеличению при добавлении независимых переменных в набор данных. Однако скорректированный R2 может устранить этот недостаток. Следовательно, всякий раз, когда добавленные переменные несущественны или отрицательны, скорректированное значение R2 соответственно уменьшается или корректируется. Следовательно, можно сказать, что скорректированный R2 более надежен, чем R2.

R против R-квадрат

R или коэффициент корреляции — это термин, который передает прямую связь между любыми двумя переменными, такими как доходность и риск ценной бумаги. Диапазон R составляет от -1 до 1. Отрицательное значение указывает на обратную связь, а +1 указывает на прямую связь между переменными.

R2 используется в наборе данных, который содержит несколько переменных с различными свойствами, такими как риск, доходность, процентная ставка и срок погашения ценных бумаг. Диапазон R2 составляет от 0 до 1, где 0 — плохой показатель, а 1 — отличный.

Часто задаваемые вопросы (FAQ)

Что означает R-квадрат?

В функции регрессии R2 означает меру взаимосвязи между зависимой и независимой переменными. Его также называют коэффициентом детерминации в статистике. В финансовой терминологии R2 представляет отношение безопасности портфеля к эталонному индексу. Более высокое значение R2 означает, что эталонный индекс представляет производительность портфеля ценных бумаг и наоборот.

Что такое идеальное значение R-квадрата?

Значение R2 находится в диапазоне от 0 до 1 и выражается в процентах. Более высокий процент, близкий к 100%, указывает на то, что независимая переменная, выбранная для определения зависимой переменной, является идеальной, и наоборот. При инвестировании желательным считается значение R2 70% и более.

Как рассчитывается R-квадрат?

R2 можно рассчитать по следующей формуле:
Формула R-квадрата 1-3

где n — количество наблюдений, x — независимая переменная, а y — зависимая переменная.

Рекомендуемые статьи

Эта статья была руководством по R-Squared и его значению. Здесь мы обсуждаем формулу R-Squared, интерпретацию значений в регрессии, примеры и различия с R. Вы можете узнать больше об экономике из следующих статей:

  • Эконометрика
  • Формула множественной регрессии
  • Нелинейная регрессия

Коэффициент детерминации (CoD) = r^2, где r = коэффициент корреляции

Инференциальная статистика измеряет вероятность наступления событий. Эта область математического анализа применима ко многим сферам деятельности, где профессионалы применяют статистический анализ для измерения вероятностей и корреляций. Коэффициент детерминации – это одно из статистических измерений, которое является неотъемлемой частью понимания вероятных корреляций между переменными. В этой статье мы обсудим, что такое коэффициент детерминации, как рассчитать коэффициент детерминации и к чему он применим, с примером для более глубокого понимания.

Что такое коэффициент детерминации?

Коэффициент детерминации – это статистическое измерение, которое оценивает, как изменения в одной переменной влияют на изменения в другой переменной. Это мера вариации, которая происходит в у, поскольку х изменяется в модели линейной регрессии. Математически, коэффициент детерминации – это квадрат коэффициента корреляции, который измеряет взаимосвязь или корреляцию двух переменных.

Коэффициент корреляции заменяет переменную r, а коэффициент детерминации – это квадрат r или r**2. Чтобы найти коэффициент детерминации, просто возведите в квадрат коэффициент корреляции. Полученное значение колеблется между нулем и единицей, которое вы преобразуете в процент, чтобы объяснить, какая часть изменений в y происходит из-за изменений в x.

Как рассчитать коэффициент детерминации

Используйте следующие шаги, чтобы найти коэффициент детерминации с помощью коэффициента корреляции:

1. Определите коэффициент корреляции

При оценке коэффициента детерминации определите коэффициент корреляции r. В большинстве случаев статистики и аналитики данных используют компьютерные расчеты для нахождения коэффициента корреляции при измерении вариаций в наборах данных. Если вы еще не знаете коэффициент корреляции, вы можете использовать следующую формулу для его расчета вручную:

r = [N?xy – (?x)(?y)] v[N?x2 – (?x)2] x [N?y2 – (?y)2]

2. Примените формулу коэффициента корреляции

Если вы используете формулу коэффициента корреляции, подставьте значения данных для переменных N, x и y, где N – количество пар значений данных, которые у вас есть, и ? переменная диктует функцию суммирования. Это означает ?xy – это сумма произведений значений x и y, ?x – сумма значений x и ?y – сумма значений y. Сайт ?Коэффициент x2 представляет собой сумму квадратов значений x, и ?y**2 – сумма квадратов значений y.

Например, предположим, аналитик данных рассчитывает коэффициент корреляции по формуле и получает r = (166) (346) = 0.39. Это означает, что коэффициент корреляции равен 0.39.

3. Возведение коэффициента корреляции в квадрат

Получив коэффициент корреляции, возведите результат в квадрат. Вы также можете оценить, насколько сильная связь существует между вашими переменными, взяв абсолютное значение r, где большие значения показывают более сильную корреляцию. Чтобы возвести r-значение в квадрат, умножьте его на себя. Например, если у вас есть коэффициент корреляции r = -0.35, возведение этого значения в квадрат дает коэффициент детерминации:

r2 = (-0.35)(-0.35) = 0.1225

4. Оценить результаты

Преобразуйте коэффициент детерминации в процент и оцените данные. Используя пример коэффициента 0.1225, переведите это в проценты, чтобы получить 12.25%. Анализ этого процента показывает, что 12.25% значений ваших данных появляются вдоль соответствующей линии регрессии, когда вы наносите данные на график. Более высокий коэффициент детерминации означает, что большее количество ваших данных собирается вдоль линии регрессии, что приводит к более сильной связи между вашими наблюдениями. Коэффициент, равный единице, означает, что линия регрессии содержит 100% данных, а нулевой коэффициент означает, что ни один из данных не отображается на линии.

Используется для коэффициента детерминации

Коэффициент детерминации является важным значением для построения графика линии регрессии, поскольку он показывает вероятность повторения значений данных в будущих измерениях. Он также указывает на силу корреляции между переменными, что может быть важно для целого ряда процессов обработки данных, в том числе:

Финансовый анализ

Коэффициент детерминации может быть незаменим при анализе корреляции между изменяющимися финансовыми показателями. Например, многие аналитики рассматривают корреляционные связи для определения вероятности будущих доходов, расходов и других инвестиционных показателей. Финансовое управление акциями часто зависит от анализа данных, который помогает специалистам оценить вероятные результаты при инвестировании в различные ценные бумаги.

Бизнес-анализ

Рост и развитие бизнеса – важные показатели, для отслеживания которых используется статистика. При измерении темпов роста, например, профессионалы бизнеса могут анализировать корреляционные связи между стратегиями и результатами, чтобы определить методы, которые приводят к процентному росту с течением времени. Расходы бизнеса – еще одно применение статистического анализа, которое может зависеть от корреляционных измерений, где коэффициент детерминации может показать бизнесу области, которые несут наибольшие затраты.

Медицинские исследования

Сферы здравоохранения и медицины часто полагаются на анализ данных в клинических исследованиях. Например, фармацевтические исследователи могут применять коэффициент детерминации для измерения различий в изменениях между дозировкой лекарства и реакцией пациента. Врачи также могут использовать информацию из коэффициента детерминации при применении новых методов лечения и составлении прогнозов. Хотя коэффициент может описать силу корреляции, для выявления причинно-следственной связи необходимы другие факторы.

Экономика

Статистика и анализ данных являются неотъемлемой частью экономических приложений, таких как измерение демографических показателей населения, экономических расходов и экономического роста. В этой области коэффициенты корреляции применяются для выявления закономерностей между переменными, а коэффициент детерминации может помочь экономистам измерить силу различных корреляций между видами экономической деятельности. Импорт и экспорт – одна из областей, где может применяться этот фактор вероятности, поскольку экономисты могут определить относительную корреляцию между увеличением и уменьшением доходов для импортируемых и экспортируемых товаров.

Технический анализ

Линейная регрессия и статистический анализ также важны в технических приложениях, таких как наука о данных, компьютерное программирование и машинное обучение. Например, специалисты по исследованию данных могут использовать статистику вероятности для построения алгоритмов, которые с наибольшей вероятностью приведут к желаемым результатам в системах машинного обучения. В данном случае коэффициент детерминации может помочь специалистам по исследованию данных оценить эффективность их моделей линейной регрессии. При более высоком коэффициенте системы машинного обучения с большей вероятностью будут иметь небольшую вариацию между желаемым выходом и начальным входом.

Пример коэффициента детерминации

Специалист по исследованию данных, рассчитывающий линейную регрессионную модель, хочет определить силу изменчивости между независимым входом и зависимым выходом. Используя коэффициент корреляции для определения r2, специалист по изучению данных использует формулу:

r = [N?xy – (?x)(?y)] v[N?x2 – (?x)2] x [N?y2 – (?y)2]

Чтобы найти r-значение, равное 0.79. Ученый возводит это значение в квадрат, используя нотацию CoD = r2, чтобы получить (0.79)(0.79) = 0.6241. Оценивая эту метрику, ученый определяет, что она учитывает 62.41% входных данных влияет на выход, в то время как 37.59% – нереализованные данные. В этом типе приложений специалист по исследованию данных может скорректировать параметры модели линейной регрессии для увеличения коэффициента корреляции, чтобы он был ближе к 1.00 или 100%.

Материал из MachineLearning.

Перейти к: навигация, поиск

Коэффициент детерминации (R^2R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по признакам дисперсии зависимой переменной) в дисперсии зависимой переменной. В случае линейной зависимости R^2 является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели линейной регрессии с одним признаком x коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x.

Содержание

  • 1 Определение и формула
  • 2 Интерпретация
  • 3 Недостатки и альтернативные показатели
    • 3.1 Скорректированный (adjusted)
    • 3.2 Обобщённый (extended)
    • 3.3 Ссылки

Определение и формула

Истинный коэффициент детерминации модели зависимости случайной величины y от признаков x определяется следующим образом:

R^2 =1-frac {V(y|x)}{V(y)}=1-frac {sigma^2}{sigma^2_y},

где V(y|x)=sigma^2 — условная (по признакам x) дисперсия зависимой переменной (дисперсия случайной ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

R^2 =1-frac {hat{sigma}^2}{hat{sigma}^2_y}=1-frac {RSS/n}{TSS/n}=1-frac {RSS} {TSS},

где

RSS=sum^n_{t=1}e^2_t=sum^n_{t=1} (y_t-hat y_t)^2 — сумма квадратов регрессионных остатков,
TSS=sum^n_{t=1} (y_t-bar{y})^2=n hat sigma^2_y — общая дисперсия,
y_t,hat y_t — соответственно, фактические и расчетные значения объясняемой переменной,
bar{y}=frac{1}{n}sum_{i=1}^n y_i — выборочное вреднее.

В случае линейной регрессии с константой TSS=RSS+ESS, где ESS=sum^n_{t=1} (hat y_t-bar{y})^2 — объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае. Коэффициент детерминации — это доля объяснённой дисперсии в общей:

R^2=frac {ESS} {TSS}.

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.

Интерпретация

  1. Коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50% (в этом случае коэффициент множественной корреляции превышает по модулю 70%). Модели с коэффициентом детерминации выше 80% можно признать достаточно хорошими (коэффициент корреляции превышает 90%). Равенство коэффициента детерминации единице означает, что объясняемая переменная в точности описывается рассматриваемой моделью.
  2. При отсутствии статистической связи между объясняемой переменной и признаками статистика nR^2 для линейной регрессии имеет асимптотическое распределение chi^2(k-1), где k-1 — число признаков в модели. В случае линейной регрессии с независимыми одинаково распределёнными нормальными случайными ошибками статистика F=frac {R^2/(k-1)}{(1-R^2)/(n-k)} имеет точное (для выборок любого объёма) распределение Фишера F(k-1,n-k). Информация о распределении этих величин позволяет проверить статистическую значимость регрессионной модели исходя из значения коэффициента детерминации. Фактически в этих тестах проверяется гипотеза о равенстве истинного коэффициента детерминации нулю.

Недостатки R^2 и альтернативные показатели

Основная проблема применения (выборочного) R^2 заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют. Поэтому сравнение моделей с разным количеством признаков с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

Скорректированный (adjusted) R^2

Для того, чтобы была возможность сравнивать модели с разным числом признаков так, чтобы число регрессоров (признаков) не влияло на статистику R^2 обычно используется скорректированный коэффициент детерминации, в котором используются несмещённые оценки дисперсий:

R_{adj}^2 =1-frac {s^2}{s^2_y}=1-frac {RSS/(n-k)}{TSS/(n-1)}=1-(1- R^2) {(n-1) over (n-k)}leq R^2,

который даёт штраф за дополнительно включённые признаки, где n — количество наблюдений, а k — количество параметров.

Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве признаков), поэтому интерпретировать его как долю объясняемой дисперсии уже нельзя. Тем не менее, применение показателя в сравнении вполне обоснованно.

Для моделей с одинаковой зависимой переменной и одинаковым объемом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии s^2=RSS/(n-k) или стандартной ошибки модели s.

Обобщённый (extended) R^2

В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации. Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию R^2. Эта проблема решается с помощью построения обобщённого коэффициента детерминации R_{ext}^2, который совпадает с исходным для случая МНК регрессии со свободным членом. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных.

Для случая регрессии без свободного члена:

R_{ext}^2 = 1- {Y'*(I-P(X))*Y over Y'*(I-pi(X))*Y},

где X — матрица ntimes k значений признаков, P(X) = X*(X'*X)^{-1}*X' — проектор на плоскость X, pi(X) = {P(X)*i_n*i_n'*P(X) over i_n'*P(X)*i_n}, i_n — единичный вектор ntimes 1.

При некоторой модификации R_{ext}^2 также подходит для сравнения между собой регрессионных моделей, построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

Ссылки

  • Rules for Cheaters: How to Get a High R squared
  • Wikipedia
  • Emmanuelle Rieuf: Beginners Guide to Regression Analysis and Plot Interpretations, December 7, 2016.

Добавить комментарий