Как найти медиану центральной тенденции

Как определить подходящую меру центральной тенденции?

Время на прочтение
6 мин

Количество просмотров 5K

Мера центральной тенденции (measure of central tendency) представляет из себя статистическую величину, которая характеризует целый набор данных одним единственным числом. Ее также называют мерой центрального расположения (measure of central location). Она описывает, как выглядит приблизительный центр набора данных.

Но сам по себе термин “центр” может подразумевать немного разные значения в зависимости от конкретной ситуации. Вы можете считать “центром” среднее арифметическое. Вы также можете назвать “центром” данные, которые просто находятся в середине вашей выборки. А еще вы можете рассматривать в качестве “центра” данные, которые повторяются чаще всего. Все эти центры по-своему характеризуют ваши данные.

Поскольку человеческое понимание “центра” может разниться, статистика позаботилась определить каждый вариант. Таким образом мы имеем следующие общепринятые меры центральной тенденции:

  1. Среднее арифметическое.

  2. Медиана.

  3. Мода.

В этой статье я расскажу, каким образом распределение вашего набора данных играет роль в выборе подходящей меры центральной тенденции. А объяснять я буду это на примере реальных наборов данных.

1. Среднее арифметическое

Среднее арифметическое — это среднее значение всех элементов в наборе данных. Оно рассчитывается как сумма всех значений, деленная на общее количество значений.

Среднее арифметическое = сумма всех значений / общее количество значений

Когда следует использовать среднее арифметическое?

Среднее арифметическое лучше всего использовать для описания данных, которые имеют нормальное распределение. Нормальное распределение — это когда построив график по “значениям” и их “частоте” (количеству появлений каждого значения в наборе данных), вы получаете кривую, по форме напоминающую колокол. Центр этой кривой совпадает со средним арифметическим.

Пример — набор данных с длинами крыльев комнатной мухи

В качестве примера я буду использовать реальный набор данных — это набор данных с длинами крыльев комнатной мухи, который естественным образом имеет нормальное распределение.

Источник набора данных: [Sokal, R.R. and F.J. Rohlf, 1968. Biometry, Freeman Publishing Co., p 109.  Original data from Sokal, R.R. and P.E. Hunter. 1955. A morphometric analysis of DDT-resistant and non-resistant housefly strains Ann. Entomol. Soc. Amer. 48: 499-507.]

Набор данных содержит длины крыльев комнатной мухи в миллиметрах. В нем 100 элементов.

Часть набора данных с длинами крыльев комнатной мухи

Часть набора данных с длинами крыльев комнатной мухи

Я построил гистограмму (по “значениям” и “количествам повторений этих значений”) этих данных, которую вы можете наблюдать ниже. Если мы проведем по внешним краям столбцов плавную линию, то она образует колоколообразную кривую. Вычислив среднее арифметическое значение этих данных, мы получим 45,5. А теперь давайте поищем на приведенном ниже графике полученное значение 45,5. Он находится прямо по середине.

Колоколообразная кривая со средним значением в центре дает нам четкое понимание, что этот набор данных имеет нормальное распределение.

import numpy as np
import matplotlib.pyplot as plt
data_housefly = np.loadtxt("housefly_wing_length.txt")
plt.hist(data_housefly)
plt.xlabel("Wing length")
plt.ylabel("Number of occurences")
plt.title("Histogram - Housefly wing lengths")
plt.show()

Длина крыла комнатной мухи – гистограмма

Длина крыла комнатной мухи – гистограмма

Это хороший пример, наглядно демонстрирующий, что для нормально распределенных данных имеет смысл использовать “среднее арифметическое” как меру центральной тенденции.

Когда НЕ стоит использовать среднее арифметическое?

Хотя среднее арифметическое является одной из основных мер центральной тенденции, иногда (на самом деле очень часто) оно наоборот может ввести вас в заблуждение. Данные из реального мира не всегда имеют нормальное распределение. В подавляющем большинстве случаев есть вероятность, что ваши данные ассиметричны.

Ассиметричные данные — это данные, в которых несколько элементов у верхнего или нижнего пределов имеют заметно отличающийся паттерн по сравнению с остальной частью набора данных.

Пример — набор данных с зарплатами игроков NBA

Давайте посмотрим на набор данных с зарплатами игроков NBA. Этот набор данных содержит зарплаты в долларах США за период с 2017 по 2018 годы.

Часть набора данных с зарплатами игроков NBA

Часть набора данных с зарплатами игроков NBA

Я построил гистограмму столбца c зарплатой (название столбца “season17_18”).

import numpy as np
import matplotlib.pyplot as plt
data_nba = pd.read_csv("NBA_player_salary.csv")
plt.hist(data_nba.season17_18)
plt.xlabel("Salary in US Dollars")
plt.ylabel("Number of occurrences")
plt.title("NBA Player Salary - Histogram")
plt.show()

Зарплата игрока NBA – гистограмма

Зарплата игрока NBA – гистограмма

Глядя на приведенное выше распределение, становится очевидным, что данные распределены не нормально. Из 573 игроков более 300 получают зарплату ниже 2,5 миллионов долларов (из графика выше). Но когда мы вычисляем среднее арифметическое заработной платы, оно составляет 5,85 миллиона долларов.

Как вы считаете, годится ли среднее арифметическое в качестве лучшего представления этих данных в целом?

Уж точно нет. Те немногие игроки, которые получали огромные зарплаты, утащили среднее арифметическое далеко от центра. Это называется асимметрией данных.

Не имеет смысла и говорить о том, что среднее арифметическое, ​​которое составляет 5,85 миллиона, является центром, потому что абсолютное большинство из игроков получили зарплату менее 2,5 миллиона долларов.

Таким образом, в случае подобных асимметрий наборов данных среднее арифметическое хорошим выбором для представления данных не является. Здесь нам может помочь медиана.

2. Медиана

Медиана — это значение, которое находится в центре (прямо посередине), если данные расположены в порядке возрастания или убывания.

Если общее количество значений в наборе данных нечетное, то в центральной позиции будет только одно число. Это и будет наша медиана. Если общее количество значений в наборе данных четное, в центральной позиции будет два значения. В этом случае медиана представляет собой среднее значение этих двух значений.

Когда следует использовать медиану?

Если набор данных асимметричен или содержит выбросы, среднее арифметическое — не лучший способ представления данных. В таком случае как меру центральной тенденции можно использовать медиану. Выбросы не портят медиану. Потому что само название “выбросы” означает, что они располагаются снаружи, либо в нижнем, либо в верхнем диапазоне. В таком случае медиана — это среднее значение, не нарушенное выбросами.

Еще раз давайте рассмотрим ассиметричный набор данных с зарплатами игроков NBA. (Который мы рассматривали в предыдущем разделе “Когда НЕ стоит использовать среднее арифметическое?”). Медиана по зарплате составляет 2,38 миллиона долларов.

Диаграмма зарплаты игроков NBA, демонстрирующая среднее арифметическое и медиану

Диаграмма зарплаты игроков NBA, демонстрирующая среднее арифметическое и медиану

Это значение находится в первой столбце. Обратите внимание, что ось X это 10^7. Итак, первый столбик представляет зарплату до 2,5 миллионов. Таким образом, медианное значение 2,38 миллиона лучше всего представляет эти данные, потому что большинство игроков получают зарплату, близкую к этому показателю.

Когда НЕ стоит использовать медиану?

Если и среднее арифметическое, и медиана одного и того же набора данных не сильно отклоняются, то можно использовать обе эти меры. В любом случае расчет среднего арифметического предполагает учет всех элементов данных и их усреднение. Таким образом, логичнее, что среднее арифметическое является более точной мерой (когда среднее арифметическое и медиана не сильно отклоняются).

Как определить, является ли ваш набор данных асимметричным или содержит выбросы?

Самый банальный способ определить, является ли ваш набор данных асимметричным или содержит выбросы, — это вычислить среднее арифметическое и медиану. Если обе меры не сильно отклоняются, то с вашим набором данных все в порядке. И вы сэкономили время, которое в противном случае было бы потрачено на очистку и преобразование данных.

Если среднее арифметическое и медиана очень сильно отклоняются, ваш набор данных асимметричен или содержит выбросы. Следующий шаг — провести исследование с целью выявить и удалить выбросы, если таковые имеются. Или применить какое-либо преобразование, чтобы уменьшить асимметрию в ваших данных, если таковая имеется.

3. Мода

Мода — это значение, которое чаще всего встречается в наборе данных. В гистограмме мода — это значение с самым высоким столбцом.

Если набор данных имеет более одного значения с одинаковой максимальной частотой появления, набор данных имеет мультимодальное распределение, поскольку он имеет несколько мод. Если в наборе данных нет повторяющихся значений, то и моды у него тоже нет.

Когда стоит использовать моду?

Моду можно использовать для анализа часто встречающихся значений как числовых, так и категориальных данных.

Мода — единственная мера центральной тенденции, которую можно использовать с категориальными данными. Для категориальных данных вы не можете вычислить среднее арифметическое или медиану. Мода – единственный выбор в таких случаях.

Пример — Простое перечисление

Ниже приведен учебный набор данных, отражающий любимый вид искусства семерых человек. Построим частотный график (гистограмму).

data_art = [‘music’, ‘painting’, ‘pottery’, ‘painting’, ‘dance’, ‘music’, ‘music’]

import matplotlib.pyplot as plt
data_art = ['music', 'painting', 'pottery', 'painting', 'dance', 'music', 'music']
plt.hist(data_art)
plt.xlabel("Favorite art")
plt.ylabel("Number of occurrences")
plt.title("Histogram of favorite art")
plt.show()

Гистограмма любимого вида искусства — пример моды

Гистограмма любимого вида искусства — пример моды

Во многих областях машинного обучения возникают функции многих переменных и их производные. Такие производные ещё называют “матричными”. На открытом уроке мы поговорим про отличие таких производных от обычных, изучаемых в школе, разберём необходимую теорию, научимся такие производные считать, а также посмотрим, где и как матричные производные используются. Регистрация открыта по ссылке для всех желающих.

Медиана (x̃, M; Мера центральной тенденции) – это центральное значение Выборки (Sample).

В математике медиана также представляет собой тип Среднего значения (Average), который используется для нахождения “центра”. Поэтому ее еще называют мерой центральной тенденции.

Нечетное количество элементов ряда

Если в ряду нечетное количество элементов, то мы сортируем значения в возрастающем или убывающем порядке, а затем выбираем центральное.

Пример. Найдем медиану следующего ряда:

4, 17, 77, 25, 22, 23, 92, 82, 40, 24, 14, 12, 67, 23, 29

Расставив эти числа по порядку, мы получим:

4, 12, 14, 17, 22, 23, 23, 24, 25, 29, 40, 67, 77, 82, 92

Всего пятнадцать элементов, то есть 8-й будет центральным. Медианное значение этого набора чисел – 24.

Четное количество элементов ряда

Если в ряду четное количество элементов, медиана рассчитывается с помощью формулы:

$$M = frac{n + 1}{2}, где$$
$$Mspace{–}space{медиана,}$$
$$nspace{–}space{количество}space{элементов}space{в}space{выборке}$$

Пример. Найдем медиану следующего ряда:

1.79, 1.61, 2.09, 1.84, 1.96, 2.11

Выполнив подстановку, мы получим:

$$M = frac{6 + 1}{2} = 3.5$$

Центральная тенденция

Помимо медианы, выделяют еще две другие меры центральной тенденции – Среднее значение (Mean) и Мода (Mode). Среднее – это частное от суммы всех Наблюдений (Observation) к их количеству. Мода – это наиболее часто повторяющееся значение выборки.

В Науке о данных (Data Science) медиана иногда используется вместо среднего значения, когда в последовательности есть выбросы, которые могут исказить среднее. Выбросы меньше влияют на медианное значение, чем на среднее. Медиана отделяет верхнюю половину выборки, генеральной совокупности или Распределения вероятностей (Probability Distribution) от нижней.

Медиана распределения вероятностей

Медиана и NumPy

Медиану можно вычислить с помощью NumPy. Для начала импортируем все необходимые библиотеки:

import numpy as np

Создадим массив из 6 элементов и вызовем встроенный метод median():

a = [10, 7, 4, 3, 2, 1]
np.median(a)

NumPy определяет четность числа элементов массива (6) и применяет тот или иной метод расчета (согласно формуле):

3.5

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Фото: @garciasaldana_

Центральную
тенденцию выборки

позволяют оценить такие статистические
характеристики, как среднее
арифметическое значение, мода, медиана.

Наиболее
просто получаемой мерой центральной
тенденции является мода. Мода
– это такое значение в множестве
наблюдений, которое встречается наиболее
часто. В совокупности значений (2, 6, 6, 8,
7, 33, 9, 9, 9, 10) модой является 9, потому что
оно встречается чаще любого другого
значения. В случае, когда все значения
в группе встречаются одинаково часто,
считают, что эта группа не имеет моды.

Когда два соседних
значения имеют одинаковую частоту и
они больше частоты любого другого
значения, мода есть среднее этих двух
значений.

Если
два несмежных значения в группе имеют
равные частоты, и они больше частот
любого значения, то существуют две моды
(10, 11, 11, 11, 12, 13, 14, 14, 14, 17); в таком случае
группа измерений или оценок является
бимодальной.

Наибольшей
модой в группе называется единственное
значение, которое удовлетворяет
определению моды. Однако во всей группе
может быть несколько меньших мод. Эти
меньшие моды представляют собой локальные
вершины распределения частот.

Медиана
(Me) – середина ранжированного ряда
результатов измерений. Если данные
содержат четное число различных значений,
то медиана есть точка, лежащая посередине
между двумя центральными значениями,
когда они упорядочены.

Среднее
арифметическое значение

для неупорядоченного ряда измерений
вычисляют по формуле:

, (2.2)

где
.
Например, для данных 4,1; 4,4; 4,5; 4,7; 4,8
вычислим
:

.

Каждая
из выше вычисленных мер центра является
наиболее пригодной для использования
в определенных условиях.

Мода
вычисляется наиболее просто – ее можно
определить на глаз. Более того, для очень
больших групп данных это достаточно
стабильная мера центра распределения.

Медиана
занимает промежуточное положение между
модой и средним с точки зрения ее
вычисления. Эта мера получается особенно
легко в случае ранжированных данных.

Среднее
множество данных предполагает в основном
арифметические операции.

На
величину среднего влияют значения всех
результатов. Медиана и мода не требуют
для определения всех значений. Посмотрим,
что произойдет со средним, медианой и
модой, когда удвоится максимальное
значение в следующем множестве:

Me Мода

Множество 1: 1, 3, 3,
5, 6, 7, 8 33/7 5 3

Множество 2: 1, 3, 3,
5, 6, 7, 16 41/7 5 3

На
величину среднего особенно влияют
результаты, которые называют “выбросами”,
т.е. данные, находящиеся далеко от центра
группы оценок.

5. Выбор меры центральной тенденции.

Вычисление
моды, медианы или среднего – чисто
техническая процедура. Однако выбор из
этих трех мер и их интерпретация зачастую
требуют определенного размышления. В
процессе выбора следует установить
следующее:

– в
малых группах мода может быть совершенно
нестабильной. Например, мода группы: 1,
1, 1, 3, 5, 7, 7, 8 равна 1; но если одна из единиц
превратится в нуль, а другая – в два, то
мода будет равна 7;

– на
медиану не влияют величины “больших”
и “малых” значений. Например, в группе
из 50 значений медиана не изменится, если
наибольшее значение утроится;

– на
величину среднего влияет каждое значение.
Если одно какое-нибудь значение меняется
на c единиц,
изменится в том же направлении на c/n
единиц;

– некоторые
множества данных не имеют центральной
тенденции, что часто вводит в заблуждение
при вычислении только одной меры
центральной тенденции. Особенно это
справедливо для групп, имеющих более
чем одну моду;

– когда
считают, что группа данных является
выборкой из большой симметричной группы,
среднее выборки, вероятно, ближе к центру
большой группы, чем медиана и мода.

Все
средние характеристики дают общую
характеристику ряда результатов
измерений. На практике нас часто
интересует, как сильно каждый результат
отклоняется от среднего значения. Однако
легко можно представить, что две группы
результатов измерений имеют одинаковые
средние, но различные значения измерений.
Например, для ряда 3, 6, 3 – среднее
значение
= 4; для ряда 5, 2, 5 – также среднее значение= 4, несмотря на существенное различие
этих рядов.

Поэтому
средние характеристики всегда необходимо
дополнять показателями вариации, или
колеблемости.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Мера центральной тенденции – это число, характеризующее выборку по уровню выраженности измеренного признака. Они показывают, вокруг каких значений группируется большинство экспериментальных данных. 

Существует три способа определения “центральной тенденции”, каждому из которых соответствует своя мера: мода, медиана, выборочное среднее.

Мода

Мода (Mo) – это такое значение из множества измерений, которое встречается наиболее часто. Моде, или модальному интервалу признака, соответствует наибольший подъем (вершина) графика распределения частот. Если график распределения частот имеет одну вершину, то такое распределение называется унимодальным. 

Когда два соседних значений встречаются одинаково часто и чаще чем любое другое значение, мода есть среднее этих двух значений.

Распределение может и не иметь моду. Когда все значения встречаются одинаково часто, принято считать, что такое распределение не имеет моды.

Пример:

Допустим у нас есть ряд значений {4,5,8,2,6,5} мода этих значений будет равна 5.

Или у нас есть другой ряд {4,3,1,8,9,0,6,1,9}.  В нем два числа встречаются одинаковое количество раз – это 1 и 9. Тогда мода этой выборки будет 5, потому, что это среднее значение между числами 1 и 9.

Ну а в этом ряду значений {1,8,4,8,0,0,1,4} моды нет, т.к. все значения встречаются одинаковое количество раз.

Медиана

Медиана (Me) – это такое значение признака, которое делит упорядоченное (ранжированное) множество данных пополам так, что одна половина всех значений меньше медианы, а другая – больше. Таким образом, первым шагом при определении медианы является упорядочивание (ранжирование) всех значений по возрастанию или убыванию. Далее медиана определяется следующим образом: 

  • если данные содержат нечетное число значений, то медиана – это центральное значение;
  • если данные содержат четное число значений, то медиана – это точка, посредине между двумя центральными значениями. 

Пример:

Допустим у нас есть ряд значений с нечетным количеством элементов {1,7,3,9,2,6,0}, чтобы узнать медиану нам нужно сначала упорядочить значения по возрастанию или убыванию. Например, вот так – {0,1,2,3,6,7,9}. Теперь наглядно видно, что мода равна 3, потому что это центральное значение выборки.

Или, допустим, у нас есть ряд с четным количеством  элементов {5,9,2,7,7,4,0,1}. Упорядочиваем значения {0,1,2,4,5,7,7,9}. Медиана этого ряда находиться между значениями 4 и 5. Значит, нам нужно рассчитать среднее для этих значений. Получаем 4,5. 

Выборочное среднее

Т.к. в психологических исследованиях мы исследуем выборки, нам и среднее надо расчитывать по выборке или – выборочное среднее. Выборочное среднее (эмпирическое среднее), является частным случаем среднего арифметического и определяется как сумма всех значений измеренного признака, деленная на количество суммированных значений. 

 ( bar{X}=frac{1}{n}sum_{i=1}^nX_i ) 

Пример:  допустим у нас есть выборка значений {3,4,5,6,7}. Подставляем эти значений в формулу, где n это количество значений и для нашей выборки оно равно 5, мы получим:

 ( bar{X}=frac{3+4+5+6+7}{5}=frac{25}{5}=5 ) 

Хотя среднее арифметическое часто используется в качестве средних значений или центральных тенденций, это понятие не относится к робастной статистике, то есть среднее арифметическое подвержено сильному влиянию “больших отклонений”. Примечательно, что для распределений с большим коэффициентом асимметрии среднее арифметическое может не соответствовать понятию “среднего”, а значения среднего из робастной статистики, например, медиана, может лучше описывать центральную тенденцию.

Классическим примером является подсчёт среднего дохода. Арифметическое среднее может быть неправильно истолковано в качестве медианы, из-за чего может быть сделан вывод, что людей с большим доходом больше, чем на самом деле. “Средний” доход истолковывается таким образом, что доходы большинства людей находятся вблизи этого числа. Но этот “средний” доход является выше, чем доходы большинства людей, так как очень высокий доход с большим отклонением от среднего делает сильный перекос среднего арифметического. В отличие от этого, средний доход по медиане “сопротивляется” такому перекосу. Однако этот “средний” доход ничего не говорит о количестве людей вблизи медианного дохода и не говорит ничего о количестве людей вблизи модального дохода. Тем не менее если легкомысленно отнестись к понятиям “среднего” и “большинства”, то можно сделать неверный вывод о том, что большинство людей имеют доходы выше, чем они есть на самом деле. Например: рассмотрим выборку {1, 2, 2, 2, 3, 9}. Среднее арифметическое равно 3.17.  Но ведь пять значений из шести ниже этого среднего.

У симметричного одномерного унимодального распределения выборочное среднее, медиана и мода одинаковы.

Второй важной мерой центральной тенденции является медиана.

Определение медианы.

Медиана (англ. ‘median’) – это значение среднего элемента из набора элементов, отсортированных по возрастанию или убыванию. T.е. это элемент, который делит набор элементов пополам.

В выборке с нечетным количеством из (n) элементов медиана занимает позицию:

( (n + 1) / 2 )

В выборке с четным количеством мы определяем медиану как среднее значение элементов, занимающих позиции:

(n / 2) и ((n + 2) / 2) (два средних элемента)

Как и в случае со средним арифметическим, мы можем различать медиану совокупности и медиану выборки. Исходя из того, что медиана совокупности делит совокупность пополам, а медиана выборки делит выборку пополам, мы будем следовать общей нотации термина «медиана» без квалификации для краткости.


Ранее мы анализировали прибыль в процентах от выручки трех оптовых клубов: 0,9, 1,6 и 3,5. При нечетном количестве наблюдений ((n = 3)) медиана занимает:

( (n + 1) / 2 = 4/2 ) = 2-е место

Медиана составляет 1,6%. Значение 1,6% является «самым средним» наблюдением: одно лежит над ним, а другое – под ним.

Независимо от того, используем ли мы формулу для выборки с четным или нечетным количеством, равное количество наблюдений лежит выше и ниже медианы. Распределение имеет только одну медиану.

Потенциальное преимущество медианы состоит в том, что, в отличие от среднего значения, экстремальные значения (выбросы) не влияют на нее.

Медиана, однако, не использует всю информацию о размере и величине наблюдений; она фокусируется только на относительной позиции ранжированных наблюдений.

Расчет медианы также более сложен; для этого нам нужно упорядочить наблюдения от наименьшего к наибольшему, чтобы определить, является ли размер выборки четным или нечетным, и на этой основе применить одну из двух формул расчета. Математики отмечают этот недостаток, говоря, что медиана менее математически понятна, чем средняя.

Чтобы продемонстрировать нахождение медианы, мы используем данные из Примера вычисления перекрестного среднего значения, воспроизведенные в Таблице 9 в порядке возрастания доходности европейских акций за 2012 год.

Таблица 9. Общая доходность европейских фондовых рынков, 2012 г. (в порядке возрастания).

Рынок

Общая доходность
в местной валюте (%)

1

Испания

-4.76

2

Греция

-2.35

3

Португалия

-2.22

4

Ирландия

2.24

5

Великобритания

5.93

6

Норвегия

6.05

7

Италия

6.93

8

Финляндия

8.27

9

Швеция

12.66

10

Швейцария

14.83

11

Нидерланды

15.36

12

Франция

15.90

13

Австрия

20.72

14

Германия

25.24

15

Дания

28.09

16

Бельгия

33.99

Источник: www.msci.com.

Поскольку в этой выборке 16 наблюдений, медиана – это среднее значение двух наблюдений в отсортированном массиве, которые занимают 16/2 = 8-ю и 18/2 = 9-ю позиции.

Финляндия занимает 8-е место с доходностью 8,27%, а Швеция занимает 9-е место с доходностью 12,66%. Медиана, как среднее от этих двух значений доходности, составляет:

(8,27 + 12,66) / 2 = 10,465%

Обратите внимание, что на медиану не влияют очень большие или маленькие результаты. Если бы общая доходность Испании была намного ниже, или общая доходность Бельгии была бы намного выше, медиана не изменилась бы.

Используя контекст, который часто возникает на практике, представленный ниже пример демонстрирует, как совместно использовать среднее значение и медиану в выборке с экстремальными значениями.

Пример применения медианы и среднего арифметического для анализа соотношения цены и прибыли (EPS).

Предположим, клиент запрашивает у вас оценочный анализ портфеля обыкновенных акций США из семи акций, приведенных в Таблице 10.

Акции в портфеле одинаково взвешены. Одним из финансовых показателей оценки, который вы используете, является P/E, отношение цены акции к прибыли на акцию (EPS).

Существует много вариаций для знаменателя в P/E, но вы анализируете показатель P/E, определяемый как текущая цена акций, деленная на текущее среднее значение всех EPS-прогнозов аналитиков для компании за 2013 финансовый год (столбец «Консенсус-прогноз текущей EPS» в Таблице 10).

Консенсус-прогноз текущей EPS (англ. ‘consensus current EPS’) – это EPS, полученная на основе консенсус-прогнозов аналитиков.

Для получения дополнительной информации о ценовых коэффициентах см. Pinto, Henry, Robinson, and Stowe (2010).

Таблица 10. P/E для клиентского портфеля.

Акции

Консенсус-прогноз текущей EPS

Консенсус-прогноз текущей P/E

Caterpillar, Inc.

6.34

13.15

Ford Motor Company

1.55

10.97

General Dynamics

6.96

12.15

Green Mountain Coffee Roasters

3.25

25.27

McDonald’s Corporation

5.61

17.16

Qlik Technologies

0.17

204.82

Questcor Pharmaceuticals

4.79

13.94

Примечание: Значения консенсус-прогноза текущей P/E были рассчитаны как цена по состоянию на 9 сентября 2013 года, деленная на консенсус-прогноз EPS на ту же дату.

Источник: www.nasdaq.com.


Значения в Таблице 10 приведены по состоянию на 9 сентября 2013 года. Для сравнения средняя текущая P/E по компаниям в индексе S&P 500 в то время составляла 18,80.

Используя данные Таблицы 10, сделайте следующее:

  1. Рассчитайте среднее арифметическое P/E.
  2. Рассчитайте медиану P/E.
  3. Оцените среднее и медиану P/E как меры центральной тенденции для вышеуказанного портфеля.

Решение для части 1:

Среднее арифметическое значение P/E составляет:

(13,15 + 10,97 + 12,15 + 25,27 + 17,16 + 204,82 + 13,94) / 7 =
= 297,46 / 7 = 42,49.


Решение для части 2:

Коэффициенты P/E перечислены в порядке возрастания:

10,97 12,15 13,15 13,94 17,16 25,27 204,82

Выборка имеет нечетное количество наблюдений с (n = 7), поэтому медиана занимает ((n + 1) / 2 = 8/2 = 4)-ю позицию в отсортированном списке.
Следовательно, медиана P/E составляет 13,94.


Решение для части 3:

P/E компании Qlik Technologies, равная приблизительно 205, оказывает огромное влияние на среднее арифметическое P/E всего портфеля. Среднее P/E составляет около 42, и это намного больше, чем P/E шести из семи акций в портфеле.

Среднее значение P/E также вводит в заблуждение, ориентируя на акции с высокой P/E.

Среднее значение P/E акций, исключая Qlik Technologies, или исключая акции с наибольшей и наименьшей P/E (Qlik Technologies и Ford Motor Company), ниже среднего P/E 18,80 для компаний, включенных в индекс S&P 500.

Медиана P/E, равная 13,94, кажется, лучше отражает центральную тенденцию P/E.


Часто случается так, что когда EPS компании довольно низка, – например, она определена в нижней точке делового цикла компании, – ее P/E очень высока. Высокая P/E в этих обстоятельствах отражает ожидаемое в будущем восстановление доходов.

Экстремальные значения P/E следует анализировать и использовать с осторожностью. По причинам, продемонстрированным в этом примере, аналитики часто используют медиану ценовых коэффициентов для характеристики оценки отраслевых групп.

Добавить комментарий