Как найти меры центральной тенденции выборки

Как определить подходящую меру центральной тенденции?

Время на прочтение
6 мин

Количество просмотров 4.8K

Мера центральной тенденции (measure of central tendency) представляет из себя статистическую величину, которая характеризует целый набор данных одним единственным числом. Ее также называют мерой центрального расположения (measure of central location). Она описывает, как выглядит приблизительный центр набора данных.

Но сам по себе термин “центр” может подразумевать немного разные значения в зависимости от конкретной ситуации. Вы можете считать “центром” среднее арифметическое. Вы также можете назвать “центром” данные, которые просто находятся в середине вашей выборки. А еще вы можете рассматривать в качестве “центра” данные, которые повторяются чаще всего. Все эти центры по-своему характеризуют ваши данные.

Поскольку человеческое понимание “центра” может разниться, статистика позаботилась определить каждый вариант. Таким образом мы имеем следующие общепринятые меры центральной тенденции:

  1. Среднее арифметическое.

  2. Медиана.

  3. Мода.

В этой статье я расскажу, каким образом распределение вашего набора данных играет роль в выборе подходящей меры центральной тенденции. А объяснять я буду это на примере реальных наборов данных.

1. Среднее арифметическое

Среднее арифметическое — это среднее значение всех элементов в наборе данных. Оно рассчитывается как сумма всех значений, деленная на общее количество значений.

Среднее арифметическое = сумма всех значений / общее количество значений

Когда следует использовать среднее арифметическое?

Среднее арифметическое лучше всего использовать для описания данных, которые имеют нормальное распределение. Нормальное распределение — это когда построив график по “значениям” и их “частоте” (количеству появлений каждого значения в наборе данных), вы получаете кривую, по форме напоминающую колокол. Центр этой кривой совпадает со средним арифметическим.

Пример — набор данных с длинами крыльев комнатной мухи

В качестве примера я буду использовать реальный набор данных — это набор данных с длинами крыльев комнатной мухи, который естественным образом имеет нормальное распределение.

Источник набора данных: [Sokal, R.R. and F.J. Rohlf, 1968. Biometry, Freeman Publishing Co., p 109.  Original data from Sokal, R.R. and P.E. Hunter. 1955. A morphometric analysis of DDT-resistant and non-resistant housefly strains Ann. Entomol. Soc. Amer. 48: 499-507.]

Набор данных содержит длины крыльев комнатной мухи в миллиметрах. В нем 100 элементов.

Часть набора данных с длинами крыльев комнатной мухи

Часть набора данных с длинами крыльев комнатной мухи

Я построил гистограмму (по “значениям” и “количествам повторений этих значений”) этих данных, которую вы можете наблюдать ниже. Если мы проведем по внешним краям столбцов плавную линию, то она образует колоколообразную кривую. Вычислив среднее арифметическое значение этих данных, мы получим 45,5. А теперь давайте поищем на приведенном ниже графике полученное значение 45,5. Он находится прямо по середине.

Колоколообразная кривая со средним значением в центре дает нам четкое понимание, что этот набор данных имеет нормальное распределение.

import numpy as np
import matplotlib.pyplot as plt
data_housefly = np.loadtxt("housefly_wing_length.txt")
plt.hist(data_housefly)
plt.xlabel("Wing length")
plt.ylabel("Number of occurences")
plt.title("Histogram - Housefly wing lengths")
plt.show()

Длина крыла комнатной мухи – гистограмма

Длина крыла комнатной мухи – гистограмма

Это хороший пример, наглядно демонстрирующий, что для нормально распределенных данных имеет смысл использовать “среднее арифметическое” как меру центральной тенденции.

Когда НЕ стоит использовать среднее арифметическое?

Хотя среднее арифметическое является одной из основных мер центральной тенденции, иногда (на самом деле очень часто) оно наоборот может ввести вас в заблуждение. Данные из реального мира не всегда имеют нормальное распределение. В подавляющем большинстве случаев есть вероятность, что ваши данные ассиметричны.

Ассиметричные данные — это данные, в которых несколько элементов у верхнего или нижнего пределов имеют заметно отличающийся паттерн по сравнению с остальной частью набора данных.

Пример — набор данных с зарплатами игроков NBA

Давайте посмотрим на набор данных с зарплатами игроков NBA. Этот набор данных содержит зарплаты в долларах США за период с 2017 по 2018 годы.

Часть набора данных с зарплатами игроков NBA

Часть набора данных с зарплатами игроков NBA

Я построил гистограмму столбца c зарплатой (название столбца “season17_18”).

import numpy as np
import matplotlib.pyplot as plt
data_nba = pd.read_csv("NBA_player_salary.csv")
plt.hist(data_nba.season17_18)
plt.xlabel("Salary in US Dollars")
plt.ylabel("Number of occurrences")
plt.title("NBA Player Salary - Histogram")
plt.show()

Зарплата игрока NBA – гистограмма

Зарплата игрока NBA – гистограмма

Глядя на приведенное выше распределение, становится очевидным, что данные распределены не нормально. Из 573 игроков более 300 получают зарплату ниже 2,5 миллионов долларов (из графика выше). Но когда мы вычисляем среднее арифметическое заработной платы, оно составляет 5,85 миллиона долларов.

Как вы считаете, годится ли среднее арифметическое в качестве лучшего представления этих данных в целом?

Уж точно нет. Те немногие игроки, которые получали огромные зарплаты, утащили среднее арифметическое далеко от центра. Это называется асимметрией данных.

Не имеет смысла и говорить о том, что среднее арифметическое, ​​которое составляет 5,85 миллиона, является центром, потому что абсолютное большинство из игроков получили зарплату менее 2,5 миллиона долларов.

Таким образом, в случае подобных асимметрий наборов данных среднее арифметическое хорошим выбором для представления данных не является. Здесь нам может помочь медиана.

2. Медиана

Медиана — это значение, которое находится в центре (прямо посередине), если данные расположены в порядке возрастания или убывания.

Если общее количество значений в наборе данных нечетное, то в центральной позиции будет только одно число. Это и будет наша медиана. Если общее количество значений в наборе данных четное, в центральной позиции будет два значения. В этом случае медиана представляет собой среднее значение этих двух значений.

Когда следует использовать медиану?

Если набор данных асимметричен или содержит выбросы, среднее арифметическое — не лучший способ представления данных. В таком случае как меру центральной тенденции можно использовать медиану. Выбросы не портят медиану. Потому что само название “выбросы” означает, что они располагаются снаружи, либо в нижнем, либо в верхнем диапазоне. В таком случае медиана — это среднее значение, не нарушенное выбросами.

Еще раз давайте рассмотрим ассиметричный набор данных с зарплатами игроков NBA. (Который мы рассматривали в предыдущем разделе “Когда НЕ стоит использовать среднее арифметическое?”). Медиана по зарплате составляет 2,38 миллиона долларов.

Диаграмма зарплаты игроков NBA, демонстрирующая среднее арифметическое и медиану

Диаграмма зарплаты игроков NBA, демонстрирующая среднее арифметическое и медиану

Это значение находится в первой столбце. Обратите внимание, что ось X это 10^7. Итак, первый столбик представляет зарплату до 2,5 миллионов. Таким образом, медианное значение 2,38 миллиона лучше всего представляет эти данные, потому что большинство игроков получают зарплату, близкую к этому показателю.

Когда НЕ стоит использовать медиану?

Если и среднее арифметическое, и медиана одного и того же набора данных не сильно отклоняются, то можно использовать обе эти меры. В любом случае расчет среднего арифметического предполагает учет всех элементов данных и их усреднение. Таким образом, логичнее, что среднее арифметическое является более точной мерой (когда среднее арифметическое и медиана не сильно отклоняются).

Как определить, является ли ваш набор данных асимметричным или содержит выбросы?

Самый банальный способ определить, является ли ваш набор данных асимметричным или содержит выбросы, — это вычислить среднее арифметическое и медиану. Если обе меры не сильно отклоняются, то с вашим набором данных все в порядке. И вы сэкономили время, которое в противном случае было бы потрачено на очистку и преобразование данных.

Если среднее арифметическое и медиана очень сильно отклоняются, ваш набор данных асимметричен или содержит выбросы. Следующий шаг — провести исследование с целью выявить и удалить выбросы, если таковые имеются. Или применить какое-либо преобразование, чтобы уменьшить асимметрию в ваших данных, если таковая имеется.

3. Мода

Мода — это значение, которое чаще всего встречается в наборе данных. В гистограмме мода — это значение с самым высоким столбцом.

Если набор данных имеет более одного значения с одинаковой максимальной частотой появления, набор данных имеет мультимодальное распределение, поскольку он имеет несколько мод. Если в наборе данных нет повторяющихся значений, то и моды у него тоже нет.

Когда стоит использовать моду?

Моду можно использовать для анализа часто встречающихся значений как числовых, так и категориальных данных.

Мода — единственная мера центральной тенденции, которую можно использовать с категориальными данными. Для категориальных данных вы не можете вычислить среднее арифметическое или медиану. Мода – единственный выбор в таких случаях.

Пример — Простое перечисление

Ниже приведен учебный набор данных, отражающий любимый вид искусства семерых человек. Построим частотный график (гистограмму).

data_art = [‘music’, ‘painting’, ‘pottery’, ‘painting’, ‘dance’, ‘music’, ‘music’]

import matplotlib.pyplot as plt
data_art = ['music', 'painting', 'pottery', 'painting', 'dance', 'music', 'music']
plt.hist(data_art)
plt.xlabel("Favorite art")
plt.ylabel("Number of occurrences")
plt.title("Histogram of favorite art")
plt.show()

Гистограмма любимого вида искусства — пример моды

Гистограмма любимого вида искусства — пример моды

Во многих областях машинного обучения возникают функции многих переменных и их производные. Такие производные ещё называют “матричными”. На открытом уроке мы поговорим про отличие таких производных от обычных, изучаемых в школе, разберём необходимую теорию, научимся такие производные считать, а также посмотрим, где и как матричные производные используются. Регистрация открыта по ссылке для всех желающих.

Центральную
тенденцию выборки

позволяют оценить такие статистические
характеристики, как среднее
арифметическое значение, мода, медиана.

Наиболее
просто получаемой мерой центральной
тенденции является мода. Мода
– это такое значение в множестве
наблюдений, которое встречается наиболее
часто. В совокупности значений (2, 6, 6, 8,
7, 33, 9, 9, 9, 10) модой является 9, потому что
оно встречается чаще любого другого
значения. В случае, когда все значения
в группе встречаются одинаково часто,
считают, что эта группа не имеет моды.

Когда два соседних
значения имеют одинаковую частоту и
они больше частоты любого другого
значения, мода есть среднее этих двух
значений.

Если
два несмежных значения в группе имеют
равные частоты, и они больше частот
любого значения, то существуют две моды
(10, 11, 11, 11, 12, 13, 14, 14, 14, 17); в таком случае
группа измерений или оценок является
бимодальной.

Наибольшей
модой в группе называется единственное
значение, которое удовлетворяет
определению моды. Однако во всей группе
может быть несколько меньших мод. Эти
меньшие моды представляют собой локальные
вершины распределения частот.

Медиана
(Me) – середина ранжированного ряда
результатов измерений. Если данные
содержат четное число различных значений,
то медиана есть точка, лежащая посередине
между двумя центральными значениями,
когда они упорядочены.

Среднее
арифметическое значение

для неупорядоченного ряда измерений
вычисляют по формуле:

, (2.2)

где
.
Например, для данных 4,1; 4,4; 4,5; 4,7; 4,8
вычислим
:

.

Каждая
из выше вычисленных мер центра является
наиболее пригодной для использования
в определенных условиях.

Мода
вычисляется наиболее просто – ее можно
определить на глаз. Более того, для очень
больших групп данных это достаточно
стабильная мера центра распределения.

Медиана
занимает промежуточное положение между
модой и средним с точки зрения ее
вычисления. Эта мера получается особенно
легко в случае ранжированных данных.

Среднее
множество данных предполагает в основном
арифметические операции.

На
величину среднего влияют значения всех
результатов. Медиана и мода не требуют
для определения всех значений. Посмотрим,
что произойдет со средним, медианой и
модой, когда удвоится максимальное
значение в следующем множестве:

Me Мода

Множество 1: 1, 3, 3,
5, 6, 7, 8 33/7 5 3

Множество 2: 1, 3, 3,
5, 6, 7, 16 41/7 5 3

На
величину среднего особенно влияют
результаты, которые называют “выбросами”,
т.е. данные, находящиеся далеко от центра
группы оценок.

5. Выбор меры центральной тенденции.

Вычисление
моды, медианы или среднего – чисто
техническая процедура. Однако выбор из
этих трех мер и их интерпретация зачастую
требуют определенного размышления. В
процессе выбора следует установить
следующее:

– в
малых группах мода может быть совершенно
нестабильной. Например, мода группы: 1,
1, 1, 3, 5, 7, 7, 8 равна 1; но если одна из единиц
превратится в нуль, а другая – в два, то
мода будет равна 7;

– на
медиану не влияют величины “больших”
и “малых” значений. Например, в группе
из 50 значений медиана не изменится, если
наибольшее значение утроится;

– на
величину среднего влияет каждое значение.
Если одно какое-нибудь значение меняется
на c единиц,
изменится в том же направлении на c/n
единиц;

– некоторые
множества данных не имеют центральной
тенденции, что часто вводит в заблуждение
при вычислении только одной меры
центральной тенденции. Особенно это
справедливо для групп, имеющих более
чем одну моду;

– когда
считают, что группа данных является
выборкой из большой симметричной группы,
среднее выборки, вероятно, ближе к центру
большой группы, чем медиана и мода.

Все
средние характеристики дают общую
характеристику ряда результатов
измерений. На практике нас часто
интересует, как сильно каждый результат
отклоняется от среднего значения. Однако
легко можно представить, что две группы
результатов измерений имеют одинаковые
средние, но различные значения измерений.
Например, для ряда 3, 6, 3 – среднее
значение
= 4; для ряда 5, 2, 5 – также среднее значение= 4, несмотря на существенное различие
этих рядов.

Поэтому
средние характеристики всегда необходимо
дополнять показателями вариации, или
колеблемости.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Мера центральной тенденции – это число, характеризующее выборку по уровню выраженности измеренного признака. Они показывают, вокруг каких значений группируется большинство экспериментальных данных. 

Существует три способа определения “центральной тенденции”, каждому из которых соответствует своя мера: мода, медиана, выборочное среднее.

Мода

Мода (Mo) – это такое значение из множества измерений, которое встречается наиболее часто. Моде, или модальному интервалу признака, соответствует наибольший подъем (вершина) графика распределения частот. Если график распределения частот имеет одну вершину, то такое распределение называется унимодальным. 

Когда два соседних значений встречаются одинаково часто и чаще чем любое другое значение, мода есть среднее этих двух значений.

Распределение может и не иметь моду. Когда все значения встречаются одинаково часто, принято считать, что такое распределение не имеет моды.

Пример:

Допустим у нас есть ряд значений {4,5,8,2,6,5} мода этих значений будет равна 5.

Или у нас есть другой ряд {4,3,1,8,9,0,6,1,9}.  В нем два числа встречаются одинаковое количество раз – это 1 и 9. Тогда мода этой выборки будет 5, потому, что это среднее значение между числами 1 и 9.

Ну а в этом ряду значений {1,8,4,8,0,0,1,4} моды нет, т.к. все значения встречаются одинаковое количество раз.

Медиана

Медиана (Me) – это такое значение признака, которое делит упорядоченное (ранжированное) множество данных пополам так, что одна половина всех значений меньше медианы, а другая – больше. Таким образом, первым шагом при определении медианы является упорядочивание (ранжирование) всех значений по возрастанию или убыванию. Далее медиана определяется следующим образом: 

  • если данные содержат нечетное число значений, то медиана – это центральное значение;
  • если данные содержат четное число значений, то медиана – это точка, посредине между двумя центральными значениями. 

Пример:

Допустим у нас есть ряд значений с нечетным количеством элементов {1,7,3,9,2,6,0}, чтобы узнать медиану нам нужно сначала упорядочить значения по возрастанию или убыванию. Например, вот так – {0,1,2,3,6,7,9}. Теперь наглядно видно, что мода равна 3, потому что это центральное значение выборки.

Или, допустим, у нас есть ряд с четным количеством  элементов {5,9,2,7,7,4,0,1}. Упорядочиваем значения {0,1,2,4,5,7,7,9}. Медиана этого ряда находиться между значениями 4 и 5. Значит, нам нужно рассчитать среднее для этих значений. Получаем 4,5. 

Выборочное среднее

Т.к. в психологических исследованиях мы исследуем выборки, нам и среднее надо расчитывать по выборке или – выборочное среднее. Выборочное среднее (эмпирическое среднее), является частным случаем среднего арифметического и определяется как сумма всех значений измеренного признака, деленная на количество суммированных значений. 

 ( bar{X}=frac{1}{n}sum_{i=1}^nX_i ) 

Пример:  допустим у нас есть выборка значений {3,4,5,6,7}. Подставляем эти значений в формулу, где n это количество значений и для нашей выборки оно равно 5, мы получим:

 ( bar{X}=frac{3+4+5+6+7}{5}=frac{25}{5}=5 ) 

Хотя среднее арифметическое часто используется в качестве средних значений или центральных тенденций, это понятие не относится к робастной статистике, то есть среднее арифметическое подвержено сильному влиянию “больших отклонений”. Примечательно, что для распределений с большим коэффициентом асимметрии среднее арифметическое может не соответствовать понятию “среднего”, а значения среднего из робастной статистики, например, медиана, может лучше описывать центральную тенденцию.

Классическим примером является подсчёт среднего дохода. Арифметическое среднее может быть неправильно истолковано в качестве медианы, из-за чего может быть сделан вывод, что людей с большим доходом больше, чем на самом деле. “Средний” доход истолковывается таким образом, что доходы большинства людей находятся вблизи этого числа. Но этот “средний” доход является выше, чем доходы большинства людей, так как очень высокий доход с большим отклонением от среднего делает сильный перекос среднего арифметического. В отличие от этого, средний доход по медиане “сопротивляется” такому перекосу. Однако этот “средний” доход ничего не говорит о количестве людей вблизи медианного дохода и не говорит ничего о количестве людей вблизи модального дохода. Тем не менее если легкомысленно отнестись к понятиям “среднего” и “большинства”, то можно сделать неверный вывод о том, что большинство людей имеют доходы выше, чем они есть на самом деле. Например: рассмотрим выборку {1, 2, 2, 2, 3, 9}. Среднее арифметическое равно 3.17.  Но ведь пять значений из шести ниже этого среднего.

У симметричного одномерного унимодального распределения выборочное среднее, медиана и мода одинаковы.

Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 12 декабря 2022 года; проверки требует 1 правка.

Мера центральной тенденции в статистике — число, служащее для описания множества значений одним-единственным числом (для краткости). Например, вместо перечисления величин зарплат всех сотрудников организации говорят о средней зарплате. Существует множество мер центральной тенденции; окончательный выбор меры всегда остается за исследователем.

В самых простых случаях (и наиболее часто) в качестве мер центральной тенденции применяются:

  • среднее арифметическое;
  • среднее геометрическое;
  • среднее гармоническое.

Эти три меры предложены ещё пифагорейцами, поэтому так же называются «пифагорейскими средними» (англ. pythagorean means)[1].

В практических исследованиях получаемая совокупность значений редко описываются нормальным распределением и, кроме того, она может содержать так называемые «выбросы» (англ. outlier). Поэтому при выборе той или иной меры центральной тенденции важно учитывать устойчивость (робастность) к выбросам выбранной меры центральной тенденции применяемой в каждом конкретном случае.

Основные меры центральной тенденции[править | править код]

  • Арифметическое среднее — сумма всех наблюденных значений, делённая на их количество.
  • Взвешенное среднее — среднее значение, учитывающее весовые коэффициенты для каждого значения. Разновидности взвешенного среднего: арифметическое, геометрическое, гармоническое, степенное.
  • Винсоризованное среднее — среднее арифметическое, при расчёте которого все исключённые (в соответствии с установленным исследователем процентом) наибольшие и наименьшие значения заменяются на наибольшее и наименьшее «оставшиеся» значения соответственно.
  • Гармоническое среднее — количество наблюдений, делённое на сумму инвертированных значений наблюдений.
  • Геометрическое среднее — корень степени количества значений из общего произведения всех значений.
  • Медиана — значение, которое делит упорядоченные по возрастанию (убыванию) наблюдения пополам.
  • Мода — наиболее часто встречающееся значение.
  • М-оценка.
  • Среднее Колмогорова — частный случай среднего по Коши. Общий вид системы аксиом (требований к средним величинам), приводящий к так называемым ассоциативным средним.
  • Среднее Тьюки.
  • Усеченное среднее — арифметическое среднее после удаления установленного (исследователем) процента наибольших и наименьших значений.

Примечания[править | править код]

  1. Cantrell, David W., «Pythagorean Means» Архивная копия от 22 мая 2011 на Wayback Machine from MathWorld.

Добавить комментарий