Как найти медиану ряда чисел в статистике

У этого термина существуют и другие значения, см. Медиана.

Медиа́на (от лат. mediāna «середина») или набора чисел — число, которое находится в середине этого набора, если его упорядочить по возрастанию, то есть такое число, что половина из элементов набора не меньше него, а другая половина не больше. Другое равносильное определение[1]: медиана набора чисел — это число, сумма расстояний (или, если более строго, модулей) от которого до всех чисел из набора минимальна. Это определение естественным образом обобщается на многомерные наборы данных и называется 1-медианой.

Например, медианой набора {11, 9, 3, 5, 5} является число 5, так как оно стоит в середине этого набора после его упорядочивания: {3, 5, 5, 9, 11}. Если в выборке чётное число элементов, медиана может быть не определена однозначно: тогда для числовых данных чаще всего используют полусумму двух соседних значений (то есть медиану набора {1, 3, 5, 7} принимают равной 4), подробнее см. ниже.
В математической статистике медиана может использоваться как одна из характеристик выборки или совокупности чисел.

Также определяется медиана случайной величины: в этом случае оно определяется как число, которое делит пополам распределение. Грубо говоря, медианой случайной величины является такое число, что вероятность получить значение случайной величины справа от него равна вероятности получить значение слева от него (и они обе равны 1/2), — более точное определение дано ниже.

Можно также сказать, что медиана является 50-м персентилем, 0,5-квантилем или вторым квартилем выборки или распределения.

Свойства медианы для случайных величин[править | править код]

Если распределение непрерывно, то медиана является одним из решений уравнения

F(x)=0.5,

где F — функция распределения случайной величины x, связанная с плотностью распределения f как

{displaystyle F(x)=int _{-infty }^{x}f(chi ),dchi }.

Если распределение является непрерывной строго возрастающей функцией, то решение уравнения однозначно. Если распределение имеет разрывы, то медиана может совпадать с минимальным или максимальным (крайним) возможным значением случайной величины, что противоречит «геометрическому» пониманию этого термина.

Медиана является важной характеристикой распределения случайной величины и, так же как математическое ожидание, может быть использована для центрирования распределения. Поскольку оценки медианы более робастны, её оценивание может быть более предпочтительным для распределений с т. н. тяжёлыми хвостами. Однако о преимуществах оценивания медианы по сравнению с математическим ожиданием можно говорить только в случае, если эти характеристики у распределения совпадают, в частности, для симметричных функций плотности распределения вероятностей.

Медиана определяется для всех распределений, а в случае неоднозначности, естественным образом доопределяется, в то время как математическое ожидание может быть не определено (например, у распределения Коши).

Пример использования[править | править код]

Рассмотрим финансовое состояние 19 малоимущих, у каждого из каких есть только 5 ₽, и одного миллионера, у которого буквально 1 млн ₽. Тогда в сумме у них получается 1 000 095 ₽. Если деньги равными долями разделить на 20 человек, получится 50 004,75 ₽. Это будет среднее арифметическое значение суммы денег, которая была у всех 20 человек в этой комнате.

Медиана же будет равна 5 ₽ (сумма «расстояния» от этой величины до состояния каждого из рассматриваемых людей минимальна). Это можно интерпретировать следующим образом: «разделив» всех рассматриваемых людей на две равные группы по 10 человек, мы получаем, что в первой группе у каждого не больше 5 ₽, во второй же — не меньше 5 ₽.

Из этого примера получается, что в качестве «серединного» состояния, грубо говоря, корректнее всего использовать именно медиану, а вот среднее арифметическое, наоборот, значительно превышает сумму наличных, имеющуюся у случайного человека из выборки.

Различны изменения в динамике и у средней арифметической с медианой, например в вышеприведённом примере, если у миллионера станет 1,5 млн. ₽ (+50 %), а у остальных станет 6 ₽ (+20 %), то средняя арифметическая выборки станет равна 75 005,70 ₽, то есть как бы у всех повысились равномерно на 50 %, при этом медиана станет равной 6 ₽ (+20 %).

Неуникальность значения[править | править код]

Если имеется чётное количество случаев и два средних значения различаются, то медианой, по определению, может служить любое число между ними (например, в выборке {1, 3, 5, 7} медианой может служить любое число из интервала (3,5)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений (в примере выше это число (3+5)/2=4). Для выборок с чётным числом элементов можно также ввести понятие «нижней медианы» (элемент с номером n/2 в упорядоченном ряду из n элементов; в примере выше это число 3) и «верхней медианы» (элемент с номером (n+2)/2; в примере выше это число 5)[2]. Эти понятия определены не только для числовых данных, но и для любой порядковой шкалы.

См. также[править | править код]

  • Мода — значение во множестве наблюдений, которое встречается наиболее часто.
  • Среднее арифметическое набора чисел — число, сумма квадратов расстояний от которого до всех чисел из набора минимальна[3].

Примечания[править | править код]

  1. Сущность медианы. Дата обращения: 9 мая 2021. Архивировано 9 мая 2021 года.
  2. Кормен, Томас Х., Лейзерсон, Чарльз И., Ривест Рональ Л., Штайн, Клиффорд. Алгоритмы. Построение и анализ. — 2-е издание. — М.: Издательский дом «Вильямс», 2005. — С. 240. — 1296 с.
  3. Почему это равносильные определения среднего арифметического.

Литература[править | править код]

  • Медиана // Маниковский — Меотида. — М. : Большая российская энциклопедия, 2012. — С. 479—480. — (Большая российская энциклопедия : [в 35 т.] / гл. ред. Ю. С. Осипов ; 2004—2017, т. 19). — ISBN 978-5-85270-353-8.
  • Медиана // Большая российская энциклопедия [Электронный ресурс]. — 2017.

Онлайн калькулятор для нахождения медианы ряда чисел. Медианой (серединой) набора чисел называется число стоящее посередине упорядоченного по возрастанию ряда чисел. Если количество чисел в ряду чётное, то медианой ряда является полусумма двух стоящих посередине чисел.
Применяется в математической статистике — число, характеризующее выборку (например, набор чисел), также используется для вычисления медианной зарплаты.

Формула медианы числового набора, пример вычисления медианы числового ряда: 3, 7, 1, 6, 9
Решение: упорядочиваем список чисел в порядке возрастания: 1, 3, 6, 7, 9. Поскольку количество чисел в ряду нечётное, то число 6 стоящее по середине и будет являться медианой данного ряда.

Пример нахождения медианы ряда чисел: 1, 5, 8, 4, 3, 9
Решение: записываем все числа ряда в порядке возрастания: 1, 3, 4 ,5, 8, 9. Поскольку чисел в ряду чётное, то медиана этого ряда будет равна полусумме двух средних чисел: (4+5)/2 = 4.5

В поисках средних значений: разбираемся со средним арифметическим, медианой и модой

В поисках средних значений: разбираемся со средним арифметическим, медианой и модой

как считать среднее арифметическое чисел

Иногда при работе с данными нужно описать множество значений каким-то одним числом. Например, при исследовании эффективности сотрудников, уровня вовлеченности в аккаунте, KPI или времени ответа на сообщения клиентов. В таких случаях используют меры центральной тенденции. Их можно называть проще — средние значения.

Но в зависимости от вводных данных, находить среднее значение нужно по-разному. Основной набор задач закрывается с использованием среднего арифметического, медианы и моды. Но если выбрать неверный способ — выводы будут необъективны, а результаты исследования нельзя будет признать действительными. Чтобы не допустить ошибку, нужно понимать особенности разных способов нахождения средних значений.

Cтратег, аналитик и контент-продюсер. Работает с агентством «Палиндром».

Как считать среднее арифметическое

Использовать среднее арифметическое стоит тогда, когда множество значений распределяются нормально ― это значит, что значения расположены симметрично относительно центра. Как выглядит нормальное распределение на графике и в таблице, можно посмотреть на примере:

 использование чужих публикаций

Если данные распределяются как в примерах — вам повезло. Можно без лишних заморочек считать среднее арифметическое и быть уверенным, что выводы будут объективны. Однако, нормальное распределение на практике встречается крайне редко, поэтому среднее арифметическое в большинстве случаев лучше не использовать.

Как рассчитать

Сумму значений нужно поделить на их количество. Например, вы хотите узнать средний ER за 4 дня при нормальном распределении значений и без аномальных выбросов. Для этого считаем среднее арифметическое: складываем ER всех дней и делим полученное число на количество дней.

курирование контента

Если хотите автоматизировать вычисления и узнать среднее арифметическое для большого числа показателей — используйте Google Таблицы:

  1. Заполните таблицу данными.
  2. Щелкните по пустой ячейке, в которую хотите записать среднее арифметическое.
  3. Введите «=AVERAGE(» и выделите ряд чисел, для которых нужно вычислить среднее арифметическое. Нажмите «Enter» после ввода формулы.

курирование контента

Когда можно не использовать

Если данные распределены ненормально, то наши расчеты не будут отражать реальную картину. На ненормальность распределения указывают:

  • Отсутствие симметрии в расположении значений.
  • Наличие ярко выраженных выбросов.

Как пример ненормального распределения (с выбросами) можно рассматривать среднее время ответа на комментарии по неделям:

курирование контента

Если посчитать среднее значение для такого набора данных с помощью среднего арифметического, то получится завышенное число. В итоге наши выводы будут более позитивными, чем реальное положение дел. Еще стоит учитывать, что выбросы могут не только завышать среднее значение, но и занижать его. В таком случае вы получите более скромный показатель, который не будет соответствовать реальности.

Например, в группе «Золотое Яблоко» во ВКонтакте иногда публикуют конкурсные посты. Они набирают более высокие показатели вовлеченности чем обычные публикации. Если посчитать средний ER с учетом конкурсов, мы получим 0,37%, а без учета конкурсов — только 0,29%. Аналогичная ситуация с числом комментариев. С конкурсами в среднем получаем 917 комментариев, а без конкурсов — всего лишь 503. Очевидно, что из-за розыгрышей средние показатели вовлеченности завышаются. В этом случае конкурсные посты следует исключить из анализа, чтобы объективно оценить эффективность контента в группе.

курирование контента

Еще часто бывает так, что данных очень много, заметны явные выбросы, но на их обработку и исключение аномальных значений не хватит ни времени, ни терпения. Тем более нет гарантий, что исключив выбросы, вы получите нормальное распределение. В таком случае лучше подсчитать средние значения, используя медиану.

Как найти медиану и когда ее применять

Если вы имеете дело с ненормальным распределением или замечаете значительные выбросы — используйте медиану. Так можно получить более адекватное среднее значение, чем при использовании среднего арифметического. Чтобы понять, как работать с медианой, рассмотрим аналогичный пример с ненормальным распределением времени ответов на комментарии.

курирование контента

Ниже в таблице уже введены данные из графика и рассчитано среднее время ответа с помощью среднего арифметического и медианы. Из расчетов видна наглядная разница между средним арифметическим и медианой ― она составляет 17 минут. Такое различие появляется из-за низкого темпа работы на выходных и в нестандартных ситуациях, когда к ответу на сообщения нужно относиться с особой ответственностью (события конца февраля). Подобные выбросы сильно завышают среднее арифметическое, а вот на медиану они практически не влияют. Поэтому если хотите посчитать среднее значение избегая влияния выбросов, — используйте медиану. Такие данные будут без искажений.

курирование контента

Как рассчитать

Разберем на примере. В аккаунте опубликовали семь постов и они набрали разное количество комментариев: 35, 105, 2, 15, 2, 31, 1. Чтобы вычислить медиану, нужно пройти два этапа:

  • Расположите числа в порядке возрастания. Итоговый ряд будет выглядеть так: 1, 2, 2, 15, 31, 35, 105.
  • Найдите середину сформированного ряда. В центре стоит число 15 — его и нужно считать медианой.

Немного сложнее найти медиану, если вы работаете с четным количеством чисел. Например, вы собрали количество лайков на последних шести постах: 32, 48, 36, 201, 52, 12. Чтобы найти медиану, выполните три действия:

  • Расставьте числа по возрастанию: 12, 32, 36, 48, 52, 201.
  • Возьмите два из них, наиболее близких к центру. В нашем случае — это 36 и 48.
  • Сложите два этих числа и разделите на два: (36 + 48) / 2 = 42. Результат и есть медиана.

Чтобы вычислять медиану быстрее и обрабатывать большие объемы данных — используйте Google Таблицы:

  • Внесите данные в таблицу.
  • Щелкните по свободной ячейке, в которую хотите записать медиану.
  • Введите формулу «=MEDIAN(» и выделите ряд чисел, для которых нужно рассчитать медиану. Нажмите «Enter», чтобы все посчиталось.

курирование контента

Когда можно не использовать

Если данные распределены нормально и вы не видите заметных выбросов — медиану можно не использовать. В этом случае значение среднего арифметического будет очень близким к медиане. Можете выбрать любой способ нахождения среднего, с которым вам работать проще. Результат от этого сильно не изменится.

Что такое мода и где ее использовать

Мода ― это самое популярное/часто встречающееся значение. Например, стоит задача узнать, сколько комментариев чаще всего набирают посты в аккаунте. В этом случае можно не высчитывать среднее арифметическое или медиану ― лучше и проще использовать моду.

Еще пример. Нужно узнать, в какое время аудитория чаще всего взаимодействует с публикациями. Для этого можно посчитать данные вручную или использовать готовую таблицу из LiveDune (вкладка «Вовлеченность» ― таблица «Лучшее время для поста»). По ее данным ― больше всего реакций пользователи оставляют в среду в 16 часов. Это время и есть мода. Таким образом, если вам нужно найти самое популярное значение, а не классическое среднее — проще использовать моду.

курирование контента

Как рассчитать

Чтобы найти наиболее часто встречающееся значение в наборе данных, нужно посмотреть, какое число встречается в ряду чаще всех. Например, для ряда 5, 4, 2, 4, 7 ― модой будет число 4.

Иногда в ряде значений встречается несколько мод. Например, ряду 7, 7, 21, 2, 5, 5 свойственны две моды — 7 и 5. В этом случае совокупность чисел называется мультимодальной. Также поиск моды можно упростить с помощью Google Таблиц:

  • Внесите значения в таблицу.
  • Щелкните по ячейке, в которую хотите записать моду.
  • Введите формулу «=MODE(» и выделите ряд чисел, для которых нужно вычислить моду. Нажмите «Enter».

курирование контента

Однако важно иметь в виду, что табличная функция выдает только самую меньшую моду. Поэтому будьте внимательны — можно упустить из виду несколько мод.

Когда использовать не стоит

Моду нет смысла использовать, если вас не просят найти самое популярное значение. Там, где надо найти классическое среднее значение, про моду лучше забыть.

Памятка по использованию

Среднее арифметическое

Как находим: сумма чисел / количество чисел.
Используем: если данные распределены нормально и нет ярких выбросов.
Не используем: если видим явные выбросы или ненормальное распределение.

Медиана

Как находим: располагаем числа в порядке возрастания и находим середину сформированного ряда.
Используем: если работаем с ненормальным распределением или видим выбросы.
Не используем: если выбросов нет и распределение нормальное.

Мода

Как находим: определяем значение, которое чаще всего встречается в ряду чисел.
Используем: если нужно найти не среднее, а самое популярное значение.
Не используем: если нужно найти классическое среднее значение.

Только важные новости в ежемесячной рассылке

Нажимая на кнопку, вы даете согласие на обработку персональных данных.

Подписывайся сейчас и получи гайд аудита Instagram аккаунта

Маркетинговые продукты LiveDune — 7 дней бесплатно

Наши продукты помогают оптимизировать работу в соцсетях и улучшать аккаунты с помощью глубокой аналитики

Анализ своих и чужих аккаунтов по 50+ метрикам в 6 соцсетях.

Оптимизация обработки сообщений: операторы, статистика, теги и др.

Автоматические отчеты по 6 соцсетям. Выгрузка в PDF, Excel, Google Slides.

Контроль за прогрессом выполнения KPI для аккаунтов Инстаграм.

Аудит Инстаграм аккаунтов с понятными выводами и советами.

Поможем отобрать «чистых» блогеров для эффективного сотрудничества.

Помимо моды, среднего арифметического и размаха ряда чисел существует также такое понятие, как медиана. Ее используют для того, чтобы охарактеризовать какой-либо числовой ряд. Медианой называют среднее число в представленном ряду, то есть то, которое будет стоять в его середине.

Медиана — это число, стоящее посередине упорядоченного по возрастанию ряда чисел (в случае, если количество чисел нечетное), или же полусумма двух стоящих в середине чисел (если количество чисел в ряду четное).

На письме медиану обозначают как $Me$.

Стоит отметить, что медиана и среднее арифметическое — это не одно и то же. В первом случае мы будем брать число из середины ряда, а во втором — среднее значение.

Рассмотрим на примере. Нам дан определенный числовой ряд, состоящий из $13$ значений:

$$-3, 0, 0, 0, 3, 4, textcolor{blue}{8}, 8, 8, 8, 12, 15, 100$$

В данном ряду все числа расставлены по возрастанию, поэтому из $13$ позиций нам нужно найти ту, которая будет стоять в центре ряда. Ей станет позиция под номером $7$. Если мы посмотрим на числовой ряд, то можем увидеть, что на седьмом месте стоит число $textcolor{blue}{8}$. Таким образом, мы нашли медиану данного числового ряда, а в ответе можем записать, что $Me=8$.

Алгоритм нахождения медианы

Искать медиану в числовом ряде достаточно просто, для этого достаточно всего лишь придерживаться определенного алгоритма:

  1. Первым шагом будет нужно упорядочить числовой набор, выписав все числа последовательно в порядке возрастания.
  2. Затем, чтобы было удобнее находить медиану, следует поочередно зачеркивать одновременно самое большое и самое маленькое числа, то есть одно значение из начала числового ряда, а другое — из его конца. Это нужно делать до тех пор, пока в середине не останется одно (если ряд имеет нечетное количество чисел) или два (если ряд имеет четного количества чисел) значения.
  3. При условии, что в центре остается одно число, его и считают медианой, поэтому в таком случае задача уже будет решена.
  4. Если же в середине осталось два числа, то нужно найти их полусумму. Полученное значение и будет являться медианой числового ряда.

Попробуем применить данный алгоритм на примере. У нас имеется следующий ряд чисел:

$$19, 7, 21, 2, 15, 5$$

Прежде всего запишем все числа в порядке возрастания друг за другом:

$$2, 5, 7, 15, 19, 21$$

Теперь начнем убирать самое большое и самое маленькое значения. Сначала зачеркиваем числа $21$ и $2$, затем $19$ и $5$. Мы видим, что в середине осталось два числа, так как числовой ряд состоял из четного количества чисел.

$$textcolor{red}{2}, textcolor{red}{5}, 7, 15, textcolor{red}{19}, textcolor{red}{21}$$

Чтобы найти медиану, нам нужно сложить числа $7$ и $15$, после чего разделить их на два. Получается такой пример:

$$frac{7+15}{2}=frac{22}{2}=11$$

Значение $11$ и будет являться искомой медианой, поэтому в ответе мы можем записать, что $Me=11$.

МедианаВ статистических исследованиях довольно широко применяются средние величины. Их нахождение позволяет выявить типичное значение признака исследуемой совокупности. Например, типичный уровень доходов покупателей или возраст большинства клиентов компании. При этом вычисление, к примеру, среднего арифметического не всегда уместно.

Представим такую ситуацию: мы опросили 10 человек на предмет их уровня доходов. У 9-х доходы оказались примерно одинаковыми и составили 10 тыс. руб. Что касается 10-ого опрошенного, то оказалось, что его доход равняется 410 тыс. руб. в месяц. Если мы вычислим простое среднее арифметическое, то типичный доход будет равняться 50 тыс. руб.! Но это явно не так. В таких ситуациях более объективную и правдоподобную картину дает вычисление моды или медианы, которые относятся к структурным средним показателям.

Понятие медианы

Медиана (Me) — значение признака в исследуемом ряду величин, которое делит этот ряд на две равные части.

То есть половина (50%) всех значений в исследуемом ряду будет меньше медианы, а другая половина — больше ее. Поэтому медиану еще называют 50-й перцентиль или квантиль 0,5.

Формула для расчета медианы

Если значений немного, то медиану можно определить «на глазок». Для этого достаточно расположить все значения в порядке возрастания и найти середину.

Если число случаев четное и в центре ряда находятся два разных числа, то медианой будет среднее между ними (даже если такого значения нет в самом ряду исследуемых случаев). Например, в ряду 1 2 3 4 5 6, медианой будет 3,5.

Для нахождения медианы в более сложных случаях (по интервальным рядам) используется специальная формула:

Формула медианы

где: Me — медиана;

Xme — нижняя граница медианного интервала (того интервала, накопленная частота которого превышает полусумму всех частот);

ime — величина медианного интервала;

f — частота (сколько раз в ряду встречается то или иное значение);

Sme-1 — сумма частот интервалов предшествующих медианному интервалу;

fme — число значений в медианном интервале (его частота).

Пример вычисления медианы

Был проведен опрос среди покупателей с целью выяснить их типичный возраст. По результатам опроса было установлено, что: 25 покупателей имеют возраст до 20 лет; 32 покупателя — 20-40 лет; 18 покупателей — 40-60 лет; 15 покупателей — свыше 60 лет. Найдем медиану.

Исходные данные для примера с медианой

Сначала находим медианный интервал. Для этого вычисляем сумму частот: 25 + 32 + 18 + 15 = 90. Половина этой суммы — 45. Это соответствует возрастной группе 20-40 лет (т. к. полученная полусумма частот — 45, и накопленная частота 1-й группы меньше ее, а 3-ей — больше). Тогда нижняя граница медианного интервала — 20 (лет), а величина медианного интервала — 20 (40 лет за вычетом 20). Сумма частот интервалов предшествующих медианному интервалу — 25. Число значений в медианном интервале — 32 (количество покупателей в возрасте 20-40 лет).

Пример расчета медианы

Расчетное значение медианы — 32,5. Округив его, получим средний возраст покупателя — 33 года.

Область применения медианы

При вычислении типичного признака неоднородных рядов, имеющих «выбросы» — значения во много раз отличающиеся от других значений ряда.

Особенности медианы

  • Медиана обладает высокой робастностью, то есть нечувствительностью к неоднородностям и ошибкам выборки;
  • Сумма разностей между членами ряда выборки и медианой меньше, чем сумма этих разностей с любой другой величиной. В том числе с арифметическим средним.

Источники

  1. Медиана // Википедия. URL: http://ru.wikipedia.org/wiki/Медиана_(статистика) (дата обращения: 23.10.2013)
  2. Минашкин В. Г. и др. Курс лекций по теории статистики. – М.: МЭСИ, 2001.

© Копирование любых материалов статьи допустимо только при указании прямой индексируемой ссылки на источник: Галяутдинов Р.Р.

Нашли опечатку? Помогите сделать статью лучше! Выделите орфографическую ошибку мышью и нажмите Ctrl + Enter.

Библиографическая запись для цитирования статьи по ГОСТ Р 7.0.5-2008:
Галяутдинов Р.Р. Медиана // Сайт преподавателя экономики. [2013]. URL: https://galyautdinov.ru/post/mediana (дата обращения: 23.05.2023).

Добавить комментарий