Как найти медиану набора данных

У этого термина существуют и другие значения, см. Медиана.

Медиа́на (от лат. mediāna «середина») или набора чисел — число, которое находится в середине этого набора, если его упорядочить по возрастанию, то есть такое число, что половина из элементов набора не меньше него, а другая половина не больше. Другое равносильное определение[1]: медиана набора чисел — это число, сумма расстояний (или, если более строго, модулей) от которого до всех чисел из набора минимальна. Это определение естественным образом обобщается на многомерные наборы данных и называется 1-медианой.

Например, медианой набора {11, 9, 3, 5, 5} является число 5, так как оно стоит в середине этого набора после его упорядочивания: {3, 5, 5, 9, 11}. Если в выборке чётное число элементов, медиана может быть не определена однозначно: тогда для числовых данных чаще всего используют полусумму двух соседних значений (то есть медиану набора {1, 3, 5, 7} принимают равной 4), подробнее см. ниже.
В математической статистике медиана может использоваться как одна из характеристик выборки или совокупности чисел.

Также определяется медиана случайной величины: в этом случае оно определяется как число, которое делит пополам распределение. Грубо говоря, медианой случайной величины является такое число, что вероятность получить значение случайной величины справа от него равна вероятности получить значение слева от него (и они обе равны 1/2), — более точное определение дано ниже.

Можно также сказать, что медиана является 50-м персентилем, 0,5-квантилем или вторым квартилем выборки или распределения.

Свойства медианы для случайных величин[править | править код]

Если распределение непрерывно, то медиана является одним из решений уравнения

F(x)=0.5,

где F — функция распределения случайной величины x, связанная с плотностью распределения f как

{displaystyle F(x)=int _{-infty }^{x}f(chi ),dchi }.

Если распределение является непрерывной строго возрастающей функцией, то решение уравнения однозначно. Если распределение имеет разрывы, то медиана может совпадать с минимальным или максимальным (крайним) возможным значением случайной величины, что противоречит «геометрическому» пониманию этого термина.

Медиана является важной характеристикой распределения случайной величины и, так же как математическое ожидание, может быть использована для центрирования распределения. Поскольку оценки медианы более робастны, её оценивание может быть более предпочтительным для распределений с т. н. тяжёлыми хвостами. Однако о преимуществах оценивания медианы по сравнению с математическим ожиданием можно говорить только в случае, если эти характеристики у распределения совпадают, в частности, для симметричных функций плотности распределения вероятностей.

Медиана определяется для всех распределений, а в случае неоднозначности, естественным образом доопределяется, в то время как математическое ожидание может быть не определено (например, у распределения Коши).

Пример использования[править | править код]

Рассмотрим финансовое состояние 19 малоимущих, у каждого из каких есть только 5 ₽, и одного миллионера, у которого буквально 1 млн ₽. Тогда в сумме у них получается 1 000 095 ₽. Если деньги равными долями разделить на 20 человек, получится 50 004,75 ₽. Это будет среднее арифметическое значение суммы денег, которая была у всех 20 человек в этой комнате.

Медиана же будет равна 5 ₽ (сумма «расстояния» от этой величины до состояния каждого из рассматриваемых людей минимальна). Это можно интерпретировать следующим образом: «разделив» всех рассматриваемых людей на две равные группы по 10 человек, мы получаем, что в первой группе у каждого не больше 5 ₽, во второй же — не меньше 5 ₽.

Из этого примера получается, что в качестве «серединного» состояния, грубо говоря, корректнее всего использовать именно медиану, а вот среднее арифметическое, наоборот, значительно превышает сумму наличных, имеющуюся у случайного человека из выборки.

Различны изменения в динамике и у средней арифметической с медианой, например в вышеприведённом примере, если у миллионера станет 1,5 млн. ₽ (+50 %), а у остальных станет 6 ₽ (+20 %), то средняя арифметическая выборки станет равна 75 005,70 ₽, то есть как бы у всех повысились равномерно на 50 %, при этом медиана станет равной 6 ₽ (+20 %).

Неуникальность значения[править | править код]

Если имеется чётное количество случаев и два средних значения различаются, то медианой, по определению, может служить любое число между ними (например, в выборке {1, 3, 5, 7} медианой может служить любое число из интервала (3,5)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений (в примере выше это число (3+5)/2=4). Для выборок с чётным числом элементов можно также ввести понятие «нижней медианы» (элемент с номером n/2 в упорядоченном ряду из n элементов; в примере выше это число 3) и «верхней медианы» (элемент с номером (n+2)/2; в примере выше это число 5)[2]. Эти понятия определены не только для числовых данных, но и для любой порядковой шкалы.

См. также[править | править код]

  • Мода — значение во множестве наблюдений, которое встречается наиболее часто.
  • Среднее арифметическое набора чисел — число, сумма квадратов расстояний от которого до всех чисел из набора минимальна[3].

Примечания[править | править код]

  1. Сущность медианы. Дата обращения: 9 мая 2021. Архивировано 9 мая 2021 года.
  2. Кормен, Томас Х., Лейзерсон, Чарльз И., Ривест Рональ Л., Штайн, Клиффорд. Алгоритмы. Построение и анализ. — 2-е издание. — М.: Издательский дом «Вильямс», 2005. — С. 240. — 1296 с.
  3. Почему это равносильные определения среднего арифметического.

Литература[править | править код]

  • Медиана // Маниковский — Меотида. — М. : Большая российская энциклопедия, 2012. — С. 479—480. — (Большая российская энциклопедия : [в 35 т.] / гл. ред. Ю. С. Осипов ; 2004—2017, т. 19). — ISBN 978-5-85270-353-8.
  • Медиана // Большая российская энциклопедия [Электронный ресурс]. — 2017.


Download Article


Download Article

The median is the exact middle number in a sequence or set of numbers.[1]
When you’re looking for the median in a sequence that has an odd amount of total numbers, the process is really easy. Finding the median in a sequence that has an even amount of total numbers is a bit harder. To find the median easily and successfully, read on.

  1. Image titled Find the Median of a Set of Numbers Step 1

    1

    Sort your set of numbers from least to greatest. If they’re scrambled, line them up, starting with the lowest number and ending with the highest number.[2]

  2. Image titled Find the Median of a Set of Numbers Step 2

    2

    Find the number that is exactly in the middle. This means that median number has the same amount of numbers in front of it as it does behind it. Count them to make sure.[3]

    • There are two numbers in front of the 3, and two numbers behind it. This tells us that 3 is the number exactly in the middle.

    Advertisement

  3. Image titled Find the Median of a Set of Numbers Step 3

    3

    Finished. The median of an odd-numbered sequence is always a number in the sequence itself. It is never a number that is not in the sequence.

  4. Advertisement

  1. Image titled Find the Median of a Set of Numbers Step 4

    1

    Sort out your set of numbers from least to greatest. Again, use the same first step as the first method. An even set of numbers is going to have two numbers exactly in the middle.[4]

  2. Image titled Find the Median of a Set of Numbers Step 5

    2

    Find the average of the two numbers in the middle. 2 and 3 are both in the middle, so you need to add 2 and 3, then divide the sum by 2. The formula for finding the average of two numbers is (the sum of the two middle numbers) ÷ 2.[5]

  3. Image titled Find the Median of a Set of Numbers Step 6

    3

    Finished. The median of a sequence with even amount of numbers doesn’t have to be a number in the sequence itself.

  4. Advertisement

Add New Question

  • Question

    How do I find the range?

    Donagan

    Subtract the lowest number in the set from the highest number.

  • Question

    How do I find the mode?

    Community Answer

    The mode is the digit in the set that appears most often. Example: 9,7,8,2,9,3,9 — the mode is 9.

  • Question

    Do I do anything differently if there are two of the same number?

    Community Answer

    No, just treat each occurrence as a separate piece of data and add them just like you would different numbers.

See more answers

Ask a Question

200 characters left

Include your email address to get a message when this question is answered.

Submit

Advertisement

About This Article

Article SummaryX

To find the median in a set of numbers, sort the numbers from least to greatest. For a set with an odd amount of numbers, simply find the number that falls exactly in the middle of your list. For an even set of numbers, locate the two numbers in the middle and find the average by adding them together and dividing by two. The median that you calculate can be a decimal or a whole number, depending on the two numbers in the middle. For tips on how to check if you got the right answer, read on!

Did this summary help you?

Thanks to all authors for creating a page that has been read 512,796 times.

Did this article help you?


Загрузить PDF


Загрузить PDF

Медиана — это среднее число в ряду или последовательности чисел. Когда речь идет о поиске медианы в последовательности, состоящей из нечетного количества полных чисел, процесс не представляет труда. Найти медиану в последовательности, где представлено четное количество полных чисел, будет несколько сложнее. Прочитайте нашу инструкцию, чтобы найти медиану легко и успешно.

  1. Изображение с названием Find the Median of a Set of Numbers Step 1

    1

    Расположите числа от меньшего к большему.

    • Если они перепутаны, расставьте их по порядку, начиная с меньшего и заканчивая большим.
  2. Изображение с названием Find the Median of a Set of Numbers Step 2

    2

    Найдите число, стоящее ровно посередине. Это значит, что до медианы стоит столько же чисел, что и после медианы. Подсчитайте их, чтобы проверить.

    • Перед числом 3 стоит два числа, после него — тоже два. Это значит, что 3 стоит в середине.
  3. Изображение с названием Find the Median of a Set of Numbers Step 3

    3

    Вы закончили. Медиана в нечетном ряду чисел — это всегда одно из чисел множества. Медианой не может быть число, не входящее в числовой ряд.

    Реклама

  1. Изображение с названием Find the Median of a Set of Numbers Step 4

    1

    Расположите числа от меньшего к большему. Повторите первый шаг предыдущего метода. Четный ряд чисел будет содержать два числа ровно посередине.

  2. Изображение с названием Find the Median of a Set of Numbers Step 5

    2

    Найдите среднее арифметическое чисел, стоящих в середине. 2 и 3 стоят в середине, поэтому надо к 2 прибавить 3 и разделить сумму на два. Формула вычисления среднего арифметического двух чисел: (сумма двух средних чисел)÷2

  3. Изображение с названием Find the Median of a Set of Numbers Step 6

    3

    Вы закончили. Медиана ряда с четным количеством чисел не обязательно бывает одним из чисел ряда.

    Реклама

Об этой статье

Эту страницу просматривали 25 390 раз.

Была ли эта статья полезной?

Медиана (x̃, M; Мера центральной тенденции) – это центральное значение Выборки (Sample).

В математике медиана также представляет собой тип Среднего значения (Average), который используется для нахождения “центра”. Поэтому ее еще называют мерой центральной тенденции.

Нечетное количество элементов ряда

Если в ряду нечетное количество элементов, то мы сортируем значения в возрастающем или убывающем порядке, а затем выбираем центральное.

Пример. Найдем медиану следующего ряда:

4, 17, 77, 25, 22, 23, 92, 82, 40, 24, 14, 12, 67, 23, 29

Расставив эти числа по порядку, мы получим:

4, 12, 14, 17, 22, 23, 23, 24, 25, 29, 40, 67, 77, 82, 92

Всего пятнадцать элементов, то есть 8-й будет центральным. Медианное значение этого набора чисел – 24.

Четное количество элементов ряда

Если в ряду четное количество элементов, медиана рассчитывается с помощью формулы:

$$M = frac{n + 1}{2}, где$$
$$Mspace{–}space{медиана,}$$
$$nspace{–}space{количество}space{элементов}space{в}space{выборке}$$

Пример. Найдем медиану следующего ряда:

1.79, 1.61, 2.09, 1.84, 1.96, 2.11

Выполнив подстановку, мы получим:

$$M = frac{6 + 1}{2} = 3.5$$

Центральная тенденция

Помимо медианы, выделяют еще две другие меры центральной тенденции – Среднее значение (Mean) и Мода (Mode). Среднее – это частное от суммы всех Наблюдений (Observation) к их количеству. Мода – это наиболее часто повторяющееся значение выборки.

В Науке о данных (Data Science) медиана иногда используется вместо среднего значения, когда в последовательности есть выбросы, которые могут исказить среднее. Выбросы меньше влияют на медианное значение, чем на среднее. Медиана отделяет верхнюю половину выборки, генеральной совокупности или Распределения вероятностей (Probability Distribution) от нижней.

Медиана распределения вероятностей

Медиана и NumPy

Медиану можно вычислить с помощью NumPy. Для начала импортируем все необходимые библиотеки:

import numpy as np

Создадим массив из 6 элементов и вызовем встроенный метод median():

a = [10, 7, 4, 3, 2, 1]
np.median(a)

NumPy определяет четность числа элементов массива (6) и применяет тот или иной метод расчета (согласно формуле):

3.5

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Фото: @garciasaldana_

Как найти медиану набора данных в статистике

Опубликовано 2022-09-26 21:19 пользователем

В статистике медиана является важным показателем для анализа наборов данных. К счастью, существует несколько простых в освоении методов расчета медианного значения. Как только вы поймете, как найти медиану из группы чисел, вы сможете использовать ее для сравнения данных и средних значений.

В этой статье мы объясним, что такое медиана, опишем, как найти медиану, а также приведем полезные примеры и советы, которые вы можете использовать для справки.

Что такое медиана?

Медиана – это середина, центр или середина группы чисел. Когда вы упорядочиваете набор чисел от наименьшего к наибольшему, медиана – это число, находящееся прямо посередине. 50% значений в наборе встречаются ниже медианы, а 50% – выше медианы.

Два связанных статистических показателя, которые люди часто путают с медианой:

  • Среднее значение, которое представляет собой среднее значение набора данных. Чтобы вычислить среднее значение, сложите все числа в наборе вместе и разделите полученную сумму на количество значений в наборе.

  • Режим, который является наиболее распространенным числом в наборе данных. Она встречается чаще, чем любая другая цифра.

Вы можете найти медиану набора данных, а не среднее значение или режим, чтобы избежать выбросов, или непропорционально низких или высоких чисел, в вашем статистическом анализе. Выбросы могут создать среднее значение, которое неточно представляет группу чисел. Поэтому медиана иногда является более точным показателем для использования в анализе.

Как найти медиану

Вы можете найти медиану набора данных различными способами, в зависимости от количества точек данных и от того, являются ли значения числовыми или категориальными. Эти методы включают:

Данные с нечетными номерами

Найти медиану из нечетного количества точек данных проще всего следующим образом. Нечетное количество точек данных означает, что при подсчете общего количества точек в наборе данных получается нечетное число. Вот как найти медиану, если у вас нечетный набор данных:

  1. Упорядочить все числа от наименьшего к наибольшему.

  2. Подсчитать количество чисел в наборе.

  3. Найдите число в середине всех цифр и убедитесь, что над и под вашим числом находится одинаковое количество точек.

  4. Это среднее число и есть медиана.

Вы также можете использовать уравнение для нахождения медианы: (n + 1) 2. N – количество точек в наборе данных. Это уравнение полезно, если набор данных с нечетными номерами включает много чисел.

Данные с четными номерами

Для нахождения медианы четного числа точек данных требуется дополнительный шаг:

  1. Упорядочить все числа от наименьшего к наибольшему.

  2. Подсчитать количество чисел в наборе.

  3. Найдите пару чисел в середине фигур.

  4. Найдите среднее значение пары точек, сложив их вместе и разделив на два.

  5. Полученное число является медианой.

Если у вас много точек данных, вы можете использовать эти два уравнения для упрощения процесса: (n 2) и (n 2) + 1. N – количество точек в наборе данных. Результаты двух уравнений позволяют определить местоположение средней пары чисел. Усредните их, чтобы найти медиану.

Порядковые данные

Если вы работаете с порядковым набором данных, то есть ваши данные классифицированы не по числам, а по значениям, вы все равно можете рассчитать медиану. Вы можете увидеть это в таких категориях, как скорость, где данные показывают такие значения, как очень медленно, медленно, средне, быстро и очень быстро. Вот как вычислить медиану порядковых данных:

  1. Расположите точки данных в порядке от наименьшего к наибольшему, например, от медленного к быстрому.

  2. Определите, четное или нечетное количество точек данных.

  3. Если у вас нечетное число, используйте уравнение (n + 1) 2 для нахождения медианы. Например, если результат равен 7, медиана – это седьмое значение в списке точек данных.

Если у вас четное количество точек данных, вы не сможете точно рассчитать их медиану.

Примеры нахождения медианы

Используйте эти примеры с различными типами наборов данных, чтобы понять, как найти медиану:

Пример набора данных с нечетными номерами

Пример: Найти медиану из 3, 15, 9, 2, 27, 24, 38, 26, 45, 21, 56, 16, 11, 55, 29, 22, 60.

  • Расположите числа в порядке от наименьшего к наибольшему: 2, 3, 9, 11, 15, 16, 21, 22, 24, 26, 27, 29, 38, 45, 55, 56, 60.

  • Имеется 17 чисел, поэтому среднее число, или медиана, – это девятое значение: 24.

  • Использование уравнения: (17 + 1) 2 = 9

Пример набора данных с четными цифрами

Пример: Найти медиану из 12, 3, 5, 9, 22, 37, 44, 51, 32, 2, 10, 25.

  • Расположите числа в порядке от наименьшего к наибольшему: 2, 3, 5, 9, 10, 12, 22, 25, 32, 37, 44, 51.

  • Имеется 12 чисел, поэтому средние числа – это шестое и седьмое значения, или 12 и 22.

  • Использование уравнения: (12 2) = 6 и (12 2) + 1 = 7

  • Усредните шестое и седьмое значения, чтобы найти медиану: (12 + 22) 2 = 17

Пример ординального набора данных

Пример: Найдите медиану между согласен , не согласен , в некоторой степени согласен , категорически не согласен , в некоторой степени не согласен , категорически согласен и нейтрально .

  • Расположите значения в порядке от наименьшего к наибольшему: категорически не согласен, не согласен, в некоторой степени не согласен, нейтрально, в некоторой степени согласен, согласен, полностью согласен.

  • Существует семь значений, поэтому среднее значение, или медиана, – это четвертое значение: нейтральное.

  • Используя уравнение: (7 + 1) 2 = 4

Советы по поиску медианы

При расчете и работе с медианами учитывайте эти советы:

  • Думайте о медиане в статистике, как о медиане на шоссе. Медиана шоссе делит дорогу ровно пополам: 50% дороги на одной стороне и 50% дороги на другой стороне.

  • Найти медиану набора данных можно только в том случае, если вы можете расположить числа в наборе данных в порядке возрастания.

  • Выбирайте медиану, а не среднее значение или мода, если вы пытаетесь устранить отклонения, чтобы найти реалистичное среднее значение.

  • Используйте уравнения для быстрого и простого нахождения медианы при анализе больших наборов данных.

  • Хотя это не совсем точный метод, если вам нужно найти медиану четного набора порядковых данных, преобразуйте каждое значение в число и рассматривайте его как числовой набор данных. Найдите среднее значение средних величин, чтобы вычислить медиану.

Рубрика: 

  • Карьера и Саморазвитие

Ключевые слова: 

  • статистика

Источник: 

  • indeed.com

Перевод: 

  • Дмитрий Л

Добавить комментарий