Как найти медиану в столбце

  • Редакция Кодкампа

17 авг. 2022 г.
читать 1 мин


Вы можете использовать функцию median() , чтобы найти медиану одного или нескольких столбцов в кадре данных pandas:

#find median value in specific column
df['column1']. median ()

#find median value in several columns
df[['column1', 'column2']]. median ()

#find median value in every numeric column
df.median ()

В следующих примерах показано, как использовать эту функцию на практике со следующими пандами DataFrame:

#create DataFrame
df = pd.DataFrame({'player': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
 'points': [25, pd.NA , 15, 14, 19, 23, 25, 29],
 'assists': [5, 7, 7, 9, 12, 9, 9, 4],
 'rebounds': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
df

 player points assists rebounds
0 A 25 5 11
1 B NA 7 8
2 C 15 7 10
3 D 14 9 6
4 E 19 12 6
5 F 23 9 5
6 G 25 9 9
7 H 29 4 12

Пример 1: найти медиану одного столбца

В следующем коде показано, как найти медианное значение одного столбца в кадре данных pandas:

#find median value of *points* column
df['points']. median ()

23.0

Среднее значение в столбце очков равно 23 .

Обратите внимание, что по умолчанию функция median() игнорирует любые отсутствующие значения при вычислении медианы.

Пример 2: найти медиану нескольких столбцов

В следующем коде показано, как найти медианное значение нескольких столбцов в кадре данных pandas:

#find median value of *points* and *rebounds* columns
df[['points', 'rebounds']]. median ()

points 23.0
rebounds 8.5
dtype: float64

Пример 3. Найдите медиану всех числовых столбцов

В следующем коде показано, как найти медианное значение всех числовых столбцов в кадре данных pandas:

#find median value of all numeric columns
df.median ()

points 23.0
assists 8.0
rebounds 8.5
dtype: float64

Дополнительные ресурсы

Как рассчитать среднее значение столбцов в Pandas
Как рассчитать сумму столбцов в Pandas
Как найти максимальное значение столбцов в Pandas

Excel для Microsoft 365 Excel для Microsoft 365 для Mac Excel для Интернета Excel 2021 Excel 2021 для Mac Excel 2019 Excel 2019 для Mac Excel 2016 Excel 2016 для Mac Excel 2013 Excel 2010 Excel 2007 Excel для Mac 2011 Excel Starter 2010 Еще…Меньше

В этой статье описаны синтаксис формулы и использование функции МЕДИАНА в Microsoft Excel.

Описание

Возвращает медиану заданных чисел. Медиана — это число, которое является серединой множества чисел.

Синтаксис

МЕДИАНА(число1;[число2];…)

Аргументы функции МЕДИАНА описаны ниже.

  • Число1, число2,…    Аргумент “число1” является обязательным, последующие числа необязательные. От 1 до 255 чисел, для которых требуется определить медиану.

Замечания

  • Если в наборе имеется ряду чисел, медиана вычисляет среднее значение двух чисел в середине. См. вторую формулу в примере.

  • Аргументы могут быть либо числами, либо содержащими числа именами, массивами или ссылками.

  • Учитываются логические значения и текстовые представления чисел, которые непосредственно введены в список аргументов.

  • Если аргумент, который является массивом или ссылкой, содержит текст, логические значения или пустые ячейки, то такие значения пропускаются; однако ячейки, которые содержат нулевые значения, учитываются.

  • Аргументы, которые являются значениями ошибки или текстами, не преобразуемыми в числа, приводят в возникновению ошибок.

Примечание: Функция МЕДИАНА измеряет центральную тенденцию, которая является центром множества чисел в статистическом распределении. Существует три наиболее распространенных способа определения центральной тенденции:

  • Среднее значение     — это среднее арифметическое, которое вычисляется путем сложения набора чисел с последующим делением полученной суммы на их количество. Например, средним значением для чисел 2, 3, 3, 5, 7 и 10 будет 5, которое является результатом деления их суммы, равной 30, на их количество, равное 6.

  • Медиана     — это число, которое является серединой множества чисел, то есть половина чисел имеют значения большие, чем медиана, а половина чисел имеют значения меньшие, чем медиана. Например, медианой для чисел 2, 3, 3, 5, 7 и 10 будет 4.

  • Мода     — это число, наиболее часто встречающееся в данном наборе чисел. Например, модой для чисел 2, 3, 3, 5, 7 и 10 будет 3.

При симметричном распределении множества чисел все три значения центральной тенденции будут совпадать. При смещенном распределении множества чисел значения могут быть разными.

Пример

Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.

Данные

1

2

3

4

5

6

Формула

Описание

Результат

=МЕДИАНА(A2:A6)

Медиана пяти чисел в диапазоне A2:A6. Так как имеется пять значений, третье из них является медианой.

3

=МЕДИАНА(A2:A7)

Медиана шести чисел в диапазоне A2:A6. Так как имеется шесть чисел, медианой является средняя точка между третьим и четвертым числами.

3,5

Нужна дополнительная помощь?

Нужны дополнительные параметры?

Изучите преимущества подписки, просмотрите учебные курсы, узнайте, как защитить свое устройство и т. д.

В сообществах можно задавать вопросы и отвечать на них, отправлять отзывы и консультироваться с экспертами разных профилей.

Функция МЕДИАНА в Excel используется для анализа диапазона числовых значений и возвращает число, которое является серединой исследуемого множества (медианой). То есть, данная функция условно разделяет множество чисел на два подмножества, первое из которых содержит числа меньше медианы, а второе – больше. Медиана является одним из нескольких методов определения центральной тенденции исследуемого диапазона.

Примеры использования функции МЕДИАНА в Excel

Пример 1. При исследовании возрастных групп студентов использовались данные случайно выбранной группы учащихся в ВУЗе. Задача – определить срединный возраст студентов.

Исходные данные:

Пример 1.

Формула для расчета:

Формула для расчета.

Описание аргумента:

  • B3:B15 – диапазон исследуемых возрастов.

Полученный результат:

результат.

То есть в группе есть студенты, возраст которых меньше 21 года и больше этого значения.



Сравнение функций МЕДИАНА и СРЗНАЧ для вычисления среднего значения

Пример 2. Во время вечернего обхода в больнице каждому больному была замерена температура тела. Продемонстрировать целесообразность использования параметра медиана вместо среднего значения для исследования ряда полученных значений.

Исходные данные:

Пример 2.

Формула для нахождения среднего значения:

Формула для среднего значения.

Формула для нахождения медианы:

нахождение медианы.

Как видно из показателя среднего значения, в среднем температура у пациентов выше нормы, однако это не соответствует действительности. Медиана показывает, что как минимум у половины пациентов наблюдается нормальная температура тела, не превышающая показатель 36,6.

Внимание! Еще одним методом определения центральной тенденции является мода (наиболее часто встречающееся значение в исследуемом диапазоне). Чтобы определить центральную тенденцию в Excel следует использовать функцию МОДА. Обратите внимание: в данном примере значения медианы и моды совпадают:

МОДА.

То есть срединная величина, делящая одно множество на подмножества меньших и больших значений также является и наиболее часто встречающимся значением в множестве. Как видно, у большинства пациентов температура составляет 36,6.

Пример расчета медианы при статистическом анализе в Excel

Пример 3. В магазине работают 3 продавца. По результатам последних 10 дней необходимо определить работника, которому будет выдана премия. При выборе лучшего работника учитывается степень эффективности его работы, а не число проданных товаров.

Исходная таблица данных:

таблица данных.

Для характеристики эффективности будем использовать сразу три показателя: среднее значение, медиана и мода. Определим их для каждого работника с использованием формул СРЗНАЧ, МЕДИАНА и МОДА соответственно:

характеристики.

Для определения степени разброса данных используем величину, которая является суммарным значением модуля разницы среднего значения и моды, среднего значения и медианы соответственно. То есть коэффициент x=|av-med|+|av-mod|, где:

  • av – среднее значение;
  • med – медиана;
  • mod – мода.

Рассчитаем значение коэффициента x для первого продавца:

Аналогично проведем расчеты для остальных продавцов. Полученные результаты:

значение коэффициента.

Определим продавца, которому будет выдана премия:

Примечание: функция НАИМЕНЬШИЙ возвращает первое минимальное значение из рассматриваемого диапазона значений коэффициента x.

выдана премия.

Коэффициент x является некоторой количественной характеристикой стабильности работы продавцов, которую ввел экономист магазина. С его помощью удалось определить диапазон с наименьшими отклонениями значений. Этот способ демонстрирует, как можно использовать сразу три метода определения центральной тенденции для получения наиболее достоверных результатов.

Особенности использования функции МЕДИАНА в Excel

Функция имеет следующий синтаксис:

=МЕДИАНА(число1;[число2];…)

Описание аргументов:

  • число1 – обязательный аргумент, характеризующий первое числовое значение, содержащееся в исследуемом диапазоне;
  • [число2] – необязательный второй (и последующие аргументы, всего до 255 аргументов), характеризующий второе и последующие значения исследуемого диапазона.

Примечания 1:

  1. При расчетах удобнее передавать сразу весь диапазон исследуемых значений вместо последовательного ввода аргументов.
  2. В качестве аргументов принимаются данные числового типа, имена, содержащие числа, данные ссылочного типа и массивы (например, =МЕДИАНА({1;2;3;5;7;10})).
  3. При расчете медианы учитываются ячейки, содержащие пустые значения или логические ИСТИНА, ЛОЖЬ, которые будут интерпретированы как числовые значения 1 и 0 соответственно. Например, результат выполнения функции с логическими значениями в аргументах (ИСТИНА;ЛОЖЬ) эквивалентен результату выполнения с аргументами (1;0) и равен 0,5.
  4. Если один или несколько аргументов функции принимают текстовые значения, которые не могут быть преобразованы в числовые, или содержат коды ошибок, результатом выполнения функции будет код ошибки #ЗНАЧ!.
  5. Для определения медианы выборки могут быть использованы другие функции Excel: ПРОЦЕНТИЛЬ.ВКЛ, КВАРТИЛЬ.ВКЛ, НАИБОЛЬШИЙ Примеры использования:
  • =ПРОЦЕНТИЛЬ.ВКЛ(A1:A10;0,5), поскольку по определению медиана – 50-я процентиль.
  • =КВАРТИЛЬ.ВКЛ(A1:A10;2), так как медиана – 2-я квартиль.
  • =НАИБОЛЬШИЙ(A1:A9;СЧЁТ(A1:A9)/2), но только если количество чисел в диапазоне является нечетным числом.

Примечания 2:

  1. Если в исследуемом диапазоне все числа распределены симметрично относительно среднего значения, среднее арифметическое и медиана для данного диапазона будут эквивалентны.
  2. При больших отклонениях данных в диапазоне («разбросе» значений) медиана лучше отражает тенденцию распределения значений, чем среднее арифметическое. Отличным примером является использование медианы для определения реального уровня зарплат у населения государства, в котором чиновники получают на порядок больше обычных граждан.
  3. Диапазон исследуемых значений может содержать:

Скачать примеры функции МЕДИАНА для статистического анализа в Excel

  • Нечетное количество чисел. В этом случае медианой будет являться единственное число, разделяющее диапазон на два подмножества больших и меньших значений соответственно;
  • Четное количество чисел. Тогда медиана вычисляется как среднее арифметическое для двух числовых значений, разделяющих множество на два указанных выше подмножества.

Для различных аналитических целей часто требуется получить средний уровень различных показателей: средний возраст, средняя зарплата и т.д. Первое, что приходит на ум – это найти простое среднее арифметическое. Но всегда ли это правильно? В этой статье разберемся, что такое медиана, среднее арифметическое и мода. А также научимся считать их в Excel.

  • Среднее арифметическое
  • Медиана – чем отличается от среднего значения
  • Что лучше – медиана или среднее значение
  • Что такое мода
  • Средневзвешенное значение

Среднее арифметическое

Среднее арифметическое значение – это сумма всех элементов выборки, поделенная на количество этих элементов.

Например, есть список должностей и заработных плат. Чтобы посчитать среднюю заработную плату в Excel, воспользуемся функцией СРЗНАЧ.

Мода медиана и среднее значение как посчитать в excel

Медиана – чем отличается от среднего значения

Медиана – это середина набора чисел, отсортированного по возрастанию.

Другими словами, 50% наблюдений ниже медианы и 50% наблюдений выше медианы. Медиана всегда равно удалена от начала и от конца набора чисел.

Если набор чисел состоит из нечетного количества элементов, то медианой будет число, которое находится в середине.

Мода медиана и среднее значение как посчитать в excel

Если набор чисел состоит из четного числа элементов, то медиана будет равна среднему арифметическому между двумя центральными элементами списка.

Мода медиана и среднее значение как посчитать в excel

Чтобы наглядно увидеть, чем отличается медиана от среднеарифметического значения на нашем первом примере с зарплатой, отсортируем список по возрастанию.

Поскольку в списке 10 элементов – четное количество – то медианой будет среднее арифметическое 5 и 6 элементов.

Мода медиана и среднее значение как посчитать в excel

Чтобы посчитать медиану в Excel, воспользуемся функцией МЕДИАНА. В качестве аргументов функция принимает числовые значения ряда данных.

Мода медиана и среднее значение как посчитать в excel

Как видите, медиана не равна среднему значению.

Что лучше – медиана или среднее значение

На этот вопрос однозначного ответа нет, все зависит от целей вашего анализа.

Основные отличия медианы от среднего арифметического:

  1. Медиана в отличие от среднего арифметического игнорирует выбросы данных (выбросы – это значения, которые значительно отличаются от основного массива выборки).

Рассмотрим пример:

Мода медиана и среднее значение как посчитать в excel

В данном примере число 100 – это выброс, т.к. оно значительно отличается от основной других чисел в ряду. И при расчете среднего арифметического это число 100 исказило среднее – оно стало значительно больше остальных чисел.

Медиана же останется неизменной, даже если вместо 100 мы укажем 1000, т.к. середина ряда все равно будет число 6.

Это свойство медианы – игнорировать выбросы – особенно полезно, когда нужно посчитать среднюю зарплату или средний возраст. В целом, медиана более точно определяет середину выборки, чем среднее арифметическое, поскольку устойчива к искажениям.

  1. Свойство медианы игнорировать выбросы, на самом деле, не всегда полезно. Оно может скрыть из виду важные моменты, тогда как среднее арифметическое, завысив или занизив среднее, поможет обратить на них внимание.

В нашем примере с заработной платой среднее арифметическое заработных плат выше, чем медиана. Это может обратить внимание на то, что одна из заработных плат (в данном случае – директора) сильно отличается от заработных плат других сотрудников.

  1. Если ряд данных имеет нормальное или близкое к нормальному распределение, то медиана или среднее значение будут равны или близки друг к другу.
  2. Если среднее значение больше медианы, то распределение положительно искажено (т.е. имеет выбросы в сторону больших значений). И наоборот, если среднее значение меньше медианы, то выборка отрицательно искажена (преобладают меньшие значения).

Что такое мода

Мода – это наиболее часто встречающееся значение выборки.

В нашем примере мода – это заработная плата 40000, т.к. это значение встречается 3 раза, в то время, как остальные значения – один или два раза.

Мода медиана и среднее значение как посчитать в excel

Чтобы посчитать моду в Excel, используем функцию МОДА.

Мода медиана и среднее значение как посчитать в excel

Для чего считать моду? Пример использования моды на коммерческом предприятии: для планирования производства обуви необходимо определить размер, который наиболее часто приобретают покупатели.

Средневзвешенное значение

Средневзвешенное значение отличается от среднего арифметического тем, что каждому элементу ряда присваивается «вес» — или как бы «значимость» его в ряду.

Для того, что определить средневзвешенное, сумма элементов ряда, умноженная на их «вес», делится на количество элементов.

Рассмотрим на том же примере с зарплатой. Добавим к таблице два столбца: количество сотрудников и ФОТ (в этом столбце умножим заработную плату одного сотрудника на количество сотрудников).

Мода медиана и среднее значение как посчитать в excel

Чтобы посчитать средневзвешенную заработную плату, разделим сумму всех зарплат сотрудников на сумму количества сотрудников.

Мода медиана и среднее значение как посчитать в excel

Таким образом, зарплату каждого сотрудника мы «взвесили» на количество сотрудников каждой должности.

Если разложить формулу средневзвешенного подобно, то получается:

Мода медиана и среднее значение как посчитать в excel

Для данного примера медиана, среднее арифметическое, средневзвешенное и мода отличаются.

Таким образом, в этом статье мы разобрались, что такое медиана, среднее арифметическое и мода и узнали, при помощи каких функций их можно посчитать в Excel.


   Сообщество Excel Analytics | обучение Excel

    Канал на Яндекс.Дзен 


Вам может быть интересно:

In this tutorial, I’ll illustrate how to calculate the median value for a list or the columns of a pandas DataFrame in Python programming.

The page is structured as follows:

Let’s dive right in…

Example 1: Median of List Object

This example explains how to get the median value of a list object in Python.

First, we have to create an example list:

my_list = [1, 4, 3, 2, 1, 3, 7, 1, 4, 1]                      # Create example list
print(my_list)                                                # Print example list
# [1, 4, 3, 2, 1, 3, 7, 1, 4, 1]

Furthermore, we have to load the NumPy library:

import numpy as np                                            # Load NumPy library

Next, we can apply the median function of the NumPy library to our example list:

print(np.median(my_list))                                     # Get median of list
# 2.5

As you can see based on the previous output, the median of our list is 2.5.

Example 2: Median of One Particular Column in pandas DataFrame

In Example 2, I’ll illustrate how to find the median value for the columns of a pandas DataFrame.

Let’s import pandas to Python:

import pandas as pd                                           # Load pandas library

Next, let’s create an exemplifying pandas DataFrame:

data = pd.DataFrame({'x1':[6, 2, 7, 2, 1, 5, 3, 4, 2, 7, 5],  # Create pandas DataFrame
                     'x2':range(0, 11),
                     'group':['A', 'B', 'B', 'C', 'B', 'A', 'A', 'C', 'C', 'B', 'A']})
print(data)                                                   # Print pandas DataFrame

table 1 DataFrame calculate median python programming language

After running the previous Python programming code the pandas DataFrame you can see in Table 1 has been created. Our example data set contains two float columns and a group indicator.

Next, we can compute the median for one specific column (i.e. x1) as shown below:

print(data['x1'].median())                                    # Get median of one column
# 4.0

The median of the column x1 is equal to 4.0.

Example 3: Median of All Columns in pandas DataFrame

This example demonstrates how to return the medians for all columns of our pandas DataFrame.

For this task, we can simply apply the median function to our entire data set:

print(data.median())                                          # Get median of all columns
# x1    4.0
# x2    5.0
# dtype: float64

The median of the column x1 is 4.0 (as we already know from the previous example), and the median of the variable x2 is 5.0.

Example 4: Median of Rows in pandas DataFrame

We can also calculate the median of the rows of a pandas DataFrame in Python.

To accomplish this, we have to specify the axis argument within the median function to be equal to 1:

print(data.median(axis = 1))                                  # Get median of rows
# 0     3.0
# 1     1.5
# 2     4.5
# 3     2.5
# 4     2.5
# 5     5.0
# 6     4.5
# 7     5.5
# 8     5.0
# 9     8.0
# 10    7.5
# dtype: float64

Example 5: Median by Group in pandas DataFrame

Example 5 shows how to calculate the median for each pandas DataFrame column by group.

For this, we have to use the groupby function in addition to the median function:

print(data.groupby('group').median())                         # Get median by group
#         x1   x2
# group          
# A      5.0  5.5
# B      4.5  3.0
# C      2.0  7.0

The previous output shows the median values for all columns and groups in our data set.

Video & Further Resources

In case you need more info on the Python programming code of this article, I recommend watching the following video on my YouTube channel. I demonstrate the contents of this article in the video:

Besides that, you may want to read the related posts on my website:

  • Calculate Median by Group in Python
  • Get Median of Array with np.median Function of NumPy Library
  • median Function of statistics Module
  • Calculate Mean in Python
  • Calculate Mode in Python
  • Introduction to the pandas Library in Python
  • Python Programming Overview

To summarize: At this point you should have learned how to compute the median value in the Python programming language. In case you have further comments or questions, please let me know in the comments.

Добавить комментарий