Как найти среднее значение ряда данных

В поисках средних значений: разбираемся со средним арифметическим, медианой и модой

В поисках средних значений: разбираемся со средним арифметическим, медианой и модой

как считать среднее арифметическое чисел

Иногда при работе с данными нужно описать множество значений каким-то одним числом. Например, при исследовании эффективности сотрудников, уровня вовлеченности в аккаунте, KPI или времени ответа на сообщения клиентов. В таких случаях используют меры центральной тенденции. Их можно называть проще — средние значения.

Но в зависимости от вводных данных, находить среднее значение нужно по-разному. Основной набор задач закрывается с использованием среднего арифметического, медианы и моды. Но если выбрать неверный способ — выводы будут необъективны, а результаты исследования нельзя будет признать действительными. Чтобы не допустить ошибку, нужно понимать особенности разных способов нахождения средних значений.

Cтратег, аналитик и контент-продюсер. Работает с агентством «Палиндром».

Как считать среднее арифметическое

Использовать среднее арифметическое стоит тогда, когда множество значений распределяются нормально ― это значит, что значения расположены симметрично относительно центра. Как выглядит нормальное распределение на графике и в таблице, можно посмотреть на примере:

 использование чужих публикаций

Если данные распределяются как в примерах — вам повезло. Можно без лишних заморочек считать среднее арифметическое и быть уверенным, что выводы будут объективны. Однако, нормальное распределение на практике встречается крайне редко, поэтому среднее арифметическое в большинстве случаев лучше не использовать.

Как рассчитать

Сумму значений нужно поделить на их количество. Например, вы хотите узнать средний ER за 4 дня при нормальном распределении значений и без аномальных выбросов. Для этого считаем среднее арифметическое: складываем ER всех дней и делим полученное число на количество дней.

курирование контента

Если хотите автоматизировать вычисления и узнать среднее арифметическое для большого числа показателей — используйте Google Таблицы:

  1. Заполните таблицу данными.
  2. Щелкните по пустой ячейке, в которую хотите записать среднее арифметическое.
  3. Введите «=AVERAGE(» и выделите ряд чисел, для которых нужно вычислить среднее арифметическое. Нажмите «Enter» после ввода формулы.

курирование контента

Когда можно не использовать

Если данные распределены ненормально, то наши расчеты не будут отражать реальную картину. На ненормальность распределения указывают:

  • Отсутствие симметрии в расположении значений.
  • Наличие ярко выраженных выбросов.

Как пример ненормального распределения (с выбросами) можно рассматривать среднее время ответа на комментарии по неделям:

курирование контента

Если посчитать среднее значение для такого набора данных с помощью среднего арифметического, то получится завышенное число. В итоге наши выводы будут более позитивными, чем реальное положение дел. Еще стоит учитывать, что выбросы могут не только завышать среднее значение, но и занижать его. В таком случае вы получите более скромный показатель, который не будет соответствовать реальности.

Например, в группе «Золотое Яблоко» во ВКонтакте иногда публикуют конкурсные посты. Они набирают более высокие показатели вовлеченности чем обычные публикации. Если посчитать средний ER с учетом конкурсов, мы получим 0,37%, а без учета конкурсов — только 0,29%. Аналогичная ситуация с числом комментариев. С конкурсами в среднем получаем 917 комментариев, а без конкурсов — всего лишь 503. Очевидно, что из-за розыгрышей средние показатели вовлеченности завышаются. В этом случае конкурсные посты следует исключить из анализа, чтобы объективно оценить эффективность контента в группе.

курирование контента

Еще часто бывает так, что данных очень много, заметны явные выбросы, но на их обработку и исключение аномальных значений не хватит ни времени, ни терпения. Тем более нет гарантий, что исключив выбросы, вы получите нормальное распределение. В таком случае лучше подсчитать средние значения, используя медиану.

Как найти медиану и когда ее применять

Если вы имеете дело с ненормальным распределением или замечаете значительные выбросы — используйте медиану. Так можно получить более адекватное среднее значение, чем при использовании среднего арифметического. Чтобы понять, как работать с медианой, рассмотрим аналогичный пример с ненормальным распределением времени ответов на комментарии.

курирование контента

Ниже в таблице уже введены данные из графика и рассчитано среднее время ответа с помощью среднего арифметического и медианы. Из расчетов видна наглядная разница между средним арифметическим и медианой ― она составляет 17 минут. Такое различие появляется из-за низкого темпа работы на выходных и в нестандартных ситуациях, когда к ответу на сообщения нужно относиться с особой ответственностью (события конца февраля). Подобные выбросы сильно завышают среднее арифметическое, а вот на медиану они практически не влияют. Поэтому если хотите посчитать среднее значение избегая влияния выбросов, — используйте медиану. Такие данные будут без искажений.

курирование контента

Как рассчитать

Разберем на примере. В аккаунте опубликовали семь постов и они набрали разное количество комментариев: 35, 105, 2, 15, 2, 31, 1. Чтобы вычислить медиану, нужно пройти два этапа:

  • Расположите числа в порядке возрастания. Итоговый ряд будет выглядеть так: 1, 2, 2, 15, 31, 35, 105.
  • Найдите середину сформированного ряда. В центре стоит число 15 — его и нужно считать медианой.

Немного сложнее найти медиану, если вы работаете с четным количеством чисел. Например, вы собрали количество лайков на последних шести постах: 32, 48, 36, 201, 52, 12. Чтобы найти медиану, выполните три действия:

  • Расставьте числа по возрастанию: 12, 32, 36, 48, 52, 201.
  • Возьмите два из них, наиболее близких к центру. В нашем случае — это 36 и 48.
  • Сложите два этих числа и разделите на два: (36 + 48) / 2 = 42. Результат и есть медиана.

Чтобы вычислять медиану быстрее и обрабатывать большие объемы данных — используйте Google Таблицы:

  • Внесите данные в таблицу.
  • Щелкните по свободной ячейке, в которую хотите записать медиану.
  • Введите формулу «=MEDIAN(» и выделите ряд чисел, для которых нужно рассчитать медиану. Нажмите «Enter», чтобы все посчиталось.

курирование контента

Когда можно не использовать

Если данные распределены нормально и вы не видите заметных выбросов — медиану можно не использовать. В этом случае значение среднего арифметического будет очень близким к медиане. Можете выбрать любой способ нахождения среднего, с которым вам работать проще. Результат от этого сильно не изменится.

Что такое мода и где ее использовать

Мода ― это самое популярное/часто встречающееся значение. Например, стоит задача узнать, сколько комментариев чаще всего набирают посты в аккаунте. В этом случае можно не высчитывать среднее арифметическое или медиану ― лучше и проще использовать моду.

Еще пример. Нужно узнать, в какое время аудитория чаще всего взаимодействует с публикациями. Для этого можно посчитать данные вручную или использовать готовую таблицу из LiveDune (вкладка «Вовлеченность» ― таблица «Лучшее время для поста»). По ее данным ― больше всего реакций пользователи оставляют в среду в 16 часов. Это время и есть мода. Таким образом, если вам нужно найти самое популярное значение, а не классическое среднее — проще использовать моду.

курирование контента

Как рассчитать

Чтобы найти наиболее часто встречающееся значение в наборе данных, нужно посмотреть, какое число встречается в ряду чаще всех. Например, для ряда 5, 4, 2, 4, 7 ― модой будет число 4.

Иногда в ряде значений встречается несколько мод. Например, ряду 7, 7, 21, 2, 5, 5 свойственны две моды — 7 и 5. В этом случае совокупность чисел называется мультимодальной. Также поиск моды можно упростить с помощью Google Таблиц:

  • Внесите значения в таблицу.
  • Щелкните по ячейке, в которую хотите записать моду.
  • Введите формулу «=MODE(» и выделите ряд чисел, для которых нужно вычислить моду. Нажмите «Enter».

курирование контента

Однако важно иметь в виду, что табличная функция выдает только самую меньшую моду. Поэтому будьте внимательны — можно упустить из виду несколько мод.

Когда использовать не стоит

Моду нет смысла использовать, если вас не просят найти самое популярное значение. Там, где надо найти классическое среднее значение, про моду лучше забыть.

Памятка по использованию

Среднее арифметическое

Как находим: сумма чисел / количество чисел.
Используем: если данные распределены нормально и нет ярких выбросов.
Не используем: если видим явные выбросы или ненормальное распределение.

Медиана

Как находим: располагаем числа в порядке возрастания и находим середину сформированного ряда.
Используем: если работаем с ненормальным распределением или видим выбросы.
Не используем: если выбросов нет и распределение нормальное.

Мода

Как находим: определяем значение, которое чаще всего встречается в ряду чисел.
Используем: если нужно найти не среднее, а самое популярное значение.
Не используем: если нужно найти классическое среднее значение.

Только важные новости в ежемесячной рассылке

Нажимая на кнопку, вы даете согласие на обработку персональных данных.

Подписывайся сейчас и получи гайд аудита Instagram аккаунта

Маркетинговые продукты LiveDune — 7 дней бесплатно

Наши продукты помогают оптимизировать работу в соцсетях и улучшать аккаунты с помощью глубокой аналитики

Анализ своих и чужих аккаунтов по 50+ метрикам в 6 соцсетях.

Оптимизация обработки сообщений: операторы, статистика, теги и др.

Автоматические отчеты по 6 соцсетям. Выгрузка в PDF, Excel, Google Slides.

Контроль за прогрессом выполнения KPI для аккаунтов Инстаграм.

Аудит Инстаграм аккаунтов с понятными выводами и советами.

Поможем отобрать «чистых» блогеров для эффективного сотрудничества.

План урока:

Понятие выборки и генеральной совокупности

Среднее арифметическое выборки

Упорядоченный ряд и таблица частот

Размах выборки

Мода выборки

Медиана выборки

Ошибки в статистике

Понятие выборки и генеральной совокупности

Слово статистика, образованное от латинского status(состояние дел), появилось только в 1746 году, когда его употребил немец Готфрид Ахенвалль. Однако ещё в Древнем Китае проводились переписи населения, в ходе которых правители собирали информацию о своих владениях и жителях, проживающих в них.

В основе любого статистического исследования лежит массив информации, который называют выборкой данных. Покажем это на примере. Пусть в классе, где учится 20 учеников, проводился тест по математике, содержавший 25 вопросов. В результате учащиеся показали следующие результаты:

1 massiv informacii

Ряд чисел, приведенный во второй строке таблицы (12, 19, 19, 14, 17, 16, 18, 20, 15, 25, 13, 20, 25, 16, 17, 12, 24, 13, 21, 13), будет выборкой. Также ее могут называть рядом данных или выборочной совокупностью.

2 vyborka nabor dannyh

В примере с классом выборка состоит из 20 чисел. Эту величину (количество чисел в ряду) называют объемом выборки. Каждое отдельное число в ряду именуют вариантой выборки.

В примере со школьным классом в выборку попали все его ученики. Это позволяет точно определить, насколько хорошо учащиеся написали математический тест. Однако иногда необходимо проанализировать очень большие группы населения, состоящие из десятков и даже сотен миллионов человек. Например, необходимо узнать, какая часть населения страны курит. Опросить каждого жителя государства невозможно, поэтому в ходе исследования опрашивают лишь его малую часть. В этом случае статистики выделяют понятие генеральная совокупность.

3 generalnaja sovokupnost

Так, если с помощью опроса 10 тысяч человек ученые делают выводы о распространении курения в России, то все российское население будет составлять генеральную совокупность исследования, а опрошенные 10 тысяч людей вместе образуют выборку.

Среднее арифметическое выборки

Сбор информации о выборке является лишь первой стадией статистического исследования. Далее ее необходимо обобщить, то есть получить некоторые цифры, характеризующие выборку. Самой часто используемой статистической характеристикой является среднее арифметическое.

4 srednee arifmeticheskoe vyborki

Другими словами, для подсчета среднего арифметического необходимо просто сложить все числа в ряде данных, а потом поделить получившееся значение на количество чисел в ряде. Так, в примере с тестом по математике (таблица 1) средний балл учащихся составит: (12+19+19+14+17+16+18+20+15+25+13+20+25+16+17+12+24+13+21+13):20=

= 349:20 = 17,45.

Среднее арифметическое позволяет одним числом характеризовать какое-либо качество всех объектов группы. Чем больше средний балл учащихся в классе, тем выше их успеваемость. Чем меньше среднее количество голов, пропускаемых футбольной командой за один матч, тем лучше она играет в обороне. Если средняя зарплата программистов в городе составляет 90 тысяч рублей, а дворников – 25 тысяч рублей, то это значит, что программисты значительно более востребованы на рынке труда, а потому при выборе будущей профессии лучше предпочесть именно эту специальность.

Упорядоченный ряд и таблица частот

В ряде данных в таблице 1 числа приведены в произвольном порядке. Перепишем ряд так, чтобы все числа шли в неубывающем порядке, то есть от самого маленького к самому большому:

12, 12, 13, 13, 13, 14, 15, 16, 16, 17, 17, 18, 19, 19, 20, 20, 21, 24, 25, 25.

Такую запись называют упорядоченным рядом данных.

5 uporjadochennyj rjad dannyh

Его характеристики ничем не отличаются от изначальной выборки, однако с ним удобнее работать. С его помощью можно видеть, что ни одному ученику не удалось набрать 22 или 23 балла на тесте, но сразу двое учащихся дали 25 правильных ответов. На основе упорядоченного ряда данных несложно составить таблицу частот, в которой будет указано, как часто та или иная варианта выборки встречается в ряде. Выглядеть она будет так:

6 kolichestvo balov

При составлении этой таблицы мы исключили из нее те варианты количества набранных баллов, частота которых равна нулю (от 0 до 12, 22 и 23).Заметим, что сумма чисел в нижней строке таблицы частот должна равняться объему выборки. Действительно,

2+3+1+1+2+2+1+2+2+1+1+2 = 20.

С помощью таблицы частот можно быстрее посчитать среднее арифметическое выборки. Для этого каждую варианту надо умножить на ее частоту, после чего сложить полученные результаты и поделить их на объем выборки:

(12•2+13•3+14•1+15•1+16•2+17•2+18•1+19•2+20•2+21•1+24•1+25•2):20 =

(24+39+14+15+32+34+18+38+40+42+24+50):20 = 349:20 = 17,45.

Размах выборки

Следующий важная характеристика ряда данных – это размах выборки.

7 razmah vyborki

Если выборка представлена в виде упорядоченного ряда данных, то достаточно вычесть из последнего числа ряда первое число. Так, размах выборки результатов теста в классе равен:

25 – 12 = 13,

так как самые лучшие ученики смогли решить все 25 заданий, а наихудший учащийся ответил правильно только на 13 вопросов.

Размах выборки характеризует стабильность, однородность исследуемых свойств. Например, пусть два спортсмена-стрелка в ходе соревнований производят по 5 выстрелов по круговой мишени, где за попадание начисляют от 0 до 10 очков. Первый стрелок показал результаты 8, 9, 9, 8, 9 очков. Второй же спортсмен в своих попытках показал результаты 7, 10, 10, 6, 10. Средние арифметические этих рядов равны:

(8+9+9+8+9):5 = 43:5 = 8,6;

(7+10+10+6+10):5 = 43:5 = 8,6.

Получается, что в среднем оба стрелка стреляют одинаково точно, однако первый спортсмен демонстрирует более стабильные результаты. У его выборки размах равен

9 – 8 = 1,

в то время как размах выборки второго спортсмена равен

10 – 6 = 4.

Размах выборки может быть очень важен в метеорологии. Например, в Алма-Ате и Амстердаме средняя температура в течение года почти одинакова и составляет 10°С. Однако в Алма-Ате в январе и феврале иногда фиксируются температуры ниже -30°С, в то время как в Амстердаме за всю историю наблюдений она никогда не падала ниже -20°С.

Мода выборки

Иногда важно знать не среднее арифметическое выборки, а то, какая из ее вариант встречается наиболее часто. Так, при управлении магазином одежды менеджеру не важен средний размер продаваемых футболок, а необходима информация о том, какие размеры наиболее популярны. Для этого используется такой показатель, как мода выборки.

8 moda vyborki

В примере с математическим тестом сразу 3 ученика набрали по 13 баллов, а частота всех других вариант не превысила 2, поэтому мода выборки равна 13. Возможна ситуация, когда в ряде есть сразу две или более вариант, которые встречаются одинаково часто и чаще остальных вариант. Например, в ряде

1, 2, 3, 3, 3, 4, 5, 5, 5

варианты 3 и 5 встречаются по три раза. В таком случае ряд имеет сразу две моды – 3 и 5, а всю выборку именуют мультимодальной. Особо выделяется случай, когда в выборке все варианты встречаются с одинаковой частотой:

6, 6, 7, 7, 8, 8.

Здесь числа 6, 7 и 8 встречаются одинаково часто (по два раза), а другие варианты отсутствуют. В таких случаях говорят, что ряд не имеет моды.

Медиана выборки

Иногда, например, при расчете средней зарплаты, среднее арифметическое не вполне адекватно отражает ситуацию. Это происходит из-за наличия в выборке чисел, очень сильно отличающихся от среднего. Так, из-за огромных зарплат некоторых начальников большинство рядовых сотрудников компаний обнаруживают, что их зарплата ниже средней. В таких случаях целесообразно использовать такую характеристику, как медиану ряда. Это такое значение, которое делит ряд данных пополам. В упорядоченном ряде 2, 3, 6, 8, 8, 12, 15, 15, 18, 19, 25 медианой будет равна 12, так как именно она находится в середине ряда:

9 obem vyborki

Однако таким образом можно найти только медиану ряда, в котором находится нечетное количество чисел. Если же их количество четное, то за медиану условно принимают среднее арифметическое двух средних чисел. Так, для ряда 2, 3, 6, 8, 8, 12, 15, 15, 18, 19, 25, 30, содержащего 12 чисел, медиана будет равна среднему значению 12 и 15, которые занимают 6-ое и 7-ое место в ряду:

10 mediana

11 nechetnoe kolichestvo

Вернемся к примеру с математическим тестом в школе. Так как его сдавали 20 учеников, а 20 – четное число, то для расчета медианы следует найти среднее арифметическое 10-ого и 11-ого числа в упорядоченном ряде

12, 12, 13, 13, 13, 14, 15, 16, 16, 17, 17, 18, 19, 19, 20, 20, 21, 24, 25, 25.

Эти места занимают числа 17 и 17 (выделены жирным шрифтом). Медиана ряда будет равна

(17+17):2 = 34:2 = 17.

Три приведенные основные статистические характеристики выборки, а именно среднее арифметическое, мода и медиана, называются мерами центральной тенденции. Они позволяют одним числом указать значение, относительно которого группируются все числа ряда.

Рассмотрим для наглядности ещё один пример. Врач в ходе диспансеризации измерил вес мальчиков в классе. В результате он получил 10 значений (в кг):

39, 41, 67, 36, 60, 58, 46, 44, 39, 69.

Найдем среднее арифметическое, размах, моду и медиану для этого ряда.

Решение. Сначала перепишем ряд в упорядоченном виде:

36, 39, 39, 41, 44, 46, 58, 60, 67, 69.

Так как в ряде 10 чисел, то объем выборки равен 10. Найдем среднее арифметическое. Для этого сложим все числа в ряде и поделим их на объем выборки (то есть на 10):

(36+39+39+41+44+46+58+60+67+69):10 =

= 499:10 = 49,9 кг.

Размах выборки равен разнице между наибольшей и наименьшей вариантой в ней. Самый тяжелый мальчик весит 69 кг, а самый легкий – 36 кг, а потому размах ряда равен

69 – 36 = 33 кг.

В упорядоченном ряде только одно число, 39, встречается дважды, а все остальные числа встречаются по одному разу. Поэтому мода ряда будет равна 39 кг.

В выборке 10 чисел, а это четное число. Поэтому для нахождения медианы надо найти два средних по счету значение найти их среднее. На 5-ом и 6-ом месте в ряде находятся числа 44 и 46. Их среднее арифметическое равно

(44+46):2 = 90:2 = 45 кг.

Поэтому и медиана ряда будет равна 45 кг.

Ошибки в статистике

Статистика является очень мощным инструментом для исследований во всех областях человеческой деятельности. Однако иногда ее иронично называют самой точной из лженаук. Известно и ещё одно высказывание, приписываемое политику Дизраэли, согласно которому существует просто ложь, наглая ложь и статистика. С чем же связана такая репутация этой дисциплины?

Дело в том, что некоторые люди и организации часто манипулируют данными статистики, чтобы убедить других в своей правоте или преимуществах товара, которые они продают. Требуются определенные навыки, чтобы правильно пользоваться статистикой. Одна из самых распространенных ошибок – это неправильный выбор выборки.

В 1936 году перед президентскими выборами в США был проведен телефонный опрос, который показал, что с большим преимуществом победу должен одержать Альфред Лендон. Однако на выборах Франклин Рузвельт набрал почти вдвое больше голосов. Ошибка была связана с тем, что в те годы телефон могли позволить себе только богатые люди, которые в большинстве своем поддерживали Лендона. Однако бедные люди (а их, конечно же, больше, чем богатых) голосовали за Рузвельта.

Ещё один пример – это агитация в конце XIX века в США к службе на флоте. Пропагандисты в своей рекламе указывали, что, согласно статистике, смертность на флоте во время войны (испано-американской) составляет 0,09%, в то время как среди населения Нью-Йорка она равнялась 0,16%. Получалось, что служить на флоте в военное время безопаснее, чем жить мирной жизнью. Однако на самом деле причина таких цифр заключается в том, что во флот всегда отбирали молодых мужчин с хорошим здоровьем, которые не могли умереть от «старческих» болезней, в то время как в население Нью-Йорка входят больные и старые люди.

При указании среднего значения исследователь может использовать разные характеристики – среднее арифметическое, медиана, мода. При этом почти всегда среднее арифметическое несколько больше медианы. Именно поэтому большинство людей, узнающих о средней зарплате в стране, удивляются, так как они столько не зарабатывают. Правильнее ориентироваться на медианную зарплату.

Ну и наконец, нельзя забывать, что любая статистика может показать только корреляцию между двумя величинами, но это не всегда означает причинно-следственную связь. Так, известно, что чем больше в городе продается мороженого, тем больше в это же время людей тонет на пляжах. Означает ли это, что поедание мороженого увеличивает риск во время плавания? Нет. Дело в том, что оба этих показателя, продажи мороженого и количество утонувших, зависят от третьей величины – температуры в городе. Чем жарче на улице, тем большее количество людей ходят на пляж и тем больше мороженого продается в магазинах.

Средняя зарплата… Средняя продолжительность жизни… Практически каждый день мы с вами слышим эти словосочетания, используемые для описания множества одним единственным числом. Но как ни странно, «среднее значение» — достаточно коварное понятие, часто вводящее в заблуждение обычного, неискушенного в математической статистике, человека.

В чем проблема?

Под средним значением чаще всего подразумевается среднее арифметическое, которое очень сильно варьируется под воздействием единичных фактов или событий. И вы не получите реального представления о том, как именно распределены значения, которые вы изучаете.

Давайте обратимся к классическому примеру со средней зарплатой.

В какой-то абстрактной компании работает десять сотрудников. Девять из них получают зарплату около 50 000 рублей, а один 1 500 000 рублей (по странному совпадению он же является генеральным директором этой компании).

Выборка зарплат

Средним значением в данном случае будет 195 150 рублей, что согласитесь, неправильно.

Какие способы вычисления среднего бывают?

Первым способом является вычисление уже упомянутого среднего арифметического, являющегося суммой всех значений, деленной на их количество.

Формула:

  • x – среднее арифметическое;
  • x– конкретное значение;
  • n – количество значений.

Плюсы:

  • Хорошо работает при нормальном распределении значений в выборке;
  • Легко вычислить;
  • Интуитивно понятно.

Минусы:

  • Не дает реального представления о распределении значений;
  • Неустойчивая величина легко поддающаяся выбросам (как в случае с генеральным директором).

Вторым способом является вычисление моды, то есть наиболее часто встречающегося значения.

Формула:

  • M– мода;
  • x– нижняя граница интервала, который содержит моду;
  • n – величина интервала;
  • fm– частота (сколько раз в ряду встречается то или иное значение);
  • fm-1 – частота интервала предшествующего модальному;
  • fm+1 – частота интервала следующего за модальным.

Плюсы:

  • Прекрасно подходит для получения представления об общественном мнении;
  • Хорошо подходит для нечисловых данных (цвета сезона, хиты продаж, рейтинги);
  • Проста для понимания.

Минусы:

  • Моды может просто не быть (нет повторов);
  • Мод может быть несколько (многомодальное распределение).

Третий способ — это вычисление медианы, то есть значения, которое делит упорядоченную выборку на две половины и находится между ними. А если такого значения нет, то за медиану принимается среднее арифметическое между границами половин выборки.

Формула:

Медиана формула

  • Me – медиана;
  • x– нижняя граница интервала, который содержит медиану;
  • h – величина интервала;
  • f – частота (сколько раз в ряду встречается то или иное значение);
  • Sm-1 – сумма частот интервалов предшествующих медианному;
  • fm – число значений в медианном интервале (его частота).

Плюсы:

  • Дает самую реалистичную и репрезентативную оценку;
  • Устойчива к выбросам.

Минусы:

  • Сложнее вычислить, так как перед вычислением выборку нужно упорядочить.

Мы рассмотрели основные методы нахождения среднего значения, называющиеся мерами центральной тенденции (на самом деле их больше, но это наиболее популярные).

А теперь давайте вернемся к нашему примеру и посчитаем все три варианта среднего при помощи специальных функций Excel:

  • СРЗНАЧ(число1;[число2];…) — функция для определения среднего арифметического;
  • МОДА.ОДН(число1;[число2];...) — функция моды (в более старых версиях Excel использовалась МОДА(число1;[число2];...));
  • МЕДИАНА(число1;[число2];...) — функция для поиска медианы.

И вот какие значения у нас получились:

Расчет среднего арифметического, моды и медианы

В данном случае мода и медиана гораздо лучше характеризуют среднюю зарплату в компании.

Но что делать, когда в выборке не 10 значений, как в примере, а миллионы? В Excel это не посчитать, а вот в базе данных где хранятся ваши данные, без проблем.

Вычисляем среднее арифметическое на SQL

Тут все достаточно просто, так как в SQL предусмотрена специальная агрегатная функция AVG.

И чтобы ее использовать достаточно написать вот такой запрос:

/* Здесь и далее salary - столбец с зарплатами, а employees - таблица сотрудников в нашей базе данных */

SELECT AVG(salary) AS 'Средняя зарплата'
FROM employees

Вычисляем моду на SQL

В SQL нет отдельной функции для нахождения моды, но ее легко и быстро можно написать самостоятельно. Для этого нам необходимо узнать, какая из зарплат чаще всего повторяется и выбрать наиболее популярную.

Напишем запрос:

/* WITH TIES необходимо добавлять к TOP() если множество многомодально, то есть у множества несколько мод */
SELECT TOP(1) WITH TIES salary AS 'Мода зарплаты'
FROM employees
GROUP BY salary
ORDER BY COUNT(*) DESC

Вычисляем медиану на SQL

Как и в случае с модой, в SQL нет встроенной функции для вычисления медианы, зато есть универсальная функция для вычисления процентилей PERCENTILE_CONT.

Выглядит все это так:

/* В данном случае процентиль 0.5 и будет являться медианой */

SELECT TOP(1) PERCENTILE_CONT(0.5)
       WITHIN GROUP (ORDER BY salary)
       OVER() AS 'Медианная зарплата'
FROM employees

Подробнее о работе функции PERCENTILE_CONT лучше почитать в справке Microsoft и Google BigQuery.

Какой способ все-таки использовать?

Из сказанного выше следует, что медиана лучший способ для вычисления среднего значения.

Но это не всегда так. Если вы работаете со средним, то остерегайтесь многомодального распределения:

Бимодальное распределение

На графике представлено бимодальное распределение с двумя пиками. Такая ситуация может возникнуть, например, при голосовании на выборах.

В данном случае среднее арифметическое и медиана — это значения, находящиеся где-то посередине и они ничего не скажут о том, что происходит на самом деле и лучше сразу признать, что вы имеете дело с бимодальным распределением, сообщив о двух модах.

А еще лучше разделить выборку на две группы и собрать статистические данные для каждой.

Вывод:

При выборе метода нахождения среднего нужно учитывать наличие выбросов, а также нормальность распределения значений в выборке.

Окончательный выбор меры центральной тенденции всегда лежит на аналитике.

Полезные ссылки:

  • SQL и теория вероятностей (YouTube)
  • Анализ нормальности распределения данных (YouTube)
  • Меры центральной тенденции
  • Об авторе
  • Свежие записи

Как найти среднее арифметическое

Это пригодится не только для решения школьных задачек, но и при различных подсчётах в обычной жизни.

Как найти среднее арифметическое

Что такое среднее арифметическое

Среднее арифметическое — это сумма всех чисел в ряду, разделённая на количество слагаемых.

Как найти среднее арифметическое

Например, перед вами ряд чисел «1, 2, 3, 4, 5, 6». Как следует из определения, чтобы узнать среднее арифметическое, нужно сложить все данные вам числа, а потом разделить получившийся результат на количество этих чисел. В приведённом примере — на шесть. Вот как это выражается формулой:

Допустим, вам нужно определить среднее арифметическое для чисел 4, 5 и 6. Складываем 4 + 5 + 6 = 15. Теперь делим 15 на 3 и получаем 5. Это и будет среднее арифметическое.

Таким же образом оно подсчитывается для десятичных и обыкновенных дробей.

Пример расчёта среднего арифметического для обыкновенных дробей будет выглядеть так:

А это пример, как найти среднее арифметическое для десятичных дробей:

Как это пригодится в жизни

Среднее арифметическое помогает описать множество цифровых значений всего одним числом. Например, по выше представленной формуле можно подсчитать усреднённую цену на товар или среднюю зарплату сотрудников в одной организации, среднюю посещаемость заведения. Это полезно для ведения статистики и в случаях, когда нужно сжато изложить информацию.

Читайте также 🧐

  • 7 причин полюбить математику
  • 7 способов найти площадь прямоугольника
  • 6 способов посчитать проценты от суммы с калькулятором и без
  • Как освоить устный счёт школьникам и взрослым
  • 10 увлекательных задач от советского математика

Средние

Наиболее распространенной формой статистических показателей, используемой в экономических исследованиях, являются средние показатели (средняя величина).

Средняя величина – представляет  обобщенную количественную характеристику признака в статистической совокупности в конкретных условиях места и времени.


Показатель в форме средней величины выражает типичные черты и дает обобщающую характеристику однотипных явлений по одному из варьирующих признаков. Он отражает уровень этого признака, отнесенный к единице совокупности.


Важнейшее свойство средней величины заключается в том, что она отражает то общее, что присуще всем единицам исследуемой совокупности.

Значения признака отдельных единиц совокупности колеблются в ту или иную сторону под влиянием множества факторов, среди которых могут быть как основные, так и случайные.

  • Например, курс акций корпорации в основном определяется финансовыми результатами ее деятельности. В то же время, в отдельные дни и на отдельных биржах эти акции в силу сложившихся обстоятельств могут продаваться по более высокому или заниженному курсу.

Сущность средней заключается, в том, что в ней взаимопогашаются отклонения значений признака отдельных единиц совокупности, обусловленные действием случайных факторов, и учитываются изменения, вызванные действием факторов основных. Это позволяет средней отражать типичный уровень признака и абстрагироваться от индивидуальных особенно­стей, присущих отдельным единицам.


ВИДЫ СРЕДНИХ ВЕЛИЧИН наиболее часто применяемых на практике:

  • средняя арифметическая;                     
  • средняя гармоническая;
  • средняя геометрическая;                       
  • средняя квадратическая.

Выбор средней величины зависит от содержания осредняемого признака и конкретных данных, по которым ее приходится вычислять.



  • Средняя арифметическая простая (невзвешенная) – вычисляется  когда каждый вариант совокупности встречается только один раз.


  • Средняя арифметическая (взвешенная) варианты повторяются различное число раз, при этом число повторений вариантов называется частотой, или статистическим весом.


ФОРМУЛЫ СРЕДНИХ ВЕЛИЧИН


  • Средняя арифметическая простая – самый распространенный вид средней величины, рассчитывается по формуле (8.8):

Статистика Формула Средняя арифметическая простая

(8.8 -формула средней арифметической простой)


  • где хi – вариант, а n – количество единиц  совокупности.

  • Пример вычисления средней арифметической простой. Провели опрос о желаемом размере заработной платы у пяти сотрудников  офиса. По результатам опроса выяснили, что желаемый размер заработной платы составляет соответственно для каждого сотрудника: 50000, 100000, 200000, 350000, 500000 рублей человек. Рассчитаем среднюю арифметическую простую по формуле (8.8):Пример формула 8.9Вывод: в среднем желаемый размер заработной платы  по результатам опроса 5-ти человек составил 240 тысяч рублей.

  • Средняя арифметическая взвешенная  формула 8.9.

Статистика Формула Средняя арифметическая взвешенная

(8.9 -формула средней арифметической взвешенной)


  • где хi – вариант, а fi  – частота или статистический вес.

  • Пример вычисления  средней арифметической взвешенной. Результаты опроса всех работников офиса приведены в табл. 8.2.

Таблица 8.2 – Результаты опроса работников офиса

Желаемый размер заработной платы, тыс.руб

хi

Количество работников fi хifi
1 2 3

50

100

200

350

500

6

10

20

9

5

300

1000

4000

3150

2500

Итого 50 10950

Пример. Вычислим (ориентируясь на итоговые строки таблицы) желаемый размер заработной платы, 50 сотрудников офиса (используем формулу 8.9):

Пример к формуле 8.9

Пример вычисления средней арифметической взвешенной

Вывод: в среднем желаемый размер заработной платы  по результатам опроса 50 человек составил 219 тысяч рублей.


Среднеарифметическая – всегда обобщающая количественная характеристика варьирующего признака совокупности.



  • Средняя гармоническая вычисляется в тех случаях, когда приходится суммировать не сами варианты, а обратные им величины.

  • Средняя гармоническая  простая представлена ниже:

Статистика Формула средней гармонической простой

(8.10 – формула средней гармонической простой)


Средняя гармоническая взвешенная определяется по формуле

Статистика Формула средней гармонической взвешенной

(8.11- формула средней гармонической взвешенной)


где xi – вариант, n – количество вариантов, Vi – веса для обратных значений xi.



Средняя гармоническая невзвешенная. Эта форма средней, используемая значительно реже, чем взвешенная. Для иллюстрации области ее применения воспользуемся упрощенным условным примером.


  • Пример (вычисление средней гармонической простой (невзвешенной)).

Предположим, в фирме, специализирующейся на торговле по почте на основе предварительных заказов, упаковкой и отправкой товаров занимаются два работника. Первый из них на обработку одного заказа затрачивает 5 мин., второй – 15 мин.

  • Каковы средние затраты времени на 1 заказ, если общая продолжительность рабочего времени у работников равна?

На первый взгляд, ответ на этот вопрос заключается в осреднении индивидуальных значений затрат времени на 1 заказ, т.е. если используем среднюю арифметическую простую получим: (5+15):2=10, мин.

  • Проверим обоснованность такого подхода на примере одного часа (60 минут) работы. За этот час первый работник обрабатывает 12 заказов (60:5), второй – 4 заказа (60:15), что в сумме составляет 16 заказов.

Если же заменить индивидуальные значения их предполагаемым средним значением, то общее число обработанных обоими работниками заказов в данном случае уменьшится: (60/10) + (60/10) = 12 заказов (что не соответствует истине).


  • Подойдем к решению через исходное соотношение средней. Для определения средних затрат времени необходимо общие затраты времени за любой интервал (например, за час) разделить на общее число обработанных за этот интервал двумя работниками заказов, т.е. используем среднюю гармоническую:

Статистика Пример средней гармонической невзвешенной

Пример вычисления средней гармонической простой (невзвешенной)


Если теперь мы заменим индивидуальные значения их средней величиной, то общее количество обработанных за час заказов не изменится: (60/7,5) + (60/7,5) = 16 заказов

  • Подведем итог: средняя гармоническая невзвешенная может использоваться вместо взвешенной в тех случаях, когда значения Wj для единиц совокупности равны (в рассмот­ренном примере рабочий день у сотрудников одинаковый).


    Пример (вычисление средней гармонической взвешенной) В ходе торгов на валютной бирже за первый час работы заключено пять сделок. Данные о сумме продажи рублей и курсе рубля по отношению к доллару США приведены в табл.8.3.

    Таблица 8.3 – Данные о ходе торгов на валютной бирже (цифры условные)

    Номер сделки Сумма продажи V, млн руб. Курс рубля x, руб. за 1 дол. V/x
    1 2 3 4

    1

    2

    3

    4

    5

    455,00

    327,50

    528,00

    266,00

    332,50

    65,00

    65,50

    66,00

    66,50

    66,50

    7,00

    5,00

    8,00

    4,00

    5,00

    итого 1909,00 29,00

    Для того чтобы определить средний курс рубля по отношению к доллару, нужно найти соотношение между суммой продажи рублей, которые затрачены на покупку долларов в ходе всех сделок, и суммой приобретенных в результате этих сделок долларов.

    Пример средней гармонической взвешенной


  • Вывод: средний курс за один доллар составил 65,83 руб.;

  • Если бы для расчета среднего курса была использована средняя арифметическая простая:пример расчета по ср арифм то,  за один доллар, по данному курсу на покупку 29 млн дол. нужно было бы затратить 1899,5  млн.руб., что не соответствует действительности.


    Средняя геометрическая используется для анализа динамики явлений и позволяет определить средний коэффициент роста. При расчете средней геометрической индивидуальные значения признака обычно представляют собой относительные показатели динамики, построенные в виде цепных величин как отношение каждого уровня ряда к предыдущему уровню.



  • Средняя геометрическая простая рассчитывается по формуле 8.12

Формула 8.12

(8.12)



  • Если использовать частоты m, получим формулу средней геометрической взвешенной
  • Средняя геометрическая взвешенная рассчитывается по формуле 8.13

Статистика Формула Средняя геометрическая взвешенная

(8.13)


Средняя квадратическая применяется, когда изучается вариация признака. В качестве вариантов используются отклонения фактических значений признака либо от средней арифметической, либо от заданной нормы.

Для несгруппированных данных используют формулу средней квадратической простой

Средняя квадратическая простая (формула 8.14)

Статистика Формула Средняя квадратическая простая

8.14


Для сгруппированных данных используют формулу средней квадратической взвешенной

Средняя квадратическая взвешенная (формула 8.15)

Статистика Формула Средняя квадратическая взвешенная

(8.15) – Формула -средняя квадратическая взвешенная


Средние арифметическая, гармоническая, геометрическая и квадратическая, рассчитанные для одного и того же ряда вариантов, отличаются друг от друга. Их численное значение возрастает с ростом показателя степени в формуле степенной средней правило мажорантности средних А.Я. Боярского, т.е.

Статистика Правило мажорантности средних А.Я. Боярского



Мода и Медиана (структурные средние) формулы и примеры вычисления см.  по ссылке


Добавить комментарий