Центральную тенденцию данных можно рассматривать не только, как значение с нулевым суммарным отклонением (среднее арифметическое) или максимальную частоту (мода), но и как некоторую отметку (значение в совокупности), делящую ранжированные данные (отсортированные по возрастанию или убыванию) на две равные части. Половина исходных данных меньше этой отметки, а половина – больше. Это и есть медиана.
Итак, медиана в статистике – это уровень показателя, который делит набор данных на две равные половины. Значения в одной половине меньше, а в другой больше медианы. В качестве примера обратимся к набору нормально распределенных случайных чисел.
Очевидно, что при симметричном распределении середина, делящая совокупность пополам, будет находиться в самом центре – там же, где средняя арифметическая (и мода). Это, так сказать, идеальная ситуация, когда мода, медиана и средняя арифметическая совпадают и все их свойства приходятся на одну точку – максимальная частота, деление пополам, нулевая сумма отклонений – все в одном месте. Однако, жизнь не так симметрична, как нормальное распределение.
Допустим, мы имеем дело с техническими замерами отклонений от ожидаемой величины чего-нибудь (содержания элементов, расстояния, уровня, массы и т.д. и т.п.). Если все ОК, то отклонения, скорее всего, будут распределены по закону, близкому к нормальному, примерно, как на рисунке выше. Но если в процессе присутствует важный и неконтролируемый фактор, то могут появиться аномальные значения, которые в значительной мере повлияют на среднюю арифметическую, но при этом почти не затронут медиану.
Медиана выборки – это альтернатива средней арифметической, т.к. она устойчива к аномальным отклонениям (выбросам).
Математическим свойством медианы является то, что сумма абсолютных (по модулю) отклонений от медианного значения дает минимально возможное значение, если сравнивать с отклонениями от любой другой величины. Даже меньше, чем от средней арифметической, о как! Данный факт находит свое применение, например, при решении транспортных задач, когда нужно рассчитать место строительства объектов около дороги таким образом, чтобы суммарная длина рейсов до него из разных мест была минимальной (остановки, заправки, склады и т.д. и т.п.).
Формула медианы
Формула медианы в статистике для дискретных данных чем-то напоминает формулу моды. А именно тем, что формулы как таковой нет. Медианное значение выбирают из имеющихся данных и только, если это невозможно, проводят несложный расчет.
Первым делом данные ранжируют (сортируют по убыванию). Далее есть два варианта. Если количество значений нечетно, то медиана будет соответствовать центральному значению ряда, номер которого можно определить по формуле:
где
№Me – номер значения, соответствующего медиане,
N – количество значений в совокупности данных.
Тогда медиана обозначается, как
Это первый вариант, когда в данных есть одно центральное значение. Второй вариант наступает тогда, когда количество данных четно, то есть вместо одного есть два центральных значения. Выход прост: берется средняя арифметическая из двух центральных значений:
В интервальных данных выбрать конкретное значение не представляется возможным. Медиану рассчитывают по определенному правилу.
Для начала (после ранжирования данных) находят медианный интервал. Это такой интервал, через который проходит искомое медианное значение. Определяется с помощью накопленной доли ранжированных интервалов. Где накопленная доля впервые перевалила через 50% всех значений, там и медианный интервал.
Не знаю, кто придумал формулу медианы, но исходили явно из того предположения, что распределение данных внутри медианного интервала равномерное (т.е. 30% ширины интервала – это 30% значений, 80% ширины – 80% значений и т.д.). Отсюда, зная количество значений от начала медианного интервала до 50% всех значений совокупности (разница между половиной количества всех значений и накопленной частотой предмедианного интервала), можно найти, какую долю они занимают во всем медианном интервале. Вот эта доля аккурат переносится на ширину медианного интервала, указывая на конкретное значение, именуемое впоследствии медианой.
Обратимся к наглядной схеме.
Немного громоздко получилось, но теперь, надеюсь, все наглядно и понятно. Чтобы при расчете каждый раз не рисовать такой график, можно воспользоваться готовой формулой. Формула медианы имеет следующий вид:
где xMe — нижняя граница медианного интервала;
iMe — ширина медианного интервала;
∑f/2 — количество всех значений, деленное на 2 (два);
S(Me-1)— суммарное количество наблюдений, которое было накоплено до начала медианного интервала, т.е. накопленная частота предмедианного интервала;
fMe — число наблюдений в медианном интервале.
Как нетрудно заметить, формула медианы состоит из двух слагаемых: 1 – значение начала медианного интервала и 2 – та самая часть, которая пропорциональна недостающей накопленной доли до 50%.
Для примера рассчитаем медиану по следующим данным.
Требуется найти медианную цену, то есть ту цену, дешевле и дороже которой по половине количества товаров. Для начала произведем вспомогательные расчеты накопленной частоты, накопленной доли, общего количества товаров.
По последней колонке «Накопленная доля» определяем медианный интервал – 300-400 руб (накопленная доля впервые более 50%). Ширина интервала – 100 руб. Теперь остается подставить данные в приведенную выше формулу и рассчитать медиану.
То есть у одной половины товаров цена ниже, чем 350 руб., у другой половины – выше. Все просто. Средняя арифметическая, рассчитанная по этим же данным, равна 355 руб. Отличие не значительное, но оно есть.
Расчет медианы в Excel
Медиану для числовых данных легко найти, используя функцию Excel, которая так и называется — МЕДИАНА. Другое дело интервальные данные. Соответствующей функции в Excel нет. Поэтому нужно задействовать приведенную выше формулу. Что поделаешь? Но это не очень трагично, так как расчет медианы по интервальным данным – редкий случай. Можно и на калькуляторе разок посчитать.
Напоследок предлагаю задачку. Имеется набор данных. 15, 5, 20, 5, 10. Каково среднее значение? Четыре варианта:
а) 11;
б) 5;
в) 10;
г) 5, 10, 11.
Мода, медиана и среднее значение выборки – это разный способ определить центральную тенденцию в выборке.
Ниже видеоролик о том, как рассчитать медиану в Excel.
Поделиться в социальных сетях:
Среднее арифметическое, мода и медиана
- Предмет, цели и методы математической статистики
- Метод выборочных исследований
- Средняя арифметическая, простая и взвешенная
- Мода и медиана
- Примеры
Предмет, цели и методы математической статистики
Начиная с XVIII века, в общем направлении статистических исследований начинает активно формироваться математическая статистика.
Математическая статистика – раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений.
В зависимости от предмета исследований математическая статистика делится на:
- статистику чисел;
- многомерный статистический анализ;
- анализ функций (процессов) и временных рядов;
- статистику объектов с нечисловыми характеристиками.
В зависимости от цели и методов исследований математическая статистика делится на: описательную статистику; теорию оценивания; теорию проверки гипотез.
Описательная статистика | Теория оценивания | Теория проверки гипотез | |
Цель | Обработка и систематизация эмпирических данных | Оценивание ненаблюдаемых данных и сигналов от объектов наблюдения на основе наблюдаемых данных | Обоснование предположений о виде распределения и свойствах случайной величины |
Методы |
1. Наглядное представление в форме графиков и таблиц. 2. Количественное описание с помощью статистических показателей. |
1. Параметрические методы (наименьших квадратов, максимального правдоподобия и др.). 2. Непараметрические методы. |
1. Последовательный анализ. 2. Статистические критерии. |
Метод выборочных исследований
Статистика получила признание в различных областях человеческой деятельности благодаря заметной экономии времени и прочих ресурсов. Её основная идея: не нужно измерять всё, измерьте только часть всего и сделайте предположение об остальном.
«Всё» в статистике называется генеральной совокупностью.
«Часть всего», которую мы тщательно исследуем, называется выборкой.
Метод выборочных исследований – способ определения свойств группы объектов (генеральной совокупности) на основании статистического исследования её части (выборки).
Например, чтобы оценить средние размеры апельсина, который продаётся в магазине в декабре, необязательно денно и нощно мерить все апельсины во всех ящиках (сколько же для этого нужно времени и людей?!). Достаточно сделать выборку – мерить по одному апельсину из каждого ящика в течение месяца (тут уже и один человек справится).
Статистика предоставляет методику и оценки для того, чтобы правильно провести выборку и на основании знаний о среднем размере апельсина в выборке (выборочной средней) судить о средних размерах всех декабрьских апельсин (генеральной средней).
Средняя арифметическая, простая и взвешенная
Статистическое исследование опирается на собранные данные о каком-то признаке (рост, вес, возраст, доход и т.п.).
Варианта – полученное эмпирическое значение признака.
Вариационный ряд – совокупность собранных вариант.
Пусть мы сделали выборку, провели N измерений и получили x_1,x_2,…,x_N вариант.
Вариационный ряд, состоящий из отдельных вариант, называют дискретным.
Чтобы найти выборочную среднюю дискретного вариационного ряда, нужно вычислить среднюю арифметическую простую:
$$ x_{cp} = frac{1}{N} sum_{i=1}^N x_i ,i = overline{1,N} $$
Знак Σ означает «сумма», i – это индекс полученных вариант, который пробегает все значения, от 1 до N.
Например:
На протяжении четверти школьник получил такие оценки по алгебре: 5,4,3,5,4,4,5,4,3,5,5,4,3,5,4,4. Найдите среднюю оценку за четверть.
Считаем среднюю арифметическую простую:
$$ x_cp = frac{5+4+3+⋯+4}{16} ≈ 4,2 $$
Нетрудно заметить, что оценки повторяются, и вычисления можно упростить, если вместо сложения одинаковых оценок использовать умножение оценок на их количество.
Чтобы найти выборочную среднюю при повторяющихся вариантах, удобно вычислять среднюю арифметическую взвешенную:
$$ x_{cp} = frac{1}{N} sum_{i=1}^K x_i n_i , N = sum_{i=1}^K n_i , i = overline{1,K} $$
где K – количество групп с повторяющимися вариантами, $x_i$ – значение варианты в -й группе, $n_i$ – частота варианты $x_i$.
Например:
Рассматриваем тот же ряд оценок: 5,4,3,5,4,4,5,4,3,5,5,4,3,5,4,4 и составляем таблицу:
$$ x_cp = frac{3cdot3+4cdot7+5cdot6}{3+7+6} ≈ 4,2 $$
Вычисления заметно упростились.
Мода и медиана
Мода дискретного вариационного ряда – это варианта с максимальной частотой. Мод может быть несколько. Тогда говорят, что ряд мультимодальный.
В примере с оценками по алгебре мода $M_0 = 4$ – эта оценка встречается чаще всего, её частота равна 7.
Медиана дискретного вариационного ряда – это значение варианты посредине упорядоченного ряда.
Алгоритм:
-
Отсортировать ряд по возрастанию.
-
Если общее количество измерений N нечётное, найти m = $lceil frac{N}{2}rceil$ и округлить в сторону увеличения. $M_e = x_m$ – искомая медиана.
-
Если общее количество измерений N чётное, найти $m = frac{N}{2}$ и вычислить медиану как среднее $M_e = frac{x_m+x_{m+1}}{2}$.
В примере с оценками по алгебре N = 16 – четное. $m = frac{N}{2} = 8 $.
Сортируем ряд оценок по возрастанию: 3,3,3,4,4,4,4, 4,4, 4,5,5,5,5,5,5
$$ x_8 = 4, x_9 = 4 Rightarrow M_e = frac{4+4}{2} = 4 $$
Внимание!
Мода и медиана учитывают индивидуальные варианты и поэтому важны для характеристики вариационного ряда.
Особенное значение мода и медиана приобретают в рядах с выбросами – одиночными очень большими или очень малыми вариантами. В этом случае они оберегают от выводов на основании «средней температуры по больнице».
Примеры
Пример 1. В исследовании месячных доходов десяти человек были получены следующие данные: 200,100,300,300,1000,5000,100,200, 300,400 (дол.).
Найдите выборочную среднюю, моду и медиану.
Почему при оценке доходов мода и медиана предпочтительней выборочной средней?
Составим таблицу:
$x_i$, дол.
100
200
300
400
1000
5000
$sum$
$n_i$, чел.
2
2
3
1
1
1
10
$x_i n_i$
200
400
900
400
1000
5000
7900
Выборочная средняя:$ x_{cp} = frac{7900}{10} = 790$ (дол.)
Мода: $M_o$ = 300 (дол.) – максимальная частота 3
Медиана:
100, 100, 200, 200, 300, 300, 300, 400, 1000, 5000
$$ m = frac{10}{2} = 5, x_5 = x_6 = 300, M_e = frac{300+300}{2} = 300 (дол.) $$
Выборочная средняя не отражает доходов большей части людей в выборке, поскольку даже один человек с большими доходами может резко сместить оценку вправо. Мода и медиана хорошо отражают доходы большей части людей в выборке.
Пример 2. Исследовалось время решения задачи. В исследовании принимало участие 20 человек, из них двое задачу не решили. Время решения остальных участников:
$x_i$, мин
10
15
20
25
30
Найдите выборочную среднюю, моду и медиану.
При подборе задач для контрольной работы, сколько времени следует отвести на решение подобной задачи?
Проведём вычисления:
$x_i$
10
15
20
25
30
$sum$
$x_i n_i$
20
75
100
100
60
355
$$x_cp = frac{355}{18} ≈ 19,7 мин $$
В выборке 2 моды: $M_{o1}$ = 15 мин, $M_{o2}$ = 20 мин
Положение медианы: $m = frac{N}{2} = frac{18}{2} = 9, x_9 = x_10 = 20, Me = 20$ мин
Средняя, одна из мод и медиана равны 20 мин. Поэтому при составлении контрольной следует отвести на подобную задачу 20 мин.
Пример 3. работа по геометрии показала следующие результаты:
Найдите выборочную среднюю, моду и медиану.
Что вы можете сказать об уровне понимания материала?
Проведём вычисления:
$x_i n_i$
10
66
40
10
126
$$x_cp = frac{126}{39} ≈ 3,2$$
Мода: $M_o$ = 3 – эта оценка получена 22 раза
Положение медианы: $m = ⌈ frac{N}{2}⌉ = ⌈frac{39}{2}⌉ = 20, x_{20} = 3, Me = 3$
Средняя, мода и медиана равны 3.
Уровень понимания удовлетворительный, «на троечку».
Выборочная медиана
МЕДИАНА
ВЫБОРОЧНАЯ —
(от лат. mediana средняя) срединное значение
упорядоченной: выборки случайных величин
M. в. равна срединному случайному числу
M= х(n+1)/2, если n нечётно, и ср. значению
двух последоват. срединных чисел если
и четно. M. в. является устойчивой…
№10
выборочная дисперсия, выборочное ско
Выборочная
дисперсия – точечная оценка для
параметра
,
который называют генеральной дисперсией.
Def:
выборочной дисперсией называют
статистику
(3).
Для
дискретной случайной величины:
,
где
Докажем, что
выборочная дисперсия
является
состоятельной, но смещенной оценкой
параметра
:
Получим
вспомогательное утверждение (лемму):
Для
любого
справедливо
равенство
(4)
В
(4) возьмем с = 0. Получим:
.
Обозначим
.
Тогда:
(3’).
Доказательство.
Рассмотрим
последовательность случайных величин:
Применим
к ней теорему Чебышева:
.
В левой части –
.
Вычислим правую часть. Для этого
воспользуемся (4):
что
выборочная дисперсия дает смещенную
оценку. Вместе с тем, при
.
Поэтому в силу теоремы Чебышева:
.
Таким образом, выборочная дисперсия
является состоятельной оценкой.
Исправленная
выборочная дисперсия
Добавил
admin | Рубрики: Алгебра
Получим
несмещенную оценку для генеральной
дисперсии
:
Def:
Статистику
называют
исправленной выборочной дисперсией.
Очевидно,
что
–
несмещенная и состоятельная оценкадля
параметра
:
Проверим
несмещенность:
Замечание:
так как при
,
то на практике для оценки
применяют
(3’) ввиду ее удобства.
В
качестве оценок для среднего квадратичного
отклонения
берут
статистики
и
.Можно
показать, что это – состоятельные
оценки:
но
обе оценки будут смещенными:
Интервальные
оценки неизвестных параметров
распределения.
1)
Интервальная оценка и ее надежность.
Рассмотрим
выборку
.
Совокупность независимых случайных
величин имеет тот же закон распределения,
что и
.
Пусть
статистики
такие, что всегда
,
тогда
–
случайный интервал.
–
оцениваемый
параметр.
Def:
если случайный интервал
может
покрывать неизвестный параметр
,
то этот интервал называется интервальной
оценкой для параметра
.
Пусть
вероятность того, что параметр
,
тогда вероятность
называется
надежностью или доверительной вероятностью
интервальной оценки
.
Естественно,
что значения
берут
близкими к единице. Обычно
берут
0.95, 0.99, 0.999.
С
повышением надежности оценки увеличивается
длина доверительного интервала.
2)
Доверительный интервал для нормально
распределенной случайной величины при
известной дисперсии
.
Рассмотрим
случайную величину
–
известная величина. Требуется построить
доверительный интервал
.
Для
решения данной задачи рассмотрим
статистику
–
выборочная средняя. Можно показать,
что
также
подчинена нормальному закону.
Для
нормального распределения случайной
величины справедливо равенство:
–
функция
Лапласа.
Применим
равенство (2) к выборочной средней:
Выберем
так,
что бы
–
заданная надежность оценки.
Из
(3) имеем:
.
Итак,
доверительный интервал для параметра
имеет
вид:
Здесь
выбирается
из таблицы значений функций Лапласа:
3)
Доверительный интервал для генеральной
средней при неизвестной дисперсии
.
Как
и прежде
Рассмотрим
статистику
.
Здесь
–
исправленная выборочная дисперсия.
Доказано, что статистика
имеет
закон распределения с плотностью:
–
числа.
Распределение
вероятностей, задаваемое плотностью
(5) называют “t” – распределением или
распределением Стьюдента с
степенью
свободы.
Функция
(5) является четной.
При
“t”
– распределение стремится к нормальному
распределению.
Что
бы записать доверительный интервал для
генеральной средней, рассмотрим
равенство:
Пользуясь
таблицами t” – распределения по заданной
надежности и числу степеней свободы
,
выбираем
из
условия (6):
В
результате с надежностью
в
силу (6) выполняется двойное неравенство:
Отсюда
выражаем “a”:
Выборочное
среднее квадратическое отклонение дает
более точную оценку параметра о, чем
выборочный размах или крайние значения,
но при этом усложняются расчеты. Точность
метода средних квадратических отклонений
с увеличением объема выборки повышается,
а точность метода размахов понижается.
При 10 метод размахов применять не
рекомендуется, его целесообразно
заменять методом средних размахов. [1]
Вычислим
выборочную среднюю и выборочное
среднее квадратическое отклонение методом
произведений. [2]
Известно
несколько способов проверки ох, в
частности, по выборочному
среднему квадратическому отклонению s,
по межквар-тильной разности, способом
группировки, с помощью размахов.
Рассмотрим первый и последний из
перечисленных способов, применяемые
чаще других. [3]
Произведено
12 измерений напряжения радиосигнала
одним и тем же прибором, не имеющим
систематической ошибки, причем выборочное
среднее квадратическое отклонение s
случайных ошибок оказалось равным 0 6
В. [4]
Произведено
12 измерений напряжения радиосигнала
одним и тем же прибором, не имеющим
систематической погрешности,
причем выборочное
среднее квадратическое отклонение S
случайных погрешностей оказалось
равным 0.6 В. [5]
Известно,
что в качестве оценок математического
ожидания и среднего квадратического
отклонения случайной величины X можно
принять соответственно выборочную
среднюю х и выборочное
среднее квадратическое отклонение
ав. [6]
Коэффициент
смещения Е, применяемый для нормального
закона распределения и законов типа А
и модуля разности, пред – Обозначения:
б – допуск; X – выборочное среднее; S
– выборочное
среднее квадратическое отклонение;
5ср – среднее значение признака качества
( например, координата середины поля
допуска); т – выборочный эксцесс. [7]
Когда
обнаружены действительно анормальные
результаты наблюдений и они иключены
из обрабатываемой выборки, то на основе
оставшихся результатов наблюдений по
ГОСТ 8.207 – 76 будут определены: среднее
арифметическое X исправленных результатов
наблюдений, выборочное
среднее квадратическое отклонение Sx
результата наблюдения и
5 – результата измерения, выборочная
доверительная погрешность измерения
Д -, другие характеристики. [8]
Путем
обмера партии валов найдены частоты
фактических размеров и с помощью
вероятностной бумаги установлено, что
опытное распределение приближенно
нормально. С помощью той же бумаги
найдено выборочное среднее 31 974 мм
и выборочное
среднее квадратическое отклонение 5
0 004 мм. [9]
Температура
внутри установки измеряется в и 5 точках.
По результатам контроля к40 выборок по
и 5 наблюдений в каждой рассчитаны
средняя арифметическая х 202 С и выборочное
среднее квадратическое отклонение s
2 5 С. [10]
При
контроле по количественному признаку
в ряде случаев среднее квадратическое
отклонение а контролируемого параметра
заранее бывает известно ( например,
когда технологический процесс стабилен)
либо неизвестно. Если среднее квадратическое
отклонение а известно, то используется
а-план выборочного контроля. Этот метод
предусматривает наименьший объем
выборки по сравнению с другими методами
и требует меньше вычислений. Если среднее
квадратическое отклонение 0 неизвестно,
стандарт предусматривает два метода
его оценки: по выборочному
среднему квадратическому отклонению 5
и по размаху. В первом случае используется
S-план выборочного контроля, во втором
случае – R-илгн выборочного контроля. С
теоретической точки зрения предпочтительнее
оценивать среднее квадратическое
отклонение а по выборочному среднему
квадратическому отклонению 5, а не по
размаху R, так как первый метод оценки
дает более точные результаты. Поэтому
S-метод является основным методом оценки
при контроле качества продукции по
количественному признаку, даже несмотря
на то, что он требует более сложных
вычислений, чем – метод. При использовании
– метода следует иметь в виду, что чем
больше объем выборки, тем меньше
информации дает ее размах о значении
среднего квадратического отклонения
о. При объеме выборки больше восьми
единиц продукции оценивать среднее
квадратическое отклонение по размаху
вообще не рекомендуется. [11]
При
контроле по количественному признаку
в ряде случаев среднее квадратическое
отклонение а контролируемого параметра
заранее бывает известно ( например,
когда технологический процесс стабилен)
либо неизвестно. Если среднее квадратическое
отклонение а известно, то используется
а-план выборочного контроля. Этот метод
предусматривает наименьший объем
выборки по сравнению с другими методами
и требует меньше вычислений. Если среднее
квадратическое отклонение 0 неизвестно,
стандарт предусматривает два метода
его оценки: по выборочному среднему
квадратическому отклонению 5 и по
размаху. В первом случае используется
S-план выборочного контроля, во втором
случае – R-илгн выборочного контроля. С
теоретической точки зрения предпочтительнее
оценивать среднее квадратическое
отклонение а по выборочному
среднему квадратическому отклонению 5,
а не по размаху R, так как первый метод
оценки дает более точные результаты.
Поэтому S-метод является основным методом
оценки при контроле качества продукции
по количественному признаку, даже
несмотря на то, что он требует более
сложных вычислений, чем – метод. При
использовании – метода следует иметь в
виду, что чем больше объем выборки, тем
меньше информации дает ее размах о
значении среднего квадратического
отклонения о. При объеме выборки больше
восьми единиц продукции оценивать
среднее квадратическое отклонение по
размаху вообще не рекомендуется. [12]
№11 точ.
Оценки ген совокупности, мода, алгоритм
вычисления, начальный и центральный
моменты, асимметрия, эксцесс
Мода —
значение во множестве наблюдений,
которое встречается наиболее
часто.Случайная величина может не иметь
моды. Иногда в совокупности встречается
более чем одна мода(например:
2, 6, 6, 6, 8, 9, 9, 9, 10; мода = 6 и 9).
В этом случае можно сказать, что
совокупность мультимодальна. Из
структурных средних величин только
мода обладает таким уникальным свойством.
Как правило мультимодальность указывает
на то, что набор данных не
подчиняется нормальному
распределению.
Мода
как средняя
величина употребляется
чаще для данных, имеющих нечисловую
природу. Среди перечисленных цветов
автомобилей — белый,
черный, синий металлик, белый, синий
металлик, белый —
мода будет равна белому цвету.
При экспертной оценке с её помощью
определяют наиболее популярные типы
продукта, что учитывается при прогнозе
продаж или планировании их производства.
Кроме
математического ожидания и дисперсии,
для оценки случайной величины используются
начальные и центральные моменты случайной
величины.
Начальным
моментом порядка
случайной
величины
называют
математическое ожидание величины
:
.
Центральным моментом
порядка
случайной
величины
называют
математическое ожидание величины
:
.
Начальный
момент первого порядка
равен
математическому ожиданию самой случайной
величины
.
Центральный
момент первого порядка равен нулю:
.
Центральный
момент второго порядка представляет
собой дисперсию случайной величины
:
.
Для
дискретных случайных величин:
;
.
Коэффицие́нт
асимметри́и (skewness)
— числовая характеризующая степени
несимметричности распределения данной
случайной величины.
Определение
Пусть
задана случайная величина
,
такая что
.
Коэффициент
асимметрии распределения случайной
величины
определяется
формулой:
где
—
третий центральный
момент случайной
величины
;
— стандартное
отклонение случайной
величины
;
—
дисперсия
или второй центральный
момент случайной
величины
;
Если
плотность распределения симметрична,
то
.
Если
левый хвост распределения тяжелее,
то
.
Если
правый хвост распределения тяжелее,
то
.
Иногда
вместо
используется
обозначение
.
Коэффицие́нт
эксце́сса (kurtosis)
— числовая характеризующая степени
остроты пика распределения случайной
величины.
Определение
Пусть
задана случайная величина
,
такая что
.
Коэффициент
эксцесса распределения случайной
величины
определяется
формулой:
где
—
четвёртый центральный
момент случайной
величины
;
—
дисперсия
или второй центральный
момент случайной
величины
;
Нормальное
распределение имеет
нулевой эксцесс,
.
Если
хвосты распределения «легче», а пик
острее, чем у нормального распределения,
то
.
Если
хвосты распределения «тяжелее», а пик
более «приплюснутый», чем у нормального
распределения, то
.
Область
возможных значений эксцесса
.
№12
Интервальные оценки генеральной
совокупности
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
У этого термина существуют и другие значения, см. Медиана.
Медиа́на (от лат. mediāna «середина») или набора чисел — число, которое находится в середине этого набора, если его упорядочить по возрастанию, то есть такое число, что половина из элементов набора не меньше него, а другая половина не больше. Другое равносильное определение[1]: медиана набора чисел — это число, сумма расстояний (или, если более строго, модулей) от которого до всех чисел из набора минимальна. Это определение естественным образом обобщается на многомерные наборы данных и называется 1-медианой.
Например, медианой набора {11, 9, 3, 5, 5} является число 5, так как оно стоит в середине этого набора после его упорядочивания: {3, 5, 5, 9, 11}. Если в выборке чётное число элементов, медиана может быть не определена однозначно: тогда для числовых данных чаще всего используют полусумму двух соседних значений (то есть медиану набора {1, 3, 5, 7} принимают равной 4), подробнее см. ниже.
В математической статистике медиана может использоваться как одна из характеристик выборки или совокупности чисел.
Также определяется медиана случайной величины: в этом случае оно определяется как число, которое делит пополам распределение. Грубо говоря, медианой случайной величины является такое число, что вероятность получить значение случайной величины справа от него равна вероятности получить значение слева от него (и они обе равны 1/2), — более точное определение дано ниже.
Можно также сказать, что медиана является 50-м персентилем, 0,5-квантилем или вторым квартилем выборки или распределения.
Свойства медианы для случайных величин[править | править код]
Если распределение непрерывно, то медиана является одним из решений уравнения
- ,
где — функция распределения случайной величины , связанная с плотностью распределения как
- .
Если распределение является непрерывной строго возрастающей функцией, то решение уравнения однозначно. Если распределение имеет разрывы, то медиана может совпадать с минимальным или максимальным (крайним) возможным значением случайной величины, что противоречит «геометрическому» пониманию этого термина.
Медиана является важной характеристикой распределения случайной величины и, так же как математическое ожидание, может быть использована для центрирования распределения. Поскольку оценки медианы более робастны, её оценивание может быть более предпочтительным для распределений с т. н. тяжёлыми хвостами. Однако о преимуществах оценивания медианы по сравнению с математическим ожиданием можно говорить только в случае, если эти характеристики у распределения совпадают, в частности, для симметричных функций плотности распределения вероятностей.
Медиана определяется для всех распределений, а в случае неоднозначности, естественным образом доопределяется, в то время как математическое ожидание может быть не определено (например, у распределения Коши).
Пример использования[править | править код]
Рассмотрим финансовое состояние 19 малоимущих, у каждого из каких есть только 5 ₽, и одного миллионера, у которого буквально 1 млн ₽. Тогда в сумме у них получается 1 000 095 ₽. Если деньги равными долями разделить на 20 человек, получится 50 004,75 ₽. Это будет среднее арифметическое значение суммы денег, которая была у всех 20 человек в этой комнате.
Медиана же будет равна 5 ₽ (сумма «расстояния» от этой величины до состояния каждого из рассматриваемых людей минимальна). Это можно интерпретировать следующим образом: «разделив» всех рассматриваемых людей на две равные группы по 10 человек, мы получаем, что в первой группе у каждого не больше 5 ₽, во второй же — не меньше 5 ₽.
Из этого примера получается, что в качестве «серединного» состояния, грубо говоря, корректнее всего использовать именно медиану, а вот среднее арифметическое, наоборот, значительно превышает сумму наличных, имеющуюся у случайного человека из выборки.
Различны изменения в динамике и у средней арифметической с медианой, например в вышеприведённом примере, если у миллионера станет 1,5 млн. ₽ (+50 %), а у остальных станет 6 ₽ (+20 %), то средняя арифметическая выборки станет равна 75 005,70 ₽, то есть как бы у всех повысились равномерно на 50 %, при этом медиана станет равной 6 ₽ (+20 %).
Неуникальность значения[править | править код]
Если имеется чётное количество случаев и два средних значения различаются, то медианой, по определению, может служить любое число между ними (например, в выборке {1, 3, 5, 7} медианой может служить любое число из интервала (3,5)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений (в примере выше это число (3+5)/2=4). Для выборок с чётным числом элементов можно также ввести понятие «нижней медианы» (элемент с номером n/2 в упорядоченном ряду из элементов; в примере выше это число 3) и «верхней медианы» (элемент с номером (n+2)/2; в примере выше это число 5)[2]. Эти понятия определены не только для числовых данных, но и для любой порядковой шкалы.
См. также[править | править код]
- Мода — значение во множестве наблюдений, которое встречается наиболее часто.
- Среднее арифметическое набора чисел — число, сумма квадратов расстояний от которого до всех чисел из набора минимальна[3].
Примечания[править | править код]
- ↑ Сущность медианы. Дата обращения: 9 мая 2021. Архивировано 9 мая 2021 года.
- ↑ Кормен, Томас Х., Лейзерсон, Чарльз И., Ривест Рональ Л., Штайн, Клиффорд. Алгоритмы. Построение и анализ. — 2-е издание. — М.: Издательский дом «Вильямс», 2005. — С. 240. — 1296 с.
- ↑ Почему это равносильные определения среднего арифметического.
Литература[править | править код]
- Медиана // Маниковский — Меотида. — М. : Большая российская энциклопедия, 2012. — С. 479—480. — (Большая российская энциклопедия : [в 35 т.] / гл. ред. Ю. С. Осипов ; 2004—2017, т. 19). — ISBN 978-5-85270-353-8.
- Медиана // Большая российская энциклопедия [Электронный ресурс]. — 2017.
План урока:
Понятие выборки и генеральной совокупности
Среднее арифметическое выборки
Упорядоченный ряд и таблица частот
Размах выборки
Мода выборки
Медиана выборки
Ошибки в статистике
Понятие выборки и генеральной совокупности
Слово статистика, образованное от латинского status(состояние дел), появилось только в 1746 году, когда его употребил немец Готфрид Ахенвалль. Однако ещё в Древнем Китае проводились переписи населения, в ходе которых правители собирали информацию о своих владениях и жителях, проживающих в них.
В основе любого статистического исследования лежит массив информации, который называют выборкой данных. Покажем это на примере. Пусть в классе, где учится 20 учеников, проводился тест по математике, содержавший 25 вопросов. В результате учащиеся показали следующие результаты:
Ряд чисел, приведенный во второй строке таблицы (12, 19, 19, 14, 17, 16, 18, 20, 15, 25, 13, 20, 25, 16, 17, 12, 24, 13, 21, 13), будет выборкой. Также ее могут называть рядом данных или выборочной совокупностью.
В примере с классом выборка состоит из 20 чисел. Эту величину (количество чисел в ряду) называют объемом выборки. Каждое отдельное число в ряду именуют вариантой выборки.
В примере со школьным классом в выборку попали все его ученики. Это позволяет точно определить, насколько хорошо учащиеся написали математический тест. Однако иногда необходимо проанализировать очень большие группы населения, состоящие из десятков и даже сотен миллионов человек. Например, необходимо узнать, какая часть населения страны курит. Опросить каждого жителя государства невозможно, поэтому в ходе исследования опрашивают лишь его малую часть. В этом случае статистики выделяют понятие генеральная совокупность.
Так, если с помощью опроса 10 тысяч человек ученые делают выводы о распространении курения в России, то все российское население будет составлять генеральную совокупность исследования, а опрошенные 10 тысяч людей вместе образуют выборку.
Среднее арифметическое выборки
Сбор информации о выборке является лишь первой стадией статистического исследования. Далее ее необходимо обобщить, то есть получить некоторые цифры, характеризующие выборку. Самой часто используемой статистической характеристикой является среднее арифметическое.
Другими словами, для подсчета среднего арифметического необходимо просто сложить все числа в ряде данных, а потом поделить получившееся значение на количество чисел в ряде. Так, в примере с тестом по математике (таблица 1) средний балл учащихся составит: (12+19+19+14+17+16+18+20+15+25+13+20+25+16+17+12+24+13+21+13):20=
= 349:20 = 17,45.
Среднее арифметическое позволяет одним числом характеризовать какое-либо качество всех объектов группы. Чем больше средний балл учащихся в классе, тем выше их успеваемость. Чем меньше среднее количество голов, пропускаемых футбольной командой за один матч, тем лучше она играет в обороне. Если средняя зарплата программистов в городе составляет 90 тысяч рублей, а дворников – 25 тысяч рублей, то это значит, что программисты значительно более востребованы на рынке труда, а потому при выборе будущей профессии лучше предпочесть именно эту специальность.
Упорядоченный ряд и таблица частот
В ряде данных в таблице 1 числа приведены в произвольном порядке. Перепишем ряд так, чтобы все числа шли в неубывающем порядке, то есть от самого маленького к самому большому:
12, 12, 13, 13, 13, 14, 15, 16, 16, 17, 17, 18, 19, 19, 20, 20, 21, 24, 25, 25.
Такую запись называют упорядоченным рядом данных.
Его характеристики ничем не отличаются от изначальной выборки, однако с ним удобнее работать. С его помощью можно видеть, что ни одному ученику не удалось набрать 22 или 23 балла на тесте, но сразу двое учащихся дали 25 правильных ответов. На основе упорядоченного ряда данных несложно составить таблицу частот, в которой будет указано, как часто та или иная варианта выборки встречается в ряде. Выглядеть она будет так:
При составлении этой таблицы мы исключили из нее те варианты количества набранных баллов, частота которых равна нулю (от 0 до 12, 22 и 23).Заметим, что сумма чисел в нижней строке таблицы частот должна равняться объему выборки. Действительно,
2+3+1+1+2+2+1+2+2+1+1+2 = 20.
С помощью таблицы частот можно быстрее посчитать среднее арифметическое выборки. Для этого каждую варианту надо умножить на ее частоту, после чего сложить полученные результаты и поделить их на объем выборки:
(12•2+13•3+14•1+15•1+16•2+17•2+18•1+19•2+20•2+21•1+24•1+25•2):20 =
(24+39+14+15+32+34+18+38+40+42+24+50):20 = 349:20 = 17,45.
Размах выборки
Следующий важная характеристика ряда данных – это размах выборки.
Если выборка представлена в виде упорядоченного ряда данных, то достаточно вычесть из последнего числа ряда первое число. Так, размах выборки результатов теста в классе равен:
25 – 12 = 13,
так как самые лучшие ученики смогли решить все 25 заданий, а наихудший учащийся ответил правильно только на 13 вопросов.
Размах выборки характеризует стабильность, однородность исследуемых свойств. Например, пусть два спортсмена-стрелка в ходе соревнований производят по 5 выстрелов по круговой мишени, где за попадание начисляют от 0 до 10 очков. Первый стрелок показал результаты 8, 9, 9, 8, 9 очков. Второй же спортсмен в своих попытках показал результаты 7, 10, 10, 6, 10. Средние арифметические этих рядов равны:
(8+9+9+8+9):5 = 43:5 = 8,6;
(7+10+10+6+10):5 = 43:5 = 8,6.
Получается, что в среднем оба стрелка стреляют одинаково точно, однако первый спортсмен демонстрирует более стабильные результаты. У его выборки размах равен
9 – 8 = 1,
в то время как размах выборки второго спортсмена равен
10 – 6 = 4.
Размах выборки может быть очень важен в метеорологии. Например, в Алма-Ате и Амстердаме средняя температура в течение года почти одинакова и составляет 10°С. Однако в Алма-Ате в январе и феврале иногда фиксируются температуры ниже -30°С, в то время как в Амстердаме за всю историю наблюдений она никогда не падала ниже -20°С.
Мода выборки
Иногда важно знать не среднее арифметическое выборки, а то, какая из ее вариант встречается наиболее часто. Так, при управлении магазином одежды менеджеру не важен средний размер продаваемых футболок, а необходима информация о том, какие размеры наиболее популярны. Для этого используется такой показатель, как мода выборки.
В примере с математическим тестом сразу 3 ученика набрали по 13 баллов, а частота всех других вариант не превысила 2, поэтому мода выборки равна 13. Возможна ситуация, когда в ряде есть сразу две или более вариант, которые встречаются одинаково часто и чаще остальных вариант. Например, в ряде
1, 2, 3, 3, 3, 4, 5, 5, 5
варианты 3 и 5 встречаются по три раза. В таком случае ряд имеет сразу две моды – 3 и 5, а всю выборку именуют мультимодальной. Особо выделяется случай, когда в выборке все варианты встречаются с одинаковой частотой:
6, 6, 7, 7, 8, 8.
Здесь числа 6, 7 и 8 встречаются одинаково часто (по два раза), а другие варианты отсутствуют. В таких случаях говорят, что ряд не имеет моды.
Медиана выборки
Иногда, например, при расчете средней зарплаты, среднее арифметическое не вполне адекватно отражает ситуацию. Это происходит из-за наличия в выборке чисел, очень сильно отличающихся от среднего. Так, из-за огромных зарплат некоторых начальников большинство рядовых сотрудников компаний обнаруживают, что их зарплата ниже средней. В таких случаях целесообразно использовать такую характеристику, как медиану ряда. Это такое значение, которое делит ряд данных пополам. В упорядоченном ряде 2, 3, 6, 8, 8, 12, 15, 15, 18, 19, 25 медианой будет равна 12, так как именно она находится в середине ряда:
Однако таким образом можно найти только медиану ряда, в котором находится нечетное количество чисел. Если же их количество четное, то за медиану условно принимают среднее арифметическое двух средних чисел. Так, для ряда 2, 3, 6, 8, 8, 12, 15, 15, 18, 19, 25, 30, содержащего 12 чисел, медиана будет равна среднему значению 12 и 15, которые занимают 6-ое и 7-ое место в ряду:
Вернемся к примеру с математическим тестом в школе. Так как его сдавали 20 учеников, а 20 – четное число, то для расчета медианы следует найти среднее арифметическое 10-ого и 11-ого числа в упорядоченном ряде
12, 12, 13, 13, 13, 14, 15, 16, 16, 17, 17, 18, 19, 19, 20, 20, 21, 24, 25, 25.
Эти места занимают числа 17 и 17 (выделены жирным шрифтом). Медиана ряда будет равна
(17+17):2 = 34:2 = 17.
Три приведенные основные статистические характеристики выборки, а именно среднее арифметическое, мода и медиана, называются мерами центральной тенденции. Они позволяют одним числом указать значение, относительно которого группируются все числа ряда.
Рассмотрим для наглядности ещё один пример. Врач в ходе диспансеризации измерил вес мальчиков в классе. В результате он получил 10 значений (в кг):
39, 41, 67, 36, 60, 58, 46, 44, 39, 69.
Найдем среднее арифметическое, размах, моду и медиану для этого ряда.
Решение. Сначала перепишем ряд в упорядоченном виде:
36, 39, 39, 41, 44, 46, 58, 60, 67, 69.
Так как в ряде 10 чисел, то объем выборки равен 10. Найдем среднее арифметическое. Для этого сложим все числа в ряде и поделим их на объем выборки (то есть на 10):
(36+39+39+41+44+46+58+60+67+69):10 =
= 499:10 = 49,9 кг.
Размах выборки равен разнице между наибольшей и наименьшей вариантой в ней. Самый тяжелый мальчик весит 69 кг, а самый легкий – 36 кг, а потому размах ряда равен
69 – 36 = 33 кг.
В упорядоченном ряде только одно число, 39, встречается дважды, а все остальные числа встречаются по одному разу. Поэтому мода ряда будет равна 39 кг.
В выборке 10 чисел, а это четное число. Поэтому для нахождения медианы надо найти два средних по счету значение найти их среднее. На 5-ом и 6-ом месте в ряде находятся числа 44 и 46. Их среднее арифметическое равно
(44+46):2 = 90:2 = 45 кг.
Поэтому и медиана ряда будет равна 45 кг.
Ошибки в статистике
Статистика является очень мощным инструментом для исследований во всех областях человеческой деятельности. Однако иногда ее иронично называют самой точной из лженаук. Известно и ещё одно высказывание, приписываемое политику Дизраэли, согласно которому существует просто ложь, наглая ложь и статистика. С чем же связана такая репутация этой дисциплины?
Дело в том, что некоторые люди и организации часто манипулируют данными статистики, чтобы убедить других в своей правоте или преимуществах товара, которые они продают. Требуются определенные навыки, чтобы правильно пользоваться статистикой. Одна из самых распространенных ошибок – это неправильный выбор выборки.
В 1936 году перед президентскими выборами в США был проведен телефонный опрос, который показал, что с большим преимуществом победу должен одержать Альфред Лендон. Однако на выборах Франклин Рузвельт набрал почти вдвое больше голосов. Ошибка была связана с тем, что в те годы телефон могли позволить себе только богатые люди, которые в большинстве своем поддерживали Лендона. Однако бедные люди (а их, конечно же, больше, чем богатых) голосовали за Рузвельта.
Ещё один пример – это агитация в конце XIX века в США к службе на флоте. Пропагандисты в своей рекламе указывали, что, согласно статистике, смертность на флоте во время войны (испано-американской) составляет 0,09%, в то время как среди населения Нью-Йорка она равнялась 0,16%. Получалось, что служить на флоте в военное время безопаснее, чем жить мирной жизнью. Однако на самом деле причина таких цифр заключается в том, что во флот всегда отбирали молодых мужчин с хорошим здоровьем, которые не могли умереть от «старческих» болезней, в то время как в население Нью-Йорка входят больные и старые люди.
При указании среднего значения исследователь может использовать разные характеристики – среднее арифметическое, медиана, мода. При этом почти всегда среднее арифметическое несколько больше медианы. Именно поэтому большинство людей, узнающих о средней зарплате в стране, удивляются, так как они столько не зарабатывают. Правильнее ориентироваться на медианную зарплату.
Ну и наконец, нельзя забывать, что любая статистика может показать только корреляцию между двумя величинами, но это не всегда означает причинно-следственную связь. Так, известно, что чем больше в городе продается мороженого, тем больше в это же время людей тонет на пляжах. Означает ли это, что поедание мороженого увеличивает риск во время плавания? Нет. Дело в том, что оба этих показателя, продажи мороженого и количество утонувших, зависят от третьей величины – температуры в городе. Чем жарче на улице, тем большее количество людей ходят на пляж и тем больше мороженого продается в магазинах.