17 авг. 2022 г.
читать 2 мин
Таблица частот — это таблица, в которой отображается информация о частотах. Частоты просто говорят нам, сколько раз произошло определенное событие.
Например, в следующей таблице показано, сколько товаров было продано магазином в разных ценовых диапазонах за данную неделю:
| Цена товара | Частота | | — | — | | $1 – $10 | 20 | | $11 – $20 | 21 | | 21 – 30 долларов США | 13 | | $31 – $40 | 8 | | $41 — $50 | 4 |
В первом столбце отображается ценовой класс, а во втором столбце — частота этого класса.
Также можно рассчитать совокупную частоту для каждого класса, которая представляет собой просто сумму частот до определенного класса.
| Цена товара | Частота | Накопленная частота | | — | — | — | | $1 – $10 | 20 | 20 | | $11 – $20 | 21 | 41 | | 21 – 30 долларов США | 13 | 54 | | $31 – $40 | 8 | 62 | | $41 — $50 | 4 | 66 |
Например, первая кумулятивная частота просто равна первой частоте 20 .
Вторая кумулятивная частота представляет собой сумму первых двух частот: 20 + 21 = 41 .
Третья кумулятивная частота представляет собой сумму первых трех частот: 20 + 21 + 13 = 54 .
И так далее.
В следующем примере показано, как найти совокупные частоты в Excel.
Пример: кумулятивная частота в Excel
Сначала мы введем класс и частоту в столбцах A и B:
Далее мы рассчитаем совокупную частоту каждого класса в столбце C.
На изображении ниже в столбце D показаны формулы, которые мы использовали:
Мы также можем создать оживальную диаграмму для визуализации кумулятивных частот.
Чтобы создать оживальную диаграмму, удерживайте нажатой клавишу CTRL и выделите столбцы A и C.
Затем перейдите в группу « Диаграммы » на вкладке « Вставка » и щелкните первый тип диаграммы в « Вставить столбец» или «Гистограмма» :
На верхней ленте в Excel перейдите на вкладку « Вставка », затем в группу « Диаграммы ». Нажмите Точечная диаграмма , затем нажмите Точечная диаграмма с прямыми линиями и маркерами .
Это автоматически создаст следующий оживальный график:
Не стесняйтесь изменять оси и заголовок, чтобы сделать график более эстетичным:
Дополнительные ресурсы
Калькулятор кумулятивной частоты
Как рассчитать относительную частоту в Excel
Построение полигона, гистограммы, кумуляты, огивы
Для наглядности строят различные графики статистического
распределения, и, в частности, полигон и гистограмму.
- Полигон
- Гистограмма
- Кумулята и огива
Полигон
Полигоном частот называют
ломаную, отрезки которой соединяют точки
. Для построения полигона частот на оси
абсцисс откладывают варианты
, а на оси ординат – соответствующие им
частоты
. Такие точки
соединяют
отрезками прямых и получают полигон частот.
Полигоном относительных
частот называют ломаную, отрезки которой соединяют
точки
. Для построения полигона относительных
частот на оси абсцисс откладывают варианты
, а на оси ординат – соответствующие им
относительные частоты (частости)
. Такие точки
соединяют
отрезками прямых и получают полигон частот.
На сайте можно заказать решение контрольной или самостоятельной работы, домашнего задания, отдельных задач. Для этого вам нужно только связаться со мной:
ВКонтакте
WhatsApp
Telegram
Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту СберБанка. Опыт работы более 25 лет.
Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.
Пример 1
Построить полигон частот и
полигон относительных частот (частостей):
Решение
Вычислим относительные
частоты (частости):
Полигон частот
Полигон относительных частот
В случае интервального ряда для
построения полигона в качестве
берутся середины интервалов.
Гистограмма
В случае интервального
статистического распределения целесообразно построить гистограмму.
Гистограммой частот
называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых
служат частичные интервалы длиною
, а высоты (в случае равных интервалов) должны
быть пропорциональны частотам. При построении гистограммы с неравными
интервалами по оси ординат наносят не частоты, а плотность частоты
. Это необходимо сделать для устранения
влияния величины интервала на распределение и иметь возможность сравнивать
частоты.
В случае построения
гистограммы относительных частот (гистограммы частостей)
высоты в случае равных интегралов должны быть пропорциональны относительной
частоте
, а в случае неравных интервалов высота
равна плотности относительной частоты
.
На сайте можно заказать решение контрольной или самостоятельной работы, домашнего задания, отдельных задач. Для этого вам нужно только связаться со мной:
ВКонтакте
WhatsApp
Telegram
Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту СберБанка. Опыт работы более 25 лет.
Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.
Пример 2
Построить гистограмму
частот и относительных частот (частостей)
Гистограмма частот
Гистограмма относительных частот
Пример 3
Построить гистограмму
частот (случай неравных интервалов).
Решение
Вычислим плотности
частоты:
Гистограмма частот
Кроме этой задачи на другой странице сайта есть
пример построения полигона и гистограммы на одном графике для интервального вариационного ряда
Кумулята и огива
При помощи кумуляты (кривой сумм) изображается ряд накопленных частот.
Накопленные частоты определяются путём последовательного суммирования частот по
группам и показывают, сколько единиц совокупности имеют значения признака не больше,
чем рассматриваемое значение. При построении кумуляты
интервального вариационного ряда по оси абсцисс откладываются варианты ряда, а
по оси ординат накопленные частоты, которые наносят на поле в виде
перпендикуляров к оси абсцисс в верхних границах интервалов. Затем эти
перпендикуляры соединяют и получают ломаную линию, т.е. кумуляту.
Если при графическом
изображении вариационного ряда в виде кумуляты оси
поменять местами, то получим огиву. То есть огива строится аналогично кумуляте с той
лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения
признака — на оси ординат.
Пример 4
Построить кумулятивную
кривую:
Решение
Вычислим накопленные
частоты:
Кумулятивная кривая
Содержание
- Как рассчитать кумулятивную частоту в Excel
- Пример: кумулятивная частота в Excel
- Как построить CDF в Excel
- Пример: расчет и построение CDF в Excel
- Как создать кумулятивную диаграмму суммы в Excel (с примером)
- Шаг 1: введите данные
- Шаг 2: Рассчитайте совокупную сумму
- Шаг 3: Создайте гистограмму со средней линией
- Шаг 4. Настройте диаграмму (необязательно)
- Дополнительные ресурсы
- Как построить кумуляту в excel по данным таблицы
- График с накоплением в Excel.
Как рассчитать кумулятивную частоту в Excel
Таблица частот — это таблица, в которой отображается информация о частотах. Частоты просто говорят нам, сколько раз произошло определенное событие.
Например, в следующей таблице показано, сколько товаров было продано магазином в разных ценовых диапазонах за данную неделю:
| Цена товара | Частота | | — | — | | $1 – $10 | 20 | | $11 – $20 | 21 | | 21 – 30 долларов США | 13 | | $31 – $40 | 8 | | $41 — $50 | 4 |
В первом столбце отображается ценовой класс, а во втором столбце — частота этого класса.
Также можно рассчитать совокупную частоту для каждого класса, которая представляет собой просто сумму частот до определенного класса.
| Цена товара | Частота | Накопленная частота | | — | — | — | | $1 – $10 | 20 | 20 | | $11 – $20 | 21 | 41 | | 21 – 30 долларов США | 13 | 54 | | $31 – $40 | 8 | 62 | | $41 — $50 | 4 | 66 |
Например, первая кумулятивная частота просто равна первой частоте 20 .
Вторая кумулятивная частота представляет собой сумму первых двух частот: 20 + 21 = 41 .
Третья кумулятивная частота представляет собой сумму первых трех частот: 20 + 21 + 13 = 54 .
В следующем примере показано, как найти совокупные частоты в Excel.
Пример: кумулятивная частота в Excel
Сначала мы введем класс и частоту в столбцах A и B:
Далее мы рассчитаем совокупную частоту каждого класса в столбце C.
На изображении ниже в столбце D показаны формулы, которые мы использовали:
Мы также можем создать оживальную диаграмму для визуализации кумулятивных частот.
Чтобы создать оживальную диаграмму, удерживайте нажатой клавишу CTRL и выделите столбцы A и C.
Затем перейдите в группу « Диаграммы » на вкладке « Вставка » и щелкните первый тип диаграммы в « Вставить столбец» или «Гистограмма» :
На верхней ленте в Excel перейдите на вкладку « Вставка », затем в группу « Диаграммы ». Нажмите Точечная диаграмма , затем нажмите Точечная диаграмма с прямыми линиями и маркерами .
Это автоматически создаст следующий оживальный график:
Не стесняйтесь изменять оси и заголовок, чтобы сделать график более эстетичным:
Источник
Как построить CDF в Excel
Кумулятивная функция распределения (CDF) описывает вероятность того, что случайная величина примет значение, меньшее или равное некоторому числу.
Мы можем использовать следующую функцию в Excel для расчета кумулятивных вероятностей распределения:
В следующем примере показано, как рассчитать и построить CDF в Excel.
Пример: расчет и построение CDF в Excel
Во-первых, давайте создадим следующий набор данных в Excel:
Далее укажем среднее значение и стандартное отклонение распределения:
Затем мы можем рассчитать кумулятивную вероятность распределения для первого значения в наборе данных, используя следующую формулу:
Затем мы можем скопировать и вставить эту формулу в каждую другую ячейку в столбце B:
Теперь CDF завершен. Мы интерпретируем значения следующим образом:
- Вероятность того, что случайная величина примет значение, равное или меньшее 6, равна.00135 .
- Вероятность того, что случайная величина примет значение, равное или меньшее 7, равна.00383 .
- Вероятность того, что случайная величина примет значение, равное или меньшее 8, равна.00982 .
Чтобы визуализировать этот CDF, мы можем выделить каждое значение в столбце B. Затем мы можем щелкнуть вкладку « Вставка » на верхней ленте и нажать « Вставить линейную диаграмму» , чтобы создать следующую диаграмму:
Значения по оси X показывают значения из набора данных, а значения по оси Y показывают значения CDF.
Источник
Как создать кумулятивную диаграмму суммы в Excel (с примером)
В этом руководстве представлен пошаговый пример того, как создать следующую сводную диаграмму в Excel:
Шаг 1: введите данные
Во-первых, давайте создадим следующий набор данных, который показывает общий объем продаж некоторого товара в течение каждого месяца в году:
Шаг 2: Рассчитайте совокупную сумму
Далее мы будем использовать следующую формулу для расчета совокупной суммы продаж:
Мы можем ввести эту формулу в ячейку C2 , а затем скопировать и вставить ее в каждую оставшуюся ячейку в столбце C:
Шаг 3: Создайте гистограмму со средней линией
Затем выделите диапазон ячеек A1:C13 , затем нажмите вкладку « Вставка » на верхней ленте, затем нажмите « Сгруппированный столбец » в группе « Диаграммы ».
Будет создана следующая диаграмма:
Затем щелкните правой кнопкой мыши в любом месте диаграммы и выберите « Изменить тип диаграммы» :
В появившемся новом окне нажмите Combo , а затем нажмите OK :
Диаграмма будет преобразована в гистограмму с линией:
Синие столбцы представляют продажи за каждый месяц, а оранжевая линия — совокупные продажи.
Шаг 4. Настройте диаграмму (необязательно)
Не стесняйтесь добавлять заголовок, настраивать цвета, настраивать стиль линий и настраивать ширину полос, чтобы сделать график более эстетичным:
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в Excel:
Источник
Как построить кумуляту в excel по данным таблицы
Для селекционера, например, важно знать, сколько зерен содержит колос выведенного (выводимого) им нового сорта пшеницы. В этой ситуации совершенно ясно, что подсчетом количества зерен только в одном колосе не обойтись. Для определения числа зерен надо воспользоваться достаточно большим количеством колосьев, скажем не менее сотни. Приведем пример математической обработки результатов селекции.
Все поле пшеницы, которое вырастил селекционер можно на математическом языке назвать генеральной совокупностью. Подсчитать количество зерен в колосьях всей генеральной совокупности, очевидно, не представляется возможным, но из всей генеральной совокупности можно выбрать, скажем, сто колосьев и подсчитать количество зерен в них. Эти сто колосьев будут называться выборкой из генеральной совокупности, и они с определенной точностью будут отражать число зерен во всем поле (генеральной совокупности). Чтобы по данным выборки иметь возможность судить обо всей генеральной совокупности, она должна быть отобрана случайно. Так в нашем случае селекционер ни в коем случае не должен отдавать предпочтение тем или иным колосьям (по размерам, внешнему виду, месту произрастания на поле и т.п.) в процессе их выборки. Наиболее целесообразно в данной ситуации совершать выбор колосьев из непрозрачного мешка наугад. У всех выбранных колосьев производится подсчет числа зерен, и результаты фиксируются в виде ряда чисел, с которыми в дальнейшем и предстоит совершать математические действия. В данном примере можно предложить следующую их последовательность.
2.1 Создание вариационного ряда.
Вариационным рядом называется ранжированный в порядке возрастания или убывания ряд вариантов с соответствующими им весами (частотами или частностями). Вариационный ряд будет дискретным, если любые его варианты отличаются на постоянную величину, и непрерывным, если варианты могут отличатся один от другого на сколь угодно малую величину.
Иными словами в вариационном ряду полученные значения располагаются в порядке их увеличения и, если значение повторяется, то рядом записывается число его повторений. Т.е. в данном примере по числу зерен в колосьях ряд может выглядеть так (таб. 2):
Теперь построим кумуляту — график накопленных относительных частот. Расположим его под гистограммой.
Кумулята — это экспериментальная оценка формы графика функции распределения. Теоретическая кривая будет красивой и гладкой — мы познакомились с ней в начале работы, обсуждая свой вариант задания. Экспериментальная оценка — ломаная линия, да ещё и с погрешностями. Эти случайные ошибки вызваны ограниченным, не бесконечным объёмом выборки. В любом случае, эти графики начинаются в нуле и постепенно растут до 100%.
Напомним, что значения накопленных частот должны быть привязаны к верхним границам интервалов — в соответствии со стандартами и здравым смыслом. Идея в том, что накопленная частота накапливается именно к концу интервала, а не к середине.
Построим график в виде ломаной линии:
Insert — Charts — Insert Scatter (X, Y) or Bubble Chart
Вставка — Диаграммы — Вставить точечную (X, Y) или пузырьковую диаграмму
Вставка графика Y (X)
Выбираем тип графика
Scatter — Scatter with Straight Lines
Точечная — Точечная с прямыми отрезками
Это просто ломаная линия без маркеров точек.
Выбираем данные для графика:
Select Data — Select Data Source — Legend Entries (Series) — Add
Выбрать данные — Выбор источника данных — Элементы легенды (ряды) — Добавить
выбираем следующие данные.
Столбец «иксов» — верхние границы:
Series X Values
Столбец «игреков» — накопленные частоты:
Series Y Values
Убираем заголовок диаграммы:
Chart Elements — Chart Title
Элементы диаграммы — Название диаграммы
Настраиваем цвет линии на графике.
Format Data Series — Series options — Fill & Line — Line
Формат ряда данных —Параметры ряда — Заливка и границы — Линия
Line — Solid line
Линия — Сплошная линия
Если отрезков много, то ломаная линия выглядит как гладкая кривая.
Настроим числовые метки на вертикальной оси, чтобы выводились целые числа:
Format Axis — Axis Options — Number — Decimal places — 0
Формат оси — Параметры оси — Число — Число десятичных знаков — 0
Установим диапазоны значений по осям.
Вертикальная ось — метки в процентах, а границы диапазона — числа. Поэтому пределы изменения будут от 0 до 1:
Axis Options — Bounds
Параметры оси — Границы
Горизонтальная ось — в соответствии с интервалами группировки — от 190 до 310.
Подгоняем размеры графика и размещаем его под гистограммой. Можно сделать это вручную.
Если захочется особой точности, поработаем через меню параметров графика (числа условные).
Format Chart Area — Chart Options — Size & Properties — Size
Формат области диаграммы — Параметры диаграммы — Размер и свойства — Размер
В английской версии пакета размеры измеряются в дюймах. В русской версии — в сантиметрах. Можем установить точные значения размеров вручную.
Окончательно совмещаем маштаб гистограммы и кумуляты: начало первого интервала 190, конец последнего интервала 310. Положения этих двух меток на обоих графиках должны совпадать.
Проблемы с масштабом решаем так. Значение 190 находится в начале интервала, обозначенного 193. Значение 310 находится в конце интервала, следующего за 303.
Одним из способов исследования рядов распределения является построение кумуляты. Она позволяет графически изобразить зависимость значения признака от накопленной частоты. Чаще всего кумулята, или полигон накопленных частот, используется для представления дискретных данных.
- — дискретный вариационный ряд;
- — линейка;
- — карандаш;
- — ластик.
Приведите имеющиеся данные в вид, необходимый для построения графика. Разделите совокупность выборки на равные части, чтобы получить равномерное положение точек графика. Чаще всего для этого используется разделение на временные промежутки: месяцы, дни, годы. Чтобы использовать такой способ, посчитайте значение признака для каждого промежутка времени, например, сколько было продано единиц продукции в каждом месяце. Если признак варьируется слабо и дискретно, используйте безынтервальный вариационный ряд (это могут быть, к примеру, оценки учащихся).
Занесите данные в таблицу, у вас получилось две строки: в первой укажите интервалы или безынтервальные значения, а во второй – частоту встречаемого признака. Добавьте еще одну строку – накопленную частоту значения признака. Заполните эту графу, последовательно прибавляя частоты из второй строки. Например, если в каждом месяце квартала последовательно было продано 5, 3, 4 единицы техники, то накопленная частота будет равна 5, 5+3, 5+3+4, то есть 5, 8, 12. Обратите внимание, каждое следующее значение накопленной частоты всегда будет равно или больше предыдущего, поэтому график никогда не будет идти вниз.
Постройте систему координат. На оси абсцисс поместите значения признака, а на оси ординат – накопленные частоты. Укажите рядом с осью название и единицу измерения.
Поставьте точки в соответствии с вашей таблицей. Для этого используйте значения первой и третьей строки, строка «частота признака» участвовать в построении не будет. Отмеряйте на оси абсцисс значение измеряемого признака, на оси ординат – накопленную частоту, а на пересечении ставьте точку. Когда все точки будут построены, соедините их ломаной линией. Эта линия и называется кумулятой ряда распределения.
Чтобы построить кумуляту в Excel, введите данные в строки или столбцы, затем нажмите «вставка» — «диаграмма». Выберите одну из подходящих точечных диаграмм, укажите нужные для построения данные (не забудьте, только две строки – значение признака и накопленная частота) и нажмите «готово». Если есть необходимость, исправьте готовую диаграмму при помощи окошка настройки.
В данной статье, на примере, рассмотрим такой вид диаграммы, как График с накоплением и в чем его отличие от обычного Графика.
Предположим у нас есть таблица, в которой отражены продажи офисных стульев за год, в штуках. Продажи осуществляли два магазина: Магазин № 1 и магазин № 2.
Это будет наша исходная таблица, на основе которой мы будем строить график с накоплением.
График с накоплением в Excel.
Перед построением графика нам необходимо выделить всю таблицу. Потом в закладке Вставка находим значок Вставить график или диаграмму с областями.
Нажимаем и получаем График с накоплением.
На графике отразились две кривые линии. Оранжевая кривая, это продажи Магазина №2. Синяя кривая, это продажи магазина №1. Для наглядности добавим Метки данных. Вызовем настройки диаграммы нажав на нее. В настройках выберем Элементы диаграммы. Поставим галочку напротив пункта Метки данных. На нашем графики отразиться количество проданных стульев соответственно месяцу года и магазину.
Вертикальная ось диаграммы показывает количество проданных стульев. При этом оранжевая кривая на графике, которая соответствует продажам Магазина №2, берет свое начало не на отметке 260 (шт.). Это количество проданных стульев данным магазинов в январе. Оранжевая кривая берет сове начало на отметке 510 (шт.). Это суммарное количество проданных стульев двумя магазинами в январе (250 шт. +.260 шт.). То есть, для оранжевой кривой, при определении координаты по вертикальной оси, начало отсчета происходит не от нулевой отметки, а от соответствующей (нижележащей) точки синей кривой.
Построим на основе исходной таблицы простой График.
Как видно, кривые продаж Магазина №1 и Магазина №2 наложились одна на одну. Проводить анализ или презентацию используя такой график не целесообразно. График с накоплением позволяет избежать данной проблемы.
При выборочном наблюдении обследованию подвергается определенная, заранее обусловленная часть совокупности, а результаты обследования распространяются на всю совокупность.
Число единиц (элементов) статистической совокупности называется ее объемом. Объем генеральной совокупности обозначается N, а объем выборочной совокупности п.
Качество результатов выборочного наблюдения зависит от того, насколько состав выборки представляет генеральную совокупность, иначе говоря, от того, насколько выборка репрезентативна (представительна).
Элементами выборки (x1 х2, . хп) являются числовые значения, называемые вариантами, которые могут быть дискретными, т.е. изолированными (например, целыми числами), или могут принимать значения из некоторого интервала (а, b).
Вариационный ряд получается из выборки упорядочением по возрастанию (или убыванию) и подсчетом частоты каждого значения. Если вариационный ряд содержит значения признака и соответствующие ему частоты,то такой ряд носит название дискретный вариационный ряд. Если нам известно, что исследуемый показатель может принимать любые значения из некоторого интервала, то строим интервальный вариационный.
Удобнее всего ряды распределения анализировать с помощью их графического изображения, позволяющего судить о форме распределения. Наглядное представление о характере изменения частот вариационного ряда дают полигон и гистограмма.
Известны следующие данные о результатах сдачи студентами экзамена (в баллах):
18 | 16 | 20 | 17 | 19 | 20 | 17 |
17 | 12 | 15 | 20 | 18 | 19 | 18 |
18 | 16 | 18 | 14 | 14 | 17 | 19 |
16 | 14 | 19 | 12 | 15 | 16 | 20 |
Необходимо построить ряд распределения числа студентов по баллу, представить графически результаты.
Введем данные в диапазоне A1: A29, в ячейку A1 введем текст «Балл» (рис.2.6).
Рисунок 2.6. Баллы успеваемости студентов
Определим наименьший и наибольший балл по выборке. Для этого введем в ячейках С1 и С2 соответственно введем формулы =МИН(A2:A29) и =МАКС(A2:A29). Получим значения 12 и 20 соответственно (рис.2.7).
Рисунок 2.7. Минимальный и максимальный балл
Построим вариационный ряд. Для каждого значения необходимо подсчитать частоту. Так как значения признака (балл) отличаются на единицу, то можно воспользоваться следующим способом. В ячейку С4 введем формулу =С1, в С5 соответственно С4+1. Ячейку С5 протянем маркером заполнения (правый нижний угол ячейки) вниз до С12. Результаты представлены на рисунке 2.8.
Рисунок 2.8. Значения признака
Вычислим частоту для каждого значения признака. В ячейку D4 введем формулу =СЧЕТЕСЛИ(A$2:A$29;C4) и протянем D4 маркером вниз до заполнения D12. В ячейке D13 просуммируем частоты с помощью формулы =СУММ(D4:D12).
Получим вариационный ряд (значения признака и соответствующие им частоты) на рисунке 2.9.
Рис.2.9. Частоты вариационного ряда
Вычислим частость (относительную частоту) для каждого значения признака. В ячейку Е4 введем формулу = D4/D$13. Протянем Е4 маркером заполнения вниз до Е12 (рис.2.10).
Рисунок 2.10. Частости ряда распределения
Вычислим накопленные частоты. В ячейку F4 введем формулу =D4, а в ячейку F5 – формулу = D5+F4. Протянем F5 маркером заполнения вниз до F12 (рис.2.11).
Рисунок 2.11. Накопленные частоты ряда
Построим эмпирическую функцию распределения, т.е. найдем наколенные частости. Выделим F4:F12 и маркером заполнения протянем вправо на соседний столбец (рис.2.12). В G4 получим формулу = Е4, в ячейке G5 формулу =Е5+ G4 и т.д.
Рисунок 2.12. Накопленные частости ряда
Построим полигон распределения частот и частостей. Выделим диапазон ячеек С4:D12. Выполним команду меню «Диаграмма» и выберем тип «Точечная», вариант «Точечная с прямыми отрезками и маркерами». Полигон распределения частот представлен на рисунке 2.13.
Рисунок 2.13. Полигон распределения частот
Выделим диапазон ячеек С4:С12 и, удерживая клавишу CTRL, диапазон Е4:Е12. Выполним команду меню «Диаграмма» и выберем тип «Точечная», вариант «Точечная с прямыми отрезками и маркерами». Полигон распределения частостей представлен на рисунке 2.14.
Рисунок 2.14. Полигон распределения частостей
Рисунок 2.15. Гистограмма распределения частостей
Построим кумуляту частостей, для чего выделим диапазон ячеек С4:С12 и, удерживая клавишу CTRL, диапазон G4:G12. Выполним команду меню «Диаграмма» и выберем тип «Точечная», вариант «Точечная с прямыми отрезками». Кумулята представлена на рис.2.16.
Рисунок 2.16. Кумулята
В таблице 2.7 представлены значения процентных ставок по кредитам по 30 коммерческим банкам.
Банковские процентные ставки
№ Банка | Процентная ставка, % |
1 | 20,3 |
2 | 17,1 |
3 | 14,2 |
4 | 11,0 |
5 | 17,3 |
6 | 19,6 |
7 | 20,5 |
8 | 23,6 |
9 | 14,6 |
10 | 17,5 |
11 | 20,8 |
12 | 13,6 |
13 | 24,0 |
14 | 17,5 |
15 | 15,0 |
16 | 21,1 |
17 | 17,6 |
18 | 15,8 |
19 | 18,8 |
20 | 22,4 |
21 | 16,1 |
22 | 17,9 |
23 | 21,7 |
24 | 18,0 |
25 | 16,4 |
26 | 26,0 |
27 | 18,4 |
28 | 16,7 |
29 | 12,2 |
30 | 13,9 |
Построим интервальный вариационный ряд. Для этого вычислим границы интервалов (карманов) с использованием формулы Стэрджесса.
Введем данные в диапазоне A1:A31 (рис.2.17). Определим максимальное и минимальное значения (ячейки С2 и С3 соответственно) так же как и в примере 2.1. Определим число интервалов по формуле Стэрджесса, для чего в ячейку С6 введем формулу =ЦЕЛОЕ(1+3,322*LOG10(30)) (рис.2.18).
Рисунок 2.17. Процентные ставки банков
Рисунок 2.18. Число интервалов
Вычислим длину интервалов, для чего в ячейке С8 введем формулу =ОКРУГЛ((C3-C2)/C6;2) (рис.2.19).
Рисунок 2.19. Длина интервала
Определим нижние и верхние границы интервалов (карманы), для чего в ячейке Е2 запишем формулу =С2, в ячейке Е3 запишем ==E2+$C$8. Протянем Е3 маркером заполнения вниз до Е7 (рис.2.20).
Рисунок 2.20. Границы интервалов
Подсчитаем частоты – в интервал считаем те значения, которые больше нижней границы интервала или равны ей и меньше верхней границы.
Воспользуемся функцией ЧАСТОТА. Для этого в ячейке F2 введем формулу =ЧАСТОТА(A2:A31;E2:E7). Протянем F2 маркером заполнения вниз до F8.
Формулу в этом примере необходимо ввести как формулу массива. Выделим диапазон F2:F8, нажмем клавишу F2, а затем нажмем клавиши CTRL+SHIFT+ВВОД (рис.2.21).
Если формула не будет введена как формула массива, отобразится только одно ее значение в ячейке F2.
Рисунок 2.21. Частоты значений признака
Также можно воспользоваться средством Пакета анализа (Анализ данных в Office 2007) ГИСТОГРАММА (рис.2.22). Выберем входной интервал, интервал карманов, метки, интегральный процент, поместим результаты на этом же листе (укажем ячейку $H$2).
Рисунок 2.22. Построение гистограммы
Полученная гистограмма представлена на рис.2.23.
Рис.2.23. Гистограмма частот
Замечание. Если диапазон карманов не был введен, то набор отрезков, равномерно распределенных между минимальным и максимальным значениями данных, будет создан автоматически.
Вариационный ряд может быть:
Рассмотрим пример построения дискретного вариационного ряда.
Пример 1. Имеются данные о количественном составе 60 семей.
Построить вариационный ряд и полигон распределения
Алгоритм построения вариационного ряда:
1) Откроем таблицы Excel.
2) Введем массив данных в диапазон А1:L5. Если вы изучаете документ в электронной форме (в формате Word, например), для этого достаточно выделить таблицу с данными и скопировать ее в буфер, затем выделить ячейку А1 и вставить данные – они автоматически займут подходящий диапазон.
3) Подсчитаем объем выборки n – число выборочных данных, для этого в ячейку В7 введем формулу =СЧЁТ(А1:L5). Заметим, что для того, чтобы в формулу ввести нужный диапазон, необязательно вводить его обозначение с клавиатуры, достаточно его выделить.
4) Определим минимальное и максимальное значение в выборке, введя в ячейку В8 формулу =МИН(А1:L5), и в ячейку В9: =МАКС(А1:L5).
Рис.1.1 Пример 1. Первичная обработка статистических данных в таблицах Excel
5) Далее, подготовим таблицу для построения вариационного ряда, введя названия для столбца интервалов (значений варианты) и столбца частот. В столбец интервалов введем значения признака от минимального (1) до максимального (6), заняв диапазон В12:В17.
6) Выделим столбец частот, введем формулу =ЧАСТОТА(А1:L5;В12:В17) и нажмем сочетание клавиш CTRL+SHIFT+ENTER
Рис.1.2 Пример 1. Построение вариационного ряда
7) Для контроля вычислим сумму частот при помощи функции СУММ (значок функции S в группе «Редактирование» на вкладке «Главная»), вычисленная сумма должна совпасть с ранее вычисленным объемом выборки в ячейке В7.
2) Название ряда диаграммы «ряд 1» можно либо изменить, воспользовавшись той же опцией «выбрать данные» вкладки «Конструктор», либо просто удалить.
Рис.1.3. Пример 1. Построение полигона частот
В реальных социально-экономических системах нельзя проводить активные эксперименты, поэтому данные обычно представляют собой наблюдения за происходящим процессом, например: курс валюты на бирже в течение месяца, урожайность пшеницы в хозяйстве за 30 лет, производительность труда рабочих за смену и т.д. Результаты наблюдений — это в общем случае ряд чисел, расположенных в беспорядке, который для изучения необходимо упорядочить (проранжи- ровать).
Операция, заключающаяся в расположении значений признака по возрастанию, называется ранжированием опытных данных.
После операции ранжирования опытные данные можно сгруппировать так, чтобы в каждой группе признак принимал одно и то же значение, которое называется вариантом (х,). Число элементов в каждой группе называется частотой варианта («,).
Размахом вариации называется число
где хтах — наибольший вариант;
x min — наименьший вариант.
Сумма всех частот равна определенному числу л, которое называется объемом совокупности:
Отношение частоты данного варианта к объему совокупности называется относительной частотой, или частостью, этого варианта:
Последовательность вариант, расположенных в возрастающем порядке, называется вариационным рядом (вариация — изменение).
Вариационные ряды бывают дискретными и непрерывными. Дискретным вариационным рядом называется ранжированная последовательность вариант с соответствующими частотами и (или) частостями.
Пример 1. В результате тестирования группа из 24 человек набрала баллы: 4, 0, 3, 4, 1, 0, 3, 1, 0, 4, 0, 0, 3, 1, 0, 1, 1, 3, 2, 3, 1, 2, 1, 2. Построить дискретный вариационный ряд.
Решение. Проранжируем исходный ряд, подсчитаем частоту и частость вариант: 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4.
В результате получим дискретный вариационный ряд (табл. 3.10).
Ранжированный ряд успеваемости
Число студентов, л,
Относительная частота, А
В Excel проранжируем исходный ряд. Для этого введем все данные в диапазон А1 :А24 и воспользуемся кнопкой Щ (Сортировка по возрастанию).
Подсчитаем частоту и частость вариант. Построим таблицу в диапазоне D2:G7 (рис. 3.13).
Рис. 3.13. Контекстное меню строки состояния
Рассмотрим два варианта подсчета частот:
- 1) выделим диапазон, в котором находятся нули. Щелкнем в нижней правой части окна Excel правой кнопкой мыши и выберем в контекстном меню вид итога, который по умолчанию будет появляться в итоговой строке при выделении произвольного диапазона (см. рис. 3.13) — количество. Таким образом, последовательно выделяя диапазоны с одинаковыми значениями вариант, мы получим все частоты;
- 2) выполним команду Сервис — Анализ данных — Гистограмма. Заполним диалоговое окно в соответствии с рис. 3.14.
Рис. 3.14. Диалоговое окно инструмента пакета анализа «Гистограмма»
В результате получим таблицу с частотами вариантов и соответствующий график (рис. 3.15).
Рис. 3.15. Результаты применения инструмента «Гистограмма)
Найдем объем выборки, заполнив все частоты вариант в диапазоне ЕЗ:Е7, выделим его левой кнопкой мыши и щелкнем по кнопке ? (автосумма).
В ячейку F3 введем формулу «=ЕЗ/$Е$8», за маркер заполнения (крест в правом нижнем углу ячейки) с помощью мыши скопируем до F7 и выберем кнопку автосумма, в результате получим частоты вариантов и их сумму (1). В ячейку G3 введем частоту варианта 0 — цифру 6 (или ссылку на ячейку, ее содержащую — ЕЗ), в ячейку G4 введем формулу «=G3+E4» и скопируем ее до ячейки G7, в результате получим накопленные частоты. Таким образом, мы получили дискретный вариационный ряд. Естественно, частоты необходимо округлить, но таким образом, чтобы их сумма равнялась 1. Для этого выделим левой кнопкой мыши диапазон частот (F3:F7), щелкнув по правой кнопке, откроем контекстное меню и выполним команду Формат ячеек — Числовой — Число знаков 3 — ОК. Преобразовав обозначения, получим дискретный вариационный ряд, представленный в табл. 3.11.
Источник
Содержание
- Ряды распределения
- Графическое изображение рядов распределения
- Полигон
- Статистическая таблица
- Гистограмма
- Кумулята
- Огива
- содержание
- принципы
- Определения
- оценка вероятности
- Из совокупной частоты
- По рейтинговой методики
- Подгонка вероятностных распределений
- Непрерывные распределения
- Разрывные распределения
- прогнозирование
- неопределенность
- Доверительные интервалы
- период повторения
- Необходимость доверия ремней
- Гистограмма
- Предмет статистики
Ряды распределения
После определения группировочного признака, количества групп и интервалов группировки данные сводки и группировки представляются в виде рядов распределения и оформляются в виде статистических таблиц.
Ряд распределния является одним из видов группировок.
Ряд распределения — представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку.
В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:
- Атрибутивными — называют ряды распределения, построенные по качественными признакам.
- Ряды распределения, построенные в порядке возрастания или убывания значений количественного признака называются вариационными.
Вариационный ряд распределения состоит из двух столбцов:
В первом столбце приводятся количественные значения варьирующегося признака, которые называются вариантами и обозначаются . Дискретная варианта — выражается целым числом. Интервальная варианта находится в пределах от и до. В зависимости от типа варианты можно построить дискретный или интервальный вариационный ряд.
Во втором столбце содержится количество конкретных вариант, выраженное через частоты или частости:
Частоты — это абсолютные числа, показывающие столько раз в совокупности встречается данное значение признака, которые обозначают . Сумма всех частот равна должна быть равна численности единиц всей совокупности.
Частости ( ) — это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.
Графическое изображение рядов распределения
Наглядно ряды распределения представляются при помощи графических изображений.
Ряды распределения изображаются в виде:
- Полигона
- Гистограммы
- Кумуляты
- Огивы
Полигон
При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) — частоты или частости.
Полигон на рис. 6.1 построен по данным микропереписи населения России в 1994 г.
Домохозяйства, состоящие из: | одного человека | двух человек | трех человек | 5 или более | всего |
Число домохозяйств в % | 19,2 | 26,2 | 22,6 | 20,5 | 100,0 |
6.1. Распределение домохозяйств по размеру
Условие: Приводятся данные о распределении 25 работников одного из предприятий по тарифным разрядам:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Задача: Построить дискретный вариационный ряд и изобразить его графически в виде полигона распределения.
Решение:
В данном примере вариантами является тарифный разряд работника. Для определения частот необходимо рассчитать число работников, имеющих соответствующий тарифный разряд.
Тарифный разряд Xi |
Число работников fi |
1 | 3 |
2 | 5 |
3 | 4 |
4 | 6 |
5 | 3 |
6 | 4 |
Итого: | 25 |
Полигон используется для дискретных вариационных рядов.
Для построения полигона распределения (рис 1) по оси абсцисс (X) откладываем количественные значения варьирующего признака — варианты, а по оси ординат — частоты или частости.
Если значения признака выражены в виде интервалов, то такой ряд называется интервальным.
Интервальные ряды распределения изображают графически в виде гистограммы, кумуляты или огивы.
Статистическая таблица
Условие: Приведены данные о размерах вкладов 20 физических лиц в одном банке (тыс.руб) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Задача: Построить интервальный вариационный ряд с равными интервалами.
Решение:
- Исходная совокупность состоит из 20 единиц (N = 20).
- По формуле Стерджесса определим необходимое количество используемых групп: n=1+3,322*lg20=5
- Вычислим величину равного интервала: i=(152 — 2) /5 = 30 тыс.руб
- Расчленим исходную совокупность на 5 групп с величиной интервала в 30 тыс.руб.
- Результаты группировки представим в таблице:
Размер вкладов тыс.руб Xi |
Число вкладов fi |
Число вкладов в % к итогу Wi |
2 — 32 | 11 | 55 |
32 — 62 | 4 | 20 |
62 — 92 | 2 | 10 |
92 — 122 | 1 | 5 |
122 — 152 | 2 | 10 |
Итого: | 20 | 100 |
При такой записи непрерывного признака, когда одна и та же величина встречается дважды (как верхняя граница одного интервала и нижняя граница другого интервала), то эта величина относится к той группе, где эта величина выступает в роли верхней границы.
Гистограмма
Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).
На рис. 6.2. изображена гистограмма распределения населения России в 1997 г. по возрастным группам.
Все население | В том числе в возрасте | ||||||||
до 10 | 10-20 | 20-30 | 30-40 | 40-50 | 50-60 | 60-70 | 70 и старше | Всего | |
Численность населения | 12,1 | 15,7 | 13,6 | 16,1 | 15,3 | 10,1 | 9,8 | 7,3 | 100,0 |
Рис. 6.2. Распределение населения России по возрастным группам
Условие: Приводится распределение 30 работников фирмы по размеру месячной заработной платы
Размер заработной платы руб. в месяц |
Численность работников чел. |
до 5000 | 4 |
5000 — 7000 | 12 |
7000 — 10000 | 8 |
10000 — 15000 | 6 |
Итого: | 30 |
Задача: Изобразить интервальный вариационный ряд графически в виде гистограммы и кумуляты.
Решение:
- Неизвестная граница открытого (первого) интервала определяется по величине второго интервала: 7000 — 5000 = 2000 руб. С той же величиной находим нижнюю границу первого интервала: 5000 — 2000 = 3000 руб.
- Для построения гистограммы в прямоугольной системе координат по оси абсцисс откладываем отрезки, величины которых соответствуют интервалам варицонного ряда.
Эти отрезки служат нижним основанием, а соответствующая частота (частость) — высотой образуемых прямоугольников. - Построим гистограмму:
Для построения кумуляты необходимо рассчитать накопленные частоты (частости). Они определяются путем последовательного суммирования частот (частостей) предшествующих интервалов и обозначаются S. Накопленные частоты показывают, сколько единиц совокупности имеют значение признака не больше, чем рассматриваемое.
Кумулята
Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.
Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат — накопленные частоты или частости (рис. 6.3).
Рис. 6.3. Кумулята распределения домохозяйств по размеру
4. Рассчитаем накопленные частоты:
Наколенная частота первого интервала рассчитывается следующим образом: 0 + 4 = 4, для второго: 4 + 12 = 16; для третьего: 4 + 12 + 8 = 24 и т.д.
Размер заработной платы руб в месяц Xi |
Численность работников чел. fi |
Накопленные частоты S |
до 5000 | 4 | 4 |
5000 — 7000 | 12 | 16 |
7000 — 10000 | 8 | 24 |
10000 — 15000 | 6 | 30 |
Итого: | 30 | — |
При построении кумуляты накопленная частота (частость) соответствующего интервала присваивается его верхней границе:
Огива
Огива строится аналогично кумуляте с той лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения признака — на оси ординат.
Разновидностью кумуляты является кривая концентрации или график Лоренца. Для построения кривой концентрации на обе оси прямоугольной системы координат наносится масштабная шкала в процентах от 0 до 100. При этом на оси абсцисс указывают накопленные частости, а на оси ординат — накопленные значения доли (в процентах) по объему признака.
Равномерному распределению признака соответствует на графике диагональ квадрата (рис. 6.4). При неравномерном распределении график представляет собой вогнутую кривую в зависимости от уровня концентрации признака.
Понятие вариационного ряда. Первым шагом систематизации материалов статистического наблюдения является подсчет числа единиц, обладающих тем или иным признаком. Расположив единицы в порядке возрастания или убывания их количественного признака и подсчитав число единиц с конкретным значением признака, получаем вариационный ряд. Вариационный ряд характеризует распределение единиц определенной статистической совокупности по какому–либо количественному признаку.
Вариационный ряд представляет собой две колонки, в левой колонке приводятся значения варьирующего признака, именуемые вариантами и обозначаемые (x), а в правой – абсолютные числа, показывающие, сколько раз встречается каждый вариант. Показатели этой колонки называются частотами и обозначаются (f).
Схематично вариационный ряд можно представить в виде табл.5.1:
Вид вариационного ряда
В правой колонке могут использоваться и относительные показатели, характеризующие долю частоты отдельных вариантов в общей сумме частот. Эти относительные показатели именуют частостями и условно обозначают через , т.е. . Сумма всех частостей равна единице. Частости могут быть выражены и в процентах, и тогда их сумма будет равна 100%.
Варьирующие признаки могут носить разный характер. Варианты одних признаков выражаются в целых числах, например, число комнат в квартире, число изданных книг и т.д. Эти признаки именуют прерывными, или дискретными. Варианты других признаков могут принимать любые значения в определенных пределах, как, например, выполнение плановых заданий, заработная плата и др. Эти признаки называют непрерывными.
Дискретный вариационный ряд. Если варианты вариационного ряда выражены в виде дискретных величин, то такой вариационный ряд называют дискретным, его внешний вид представлен в табл. 5.2:
Распределение студентов по оценкам, полученным на экзамене
Количество студентов (f)
В % к итогу ()
Характер распределения в дискретных рядах изображается графически в виде полигона распределения, рис.5.1.
Рис. 5.1. Распределение студентов по оценкам, полученным на экзамене.
Интервальный вариационный ряд. Для непрерывных признаков вариационные ряды строятся интервальные, т.е. значения признака в них выражаются в виде интервалов «от и до». При этом минимальное значение признака в таком интервале именуют нижней границей интервала, а максимальное – верхней границей интервала.
Интервальные вариационные ряды строят как для прерывных признаков (дискретных), так и для варьирующих в большом диапазоне. Интервальные ряды могут быть с равными и неравными интервалами. В экономической практике в большинстве своем применяются неравные интервалы, прогрессивно возрастающие или убывающие. Такая необходимость возникает особенно в тех случаях, когда колеблемость признака осуществляется неравномерно и в больших пределах.
Рассмотрим вид интервального ряда с равными интервалами, табл. 5.3:
Распределение рабочих по выработке
Число рабочих (f)
Кумулятивная частота (f´)
Интервальный ряд распределения графически изображается в виде гистограммы, рис.5.2.
Рис.5.2. Распределение рабочих по выработке
Накопленная (кумулятивная) частота. В практике возникает потребность в преобразовании рядов распределения в кумулятивные ряды, строящиеся по накопленным частотам. С их помощью можно определить структурные средние, которые облегчают анализ данных ряда распределения.
Накопленные частоты определяются путем последовательного прибавления к частотам (или частостям) первой группы этих показателей последующих групп ряда распределения. Для иллюстрации рядов распределения используются кумуляты и огивы. Для их построения на оси абсцисс отмечаются значения дискретного признака (или концы интервалов), а на оси ординат – нарастающие итоги частот (кумулята), рис.5.3.
Рис. 5.3. Кумулята распределения рабочих по выработке
Если шкалы частот и вариантов поменять местами, т.е. на оси абсцисс отражать накопленные частоты, а на оси ординат – значения вариантов, то кривая, характеризующая изменение частот от группы к группе, будет носит название огивы распределения, рис.5.4.
Рис. 5.4. Огива распределения рабочих по выработке
Вариационные ряды с равными интервалами обеспечивают одно из важнейших требований, предъявляемых к статистическим рядам распределения, обеспечение сравнимости их во времени и пространстве.
Плотность распределения. Однако частоты отдельных неравных интервалов в названных рядах непосредственно не сопоставимы. В подобных случаях для обеспечения необходимой сравнимости исчисляют плотность распределения, т.е. определяют, сколько единиц в каждой группе приходится на единицу величины интервала.
При построении графика распределения вариационного ряда с неравными интервалами высоту прямоугольников определяют пропорционально не частотам, а показателям плотности распределения значений изучаемого признака в соответствующих интервалах.
Составление вариационного ряда и его графическое изображение является первым шагом обработки исходных данных и первой ступенью анализа изучаемой совокупности. Следующим шагом в анализе вариационных рядов является определение основных обобщающих показателей, именуемых характеристиками ряда. Эти характеристики должны дать представление о среднем значении признака у единиц совокупности.
Средняя величина. Средняя величина представляет собой обобщенную характеристику изучаемого признака в исследуемой совокупности, отражающая ее типический уровень в расчете на единицу совокупности в конкретных условиях места и времени.
Средняя величина всегда именованная, имеет ту же размерность, что и признак у отдельных единиц совокупности.
Перед вычислением средних величин необходимо произвести группировку единиц исследуемой совокупности, выделив качественно однородные группы.
Средняя, рассчитанная по совокупности в целом называется общей средней, а для каждой группы – групповыми средними.
Существуют две разновидности средних величин: степенные (средняя арифметическая, средняя гармоническая, средняя геометрическая, средняя квадратическая); структурные (мода, медиана, квартили, децили).
Выбор средней для расчета зависит от цели.
Виды степенных средних и методы их расчета. В практике статистической обработки собранного материала возникают различные задачи, для решения которых требуются различные средние.
Математическая статистика выводит различные средние из формул степенной средней:
где средняя величина; x – отдельные варианты (значения признаков); z – показатель степени (при z = 1 – средняя арифметическая, z = 0 средняя геометрическая, z = — 1 – средняя гармоническая, z = 2 – средняя квадратическая).
Однако вопрос о том, какой вид средней необходимо применить в каждом отдельном случае, разрешается путем конкретного анализа изучаемой совокупности.
Наиболее часто встречающимся в статистике видом средних величин является средняя арифметическая. Она исчисляется в тех случаях, когда объем осредняемого признака образуется как сумма его значений у отдельных единиц изучаемой статистической совокупности.
В зависимости от характера исходных данных средняя арифметическая определяется различными способами:
Если данные несгруппированные, то расчет ведется по формуле простой средней величины
,
Если значение признака встречается несколько раз, то среднюю величину находят по формуле для сгруппированных данных и средняя величина будет называться среднеарифметическая взвешенная.
Расчет средней арифметической в дискретном ряду происходит по формуле 3.4.
Расчет средней арифметической в интервальном ряду. В интервальном вариационном ряду, где за величину признака в каждой группе условно принимается середина интервала, средняя арифметическая может отличаться от средней, рассчитанной по несгруппированным данным. Причем, чем больше величина интервала в группах, тем больше возможные отклонения средней, вычисленной по сгруппированным данным, от средней, рассчитанной по несгруппированным данным.
При расчете средней по интервальному вариационному ряду для выполнения необходимых вычислений от интервалов переходят к их серединам. А затем рассчитывают среднюю величину по формуле средней арифметической взвешенной.
Свойства средней арифметической. Средняя арифметическая обладает некоторыми свойствами, которые позволяют упрощать вычисления, рассмотрим их.
1. Средняя арифметическая из постоянных чисел равна этому постоянному числу.
Если х = а. Тогда .
2. Если веса всех вариантов пропорционально изменить, т.е. увеличить или уменьшить в одно и то же число раз, то средняя арифметическая нового ряда от этого не изменится.
Если все веса f уменьшить в k раз, то .
3. Сумма положительных и отрицательных отклонений отдельных вариантов от средней, умноженных на веса, равна нулю, т.е.
Если , то . Отсюда .
Если все варианты уменьшить или увеличить на какое- либо число, то средняя арифметическая нового ряда уменьшится или увеличится на столько же.
Уменьшим все варианты x на a, т.е. x´ = x – a.
Тогда
Среднюю арифметическую первоначального ряда можно получить, прибавляя к уменьшенной средней ранее вычтенное из вариантов числа a, т.е. .
5. Если все варианты уменьшить или увеличить в k раз, то средняя арифметическая нового ряда уменьшится или увеличится во столько же, т.е. в k раз.
Пусть , тогда .
Отсюда , т.е. для получения средней первоначального ряда среднюю арифметическую нового ряда (с уменьшенными вариантами) надо увеличить в k раз.
Средняя гармоническая. Средняя гармоническая это величина обратная средней арифметической. Ее используют, когда статистическая информация не содержит частот по отдельным вариантам совокупности, а представлена как их произведение (М= xf). Средняя гармоническая будет рассчитываться по формуле 3.5
Практическое применение средней гармонической – для расчета некоторых индексов, в частности, индекса цен.
Средняя геометрическая. При применении средней геометрической индивидуальные значения признака представляют собой, как правило, относительные величины динамики, построенные в виде цепных величин, как отношение к предыдущему уровню каждого уровня в ряду динамики. Средняя характеризует, таким образом, средний коэффициент роста.
Средняя геометрическая величина используется также для определения равноудаленной величины от максимального и минимального значений признака. Например, страховая компания заключает договоры на оказание услуг автострахования. В зависимости конкретного страхового случая страховая выплата может колебаться от 10000 до 100000 долл. в год. Средняя сумма выплат по страховке составит долл.
Средняя геометрическая это величина, используемая как средняя из отношений или в рядах распределения, представленных в виде геометрической прогрессии, когда z = 0. Этой средней удобно пользоваться, когда уделяется внимание не абсолютным разностям, а отношениям двух чисел.
Формулы для расчета следующие
– для невзвешенных значений,
– взвешенная,
где – варианты осредняемого признака; – произведение вариантов; f – частота вариантов.
Средняя геометрическая используется в расчетах среднегодовых темпов роста.
Средняя квадратическая. Формула средней квадратической используется для измерения степени колеблемости индивидуальных значений признака вокруг средней арифметической в рядах распределения. Так, при расчете показателей вариации среднюю вычисляют из квадратов отклонений индивидуальных значений признака от средней арифметической величины.
Средняя квадратическая величина рассчитывается по формуле
В экономических исследованиях средняя квадратическая в измененном виде широко используется при расчете показателей вариации признака, таких как дисперсия, среднее квадратическое отклонение.
Правило мажорантности. Между степенными средними существует следующая зависимость – чем больше показатель степени, тем больше значение средней, табл.5.4:
Соотношение между средними величинами
Соотношение между средними
, если совокупность небольшая и мода отчетливо выражена.
Все рассмотренные формы степенной средней обладают важным свойством (в отличие от структурных средних) – в формулу определения средней входят все значения ряда т.е. на размеры средней оказывают влияние значение каждого варианта.
С одной стороны, это весьма положительное свойство т.к. в этом случае учитывается действие всех причин, воздействующих на все единицы изучаемой совокупности. С другой стороны, даже одно наблюдение, попавшее в исходные данные случайно, может существенным образом исказить представление об уровне развития изучаемого признака в рассматриваемой совокупности (особенно в коротких рядах).
Квартили и децили. По аналогии с нахождением медианы в вариационных рядах можно отыскать значение признака у любой по порядку единицы ранжированного ряда. Так, в частности, можно найти значение признака у единиц, делящих ряд на 4 равные части, на 10 и т.п.
Квартили. Варианты, которые делят ранжированный ряд на четыре равные части, называют квартилями.
При этом различают: нижний (или первый) квартиль (Q1) – значение признака у единицы ранжированного ряда, делящей совокупность в соотношении ¼ к ¾ и верхний (или третий) квартиль(Q3) – значение признака у единицы ранжированного ряда, делящий совокупность в соотношении ¾ к ¼.
Второй квартиль, есть медиана Q2 = Ме. Нижний и верхний квартили в интервальном ряду рассчитываются по формуле аналогично медиане.
Для нижнего квартиля .
Для верхнего квартиля .
где – нижняя граница интервала, содержащего соответственно нижний и верхний квартиль;
– накопленная частота интервала, предшествующего интервалу, содержащему нижний или верхний квартиль;
– частоты квартильных интервалов (нижнего и верхнего)
Интервалы, в которых содержатся Q1 и Q3 определяют по накопленным частотам (или частостям).
Децили. Кроме квартилей рассчитывают децили – варианты, делящие ранжированный ряд на 10 равных частей.
Обозначаются они через D, первый дециль D1 делит ряд в соотношении 1/10 и 9/10, второй D2 – 2/10 и 8/10 и т.д. Вычисляются они по той же схеме, что и медиана и квартили.
первый дециль.
второй дециль и т.д.
И медиана, и квартили, и децили принадлежат к так называемым порядковым статистикам, под которым понимают вариант, занимающий определенное порядковое место в ранжированном ряду.
Накопительный частотный анализ представляет собой анализ частоты встречаемости значений явления меньше , чем заданное значение. Явление может быть по времени или пространственно-зависимый. Накопительная частота также называется частотой непревышения .
Накопительное частотный анализ выполняется , чтобы получить представление о том , как часто определенное явление (особенность) ниже определенного значения. Это может помочь в описании или объяснения ситуации , в которой явление участвует, или в мероприятиях по планированию, например , в защите от наводнений.
Этот статистический метод может быть использован, чтобы увидеть, насколько вероятно событие, как наводнение будет происходить в будущем, основываясь на том, как часто это случалось в прошлом. Он может быть приспособлен, чтобы принести в таких вещах, как изменение климата, вызывая более влажные зимы и сухой лето.
содержание
принципы
Определения
Частотный анализ представляет собой анализ того, как часто, или, как часто, наблюдаемое явление происходит в определенном диапазоне.
Анализ частоты применяется к записи длиной N наблюдаемых данных X 1 , X 2 , X 3 . , , Х Н на переменном явление X . Запись может быть в зависимости от времени (например , количество осадков измеряется в одном месте) или пространственно-зависимой (например , урожайность в области) или иным образом .
Накопленная частота М ХГ опорного значения Xr является частота , с которой наблюдаемые значения Х меньше или равна Xr .
Относительная накопленная частота Fc , может быть рассчитана следующим образом :
где N есть число данных
Кратко это выражение можно записать в виде:
При ХГ = Xmin , где Xmin это уникальное минимальное значение наблюдаемого, было установлено , что Fc = 1 / N , потому что M = 1. С другой стороны, когда ХГ = Xmax , где Xmax является уникальным максимальное значение наблюдается, то обнаружено , что Fc = 1, потому что M = N . Следовательно, когда Fc = 1 это означает , что ХГ является значением , при котором все данные меньше или равна хт .
В процентном отношении уравнение гласит:
оценка вероятности
Из совокупной частоты
Кумулятивная вероятность Рс из X , чтобы быть меньше или равна Xr может быть оценена несколькими способами на основе накопленной частоты M .
Один из способов заключается в использовании относительной накапливаемых частот Fc в качестве оценки.
Другой способ принять во внимание возможность того, что в редких случаях Х может принимать значения больше , чем наблюдаемое максимальное Xmax . Это может быть сделано делением накапливаемых частот M на N + 1 вместо N . Оценка становится:
Там существуют и другие предложения для знаменателя (см Plotting позиции ).
По рейтинговой методики
Оценка вероятности облегчается путем ранжирования данных.
Когда наблюдаемые данные X расположены в порядке возрастания ( Х 1 ≤ Х 2 ≤ Х 3 ≤. ≤ Х Н , минимальный первый и максимальный последний) и Ri представляет ранг номер наблюдения Xi , где adfix я указывает порядковый номер в диапазоне восходящих данных, то кумулятивная вероятность может быть оценена путем:
Когда, с другой стороны, наблюдаемые данные из X расположены в порядке убывания , максимальный первые и минимальная последний, и Rj есть ранг номер наблюдения Xj , кумулятивная вероятность может быть оценена путем:
Подгонка вероятностных распределений
Непрерывные распределения
Для того, чтобы представить кумулятивное распределение частот в виде непрерывного математического уравнения вместо дискретного набора данных, можно попытаться соответствовать кумулятивное распределение частот к известному кумулятивного распределения вероятностей ,.
В случае успеха, известное уравнение достаточно , чтобы сообщить распределение частот и таблицу данных , не требуется. Кроме того, уравнение помогает интерполяции и extrapolation.However, следует соблюдать осторожность с экстраполяцией кумулятивного распределения частот, так как это может быть источником ошибок. Одна из возможных ошибок является то , что распределение частот не соответствует выбранному распределению вероятностей любым больше за пределами диапазона наблюдаемых данных.
Любое уравнение , которое дает значение 1 , когда интегрированному от нижнего предела до верхнего предела , согласившись также с диапазоном данных, может быть использовано в качестве распределения вероятностей для монтажа. Образец вероятностных распределений , которые могут быть использованы , можно найти в вероятностных распределений .
Распределения вероятностей могут быть установлены несколькими способами, например:
- параметрический метод, определение параметров , как среднее значение и стандартное отклонение от X данных с использованием методы моментов , то метод максимального правдоподобия и метод вероятностных взвешенными моментов .
- метод регрессии, линеаризуя распределение вероятностей через преобразование и определение параметров от линейной регрессии преобразованной Pc (полученный из ранжирования) на трансформированных X данных.
Применение обоих типов методов, использующих, например,
часто показывает, что ряд распределений соответствуют скважинам данных и не дает существенно различные результаты, в то время как различия между ними могут быть малы по сравнению с шириной доверительного интервала. Это свидетельствует о том, что это может быть трудно определить, какое распределение дает лучшие результаты.
Разрывные распределения
Иногда можно, чтобы соответствовать один тип распределения вероятностей в нижней части диапазона данных и другого типа в верхней части, разделенные точкой останова, в результате чего улучшается общее нужным.
На рисунке приведен пример полезного введения такого прерывистого распределения для данных осадков на севере Перу, где климат подвержен поведению Тихого океана ток Эль — Ниньо . Когда Niño распространяется на юге Эквадора и попадает в океан вдоль побережья Перу, климат в Северном Перу становится тропическим и влажным. Когда Niño не доходит до Перу, климат полузасушливый. По этой причине, более высокие осадки следуют различному распределению частот , чем нижние осадки.
прогнозирование
неопределенность
Когда совокупное распределение частот происходят от записи данных, она может быть поставлена под сомнение , если она может быть использована для предсказания. Например, учитывая распределение стока рек в годы 1950-2000, может это распределение можно использовать для прогнозирования , как часто определенный разряд река будет превышена в годы 2000-50? Ответ : да, при условии , что условия окружающей среды не изменяются. Если условия окружающей среды делают изменения, такие как изменения в инфраструктуре водораздела реки или в структуре осадков из — за климатические изменения, прогнозирование на основе исторических фактов подлежат систематическую ошибку . Даже если нет никаких систематических ошибок, может быть случайной ошибкой , потому что случайно наблюдаемые выбросы в течение 1950 — 2000 может быть выше или ниже , чем обычно, а с другой стороны, выбросы с 2000 по 2050 год может случайно быть ниже или выше , чем обычно. Проблемы вокруг этого были исследованы в книге The Black Swan .
Доверительные интервалы
Теория вероятностей может помочь оценить диапазон , в котором может быть случайная ошибка. В случае кумулятивной частоты есть только две возможности: определенное опорное значение Х превышается или не превышается. Сумма частоты превышений и накопленной частота равна 1 или 100%. Таким образом, биномиальное распределение может быть использовано при оценке спектра случайной ошибки.
В соответствии с обычной теорией, биномиальное распределение можно аппроксимировать и при больших N стандартного отклонения Сд может быть рассчитана следующим образом :
где Рс является кумулятивной вероятностью и N есть число данных. Видно , что стандартное отклонение Сд уменьшает при увеличении числа наблюдений N .
Определение доверительного интервала от ПК позволяет использовать Т-критерий Стьюдента ( т ). Величина т зависит от количества данных и уровня достоверности оценки доверительного интервала. Затем нижний ( L ) и верхней ( U ) доверительные интервалы Pc в симметричном распределении находятся из:
Это известно как интервал Wald . Тем не менее, биномиальное распределение является симметричным только вокруг среднего значения , когда Рс = 0,5, но становится асимметричным и все больше и больше перекоса , когда ПК приближается к 0 или 1. Таким образом, с помощью аппроксимации, Рс и 1- Рса может быть использован в качестве весовых коэффициентов в уступка t.Sd к L и U :
где можно видеть , что эти выражения для Pc = 0,5 такие же , как и предыдущие.
N = 25, Рс = 0,8, Сд = 0,08, доверительный уровень составляет 90%, т = 1,71, L = 0,70, U = 0,85
Таким образом, с 90% уверенностью, было установлено , что 0,70 0,85
пример
- Интервал Wald известно для выполнения плохо.
- Wilson оценка интервал обеспечивает доверительный интервал для биномиальных распределений на основе количественных показателей тестов и имеет более широкий охват выборки см и биномиальное интервал доли доверия для более детального обзора.
- Вместо «Уилсон» набрать интервал «интервал Wald», также может быть использовано при условии, что вес выше факторы.
период повторения
Кумулятивная вероятность Pc также можно назвать вероятность непревышения . Вероятность превышения Пе (также называется функцией выживания ) определяется из:
и указывает на ожидаемое число наблюдений, которые предстоит сделать еще раз , чтобы найти значение переменной в исследовании более чем значение , используемое для T .
Верхний ( Т U ) и нижний ( Т л ) доверительные интервалы возврата периодов могут быть найдены , соответственно , как:
Для экстремальных значений переменной в исследовании, U близка к 1 и небольших изменений в U происходят большие изменения в T U . Таким образом, по оценкам , период возврата экстремальных значений подвергаются большой случайной ошибке. Кроме того, доверительные интервалы, задержать для долгосрочного прогнозирования. Для прогнозов на более короткий период, доверительные интервалы U — L и Т U — T L могут быть на самом деле шире. Вместе с ограниченной достоверностью (менее 100%) , используемой в Т-тесте , это объясняет , почему, например, 100-летний ливень может произойти дважды в течение 10 лет.
Строгое понятие возвратного периода на самом деле имеет смысл только тогда , когда это касается зависящего от времени явления, как точка осадков. Период возврата затем соответствует ожидаемому времени ожидания до тех пор , превышения не происходит снова. Период возврата имеет тот же размер, что и время , для которых каждое наблюдение является репрезентативным. Например, когда наблюдения касаются ежедневных дождей, период возврата выражается в дни, и ежегодно ливни это в годах.
Необходимость доверия ремней
На рисунке показано изменение, которое может произойти при получении образцов в мерном, который следует определенному распределению вероятностей. Данные были предоставлены Бенсоном.
Уверенность пояс вокруг экспериментальной кумулятивной кривой частоты или период возврата дает представление о регионе, в котором истинное распределение может быть найдено.
Кроме того, он уточняет, что экспериментально лучше фитинг распределение вероятностей может отличаться от истинного распределения.
Гистограмма
Наблюдаемые данные могут быть организованы в классах или группах с серийным номером к . Каждая группа имеет нижний предел ( L K ) и верхний предел ( U K ). Когда класс ( к ) содержит м K данные и общее количество данных N , то относительная класса или группы частот определяется из:
Интервальный вариационный ряд и его характеристики
- Построение интервального вариационного ряда по данным эксперимента
- Гистограмма и полигон относительных частот, кумулята и эмпирическая функция распределения
- Выборочная средняя, мода и медиана. Симметрия ряда
- Выборочная дисперсия и СКО
- Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации
- Алгоритм исследования интервального вариационного ряда
- Примеры
п.1. Построение интервального вариационного ряда по данным эксперимента
Интервальный вариационный ряд – это ряд распределения, в котором однородные группы составлены по признаку, меняющемуся непрерывно или принимающему слишком много значений.
Общий вид интервального вариационного ряда
Интервалы, (left.left[a_{i-1},a_iright.right)) | (left.left[a_{0},a_1right.right)) | (left.left[a_{1},a_2right.right)) | … | (left.left[a_{k-1},a_kright.right)) |
Частоты, (f_i) | (f_1) | (f_2) | … | (f_k) |
Здесь k – число интервалов, на которые разбивается ряд.
Размах вариации – это длина интервала, в пределах которой изменяется исследуемый признак: $$ F=x_{max}-x_{min} $$
Правило Стерджеса
Эмпирическое правило определения оптимального количества интервалов k, на которые следует разбить ряд из N чисел: $$ k=1+lfloorlog_2 Nrfloor $$ или, через десятичный логарифм: $$ k=1+lfloor 3,322cdotlg Nrfloor $$
Скобка (lfloor rfloor) означает целую часть (округление вниз до целого числа).
Шаг интервального ряда – это отношение размаха вариации к количеству интервалов, округленное вверх до определенной точности: $$ h=leftlceilfrac Rkrightrceil $$
Скобка (lceil rceil) означает округление вверх, в данном случае не обязательно до целого числа.
Алгоритм построения интервального ряда
На входе: все значения признака (left{x_jright}, j=overline{1,N})
Шаг 1. Найти размах вариации (R=x_{max}-x_{min})
Шаг 2. Найти оптимальное количество интервалов (k=1+lfloorlog_2 Nrfloor)
Шаг 3. Найти шаг интервального ряда (h=leftlceilfrac{R}{k}rightrceil)
Шаг 4. Найти узлы ряда: $$ a_0=x_{min}, a_i=1_0+ih, i=overline{1,k} $$ Шаг 5. Найти частоты (f_i) – число попаданий значений признака в каждый из интервалов (left.left[a_{i-1},a_iright.right)).
На выходе: интервальный ряд с интервалами (left.left[a_{i-1},a_iright.right)) и частотами (f_i, i=overline{1,k})
Заметим, что поскольку шаг h находится с округлением вверх, последний узел (a_kgeq x_{max}).
Например:
Проведено 100 измерений роста учеников старших классов.
Минимальный рост составляет 142 см, максимальный – 197 см.
Найдем узлы для построения соответствующего интервального ряда.
По условию: (N=100, x_{min}=142 см, x_{max}=197 см).
Размах вариации: (R=197-142=55) (см)
Оптимальное число интервалов: (k=1+lfloor 3,322cdotlg 100rfloor=1+lfloor 6,644rfloor=1+6=7)
Шаг интервального ряда: (h=lceilfrac{55}{5}rceil=lceil 7,85rceil=8) (см)
Получаем узлы ряда: $$ a_0=x_{min}=142, a_i=142+icdot 8, i=overline{1,7} $$
(left.left[a_{i-1},a_iright.right)) cм | (left.left[142;150right.right)) | (left.left[150;158right.right)) | (left.left[158;166right.right)) | (left.left[166;174right.right)) | (left.left[174;182right.right)) | (left.left[182;190right.right)) | (left[190;198right]) |
п.2. Гистограмма и полигон относительных частот, кумулята и эмпирическая функция распределения
Относительная частота интервала (left.left[a_{i-1},a_iright.right)) – это отношение частоты (f_i) к общему количеству исходов: $$ w_i=frac{f_i}{N}, i=overline{1,k} $$
Гистограмма относительных частот интервального ряда – это фигура, состоящая из прямоугольников, ширина которых равна шагу ряда, а высота – относительным частотам каждого из интервалов.
Площадь гистограммы равна 1 (с точностью до округлений), и она является эмпирическим законом распределения исследуемого признака.
Полигон относительных частот интервального ряда – это ломаная, соединяющая точки ((x_i,w_i)), где (x_i) – середины интервалов: (x_i=frac{a_{i-1}+a_i}{2}, i=overline{1,k}).
Накопленные относительные частоты – это суммы: $$ S_1=w_1, S_i=S_{i-1}+w_i, i=overline{2,k} $$ Ступенчатая кривая (F(x)), состоящая из прямоугольников, ширина которых равна шагу ряда, а высота – накопленным относительным частотам, является эмпирической функцией распределения исследуемого признака.
Кумулята – это ломаная, которая соединяет точки ((x_i,S_i)), где (x_i) – середины интервалов.
Например:
Продолжим анализ распределения учеников по росту.
Выше мы уже нашли узлы интервалов. Пусть, после распределения всех 100 измерений по этим интервалам, мы получили следующий интервальный ряд:
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
(left.left[a_{i-1},a_iright.right)) cм | (left.left[142;150right.right)) | (left.left[150;158right.right)) | (left.left[158;166right.right)) | (left.left[166;174right.right)) | (left.left[174;182right.right)) | (left.left[182;190right.right)) | (left[190;198right]) |
(f_i) | 4 | 7 | 11 | 34 | 33 | 8 | 3 |
Найдем середины интервалов, относительные частоты и накопленные относительные частоты:
(x_i) | 146 | 154 | 162 | 170 | 178 | 186 | 194 |
(w_i) | 0,04 | 0,07 | 0,11 | 0,34 | 0,33 | 0,08 | 0,03 |
(S_i) | 0,04 | 0,11 | 0,22 | 0,56 | 0,89 | 0,97 | 1 |
Построим гистограмму и полигон:
Построим кумуляту и эмпирическую функцию распределения:
Эмпирическая функция распределения (относительно середин интервалов): $$ F(x)= begin{cases} 0, xleq 146\ 0,04, 146lt xleq 154\ 0,11, 154lt xleq 162\ 0,22, 162lt xleq 170\ 0,56, 170lt xleq 178\ 0,89, 178lt xleq 186\ 0,97, 186lt xleq 194\ 1, xgt 194 end{cases} $$
п.3. Выборочная средняя, мода и медиана. Симметрия ряда
Выборочная средняя интервального вариационного ряда определяется как средняя взвешенная по частотам: $$ X_{cp}=frac{x_1f_1+x_2f_2+…+x_kf_k}{N}=frac1Nsum_{i=1}^k x_if_i $$ где (x_i) – середины интервалов: (x_i=frac{a_{i-1}+a_i}{2}, i=overline{1,k}).
Или, через относительные частоты: $$ X_{cp}=sum_{i=1}^k x_iw_i $$
Модальным интервалом называют интервал с максимальной частотой: $$ f_m=max f_i $$ Мода интервального вариационного ряда определяется по формуле: $$ M_o=x_o+frac{f_m-f_{m-1}}{(f_m-f_{m-1})+(f_m+f_{m+1})}h $$ где
(h) – шаг интервального ряда;
(x_o) – нижняя граница модального интервала;
(f_m,f_{m-1},f_{m+1}) – соответственно, частоты модального интервала, интервала слева от модального и интервала справа.
Медианным интервалом называют первый интервал слева, на котором кумулята превысила значение 0,5. Медиана интервального вариационного ряда определяется по формуле: $$ M_e=x_o+frac{0,5-S_{me-1}}{w_{me}}h $$ где
(h) – шаг интервального ряда;
(x_o) – нижняя граница медианного интервала;
(S_{me-1}) накопленная относительная частота для интервала слева от медианного;
(w_{me}) относительная частота медианного интервала.
Расположение выборочной средней, моды и медианы в зависимости от симметрии ряда аналогично их расположению в дискретном ряду (см. §65 данного справочника).
Например:
Для распределения учеников по росту получаем:
(x_i) | 146 | 154 | 162 | 170 | 178 | 186 | 194 | ∑ |
(w_i) | 0,04 | 0,07 | 0,11 | 0,34 | 0,33 | 0,08 | 0,03 | 1 |
(x_iw_i) | 5,84 | 10,78 | 17,82 | 57,80 | 58,74 | 14,88 | 5,82 | 171,68 |
$$ X_{cp}=sum_{i=1}^k x_iw_i=171,68approx 171,7 text{(см)} $$ На гистограмме (или полигоне) относительных частот максимальная частота приходится на 4й интервал [166;174). Это модальный интервал.
Данные для расчета моды: begin{gather*} x_o=166, f_m=34, f_{m-1}=11, f_{m+1}=33, h=8\ M_o=x_o+frac{f_m-f_{m-1}}{(f_m-f_{m-1})+(f_m+f_{m+1})}h=\ =166+frac{34-11}{(34-11)+(34-33)}cdot 8approx 173,7 text{(см)} end{gather*} На кумуляте значение 0,5 пересекается на 4м интервале. Это – медианный интервал.
Данные для расчета медианы: begin{gather*} x_o=166, w_m=0,34, S_{me-1}=0,22, h=8\ \ M_e=x_o+frac{0,5-S_{me-1}}{w_me}h=166+frac{0,5-0,22}{0,34}cdot 8approx 172,6 text{(см)} end{gather*} begin{gather*} \ X_{cp}=171,7; M_o=173,7; M_e=172,6\ X_{cp}lt M_elt M_o end{gather*} Ряд асимметричный с левосторонней асимметрией.
При этом (frac{|M_o-X_{cp}|}{|M_e-X_{cp}|}=frac{2,0}{0,9}approx 2,2lt 3), т.е. распределение умеренно асимметрично.
п.4. Выборочная дисперсия и СКО
Выборочная дисперсия интервального вариационного ряда определяется как средняя взвешенная для квадрата отклонения от средней: begin{gather*} D=frac1Nsum_{i=1}^k(x_i-X_{cp})^2 f_i=frac1Nsum_{i=1}^k x_i^2 f_i-X_{cp}^2 end{gather*} где (x_i) – середины интервалов: (x_i=frac{a_{i-1}+a_i}{2}, i=overline{1,k}).
Или, через относительные частоты: $$ D=sum_{i=1}^k(x_i-X_{cp})^2 w_i=sum_{i=1}^k x_i^2 w_i-X_{cp}^2 $$
Выборочное среднее квадратичное отклонение (СКО) определяется как корень квадратный из выборочной дисперсии: $$ sigma=sqrt{D} $$
Например:
Для распределения учеников по росту получаем:
$x_i$ | 146 | 154 | 162 | 170 | 178 | 186 | 194 | ∑ |
(w_i) | 0,04 | 0,07 | 0,11 | 0,34 | 0,33 | 0,08 | 0,03 | 1 |
(x_iw_i) | 5,84 | 10,78 | 17,82 | 57,80 | 58,74 | 14,88 | 5,82 | 171,68 |
(x_i^2w_i) – результат | 852,64 | 1660,12 | 2886,84 | 9826 | 10455,72 | 2767,68 | 1129,08 | 29578,08 |
$$ D=sum_{i=1}^k x_i^2 w_i-X_{cp}^2=29578,08-171,7^2approx 104,1 $$ $$ sigma=sqrt{D}approx 10,2 $$
п.5. Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации
Исправленная выборочная дисперсия интервального вариационного ряда определяется как: begin{gather*} S^2=frac{N}{N-1}D end{gather*}
Стандартное отклонение выборки определяется как корень квадратный из исправленной выборочной дисперсии: $$ s=sqrt{S^2} $$
Коэффициент вариации это отношение стандартного отклонения выборки к выборочной средней, выраженное в процентах: $$ V=frac{s}{X_{cp}}cdot 100text{%} $$
Подробней о том, почему и когда нужно «исправлять» дисперсию, и для чего использовать коэффициент вариации – см. §65 данного справочника.
Например:
Для распределения учеников по росту получаем: begin{gather*} S^2=frac{100}{99}cdot 104,1approx 105,1\ sapprox 10,3 end{gather*} Коэффициент вариации: $$ V=frac{10,3}{171,7}cdot 100text{%}approx 6,0text{%}lt 33text{%} $$ Выборка однородна. Найденное значение среднего роста (X_{cp})=171,7 см можно распространить на всю генеральную совокупность (старшеклассников из других школ).
п.6. Алгоритм исследования интервального вариационного ряда
На входе: все значения признака (left{x_jright}, j=overline{1,N})
Шаг 1. Построить интервальный ряд с интервалами (left.right[a_{i-1}, a_ileft.right)) и частотами (f_i, i=overline{1,k}) (см. алгоритм выше).
Шаг 2. Составить расчетную таблицу. Найти (x_i,w_i,S_i,x_iw_i,x_i^2w_i)
Шаг 3. Построить гистограмму (и/или полигон) относительных частот, эмпирическую функцию распределения (и/или кумуляту). Записать эмпирическую функцию распределения.
Шаг 4. Найти выборочную среднюю, моду и медиану. Проанализировать симметрию распределения.
Шаг 5. Найти выборочную дисперсию и СКО.
Шаг 6. Найти исправленную выборочную дисперсию, стандартное отклонение и коэффициент вариации. Сделать вывод об однородности выборки.
п.7. Примеры
Пример 1. При изучении возраста пользователей коворкинга выбрали 30 человек.
Получили следующий набор данных:
18,38,28,29,26,38,34,22,28,30,22,23,35,33,27,24,30,32,28,25,29,26,31,24,29,27,32,24,29,29
Постройте интервальный ряд и исследуйте его.
1) Построим интервальный ряд. В наборе данных: $$ x_{min}=18, x_{max}=38, N=30 $$ Размах вариации: (R=38-18=20)
Оптимальное число интервалов: (k=1+lfloorlog_2 30rfloor=1+4=5)
Шаг интервального ряда: (h=lceilfrac{20}{5}rceil=4)
Получаем узлы ряда: $$ a_0=x_{min}=18, a_i=18+icdot 4, i=overline{1,5} $$
(left.left[a_{i-1},a_iright.right)) лет | (left.left[18;22right.right)) | (left.left[22;26right.right)) | (left.left[26;30right.right)) | (left.left[30;34right.right)) | (left.left[34;38right.right)) |
Считаем частоты для каждого интервала. Получаем интервальный ряд:
(left.left[a_{i-1},a_iright.right)) лет | (left.left[18;22right.right)) | (left.left[22;26right.right)) | (left.left[26;30right.right)) | (left.left[30;34right.right)) | (left.left[34;38right.right)) |
(f_i) | 1 | 7 | 12 | 6 | 4 |
2) Составляем расчетную таблицу:
(x_i) | 20 | 24 | 28 | 32 | 36 | ∑ |
(f_i) | 1 | 7 | 12 | 6 | 4 | 30 |
(w_i) | 0,033 | 0,233 | 0,4 | 0,2 | 0,133 | 1 |
(S_i) | 0,033 | 0,267 | 0,667 | 0,867 | 1 | – |
(x_iw_i) | 0,667 | 5,6 | 11,2 | 6,4 | 4,8 | 28,67 |
(x_i^2w_i) | 13,333 | 134,4 | 313,6 | 204,8 | 172,8 | 838,93 |
3) Строим полигон и кумуляту
Эмпирическая функция распределения: $$ F(x)= begin{cases} 0, xleq 20\ 0,033, 20lt xleq 24\ 0,267, 24lt xleq 28\ 0,667, 28lt xleq 32\ 0,867, 32lt xleq 36\ 1, xgt 36 end{cases} $$ 4) Находим выборочную среднюю, моду и медиану $$ X_{cp}=sum_{i=1}^k x_iw_iapprox 28,7 text{(лет)} $$ На полигоне модальным является 3й интервал (самая высокая точка).
Данные для расчета моды: begin{gather*} x_0=26, f_m=12, f_{m-1}=7, f_{m+1}=6, h=4\ M_o=x_o+frac{f_m-f_{m-1}}{(f_m-f_{m-1})+(f_m+f_{m+1})}h=\ =26+frac{12-7}{(12-7)+(12-6)}cdot 4approx 27,8 text{(лет)} end{gather*}
На кумуляте медианным является 3й интервал (преодолевает уровень 0,5).
Данные для расчета медианы: begin{gather*} x_0=26, w_m=0,4, S_{me-1}=0,267, h=4\ M_e=x_o+frac{0,5-S_{me-1}}{w_{me}}h=26+frac{0,5-0,4}{0,267}cdot 4approx 28,3 text{(лет)} end{gather*} Получаем: begin{gather*} X_{cp}=28,7; M_o=27,8; M_e=28,6\ X_{cp}gt M_egt M_0 end{gather*} Ряд асимметричный с правосторонней асимметрией.
При этом (frac{|M_o-X_{cp}|}{|M_e-X_{cp}|} =frac{0,9}{0,1}=9gt 3), т.е. распределение сильно асимметрично.
5) Находим выборочную дисперсию и СКО: begin{gather*} D=sum_{i=1}^k x_i^2w_i-X_{cp}^2=838,93-28,7^2approx 17,2\ sigma=sqrt{D}approx 4,1 end{gather*}
6) Исправленная выборочная дисперсия: $$ S^2=frac{N}{N-1}D=frac{30}{29}cdot 17,2approx 17,7 $$ Стандартное отклонение (s=sqrt{S^2}approx 4,2)
Коэффициент вариации: (V=frac{4,2}{28,7}cdot 100text{%}approx 14,7text{%}lt 33text{%})
Выборка однородна. Найденное значение среднего возраста (X_{cp}=28,7) лет можно распространить на всю генеральную совокупность (пользователей коворкинга).