Как найти частоту интервала в выборке

  1. Пользуясь формулой, вычисляем накопленные частоты интервалов. В частности,

;

;

;

.

  1. Вычисляем частости
    интервалов. Например,

;
;
.

  1. Вычисляем
    накопленные частости интервалов.

  2. Данные вычислений
    заносим в табл. 2

Таблица 2

интервала

Границы
интервала

Частота

Накопленная
частота

Частость

Накопленная
частость

1

5

7

3

3

0,06

0,06

2

7

9

9

12

0,18

0,24

3

9

11

17

29

0,34

0,58

4

11

13

10

39

0,20

0,78

5

13

15

7

46

0,14

0,92

6

15

17

4

50

0,08

1

Распределение
типа сведенного в табл. 2 представляет
собой интервальный
вариационный ряд
.

Анализ вариационных
рядов упрощается при их графическом
представлении. Наряду с гистограммой
и полигоном частот можно построить
полигон
накопленных частостей (кумулята)

График получается
при соединении точек прямыми отрезками.
Координаты точек соответствуют верхним
границам интервалов
и
накопленным частотам. Если по оси ординат
откладывать накопленные частости, то
полученный график называется полигоном
накопленных частостей
.
Если ряд не интервальный, то по оси

откладывают значения измеряемого
признака, а по оси


соответствующие накопленные частоты
или частости. На рис.2 изображен полигон
накопленных частостей для примера 3.

На
практике соседние точки чаще всего
соединяют кривыми линиями (рис. 3).

1 .3. Статистические характеристики вариационного ряда

Для
полноты картины анализа выборки
рассматривают статистические
характеристики

вариационного ряда. С этой целью оценивают
следующие качества ряда:

  • центральную
    тенденцию выборки;

  • вариацию.

Центральную
тенденцию выборки оценивают такими
статистическими характеристиками, как

  • мода;

  • медиана;

  • среднее
    арифметическое значение.

К
характеристикам вариации относят:

  • размах;

  • дисперсию;

  • среднее
    квадратическое отклонение;

  • коэффициент
    вариации;

  • ошибку
    выборочного среднего.

Модой
называется значение признака, наиболее
часто встречающееся в выборке. Мода
обозначается
.
Если значения выборки сгруппированы в
интервальный вариационный ряд, то
выбирается модальный
интервал
с
наибольшей частотой.

Медиана

это такое значение признака, при котором
одна половина значений признака меньше
ее, а другая половина 
больше (медиана делит вариационный ряд
пополам). Медиана обозначается
.
Для отыскания медианы выборку ранжируют,
то есть значения признака располагают
в порядке возрастания или убывания. В
ранжированной выборке ранг (порядковый
номер в выборке)

медианы определяют по формуле:

, где


объем выборки.

При

нечетном ранг


целое число, и медианой считают следующее
значение:
.
При

четном ранг


число не целое, представимое в виде
,
где


целое. В таком случае медианой считают
значение
.

Среднее
арифметическое
неупорядоченной
выборки вычисляют по формуле:

.

В случае интервального
вариационного ряда формула приобретает
вид:
,
где


частота
-го
интервала,


среднее арифметическое значение этого
интервала.

Размах вариации
– это разность
между максимальным и минимальным
значениями выборки:

.

Дисперсией
называется
средний квадрат отклонений значений
признака от среднего арифметического
и вычисляется по формуле:

.

Средним
квадратическим отклонением
называется
положительный квадратный корень из
дисперсии:

,

Среднее квадратическое
отклонение имеет ту же единицу измерения,
что и варьирующий признак. Оно характеризует
степень отклонения значений признака
от его среднего арифметического значения
в абсолютных единицах.

Для
сравнения варьируемости двух или
нескольких выборок, имеющих разные
единицы измерения, используют коэффициент
вариации. Коэффициент
вариации

это относительный показатель, равный
отношению среднего квадратического
отклонения к среднему арифметическому
значению:

.

Принято
считать, что если
,
то варьируемость малая,


средняя,


большая.

Отклонения
выборочных коэффициентов от параметров
в генеральной совокупности называются
ошибками
параметров. Эти ошибки возникают в силу
того, что выборочная совокупность
представляет генеральную совокупность
только приближенно. Если взять несколько
вариантов выборок объемом

из одной и той же генеральной совокупности
и вычислить для каждой из них среднее
арифметическое, то окажется, что средние
арифметические выборок варьируют вокруг
среднего арифметического для генеральной
совокупности

в

раз меньше, чем отдельные варианты. На
этом основании в качестве стандартной
ошибки выборочного среднего

принимают величину

.

Чтобы
подчеркнуть точность оценки среднего
выборочного, его чаще всего записывают
в виде: .

Пример 4.
В качестве оценки силовой подготовки
учащихся 5 класса произведен тест на
количество подтягиваний на перекладине.

Данные теста
следующие: 9, 9, 10, 11, 8, 7, 10, 7, 9, 11, 7, 8, 9, 8, 9.

Требуется вычислить
моду, медиану, среднее арифметическое
значение, размах вариации, дисперсию,
среднее квадратическое отклонение,
коэффициент вариации и ошибку выборочного
среднего данной выборки.

Решение.
Непосредственным подсчетом убеждаемся,
что значение

встречается в выборке чаще других (5
раз), следовательно,
.

Для
вычисления медианы производим ранжировку
заданной выборки:

7, 7, 7, 8, 8, 8, 9, 9, 9, 9,
9, 10, 10, 11, 11

Объем выборки


число нечетное, поэтому ранг медианы
вычисляем по формуле:

,

то есть медианой
является 8-е значение выборки),
.

Среднее арифметическое
значение выборки находим, пользуясь
формулой:

Крайние значения
ряда) определяют минимальное и максимальное
значения выборки
,
.
Согласно определению, размах вариации
равен:

.

Для удобства
вычисления дисперсии составляем таблицу.
Пользуясь суммой значений последней
колонки и формулой, находим: .

1

9

0,2

0,04

2

9

0,2

0,04

3

10

1,2

1,44

4

11

2,2

4,84

5

8

-0,8

0,64

6

7

-1,8

3,24

7

10

1,2

1,44

8

7

-1,8

3,24

9

9

0,2

0,44

10

11

2,2

4,24

11

7

-1,8

3,24

12

8

-0,8

0,64

13

9

0,2

0,04

14

8

-0,8

0,64

15

9

0,2

0,04

132

24,4

Вычислим среднее
квадратическое отклонение:
.

Коэффициент
вариации:
,
откуда делаем вывод 
результаты тестирования имеют средний
коэффициент вариации.

Ошибку выборочного
среднего арифметического находим:
.

Наконец, записываем:
.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Интервальный вариационный ряд и его характеристики

  1. Построение интервального вариационного ряда по данным эксперимента
  2. Гистограмма и полигон относительных частот, кумулята и эмпирическая функция распределения
  3. Выборочная средняя, мода и медиана. Симметрия ряда
  4. Выборочная дисперсия и СКО
  5. Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации
  6. Алгоритм исследования интервального вариационного ряда
  7. Примеры

п.1. Построение интервального вариационного ряда по данным эксперимента

Интервальный вариационный ряд – это ряд распределения, в котором однородные группы составлены по признаку, меняющемуся непрерывно или принимающему слишком много значений.

Общий вид интервального вариационного ряда

Интервалы, (left.left[a_{i-1},a_iright.right)) (left.left[a_{0},a_1right.right)) (left.left[a_{1},a_2right.right)) (left.left[a_{k-1},a_kright.right))
Частоты, (f_i) (f_1) (f_2) (f_k)

Здесь k – число интервалов, на которые разбивается ряд.

Размах вариации – это длина интервала, в пределах которой изменяется исследуемый признак: $$ F=x_{max}-x_{min} $$

Правило Стерджеса
Эмпирическое правило определения оптимального количества интервалов k, на которые следует разбить ряд из N чисел: $$ k=1+lfloorlog_2 Nrfloor $$ или, через десятичный логарифм: $$ k=1+lfloor 3,322cdotlg Nrfloor $$

Скобка (lfloor rfloor) означает целую часть (округление вниз до целого числа).

Шаг интервального ряда – это отношение размаха вариации к количеству интервалов, округленное вверх до определенной точности: $$ h=leftlceilfrac Rkrightrceil $$

Скобка (lceil rceil) означает округление вверх, в данном случае не обязательно до целого числа.

Алгоритм построения интервального ряда
На входе: все значения признака (left{x_jright}, j=overline{1,N})
Шаг 1. Найти размах вариации (R=x_{max}-x_{min})
Шаг 2. Найти оптимальное количество интервалов (k=1+lfloorlog_2 Nrfloor)
Шаг 3. Найти шаг интервального ряда (h=leftlceilfrac{R}{k}rightrceil)
Шаг 4. Найти узлы ряда: $$ a_0=x_{min}, a_i=1_0+ih, i=overline{1,k} $$ Шаг 5. Найти частоты (f_i) – число попаданий значений признака в каждый из интервалов (left.left[a_{i-1},a_iright.right)).
На выходе: интервальный ряд с интервалами (left.left[a_{i-1},a_iright.right)) и частотами (f_i, i=overline{1,k})

Заметим, что поскольку шаг h находится с округлением вверх, последний узел (a_kgeq x_{max}).

Например:
Проведено 100 измерений роста учеников старших классов.
Минимальный рост составляет 142 см, максимальный – 197 см.
Найдем узлы для построения соответствующего интервального ряда.
По условию: (N=100, x_{min}=142 см, x_{max}=197 см).
Размах вариации: (R=197-142=55) (см)
Оптимальное число интервалов: (k=1+lfloor 3,322cdotlg ⁡100rfloor=1+lfloor 6,644rfloor=1+6=7)
Шаг интервального ряда: (h=lceilfrac{55}{5}rceil=lceil 7,85rceil=8) (см)
Получаем узлы ряда: $$ a_0=x_{min}=142, a_i=142+icdot 8, i=overline{1,7} $$

(left.left[a_{i-1},a_iright.right)) cм (left.left[142;150right.right)) (left.left[150;158right.right)) (left.left[158;166right.right)) (left.left[166;174right.right)) (left.left[174;182right.right)) (left.left[182;190right.right)) (left[190;198right])

п.2. Гистограмма и полигон относительных частот, кумулята и эмпирическая функция распределения

Относительная частота интервала (left.left[a_{i-1},a_iright.right)) – это отношение частоты (f_i) к общему количеству исходов: $$ w_i=frac{f_i}{N}, i=overline{1,k} $$

Гистограмма относительных частот интервального ряда – это фигура, состоящая из прямоугольников, ширина которых равна шагу ряда, а высота – относительным частотам каждого из интервалов.
Площадь гистограммы равна 1 (с точностью до округлений), и она является эмпирическим законом распределения исследуемого признака.

Полигон относительных частот интервального ряда – это ломаная, соединяющая точки ((x_i,w_i)), где (x_i) – середины интервалов: (x_i=frac{a_{i-1}+a_i}{2}, i=overline{1,k}).

Накопленные относительные частоты – это суммы: $$ S_1=w_1, S_i=S_{i-1}+w_i, i=overline{2,k} $$ Ступенчатая кривая (F(x)), состоящая из прямоугольников, ширина которых равна шагу ряда, а высота – накопленным относительным частотам, является эмпирической функцией распределения исследуемого признака.
Кумулята – это ломаная, которая соединяет точки ((x_i,S_i)), где (x_i) – середины интервалов.

Например:
Продолжим анализ распределения учеников по росту.
Выше мы уже нашли узлы интервалов. Пусть, после распределения всех 100 измерений по этим интервалам, мы получили следующий интервальный ряд:

i 1 2 3 4 5 6 7
(left.left[a_{i-1},a_iright.right)) cм (left.left[142;150right.right)) (left.left[150;158right.right)) (left.left[158;166right.right)) (left.left[166;174right.right)) (left.left[174;182right.right)) (left.left[182;190right.right)) (left[190;198right])
(f_i) 4 7 11 34 33 8 3

Найдем середины интервалов, относительные частоты и накопленные относительные частоты:

(x_i) 146 154 162 170 178 186 194
(w_i) 0,04 0,07 0,11 0,34 0,33 0,08 0,03
(S_i) 0,04 0,11 0,22 0,56 0,89 0,97 1

Построим гистограмму и полигон:
Гистограмма
Полигон
Построим кумуляту и эмпирическую функцию распределения:
Кумулята
Эмпирическая функция распределения
Эмпирическая функция распределения (относительно середин интервалов): $$ F(x)= begin{cases} 0, xleq 146\ 0,04, 146lt xleq 154\ 0,11, 154lt xleq 162\ 0,22, 162lt xleq 170\ 0,56, 170lt xleq 178\ 0,89, 178lt xleq 186\ 0,97, 186lt xleq 194\ 1, xgt 194 end{cases} $$

п.3. Выборочная средняя, мода и медиана. Симметрия ряда

Выборочная средняя интервального вариационного ряда определяется как средняя взвешенная по частотам: $$ X_{cp}=frac{x_1f_1+x_2f_2+…+x_kf_k}{N}=frac1Nsum_{i=1}^k x_if_i $$ где (x_i) – середины интервалов: (x_i=frac{a_{i-1}+a_i}{2}, i=overline{1,k}).
Или, через относительные частоты: $$ X_{cp}=sum_{i=1}^k x_iw_i $$

Модальным интервалом называют интервал с максимальной частотой: $$ f_m=max f_i $$ Мода интервального вариационного ряда определяется по формуле: $$ M_o=x_o+frac{f_m-f_{m-1}}{(f_m-f_{m-1})+(f_m+f_{m+1})}h $$ где
(h) – шаг интервального ряда;
(x_o) – нижняя граница модального интервала;
(f_m,f_{m-1},f_{m+1}) – соответственно, частоты модального интервала, интервала слева от модального и интервала справа.

Медианным интервалом называют первый интервал слева, на котором кумулята превысила значение 0,5. Медиана интервального вариационного ряда определяется по формуле: $$ M_e=x_o+frac{0,5-S_{me-1}}{w_{me}}h $$ где
(h) – шаг интервального ряда;
(x_o) – нижняя граница медианного интервала;
(S_{me-1}) накопленная относительная частота для интервала слева от медианного;
(w_{me}) относительная частота медианного интервала.

Расположение выборочной средней, моды и медианы в зависимости от симметрии ряда аналогично их расположению в дискретном ряду (см. §65 данного справочника).

Например:
Для распределения учеников по росту получаем:

(x_i) 146 154 162 170 178 186 194
(w_i) 0,04 0,07 0,11 0,34 0,33 0,08 0,03 1
(x_iw_i) 5,84 10,78 17,82 57,80 58,74 14,88 5,82 171,68

$$ X_{cp}=sum_{i=1}^k x_iw_i=171,68approx 171,7 text{(см)} $$ На гистограмме (или полигоне) относительных частот максимальная частота приходится на 4й интервал [166;174). Это модальный интервал.
Данные для расчета моды: begin{gather*} x_o=166, f_m=34, f_{m-1}=11, f_{m+1}=33, h=8\ M_o=x_o+frac{f_m-f_{m-1}}{(f_m-f_{m-1})+(f_m+f_{m+1})}h=\ =166+frac{34-11}{(34-11)+(34-33)}cdot 8approx 173,7 text{(см)} end{gather*} На кумуляте значение 0,5 пересекается на 4м интервале. Это – медианный интервал.
Данные для расчета медианы: begin{gather*} x_o=166, w_m=0,34, S_{me-1}=0,22, h=8\ \ M_e=x_o+frac{0,5-S_{me-1}}{w_me}h=166+frac{0,5-0,22}{0,34}cdot 8approx 172,6 text{(см)} end{gather*} begin{gather*} \ X_{cp}=171,7; M_o=173,7; M_e=172,6\ X_{cp}lt M_elt M_o end{gather*} Ряд асимметричный с левосторонней асимметрией.
При этом (frac{|M_o-X_{cp}|}{|M_e-X_{cp}|}=frac{2,0}{0,9}approx 2,2lt 3), т.е. распределение умеренно асимметрично.

п.4. Выборочная дисперсия и СКО

Выборочная дисперсия интервального вариационного ряда определяется как средняя взвешенная для квадрата отклонения от средней: begin{gather*} D=frac1Nsum_{i=1}^k(x_i-X_{cp})^2 f_i=frac1Nsum_{i=1}^k x_i^2 f_i-X_{cp}^2 end{gather*} где (x_i) – середины интервалов: (x_i=frac{a_{i-1}+a_i}{2}, i=overline{1,k}).
Или, через относительные частоты: $$ D=sum_{i=1}^k(x_i-X_{cp})^2 w_i=sum_{i=1}^k x_i^2 w_i-X_{cp}^2 $$

Выборочное среднее квадратичное отклонение (СКО) определяется как корень квадратный из выборочной дисперсии: $$ sigma=sqrt{D} $$

Например:
Для распределения учеников по росту получаем:

$x_i$ 146 154 162 170 178 186 194
(w_i) 0,04 0,07 0,11 0,34 0,33 0,08 0,03 1
(x_iw_i) 5,84 10,78 17,82 57,80 58,74 14,88 5,82 171,68
(x_i^2w_i) – результат 852,64 1660,12 2886,84 9826 10455,72 2767,68 1129,08 29578,08

$$ D=sum_{i=1}^k x_i^2 w_i-X_{cp}^2=29578,08-171,7^2approx 104,1 $$ $$ sigma=sqrt{D}approx 10,2 $$

п.5. Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации

Исправленная выборочная дисперсия интервального вариационного ряда определяется как: begin{gather*} S^2=frac{N}{N-1}D end{gather*}

Стандартное отклонение выборки определяется как корень квадратный из исправленной выборочной дисперсии: $$ s=sqrt{S^2} $$

Коэффициент вариации это отношение стандартного отклонения выборки к выборочной средней, выраженное в процентах: $$ V=frac{s}{X_{cp}}cdot 100text{%} $$

Подробней о том, почему и когда нужно «исправлять» дисперсию, и для чего использовать коэффициент вариации – см. §65 данного справочника.

Например:
Для распределения учеников по росту получаем: begin{gather*} S^2=frac{100}{99}cdot 104,1approx 105,1\ sapprox 10,3 end{gather*} Коэффициент вариации: $$ V=frac{10,3}{171,7}cdot 100text{%}approx 6,0text{%}lt 33text{%} $$ Выборка однородна. Найденное значение среднего роста (X_{cp})=171,7 см можно распространить на всю генеральную совокупность (старшеклассников из других школ).

п.6. Алгоритм исследования интервального вариационного ряда

На входе: все значения признака (left{x_jright}, j=overline{1,N})
Шаг 1. Построить интервальный ряд с интервалами (left.right[a_{i-1}, a_ileft.right)) и частотами (f_i, i=overline{1,k}) (см. алгоритм выше).
Шаг 2. Составить расчетную таблицу. Найти (x_i,w_i,S_i,x_iw_i,x_i^2w_i)
Шаг 3. Построить гистограмму (и/или полигон) относительных частот, эмпирическую функцию распределения (и/или кумуляту). Записать эмпирическую функцию распределения.
Шаг 4. Найти выборочную среднюю, моду и медиану. Проанализировать симметрию распределения.
Шаг 5. Найти выборочную дисперсию и СКО.
Шаг 6. Найти исправленную выборочную дисперсию, стандартное отклонение и коэффициент вариации. Сделать вывод об однородности выборки.

п.7. Примеры

Пример 1. При изучении возраста пользователей коворкинга выбрали 30 человек.
Получили следующий набор данных:
18,38,28,29,26,38,34,22,28,30,22,23,35,33,27,24,30,32,28,25,29,26,31,24,29,27,32,24,29,29
Постройте интервальный ряд и исследуйте его.

1) Построим интервальный ряд. В наборе данных: $$ x_{min}=18, x_{max}=38, N=30 $$ Размах вариации: (R=38-18=20)
Оптимальное число интервалов: (k=1+lfloorlog_2⁡ 30rfloor=1+4=5)
Шаг интервального ряда: (h=lceilfrac{20}{5}rceil=4)
Получаем узлы ряда: $$ a_0=x_{min}=18, a_i=18+icdot 4, i=overline{1,5} $$

(left.left[a_{i-1},a_iright.right)) лет (left.left[18;22right.right)) (left.left[22;26right.right)) (left.left[26;30right.right)) (left.left[30;34right.right)) (left.left[34;38right.right))

Считаем частоты для каждого интервала. Получаем интервальный ряд:

(left.left[a_{i-1},a_iright.right)) лет (left.left[18;22right.right)) (left.left[22;26right.right)) (left.left[26;30right.right)) (left.left[30;34right.right)) (left.left[34;38right.right))
(f_i) 1 7 12 6 4

2) Составляем расчетную таблицу:

(x_i) 20 24 28 32 36
(f_i) 1 7 12 6 4 30
(w_i) 0,033 0,233 0,4 0,2 0,133 1
(S_i) 0,033 0,267 0,667 0,867 1
(x_iw_i) 0,667 5,6 11,2 6,4 4,8 28,67
(x_i^2w_i) 13,333 134,4 313,6 204,8 172,8 838,93

3) Строим полигон и кумуляту
Пример 1
Пример 1
Эмпирическая функция распределения: $$ F(x)= begin{cases} 0, xleq 20\ 0,033, 20lt xleq 24\ 0,267, 24lt xleq 28\ 0,667, 28lt xleq 32\ 0,867, 32lt xleq 36\ 1, xgt 36 end{cases} $$ 4) Находим выборочную среднюю, моду и медиану $$ X_{cp}=sum_{i=1}^k x_iw_iapprox 28,7 text{(лет)} $$ На полигоне модальным является 3й интервал (самая высокая точка).
Данные для расчета моды: begin{gather*} x_0=26, f_m=12, f_{m-1}=7, f_{m+1}=6, h=4\ M_o=x_o+frac{f_m-f_{m-1}}{(f_m-f_{m-1})+(f_m+f_{m+1})}h=\ =26+frac{12-7}{(12-7)+(12-6)}cdot 4approx 27,8 text{(лет)} end{gather*}
На кумуляте медианным является 3й интервал (преодолевает уровень 0,5).
Данные для расчета медианы: begin{gather*} x_0=26, w_m=0,4, S_{me-1}=0,267, h=4\ M_e=x_o+frac{0,5-S_{me-1}}{w_{me}}h=26+frac{0,5-0,4}{0,267}cdot 4approx 28,3 text{(лет)} end{gather*} Получаем: begin{gather*} X_{cp}=28,7; M_o=27,8; M_e=28,6\ X_{cp}gt M_egt M_0 end{gather*} Ряд асимметричный с правосторонней асимметрией.
При этом (frac{|M_o-X_{cp}|}{|M_e-X_{cp}|} =frac{0,9}{0,1}=9gt 3), т.е. распределение сильно асимметрично.

5) Находим выборочную дисперсию и СКО: begin{gather*} D=sum_{i=1}^k x_i^2w_i-X_{cp}^2=838,93-28,7^2approx 17,2\ sigma=sqrt{D}approx 4,1 end{gather*}
6) Исправленная выборочная дисперсия: $$ S^2=frac{N}{N-1}D=frac{30}{29}cdot 17,2approx 17,7 $$ Стандартное отклонение (s=sqrt{S^2}approx 4,2)
Коэффициент вариации: (V=frac{4,2}{28,7}cdot 100text{%}approx 14,7text{%}lt 33text{%})
Выборка однородна. Найденное значение среднего возраста (X_{cp}=28,7) лет можно распространить на всю генеральную совокупность (пользователей коворкинга).

Рассмотренные в лабораторной работе 2 распределения вероятностей СВ
опираются на знание закона распределения СВ. Для практических задач такое
знание – редкость. Здесь закон распределения обычно неизвестен, или известен с
точностью до некоторых неиз­вестных параметров. В частности, невозможно
рассчитать точное значение соот­ветствующих вероятностей, так как нельзя
определить количество общих и благо­приятных исходов. Поэтому вводится статистическое
определение вероятности
. По этому определению вероятность равна отношению
числа испытаний, в ко­торых событие произошло, к общему числу произведенных
испытаний. Такая вероятность называется статистической частотой.

Связь
между эмпирической функцией распределения и функцией распределения
(теоретической функцией распределения) такая же, как связь между частотой со­бытия
и его вероятностью.

Для
построения выборочной функции распределения весь диапазон изменения случайной
величины
X (выборки)
разбивают на ряд интервалов (карманов) одинаковой ширины. Число интервалов
обычно выбирают не менее 3 и не более 15. Затем определяют число значений
случайной величины
X, попавших
в каждый интервал (абсолютная частота, частота интервалов). 

Частота интервалов – число, показывающее сколько раз значения,
относящиеся к каждому интервалу группировки, встречаются в выборке. Поделив эти
чис­ла на общее количество наблюдений (
n), находят относительную частоту (частость) попадания
случайной величины
X в заданные
интервалы.

По
найденным относительным час­тотам строят гистограммы выборочных функций
распределения. Гистограмма распределения частот – это графическое
представление выборки, где по оси абсцисс (ОХ) отложены величины интервалов, а
по оси ординат (ОУ) – величины частот, попадающих в данный классовый интервал.
При увеличении до бесконечности размера выборки выборочные функции
распределения превращаются в теоретические: гистограмма превращается в график
плотности распределения.

Накопленная частота интервалов – это число, полученное
последовательным суммированием частот в направлении от первого интервала к
последнему, до того  интервала
включительно, для которого определяется накопленная частота.

В Excel для построения выборочных функций распределения
используются спе­
циальная функция ЧАСТОТА
и процедура Гистограмма из пакета анализа.

Функция ЧАСТОТА (массив_данных,
двоичный_массив)
вычисляет частоты появления случайной величины в интер­
валах
значений и выводит их как массив цифр, где

     
массив_данных
это массив или ссылка на
множество данных, для которых
вычисляются частоты;

     
двоичный_массив
это массив интервалов, по
ко­
торым группируются значения выборки.

Процедура
Гистограмма из Пакета анализа
выводит
результаты выборочного распределения в виде таблицы и графика.
Параметры диалогового окна Гистограмма:

     
Входной диапазон – диапазон исследуемых данных
(выборка);

     
Интервал карманов – диа­пазон ячеек или набор граничных
значений, определяющих выбранные интервалы (карманы). Эти значения должны быть
введены в воз­растающем порядке.
Если
диапазон карманов не был введен, то набор интерва­
лов, равномерно распределенных между минимальным и
максимальным зна­
чениями данных, будет создан
автоматически.

     
выходной диапазон предназначен для ввода ссылки на левую верхнюю ячейку выходного диапазона.

     
переключатель
Интегральный процент позволяет установить режим включения в
гистограмму гра­
фика интегральных
процентов.

     
переключатель
Вывод графика позволяет установить режим автоматическо­
го создания встроенной диаграммы на листе, содержащем
выходной диапа­
зон.

Пример 1. Построить эмпирическое распределение веса
студентов в килограм­
мах для следующей
выборки: 64, 57, 63, 62, 58, 61, 63, 70, 60, 61, 65, 62, 62, 40, 64, 61,
59, 59, 63, 61.

Решение

1.  В ячейку А1 введите слово Наблюдения,
а в диапазон А2:А21 — значения веса
студентов (см. рис. 1).

2.        
В
ячейку В1 введите названия интервалов Вес, кг. В диапазон В2:В8 введите
граничные значения ин­
тервалов (40, 45,
50, 55, 60, 65, 70).

3.        
Введите
заголовки создаваемой таблицы: в ячейки С1 — Абсолютные час­
тоты, в ячейки D1 — Относительные
частоты,
в ячейки
E1 — Накоплен­ные частоты.(см. рис. 1).

4.        
С
помощью функции Частота заполните столбец абсолютных частот, для этого
выделите блок ячеек С2:С8.
С
па­
нели инструментов Стандартная
вызовите Мастер функций (кнопка
fx). В появив­шемся диалоговом окне
выберите категорию Статистические и
функцию
ЧАСТОТА, после чего нажмите кнопку ОК.
Указателем мыши в рабочее поле Массив_данных
введите диапазон данных наблюдений (А2:А8). В рабочее поле Двоич
ный_массив
мышью введите диапазон интервалов (В2:В8). Слева на клавиатуре последовательно
нажмите комбинацию клавиш Ctrl+Shift+Enter. В столбце C должен появиться мас­сив абсолютных частот (см. рис.1).

5.        
В
ячейке
C9 найдите общее количество
наблюдений. Активизируйте ячейку С9, н
а
панели инструментов Стандартная нажмите кнопку Ав­
тосумма.
Убедитесь, что диапазон суммирования указан правильно
и нажмите клавишу Enter.

6.        
Заполните столбец относительных частот. В ячейку введите формулу
для
вычисления относительной частоты: =C2/$C$9.
Нажмите клавишу Enter. Протягиванием (за правый
нижний угол при нажатой левой кнопке мыши) скопи
руйте введенную формулу в диапазон и получите массив относительных частот.

7.        
Заполните
столбец накопленных частот. В ячейку
D2 скопируйте значение от­носительной
частоты из ячейки
E2. В ячейку D3 введите формулу: =E2+D3. Нажмите клавишу Enter. Протягиванием (за правый нижний угол при нажатой левой кнопке мыши) скопируйте введенную формулу
в диапазон
D3:D8. Получим массив накопленных
частот.

                     Рис. 1. Результат вычислений из
примера 1

8.   
Постройте диаграмму относительных и накопленных частот. Щелчком ука­зателя
мыши по кнопке на панели инструментов вызовите Мастер диаграмм.
В появившемся диалоговом окне выберите закладку Нестандартные
и тип диаг­раммы График/гистограмма.
После 
редактирования диаграмма будет иметь такой вид, как на
рис. 2.

Рис. 2
Диаграмма относительных и накопленных частот из примера 1

Задания для самостоятельной работы

1. Для данных из примера 1 построить выборочные функции распределения, воспользовавшись процедурой Гистограмма из пакета Анализа.

2.  Построить выборочные функции распределения
(относительные и накоплен
ные частоты) для роста
в см. 20 студентов: 181, 169, 178, 178, 171, 179,
172, 181, 179, 168, 174, 167, 169, 171, 179, 181, 181,
183, 172, 176.

3. Найдите распределение по абсолютным частотам для
следующих результатов
тестирования в
баллах: 79, 85, 78, 85, 83, 81, 95, 88, 97, 85 (используйте границы
интервалов 70, 80, 90).

4. Рассмотрим любой из критериев оценки качеств педагога-профессионала,
например, «успешное решение задач обучения и воспитания». Ответ на этот вопрос
анкеты типа «да», «нет» достаточно груб. Чтобы уменьшить относительную ошибку
такого измерения, необходимо увеличить число возможных ответов на конкретный
критериальный вопрос. В табл. 1 представлены возможные варианты ответов.

Обозначим 
этот параметр через х. Тогда в процессе ответа на вопрос величина х
примет дискретное значение х, принадлежащее определенному интервалу значений.
Поставим в соответствие каждому из ответов определенное числовое значение
параметра х (см. табл. 1).

Табл. 1 Критериальный вопрос: успешное решение задач обучения и воспитания

№ п/п

Варианты ответов

Х

1

Абсолютно неуспешно

0,1

2

Неуспешно

0,2

3

Успешно в очень
малой степени

0,3

4

В определенной
степени успешно, но еще много недостатков

0,4

5

В среднем успешно,
но недостатки имеются

0,5

6

Успешно с
некоторыми оговорками

0,6

7

Успешно, но
хотелось бы улучшить результат

0,7

8

Достаточно успешно

0,8

9

Очень успешно

0,9

10

Абсолютно успешно

1

При проведении анкетирования в каждой отдельной
анкете параметр х принимает случайное значение, но только в пределах числового
интервала от 0,1 до 1.

Тогда в результате измерений мы получаем
неранжированный ряд случайных значений (см. табл. 2).

Таблица 2.
Результаты опроса ста учителей

Сгруппируйте полученную выборку, рассчитайте среднее
значение выборки, стандартное отклонение, абсолютную и относительную частоту
появления параметра, а также постройте график плотности вероятности f(x)=

где

W(x) – относительная частота наступления события;

          – стандартное
отклонение;

          =3,14.

Постройте график функции f(x) и сравните его с
нормальным распределением Гаусса.


Решение математических задач
средствами
Excel: Практикум/ В.Я. Гельман. – СПб.: Питер, 2003 – с. 168-172

 

Добавить комментарий