Как найти дискретный статистический ряд

  1. Построение дискретного вариационного ряда

Дискретный
вариационный ряд строится для дискретный
признаков.

Для
того, чтобы построить дискретный
вариационный ряд нужно выполнить
следующие действия:
1) упорядочить
единицы наблюдения по возрастанию
изучаемого значения признака,

2)
определить все возможные значения
признака xi,
упорядочить их по возрастанию,

3)
подсчитать сколько раз встречается
каждое значение признака в изучаемой
совокупности, т.е. определить частоту
каждого значения признака fi.

4)
записать полученные данные в таблицу
из двух строк (столбцов) – xi
и
fi
.

Значение
случайной величины, соответствующее
отдельной группе наблюдаемых данных,
называют значением
признака,

вариантом
(вариантой) и обознпчают x
i.

Число,
которое показывает, сколько раз
встречается соответствующее значение
признака в ряде наблюдений называют
частота
значения признака


и обозначают  fi.
Сумма всех частот ряда равна
количеству элементов в изучаемой
совокупности.

Пример
1
.

Список
оценок полученных студентами на
экзаменах: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3;
4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3;
3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Здесь
число
 Х –
оценка
является
дискретной случайной величиной, а
полученный список оценок –
статистические
(наблюдаемые) данные
.

  1. упорядочить
    единицы наблюдения по возрастанию
    изучаемого значения признака:

2; 2;
2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4;
4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5;
5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2)
определить все возможные значения
признака xi,
упорядочить их по возрастанию:

В
данном примере все оценки можно разделить
на четыре группы со следующими значениями:
2; 3; 4; 5.

Значение
случайной величины, соответствующее
отдельной группе наблюдаемых данных,
называют значением
признака,

вариантом
(вариантой) и обознпчают x
i.

3)
подсчитать сколько раз встречается
каждое значение признака в изучаемой
совокупности, т.е. определить частоту
каждого значения признака fi.

Число,
которое показывает, сколько раз
встречается соответствующее значение
признака в ряде наблюдений называют
частота
значения признака


и обозначают  fi.
Сумма всех частот ряда равна
количеству элементов (единиц наблюдения)
в изучаемой совокупности.

Для
нашего примера

оценка
2 встречается – 8 раз,

оценка
3 встречается – 12 раз,

оценка
4 встречается – 23 раза,

оценка
5 встречается – 17 раз.

Всего
60 оценок.

4)
записать полученные данные в таблицу
из двух строк (столбцов) – xi
и
fi
.

На
основании этих данных можно построить
дискретный вариационный ряд

Дискретный
вариационный ряд


это таблица, в которой указаны встречающиеся
значения изучаемого признака как
отдельные значения по возрастанию и их
частоты

xi

(оценка)

fi

(кол-во студентов с такой оценкой)

2

8

3

12

4

23

5

17

Всего

60

  1. Построение интервального вариационного ряда

Кроме
дискретного вариационного ряда часто
встречается такой способ группировки
данных, как интервальный
вариационный ряд.

Интервальный
ряд строится если:

  1. признак
    имеет непрерывный характер изменения;

  2. дискретных
    значений получилось очень много (больше
    10)

  3. частоты
    дискретных значений очень малы (не
    превышают 1-3 при относительно большем
    количестве единиц наблюдения);

  4. много
    дискретных значений признака с
    одинаковыми частотами.

Интервальный
вариационный ряд –
это способ группировки данных в виде
таблицы, которая имеет две графы (значения
признака в виде интервала значений и
частота каждого интервала).

В
отличие от дискретного ряда
значения признака интервального ряда
представлены
не отдельными значениями, а интервалом
значений («от – до»).

Число,
которое показывает, сколько единиц
наблюдения попало в каждый выделенный
интервал, называется частота
значения признака


и обозначают  fi.
Сумма всех частот ряда равна
количеству элементов (единиц наблюдения)
в изучаемой совокупности.

Если
единица обладает значением признака,
равным величине верхней границы
интервала, то ее следует относить к
следующему интервалу.

Например, ребёнок
с ростом 100 см попадёт во 2-ой интервал,
а не в первый; а ребёнок с ростом 130 см
попадёт в последний интервал, а не в
третий.

На
основании этих данных можно построить
интервальный вариационный ряд.

xi

(рост ребенка)

fi

(кол-во детей с таким ростом)

90-100

16

100-110

24

110-130

46

больше
130

34

Всего

120

У
каждого интервала есть нижняя граница
н),
верхняя граница (хв)
и ширина интервала (i).

Граница
интервала – это значение признака,
которое лежит на границе двух интервалов.

рост
детей (см)

рост
детей (см)

количество
детей

хн

хв

90-100

90

100

16

100-110

100

110

24

110-130

110

130

46

больше
130

130

34

Всего

120

Если
у интервала есть верхняя и нижняя
граница, то он называется закрытый
интервал
.
Если у интервала есть только нижняя или
только верхняя граница, то это – открытый
интервал.
Открытым
может быть только самый первый или самый
последний интервал. В приведённом
примере последний интервал – открытый.

Ширина
интервала (
i)
– разница между верхней и нижней
границей.

i
= хн
– хв

Ширина
открытого интервала принимается такой
же, как ширина соседнего закрытого
интервала.

рост
детей (см)

количество
детей

Ширина
интервала (i)

хн

хв

90

100

16

100-90=10

100

110

24

110-100=10

110

130

46

130-110=20

130

для
расчётов 130+20=150

34

20
(потому что ширина соседнего закрытого
интервала – 20)

всего

120

Все
интервальные ряды делятся на интервальные
ряды с равными интервалами и интервальные
ряды с неравными интервалами.
В интервальных рядах с равными интервалами
ширина всех интервалов одинаковая. В
интервальных рядах с неравными интервалами
ширина интервалов разная.

В рассматриваемом
примере – интервальный ряд с неравными
интервалами.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #

    17.02.2016629.11 Кб140308126_71740_lekcii_upravlencheskie_resheniya.rtf

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Дискретный вариационный ряд и его характеристики

  1. Классификация рядов распределения
  2. Дискретный вариационный ряд, полигон частот и кумулята
  3. Выборочная средняя, мода и медиана
  4. Степень асимметрии вариационного ряда
  5. Выборочная дисперсия и СКО
  6. Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации
  7. Алгоритм исследования дискретного вариационного ряда
  8. Примеры

п.1. Классификация рядов распределения

Статистический ряд распределения – это количественное распределение единиц совокупности на однородные группы по некоторому варьирующему признаку.

В зависимости от природы признака различают атрибутивные и вариационные ряды.
Атрибутивный ряд распределения построен на качественном признаке.
Вариационный ряд распределения построен на количественном признаке.

Например:
Качественными признаками, которые не поддаются измерению, являются: профессия, пол, национальность и т.п.
Количественными признаками, которые можно подсчитать или измерить, являются: количество людей в группе, число повторений в опыте, возраст, вес, рост, скорость, температура и т.п.

По упорядоченности вариационные ряды делятся на упорядоченные (ранжированные) и неупорядоченные. Упорядочить ряд можно по возрастанию или убыванию исследуемого признака.

По характеру непрерывности признака вариационные ряды делятся на дискретные и интервальные.

Например:
Дискретными признаками, которые принимают отдельные значения, являются: количество людей в группе, число детей в семье, количество домов, число опытов и т.п.
Непрерывными признаками, которые могут принимать любые значения в интервале, являются: возраст, вес, рост, скорость, температура и т.п.
Классификация рядов распределения

Варианты – это отдельные значения признака, которые он принимает в вариационном ряду.
Частоты – это численности отдельных вариант.

Например:

Распределение учеников по оценкам за контрольную работу

Оценка, (x_i) 2 3 4 5 Всего
К-во учеников, (f_i) 3 15 10 5 33

В данном ряду признак – это оценка, варианты признака (x_i) – это множество {2;3;4;5}, частоты (f_i) – это количество учеников, получивших каждую из оценок.

п.2. Дискретный вариационный ряд, полигон частот и кумулята

Дискретный вариационный ряд – это ряд распределения, в котором однородные группы составлены по признаку, меняющемуся прерывно и принимающему конечное множество значений.

Общий вид дискретного вариационного ряда

Варианты, (x_i) (x_1) (x_2) (x_k)
Частоты, (f_i) (f_1) (f_2) (f_k)

Здесь k – число вариант исследуемого признака.
Тогда общее количество исходов (число единиц в совокупности): (N=sum_{i=1}^k f_i)

Полигон частот – это ломаная, которая соединяет точки ((x_i,f_i)).

Например:

Для распределения учеников по оценкам из нашего примера получаем такой полигон: Полигон частот

Относительная частота варианты (x_i) – это отношение частоты (f_i) к общему количеству исходов: $$ w_i=frac{f_i}{N}, i=overline{1,k} $$ Относительная частота (w_i) является эмпирической оценкой вероятности варианты (x_i) в исследуемом ряду.

Полигон относительных частот – это ломаная, которая соединяет точки ((x_i,w_i)).
Полигон относительных частот является эмпирическим законом распределения исследуемого признака.

Накопленные относительные частоты – это суммы: $$ S_1=w_1, S_i=S_{i-1}+w_i, i=overline{2,k} $$ Кумулята – это ломаная, которая соединяет точки ((x_i,S_i)).
Ступенчатая кривая (F(x_i)), построенная по точкам ((x_i,S_i)), является эмпирической функцией распределения исследуемого признака.

Например:
Проведем необходимые расчеты и построим полигон относительных частот, кумуляту и эмпирическую функцию распределения учеников по оценкам.

Оценка, (x_i) 2 3 4 5 Всего
К-во учеников, (f_i) 3 15 10 5 33
(w_i) 0,0909 0,4545 0,3030 0,1515 1
(S_i) 0,0909 0,4545 0,8485 1

Полигон относительных частот (эмпирический закон распределения)
Полигон относительных частот
Кумулята (красная ломаная) и эмпирическая функция распределения (ступенчатая синяя кривая).
Кумулята и эмпирическая функция распределения
Эмпирическая функция распределения: $$ F(x)= begin{cases} 0, xleq 2\ 0,0909, 2lt xleq 3\ 0,5455, 3lt xleq 4\ 0,8485, 4lt xleq 5\ 1, xgt 5 end{cases} $$

п.3. Выборочная средняя, мода и медиана

Выборочная средняя дискретного вариационного ряда определяется как средняя взвешенная по частотам: $$ X_{cp}=frac{x_1f_1+x_2f_2+…+x_kf_k}{N}=frac1Nsum_{i=1}^k x_if_i $$ Или, через относительные частоты: $$ X_{cp}=sum_{i=1}^k x_iw_i $$

Мода дискретного вариационного ряда – это варианта с максимальной частотой: $$ M_o=x*, f(x*)=underset{i=overline{1,k}}{max}f_i $$ Мод может быть несколько. Тогда говорят, что ряд мультимодальный.

На полигоне частот мода – это абсцисса самой высокой точки.

Медиана дискретного вариационного ряда – это значение варианты посредине упорядоченного ряда.

Алгоритм:
1. Отсортировать ряд по возрастанию.
2а. Если общее количество измерений N нечётное, найти (m=lceilfrac N2rceil) и округлить в сторону увеличения. (M_e=x_m) – искомая медиана.
2б. Если общее количество измерений N чётное, найти (m=frac N2) и вычислить медиану как среднее (M_e=frac{x_m+x_{m+1}}{2}).

На графике кумуляты медиана – это абсцисса первой точки слева, ордината которой превысила 0,5.
Например:
1) Найдем выборочную среднюю для распределения учеников по оценкам:

Оценка, (x_i) 2 3 4 5 Всего
К-во учеников, (f_i) 3 15 10 5 33
(x_if_i) 6 45 40 25 116

$$ X_{cp}=frac{6+45+40+25}{33}=frac{116}{33}approx 3,5 $$ Средняя оценка за контрольную – 3,5.
2) Найдем моду. Максимальная частота – 15 человек – у троечников. Значит: (M_o=3).
3) Найдем медиану. Общее количество измерений N=33 – нечетное.
Находим: (m=lceilfrac N2rceil=17)
Смотрим на ряд слева направо. Сначала у нас идет 3 двоечника, затем 15 троечников.
Вместе их 18, и 17-й человек в ряду – троечник. Группа троечников является медианной: (M_e=3).
Также, медиану можно найти по графику кумуляты. (3;0,5455) – это первая слева точка, в которой ордината больше 0,5. Значит, медиана равна абсциссе этой точки, т.е. (M_e=3).

п.4. Степень асимметрии вариационного ряда

В рядах с асимметрией или выбросами выборочная средняя не отражает в полной мере особенности исследуемого признака. Типичный случай – значение среднего уровня доходов в странах с высоким индексом Джини, где 5% населения получает 95% доходов. Или анекдотичный случай со «средней температурой по больнице».
Поэтому, кроме средней, в статистическом исследовании всегда следует определять моду и медиану.

Мода, медиана и выборочная средняя совпадут, если вариационный ряд является симметричным: $$ X_{cp}=M_o=M_e $$ Если вершина распределения сдвинута влево и правая часть ветви длиннее левой (длинный правый хвост), такая асимметрия называется правосторонней. При правосторонней асимметрии: $$ M_olt M_elt X_{cp} $$ Если вершина распределения сдвинута вправо и левая часть ветви длиннее правой (длинный левый хвост), такая асимметрия называется левосторонней. При левосторонней асимметрии: $$ M_ogt M_egt X_{cp} $$ Для умеренно асимметричных рядов (по Пирсону) модуль разности между модой и средней не более 3 раз превышает модуль разности между медианой и средней: $$ frac{|M_o-X_{cp}|}{|M_e-X_{cp}|}geq 3 $$

Например:
Для распределения учеников по оценкам мы получили (X_{cp}=3,5; M_o=3; M_e=3).
Т.к. средняя оказалась больше моды и медианы, наше распределение имеет правостороннюю асимметрию (что видно на полигоне частот – правый хвост длиннее).
При этом (frac{|M_o-X_{cp}|}{|M_e-X_{cp}|}=frac{0,5}{0,5}=1lt 3), т.е. распределение умеренно асимметрично.

п.5. Выборочная дисперсия и СКО

Выборочная дисперсия дискретного вариационного ряда определяется как средняя взвешенная для квадрата отклонения от средней: begin{gather*} D=frac{(x_1-X_{cp})^2 f_1+(x_2-X_{cp})^2 f_2+…+(x_k-X_{cp})^2 f_k}{N}=\ =frac1Nsum_{i=1}^k(x_i-X_{cp})^2 f_i=frac1Nsum_{i=1}^k x_i^2 f_i-X_{cp}^2 end{gather*} Или, через относительные частоты: $$ D=sum_{i=1}^k(x_i-X_{cp})^2 w_i=sum_{i=1}^k x_i^2 w_i-X_{cp}^2 $$

Выборочное среднее квадратичное отклонение (СКО) определяется как корень квадратный из выборочной дисперсии: $$ sigma=sqrt{D} $$

Например:
1) Найдем выборочную дисперсию для распределения учеников по оценкам:

Оценка, (x_i) 2 3 4 5 Всего
К-во учеников, (f_i) 3 15 10 5 33
(x_i^2) 4 9 16 25
(x_i^2 f_i) 12 135 160 125 432

$$ D=frac{12+135+160+125}{33}-3,5^2=frac{432}{33}-3,5^2approx 0,73 $$ 2) Значение СКО: (sigma=sqrt{D}approx 0,86)

п.6. Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации

Исправленная выборочная дисперсия дискретного вариационного ряда определяется как: begin{gather*} S^2=frac{1}{N-1}sum_{i=1}^k(x_i-X_{cp})^2 f_i=frac{N}{N-1}D end{gather*}

В теоретической статистике доказывается, что выборочная дисперсия D является смещенной оценкой дисперсии при распространении на генеральную совокупность.
А именно, выборочная дисперсия D всегда меньше математического ожидания для дисперсии генеральной совокупности.
Исправленная выборочная дисперсия S2 является несмещенной оценкой.

Стандартное отклонение выборки определяется как корень квадратный из исправленной выборочной дисперсии: $$ s=sqrt{S^2} $$

Коэффициент вариации это отношение стандартного отклонения выборки к выборочной средней, выраженное в процентах: $$ V=frac{s}{X_{cp}}cdot 100text{%} $$

Если показатель вариации V<33%, то выборка считается однородной, т.е. большинство полученных в ней вариант находятся недалеко от средней, и выборочная средняя хорошо характеризует среднюю генеральной совокупности.
В противном случае, выборка неоднородна. Варианты в выборке находятся далеко от средней, есть выбросы. А значит, и в генеральной совокупности они возможны. Т.е., распространять результаты выборки на генеральную совокупность нельзя.

Внимание!

Если исследуется не выборка, а вся генеральная совокупность, дисперсию «исправлять» не нужно.

Например:
Для распределения учеников по оценкам получаем:
1) Исправленная выборочная дисперсия $$ S^2=frac{N}{N-1}D=frac{33}{32}cdot 0,73approx 0,76 $$ 2) Стандартное отклонение $$ x=sqrt{S^2}approx 0,87 $$ 3) Коэффициент вариации: $$ V=frac{0,87}{3,5}cdot 100text{%}approx 24,8text{%}lt 33text{%} $$ Выборка является однородной.
Это означает, что согласно коэффициенту вариации полученные результаты контрольной работы можно рассматривать в качестве «типичных» и распространить их на генеральную совокупность, т.е. на всех школьников, которые будут писать эту работу.

п.7. Алгоритм исследования дискретного вариационного ряда

На входе: таблица с вариантами (x_i) и частотами (f_i, i=overline{1,k})
Шаг 1. Составить расчетную таблицу. Найти (w_i,S_i,x_if_i,x_i^2,x_i^2f_i)
Шаг 2. Построить полигон относительных частот (эмпирический закон распределения) и график кумуляты с эмпирической функцией распределения. Записать эмпирическую функцию распределения.
Шаг 3. Найти выборочную среднюю, моду и медиану. Проанализировать симметрию распределения.
Шаг 4. Найти выборочную дисперсию и СКО.
Шаг 5. Найти исправленную выборочную дисперсию, стандартное отклонение и коэффициент вариации. Сделать вывод об однородности выборки.

п.8. Примеры

Пример 1. На площадке фриланса была проведена выборка из 100 фрилансеров и подсчитано количество постоянных заказчиков, с которыми они работают.
В результате было получено следующее распределение:

Число постоянных заказчиков 0 1 2 3 4 5
Число фрилансеров 22 35 27 11 3 1

Исследуйте полученный вариационный ряд.

1) Вариационный ряд является дискретным.
Исследуемый признак – «число постоянных заказчиков».
Варианты признака (x_iinleft{0;1;..;5right}). Количество вариант k=6.
Составим расчетную таблицу:

(x_i) 0 1 2 3 4 5
(f_i) 23 35 27 11 3 1 100
(w_i) 0,23 0,35 0,27 0,11 0,03 0,01
(S_i) 0,23 0,58 0,85 0,96 0,99 1
(x_if_i) 0 35 54 33 12 5 139
(x_i^2) 0 1 4 9 16 25
(x_i^2f_i) 0 35 108 99 48 25 315

2) Полигон относительных частот (эмпирический закон распределения):
Пример 1
Кумулята и эмпирическая функция распределения:
Пример 1
$$ F(x)= begin{cases} 0, xleq 0\ 0,23, 0lt xleq 1\ 0,58, 1lt xleq 2\ 0,85, 2lt xleq 3\ 0,96, 3lt xleq 4\ 0,99, 4lt xleq 5\ 1, xgt 5 end{cases} $$ 3) Выборочная средняя: $$ X_{cp}=frac1Nsum_{i=1}^k x_if_i= frac{1}{100}cdot 139=1,39 $$ Мода (абсцисса самой высокой точки на полигоне частот): (M_0=1).
Медиана (абсцисса первой слева точки на кумуляте, где значение превысило 0,5): точка (1;0,58), (M_e=1).

(X_{cp}gt M_e=M_0) – распределение асимметрично, с правосторонней асимметрией.
При этом (frac{|M_0-X_{cp}|}{|M_e-X_{cp}|}=frac{0,39}{0,39}=1lt 3), т.е. распределение умеренно асимметрично.

4) Выборочная дисперсия: $$ D=frac1Nsum_{i=1}^k x_i^2f_i-X_{cp}^2=frac{1}{100}cdot 315-1,39^2=1,2179approx 1,218 $$ CKO: $$ sigma=sqrt{D}approx 1,104 $$
5) Исправленная выборочная дисперсия: $$ S^2=frac{N}{N-1}D=frac{100}{99}cdot 1,218approx 1,230 $$ Стандартное отклонение выборки: $$ s=sqrt{S^2}approx 1,109 $$ Коэффициент вариации: $$ V=frac{s}{X_{cp}}cdot 100text{%}=frac{1,109}{1,39}cdot 100text{%}approx 79,8text{%}gt 33text{%} $$ Представленная выборка неоднородна. Полученное значение средней (X_{cp}=1,39) не может быть распространено на генеральную совокупность всех фрилансеров.

Тема:
Элементы математической статистики

Статистика
возникла существенно раньше теории вероятностей. Еще в глубокой древности
проводились переписи населения, велись земельные кадастры. Эти операции были
связаны с наблюдениями и вычислениями. На протяжении многих веков статистика
искала свой математический аппарат и нашла его в теории вероятностей. В
результате возник такой раздел математики, как математическая статистика.

Математическая
статистика
– это раздел математики, изучающий методы
сбора, систематизации и обработки результатов наблюдений с целью выявления
статистических закономерностей, т.е. отыскания законов распределения.

Математическая
статистика, как и теория вероятностей, имеет дело с массовыми явлениями.
Отличие математической статистики от теории вероятностей в том, что теория
вероятностей изучает закономерности случайных явлений на основе абстрактного
описания действительности, а математическая статистика оперирует
непосредственно результатами наблюдений над случайными явлениями.

Описательная
статистика

В
практике статистических наблюдений различают два вида наблюдений:

    сплошное
(изучают все объекты совокупности);

    выборочное
(изучается лишь часть объектов совокупности).

Определение:
Генеральной совокупностью называют
всю подлежащую изучению совокупность объектов.

Определение:
Выборочной совокупностью (выборкой)
называют часть объектов, которая отобрана для непосредственного наблюдения из
генеральной совокупности. Обычно выборка составляет 5% – 10% от генеральной
совокупности.

Числа объектов в
генеральной совокупности и выборке называют их объемами. Генеральная
совокупность может иметь как конечный, так и бесконечный объем. На практике всю
генеральную совокупность изучают сравнительно редко, поскольку если
совокупность содержит очень большое число объектов, то провести сплошное
обследование невозможно.

Пример
1:

1.     Вся
продукция предприятия есть генеральная совокупность, а отдельные экземпляры,
подвергнутые контролю, составляют выборку.

2.     Из
10 000 студентов для контрольной флюорографии отобрано 1000 человек. Объем
генеральной совокупности равен 10 000; объем выборки равен 1000.

Сущность
выборочного метода
состоит в том, чтобы по некоторой
части генеральной совокупности выносить суждения об ее свойствах в целом.

Основной
недостаток выборочного метода – ошибки исследования, называемыми ошибками
репрезентативности (представительства).

Требования
к выборке
. Чтобы по выборке можно было судить о
генеральной совокупности, она должна быть репрезентативной, т.е. она
должна достаточно хорошо воспроизводить генеральную совокупность. Выборка будет
обладать таким свойством, если каждый объект генеральной совокупности будет
иметь один и тот же шанс быть выбранным, в этом случае выборка является
случайной.

Вариационный
и статистический ряды

Выборка
является труднообозримым множеством. Для дальнейшего изучения выборку
подвергают перегруппировке.

Определение:
Вариационным рядом называется
последовательность всех элементов выборки, расположенных в неубывающем порядке.
Одинаковые элементы повторяются.

Запись
вариационного ряда:
  Ему соответствует
следующая таблица:

i

1

2

3

n

Элементы
вариационного ряда
 называют его вариантами
или порядковыми статистиками.

Пример
2:
  Студенты получили следующие баллы по
тесту: 11, 8, 9, 10, 8, 6, 7, 7, 9, 11, 10, 6, 5, 11, 10. Записать
статистический и вариационный ряды.

Р
е ш е н и е :

11,
8, 9, 10, 8, 6, 7, 7, 9, 11, 10, 6, 5, 11, 10 – это статистический ряд.

Расположим
данные в порядке возрастания:

5,
6, 6, 7, 7, 8, 8, 9, 9, 10, 10, 10, 11, 11, 11 – это вариационный ряд.

Представим
данный ряд в виде таблицы (с учетом повторений) и в порядке возрастания
значений признака, получим ранжированный вариационный ряд.

5

6

7

8

9

10

11

1

2

2

2

2

3

3

Здесь
 значение признака
(варианта),
 его частота («вес»
значения признака, количество повторений). Сумма всех частот значений признака
равна объему выборки:
  = 1
+ 2 + 2 + 2 + 2 + 3 + 3 = 15.

Дискретный
статистический ряд

Вариационный
ряд называется дискретным, если любые его варианты отличаются на
конечную постоянную величину, и называется непрерывным (или интервальным),
если его варианты могут отличаться друг от друга на сколь угодно малую
величину.

Определение:
Дискретным статистическим рядом
называется последовательность различных вариант
 с указанием частот
повторения элементов. При этом вместо абсолютных частот
 можно задавать
распределение относительных частот
.

.

Дискретный
статистический ряд (выборочное распределение)

можно записать в виде таблицы:

Для наглядного
представления выборки часто используют различные графические изображения.
Простейшими графическими изображениями являются полигон и гистограмма
выборки.

Определение:
Ломаная линия на координатной плоскости с вершинами в точках
 называется полигоном частот, а ломаная с вершинами  полигоном относительных частот.

При
большом объеме выборки более наглядное представление дает гистограмма
выборки
. Для построения гистограммы частот выборки промежуток от
наименьшего значения выборки до наибольшего значения разбивается на несколько
частичных промежутков шириной
h.
Для каждого частичного промежутка подсчитывают сумму
 частот значений выборки,
попавшей в этот промежуток. Затем на каждом интервале, как на основании,
строится прямоугольник высотой, равной
.

Пример
3:
  Дана выборка, состоящая из чисел 1, 3,
1, 2, 3, 5, 1, 3, 1, 2. Составить вариационный и статистический ряды. Построить
полигон относительных частот.

Р
е ш е н и е :

Вариационный
ряд имеет следующий вид: 1, 1, 1, 1, 2, 2, 3, 3, 3, 5.

Объем
выборки
.

Статистический ряд
приведен в таблице:

1

2

3

5

4

2

3

1

0,4

0,2

0,3

0,1

Полигон
относительных частот имеет вид:

Числовые характеристики выборки

Полигон
относительных частот дает хорошее представление о распределении частот в
выборке. Для анализа статистических данных используются различные
статистические характеристики.

Определение:
Элемент, отвечающий наибольшей частоте по сравнению с соседними элементами
статистического ряда, называется модой
(
mod).
Или, проще говоря, мода – это наиболее часто встречающееся значение наблюдаемой
величины.

Определение:
Минимальный и максимальный элементы называются крайними, иначе – экстремальными элементами вариационного
ряда.

Определение:
Разность между максимальным и минимальным элементами называется размахом, или широтой выборки:

Определение:
Выборочным математическим ожиданием (выборочным
средним)
называют среднее арифметическое значение выборки:

Если
выборка задана статистическим (ранжированным) рядом, то выборочное среднее
можно найти по формуле:

Определение:
Выборочной дисперсией называют
среднее арифметическое квадратов отклонений значений выборки от выборочного
среднего:

Если
выборка задана статистическим (ранжированным) рядом, то выборочную дисперсию
можно найти по формуле:

Определение:
Медианой (
med)
называется значение наблюдаемой величины, приходящееся на середину
вариационного ряда. Если выборка содержит четное число членов, то в качестве медианы
берут среднее арифметическое двух средних членов.

Пример
4:
При измерении роста девушек некоторого
института была получена следующая выборка: 179, 160, 155, 183, 155, 153, 167,
186, 163, 155, 157, 175, 170, 166, 160, 173, 182, 167, 171, 169, 179, 165, 156,
179, 158, 171, 175, 173, 165, 171. Сделайте статистический анализ данной
выборки.

Р
е ш е н и е :

Вариационный ряд – 153,
155, 155, 155, 156, 157, 158, 160, 160, 163, 165, 165, 166, 167, 167, 169, 170,
171, 171, 171, 173, 173, 175, 175, 179, 179, 179, 182, 183, 186.

Объем выборки:  .

Размах выборки:  .

Медиана:  , т.к. ряд четный и для
нахождения медианы мы должны взять два числа в середине этого ряда, т.е. числа,
стоящие на 15 и 16 местах, и найти среднее арифметическое.

Мода: 

Ранжированный
вариационный ряд:

153

155

156

157

158

160

163

165

166

167

169

170

171

173

175

179

182

183

186

1

3

1

1

1

2

1

2

1

2

1

1

3

2

2

3

1

1

1

Выборочное
распределение:

153

155

156

157

158

160

163

165

166

167

169

170

171

173

175

179

182

183

186

0,03

0,1

0,03

0,03

0,03

0,07

0,03

0,07

0,03

0,07

0,03

0,03

0,1

0,07

0,07

0,1

0,03

0,03

0,03

Полигон
относительных частот:

Среднее значение
выборки:

Выборочная
дисперсия:

Задания:

1.     Дана
выборка: 1, 2, 2, 3, 4, 5, 5, 5. Определите моду и медиану. Найдите выборочное
среднее, выборочную дисперсию и постройте полигон.

2.     При
подсчете количества листьев у одного из лекарственных растений были получены
следующие данные: 8, 10, 7, 9, 11, 6, 9, 8, 10, 7, 7, 11, 13, 10, 8. Сделайте
статистический анализ этой выборки.

3.     В
опыте по измерению заряда электрона были получены следующие значения: 4,758;
4,765; 4,760; 4,758; 4,775; 4,778; 4,765; 4,758; 4,766; 4,765; 4,758; 4,760;
4,772; 4,772; 4,758; 4,775; 4,760; 4,766; 4,775; 4,771; 4,772; 4,766; 4,771;
4,758; 4,773.  Сделайте статистический анализ этой выборки.

4.     Задан
ранжированный вариационный ряд некоторого испытания. Сделайте статистический
анализ этого ряда.

0

1

5

7

8

10

13

4

6

4

9

11

7

9

5.    
Данные о количестве пациентов
кардиологического отделения больницы приведены в таблице. Сделайте
статистический анализ этих данных.

62

54

84

59

75

43

49

89

28

49

40

53

18

18

55

51

26

68

76

65

43

39

47

65

55

29

33

42

51

95

85

46

45

42

48

6

73

54

70

56

69

66

33

100

58

42

89

41

36

72

54

50

54

45

48

11

62

33

32

61

36

31

84

61

26

53

64

50

66

63

77

31

84

61

26

53

64

50

66

63

9

30

69

60

9

30

4

27

74

62

19

42

55

79

77

31

92

30

39

96

6.    
Придумайте свою задачу по теме «Статистические
характеристики» и решите ее. Объем выборки должен быть не менее 30 значений.

ЛАБОРАТОРНАЯ
РАБОТА

Тема:
Обработка статистических данных выборочным методом.

Цель:
Экспериментально составить выборку, определить параметры выборки, и представить
ее графически в виде полигона.

Ход
работы:

1.    
Подсчитайте пульс в течении 1 минуты. Из
значений, полученных каждым студентом группы, составьте выборку.

2.     Запишите
выборку в виде вариационного ряда.

3.   Определите
объем выборки
.

4.    Определите
размах выборки
.

5.   Определите
медиану
.

6.     Запишите
выборку в виде ранжированного (статистического) ряда.

7.   Определите
моду
.

8.     Запишите
выборку в виде выборочного распределения.

9.     Постройте
полигон частот выборки.

10. Вычислите
среднее значение выборки.

11. Вычислите
выборочную дисперсию.

12. Сделайте
вывод.

Что такое группировка статистических данных, и как она связана с рядами распределения, было рассмотрено в первой части этой лекции, там же можно узнать, о том что такое дискретный и вариационный ряд распределения.

Ряды распределения одна из разновидностей статистических рядов (кроме них в статистике используются ряды динамики), используются для анализа данных о явлениях общественной жизни. Построение вариационных рядов вполне посильная задача для каждого. Однако есть правила, которые необходимо  помнить.

Как построить дискретный вариационный ряд распределения

Пример 1. Имеются данные о количестве детей в 20 обследованных семьях. Построить дискретный вариационный ряд распределения семей по числу детей.

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

Решение:

  1. Начнем с макета таблицы, в которую затем мы внесем данные. Так как ряды распределения имеют два элемента, то таблица состоять будет из двух колонок. Первая колонка это всегда варианта – то, что мы изучаем – ее название берем из задания (конец предложения с заданием в условиях) — по числу детей – значит наша варианта это число детей.

Вторая колонка это частота – как часто встречается наша варианта в исследуемом явление – название колонки так же берем из задания — распределения семей – значит наша частота это число семей с соответствующим количеством детей.

В итоге макет нашей таблицы будет выглядеть так:

Варианта
Число детей в семье — (х)
Частота
Количество семей (f)
  1. Теперь из исходных данных выберем те значения, которые встречаются хотя бы один раз. В нашем случае это

0 2 4 1 и 3.

И расставим эти данные в первой колонке нашей таблицы в логическом порядке, в данном случае возрастающем от 0 до 4. Получаем

Число детей в семье — (х) Количество семей (f)
0
1
2
3
4

 И в заключение подсчитаем, сколько же раз встречается каждое значение варианты.

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

В результате получаем законченную табличку или требуемый ряд распределения семей по количеству детей.

Число детей в семье — (х) Количество семей (f)
0
1
2
3
4
4
8
5
2
1
Итого 20

 Задание. Имеются данные о тарифных разрядах 30 рабочих предприятия. Построить дискретный вариационный ряд распределения рабочих по тарифному разряду. 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

Как построить интервальный вариационный ряд распределения

Построим интервальный ряд распределения, и посмотрим чем же его построение отличается от дискретного ряда.

Пример 2. Имеются данные о величине полученной прибыли 16 предприятий, млн. руб. — 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. Построить интервальный вариационный ряд распределения предприятий по объему прибыли, выделив 3 группы с равными интервалами.

Общий принцип построения ряда, конечно же, сохраниться, те же две колонки, те же варианта и частота, но в здесь варианта будет располагаться в интервале и подсчет частот будет вестись иначе.

Решение:

  1. Начнем аналогично предыдущей задачи с построения макета таблицы, в которую затем мы внесем данные. Так как ряды распределения имеют два элемента, то таблица состоять будет из двух колонок. Первая колонка это всегда варианта – то, что мы изучаем – ее название берем из задания (конец предложения с заданием в условиях) — по объему прибыли – значит, наша варианта это объем полученной прибыли.

Вторая колонка это частота – как часто встречается наша варианта в исследуемом явление – название колонки так же берем из задания — распределения предприятий – значит наша частота это число предприятий с соответствующей прибылью, в данном случае попадающие в интервал.

В итоге макет нашей таблицы будет выглядеть так:

Варианта Объем полученной прибыли, млн. руб. — (х) Частота Число предприятий (f)
  1. Построим интервалы. Следует сказать, что есть несколько способов построения интервала: визуальный способ без дополнительных расчетов на основе логического анализа данных, расчет по формуле, если по условию требуется построить равные интервалы. Для упрощения расчетов величины интервала чаще всего эта формула имеет следующий вид:ряды распределения формула

где i – величина или длинна интервала,

Хmax и Xmin – максимальное и минимальное значение признака,

n – требуемое число групп по условию задачи.

Рассчитаем величину интервала для нашего примера. Для этого среди исходных данных найдем самое большое и самое маленькое

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 – максимальное значение 118 млн. руб., и минимальное 9 млн. руб. Проведем расчет по формуле.ряды распределения формула 2

В расчете получили число 36,(3) три в периоде, в таких ситуациях величину интервала нужно округлить до большего, чтобы после подсчетов не потерялось максимальное данное, именно поэтому в расчете величина интервала 36,4 млн. руб.

  1. Теперь построим интервалы – наши варианты в данной задаче. Первый интервал начинают строить от минимального значения к нему добавляется величина интервала и получается верхняя граница первого интервала. Затем верхняя граница первого интервала становится нижней границей второго интервала, к ней добавляется величина интервала и получается второй интервал. И так далее столько раз сколько требуется построить интервалов по условию.
Объем полученной прибыли, млн. руб. — (х) Число предприятий (f)
9,0 + 36,4 = 45,4
45,4 + 36,4 = 81,8
81,8 + 36,4 = 118,2

Обратим внимание если бы мы не округлили величину интервала до 36,4, а оставили бы ее 36,3, то последнее значение у нас бы получилось 117,9. Именно для того чтобы не было потери данных необходимо округлять величину интервала до большего значения.

  1. Проведем подсчет количества предприятий попавших в каждый конкретный интервал. При обработке данных необходимо помнить, что верхнее значение интервала в данном интервале не учитывается (не включается в этот интервал), а учитывается в следующем интервале (нижняя граница интервала включается в данный интервал, а верхняя не включается), за исключением последнего интервала.

При проведении обработки данных лучше всего отобранные данные обозначить условными значками или цветом, для упрощения обработки.

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

Первый интервал обозначим желтым цветом – и определим сколько данных попадает в интервал от 9 до 45,4, при этом данное 45,4 будет учитываться во втором интервале (при условии что оно есть в данных) – в итоге получаем 7 предприятий в первом интервале. И так дальше по всем интервалам.

Объем полученной прибыли, млн. руб. — (х) Число предприятий (f)
9,0 — 45,4
45,4 — 81,8
81,8 — 118,2
7
5
4
Итого 16
  1. (дополнительное действие) Проведем подсчет общего объема прибыли полученного предприятиями по каждому интервалу и в целом. Для этого сложим данные отмеченные разными цветами и получим суммарное значение прибыли.

По первому интервалу — 23 + 12 + 9 + 16 + 22 + 27 + 45 = 154 млн. руб.

По второму интервалу — 48 + 57 + 48 + 56 + 63 = 272 млн. руб.

По третьему интервалу — 118 + 87 + 98 + 88 = 391 млн. руб.

Объем полученной прибыли, млн. руб. — (х) Число предприятий (f) Общий объем прибыли, млн. руб.
9,0 — 45,4
45,4 — 81,8
81,8 — 118,2
7
5
4
154
272
391
Итого 16 817

Задание. Имеются данные о величине вклада в банке 30 вкладчиков, тыс. руб. 150, 120, 300, 650, 1500, 900, 450, 500, 380, 440,

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

Построить интервальный вариационный ряд распределения вкладчиков, по размеру вклада выделив 4 группы с равными интервалами. По каждой группе подсчитать общий размер вкладов.

Может еще поучимся? Загляни сюда!

Добавить комментарий