Как составить кумулятивный ряд

Кумулятивный ряд распределения

Наименование
группировочного признака, (единицы
измерения)

Частота

Частость,
%

Частость
для данного значения, доля ед. G(x)

Накопленные
частоты, доля ед. F(x)

82-88
млн.руб.

1

2

0,02

0,02

88-94
млн.руб.

3

6

0,06

0,08

94-100
млн.руб.

5

10

0,1

0,18

100-106
млн.руб.

14

28

0,28

0,46

106-112
млн.руб.

11

22

0,22

0,68

112-118
млн.руб.

6

12

0,12

0,8

118-124
млн.руб.

10

20

0,2

1

Итого

50

100

1

1

Обозначим:
F(x) – накопленная частота для данного
значения x;

Накопленную
частость
G(x)
выражаем в долях единицы

по следующему условию 0 
F(x)

N;
0 
G(x)

1

Накопленную
частоту находим по формуле:

.

Строим
гистограмму и кумуляту, рассмотрев
интервалы [xi
-x
i+1],
i=1,2,…,K:

2.
Проанализировать вариационный ряд
распределения, вычислив:

  • среднее
    арифметическое значение признака;

  • медиану
    и моду, квартили и децили (первую и
    девятую) распределения;

  • среднее
    квадратичное отклонение;

  • дисперсию;

  • коэффициент
    вариации.

3.
Сделать выводы.

Решение

Наименование
группировочного признака, (единицы
измерения)

Количество
единиц совокупности в отдельной группе

В
процентах к итогу

Сумма

Среднее
арифметическое значение признака

82-88
млн.руб.

1

2

82

82,00

88,1-94
млн.руб.

3

6

275

91,67

94,1-100
млн.руб.

5

10

483

96,60

100,1-106
млн.руб.

14

28

1460

104,29

106,1-112
млн.руб.

11

22

1201

109,18

112,1-118
млн.руб.

6

12

688

114,67

118,1-124
млн.руб.

10

20

1215

121,50

Итого

50

100

5404

102,84

Среднее
арифметическое значение признака

Используя
расчётные данные из таблицы 4 получаем:

Медиана

Определяем
численное значение медианы по ряду
накопленных частот.

Накопленная
частота для Me[x]
равна половине объёма совокупности (
F(Me[x])
= N/2
), то есть в данном случае она равна 25
единиц, 50 %, или 0,5 доли ед.

Вычислим,
при каком значении признака накопленная
частота равна половине объёма совокупности.

Квартили

Найдем
первый квартиль и девятую дециль
распределения.

7
/ 4 = 1,75часть группировочного признака

Qi=x0+Qi
(i*N/4
F(x0))/NQi.

Q1=82+6*(12,5-2)/6*1,75=82+6*1,75*(10,5/10,5)=92,5

x0
нижняя граница интервала, в котором
находится
i-ая
квартиль;

Qi
– величина
интервала, содержащего
i-ую
квартиль;

F(x0)
– сумма накопленных частот интервалов,
предшествующих интервалу, в котором
находится
i-ая
квартиль;

NQi
– частота интервала, в котором находится
i-ая квартиль.

Децили

7/10=0,7
части группировочного признака

82-86,2

86,2-90,4

90,4-94,6

94,6-98,8

98,8-103

103-107,2

107,2-111,4

111,4-115,6

115,6-119,8

119,8-124

D9=117,7

Мода

Наименование
группировочного признака, (единицы
измерения)

Частота

Частость

Абсолютная
плотность распределения

82-88
млн.руб.

1

2

0,17

88-94
млн.руб.

3

6

0,50

94-100
млн.руб.

5

10

0,83

100-106
млн.руб.

14

28

2,33

106-112
млн.руб.

11

22

1,83

112-118
млн.руб.

6

12

1,00

118-124
млн.руб.

10

20

1,67

Итого

50

100

8,33

100-106
млн руб – наибольшая плотность
распределения

Следовательно:

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Пример 1.1. Произвести группировку данных о количестве детей в семье. Построить полигон распределения, кумуляту и огиву.

Исходные данные для группировки: 1, 2, 0, 1, 2, 0, 1, 1, 3, 4, 1, 4, 1, 1, 0, 1, 5, 3, 2, 1.

Решение. Так как группировочный признак является целочисленным, т. е. дискретным, то построим дискретный ряд распределения.

Ниже приведена полученная сводная таблица. На рисунке 1 приведен полигон распределения, а на рисунке 2 – кумулята и огива.

Количество
детей в семье

Частота
Fi

Частость
Wi

Кумулятивный
ряд снизу

Кумулятивный ряд сверху

0

3

0,15 (3/20)

3

20 (17+3)

1

9

0,45 (9/20)

12 (3+9)

17 (8+9)

2

3

0,15 (3/20)

15 (12+3)

8 (5+3)

3

2

0,10 (2/20)

17 (15+2)

5 (3+2)

4

2

0,10 (2/20)

19 (17+2)

3 (1+2)

5

1

0,05 (1/20)

20 (19+1)

1

Итого

20

1,00

EНа практике в статистических таблицах приводятся только результаты вычислений. В случае необходимости промежуточные вычисления можно привести за пределами таблиц.

E Кумулятивный ряд сверху начинают строить с самого последнего интервала (с максимального значения признака).

Рис. 1.1. Полигон распределения

Рис. 1.2. Графики кумуляты и огивы

Пример 1.2. Произведите группировку с равными интервалами по среднегодовой стоимости основных фондов (ОФ). В каждой группе и в целом по всем предприятиям подсчитайте: 1) количество предприятий; 2)  среднегодовую стоимость основных фондов; 3) объем товарной продукции за год (ТП); 4) фондоотдачу.

Постройте гистограмму частостей, кумуляту и огиву.

№ п/п

ОФ, млн руб.

ТП, млн руб

№ п/п

ОФ, млн руб.

ТП, млн руб

1

164

369

11

225

399

2

147

134

12

189

354

3

171

194

13

227

630

4

267

377

14

216

453

5

211

223

15

343

661

6

123

91

16

296

1072

7

238

545

17

246

711

8

109

31

18

150

270

9

176

213

19

204

388

10

255

791

20

157

124

Решение. Найдем число интервалов по формуле Стерджесса (1.1) K=1+3,322×Lg 20=5,32. Положим число интервалов K=5.

Величина равного интервала (1.2)

Для удобства примем H=50, XMin=100, XMax=350. Ниже в рабочей таблице приведены промежуточные результаты группировки.

Группировка предприятий по среднегодовой стоимости основных фондов

Номер
группы

Границы
группы

Номер
единицы совокупности

ОФ,
млн руб.

ТП,
млн руб

1

До 150

8

6

2

109

123

147

31

91

134

Итого

3

379

256

2

150–200

18

20

1

3

9

12

150

157

164

171

176

189

270

124

369

194

213

354

Итого

6

1007

1524

3

200–250

19

5

14

11

13

7

17

204

211

216

225

227

238

246

388

223

453

399

630

545

711

Итого

7

1567

3349

4

250–300

10

4

16

255

267

296

791

377

1072

Итого

3

818

2240

5

300 и выше

15

343

661

Итого

1

343

661

Всего

20

4114

8030

EОбратите внимание, что единица совокупности №18 (значение признака 50) попала во вторую группу. Условимся, что в случае, если значение признака совпадает с границей группы, то такой элемент относят к следующей группе.

В сводной таблице приведены итоговые результаты группировки.

Сводная таблица

Номер группы

Границы
группы

Частота

Частость

ОФ, млн руб.

ТП, млн руб.

Фондо-отдача

Кумулятивный ряд

Снизу

Сверху

1

До 150

3

0,15

379

256

0,675

3

20

2

150-–200

6

0,30

1007

1524

1,513

9

17

3

200—250

7

0,45

1567

3349

2,137

16

11

4

250–300

3

0,15

818

2240

2,738

19

4

5

300 и выше

1

0,05

343

661

1,927

20

1

Всего

20

1,00

4114

8030

1,952

Рис. 1.3. Гистограмма частостей

Рис. 1.4. Графики кумуляты и огивы

Анализируя сводную таблицу можно сделать вывод, что с ростом размеров предприятия фондоотдача возрастает. Однако это не выполняется для самого крупного предприятия (№15), что свидетельствует о недостаточно эффективном использовании основных фондов.

Пример 1.3. На основе данных примера 2 провести сложную группировку, подсчитав число предприятий попавших в каждую группу.

Решение. Величина равного интервала при группировке по объему товарной продукции

Для удобства примем HY=200, YMin=0, YMax=1000. В таблице приведены результаты группировки.

Группировка предприятий
по стоимости основных фондов и товарной продукции

ТП

ОФ

До 200

200–400

400–600

600–800

800 и выше

Всего

До 50

3

3

50-–100

2

4

6

100—150

3

2

2

7

150–200

1

1

1

3

200 и выше

1

1

Всего

5

8

2

4

1

20

Анализируя эту таблицу можно сделать вывод, что предприятия, «попавшие» в нижний левый угол таблицы, неэффективно используют свои основные фонды, тогда как предприятия, «попавшие» d верхний правый угол, используют их более эффективно.

Пример 1.4. На основе данных примера 2 составить ряд распределения с неравными равнонаполненными интервалами. Группировочный признак – среднегодовая стоимость основных фондов. Построитm гистограмму частостей.

Решение. Разобьем совокупность на группы равного объема с числом единиц F=N/K=20/5=4. Результаты выделения групп приведены в таблице.

Группировка предприятий по среднегодовой стоимости основных фондов (равнонаполненные интервалы)

Номер
группы

Границы
группы

Номер
единицы совокупности

ОФ,
млн руб.

ТП,
млн руб

1

До 150

8

6

2

18

109

123

147

150

31

91

134

270

Итого

4

429

526

2

150–180

20

1

3

9

157

164

171

176

124

369

194

213

Итого

4

668

900

3

180–220

12

19

5

14

189

204

211

216

354

388

223

453

Итого

4

820

1418

4

220–250

11

13

7

17

225

227

238

246

399

630

545

711

Итого

4

936

2285

5

250 и выше

10

4

16

15

255

267

296

343

791

377

1072

661

Итого

4

1161

2901

Всего

20

4114

8030

Рассчитаем относительные плотности (1/3) с учетом того, что величины интервалов H1=50, H2=30, H3=40, H4=30, H5=100.

; ; ;

; .

Рис. 1.5. Гистограмма частостей

< Предыдущая   Следующая >

  • Предмет статистики

Ряды распределения

После определения группировочного признака, количества групп и интервалов группировки данные сводки и группировки представляются в виде рядов распределения и оформляются в виде статистических таблиц.

Ряд распределния является одним из видов группировок.

Ряд распределения — представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку.

В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:

  • Атрибутивными — называют ряды распределения, построенные по качественными признакам.
  • Ряды распределения, построенные в порядке возрастания или убывания значений количественного признака называются вариационными.

Вариационный ряд распределения состоит из двух столбцов:

В первом столбце приводятся количественные значения варьирующегося признака, которые называются вариантами и обозначаются . Дискретная варианта — выражается целым числом. Интервальная варианта находится в пределах от и до. В зависимости от типа варианты можно построить дискретный или интервальный вариационный ряд.
Во втором столбце содержится количество конкретных вариант, выраженное через частоты или частости:

Частоты — это абсолютные числа, показывающие столько раз в совокупности встречается данное значение признака, которые обозначают . Сумма всех частот равна должна быть равна численности единиц всей совокупности.

Частости ( ) — это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.

Графическое изображение рядов распределения

Наглядно ряды распределения представляются при помощи графических изображений.

Ряды распределения изображаются в виде:

  • Полигона
  • Гистограммы
  • Кумуляты
  • Огивы

Полигон

При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) — частоты или частости.

Полигон на рис. 6.1 построен по данным микропереписи населения России в 1994 г.

Домохозяйства, состоящие из: одного человека двух человек трех человек 5 или более всего
Число домохозяйств в % 19,2 26,2 22,6 20,5 100,0

6.1. Распределение домохозяйств по размеру

Условие: Приводятся данные о распределении 25 работников одного из предприятий по тарифным разрядам:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Задача: Построить дискретный вариационный ряд и изобразить его графически в виде полигона распределения.
Решение:
В данном примере вариантами является тарифный разряд работника. Для определения частот необходимо рассчитать число работников, имеющих соответствующий тарифный разряд.

Тарифный
разряд Xi
Число
работников fi
1 3
2 5
3 4
4 6
5 3
6 4
Итого: 25

Полигон используется для дискретных вариационных рядов.

Для построения полигона распределения (рис 1) по оси абсцисс (X) откладываем количественные значения варьирующего признака — варианты, а по оси ординат — частоты или частости.

Если значения признака выражены в виде интервалов, то такой ряд называется интервальным.
Интервальные ряды распределения изображают графически в виде гистограммы, кумуляты или огивы.

Статистическая таблица

Условие: Приведены данные о размерах вкладов 20 физических лиц в одном банке (тыс.руб) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Задача: Построить интервальный вариационный ряд с равными интервалами.
Решение:

  1. Исходная совокупность состоит из 20 единиц (N = 20).
  2. По формуле Стерджесса определим необходимое количество используемых групп: n=1+3,322*lg20=5
  3. Вычислим величину равного интервала: i=(152 — 2) /5 = 30 тыс.руб
  4. Расчленим исходную совокупность на 5 групп с величиной интервала в 30 тыс.руб.
  5. Результаты группировки представим в таблице:
Размер вкладов
тыс.руб Xi
Число вкладов
fi
Число вкладов в % к итогу
Wi
2 — 32 11 55
32 — 62 4 20
62 — 92 2 10
92 — 122 1 5
122 — 152 2 10
Итого: 20 100

При такой записи непрерывного признака, когда одна и та же величина встречается дважды (как верхняя граница одного интервала и нижняя граница другого интервала), то эта величина относится к той группе, где эта величина выступает в роли верхней границы.

Гистограмма

Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).

На рис. 6.2. изображена гистограмма распределения населения России в 1997 г. по возрастным группам.

Все население В том числе в возрасте
до 10 10-20 20-30 30-40 40-50 50-60 60-70 70 и старше Всего
Численность населения 12,1 15,7 13,6 16,1 15,3 10,1 9,8 7,3 100,0

Рис. 6.2. Распределение населения России по возрастным группам

Условие: Приводится распределение 30 работников фирмы по размеру месячной заработной платы

Размер заработной платы
руб. в месяц
Численность работников
чел.
до 5000 4
5000 — 7000 12
7000 — 10000 8
10000 — 15000 6
Итого: 30

Задача: Изобразить интервальный вариационный ряд графически в виде гистограммы и кумуляты.
Решение:

  1. Неизвестная граница открытого (первого) интервала определяется по величине второго интервала: 7000 — 5000 = 2000 руб. С той же величиной находим нижнюю границу первого интервала: 5000 — 2000 = 3000 руб.
  2. Для построения гистограммы в прямоугольной системе координат по оси абсцисс откладываем отрезки, величины которых соответствуют интервалам варицонного ряда.
    Эти отрезки служат нижним основанием, а соответствующая частота (частость) — высотой образуемых прямоугольников.
  3. Построим гистограмму:

Для построения кумуляты необходимо рассчитать накопленные частоты (частости). Они определяются путем последовательного суммирования частот (частостей) предшествующих интервалов и обозначаются S. Накопленные частоты показывают, сколько единиц совокупности имеют значение признака не больше, чем рассматриваемое.

Кумулята

Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.

Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат — накопленные частоты или частости (рис. 6.3).

Рис. 6.3. Кумулята распределения домохозяйств по размеру

4. Рассчитаем накопленные частоты:
Наколенная частота первого интервала рассчитывается следующим образом: 0 + 4 = 4, для второго: 4 + 12 = 16; для третьего: 4 + 12 + 8 = 24 и т.д.

Размер заработной платы
руб в месяц Xi
Численность работников
чел. fi
Накопленные частоты
S
до 5000 4 4
5000 — 7000 12 16
7000 — 10000 8 24
10000 — 15000 6 30
Итого: 30

При построении кумуляты накопленная частота (частость) соответствующего интервала присваивается его верхней границе:

Огива

Огива строится аналогично кумуляте с той лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения признака — на оси ординат.

Разновидностью кумуляты является кривая концентрации или график Лоренца. Для построения кривой концентрации на обе оси прямоугольной системы координат наносится масштабная шкала в процентах от 0 до 100. При этом на оси абсцисс указывают накопленные частости, а на оси ординат — накопленные значения доли (в процентах) по объему признака.

Равномерному распределению признака соответствует на графике диагональ квадрата (рис. 6.4). При неравномерном распределении график представляет собой вогнутую кривую в зависимости от уровня концентрации признака.

Понятие вариационного ряда. Первым шагом систематизации материалов статистического наблюдения является подсчет числа единиц, обладающих тем или иным признаком. Расположив единицы в порядке возрастания или убывания их количественного признака и подсчитав число единиц с конкретным значением признака, получаем вариационный ряд. Вариационный ряд характеризует распределение единиц определенной статистической совокупности по какому–либо количественному признаку.

Вариационный ряд представляет собой две колонки, в левой колонке приводятся значения варьирующего признака, именуемые вариантами и обозначаемые (x), а в правой – абсолютные числа, показывающие, сколько раз встречается каждый вариант. Показатели этой колонки называются частотами и обозначаются (f).

Схематично вариационный ряд можно представить в виде табл.5.1:

Вид вариационного ряда

В правой колонке могут использоваться и относительные показатели, характеризующие долю частоты отдельных вариантов в общей сумме частот. Эти относительные показатели именуют частостями и условно обозначают через , т.е. . Сумма всех частостей равна единице. Частости могут быть выражены и в процентах, и тогда их сумма будет равна 100%.

Варьирующие признаки могут носить разный характер. Варианты одних признаков выражаются в целых числах, например, число комнат в квартире, число изданных книг и т.д. Эти признаки именуют прерывными, или дискретными. Варианты других признаков могут принимать любые значения в определенных пределах, как, например, выполнение плановых заданий, заработная плата и др. Эти признаки называют непрерывными.

Дискретный вариационный ряд. Если варианты вариационного ряда выражены в виде дискретных величин, то такой вариационный ряд называют дискретным, его внешний вид представлен в табл. 5.2:

Распределение студентов по оценкам, полученным на экзамене

Количество студентов (f)

В % к итогу ()

Характер распределения в дискретных рядах изображается графически в виде полигона распределения, рис.5.1.

Рис. 5.1. Распределение студентов по оценкам, полученным на экзамене.

Интервальный вариационный ряд. Для непрерывных признаков вариационные ряды строятся интервальные, т.е. значения признака в них выражаются в виде интервалов «от и до». При этом минимальное значение признака в таком интервале именуют нижней границей интервала, а максимальное – верхней границей интервала.

Интервальные вариационные ряды строят как для прерывных признаков (дискретных), так и для варьирующих в большом диапазоне. Интервальные ряды могут быть с равными и неравными интервалами. В экономической практике в большинстве своем применяются неравные интервалы, прогрессивно возрастающие или убывающие. Такая необходимость возникает особенно в тех случаях, когда колеблемость признака осуществляется неравномерно и в больших пределах.

Рассмотрим вид интервального ряда с равными интервалами, табл. 5.3:

Распределение рабочих по выработке

Число рабочих (f)

Кумулятивная частота (f´)

Интервальный ряд распределения графически изображается в виде гистограммы, рис.5.2.

Рис.5.2. Распределение рабочих по выработке

Накопленная (кумулятивная) частота. В практике возникает потребность в преобразовании рядов распределения в кумулятивные ряды, строящиеся по накопленным частотам. С их помощью можно определить структурные средние, которые облегчают анализ данных ряда распределения.

Накопленные частоты определяются путем последовательного прибавления к частотам (или частостям) первой группы этих показателей последующих групп ряда распределения. Для иллюстрации рядов распределения используются кумуляты и огивы. Для их построения на оси абсцисс отмечаются значения дискретного признака (или концы интервалов), а на оси ординат – нарастающие итоги частот (кумулята), рис.5.3.

Рис. 5.3. Кумулята распределения рабочих по выработке

Если шкалы частот и вариантов поменять местами, т.е. на оси абсцисс отражать накопленные частоты, а на оси ординат – значения вариантов, то кривая, характеризующая изменение частот от группы к группе, будет носит название огивы распределения, рис.5.4.

Рис. 5.4. Огива распределения рабочих по выработке

Вариационные ряды с равными интервалами обеспечивают одно из важнейших требований, предъявляемых к статистическим рядам распределения, обеспечение сравнимости их во времени и пространстве.

Плотность распределения. Однако частоты отдельных неравных интервалов в названных рядах непосредственно не сопоставимы. В подобных случаях для обеспечения необходимой сравнимости исчисляют плотность распределения, т.е. определяют, сколько единиц в каждой группе приходится на единицу величины интервала.

При построении графика распределения вариационного ряда с неравными интервалами высоту прямоугольников определяют пропорционально не частотам, а показателям плотности распределения значений изучаемого признака в соответствующих интервалах.

Составление вариационного ряда и его графическое изображение является первым шагом обработки исходных данных и первой ступенью анализа изучаемой совокупности. Следующим шагом в анализе вариационных рядов является определение основных обобщающих показателей, именуемых характеристиками ряда. Эти характеристики должны дать представление о среднем значении признака у единиц совокупности.

Средняя величина. Средняя величина представляет собой обобщенную характеристику изучаемого признака в исследуемой совокупности, отражающая ее типический уровень в расчете на единицу совокупности в конкретных условиях места и времени.

Средняя величина всегда именованная, имеет ту же размерность, что и признак у отдельных единиц совокупности.

Перед вычислением средних величин необходимо произвести группировку единиц исследуемой совокупности, выделив качественно однородные группы.

Средняя, рассчитанная по совокупности в целом называется общей средней, а для каждой группы – групповыми средними.

Существуют две разновидности средних величин: степенные (средняя арифметическая, средняя гармоническая, средняя геометрическая, средняя квадратическая); структурные (мода, медиана, квартили, децили).

Выбор средней для расчета зависит от цели.

Виды степенных средних и методы их расчета. В практике статистической обработки собранного материала возникают различные задачи, для решения которых требуются различные средние.

Математическая статистика выводит различные средние из формул степенной средней:

где средняя величина; x – отдельные варианты (значения признаков); z – показатель степени (при z = 1 – средняя арифметическая, z = 0 средняя геометрическая, z = — 1 – средняя гармоническая, z = 2 – средняя квадратическая).

Однако вопрос о том, какой вид средней необходимо применить в каждом отдельном случае, разрешается путем конкретного анализа изучаемой совокупности.

Наиболее часто встречающимся в статистике видом средних величин является средняя арифметическая. Она исчисляется в тех случаях, когда объем осредняемого признака образуется как сумма его значений у отдельных единиц изучаемой статистической совокупности.

В зависимости от характера исходных данных средняя арифметическая определяется различными способами:

Если данные несгруппированные, то расчет ведется по формуле простой средней величины

,

Если значение признака встречается несколько раз, то среднюю величину находят по формуле для сгруппированных данных и средняя величина будет называться среднеарифметическая взвешенная.

Расчет средней арифметической в дискретном ряду происходит по формуле 3.4.

Расчет средней арифметической в интервальном ряду. В интервальном вариационном ряду, где за величину признака в каждой группе условно принимается середина интервала, средняя арифметическая может отличаться от средней, рассчитанной по несгруппированным данным. Причем, чем больше величина интервала в группах, тем больше возможные отклонения средней, вычисленной по сгруппированным данным, от средней, рассчитанной по несгруппированным данным.

При расчете средней по интервальному вариационному ряду для выполнения необходимых вычислений от интервалов переходят к их серединам. А затем рассчитывают среднюю величину по формуле средней арифметической взвешенной.

Свойства средней арифметической. Средняя арифметическая обладает некоторыми свойствами, которые позволяют упрощать вычисления, рассмотрим их.

1. Средняя арифметическая из постоянных чисел равна этому постоянному числу.

Если х = а. Тогда .

2. Если веса всех вариантов пропорционально изменить, т.е. увеличить или уменьшить в одно и то же число раз, то средняя арифметическая нового ряда от этого не изменится.

Если все веса f уменьшить в k раз, то .

3. Сумма положительных и отрицательных отклонений отдельных вариантов от средней, умноженных на веса, равна нулю, т.е.

Если , то . Отсюда .

Если все варианты уменьшить или увеличить на какое- либо число, то средняя арифметическая нового ряда уменьшится или увеличится на столько же.

Уменьшим все варианты x на a, т.е. x´ = xa.

Тогда

Среднюю арифметическую первоначального ряда можно получить, прибавляя к уменьшенной средней ранее вычтенное из вариантов числа a, т.е. .

5. Если все варианты уменьшить или увеличить в k раз, то средняя арифметическая нового ряда уменьшится или увеличится во столько же, т.е. в k раз.

Пусть , тогда .

Отсюда , т.е. для получения средней первоначального ряда среднюю арифметическую нового ряда (с уменьшенными вариантами) надо увеличить в k раз.

Средняя гармоническая. Средняя гармоническая это величина обратная средней арифметической. Ее используют, когда статистическая информация не содержит частот по отдельным вариантам совокупности, а представлена как их произведение (М= xf). Средняя гармоническая будет рассчитываться по формуле 3.5

Практическое применение средней гармонической – для расчета некоторых индексов, в частности, индекса цен.

Средняя геометрическая. При применении средней геометрической индивидуальные значения признака представляют собой, как правило, относительные величины динамики, построенные в виде цепных величин, как отношение к предыдущему уровню каждого уровня в ряду динамики. Средняя характеризует, таким образом, средний коэффициент роста.

Средняя геометрическая величина используется также для определения равноудаленной величины от максимального и минимального значений признака. Например, страховая компания заключает договоры на оказание услуг автострахования. В зависимости конкретного страхового случая страховая выплата может колебаться от 10000 до 100000 долл. в год. Средняя сумма выплат по страховке составит долл.

Средняя геометрическая это величина, используемая как средняя из отношений или в рядах распределения, представленных в виде геометрической прогрессии, когда z = 0. Этой средней удобно пользоваться, когда уделяется внимание не абсолютным разностям, а отношениям двух чисел.

Формулы для расчета следующие

– для невзвешенных значений,

– взвешенная,

где – варианты осредняемого признака; – произведение вариантов; f – частота вариантов.

Средняя геометрическая используется в расчетах среднегодовых темпов роста.

Средняя квадратическая. Формула средней квадратической используется для измерения степени колеблемости индивидуальных значений признака вокруг средней арифметической в рядах распределения. Так, при расчете показателей вариации среднюю вычисляют из квадратов отклонений индивидуальных значений признака от средней арифметической величины.

Средняя квадратическая величина рассчитывается по формуле

В экономических исследованиях средняя квадратическая в измененном виде широко используется при расчете показателей вариации признака, таких как дисперсия, среднее квадратическое отклонение.

Правило мажорантности. Между степенными средними существует следующая зависимость – чем больше показатель степени, тем больше значение средней, табл.5.4:

Соотношение между средними величинами

Соотношение между средними

, если совокупность небольшая и мода отчетливо выражена.

Все рассмотренные формы степенной средней обладают важным свойством (в отличие от структурных средних) – в формулу определения средней входят все значения ряда т.е. на размеры средней оказывают влияние значение каждого варианта.

С одной стороны, это весьма положительное свойство т.к. в этом случае учитывается действие всех причин, воздействующих на все единицы изучаемой совокупности. С другой стороны, даже одно наблюдение, попавшее в исходные данные случайно, может существенным образом исказить представление об уровне развития изучаемого признака в рассматриваемой совокупности (особенно в коротких рядах).

Квартили и децили. По аналогии с нахождением медианы в вариационных рядах можно отыскать значение признака у любой по порядку единицы ранжированного ряда. Так, в частности, можно найти значение признака у единиц, делящих ряд на 4 равные части, на 10 и т.п.

Квартили. Варианты, которые делят ранжированный ряд на четыре равные части, называют квартилями.

При этом различают: нижний (или первый) квартиль (Q1) – значение признака у единицы ранжированного ряда, делящей совокупность в соотношении ¼ к ¾ и верхний (или третий) квартиль(Q3) – значение признака у единицы ранжированного ряда, делящий совокупность в соотношении ¾ к ¼.

Второй квартиль, есть медиана Q2 = Ме. Нижний и верхний квартили в интервальном ряду рассчитываются по формуле аналогично медиане.

Для нижнего квартиля .

Для верхнего квартиля .

где – нижняя граница интервала, содержащего соответственно нижний и верхний квартиль;

– накопленная частота интервала, предшествующего интервалу, содержащему нижний или верхний квартиль;

– частоты квартильных интервалов (нижнего и верхнего)

Интервалы, в которых содержатся Q1 и Q3 определяют по накопленным частотам (или частостям).

Децили. Кроме квартилей рассчитывают децили – варианты, делящие ранжированный ряд на 10 равных частей.

Обозначаются они через D, первый дециль D1 делит ряд в соотношении 1/10 и 9/10, второй D2 – 2/10 и 8/10 и т.д. Вычисляются они по той же схеме, что и медиана и квартили.

первый дециль.

второй дециль и т.д.

И медиана, и квартили, и децили принадлежат к так называемым порядковым статистикам, под которым понимают вариант, занимающий определенное порядковое место в ранжированном ряду.

Накопительный частотный анализ представляет собой анализ частоты встречаемости значений явления меньше , чем заданное значение. Явление может быть по времени или пространственно-зависимый. Накопительная частота также называется частотой непревышения .

Накопительное частотный анализ выполняется , чтобы получить представление о том , как часто определенное явление (особенность) ниже определенного значения. Это может помочь в описании или объяснения ситуации , в которой явление участвует, или в мероприятиях по планированию, например , в защите от наводнений.

Этот статистический метод может быть использован, чтобы увидеть, насколько вероятно событие, как наводнение будет происходить в будущем, основываясь на том, как часто это случалось в прошлом. Он может быть приспособлен, чтобы принести в таких вещах, как изменение климата, вызывая более влажные зимы и сухой лето.

содержание

принципы

Определения

Частотный анализ представляет собой анализ того, как часто, или, как часто, наблюдаемое явление происходит в определенном диапазоне.

Анализ частоты применяется к записи длиной N наблюдаемых данных X 1 , X 2 , X 3 . , , Х Н на переменном явление X . Запись может быть в зависимости от времени (например , количество осадков измеряется в одном месте) или пространственно-зависимой (например , урожайность в области) или иным образом .

Накопленная частота М ХГ опорного значения Xr является частота , с которой наблюдаемые значения Х меньше или равна Xr .

Относительная накопленная частота Fc , может быть рассчитана следующим образом :

где N есть число данных

Кратко это выражение можно записать в виде:

При ХГ = Xmin , где Xmin это уникальное минимальное значение наблюдаемого, было установлено , что Fc = 1 / N , потому что M = 1. С другой стороны, когда ХГ = Xmax , где Xmax является уникальным максимальное значение наблюдается, то обнаружено , что Fc = 1, потому что M = N . Следовательно, когда Fc = 1 это означает , что ХГ является значением , при котором все данные меньше или равна хт .

В процентном отношении уравнение гласит:

оценка вероятности

Из совокупной частоты

Кумулятивная вероятность Рс из X , чтобы быть меньше или равна Xr может быть оценена несколькими способами на основе накопленной частоты M .

Один из способов заключается в использовании относительной накапливаемых частот Fc в качестве оценки.

Другой способ принять во внимание возможность того, что в редких случаях Х может принимать значения больше , чем наблюдаемое максимальное Xmax . Это может быть сделано делением накапливаемых частот M на N + 1 вместо N . Оценка становится:

Там существуют и другие предложения для знаменателя (см Plotting позиции ).

По рейтинговой методики

Оценка вероятности облегчается путем ранжирования данных.

Когда наблюдаемые данные X расположены в порядке возрастания ( Х 1Х 2Х 3 ≤. ≤ Х Н , минимальный первый и максимальный последний) и Ri представляет ранг номер наблюдения Xi , где adfix я указывает порядковый номер в диапазоне восходящих данных, то кумулятивная вероятность может быть оценена путем:

Когда, с другой стороны, наблюдаемые данные из X расположены в порядке убывания , максимальный первые и минимальная последний, и Rj есть ранг номер наблюдения Xj , кумулятивная вероятность может быть оценена путем:

Подгонка вероятностных распределений

Непрерывные распределения

Для того, чтобы представить кумулятивное распределение частот в виде непрерывного математического уравнения вместо дискретного набора данных, можно попытаться соответствовать кумулятивное распределение частот к известному кумулятивного распределения вероятностей ,.
В случае успеха, известное уравнение достаточно , чтобы сообщить распределение частот и таблицу данных , не требуется. Кроме того, уравнение помогает интерполяции и extrapolation.However, следует соблюдать осторожность с экстраполяцией кумулятивного распределения частот, так как это может быть источником ошибок. Одна из возможных ошибок является то , что распределение частот не соответствует выбранному распределению вероятностей любым больше за пределами диапазона наблюдаемых данных.

Любое уравнение , которое дает значение 1 , когда интегрированному от нижнего предела до верхнего предела , согласившись также с диапазоном данных, может быть использовано в качестве распределения вероятностей для монтажа. Образец вероятностных распределений , которые могут быть использованы , можно найти в вероятностных распределений .

Распределения вероятностей могут быть установлены несколькими способами, например:

  • параметрический метод, определение параметров , как среднее значение и стандартное отклонение от X данных с использованием методы моментов , то метод максимального правдоподобия и метод вероятностных взвешенными моментов .
  • метод регрессии, линеаризуя распределение вероятностей через преобразование и определение параметров от линейной регрессии преобразованной Pc (полученный из ранжирования) на трансформированных X данных.

Применение обоих типов методов, использующих, например,

часто показывает, что ряд распределений соответствуют скважинам данных и не дает существенно различные результаты, в то время как различия между ними могут быть малы по сравнению с шириной доверительного интервала. Это свидетельствует о том, что это может быть трудно определить, какое распределение дает лучшие результаты.

Разрывные распределения

Иногда можно, чтобы соответствовать один тип распределения вероятностей в нижней части диапазона данных и другого типа в верхней части, разделенные точкой останова, в результате чего улучшается общее нужным.

На рисунке приведен пример полезного введения такого прерывистого распределения для данных осадков на севере Перу, где климат подвержен поведению Тихого океана ток Эль — Ниньо . Когда Niño распространяется на юге Эквадора и попадает в океан вдоль побережья Перу, климат в Северном Перу становится тропическим и влажным. Когда Niño не доходит до Перу, климат полузасушливый. По этой причине, более высокие осадки следуют различному распределению частот , чем нижние осадки.

прогнозирование

неопределенность

Когда совокупное распределение частот происходят от записи данных, она может быть поставлена под сомнение , если она может быть использована для предсказания. Например, учитывая распределение стока рек в годы 1950-2000, может это распределение можно использовать для прогнозирования , как часто определенный разряд река будет превышена в годы 2000-50? Ответ : да, при условии , что условия окружающей среды не изменяются. Если условия окружающей среды делают изменения, такие как изменения в инфраструктуре водораздела реки или в структуре осадков из — за климатические изменения, прогнозирование на основе исторических фактов подлежат систематическую ошибку . Даже если нет никаких систематических ошибок, может быть случайной ошибкой , потому что случайно наблюдаемые выбросы в течение 1950 — 2000 может быть выше или ниже , чем обычно, а с другой стороны, выбросы с 2000 по 2050 год может случайно быть ниже или выше , чем обычно. Проблемы вокруг этого были исследованы в книге The Black Swan .

Доверительные интервалы

Теория вероятностей может помочь оценить диапазон , в котором может быть случайная ошибка. В случае кумулятивной частоты есть только две возможности: определенное опорное значение Х превышается или не превышается. Сумма частоты превышений и накопленной частота равна 1 или 100%. Таким образом, биномиальное распределение может быть использовано при оценке спектра случайной ошибки.

В соответствии с обычной теорией, биномиальное распределение можно аппроксимировать и при больших N стандартного отклонения Сд может быть рассчитана следующим образом :

где Рс является кумулятивной вероятностью и N есть число данных. Видно , что стандартное отклонение Сд уменьшает при увеличении числа наблюдений N .

Определение доверительного интервала от ПК позволяет использовать Т-критерий Стьюдента ( т ). Величина т зависит от количества данных и уровня достоверности оценки доверительного интервала. Затем нижний ( L ) и верхней ( U ) доверительные интервалы Pc в симметричном распределении находятся из:

Это известно как интервал Wald . Тем не менее, биномиальное распределение является симметричным только вокруг среднего значения , когда Рс = 0,5, но становится асимметричным и все больше и больше перекоса , когда ПК приближается к 0 или 1. Таким образом, с помощью аппроксимации, Рс и 1- Рса может быть использован в качестве весовых коэффициентов в уступка t.Sd к L и U :

где можно видеть , что эти выражения для Pc = 0,5 такие же , как и предыдущие.

N = 25, Рс = 0,8, Сд = 0,08, доверительный уровень составляет 90%, т = 1,71, L = 0,70, U = 0,85
Таким образом, с 90% уверенностью, было установлено , что 0,70 0,85

пример

  • Интервал Wald известно для выполнения плохо.
  • Wilson оценка интервал обеспечивает доверительный интервал для биномиальных распределений на основе количественных показателей тестов и имеет более широкий охват выборки см и биномиальное интервал доли доверия для более детального обзора.
  • Вместо «Уилсон» набрать интервал «интервал Wald», также может быть использовано при условии, что вес выше факторы.

период повторения

Кумулятивная вероятность Pc также можно назвать вероятность непревышения . Вероятность превышения Пе (также называется функцией выживания ) определяется из:

и указывает на ожидаемое число наблюдений, которые предстоит сделать еще раз , чтобы найти значение переменной в исследовании более чем значение , используемое для T .
Верхний ( Т U ) и нижний ( Т л ) доверительные интервалы возврата периодов могут быть найдены , соответственно , как:

Для экстремальных значений переменной в исследовании, U близка к 1 и небольших изменений в U происходят большие изменения в T U . Таким образом, по оценкам , период возврата экстремальных значений подвергаются большой случайной ошибке. Кроме того, доверительные интервалы, задержать для долгосрочного прогнозирования. Для прогнозов на более короткий период, доверительные интервалы UL и Т UT L могут быть на самом деле шире. Вместе с ограниченной достоверностью (менее 100%) , используемой в Т-тесте , это объясняет , почему, например, 100-летний ливень может произойти дважды в течение 10 лет.

Строгое понятие возвратного периода на самом деле имеет смысл только тогда , когда это касается зависящего от времени явления, как точка осадков. Период возврата затем соответствует ожидаемому времени ожидания до тех пор , превышения не происходит снова. Период возврата имеет тот же размер, что и время , для которых каждое наблюдение является репрезентативным. Например, когда наблюдения касаются ежедневных дождей, период возврата выражается в дни, и ежегодно ливни это в годах.

Необходимость доверия ремней

На рисунке показано изменение, которое может произойти при получении образцов в мерном, который следует определенному распределению вероятностей. Данные были предоставлены Бенсоном.

Уверенность пояс вокруг экспериментальной кумулятивной кривой частоты или период возврата дает представление о регионе, в котором истинное распределение может быть найдено.

Кроме того, он уточняет, что экспериментально лучше фитинг распределение вероятностей может отличаться от истинного распределения.

Гистограмма

Наблюдаемые данные могут быть организованы в классах или группах с серийным номером к . Каждая группа имеет нижний предел ( L K ) и верхний предел ( U K ). Когда класс ( к ) содержит м K данные и общее количество данных N , то относительная класса или группы частот определяется из:

Добавить комментарий