Как найти количество интервалов статистика

Вместе с выбором
группировочного
признака

возникает задача определения количества
групп
, на
которые следует подразделить изучаемое
явление.

Число групп зависит
от:

  1. задач исследования

  2. вида признака,
    положенного в основу группировки

  3. численности
    совокупности

  4. степени вариации
    признака

Единицы анализируемой
совокупности могут быть разбиты по
одному и тому же признаку на разное
число групп. Например, при группировке
населения по возрасту с целью определения
трудовых ресурсов страны все население
делится на три группы: население моложе
трудоспособного возраста, трудоспособное
население и население старше трудоспособного
возраста. Если же анализируется
продолжительность жизни, то строится
более детальная группировка и выделяются
группы по 5 лет.

При группировке
по атрибутивному (описательному) признаку

вопрос о количестве групп решается
сравнительно просто – по количеству
градаций, видов состояния этого признака.

Например, группировка
населения по полу образует две группы,
организаций связи по федеральным округам
– 7 групп, по формам собственности – на
пять групп: государственная, муниципальная,
частная, смешанная, собственность
иностранных юридических лиц.

Если атрибутивный
(описательный) признак имеет множество
наименований (например, профессия – в
отрасли связи насчитывается несколько
десятков их наименований), то для
статистической характеристики состава
работников образуют укрупненные
группы
(руководители,
специалисты, рабочие, прочие).
Такое объединение основано на изучении
сущности производственных процессов.

Характеристика
типов предприятий по их величине часто
ограничивается тремя группами: мелкие,
средние и крупные, а при изучении
рентабельности – группы нерентабельных,
рентабельных и высокорентабельных.

Группировки по
количественному признаку

очень разнообразны. При выборе числа
групп в совокупности с количественным
признаком необходимо, чтобы в каждую
группу попало достаточное количество
единиц совокупности. Только в этом
случае обобщающие характеристики каждой
группы (средние, относительные показатели)
будут устойчивыми, неслучайными,
характерными.

Сравнительно просто
образуются группы по количественным
признакам, имеющим дискретную (прерывную)
вариацию и принимающим целые значения.

Если количественный
признак изменяется в широких пределах
и имеет множество различных значений,
то каждая группа образуется в виде
интервалов.

Группировка может
быть выполнена с равными
и неравными
интервалами
.

Равные
интервалы

употребляются
в тех случаях, когда признак изменяется
более или менее равномерно в ограниченных
пределах, например масса письма, посылки,
заработная плата определенной категории
работников.

Величина интервала
зависит от размаха варьирования признака
и численности изучаемой совокупности
и в случае равных интервалов может
определятся по формуле
Стерджесса.

Формула
Стерджесса

служит для
определения величины интервала:

где
i
– интервал, т.е. разница между максимальным
xmax
и минимальным xmin
значениями признака в каждой группе; N
– численность единиц совокупности; k
– число групп, которое оптимально при
величине 1+3,322 lg
N.

Недостаток формулы
Стерджесса состоит в том, что её применение
дает хорошие результаты для большой
совокупности единиц и когда распределение
единиц по признаку, положенному в
основание группировки, близко к
нормальному.

Число групп можно
определить также по следующей номограмме:

Численность
единиц совокупности

15..24

25..44

45..89

90..179

180..359

360..719

720..1439

Число
групп

5

6

7

8

9

10

11

Другим способом
выполнения группировки является
использование среднего
квадратического отклонения

.
Если величина интервала равна 0,5,
то совокупность разбивается на 12 групп,
если 2/3
или,
то совокупность делится на 9 или 6 групп.

При
,интервалы групп выглядят следующим
образом:

от
до

от
до

от
до

от
до

от
до

от
до

Однако при определении
групп данными методами возможно получение
пустых или малочисленных групп. Если
размах вариации признака совокупности
велик и его значения варьируют
неравномерно, то используют группировку
с неравными интервалами.

Неравные
интервалы

употребляются в тех случаях, когда
признак изменяется неравномерно. Из
неравных интервалов чаще всего
употребляются прогрессивно возрастающие
или убывающие интервалы.

Величина интервалов,
изменяющихся в арифметической прогрессии,
определяется по формуле:

,

в геометрической
прогрессии:

где a
– постоянная величина (положительная
для прогрессивно-возрастающих интервалов,
отрицательная – для прогрессивно-убывающих);

q
– константа – положительное число (для
прогрессивно-возрастающих интервалов
q
> 1, для прогрессивно-убывающих – q
< 1).

Например, необходимо
построить группировку предприятий
отрасли по показателю выручки от
реализации продукции, который варьирует
от 500 млн. руб. до 4000 млн. руб. в год, то
строить группировку с равными интервалами
нецелесообразно, т.к. как правило,
совокупность предприятий любой отрасли
промышленности и торговли включает
большое число малых предприятий, имеющих
небольшую выручку. С ростом выручки от
реализации продукции значительно
снижается число предприятий. Т.о.
распределение числа предприятий по
величине выручки является неравномерным.
Поэтому следует построить группировку
с неравными интервалами.

Таблица

Группировка
предприятий с неравными интервалами

№ группы

Интервал

I

II

III

IV

V

500-800

800-1300

1300-2000

2000-2900

2900-4000

Величина каждого
последующего интервала у этой группировки
больше предыдущего на 200 млн. руб., т.е.
увеличивается в арифметической
прогрессии.

При образовании
интервалов важное значение имеет точное
обозначение границ.

Например, группы
предприятий по численности работников:
200 – 600, 600 – 1000. Такая запись предполагает,
что единица, у которой значение признака
совпадает с верхней границей интервала,
относится к следующей группе.

Обычно границы
интервалов обозначаются указанием
значений признака «от» и «до» (в нашем
примере – 200 – 599, 600 -999). Характер такого
обозначения говорит, что в группу
включаются все значения признака в
указанных границах.

После определения
группировочного признака и границ групп
строится ряд распределения.

Статистический
ряд распределения
– это упорядоченное распределение
единиц совокупности на группы по
определенному варьирующему признаку.
В зависимости от признака, положенного
в основу образования ряда распределения,
различают атрибутивные и вариационные
ряды распределения.

Атрибутивными
называют ряды распределения, построенные
по описательным (качественным) признакам.
Вариационными
называют ряды распределения, построенные
по количественному признаку.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Дана выборка значений признака Х. Требуется:
построить статическую совокупность;
построить гистограмму частот;
найти точечные оценки генеральной средней, генеральной
дисперсии и генерального среднего квадратического отклонения;
найти доверительный интервал для неизвестного математического
ожидания;
проверить нулевую гипотезу о нормальном законе распределения
количественного признака Х генеральной совокупности.

38, 51, 57, 64, 76, 92, 89, 19, 35, 60, 22, 41, 44, 48, 60, 44, 67, 80, 86,

57, 25, 83, 73, 70, 70, 70, 64, 60, 60, 64, 57, 54, 57, 54, 32, 86, 86, 80,

76, 60, 76, 70, 70, 67, 67, 64, 64, 60, 28, 67, 41, 41, 51, 48, 44, 80, 80,

76, 73, 51, 67, 60, 32, 41, 41, 54, 57, 60, 67, 73, 73, 76, 57, 67, 73, 73,

64, 60, 54, 57.

Объем выборки n=80

Наименьшее значение признака Х
MIN:
19

Наибольшее значение
MAX:
92

Определим оптимальное число интервалов разбиения по формуле
Число интервалов:
7,00 – ПОЧЕМУ ???
Шаг интервала h=(92-19)/7=
10,43

Правило Стёрджеса — эмпирическое правило определения оптимального количества интервалов, на которые разбивается наблюдаемый диапазон изменения случайной величины при построении гистограммы плотности её распределения. Названо по имени американского статистика Герберта Стёрджеса (Herbert Arthur Sturges, 1882—1958).

Количество интервалов n определяется как:

{displaystyle n=1+lfloor log _{2}Nrfloor },

где N — общее число наблюдений величины, {displaystyle log _{2}} — логарифм по основанию 2, lfloor xrfloor  — обозначает целую часть числа x.

Часто встречается записанным через десятичный логарифм:

{displaystyle n=1+lfloor 3.322lg Nrfloor },

Основанием для него служит оценка количества событий с разными вероятностями в схеме испытаний Бернулли длительностью в n-1 этап. Если имеются серии испытаний с 2 альтернативными исходами с постоянной вероятностью каждого, то число видов серий, где в составе имеется k исходов, принимающих первое из альтернативных значений, и, соответственно, {displaystyle n-k-1} — принимающих второе, равно: n (от k=0 до {displaystyle k=n-1}), а общее число серий {displaystyle N=2^{n-1}}.

Если аппроксимировать значения наблюдаемой случайной величины результатами сложения случайно выпадающих в серии испытаний значений двух чисел a и b (например {displaystyle 0} и 1), соответствующих исходам схемы Бернулли, то каждой серии испытаний содержащей k исходов с результатом a и {displaystyle n-k-1} исходов с результатом b будет соответствовать сумма {displaystyle ka+(n-k+1)b}. Количество различных значений (в рассматриваемом случае: {displaystyle a(n-1),a(n-2)+b,..a+b(n-2),b(n-1)}, для пары {displaystyle 0,1} — {displaystyle 0,1,2,..n-1}) будет равно количеству последовательностей с различным числом исходов n. Т.о., если ставить задачу, чтобы на каждый интервал между a и b приходилось в среднем не меньше одного значения суммы, а значит и не меньше одной серии испытаний, моделирующей получение случайной величины, то число этапов в серии, равное числу интервалов, на которые разбивается диапазон изменения наблюдаемых значений, должно быть не больше, чем {displaystyle n=1+lfloor log _{2}Nrfloor }

Распределение получившихся величин (распределение Бернулли) аппроксимируется при больших N нормальным распределением согласно теореме Муавра — Лапласа, что дает основания при предположении о близости распределения исследуемой величины к нормальному и, соответственно, к аппроксимируемому им биномиальному применять оценку количества интервалов разбиения соответственно количеству ожидаемых дискретных значений для распределения Бернулли, что приводит к правилу Стёрджеса.

Литература[править | править код]

  • Sturges H. (1926). The choice of a class-interval. J. Amer. Statist. Assoc., 21, 65-66.

Ссылки[править | править код]

  • Sturges’ rule Архивная копия от 26 января 2013 на Wayback Machine
  • Авторы
  • Файлы
  • Литература


Дацковская М.А.

1

Колеснёв А.С.

1

Агишева Д.К.

1

Зотова С.А.

1


1 Волжский политехнический институт (филиал) Волгоградского государственного технического университета

1. Агишева Д.К., Зотова С.А., Матвеева Т.А., Светличная В.Б. Математическая статистика: учебное пособие // Успехи современного естествознания. – 2010. – № 2. – С. 122-123.

2. Булашкова М.Г., Ломакина А.Н., Чаузова Е.А., Зотова С.А. Роль математики в современном мире // Успехи современного естествознания. – 2012. – № 4. – С. 45-45.

Если признак является непрерывным или число различных значений в выборке велико, вычислять частоту каждого из них не имеет большого смысла. В этом случае составляют интервальный вариационный ряд. Весь промежуток измерения значений выборки, от минимального до максимального, разбивают на частичные интервалы (чаще одинаковой длины), т. е. производится группировка.

Число интервалов следует брать не очень большим, чтобы после группировки ряд не был громоздким, и не очень малым, чтобы не потерять особенности распределения признака.

Число интервалов может быть определено по формуле Стерджеса

missing image file,

где missing image filelg n, значение k подбирается целым. Однако такой способ определения числа интервалов является лишь рекомендуемым, но не является обязательным.

Длина интервала находится по формуле

missing image file.

За начало первого частичного интервала, как правило (но не обязательно), выбирается точка

missing image file.

В первую строку таблицы интервального ряда вписывают частичные промежутки missing image file, missing image file, …, missing image file, имеющие одинаковую длину h, при этом весь интервал missing image file должен полностью покрывать все имеющиеся значения признака, т. е. missing image file, missing image file.

Во второй строке вписывают количество наблюдений missing image file (missing image file), попавших в каждый интервал.

Рассмотрим пример составления интервального вариационного ряда.

В таблице 1 приведена выборка результатов измерения роста 105 студентов (юношей). Измерения проводились с точностью до 1 см.

Требуется составить интервальный вариационный ряд.

Очевидно, что рост юношей есть случайная непрерывная величина. Найдём количество интервалов при

missing image file: missing image file.

Т. к. missing image file, missing image file, то длина частичного интервала находится по формуле:

missing image file.

Примем missing image file.

Исходные данные разбиваем на 8 интервалов: missing image file, missing image file, missing image file, (167;173], missing image file, missing image file, missing image file, missing image file.

Подсчитав число студентов missing image file, попавших в каждый из полученных промежутков, получим интервальный вариационный ряд (табл. 2). Здесь

missing image file.

Таблица 1

155

170

185

180

188

152

173

178

178

168

185

172

170

183

175

173

170

183

175

180

175

193

178

183

180

197

178

181

187

168

174

179

184

183

178

180

178

163

166

178

175

182

190

167

170

178

183

170

178

181

173

168

185

175

170

155

169

186

179

189

156

174

179

179

169

186

174

171

184

175

193

178

184

180

196

175

181

188

168

179

178

183

184

178

181

177

163

166

178

175

183

190

167

170

178

183

170

178

182

173

168

186

176

171

188

Таблица 2

Рост, missing image file

149-155

155-161

161-167

167-173

173-179

179-185

185-191

191-197

Частота, missing image file

3

1

6

22

33

26

10

4


Библиографическая ссылка

Дацковская М.А., Колеснёв А.С., Агишева Д.К., Зотова С.А. ИНТЕРВАЛЬНЫЙ ВАРИАЦИОННЫЙ РЯД // Международный студенческий научный вестник. – 2015. – № 3-4.
;

URL: https://eduherald.ru/ru/article/view?id=14154 (дата обращения: 21.05.2023).


Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»

(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

Варианты для выполнения работы

I. Установление закономерностей, которым подчинены массовые случайные явления, основано на изучении методами теории вероятностей статистических данных — результатов наблюдений.

Почти все встречающиеся в жизни величины (урожайность сельскохозяйственных растений, продуктивности скота, производительность труда и заработная плата рабочих, объем производства продукции и т.д.) принимают неодинаковые значения у различных членов совокупности. Поэтому возникает необходимость в изучении их изменяемости. Это изучение начинается с проведения соответствующих наблюдений, обследований.

В результате наблюдений получают сведения о численной величине изучаемого признака у каждого члена данной совокупности.

Пример. Имеются данные о размере прибыли 100 коммерческих банков. Прибыль, млн. рублей.

30,2 51,9 43,1 58,9 34,1 55,2 47,9 43,7 53,2 34,9
47,8 65,7 37,8 68,6 48,4 67,5 27,3 66,1 52,0 55,6
54,1 26,9 53,6 42,5 59,3 44,8 52,8 42,3 55,9 48,1
44,5 69,8 47,3 35,6 70,1 39,5 70,3 33,7 51,8 56,1
28,4  48,7 41,9 58,1 20,4 56,3 46,5 41,8 59,5 38,1
41,4 70,4 31,4 52,5 45,2 52,3 40,2 60,4 27,6 57,4
29,3 53,8 46,3 40,1 50,3 48,9 35,8 61,7 49,2 45,8
45,3 71,5 35,1 57,8 28,1 57,6 49,6 45,5 36,2 63,2
61,9 25,1 65,1 49,7 62,1 46,1 39,9 62,4 50,1 33,1
33,3 49,8 39,8 45,9 37,3 78,0 64,9 28,8 62,5 58,7

                 
Из данной таблицы видно, что интересующий нас признак (прибыль банков) меняется от одного члена совокупности к другому, варьирует. Варьирование есть изменяемость признака у отдельных членов совокупности.

Вариационным рядом называется последовательность вариант, записанных в возрастающем порядке и соответствующих им частот.

Число, показывающее, сколько раз повторяется в данной совокупности каждое значение признака, называется частотой.

Составим ранжированный вариационный ряд (выпишем варианты в порядке возрастания):

20,4 25,1 26,9 27,3 27,6 28,1 28,4 28,8 29,3 30,2
31,4 33,1 33,3 33,7 34,1 34,9 35,1 35,6 35,8 36,2
37,3 37,8 38,1 39,5 39,8 39,9 40,1 40,2 41,4 41,8
41,9 42,3 42,5 43,1 43,7 44,5 44,8 45,2 45,3 45,5
45,8 45,9 46,1 46,3 46,5 47,3 47,8 47,9 48,1 48,4
48,7 48,9 49,2 49,6 49,7 49,8 50,1 50,3 51,8 51,9
52,0 52,3 52,5 52,8 53,2 53,6 53,8 54,1 55,2 55,6
55,9 56,1 56,3 57,4 57,6 57,8 58,1 58,7 58,9 59,3
59,5 60,4 61,7 61,9 62,1 62,4 62,5 63,2 64,9 65,1
65,7 66,1 67,5 68,6 69,8 70,1 70,3 70,4 71,5 78,0

 В нашем случае каждое значение признака (варианта вариационного ряда) повторилось только один раз, т.е. значение частоты для всех вариант равно единице. Перейдем к интервальному вариационному ряду, так как интересующий нас признак принимает дробные, практически не повторяющиеся значения.

Для этого необходимо определить число интервалов (классов) и длину интервала (классного промежутка), после чего произвести разноску, т.е. подсчитать для каждого интервала число вариант, попавших в него.

Количество классов устанавливают в зависимости от степени точности, с которой ведется обработка, и количества объектов в выборке. Считается удобным при объеме выборки (n) в пределах от 30 до 60 вариант распределять их на 6-7 классов, при n от 60 до 100 вариант — на 7-8 классов, при n от 100 и более вариант — на 9-17 классов.

Нужное количество групп также может быть ориентировочно вычислено по формуле Стерджесса:

    [k=1+3,322lgn]

где k — число групп (классов, интервалов) ряда распределения; n — объем выборки.

Можно также использовать выражение:

    [k=sqrt{n}.]

При nle 70 они дают примерно одинаковые результаты.

В рассматриваемом примере о размере прибыли коммерческих банков, n=100. Применяя формулу Стерджесса, получим:

    [k=1+3,322lg100=1+3,322cdot 2=7,644approx 8.]

Однако sqrt{100}=10. Таким образом, число интервалов может быть равно 8, 9, 10 и т.д.

Нахождение нужного количества групп и их размеров часто бывает взаимообусловлено. Для того, чтобы как-то определиться с числом интервалов, найдем размах вариации — разность между наибольшей и наименьшей вариантой:

    [R=x_{max}-x_{min}]

где R — размах вариации,

x_{max} — наибольшее значение варьирующего признака,

x_{min} — наименьшее значение варьирующего признака.

Найдем размах вариации для рассматриваемой задачи:

    [R=78,0-20,4=57,6]

Для того, чтобы найти длину интервала (величину классового промежутка) необходимо разделить размах вариации на число классов и полученную величину округлить таким образом, чтобы было удобно производить сначала разноску, а затем и различные вычисления. Рекомендую округлять до единиц, до которых округлены варианты в исходной таблице, в нашем случае до десятых.

    [happrox frac{R}{k}]

Согласно формуле получаем

    [happrox frac{57,6}{8}=7,2]

Теперь необходимо определиться с началом первого интервала. Для этого можно использовать формулу:

    [x_1approx x_{min}-frac{h}{2}]

    [x_1approx 20,4-frac{7,2}{2}=16,8.]

Замечание. За начало первого интервала можно принять некоторое значение, несколько меньшее x_{min} или само значение x_{min}. Далее в табличном виде я покажу оба варианта.

Прибавив к началу первого интервала (нижней границе) шаг, получим верхнюю границу первого интервала и одновременно нижнюю границу второго интервала. Выполняя последовательно указанные действия, будем находить границы последующих интервалов до тех пор, пока не будет получено или перекрыто x_{max}.

Таким образом, верхняя граница одного интервала одновременно является нижней границей другого интервала. Чтобы не возникало сомнений, в какой интервал отнести варианту, попавшую на границу, условимся относить ее к верхнему интервалу.

Составим теперь рабочую таблицу для построения интервального вариационного ряда и произведем подсчет частот вариант, попавших в тот или иной интервал.

Как и обещал покажу две таблицы построения ряда:

1. Отсчет ведем от x_{min}, т.е. нижняя граница первого интервала совпадает с x_{min}.

Группы банков по размеру прибыли

(границы интервалов)

Количество банков, принадлежащих данной группе

(частоты, n_i)

Накопленные частоты,

S_i

20,4 — 27,6 4 4
27,6 — 34,8 11 15
34,8 — 42 16 31
42 — 49,2 21 52
49,2 — 56,4 21 73
56,4 — 63,6 15 88
63,6 — 70,8 10 98
70,8 — 78 2 100

2. Начало первого интервала определяем с помощью формулы: x_1approx x_{min}-frac{h}{2}.

Группы банков по размеру прибыли

(границы интервалов)

Количество банков, принадлежащих данной группе

(частоты, n_i)

Накопленные частоты,

S_i

16,8 — 24 1 1
24 — 31,2 9 10
31,2 — 38,4 13 23
38,4 — 45,6 17 40
45,6 — 52,8 23 63
52,8 — 60 18 81
60 — 67,2 11 92
67,2 — 74,4 7 99
74,4 — 81,6 1 100

Как мы видим в 1-м случае у нас получилось восемь интервалов, что полностью совпадает с результатом, который нам дала формула Стерджесса. Во втором случае у нас получилось девять интервалов, так как при поиске начала первого интервала пользовались специальной формулой.

Для дальнейшего исследования я буду пользоваться результатами второй таблицы, так как там ярко выражен модальный интервал (одна мода) и медиана практически точно попадает на середину вариационного ряда.

Мы получили интервальный вариационный ряд — упорядоченную совокупность интервалов варьирования значений случайной величины с соответствующими частотами попаданий в каждый из них значений величины.

II. Графическая интерпретация вариационных рядов.

№ п/п

Границы интервалов,

[x_{i}; x_{i+1})

Середины интервалов,

x_{i}^{*}=frac{x_i+x_{i+1}}{2}

Частоты интервалов,

n_i

Относительные частоты

W_i=frac{n_i}{n}

Плотность относит. частоты

frac{W_i}{h}

Плотность частоты

frac{n_i}{h}

1 16,8 — 24 20,4 1 0,01 0,001 0,139
2 24 — 31,2 27,6 9 0,09 0,013 1,250
3 31,2 — 38,4 34,8 13 0,13 0,018 1,806
4 38,4 — 45,6 42 17 0,17 0,024 2,361
5 45,6 — 52,8 49,2 23 0,23 0,032 3,194
6 52,8 — 60 56,4 18 0,18 0,025 2,500
7 60 — 67,2 63,6 11 0,11 0,015 1,528
8 67,2 — 74,4 70,8 7 0,07 0,010 0,972
9 74,4 — 81,6 78 1 0,01 0,001 0,139
      sum=100 sum=1    

Строим графики:

График гистограммы частот ischanow.com

График гистограммы плотности частот ischanow.com

График гистограммы относительных частот ischanow.com

График гистограммы плотности относительных частот ischanow.com

График полигона частот ischanow.com

Далее найдем моду вариационного ряда:

    [M_o(X)=x_{M_o}+hfrac{(n_2-n_1)}{(n_2-n_1)+(n_2-n_3)}]

где

x_{M_o} — начало модального интервала;

h — длина частичного интервала (шаг);

n_1 — частота предмодального интервала;

n_2 — частота модального интервала;

n_3 — частота послемодального интервала.

Определим модальный интервал — интервал, имеющий наибольшую частоту. Из таблицы видно, что модальным является интервал (45,6 — 52,8).

    [M_o(X)=45,6+7,2frac{(23-17)}{(23-17)+(23-18)}=]

    [=45,6+7,2cdot frac{6}{6+5}=45,6+3,93=49,5]

Медиана

Для интервального ряда медиана находится по формуле:

    [M_e(X)=x_{M_e}+hfrac{0,5n-S_{M_{e}-1}}{n_{M_e}}]

где

x_{M_e} — начало медианного интервала;

h — длина частичного интервала (шаг);

n — объем совокупности;

S_{M_{e}-1} — накопленная частота интервала, предшествующая медианному;

n_{M_e} — частота медианного интервала.

Определим медианный интервал — интервал, в котором впервые накопленная частота превышает половину объема выборки.Так как объем выборки n=100, то n/2=50. По таблице найдем интервал, где впервые накопленные частоты превысят это значение. Таким является интервал (45,6 — 52,8).

Получаем,

    [M_e(X)=45,6+7,2frac{0,5cdot 100-40}{23}approx 48,7.]

III. Расчет сводных характеристик выборки.

Для определения x_B, D_{B}, sigma_{B} составим расчетную таблицу. Для начала определимся с ложным нулем С. В качестве ложного нуля можно принять любую варианту. Максимальная простота вычислений достигается, если выбрать в качестве ложного нуля варианту, которая расположена примерно в середине вариационного ряда (часто такая варианта имеет наибольшую частоту).

Варианте, которая принята в качестве ложного нуля, соответствует условная варианта, равная нулю. В нашем случае С=49,2.

Равноотстоящими называют варианты, которые образуют арифметическую прогрессию с разностью h.

Условными называют варианты, определяемые равенством:

    [U_i=frac{(x_i-C)}{h}]

Произведем расчет условных вариант согласно формуле:

    [U_1=frac{20,4-49,2}{7,2}=-4]

    [U_2=frac{27,6-49,2}{7,2}=-3]

    [U_3=frac{34,8-49,2}{7,2}=-2]

    [U_4=frac{42-49,2}{7,2}=-1]

    [U_5=frac{49,2-49,2}{7,2}=0]

    [U_6=frac{56,4-49,2}{7,2}=1]

    [U_7=frac{63,6-49,2}{7,2}=2]

    [U_8=frac{70,8-49,2}{7,2}=3]

    [U_9=frac{78-49,2}{7,2}=4]

N п/п

Середины интервалов,

x_{i}^{*}

Частоты интервалов,

n_i

Условные варианты,

U_i

Произведения частот и условных вариант,

n_icdot U_i

Произведения частот и условных вариант,

n_icdot U_i^2

Произведения частот и условных вариант,

n_icdot U_i^3

Произведения частот и условных вариант,

n_icdot U_i^4

Произведения частот и условных вариант,  

n_icdot (U_i+1)^2

Произведения частот и условных вариант,

n_icdot(U_i+1)^4

1 20,4 1 -4 -4 16 -64 256 9 81
2 27,6 9 -3 -27 81 -243 729 36 144
3 34,8 13 -2 -26 52 -104 208 13 13
4 42 17 -1 -17 17 -17 17 0 0
5 49,2 23 0 0 0 0 0 23 23
6 56,4 18 1 18 18 18 18 72 288
7 63,6 11 2 22 44 88 176 99 891
8 70,8 7 3 21 63 189 567 112 1792
9 78 1 4 4 16 64 256 25 625
    sum=100   sum n_iU_i=-9 sum n_iU_i^2=307 sum n_icdot U_i^3=-69 sum n_icdot U_i^4=2227 sum n_icdot (U_i+1)^2=389 sum n_icdot(U_i+1)^4=3857

    
Контроль:

    [sum n_i U_i^2 + 2sum n_iU_i+n=sum n_i{(U_i+1)}^2]

    [sum n_i U_i^2 + 2sum n_iU_i+n=307+2cdot (-9)+100=389]

    [sum n_i{(U_i+1)}^2=389]

Контроль:

    [sum n_i U_i^4 + 4sum n_iU_i^3+6sum n_iU_i^2+4sum n_iU_i+n=sum n_i{(U_i+1)}^4]

    [sum n_i U_i^4 + 4sum n_iU_i^3+6sum n_iU_i^2+4sum n_iU_i+n=]

    [=2227+4cdot (-69)+6 cdot 307+4cdot (-9)+100=3857]

    [sum n_i{(U_i+1)}^4=3857]

Равенство выполнено, следовательно вычисления произведены верно.

Вычислим условные моменты 1-го, 2-го, 3-го и 4-го порядков:

    [M_1^{*}=frac{sum n_iU_i}{n}=frac{-9}{100}=-0,09;]

    [M_2^{*}=frac{sum n_iU_i^2}{n}=frac{307}{100}=3,07;]

    [M_3^{*}=frac{sum n_iU_i^3}{n}=frac{-69}{100}=-0,69;]

    [M_4^{*}=frac{sum n_iU_i^4}{n}=frac{2227}{100}=22,27.]

Найдем выборочные среднюю, дисперсию и среднее квадратическое отклонение :

    [x_{B}=M_1^{*}cdot h+C=-0,09cdot 7,2+49,2=48,552;]

    [D_{B}=(M_2^{*}-{(M_1^{*})}^2)h^2=(3,07-{(-0,09)}^2){7,2}^2approx 158,73.]

    [sigma_{B}=sqrt{D_B}=sqrt{158,73}=12,6.]

Также для оценки отклонения эмпирического распределения от нормального используют такие характеристики, как асимметрия и эксцесс.

Асимметрией теоретического распределения называют отношение центрального момента третьего порядка к кубу среднего квадратического отклонения:

    [a_s=frac{m_3}{sigma_B^3}]

Асимметрия положительна, если «длинная часть» кривой распределения расположена справа от математического ожидания; асимметрия отрицательна, если «длинная часть» кривой расположена слева от математического ожидания. Практически определяют знак асимметрии по расположению кривой распределения относительно моды (точки максимума дифференциальной функции): если «длинная часть» кривой расположена правее моды, то асимметрия положительна, если слева — отрицательна.

Эксцесс эмпирического распределения определяется равенством:

    [e_k=frac{m_4}{sigma_B^4}-3]

где m_4 — центральный эмпирический момент четвертого порядка.

Для нормального распределения эксцесс равен нулю. Поэтому если эксцесс некоторого распределения отличен от нуля, то кривая этого распределения отличается от нормальной кривой: если эксцесс положительный, то кривая имеет более высокую и «острую» вершину, чем нормальная кривая; если эксцесс отрицательный, то сравниваемая кривая имеет более низкую и «плоскую» вершину, чем нормальная кривая. При этом предполагается, что нормальное и теоретическое распределения имеют одинаковые математические ожидания и дисперсии.

Вычисляем центральные эмпирические моменты третьего и четвертого порядков:

    [m_3=(M_3^*-3M_1^*M_2^*+2{(M_1^*)}^3)cdot h^3=51,3;]

    [m_4=(M_4^*-4M_3^*M_1^*+6M_2^*{(M_1^*)}^2-3{(M_1^*)}^4)cdot h^4=59580,97;]

Найдем асимметрию и эксцесс:

    [a_s=frac{51,3}{{12,6}^3}=0,026]

    [e_k=frac{59580,97}{{12,6}^4}-3=-0,635]

IV. Проверка гипотезы о нормальном распределении генеральной совокупности. Критерий согласия Пирсона.

Проверим генеральную совокупность значений размера прибыли банков по критерию Пирсона chi^2

Правило. Для того, чтобы при заданном уровне значимости проверить нулевую гипотезу H_o: генеральная совокупность распределена нормально, надо сначала вычислить теоретические частоты, а затем наблюдаемое значение критерия:

    [chi^2_{nabl}=sum frac{ {(n_i-n_i^{'})}^2}{n_i^{'}}]

и по таблице критических точек распределения chi^2, по заданному уровню значимости alpha и числу степеней свободы k=s-3 найти критическую точку chi^2_{kp}(alpha;k), где s — количество интервалов.

Если chi^2_{nabl}<chi^2_{kp} — нет оснований отвергнуть нулевую гипотезу.

Если chi^2_{nabl}>chi^2_{kp} — нулевую гипотезу отвергают.

Найдем теоретические частоты n_i^', для этого составим следующую таблицу.

Середины интервалов,

x_{i}^{*}

Частоты интервалов,

n_i

Произведем расчет,

x_{i}^{*}-x_B

Произведем расчет,

V_i=frac{(x_{i}^{*}-x_B)}{sigma_B}

Значения функции Гаусса,

varphi(V_i)

Произведем расчет,

frac{nh}{sigma_B}

Теоретические частоты,

n_i^{'}=57 cdotvarphi(V_i)

20,4 1 -28,152 -2,23 0,0332 57 2
27,6 9 -20,952 -1,66 0,1006 57 6
34,8 13 -13,752 -1,09 0,2203 57 13
42 17 -6,552 -0,52 0,3485 57 20
49,2 23 0,648 0,05 0,3984 57 23
56,4 18 7,848 0,62 0,3292 57 19
63,6 11 15,048 1,19 0,1965 57 11
70,8 7 22,248 1,77 0,0833 57 5
78 1 29,448 2,34 0,0258 57 1
  n=100         sum n_i^{'}=100

   
Вычислим chi^2_{nabl}, для чего составим расчетную таблицу.

N^0 n_i n_i^{'} n_i-n_i^{'} {(n_i-n_i^{'})}^2 frac{{(n_i-n_i^{'})}^2}{n_i^'} n_i^2 frac{n_i^2}{n_i^{'}}
1 1 2 -1 0,5 1 0,5
2 9 6 3 9 1,5 81 13,5
3 13 13 0 0 0 169 13
4 17 20 -3 9 0,45 289 14,45
5 23 23 0 0 0 529 23
6 18 19 -1 1 0,05 324 17,05
7 11 11 0 0 0 121 11
8 7 5 2 4 0,8 49 9,8
9 1 1 0 0 0 1 1
sum 100 100    

Наблюдаемое значение критерия,

chi^2_{nabl}=3,30

  103,30

Контроль:

    [sumfrac{n_i^2}{n_i^{'}}-n=sum frac{{(n_i-n_i^{'})}^2}{n_i^'}]

    [sumfrac{n_i^2}{n_i'}-n=103,3-100=3,3]

    [sum frac{{(n_i-n_i')}^2}{n_i'}=3,3]

Вычисления произведены правильно.

Найдем число степеней свободы, учитывая, что число групп выборки (число различных вариант) s=9;

    [k=s-3=9-3=6.]

По таблице критических точек распределения chi^2 по уровню значимости alpha = 0,025 и числу степеней свободы k=6 находим chi^2_{kp}(0,025;6)=14,4.

Так как chi^2_{nabl}<chi^2_{kp} — нет оснований отвергнуть нулевую гипотезу. Другими словами, расхождение эмпирических и теоретических частот незначительное. Следовательно, данные наблюдений согласуются с гипотезой о нормальном распределении генеральной совокупности.

На рисунке построены нормальная (теоретическая) кривая по теоретическим частотам (зеленый график) и полигон наблюдаемых частот (коричневый график). Сравнение графиков наглядно показывает, что построенная теоретическая кривая удовлетворительно отражает данные наблюдений.

График нормальной кривой и полигон наблюдаемых частот

V. Интервальные оценки.

Интервальной называют оценку, которая определяется двумя числами — концами интервала, покрывающего оцениваемый параметр.

Доверительным называют интервал, который с заданной надежностью gamma покрывает заданный параметр.

Интервальной оценкой (с надежностью gamma) математического ожидания (а) нормально распределенного количественного признака Х по выборочной средней x_B при известном среднем квадратическом отклонении sigma генеральной совокупности служит доверительный интервал

    [x_B-frac{tsigma}{sqrt{n}}<a<x_B+frac{tsigma}{sqrt{n}},]

где frac{tsigma}{sqrt{n}}=delta — точность оценки, n — объем выборки, t — значение аргумента функции Лапласа phi (t) (см. приложение 2), при котором phi(t)=frac{gamma}{2};

при неизвестном среднем квадратическом отклонении sigma (и объеме выборки n<30)

    [x_B-frac{t_{gamma}cdot S}{sqrt{n}}<a<x_B+frac{t_{gamma}cdot S}{sqrt{n}},]

    [S=sqrt{frac{n}{n-1}D_B}]

где S — исправленное выборочное среднее квадратическое отклонение, t_{gamma} находят по таблице приложения по заданным n и gamma.

В нашем примере среднее квадратическое отклонение известно, sigma_B=12,6. А также x_B=48,55, n=100, gamma=0,95. Поэтому для поиска доверительного интервала используем первую формулу:

    [x_B-frac{tsigma}{sqrt{n}}<a<x_B+frac{tsigma}{sqrt{n}}]

Все величины, кроме t, известны. Найдем t из соотношения phi(t)=frac{0,95}{2}=0,475. По таблице приложения находим t=1,96. Подставив t=1,96, sigma_B=12,6, x_B=48,55, n=100 в формулу, окончательно получим искомый доверительный интервал:

    [48,55-frac{1,96cdot 12,6}{10}<a<48,55+frac{1,96cdot 12,6}{10}]

    [48,55-2,47<a<48,55+2,47]

    [46,08<a<51,02]

Интервальной оценкой (с надежностью gamma) среднего квадратического отклонения sigma нормально распределенного количественного признака Х по «исправленному» выборочному среднему квадратическому отклонению S служит доверительный интервал

S(1-q)<sigma<S(1+q),    (при q<1), (*)

0<sigma<S(1+q),      (при q>1),

где q — находят по таблице приложения по заданным n и gamma.

По данным gamma=0,95 и n=100 по таблице приложения 4 найдем q=0,143. Так как q<1, то, подставив S=sqrt{frac{n}{n-1}D_B}=sqrt{frac{100}{99}cdot 158,73}approx 12,66, quad quad q=0,143 в соотношение (*), получим доверительный интервал:

    [12,66(1-0,143)<sigma<12,66(1+0,143)]

    [10,85<sigma<14,47]

Добавить комментарий