Как найти практическую частоту

  1. Теоретические и эмпирические частоты. Критерии согласия.

Эмпирические
частоты

получают в результате опыта (наблюдения).
Теоретические частоты рассчитывают по
формулам. Для нормального закона
распределения их можно найти следующим
образом:

,
(*)

где

сумма эмпирических (наблюдаемых) частот;

разность между двумя соседними вариантами
(то есть длина частичного интервала);

выборочное среднее квадратическое
отклонение;
;


выборочная средняя арифметическая;

середина
-го
частичного интервала; значения функции


находят по таблице (см. приложения).

Обычно эмпирические
и теоретические частоты различаются.
Возможно, что расхождение случайно и
связано с ограниченным количеством
наблюдений; возможно, что расхождение
неслучайно и объясняется тем, что для
вычисления теоретических частот
выдвинута статистическая гипотеза о
том, что генеральная совокупность
распределена нормально, а в действительности
это е так. Распределение генеральной
совокупности, которое она имеет в силу
выдвинутой гипотезы, называют
теоретическим.

Возникает
необходимость установить правило
(критерий), которое позволяло бы судить,
является ли расхождение между эмпирическим
и теоретическим распределениями
случайным или значимым. Если расхождение
окажется случайным, то считают, что
данные наблюдений (выборки) согласуются
с выдвинутой гипотезой о законе
распределения генеральной совокупности
и, следовательно, гипотезу принимают.
Если же расхождение окажется значимым,
то данные наблюдений не согласуются с
выдвинутой гипотезой, и её отвергают.

Критерием
согласия

называют критерий, который позволяет
установить, является ли расхождение
эмпирического и теоретического
распределений случайным или значимым,
то есть согласуются ли данные наблюдений
с выдвинутой статистической гипотезой
или не согласуются.

Имеются несколько
критериев согласия: критерий

(Пирсона), критерий Колмогорова, критерий
Романовского и др. Ограничимся описанием
того, как критерий

применяется к проверке гипотезы о
нормальном распределении генеральной
совокупности1
(предлагаем студентам
написать рефераты по различным критериям
согласия и их применению).

Допустим, что в
результате

наблюдений получена выборка:

Значения
признака

.
. .

Эмпирические
частота

.
. .

причём

Выдвинем
статистическую гипотезу: генеральная
совокупность, из которой извлечена
данная выборка, имеет нормальное
распределение. Требуется установить,
согласуется ли эмпирическое распределение
с этой гипотезой. Предположим, что по
формуле (*)
вычислены теоретические частоты
.
Обозначим

среднее арифметическое квадратов
разностей между эмпирическими и
теоретическим частотами, взвешенное
по обратным величинам теоретических
частот:

.

Чем больше
согласуются эмпирическое и теоретическое
распределения, тем меньше различаются
эмпирические и теоретические частоты
и тем меньше значение
.
Отсюда следует, что

характеризует близость эмпирического
и теоретического распределений. В разных
опытах

принимает различные, заранее неизвестные
значения, то есть является случайной
величиной. Плотность вероятности этого
распределения (для выборки достаточно
большого объёма) не зависит от проверяемого
закона распределения, а зависит от
параметра
,
называемого числом степеней свободы.
Так при проверке гипотезы о нормальном
распределении генеральной совокупности

,
где

число групп, на которые разбиты данные
наблюдений. Существуют таблицы (см.
приложения), в которых указана вероятность
того, что в результате влияния случайных
факторов величина

примет значение не меньше вычисленного
по данным выборки
.

Для определённости
примем уровень значимости 0,01. Если
вероятность, найденная по таблицам,
окажется меньше 0,01, то это означает, что
в результате влияния случайных причин
наступило событие, которое практически
невозможно. Таким образом, тот факт, что

приняло значение
,
нельзя объяснить случайными причинами;
его можно объяснить тем, что генеральная
совокупность не распределена нормально
и, значит, выдвинутая гипотеза о нормальном
распределении генеральной совокупности
должна быть отвергнута. Если вероятность,
найденная по таблицам, превышает 0,01, то
гипотеза о нормальном распределении
генеральной совокупности согласуется
с данными наблюдений и поэтому может
быть принята. Полученные выводы
распространяются и на другие уровни
значимости.

На практике надо,
чтобы объём выборки был достаточно
большим ()
и чтобы каждая группа содержала 5 – 8
значений признака.

Для проверки
гипотезы о нормальном распределении
генеральной совокупности нужно:

  1. вычислить
    теоретические частоты по формуле (*);

  2. вычислить
    ,
    где

    соответственно частоты эмпирические
    и теоретические;

  3. вычислить число
    степеней свободы
    ,
    где

    число групп, на которые разбита выборка;

  4. выбрать уровень
    значимости;

  5. найти по таблице
    (см. приложения) по найденным

    и

    вероятность
    ,
    причём, если эта вероятность меньше
    принятого уровня значимости, то гипотезу
    о нормальном распределении генеральной
    совокупности отвергают; если же
    вероятность больше уровня значимости,
    то гипотезу принимают.

ПРИМЕР 5.
Проверить, согласуются ли данные выборки
со статистической гипотезой о нормальном
распределении генеральной совокупности,
из которой извлечена выборка:

варианта

15

20

25

30

35

40

45

50

55

частота

6

13

38

74

106

85

30

10

4

Решение.
Вычислим выборочное среднее и выборочную
дисперсию:

;

.

Далее, вычислим
теоретические частоты по формуле (*):

15

6

– 19,7

– 2,67

0,0113

3

20

13

– 14,7

– 1,99

0,0551

14

25

38

– 9,7

– 1,31

0,1691

42

30

74

– 4,7

– 0,63

0,3271

82

35

106

0,3

0,05

0,3984

99

40

85

5,3

0,73

0,3056

76

45

30

10,3

1,41

0,1476

37

50

10

15,3

2,09

0,0449

11

55

4

20,3

2,77

0,0086

2

Найдём
.
Вычислим число степеней свободы,
учитывая, что число групп выборки
.
Уровень значимости примем равным 0,01.
По таблице (см. приложения) при

и

находим вероятность
;
при

вероятность
.
Используя линейную интерполяцию,
получаем приближённое значение искомой
вероятности 0,16 > 0,01.

Следовательно,
данные наблюдений согласуются с гипотезой
о нормальном распределении генеральной
совокупности.

1
Интервал

имеет случайные концы (их называют
доверительными границами). Действительно,
в разных выборках получаются различные
значения
.
Следовательно от выборки к выборке
будут изменяться и концы доверительного
интервала, то есть доверительные границы
сами являются случайными величинами
– функциями от
.
Так как случайной величиной является
не оцениваемый параметр
,
а доверительный интервал, то более
правильно говорить не о вероятности
попадания

в доверительный интервал, а о вероятности
того, что доверительный интервал покроет
.

1
Обычно при выполнении пп. 4 – 7 используют
статистику с нормальным распределением,
статистику Стьюдента, Фишера.

2
То есть – с математическим ожиданием.

1
Критерий применяется аналогично и для
других распределений

12

Соседние файлы в папке Теор.вер. (лекции)

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #


Загрузить PDF


Загрузить PDF

С абсолютной частотой все довольно просто: она определяет, сколько раз конкретное число содержится в имеющемся наборе данных (объектов или значений). А вот относительная частота характеризует отношение количества конкретного числа в наборе данных. Другими словами, относительная частота – это отношение количества определенного числа к общему количеству чисел в наборе данных. Имейте в виду, что вычислить относительную частоту достаточно легко.

  1. Изображение с названием Calculate Relative Frequency Step 1

    1

    Соберите данные. Если вы решаете математическую задачу, в ее условии должен быть дан набор данных (чисел). В противном случае проведите эксперимент или исследование и соберите необходимые данные. Подумайте, в какой форме записать исходные данные.

    • Например, нужно собрать данные о возрасте людей, которые посмотрели определенный фильм. Конечно, можно записать точный возраст каждого человека, но в этом случае вы получите довольно большой набор данных с 60-70 числами в пределах от 10 до 70 или 80. Поэтому лучше сгруппировать данные по категориям, таким как «Моложе 20», «20-29», «30-39» «40-49», «50-59» и «Старше 60». Получится упорядоченный набор данных с шестью группами чисел.
    • Другой пример: врач собирает данные о температуре пациентов в определенный день. Если записать округленные числа, например, 37, 38, 39, то результат будет не слишком точным, поэтому здесь данные нужно представить в виде десятичных дробей.
  2. Изображение с названием Calculate Relative Frequency Step 2

    2

    Упорядочьте данные. Когда вы соберете данные, у вас, скорее всего, получится хаотичный набор чисел, например, такой: 1, 2, 5, 4, 6, 4, 3, 7, 1, 5, 6, 5, 3, 4, 5, 1. Такая запись кажется практически бессмысленной и с ней сложно работать. Поэтому упорядочьте числа по возрастанию (от меньшего к большему), например, так: 1,1,1,2,3,3,4,4,4,5,5,5,5,6,6,7.[1]

    • Упорядочивая данные, будьте внимательны, чтобы не пропустить ни одного числа. Посчитайте общее количество чисел в наборе данных, чтобы убедиться, что вы записали все числа.
  3. Изображение с названием Calculate Relative Frequency Step 3

    3

    Создайте таблицу с данными. Собранные данные можно организовать в виде таблицы. Такая таблица будет включать три столбца и использоваться для вычисления относительной частоты. Столбцы обозначьте следующим образом:[2]

    Реклама

  1. Изображение с названием Calculate Relative Frequency Step 5

    1

    Найдите количество чисел в наборе данных. Относительная частота характеризует, сколько раз конкретное число содержится в имеющемся наборе данных по отношению к общему количеству чисел. Чтобы найти относительную частоту, нужно посчитать общее количество чисел в наборе данных. Общее количество чисел станет знаменателем дроби, с помощью которой будет вычислена относительная частота.[3]

    • В нашем примере набор данных содержит 16 чисел.
  2. Изображение с названием Calculate Relative Frequency Step 5

    2

    Найдите количество определенного числа. То есть посчитайте, сколько раз конкретное число встречается в наборе данных. Это можно сделать как для одного числа, так и для всех чисел из набора данных.[4]

    • Например, в нашем примере число 4 встречается в наборе данных три раза.
  3. Изображение с названием Calculate Relative Frequency Step 6

    3

    Разделите количество конкретного числа на общее количество чисел. Так вы найдете относительную частоту для определенного числа. Вычисление можно представить в виде дроби или воспользоваться калькулятором или электронной таблицей, чтобы разделить два числа.[5]

    Реклама

  1. Изображение с названием Calculate Relative Frequency Step 7

    1

    Результаты вычислений запишите в созданную ранее таблицу. Она позволит представить результаты в наглядной форме. По мере вычисления относительной частоты результаты записывайте в таблицу напротив соответствующего числа. Как правило, значение относительной частоты можно округлить до второго знака после десятичной запятой, но это на ваше усмотрение (в зависимости от требований задачи или исследования). Помните, что округленный результат не равен точному ответу.[6]

    • В нашем примере таблица относительных частот будет выглядеть следующим образом:
    • x : n(x) : P(x)
    • 1 : 3 : 0,19
    • 2 : 1 : 0,06
    • 3 : 2 : 0,13
    • 4 : 3 : 0,19
    • 5 : 4 : 0,25
    • 6 : 2 : 0,13
    • 7 : 1 : 0,06
    • Итого : 16 : 1,01
  2. Изображение с названием Calculate Relative Frequency Step 8

    2

    Представьте числа (элементы), которых нет в наборе данных. Иногда представление чисел с нулевой частотой так же важно, как и представление чисел с ненулевой частотой. Обратите внимание на собранные данные; если между данными имеются пробелы, их нужно заполнить нулями.

    • В нашем примере набор данных включает все числа от 1 до 7. Но предположим, что числа 3 нет в наборе. Возможно, это немаловажный факт, поэтому нужно записать, что относительная частота числа 3 равна 0.
  3. Изображение с названием Calculate Relative Frequency Step 9

    3

    Выразите результаты в процентах. Иногда результаты вычислений нужно преобразовать из десятичных дробей в проценты. Это общепринятая практика, потому что относительная частота характеризует процент случаев появления определенного числа в наборе данных. Чтобы преобразовать десятичную дробь в проценты, нужно десятичную запятую передвинуть на две позиции вправо и приписать символ процента.

    • Например, десятичная дробь 0,13 равна 13%.
    • Десятичная дробь 0,06 равна 6% (обратите внимание, что перед 6 стоит 0).

    Реклама

Советы

  • Относительная частота характеризует наличие или возникновение определенного события в наборе событий.
  • Если сложить относительные частоты всех чисел из набора данных, вы получите единицу. Помните, что при сложении округленных результатов сумма не будет равна 1,0.
  • Если набор данных слишком большой, чтобы обработать его вручную, воспользуйтесь программой MS Excel или MATLAB; это позволит избежать ошибок в процессе вычисления.

Реклама

Источники

Об этой статье

Эту страницу просматривали 144 126 раз.

Была ли эта статья полезной?

МБОУ
«Средняя общеобразовательная школа №2 п.Ивня» Ивнянского района Белгородской
области

Занятие учебного курса

по теории вероятностей и статистике

Тема: «Частота и вероятность событий»

Экспериментальное определение частоты

Практическая работа № 2

«Определение частоты выпадения орла при
подбрасывании монеты»

7 класс

2016 – 2017 учебный год

Составитель:
учитель математики Шубная Т.Е.

Частота
и вероятность событий

Экспериментальное
определение частоты

Практическая работа № 2

«Определение частоты выпадения орла при подбрасывании монеты»

1 этап.

Приготовьте
монету. Чтобы определить, как часто при бросании монеты выпадает орел, будем
подбрасывать монету и фиксировать число выпадений орла. Если выпал орел –
ставьте черточку в первой строке, если решка – во второй строке. Бросьте монету
100 раз и заполните таблицу 1 (воспользуйтесь символом   |||| ).

Таблица 1

Сторона монеты

Выпало

Количество выпадений

Частота

Орел

Решка

Всего:

100

2 этап.

а) Заполните последний столбец таблицы 1,
определив частоту выпадения орла по формуле (все числа округлите до сотых):

 .

В
данном эксперименте знаменатель во всех вычислениях равен 100 – общему числу
бросков, а в числитель подставьте числа, полученные в опыте.

б) Предположите, какая теоретически должна
быть частота выпадения орла при бросании монеты? ____________ Почему?
_________________________________________
_____________________________________________________________________________

в) Сравните свои экспериментально полученные
результаты с предполагаемым: ____
_____________________________________________________________________________

_____________________________________________________________________________

г) Как можно найти частоту появления решки в
данном эксперименте? (Укажите два способа!)
_____________________________________________________________________

3 этап.

Обсудим
результаты работы всего класса.

а) Сколько пар учащихся получили в результате
частоту ровно 0,5? ______________

б) Сколько пар учащихся получили частоту
большую 0,5? ______________________

в) Сколько пар учащихся получили частоту
меньшую 0,5? ______________________

г) Сравните число ответов на два предыдущих
вопроса б) и в)____________________

д) Объясните результат, полученный в пункте г)_______________________________

4 этап.

Обобщим полученные результаты.

Каждый ученик в паре бросил монету лишь 100 раз. Если мы объединим
результаты бросков всего класса, то получим во много раз большее число опытов
(в классе 6 пар и они сделали 600 бросков).

Поочередно сообщая свои результаты, заполните таблицу 2 (кроме последнего
столбца). Найдите и впишите в ячейку последнего столбца общее количество
выпавших орлов, сложив числа, названные отдельными парами.

Найдите общее число бросков и найдите частоту выпадения орла при общем
числе бросков.

Таблица 2

Сторона

монеты

Результаты,
полученные разными учениками

Всего в классе

№1

№2

№3

№4

№5

№6

№7

№8

№9

№10

№11

№12

№13

Орел

Решка

Всего бросков

100

100

100

100

100

100

100

Частота выпадения
орла

В целом по классу частота выпадения орла получилась равной
___________________

а) Зависит ли полученный результат от длины
серии эксперимента (количества бросков)? _____________ Стал ли «общий»
результат ближе к 0,5, по сравнению с результатами отдельных учащихся?
______________________________________________

б) Предположите, сколько раз мы можем ожидать
выпадение орла, если сделать 10000 бросков монеты?
________________________________ А если сделать 24 000 бросков?
___________ При 4040 бросках монеты? ___________

в) Познакомьтесь с результатами опытов
Керриха, Пирсона и Бюффона.

                                                                                                                                   
  
Вывод.

Экспериментальный
способ определения вероятности основан на наблюдениях.
И при многократных повторениях опыта частоты случайных
событий оказываются близки к их вероятностям. Поэтому если опыт можно повторять
достаточно много раз, то вероятность случайного события можно приближенно
найти, вычисляя его частоту.
Пусть n – общее
число всех равновозможных несовместных исходов испытания,
m – число исходов, благоприятных событию А,
Р(А) – вероятность события А.
Какую формулу можно написать для вероятности события А?
http://chart.apis.google.com/chart?cht=tx&chl=P(A)=frac%7bm%7d%7bn%7d

Варианты для выполнения работы

I. Установление закономерностей, которым подчинены массовые случайные явления, основано на изучении методами теории вероятностей статистических данных — результатов наблюдений.

Почти все встречающиеся в жизни величины (урожайность сельскохозяйственных растений, продуктивности скота, производительность труда и заработная плата рабочих, объем производства продукции и т.д.) принимают неодинаковые значения у различных членов совокупности. Поэтому возникает необходимость в изучении их изменяемости. Это изучение начинается с проведения соответствующих наблюдений, обследований.

В результате наблюдений получают сведения о численной величине изучаемого признака у каждого члена данной совокупности.

Пример. Имеются данные о размере прибыли 100 коммерческих банков. Прибыль, млн. рублей.

30,2 51,9 43,1 58,9 34,1 55,2 47,9 43,7 53,2 34,9
47,8 65,7 37,8 68,6 48,4 67,5 27,3 66,1 52,0 55,6
54,1 26,9 53,6 42,5 59,3 44,8 52,8 42,3 55,9 48,1
44,5 69,8 47,3 35,6 70,1 39,5 70,3 33,7 51,8 56,1
28,4  48,7 41,9 58,1 20,4 56,3 46,5 41,8 59,5 38,1
41,4 70,4 31,4 52,5 45,2 52,3 40,2 60,4 27,6 57,4
29,3 53,8 46,3 40,1 50,3 48,9 35,8 61,7 49,2 45,8
45,3 71,5 35,1 57,8 28,1 57,6 49,6 45,5 36,2 63,2
61,9 25,1 65,1 49,7 62,1 46,1 39,9 62,4 50,1 33,1
33,3 49,8 39,8 45,9 37,3 78,0 64,9 28,8 62,5 58,7

                 
Из данной таблицы видно, что интересующий нас признак (прибыль банков) меняется от одного члена совокупности к другому, варьирует. Варьирование есть изменяемость признака у отдельных членов совокупности.

Вариационным рядом называется последовательность вариант, записанных в возрастающем порядке и соответствующих им частот.

Число, показывающее, сколько раз повторяется в данной совокупности каждое значение признака, называется частотой.

Составим ранжированный вариационный ряд (выпишем варианты в порядке возрастания):

20,4 25,1 26,9 27,3 27,6 28,1 28,4 28,8 29,3 30,2
31,4 33,1 33,3 33,7 34,1 34,9 35,1 35,6 35,8 36,2
37,3 37,8 38,1 39,5 39,8 39,9 40,1 40,2 41,4 41,8
41,9 42,3 42,5 43,1 43,7 44,5 44,8 45,2 45,3 45,5
45,8 45,9 46,1 46,3 46,5 47,3 47,8 47,9 48,1 48,4
48,7 48,9 49,2 49,6 49,7 49,8 50,1 50,3 51,8 51,9
52,0 52,3 52,5 52,8 53,2 53,6 53,8 54,1 55,2 55,6
55,9 56,1 56,3 57,4 57,6 57,8 58,1 58,7 58,9 59,3
59,5 60,4 61,7 61,9 62,1 62,4 62,5 63,2 64,9 65,1
65,7 66,1 67,5 68,6 69,8 70,1 70,3 70,4 71,5 78,0

 В нашем случае каждое значение признака (варианта вариационного ряда) повторилось только один раз, т.е. значение частоты для всех вариант равно единице. Перейдем к интервальному вариационному ряду, так как интересующий нас признак принимает дробные, практически не повторяющиеся значения.

Для этого необходимо определить число интервалов (классов) и длину интервала (классного промежутка), после чего произвести разноску, т.е. подсчитать для каждого интервала число вариант, попавших в него.

Количество классов устанавливают в зависимости от степени точности, с которой ведется обработка, и количества объектов в выборке. Считается удобным при объеме выборки (n) в пределах от 30 до 60 вариант распределять их на 6-7 классов, при n от 60 до 100 вариант — на 7-8 классов, при n от 100 и более вариант — на 9-17 классов.

Нужное количество групп также может быть ориентировочно вычислено по формуле Стерджесса:

    [k=1+3,322lgn]

где k — число групп (классов, интервалов) ряда распределения; n — объем выборки.

Можно также использовать выражение:

    [k=sqrt{n}.]

При nle 70 они дают примерно одинаковые результаты.

В рассматриваемом примере о размере прибыли коммерческих банков, n=100. Применяя формулу Стерджесса, получим:

    [k=1+3,322lg100=1+3,322cdot 2=7,644approx 8.]

Однако sqrt{100}=10. Таким образом, число интервалов может быть равно 8, 9, 10 и т.д.

Нахождение нужного количества групп и их размеров часто бывает взаимообусловлено. Для того, чтобы как-то определиться с числом интервалов, найдем размах вариации — разность между наибольшей и наименьшей вариантой:

    [R=x_{max}-x_{min}]

где R — размах вариации,

x_{max} — наибольшее значение варьирующего признака,

x_{min} — наименьшее значение варьирующего признака.

Найдем размах вариации для рассматриваемой задачи:

    [R=78,0-20,4=57,6]

Для того, чтобы найти длину интервала (величину классового промежутка) необходимо разделить размах вариации на число классов и полученную величину округлить таким образом, чтобы было удобно производить сначала разноску, а затем и различные вычисления. Рекомендую округлять до единиц, до которых округлены варианты в исходной таблице, в нашем случае до десятых.

    [happrox frac{R}{k}]

Согласно формуле получаем

    [happrox frac{57,6}{8}=7,2]

Теперь необходимо определиться с началом первого интервала. Для этого можно использовать формулу:

    [x_1approx x_{min}-frac{h}{2}]

    [x_1approx 20,4-frac{7,2}{2}=16,8.]

Замечание. За начало первого интервала можно принять некоторое значение, несколько меньшее x_{min} или само значение x_{min}. Далее в табличном виде я покажу оба варианта.

Прибавив к началу первого интервала (нижней границе) шаг, получим верхнюю границу первого интервала и одновременно нижнюю границу второго интервала. Выполняя последовательно указанные действия, будем находить границы последующих интервалов до тех пор, пока не будет получено или перекрыто x_{max}.

Таким образом, верхняя граница одного интервала одновременно является нижней границей другого интервала. Чтобы не возникало сомнений, в какой интервал отнести варианту, попавшую на границу, условимся относить ее к верхнему интервалу.

Составим теперь рабочую таблицу для построения интервального вариационного ряда и произведем подсчет частот вариант, попавших в тот или иной интервал.

Как и обещал покажу две таблицы построения ряда:

1. Отсчет ведем от x_{min}, т.е. нижняя граница первого интервала совпадает с x_{min}.

Группы банков по размеру прибыли

(границы интервалов)

Количество банков, принадлежащих данной группе

(частоты, n_i)

Накопленные частоты,

S_i

20,4 — 27,6 4 4
27,6 — 34,8 11 15
34,8 — 42 16 31
42 — 49,2 21 52
49,2 — 56,4 21 73
56,4 — 63,6 15 88
63,6 — 70,8 10 98
70,8 — 78 2 100

2. Начало первого интервала определяем с помощью формулы: x_1approx x_{min}-frac{h}{2}.

Группы банков по размеру прибыли

(границы интервалов)

Количество банков, принадлежащих данной группе

(частоты, n_i)

Накопленные частоты,

S_i

16,8 — 24 1 1
24 — 31,2 9 10
31,2 — 38,4 13 23
38,4 — 45,6 17 40
45,6 — 52,8 23 63
52,8 — 60 18 81
60 — 67,2 11 92
67,2 — 74,4 7 99
74,4 — 81,6 1 100

Как мы видим в 1-м случае у нас получилось восемь интервалов, что полностью совпадает с результатом, который нам дала формула Стерджесса. Во втором случае у нас получилось девять интервалов, так как при поиске начала первого интервала пользовались специальной формулой.

Для дальнейшего исследования я буду пользоваться результатами второй таблицы, так как там ярко выражен модальный интервал (одна мода) и медиана практически точно попадает на середину вариационного ряда.

Мы получили интервальный вариационный ряд — упорядоченную совокупность интервалов варьирования значений случайной величины с соответствующими частотами попаданий в каждый из них значений величины.

II. Графическая интерпретация вариационных рядов.

№ п/п

Границы интервалов,

[x_{i}; x_{i+1})

Середины интервалов,

x_{i}^{*}=frac{x_i+x_{i+1}}{2}

Частоты интервалов,

n_i

Относительные частоты

W_i=frac{n_i}{n}

Плотность относит. частоты

frac{W_i}{h}

Плотность частоты

frac{n_i}{h}

1 16,8 — 24 20,4 1 0,01 0,001 0,139
2 24 — 31,2 27,6 9 0,09 0,013 1,250
3 31,2 — 38,4 34,8 13 0,13 0,018 1,806
4 38,4 — 45,6 42 17 0,17 0,024 2,361
5 45,6 — 52,8 49,2 23 0,23 0,032 3,194
6 52,8 — 60 56,4 18 0,18 0,025 2,500
7 60 — 67,2 63,6 11 0,11 0,015 1,528
8 67,2 — 74,4 70,8 7 0,07 0,010 0,972
9 74,4 — 81,6 78 1 0,01 0,001 0,139
      sum=100 sum=1    

Строим графики:

График гистограммы частот ischanow.com

График гистограммы плотности частот ischanow.com

График гистограммы относительных частот ischanow.com

График гистограммы плотности относительных частот ischanow.com

График полигона частот ischanow.com

Далее найдем моду вариационного ряда:

    [M_o(X)=x_{M_o}+hfrac{(n_2-n_1)}{(n_2-n_1)+(n_2-n_3)}]

где

x_{M_o} — начало модального интервала;

h — длина частичного интервала (шаг);

n_1 — частота предмодального интервала;

n_2 — частота модального интервала;

n_3 — частота послемодального интервала.

Определим модальный интервал — интервал, имеющий наибольшую частоту. Из таблицы видно, что модальным является интервал (45,6 — 52,8).

    [M_o(X)=45,6+7,2frac{(23-17)}{(23-17)+(23-18)}=]

    [=45,6+7,2cdot frac{6}{6+5}=45,6+3,93=49,5]

Медиана

Для интервального ряда медиана находится по формуле:

    [M_e(X)=x_{M_e}+hfrac{0,5n-S_{M_{e}-1}}{n_{M_e}}]

где

x_{M_e} — начало медианного интервала;

h — длина частичного интервала (шаг);

n — объем совокупности;

S_{M_{e}-1} — накопленная частота интервала, предшествующая медианному;

n_{M_e} — частота медианного интервала.

Определим медианный интервал — интервал, в котором впервые накопленная частота превышает половину объема выборки.Так как объем выборки n=100, то n/2=50. По таблице найдем интервал, где впервые накопленные частоты превысят это значение. Таким является интервал (45,6 — 52,8).

Получаем,

    [M_e(X)=45,6+7,2frac{0,5cdot 100-40}{23}approx 48,7.]

III. Расчет сводных характеристик выборки.

Для определения x_B, D_{B}, sigma_{B} составим расчетную таблицу. Для начала определимся с ложным нулем С. В качестве ложного нуля можно принять любую варианту. Максимальная простота вычислений достигается, если выбрать в качестве ложного нуля варианту, которая расположена примерно в середине вариационного ряда (часто такая варианта имеет наибольшую частоту).

Варианте, которая принята в качестве ложного нуля, соответствует условная варианта, равная нулю. В нашем случае С=49,2.

Равноотстоящими называют варианты, которые образуют арифметическую прогрессию с разностью h.

Условными называют варианты, определяемые равенством:

    [U_i=frac{(x_i-C)}{h}]

Произведем расчет условных вариант согласно формуле:

    [U_1=frac{20,4-49,2}{7,2}=-4]

    [U_2=frac{27,6-49,2}{7,2}=-3]

    [U_3=frac{34,8-49,2}{7,2}=-2]

    [U_4=frac{42-49,2}{7,2}=-1]

    [U_5=frac{49,2-49,2}{7,2}=0]

    [U_6=frac{56,4-49,2}{7,2}=1]

    [U_7=frac{63,6-49,2}{7,2}=2]

    [U_8=frac{70,8-49,2}{7,2}=3]

    [U_9=frac{78-49,2}{7,2}=4]

N п/п

Середины интервалов,

x_{i}^{*}

Частоты интервалов,

n_i

Условные варианты,

U_i

Произведения частот и условных вариант,

n_icdot U_i

Произведения частот и условных вариант,

n_icdot U_i^2

Произведения частот и условных вариант,

n_icdot U_i^3

Произведения частот и условных вариант,

n_icdot U_i^4

Произведения частот и условных вариант,  

n_icdot (U_i+1)^2

Произведения частот и условных вариант,

n_icdot(U_i+1)^4

1 20,4 1 -4 -4 16 -64 256 9 81
2 27,6 9 -3 -27 81 -243 729 36 144
3 34,8 13 -2 -26 52 -104 208 13 13
4 42 17 -1 -17 17 -17 17 0 0
5 49,2 23 0 0 0 0 0 23 23
6 56,4 18 1 18 18 18 18 72 288
7 63,6 11 2 22 44 88 176 99 891
8 70,8 7 3 21 63 189 567 112 1792
9 78 1 4 4 16 64 256 25 625
    sum=100   sum n_iU_i=-9 sum n_iU_i^2=307 sum n_icdot U_i^3=-69 sum n_icdot U_i^4=2227 sum n_icdot (U_i+1)^2=389 sum n_icdot(U_i+1)^4=3857

    
Контроль:

    [sum n_i U_i^2 + 2sum n_iU_i+n=sum n_i{(U_i+1)}^2]

    [sum n_i U_i^2 + 2sum n_iU_i+n=307+2cdot (-9)+100=389]

    [sum n_i{(U_i+1)}^2=389]

Контроль:

    [sum n_i U_i^4 + 4sum n_iU_i^3+6sum n_iU_i^2+4sum n_iU_i+n=sum n_i{(U_i+1)}^4]

    [sum n_i U_i^4 + 4sum n_iU_i^3+6sum n_iU_i^2+4sum n_iU_i+n=]

    [=2227+4cdot (-69)+6 cdot 307+4cdot (-9)+100=3857]

    [sum n_i{(U_i+1)}^4=3857]

Равенство выполнено, следовательно вычисления произведены верно.

Вычислим условные моменты 1-го, 2-го, 3-го и 4-го порядков:

    [M_1^{*}=frac{sum n_iU_i}{n}=frac{-9}{100}=-0,09;]

    [M_2^{*}=frac{sum n_iU_i^2}{n}=frac{307}{100}=3,07;]

    [M_3^{*}=frac{sum n_iU_i^3}{n}=frac{-69}{100}=-0,69;]

    [M_4^{*}=frac{sum n_iU_i^4}{n}=frac{2227}{100}=22,27.]

Найдем выборочные среднюю, дисперсию и среднее квадратическое отклонение :

    [x_{B}=M_1^{*}cdot h+C=-0,09cdot 7,2+49,2=48,552;]

    [D_{B}=(M_2^{*}-{(M_1^{*})}^2)h^2=(3,07-{(-0,09)}^2){7,2}^2approx 158,73.]

    [sigma_{B}=sqrt{D_B}=sqrt{158,73}=12,6.]

Также для оценки отклонения эмпирического распределения от нормального используют такие характеристики, как асимметрия и эксцесс.

Асимметрией теоретического распределения называют отношение центрального момента третьего порядка к кубу среднего квадратического отклонения:

    [a_s=frac{m_3}{sigma_B^3}]

Асимметрия положительна, если «длинная часть» кривой распределения расположена справа от математического ожидания; асимметрия отрицательна, если «длинная часть» кривой расположена слева от математического ожидания. Практически определяют знак асимметрии по расположению кривой распределения относительно моды (точки максимума дифференциальной функции): если «длинная часть» кривой расположена правее моды, то асимметрия положительна, если слева — отрицательна.

Эксцесс эмпирического распределения определяется равенством:

    [e_k=frac{m_4}{sigma_B^4}-3]

где m_4 — центральный эмпирический момент четвертого порядка.

Для нормального распределения эксцесс равен нулю. Поэтому если эксцесс некоторого распределения отличен от нуля, то кривая этого распределения отличается от нормальной кривой: если эксцесс положительный, то кривая имеет более высокую и «острую» вершину, чем нормальная кривая; если эксцесс отрицательный, то сравниваемая кривая имеет более низкую и «плоскую» вершину, чем нормальная кривая. При этом предполагается, что нормальное и теоретическое распределения имеют одинаковые математические ожидания и дисперсии.

Вычисляем центральные эмпирические моменты третьего и четвертого порядков:

    [m_3=(M_3^*-3M_1^*M_2^*+2{(M_1^*)}^3)cdot h^3=51,3;]

    [m_4=(M_4^*-4M_3^*M_1^*+6M_2^*{(M_1^*)}^2-3{(M_1^*)}^4)cdot h^4=59580,97;]

Найдем асимметрию и эксцесс:

    [a_s=frac{51,3}{{12,6}^3}=0,026]

    [e_k=frac{59580,97}{{12,6}^4}-3=-0,635]

IV. Проверка гипотезы о нормальном распределении генеральной совокупности. Критерий согласия Пирсона.

Проверим генеральную совокупность значений размера прибыли банков по критерию Пирсона chi^2

Правило. Для того, чтобы при заданном уровне значимости проверить нулевую гипотезу H_o: генеральная совокупность распределена нормально, надо сначала вычислить теоретические частоты, а затем наблюдаемое значение критерия:

    [chi^2_{nabl}=sum frac{ {(n_i-n_i^{'})}^2}{n_i^{'}}]

и по таблице критических точек распределения chi^2, по заданному уровню значимости alpha и числу степеней свободы k=s-3 найти критическую точку chi^2_{kp}(alpha;k), где s — количество интервалов.

Если chi^2_{nabl}<chi^2_{kp} — нет оснований отвергнуть нулевую гипотезу.

Если chi^2_{nabl}>chi^2_{kp} — нулевую гипотезу отвергают.

Найдем теоретические частоты n_i^', для этого составим следующую таблицу.

Середины интервалов,

x_{i}^{*}

Частоты интервалов,

n_i

Произведем расчет,

x_{i}^{*}-x_B

Произведем расчет,

V_i=frac{(x_{i}^{*}-x_B)}{sigma_B}

Значения функции Гаусса,

varphi(V_i)

Произведем расчет,

frac{nh}{sigma_B}

Теоретические частоты,

n_i^{'}=57 cdotvarphi(V_i)

20,4 1 -28,152 -2,23 0,0332 57 2
27,6 9 -20,952 -1,66 0,1006 57 6
34,8 13 -13,752 -1,09 0,2203 57 13
42 17 -6,552 -0,52 0,3485 57 20
49,2 23 0,648 0,05 0,3984 57 23
56,4 18 7,848 0,62 0,3292 57 19
63,6 11 15,048 1,19 0,1965 57 11
70,8 7 22,248 1,77 0,0833 57 5
78 1 29,448 2,34 0,0258 57 1
  n=100         sum n_i^{'}=100

   
Вычислим chi^2_{nabl}, для чего составим расчетную таблицу.

N^0 n_i n_i^{'} n_i-n_i^{'} {(n_i-n_i^{'})}^2 frac{{(n_i-n_i^{'})}^2}{n_i^'} n_i^2 frac{n_i^2}{n_i^{'}}
1 1 2 -1 0,5 1 0,5
2 9 6 3 9 1,5 81 13,5
3 13 13 0 0 0 169 13
4 17 20 -3 9 0,45 289 14,45
5 23 23 0 0 0 529 23
6 18 19 -1 1 0,05 324 17,05
7 11 11 0 0 0 121 11
8 7 5 2 4 0,8 49 9,8
9 1 1 0 0 0 1 1
sum 100 100    

Наблюдаемое значение критерия,

chi^2_{nabl}=3,30

  103,30

Контроль:

    [sumfrac{n_i^2}{n_i^{'}}-n=sum frac{{(n_i-n_i^{'})}^2}{n_i^'}]

    [sumfrac{n_i^2}{n_i'}-n=103,3-100=3,3]

    [sum frac{{(n_i-n_i')}^2}{n_i'}=3,3]

Вычисления произведены правильно.

Найдем число степеней свободы, учитывая, что число групп выборки (число различных вариант) s=9;

    [k=s-3=9-3=6.]

По таблице критических точек распределения chi^2 по уровню значимости alpha = 0,025 и числу степеней свободы k=6 находим chi^2_{kp}(0,025;6)=14,4.

Так как chi^2_{nabl}<chi^2_{kp} — нет оснований отвергнуть нулевую гипотезу. Другими словами, расхождение эмпирических и теоретических частот незначительное. Следовательно, данные наблюдений согласуются с гипотезой о нормальном распределении генеральной совокупности.

На рисунке построены нормальная (теоретическая) кривая по теоретическим частотам (зеленый график) и полигон наблюдаемых частот (коричневый график). Сравнение графиков наглядно показывает, что построенная теоретическая кривая удовлетворительно отражает данные наблюдений.

График нормальной кривой и полигон наблюдаемых частот

V. Интервальные оценки.

Интервальной называют оценку, которая определяется двумя числами — концами интервала, покрывающего оцениваемый параметр.

Доверительным называют интервал, который с заданной надежностью gamma покрывает заданный параметр.

Интервальной оценкой (с надежностью gamma) математического ожидания (а) нормально распределенного количественного признака Х по выборочной средней x_B при известном среднем квадратическом отклонении sigma генеральной совокупности служит доверительный интервал

    [x_B-frac{tsigma}{sqrt{n}}<a<x_B+frac{tsigma}{sqrt{n}},]

где frac{tsigma}{sqrt{n}}=delta — точность оценки, n — объем выборки, t — значение аргумента функции Лапласа phi (t) (см. приложение 2), при котором phi(t)=frac{gamma}{2};

при неизвестном среднем квадратическом отклонении sigma (и объеме выборки n<30)

    [x_B-frac{t_{gamma}cdot S}{sqrt{n}}<a<x_B+frac{t_{gamma}cdot S}{sqrt{n}},]

    [S=sqrt{frac{n}{n-1}D_B}]

где S — исправленное выборочное среднее квадратическое отклонение, t_{gamma} находят по таблице приложения по заданным n и gamma.

В нашем примере среднее квадратическое отклонение известно, sigma_B=12,6. А также x_B=48,55, n=100, gamma=0,95. Поэтому для поиска доверительного интервала используем первую формулу:

    [x_B-frac{tsigma}{sqrt{n}}<a<x_B+frac{tsigma}{sqrt{n}}]

Все величины, кроме t, известны. Найдем t из соотношения phi(t)=frac{0,95}{2}=0,475. По таблице приложения находим t=1,96. Подставив t=1,96, sigma_B=12,6, x_B=48,55, n=100 в формулу, окончательно получим искомый доверительный интервал:

    [48,55-frac{1,96cdot 12,6}{10}<a<48,55+frac{1,96cdot 12,6}{10}]

    [48,55-2,47<a<48,55+2,47]

    [46,08<a<51,02]

Интервальной оценкой (с надежностью gamma) среднего квадратического отклонения sigma нормально распределенного количественного признака Х по «исправленному» выборочному среднему квадратическому отклонению S служит доверительный интервал

S(1-q)<sigma<S(1+q),    (при q<1), (*)

0<sigma<S(1+q),      (при q>1),

где q — находят по таблице приложения по заданным n и gamma.

По данным gamma=0,95 и n=100 по таблице приложения 4 найдем q=0,143. Так как q<1, то, подставив S=sqrt{frac{n}{n-1}D_B}=sqrt{frac{100}{99}cdot 158,73}approx 12,66, quad quad q=0,143 в соотношение (*), получим доверительный интервал:

    [12,66(1-0,143)<sigma<12,66(1+0,143)]

    [10,85<sigma<14,47]

Добавить комментарий