Как найти общее количество исходов?
Общая формула, которая позволяет найти число сочетаний из n объектов по k имеет вид: Ckn=n! (n−k)!
Как подсчитать количество возможных вариантов?
Число различных перестановок из n элементов обозначается Pn и вычисляется по формуле Pn=n!.
Как посчитать количество возможных комбинаций без повторений?
Подсчет количества Сочетаний Число всех Сочетаний из n элементов по k можно вычислить по формуле: Например, количество 4-х элементных комбинаций из 6 чисел {1; 2; 3; 4; 5; 6} равно 15=6!/(4!( 6-4)!)
Сколько комбинаций из 3 цифр без повторений?
Всего – 27 комбинаций.
Как рассчитать вероятность?
Так как в задаче происходит только одно испытание и оно связано с отбором/выбором по определенному условию, речь идет о классическом определении вероятности. Запишем формулу: P=m/n, где m – число исходов, благоприятствующих осуществлению события X, а n – число всех равновозможных элементарных исходов.
Когда события независимы?
В теории вероятностей два случайных события называются независимыми, если наступление одного из них не изменяет вероятность наступления другого. Аналогично, две случайные величины называют независимыми, если известное значение одной из них не дает информации о другой.
Как посчитать количество комбинаций в коде?
если код из 4 символов А, В, С, Д, то 256. Количество вариантов четырехзначных кодов (при отсутствии условия, что все символы должны быть разными) равно N^4, где N — количество символов в том наборе, которым ты пользуешься. Так если код только из цифр, то N=10, а количество разных кодов 10^4=10000.
Сколько комбинаций из 3 цифр от 0 до 9?
Количество комбинаций из 3 цифр В разделе Естественные науки на вопрос Сколько чисел можно составить из комбинации трёх цифр, включая ноль (трёхзначных автомобильных номеров)? заданный автором Недосолить лучший ответ это Если не учитывать число 000, то вы правы, ровно 999!
Как посчитать количество возможных комбинаций из 4 цифр?
Количество вариантов четырехзначных кодов (при отсутствии условия, что все символы должны быть разными) равно N^4, где N — количество символов в том наборе, которым ты пользуешься. Так если код только из цифр, то N=10, а количество разных кодов 10^4=10000.
Сколько уникальных комбинаций из 3 цифр?
Количество комбинаций из 3 цифр В разделе Естественные науки на вопрос Сколько чисел можно составить из комбинации трёх цифр, включая ноль (трёхзначных автомобильных номеров)? заданный автором Недосолить лучший ответ это Если не учитывать число 000, то вы правы, ровно 999!
Сколько комбинаций можно составить из 3 цифр?
Количество комбинаций из 3 цифр В разделе Естественные науки на вопрос Сколько чисел можно составить из комбинации трёх цифр, включая ноль (трёхзначных автомобильных номеров)? заданный автором Недосолить лучший ответ это Если не учитывать число 000, то вы правы, ровно 999!
Сколько комбинаций можно сделать из 3 чисел?
Количество комбинаций можно посчитать по формуле I^n, где n — количество позиций, а I — количество цифр, букв в одной позиции. 10^3=1000. Ваш кодовый замок имеет 1000 комбинаций паролей.
Как посчитать вероятность в процентах?
По определению: P=m/n, m-кол-во благоприятных исходов, n-кол-во всех возможных исходов. Например. Есть 50 билетов из них 3 выигрышных. m=50, n=3, p=3/50=0,06, чтобы найти в процентах нужно это число умножить на 100%, т.
Как рассчитать вероятность совпадения?
Перемножьте вероятности каждого отдельного события. Например, стоит задача Найти вероятность того, что при бросании кубика два раза подряд выпадет 5. Это два независимых события, вероятность каждого из которых равна 1/6. Таким образом, вероятность обоих событий составляет 1/6 x 1/6 = 1/36, то есть 0,027, или 2,7 %.
Как понять что события независимы?
В теории вероятностей два случайных события называются независимыми, если наступление одного из них не изменяет вероятность наступления другого. Аналогично, две случайные величины называют независимыми, если известное значение одной из них не дает информации о другой.
Как понять что события зависимы?
События A и B называются зависимыми, если вероятность одного из них зависит от того, произошло или не произошло другое событие.
Сколько комбинаций можно составить из 3 символов?
Количество комбинаций из 3 цифр В разделе Естественные науки на вопрос Сколько чисел можно составить из комбинации трёх цифр, включая ноль (трёхзначных автомобильных номеров)? заданный автором Недосолить лучший ответ это Если не учитывать число 000, то вы правы, ровно 999!
Разделы:
Математика
Класс:
9
В школьный курс математики включена новая
содержательная линия – элементы статистики,
комбинаторики и теории вероятностей. Включение в
курс алгебры элементарных сведений из
статистики имеет важное общеобразовательное
значение, так как без этих знаний невозможно
разобраться в разнообразной информации.
Простейшие методы обработки и анализа
статистических данных являются главной целью
урока по теме “Варианты и их кратности”.
Использование информационных технологий на
данном уроке позволило отразить поэтапность
проведения урока, сконцентрировать внимание на
основных моментах и объективно оценить знания
учащихся за более короткий срок.
Цель:
- Ввести понятие варианта, показать примеры
обработки статистических данных, используя
введенные понятия. - Закрепить навыки решения комбинаторных задач
простейшего типа; - Повторить понятия и определения комбинаторики.
Девиз урока:
Не нужно нам владеть клинком.
Не ищем славы громкой
Тот побеждает, кто знаком
С искусством мыслить, тонким.
1. Оргмомент.
Сегодня по всей стране проходит “День
здоровья”, поэтому на уроке нам предстоит
выяснить насколько мы выносливы.
2. Разминка.
- Исход эксперимента или наблюдения которого при
реализации данного комплекса условий может
произойти, а может и не произойти? (случайное
событие) - Событие, которое при реализации данного
комплекса условий непременно произойдет?
(достоверное событие) - Событие, которое заведомо не может произойти
при реализации данного комплекса условий.
(невозможное) - Размещения, отличающиеся друг от друга только
порядком расположения элементов. (перестановки) - Выборки, составляемые из элементов, не
отличающиеся по своему объему, но отличающиеся
по составу хотя бы одним элементом. (сочетания с
повторениями)
3. Проверка домашнего задания.
А) 1 ряд “Ловкачи”: выполняет тест по
вариантам, затем взаимопроверка по готовым
ответам.
Б) 3 ряда “Прыжки в длину”: 2 человека с
работают у доски с домашними задачами,
2 человека работают по карточкам. (задачи), 1
человек на интердоске выполняет задание
Сколькими способами в игре “Спортлото” можно выбрать шесть номеров из 49? (С649= |
У Робина – Бобина Барабека 40 соседей. Он решил пригласить двоих из них на обед. Сколько у него способов это сделать (С240 |
В) 2 ряд соревнуются в эстафете 1 вариант и 2
вариант. (Выбрать капитанов)
1 этап эстафеты: “Бег с препятствиями”
Какие из следующих событий достоверные: А – “два попадания при трёх В – “появление не более 18 очков при бросании С – “наугад выбранное трёхзначное число не Д – “наугад выбранное число, составленное из (В, С и Д) |
Какие из следующих событий невозможные: А – “опаздывание ленинградского В – “появление 17 очков при бросании 3 игральных С – “появление слова “мама” при случайном Д – “появление составленного из цифр 1, 2, 3, 7, 8 и (Д) |
2 этап эстафеты: “Состязание капитанов”
О каком событии идёт речь?
1) Измерены длины сторон треугольника. Оказалось, что длина каждой стороны меньше суммы длин двух других сторон. (Достоверное событие) 2) В полночь выпадет снег, а через 24 часа |
1) Произведено три выстрела по мишени. Произошло пять попаданий. (Невозможное событие) 2) Завтра будет контрольная по |
3 этап эстафеты: “Кто быстрее?” (Решить
задачи.)
1) В урне 15 белых и 25 чёрных шаров. Из урны наугад вынимается один шар. Какова вероятность того, что он будет белым? (15/40 = 3/8 = 0, 2) Из слова СОБЫТИЕ случайным образом (4/7 = 0, 571) 3) Одновременно бросают 3 монеты. Сколько (8) |
1) Из русского алфавита случайным образом выбирается одна буква. Какова вероятность того, что она окажется гласной? (10/ 33 2) Абонент забыл последнюю цифру телефонного (5/10 = 1/2 = 0, 5) 3) Одновременно бросают 3 монеты. С какой (2/8 = 1/4 = 0, 25) |
Если выполнили задание 1 ряд, то дополнительно
решить задачи
(Решить задачу.)
Имеется шесть перчаток различных размеров. Сколькими способами можно выбрать из них одну перчатку на левую руку и одну на правую руку так, чтобы эти перчатки были различных размеров? (Решается по правилу |
Гера, Афина и Афродит попросили Париса не только назвать самую красивую из них, но и указать, кто на “втором и третьем месте”. Сколько есть вариантов ответа? (Решается по |
4. Подведение итогов, выставление оценок.
5. Изучение нового материала.
Как только человеку в его деятельности
потребовались количественные характеристики, то
есть числа, тут же появилась статистика.
“Статистика знает все”, утверждал Ильф и
Петров в романе “двенадцать стульев”.
Для изучения, обработки и анализа
количественных данных различных массовых
социально-экономических процессов и явлений
проводят статистические исследования.
“Независимо от того, в какой отрасли знания
получены числовые данные, они обладают
определенными свойствами, для выявления которых
может потребоваться особого рода научный метод
обработки. Последний известен как
статистический метод или, короче, статистика.”
Дж.Юз. М. Кендалл. “Теория статистики”.
Каждое статистическое исследование состоит из
сбора и обработки информации. На основе
полученных данных проводятся выработка
различных прогнозов, оценка их достоверности.
Важной задачей, без которой статистические
данные теряют всякий смысл, является обработка
полученных данных.
Предложить учащимся выполнить задание №1.
№1. Посчитайте длины слов (количество букв) в
приведенном ниже отрывке.
Если хочешь быть здоров, закаляйся 4, 6, 4, 6, 9.
Позабудь про докторов 8, 3, 8.
Водой холодной умывайся. 5, 8, 8.
После его выполнения учащимся задаются
вопросы:
– Что вы сейчас делали? (собирали информацию)
– Какие выводы можно сделать? (можно вычислить
самое длинное слово, самую длинную строку, самую
распространенную букву и т. д.)
Займемся статистическим методами обработки
информации. Для этого нужны новые термины,
принятые в статистике.
Учащимся предлагается раздаточный материал.
1) Все понятно | 2) Почти понятно | 3) Ничего не понятно |
Новый термин |
Простое описание |
Более научный |
Определение |
Общий ряд данных | То, откуда выбирают | Генеральная совокупность |
Множество всех в принципе возможных данных измерения |
Выборка | То, что выбрали | Статистическая выборка, статистический ряд |
Множество данных, реально полученных в данном измерении. |
Варианта | Значение одного из результатов измерения |
Варианта | Одно из значений элементов выборки |
Ряд данных | Значение всех результатов измерения, перечисленных по порядку |
Вариационный ряд | Упорядоченное множество всех вариант |
Кратность варианты | Это сколько раз каждая варианта из ряда данных наблюдается в выборке. |
||
Объем выборки |
Если сложить все кратности | Количество всех произведенных при выборке измерений |
|
Частота варианты | Отношение кратности варианты к объему выборки |
№2.
30 абитуриентов на четырех
вступительных экзаменах набрали в сумме такое
количество баллов (оценки на экзаменах
выставлялись по 5 бальной системе):
20; 19; 12; 13; 16; 17; 15; 14; 16; 20; 15; 19; 20; 20;15; 13; 19; 14;
18; 17; 12; 14; 12; 17; 18; 17; 20; 17; 16; 17.
Составить общий ряд данных выборки.
Выборку из результатов, стоящих на четных местах
и соответствующий ряд данных.
Решение:
После получения 2 дальнейшие экзамены не
сдаются, поэтому сумма баллов не может быть
меньше 12(12 – это 4”тройки”)
Общий ряд данных – все реальные данные
измерения, выписанные в определенном порядке без
повторений. Значит, общий ряд данных состоит из
чисел.
Общий ряд данных: 12; 13; 14; 15; 16; 17; 18; 19; 20.
Выборка из результатов, стоящих на
четных местах состоит из 15 результатов; 19; 13; 17; 14;
20; 19; 20; 13; 14; 17; 14; 17; 17; 17; 17.
Ряд данных – это конечная возрастающая
последовательность: 13; 14; 17; 19; 20.
Перейдём к дальнейшей обработке информации.
Составим таблицу из двух строк. В первой из
которых будет ряд данных.
Каждая варианта из этого ряда какое – то
количество раз наблюдалось в выборке. Это
количество называется кратностью варианты.
Кратность варианты – это сколько
раз каждая варианта из ряда данных наблюдается в
выборке.
Вот и поставим во вторую строку
кратности соответствующих вариант.
Получим таблицу распределения
выборки. Вот как она выглядит.
Варианта | 13 | 14 | 17 | 19 | 20 | Всего 5 вариант |
Кратность варианты | 2 | 3 | 6 | 2 | 2 | Сумма = 15 (объем выборки) |
Если сложить все кратности, то
получится количество всех произведенных при
выборке измерений – объем выборки.
В данном случае объем выборки равен 15.
Далее, при общей оценке данных выборки
не очень важно, что, например, варианта 14 имеет
кратность 3 из общего объема в 15 данных. Удобнее
сказать, что эта варианта составляет или 20% числа
всех измерений. Так и поступают, т.е. делят
кратности вариант на объем выборки и получаем частоты
вариант.
Частотность варианты = КРАТНОСТЬ И
ВАРИАНТЫ
Частоты всех вариант удобно приписывать
третьей строкой уже составленной таблице. Новую
трехстрочную таблицу называют таблицей
распределения частот выборки.
Таблица распределения частот выборки:
Варианта | 13 | 14 | 17 | 19 | 20 | Всего: 5 вариант |
Кратность варианты | 2 | 3 | 6 | 2 | 2 | Сумма = 15 (объем выборки) |
Частота варианты | Сумма = 1 | |||||
13,33% | 20% | 40% | 13,33% | 13,33% |
Обратите внимание, что сумма частот равна 1, и
так бывает всегда.
Иногда частоты удобно измерять в
процентах от общего объема выборки. Тогда
таблицу распределения дополняют еще частотой
частот в процентах. Она получается из предыдущей
строки умножением на 100%.
6. Закрепление
Решить задачу.
№1
После группировки данных эксперимента
получилась такая таблица их распределения:
Варианта | -3 | 0 | 4 | 5 | 9 | 11 | 12 | 15 | 20 |
Кратность варианты | 12 | 9 | 1 | 64 | 34 | 56 | 7 | 8 | 9 |
а) Определите объем выборки.
б) Найдите наиболее часто встретившуюся
варианту.
в) Допишите к таблице третью и четвертую строки
из частот и процентных частот вариант.
г) Найдите сумму чисел в третьей и четвертой
строках.
Решение:
Варианта |
-3 |
0 |
4 |
5 |
9 |
11 |
12 |
15 |
20 |
Всего 9 вариант |
Кратность варианты |
12 |
9 |
1 |
64 |
34 |
56 |
7 |
8 |
9 |
200 |
Частота варианты |
Сумма 1 |
|||||||||
Частота варианты в % |
6 |
4,5 |
0,5 |
32 |
17 |
28 |
3,5 |
4 |
4,5 |
100 |
а) Объем выборки 200; б) 5.
Работа в парах.
Задача № 2
1 ряд. Для выборочной переписи
населения в 20 квартирах были получены следующие
сведения о годах рождения их жильцов (первые две
цифры 1 и 9 не пишутся):
30 |
56 |
98 |
77 |
93 |
31 |
61 |
80 |
87 |
52 |
56 |
32 |
87 |
73 |
93 |
81 |
57 |
52 |
61 |
89 |
90 |
92 |
85 |
87 |
70 |
61 |
93 |
87 |
52 |
53 |
40 |
56 |
48 |
51 |
61 |
87 |
88 |
90 |
52 |
60 |
22 |
34 |
48 |
52 |
88 |
87 |
91 |
62 |
63 |
87 |
39 |
40 |
52 |
87 |
99 |
91 |
87 |
65 |
61 |
55 |
а) Составьте ряд данных.
б) Найдите кратность и частоту вариант 61 и 87.
в) Составьте таблицу кратностей, разбив данные
на интервалы по годам:
№1-от 22 до 30; №2 –от 31 до40;
№3-от 41 до 50; № 4 –от 51 до 60;
№5-от 61 до 70; № 6 – от 71 до 80;
№7 – от 81 до 90; №8 -от 91 до 99.
Решение:
а) 30, 31, 32, 34, 40, 48, 51, 52, 53, 55, 56, 57, 60, 61, 62, 63, 65, 70, 73, 77, 80,
81, 85, 87, 88, 90, 91, 92, 93, 98, 99.
б)
Варианта |
61 |
87 |
Кратность варианты |
5 |
9 |
Частота варианты |
в)
Варианта | 22– 30 | 31-40 | 41 -50 | 51-60 | 61-70 | 71-80 | 81-90 | 91-99 | |
Кратность варианты |
2 |
6 |
2 |
14 |
9 |
3 |
16 |
8 |
Сумма 60 |
Частота варианты | 1 | ||||||||
Частота варианты в % | 3,3% | 10% | 3,3% | 23,3% | 15% | 5% | 26.6 % | 13,3% | 100% |
Самостоятельно определить частоту варианты и
частоту варианты в %
3 ряд. Предлагает задачу Морева С.
Проводя исследование
“Использование статистических методов при
изучении отношения школьников к математике.”
С этой целью был составлен тест,
содержащий 9 заданий. Работу выполняли учащиеся 9
А класса (23 человек). При проверке каждой работы
учитель математики отмечала число верно
выполненных заданий. Я приняла участие в анализе
данных по ее просьбе.
В результате был составлен такой ряд
чисел:
6, 5, 5, 7, 9, 6, 8, 7, 9, 8, 6, 7, 5, 7, 6, 4, 5, 8, 6, 7, 9, 9, 6.
а) Составьте ряд данных.
б) Найдите кратность и частоту вариант 5 и 9.
в) Составьте таблицу кратностей;
г) найдите частоту варианты и частоту варианты
в процентах.
Для того чтобы удобно было
анализировать полученные данные, упорядочим
этот ряд:
4 |
5, 5, 5, 5 |
6, 6, 6, 6, 6, 6 |
7, 7, 7, 7, 7 |
8, 8, 8 |
9, 9, 9, 9. |
Представим полученные данные в виде
таблицы, в которой для каждого числа верно
выполненных заданий, записанного в верхней
строке, укажем в нижней строке количество
появлений этого ила в ряду, т.е. частоту:
Число верно |
4 |
5 |
6 |
7 |
8 |
9 |
Кратность варианты |
1 |
4 |
6 |
5 |
3 |
4 |
Частота варианты |
||||||
Частота варианты в % |
4,3 |
17,4 |
26,1 |
21,7 |
13,1 |
17,4 |
В рассмотренном примере сумма частот
равна общему числу проверяемых работ, т.е. 23.
2 ряду предлагает задачу Ланцова
Татьяна
“Подтверждение статистических характеристик
на примере 7А класса МСОШ №1”
Мне стало интересно, какой средний
рост моих одноклассников. Я провела среди них
опрос, и в результате моего исследования
выяснилось следующее:
143, 157, 165,148, 168,161,159, 157, 164, 167,153, 170,159,158,167,166, 168,168, 173,
169,169,170, 168,
а) Составьте ряд данных.
б) Найдите кратность и частоту вариант 171 и 167.
в) Составьте таблицу кратностей, разбив данные
на интервалы по росту:
№1-от 143 до 149; №2 –от 150 до 155; №3-от 156 до 160; № 4
–от 161 до 165;
№5-от 166 до 170, №6 – от 171 до 175.
Рост, см |
Частота, |
Середина |
143-149 |
2 |
144,5 |
150-155 |
1 |
153,5 |
156-160 |
5 |
157,5 |
161-165 |
3 |
163,5 |
166-170 |
11 |
167,5 |
171-175 |
1 |
173,5 |
7. Домашнее задание:
Решить задачи: № 1; 2.
Задача № 1
В вашем классе соберите данные о месяцах
рождения учеников. Месяца удобнее перечислять по
порядковому номеру.
а) Выпишите ряд данных полученной вами выборки;
б) составьте таблицу распределения из четырех
строк: варианты, кратности, частоты, частоты в
процентах;
в) укажите наиболее и наименее часто
встретившуюся варианту.
Задача № 2
Выборка состоит из всех букв, входящих в
двустишье
“… Это дерево – сосна,
И судьба сосны ясна…”
а) выпишите ряд данных выборки;
б) найдите объем выборки;
в) определите кратность и частоту варианты “о”;
г) какова “наибольшая процентная частота
вариант выборки”.
Конспект.
8. Стадия рефлексии. Подводя итог урока,
необходимо добиться понимания учащимися
следующих важных положений:
На этапе рефлексии учащимся предлагается
составить синквейн и в поэтической форме
выразить свое отношение к изученном материалу.
Справка: СИНКВЕЙН – приём технологии
развития критического мышления, на стадии
рефлексии.
Это короткое литературное произведение,
характеризующее предмет (тему), состоящее из пяти
строк, которое пишется по определённому плану.
Слово “синквейн” происходит от французского
слова “пять”.
ПРАВИЛА НАПИСАНИЯ СИНКВЕЙНА
1 строчка – одно слово – название
стихотворения, тема, обычно существительное.
2 строчка – два слова (прилагательные или
причастия). Описание темы, слова можно соединять
союзами и предлогами.
3 строчка – три слова (глаголы). Действия,
относящиеся к теме.
4 строчка – четыре слова – предложение.
Фраза, которая показывает отношение автора к
теме в 1-ой строчке.
5 строчка – одно слово – ассоциация,
синоним, который повторяет суть темы в 1-ой
строчке, обычно существительное.
Пример синквейна:
Статистика
Ускользающая, непознанная.
Осознать, изучить, понять
Статистика есть дизайн информации.
Реальность.
9. Завершение урока
Завершить урок хочется такой историей.
– Доктор, – спрашивает пациент – пойдут ли у
меня дела на поправку?
– Несомненно, – отвечает врач, – потому что
статистика говорит, что один из ста
выздоравливает при этой болезни.
– Но почему же при этом именно я должен
выздороветь?
– Потому что вы как раз и есть мой сотый
пациент.
Презентация
Приложение
18.02.2010
Приступим к изучению элементов математической статистики, в которой разрабатываются научно обоснованные методы сбора статистических данных и их обработки.
Пусть требуется изучить множество однородных объектов (это множество называют статистической совокупностью) относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить соответствие детали стандартам, а количественным — контролируемый размер детали.
Лучше всего осуществить сплошное обследование, т. е. изучить каждый объект. Однако в большинстве случаев по разным причинам это сделать невозможно. Препятствовать сплошному обследованию может большое число объектов, их недоступность и т. п. Если, например, нужно знать среднюю глубину воронки при взрыве снаряда из опытной партии, то, проводя сплошное обследование, мы должны будем уничтожить всю партию.
Если сплошное обследование невозможно, то из всей совокупности выбирают для изучения часть объектов.
Статистическая совокупность, из которой отбирают часть объектов, называется генеральной совокупностью. Множество объектов, случайно отобранных из генеральной совокупности, называется выборкой.
Число объектов генеральной совокупности и выборки называется соответственно объемом генеральной совокупности и объемом выборки.
Пример. Плоды одного дерева (200 шт.) обследуют на наличие специфического для данного сорта вкуса. Для этого отбирают 10 шт. Здесь 200 —объем генеральной совокупности, а 10 —объем выборки.
Если выборку отбирают по одному объекту, который обследуют и снова возвращают в генеральную совокупность, то выборка называется повторной. Если объекты выборки уже не возвращаются в генеральную совокупность, то выборка называется бесповторной. На практике чаще используется бесповторная выборка. Если объем выборки составляет небольшую долю объема генеральной совокупности, то разница между повторной и бесповторной выборками незначительна
Свойства объектов выборки должны правильно отражать свойства объектов генеральной совокупности, или, как говорят, выборка должна быть репрезентативной (представительной). Считается, что выборка репрезентативна, если все объекты генеральной совокупности имеют одинаковую вероятность попасть в выборку, т. е. выбор осуществляется случайно. Например, для того чтобы оценить будущий урожай, можно сделать выборку из генеральной совокупности еще не созревших плодов и исследовать их характеристики (массу, качество и пр.). Если вся выборка будет взята с одного дерева, то она не будет репрезентативной. Репрезентативная выборка должна состоять из случайно выбранных плодов со случайно выбранных деревьев.
Статистическое распределение выборки. Полигон. Гистограмма
Пусть из генеральной совокупности извлечена выборка, причем , наблюдалось раз, раз, раз и объем выборки. Наблюдаемые значения называются вариантами, а последовательность вариант, записанная в возрастающем порядке,— вариационным рядом. Числа наблюдений называют частотами, а их отношения к объему выборки — относительными частотами. Отметим, что сумма относительных частот равна единице:
Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот. Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (непрерывное распределение). В качестве частоты, соответствующей интервалу, принимают сумму частот вариант, попавших в этот интервал.
Заметим, что в теории вероятностей под распределением понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике — соответствие между наблюдаемыми вариантами и их частотами или относительными частотами.
Пример:
Перейдем от частот к относительным частотам в следующем распределении выборки объема n = 20:
Найдем относительные частоты:
Поэтому получаем следующее распределение:
Для графического изображения статистического распределения используются полигоны и гистограммы.
Для построения полигона в декартовых координатах на оси Ох откладывают значения вариант на оси Оу— значения частот (относительных частот ).
Пример:
Рис. 14 представляет собой полигон следующего распределения:
Полигоном обычно пользуются в случае небольшого количества вариант. В случае большого количества вариант и в случае непрерывного распределения признака чаще строят гистограммы. Для этого интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько частичных интервалов шириной h и находят для каждого частичного интервала — сумму частот вариант, попавших в і-й интервал. Затем на этих интервалах как на основаниях строят прямоугольники с высотами (или , где n —объем выборки). Площадь i-го частичного прямоугольника равна
(или ). Следовательно, площадь гистограммы равна сумме всех частот (или относительных частот), т. е. объему выборки (или единице).
Пример:
Рис. 15 показывает гистограмму непрерывного распределения объема n =100, заданного следующей таблицей:
Оценки параметров генеральной совокупности по ее выборке
Выборка как набор случайных величин
Пусть имеется некоторая генеральная совокупность, каждый объект которой наделен количественным признаком X. При случайном извлечении объекта из генеральной совокупности становится известным значение х признака X этого объекта. Таким образом, мы можем рассматривать извлечение объекта из генеральной совокупности как испытание, X—как случайную величину, а х —как одно из возможных значений X.
Допустим, что из теоретических соображений удалось установить, к какому типу распределений относится признак X. Естественно, возникает задача оценки (приближенного определения) параметров, которыми описывается это распределение. Например, если известно, что изучаемый признак распределен в генеральной совокупности нормально, то необходимо оценить, т. е. приближенно найти математическое ожидание и среднее квадратическое отклонение, так как эти два параметра полностью определяют нормальное распределение.
Обычно в распоряжении исследователя имеются лишь данные выборки генеральной совокупности, например значения количественного признака полученные в результате n наблюдений (здесь и далее наблюдения предполагаются независимыми). Через эти данные и выражают оцениваемый параметр.
Опытные значения признака X можно рассматривать и как значения разных случайных величин с тем же распределением, что и X, и, следовательно, с теми же числовыми характеристиками, которые имеет X. Значит, Величины можно считать независимыми в силу независимости наблюдений. Значения в этом случае называются реализациями случайных величин Отсюда и из предыдущего следует, что найти оценку неизвестного параметра — это значит найти функцию от наблюдаемых случайных величин которая и дает приближенное значение оцениваемого параметра.
Генеральная и выборочная средние. Методы их расчета
Пусть изучается дискретная генеральная совокупность объема N относительно количественного признака X.
Определение:
Генеральной средней (или а) называется среднее арифметическое значений признака генеральной совокупности.
Если все значения признака генеральной совокупности объема N различны, то
Если же значения признака имеют соответственно частоты причем то
или
Как уже отмечалось (п. 1), извлечение объекта из генеральной совокупности есть наблюдение случайной величины X.
Пусть все значения различны. Так как каждый объект может быть извлечен с одной и той же вероятностью 1/N, то
т. е.
Такой же итог следует, если значения имеют соответственно частоты
В случае непрерывного распределения признака X по определению полагают
Пусть для изучения генеральной совокупности относительно количественного признака X произведена выборка объема n.
Определение:
Выборочной средней , называется среднее арифметическое значений признака выборочной совокупности.
Если все значения признака выборки объема n различны, то
Если же значения признака имеют соответственно частоты причем , то
или
Пример:
Выборочным путем были получены следующие данные о массе 20 морских свинок при рождении (в г): 30, 30, 25, 32, 30, 25, 33, 32, 29, 28^27, 36, 31, 34, 30, 23, 28, 31, 36, 30. Найдем выборочную среднюю
Согласно формуле (4.4), имеем:
Итак,
Далее, не уменьшая общности рассуждений, будем считать значения признака различными.
Разумеется, выборочная средняя для различных выборок того же объема n из той же генеральной совокупности будет получаться, вообще говоря, различной. И это не удивительно — ведь извлечение і-го по счету объекта есть наблюдение случайной величины а их среднее арифметическое
есть тоже случайная величина.
Таким образом, всевозможные получающиеся выборочные средние есть возможные значения случайной величины , которая называется выборочной средней случайной величиной.
Найдем , пользуясь тем, что (см. п. 1).
С учетом свойств математического ожидания (см. гл. II) получаем:
Итак, (математическое ожидание выборочной средней) совпадает с а (генеральной средней).
Теперь найдем Так как (п. 1) и независимы, то, согласно свойствам дисперсии (см. гл. II), получаем
T. e.
Наконец, отметим, что если варианты —большие числа, то для облегчения вычисления выборочной средней применяют следующий прием. Пусть С — константа.
Так как
то формулу (4.3) можно преобразовать к виду
За константу С (так называемый ложный нуль) берут некоторое среднее значение между наименьшим и наибольшим значениями х, (і- 1, 2, …, n).
Пример:
Имеется выборка:
Требуется найти
Возьмем С =72,00 и вычислим разности
Их сумма: их среднее арифметическое Выборочная средняя
Генеральная и выборочная дисперсии
Для того чтобы охарактеризовать рассеяние значений количественного признака X генеральной совокупности вокруг своего среднего значения, вводят следующую характеристику — генеральную дисперсию.
Определение:
Генеральной дисперсией D, называется среднее арифметическое квадратов отклонений значений признака X генеральной совокупности от генеральной средней
Если все значения признака генеральной совокупности объема N различны, то
Если же значения признака имеют соответственно
частоты причем то
Пример:
Генеральная совокупность задана таблицей распределения:
Найдем генеральную дисперсию.
Согласно формулам (4.1) и (4.7), имеем:
Генеральным средним квадратическим отклонением (стандартом) называется
Пусть все значения различны.
Найдем дисперсию признака X, рассматриваемого как случайная величина:
Так как (см. п. 2), то
т. е.
Таким образом, дисперсия D(X) равна
Такой же итог можно получить, если значения имеют соотвественно частоты
В случае непрерывного распределения признака X по определению полагают
С учетом формулы (4.8) формула (4.5) (п. 2) перепишется в виде
откуда или Величина называется средней квадратической ошибкой.
Для того чтобы охарактеризовать рассеяние наблюдаемых значений количественного признака выборки вокруг своего среднего значения вводят выборочную дисперсию.
Определение:
Выборочной дисперсией , называется среднее арифметическое квадратов отклонений наблюдаемых значений признака X от выборочной средней
Если все значения признака выборки объема n различны, то
Если же значения признака имеют соответственно частоты причем то
Пример:
Пусть выборочная совокупность задана таблицей распределения:
Найдем выборочную дисперсию. Согласно формулам (4.4) и (4.10), имеем:
Выборочным средним квадратическим отклонением (стандартом) называется квадратный корень из выборочной дисперсии:
В условиях примера 2 получаем, что
Далее, не уменьшая общности рассуждений, будем считать значения признака различными.
Выборочную дисперсию, рассматриваемую нами как случайная величина, будем обозначать
Теорема:
Математическое ожидание выборочной дисперсии равно т.е.
Доказательство:
С учетом свойств математического ожидания (см. гл. II) получаем
Вычислим одно слагаемое Имеем
Вычислим по отдельности эти математические ожидания.
Согласно свойству I дисперсии (см. гл. И) и формулам (4.2), (4.8) имеем
Далее, с учетом свойства 4 математического ожидания (см. гл. II)
но слагаемое этой суммы, у которого второй индекс равен і, т.е. , равно У всех остальных слагаемых индексы разные. Поэтому в силу независимости (см. гл. II)
Так как имеется n-1 таких слагаемых, то
В силу свойства 1 дисперсии (см. гл. П) получаем
Нами уже найден (см. пп. 2 и 3):
Поэтому
Таким образом,
и не зависит от индекса суммирования і. Поэтому
Что и требовалось доказать.
В заключение этого пункта отметим, что если варианты — большие числа, то для облегчения вычисления выборочной дисперсии , формулу (4.9) преобразуют к следующему виду:
где С—ложный нуль.
Действительно, с учетом формулы (4.3) имеем
откуда
Пример:
Для выборки, указанной в примере 2 из п. 2, найдем (ложный нуль остается прежним С= 72,00)
Наконец, согласно формуле (4.11)
Оценки параметров распределения
Одной из задач статистики является оценка параметров распределения случайной величины X по данным выборки. При этом в теоретических рассуждениях считают, что генеральная совокупность бесконечна. Это делается для того, чтобы можно было переходить к пределу при где n — объем выборки. Для оценки параметров распределения X из данных выборки составляют выражения, которые должны служить оценками неизвестных параметров. Например, (см. п. 2) является оценкой генеральной средней, а (см. п. 3) — оценкой генеральной дисперсии Обозначим через оцениваемый параметр, через — оценку этого параметра является выражением^ составленным из (см. п. 1)]. Для того чтобы оценка давала хорошее приближение, она должна удовлетворять определенным требованиям. Укажем эти требования.
Несмещенной называют оценку математическое ожидание которой равно оцениваемому параметру , т. е. в противном случае оценка называется смещенной.
Пример:
Оценка является несмещенной оценкой генеральной средней а, так как (см. п. 2).
Пример:
Оценка является смещенной оценкой генеральной дисперсии так как, согласно установленной выше теореме (см. п. 3),
Пример:
Наряду с выборочной дисперсией рассматривают еще так называемую исправленную дисперсию которая является также оценкой генеральной дисперсии. Для с учетом установленной выше теоремы (см. п. 3) имеем
Таким образом, оценка в отличие от оценки является несмещенной оценкой генеральной дисперсии. Явное выражение для имеет вид
T. e.
Естественно в качестве приближенного неизвестного параметра брать несмещенные оценки для того, чтобы не делать систематической ошибки в сторону завышения или занижения.
Состоятельной называют такую оценку параметра , что для любого наперед заданного числа вероятность при стремится к единице*. Это значит, что при достаточно больших n можно с вероятностью, близкой к единице, т. е. почти наверное, утверждать, что оценка отличается от оцениваемого параметра меньше, чем на
Очевидно, такому требованию должна удовлетворять всякая оценка, пригодная для практического использования.
Заметим, что несмещенная оценка будет состоятельной, если при дисперсия стремится к нулю: Это следует из неравенства Чебышева ((2.33) см. § 2.8, п. 1).
Пример:
Как было установлено (см. п. 3), . Отсюда следует, что несмещенная оценка является и состоятельной, так как
Можно показать, что несмещенная оценка является также состоятельной. Поэтому в качестве оценки генеральной дисперсии принимают исправленную дисперсию. Заметим, что оценки отличаются множителем, который стремится к 1 при . На практике не различают при n > 30.
Для оценки генерального среднего квадратического отклонения используют исправленное среднее квадратическое отклонение, которое равно квадратному корню из исправленной дисперсии:
Левые части формул (4.12), (4.13), в которых случайные величины заменены их реализациями выборочной средней будем обозначать соответственно через и s
Отметим, что если варианты — большие числа, то для облегчения вычисления формулу для аналогично формуле (4.9) преобразуют к виду
где С—ложный нуль.
Оценки, обладающие свойствами несмещенности и состоятельности, при ограниченном числе опытов могут отличаться дисперсиями.
Ясно, что чем меньше дисперсия оценки, тем меньше вероятность грубой ошибки при определении приближенного значения параметра. Поэтому необходимо, чтобы дисперсия оценки была минимальной. Оценка, обладающая таким свойством, называется эффективной.
Из отмеченных требований, предъявляемых к оценке, наиболее важными являются требования несмещенности и состоятельности.
Пример:
С плодового дерева случайным образом отобрано 10 плодов. Их массы (в граммах) записаны в первой колонке приведенной ниже таблицы. Обработаем статистические данные выборки. Для вычисления и s пo формулам (4.6) и (4.14) введем ложный нуль С=250 и все необходимые при этом вычисления сведем в указанную таблицу:
Следовательно,
Отсюда
Итак, оценка генеральной средней массы плода равна 243 г со средней квадратической ошибкой 9 г.
Оценка генерального среднего квадратического отклонения массы плода равна 28 г.
Пример:
Через каждый час измерялось напряжение в электросети. Результаты измерений (в вольтах) представлены в следующей таблице:
Найти оценки для математического ожидания и дисперсии результатов измерений. Оценки для математического ожидания и дисперсии найдем по формулам (6) и (14), положив С=220. Все необходимые вычисления приведены в нижеследующей таблице:
Следовательно,
Доверительные интервалы для параметров нормального распределения
Пусть — оцениваемый параметр, — его оценка, составленная из
Если известно, что оценка является несмещенной и состоятельной, то по данным выборки вычисляют значение и считают его приближением истинного значения . При этом среднее квадратическое отклонение (если его вообще вычисляют) оценивает порядок ошибки. Такие оценки называются точечными. Например, в предыдущем параграфе речь шла о точечных оценках генеральной средней и генеральной дисперсии. В общем случае, когда о распределении признака X ничего неизвестно, это уже немало.
Если же о распределении имеется какая-либо информация, то можно сделать больше.
Здесь речь будет идти об оценке параметров а и случайной величины, имеющей нормальное распределение. Это очень важный случай. Например (см. § 2.7), результат измерения имеет нормальное распределение. В этом случае становится возможным применять так называемое интервальное оценивание, к изложению которого мы и переходим.
Пусть — некоторое число. Если выполняется неравенство что можно записать в виде то говорят, что интервал покрывает параметр . Однако невозможно указать оценку такую, чтобы событие было достоверным, поэтому мы будем говорить о вероятности этого события. Число называется точностью оценки
Определение:
Надежностью (доверительной вероятностью) оценки параметра 0 для заданного называется вероятность того, что интервал покроет параметр , т. е.
Заметим, что после того, как по данным выборки вычислена оценка , событие становится или достоверным, или невозможным, так как интервал или покрывает , или нет. Но дело в том, что параметр нам неизвестен. Поэтому мы называем надежностью уже вычисленной оценки вероятность того, что интервал , найденный для произвольной выборки, покроет . Если мы сделаем много выборок объема n и для каждой из них построим интервал , то доля тех выборок, чьи интервалы покроют , равна .
Иными словами, есть мера нашего доверия вычисленной оценке
Ясно, что, чем меньше число , тем меньше надежность .
Определение:
Доверительным интервалом называется найденный по данным выборки интервал , который покрывает параметр с заданной надежностью .
Надежность обычно принимают равной 0,95 или 0,99, или 0,999.
Конечно, нельзя категорически утверждать, что найденный доверительный интервал покрывает параметр . Но в этом можно быть уверенным на 95% при = 0,95, на 99% при =0,99 и т. д. Это значит, что если сделать много выборок, то для 95% из них (если, например, = 0,95) вычисленные доверительные интервалы действительно покроют .
Доверительный интервал для математического ожидания при известном
Доверительный интервал для математического ожидания при известном
В некоторых случаях среднее квадратическое отклонение о ошибки измерения (а вместе с нею и самого измерения) бывает известно. Например, если измерения осуществляются одним и тем же прибором при одних и тех же условиях.
Итак, пусть случайная величина X распределена нормально с параметрами а и , причем известно. Построим доверительный интервал, покрывающий неизвестный параметр а с заданной надежностью . Данные выборки есть реализации случайных величин имеющих нормальное распределение с параметрами а и (§ 4.2, п. 1). Оказывается, что и выборочная средняя случайная величина тоже имеет нормальное распределение (это мы примем без доказательства). При этом (см. § 4.2, пп. 2, 3)
Потребуем, чтобы выполнялось соотношение где —заданная надежность. Пользуясь формулой (2.27) (§ 2.7, п. 2), получим
или
где
Найдя из равенства (4.15) можем написать
Так как Р задана и равна , то окончательно имеем (для получения рабочей формулы выборочную среднюю заменяем на ):
Смысл полученного соотношения таков: с надежностью у можно утверждать, что доверительный интервал покрывает неизвестный параметр а; точность оценки . Здесь число t определяется из равенства (оно следует из по таблице приложения 3.
Как уже упоминалось, надежность обычно принимают равной или 0,95 или 0,99, или 0,999.
Пример:
Признак X распределен в генеральной совокупности нормально с известным = 0,40. Найдем по данным выборки доверительный интервал для а с надежностью = 0,99, если n = 20, = 6,34.
Для находим по таблице приложения 3
t=2,58. Следовательно, . Границы доверительного интервала 6,34 — 0,23 = 6,11 и 6,34 + 0,23 = 6,57. Итак, доверительный интервал (6,11; 6,57) покрывает а с надежностью 0,99.
Доверительный интервал для математического ожидания при неизвестном
Доверительный интервал для математического ожидания при неизвестном .
Пусть случайная величина X имеет нормальное распределение с неизвестными нам параметрами а и . Оказывается, что случайная величина (ее возможные значения будем обозначать через t)
где n —объем выборки; — выборочная средняя; S—исправленное среднее квадратическое отклонение, имеет распределение, не зависящее от а и . Оно называется распределением Стьюдента*.
Плотность вероятности распределения Стьюдента дается формулой
где коэффициент зависит от объема выборки.
Потребуем, чтобы выполнялось соотношение
где —заданная надежность.
Так как S(t, n) — четная функция от t, то, пользуясь формулой
(2.15) (см. § 2.5), получим
Отсюда
Следовательно, приходим к утверждению: с надежностью можно утверждать, что доверительный интервал покрывает неизвестный параметр а, точность оценки -. Здесь случайные величины и S заменены неслучайными величинами и s, найденными по выборке.
В приложении 4 приведена таблица значений для различных значений n и обычно задаваемых значений надежности.
Заметим, что при распределение Стьюдента практически не отличается от нормированного нормального распределения
(см. § 2.7, п. 2). Это связано с тем, что
Пример. Признак X распределен в генеральной совокупности нормально. Найдем доверительный интервал для с надежностью =0,99, если Для надежности =0,99 и n = 20 находим по таблице приложения 4 Следовательно, . Концы доверительного интервала 6,34-0,26 =
= 6,08 и 6,34 + 0,26 = 6,60. Итак, доверительный интервал (6,08; 6,60) покрывает с надежностью 0,99.
Доверительный интервал для среднего квадратического отклонения
Для нахождения доверительного интервала для среднего квадратического отклонения будем использовать следующее предложение, устанавливаемое аналогично двум предыдущим (пп. 2 и 3).
С надежностью можно утверждать, что доверительный интервал покрывает неизвестный параметр ; точность оценки
В приложении 5 приведена таблица значений для различных значений n и обычно задаваемых значений надежности .
Пример:
Признак X распределен в генеральной совокупности нормально. Найдем доверительный интервал для с надежностью =0,95, если n = 20, s = 0,40.
Для надежности =0,95 и n = 20 находим в таблице приложения 5 q = 0,37. Далее, sq = 0,40 0,37 = 0,15. Границы доверительного интервала 0,40-0,15 = 0,25 и 0,40 + 0,15 = 0,55. Итак, доверительный интервал (0,25; 0,55) покрывает с надежностью 0,95.
Пример:
На ферме испытывалось влияние витаминов на прибавку в массе телят. С этой целью было осмотрено 20 телят одного возраста. Средняя масса их оказалась равной 340 кг, а «исправленное» среднее квадратическое отклонение — 20 кг.
Определим: 1) доверительный интервал для математического ожидания а с надежностью 0,95; 2) доверительный интервал для среднего квадратического отклонения с той же надежностью.
При решении задачи будем исходить из предположения, что данные пробы взяты из нормальной генеральной совокупности.
Решение:
1) Согласно условиям задачи, n = 20.
Пользуясь распределением Стьюдента, для надежности у=0,95 и n = 20 находим в таблице приложения 4 Следовательно, Границы доверительного интервала 340-9,4 =
= 330,6 и 340 + 9,4 = 349,4. Итак, доверительный интервал (330,6; 349,4) покрывает а с надежностью 0,95.
Можно считать, что в данном случае истинная масса измерена 9 4 достаточно точно (отклонение порядка ).
2) Для надежности у =0,95 и n = 20 находим в таблице приложения 5 q = 0,37. Далее, sq = 20 * 0,37 = 7,4. Границы доверительного интервала 20 — 7,4 = 12,6 и 20 + 7,4 = 27,4. Таким образом, 12,6 < < 27,4, откуда можно заключить, что определено неудовлетворительно (отклонение порядка — почти половина!). Чтобы сузить доверительный интервал при той же надежности, необходимо увеличить число проб n.
Примечание. Выше предполагалось, что q<1. Если q> 1, то, учитывая, что >0, получаем 0<<s + sq. Значения q и в этом случае определяются по таблице приложения 5.
Пример:
Признак X генеральной совокупности распределен нормально. По выборке объема n = 10 найдено «исправленное» среднее квадратическое отклонение s = 0,16. Найдем доверительный интервал для с надежностью 0,999.
Для надежности у = 0,999 и n= 10 по таблице приложения 5 находим q=1,80.
Следовательно, искомый доверительный интервал таков’
или
Оценка истинного значения измеряемой величины
Пусть проводится n независимых равноточных измерений* некоторой физической величины, истинное значение а которой неизвестно. Будем рассматривать результаты отдельных измерений как случайные величины Эти величины независимы (измерения независимы), имеют одно и то же математическое ожидание а (истинное значение измеряемой величины), одинаковые дисперсии (измерения равноточны) и распределены нормально (такое допущение подтверждается опытом). Таким образом, все предположения, которые были сделаны при выводе доверительных интервалов в пп. 2 и 3 настоящего параграфа, выполняются, следовательно, мы вправе использовать полученные в них предложения. Так как обычно неизвестно, следует пользоваться предложением, найденным в п. 3 данного параграфа.
Пример:
По данным девяти независимых равноточных измерений физической величины найдены среднее арифметическое результатов отдельных измерений и «исправленное» среднее квадратическое отклонение s = 5,0. Требуется оценить истинное значение а измеряемой величины с надежностью у = 0,99.
Истинное значение измеряемой величины равно ее математическому ожиданию. Поэтому задача сводится к оценке математического ожидания (при неизвестном ) при помощи доверительного интервала
покрывающего а с заданной надежностью у=0,99.
Пользуясь таблицей приложения 4 по у=0,99 и n = 9, находим
Найдем точность оценки:
Границы доверительного интервала
и
Итак, с надежностью у=0,99 истинное значение измеренной величины а заключено в доверительном интервале 36,719<а< 47,919.
Оценка точности измерений
В теории ошибок принято точность измерений (точность прибора) характеризовать с помощью среднего квадратического отклонения случайных ошибок измерений. Для оценки используют «исправленное» среднее квадратическое отклонение s. Поскольку обычно результаты измерений независимы, имеют одно и то же математическое ожидание (истинное значение измеряемой величины) и одинаковую дисперсию (в случае равноточных измерений), то утверждение, приведенное в п. 4, применимо для оценки точности измерений.
Пример:
По 16 независимым равноточным измерениям найдено «исправленное» среднее квадратическое отклонение s=0,4. Найдем точность измерений с надежностью у = 0,99.
Как отмечено выше, точность измерений характеризуется средним квадратическим отклонением о случайных ошибок измерений. Поэтому задача сводится к отысканию доверительного интервала покрывающего с заданной надежностью у=0,99 (см. п. 4). По таблице приложения 5 по у = 0,99 и n=16 найдем q = 0,70. Следовательно, искомый доверительный интервал таков:
или
Решение заданий и задач по предметам:
- Теория вероятностей
- Математическая статистика
Дополнительные лекции по теории вероятностей:
- Случайные события и их вероятности
- Случайные величины
- Функции случайных величин
- Числовые характеристики случайных величин
- Законы больших чисел
- Статистические оценки
- Статистическая проверка гипотез
- Статистическое исследование зависимостей
- Теории игр
- Вероятность события
- Теорема умножения вероятностей
- Формула полной вероятности
- Теорема о повторении опытов
- Нормальный закон распределения
- Определение законов распределения случайных величин на основе опытных данных
- Системы случайных величин
- Нормальный закон распределения для системы случайных величин
- Вероятностное пространство
- Классическое определение вероятности
- Геометрическая вероятность
- Условная вероятность
- Схема Бернулли
- Многомерные случайные величины
- Предельные теоремы теории вероятностей
- Оценки неизвестных параметров
Содержание:
Математическая статистика возникла (XVII в.) и создавалась параллельно с теорией вероятностей. Дальнейшее развитие математической статистики (вторая половина ХІХ и начало ХХ вв.) обязано, в первую очередь, П.Л.Чебышеву, А.А.Маркову, А.М.Ляпунову, а также К.Гауссу, А.Кетле, К.Пирсону и др. В ХХ в. наиболее существенный вклад в математическую статистику был сделан советскими математиками (В.И.Романовский, А.Н.Колмогоров и др.), а также английскими (Стьюдент, Р.Фишер, Э.Пирсон) и американскими (Ю.Нейман,
А.Вальд) учёными.
Установление закономерностей, которым подчинены массовые случайные явления, основано на изучении статистических данных – результатах наблюдений, то есть основу исследований в математической статистике составляют данные наблюдений или опытов над случайными величинами.
Первая задача математической статистики – указать способы сбора и группировки (если данных
очень много) статистических сведений, в том числе определение объёма необходимых экспериментов до начала и в ходе исследования. Вторая задача математической статистики – разработать методы анализа статистических данных, в зависимости от целей исследования.
Изучение тех или иных явлений методами математической статистики служит средством решения многих вопросов, выдвигаемых наукой и практикой (правильная организация технологического процесса, наиболее целесообразное планирование и др.). Итак, задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов.
Генеральная и выборочная совокупности
Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным – контролируемый размер детали. Иногда проводят сплошное обследование, то есть обследуют каждый из
объектов совокупности относительно признака, которым интересуются. На практике, однако, сплошное обследование применяется сравнительно редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование практически не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов и
подвергают их изучению.
Выборочной совокупностью, или просто выборкой, называют совокупность случайно отобранных объектов.
Генеральной совокупностью называют совокупность объектов, из которых производится выборка.
Объёмом совокупности (выборочной или генеральной) называют число объектов этой совокупности.
Например, если из 1000 деталей отобрано для обследования 100 деталей, то объём генеральной совокупности N = 1 000, а объём выборки n = 100. Часто генеральная совокупность содержит конечное число объектов. Однако, если это число достаточно велико, то иногда в целях упрощения
вычислений, или для облегчения теоретических выводов, допускают, что генеральная совокупность состоит из бесчисленного множества объектов. Такое допущение оправдывается тем, что увеличение объёма генеральной совокупности (достаточно большого объёма) практически не сказывается на результатах обработки данных выборки. При этом, что важно, для того чтобы по данным выборки можно было достаточно уверенно судить об интересующем нас признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Это требование коротко формулируют так: выборка должна быть репрезентативной (представительной). В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если её осуществить случайно: каждый объект выборки отобран случайно из генеральной совокупности, при этом все объекты имеют одинаковую вероятность попасть в выборку.
При составлении выборки можно поступать двояко: после того, как объект отобран и над ним произведено наблюдение, он может быть возвращён, либо не возвращён в генеральную совокупность. В соответствии с этим, выборки подразделяют на повторные и бесповторные. Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность. Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается. Если объём генеральной совокупности достаточно велик, а выборка составляет лишь незначительную часть этой совокупности, то различие между повторной и бесповторной выборкам стирается; в предельном случае, когда рассматривается бесконечная генеральная совокупность, а выборка имеет конечный объём, это различие исчезает.
На практике применяются различные способы отбора. Принципиально эти способы можно подразделить на два вида:
1. Отбор, не требующий расчленения генеральной совокупности на части. Сюда относится, так называемый, простой случайный отбор (как повторный, так и бесповторный), то есть отбор, при котором объекты извлекают по одному из всей генеральной совокупности.
2. Отбор, при котором генеральная совокупность разбивается на части. Сюда относятся:
- – типический отбор – отбор, при котором объекты отбираются не из всей генеральной совокупности, а из каждой её «типической» части (например, если детали изготавливают на нескольких станках, то отбор производят не из всей совокупности деталей, произведённых всеми станками, а из продукции каждого станка в отдельности);
- – механический отбор – отбор, при котором генеральная совокупность «механически» делится на столько групп, сколько объектов должно войти в выборку, и затем из каждой группы отбирается один объект (например, если нужно отобрать 20% изготовленных станком деталей, то отбирают каждую пятую деталь; если требуется отобрать 5% деталей, то отбирают каждую двадцатую деталь и т. д.);
- – серийный отбор – отбор, при котором объекты отбирают из генеральной совокупности не по одному, а «сериями», которые подвергаются сплошному обследованию. Например, если изделия изготавливаются большой группой станков-автоматов, то подвергают сплошному обследованию продукцию только нескольких станков.
Заметим, что серийным отбором пользуются тогда, когда обследуемый признак колеблется в различных сериях незначительно.
Статистическое распределение выборки
В результате статистической обработки материалов можно подсчитать число единиц, обладающих конкретным значением того или иного признака. Каждое отдельное значение признака будем обозначать
Если при изучении результатов выборки отдельные значения признака (варианты) расположим в возрастающем или убывающем порядке и относительно каждой варианты укажем, как часто она встречается в данной совокупности, тополучим статистическое распределение признака, или вариационный ряд. Он характеризует изменение (варьирование) какого-нибудь количественного признака. Следовательно, вариационный ряд представляет собой две строки (или колонки). В одной из них приводятся варианты, в другой – частоты.
Вариация признака может быть дискретной и непрерывной:
- Дискретной называется вариация, при которой отдельные значения признака (варианты) отличаются друг от друга на некоторую конечную величину (обычно целое число). Например: количество детей в семье; оценки, полученные студентами на экзамене; размеры обуви, проданной магазином за день. Если число элементов вариационного ряда велико, то для удобства его изучения образуют интервальный ряд, группируя значения в интервалы. Для интервального ряда частота i m равна числу значений, наблюдавшихся в i -ом интервале. Длина интервала чаще всего берётся одинаковой.
- Непрерывной называется вариация, при которой значения признака могут отличаться одно от другого на сколь угодно малую величину. Например: уровень рентабельности предприятия; процент занятости трудоспособного населения; депозитная ставка коммерческих банков. При непрерывной вариации распределение признака называется интервальным. Частоты относятся не к отдельному значению признака, а ко всему интервалу. Часто значением интервала принимают его середину, то есть центральное значение.
Нередко вместо абсолютных значений частот используют относительные. Для этого можно использовать долю частоты того или иного варианта (а также интервала) в сумме всех частот. Такая величина называется относительной частотой и обозначается w . Для получения относительных частот необходимо соответствующую частоту разделить на сумму всех частот:
где – относительная частота j -ой варианты или интервала . Сумма
всех относительных частот равна единице: Относительные частоты можно выражать и в процентах, тогда их сумма равна 100%.
В интервальном вариационном ряду в каждом интервале различают нижнюю и верхнюю границы интервала: нижняя граница интервала ; верхняя граница интервала ; величина интервала. Как правило, при построении интервальных вариационных рядов в каждый интервал включаются варианты, числовые значения которых больше нижней границы и меньше или равны верхней границе. Интервальные вариационные ряды бывают с одинаковыми и неодинаковыми интервалами. В последнем случае чаще всего встречаются
последовательно увеличивающиеся интервалы. Для выбора оптимальной величины интервала, то есть такой величины, при которой вариационный ряд не будет громоздким и, при этом, будут сохранены все особенности данного явления, можно рекомендовать формулу:
где n – число единиц в совокупности. Так, если в совокупности 200 единиц, наибольший вариант равен 49,961,
а наименьший – 49,918, то
Другими словами, в данном случае оптимальной величиной интервала может служить 0,005.
Гистограмма и полигон статистических распределений
Для наглядности представления вариационного ряда большое значение имеют его графические изображения. Графически вариационный ряд может быть изображён в виде полигона, гистограммы и кумуляты. Полигон распределения (дословно – многоугольник распределения) называют ломанную, которая строится в прямоугольной системе координат. Величина признака откладывается на оси абсцисс, соответствующие частоты (или относительные частоты ) – по оси ординат. Точки соединяют отрезками прямых и получают полигон распределения. Чаще всего полигоны применяются для изображения дискретных вариационных рядов, но их
можно применять также и для интервальных рядов. В этом случае на оси абсцисс откладываются точки, соответствующие серединам данных интервалов. Гистограммой распределения называют ступенчатую фигуру, состоящую из прямоугольников, основанием которых служат частичные интервалы длиною h, а высоты пропорциональны частотам (или относительным частотам) и равны плотность частоты (или – плотность относительной частоты). Для построения гистограммы на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии Заметим, что площадь гистограммы частот (относительных частот) равна сумме всех частот (относительных частот), то есть, равна объему выборки (то есть – единице).
Пример №1
Уровень рентабельности предприятий лёгкой промышленности характеризуется следующими данными:
По приведённым данным построить полигон распределения и гистограмму.
Решение. Воспользовавшись определениями, нетрудно построить полигон распределения и гистограмму (см. рис.)
Кумулятивная кривая (кривая сумм – кумулята) получается при изображении вариационного ряда с накопленными частотами (или относительными частотами) в прямоугольной системе координат. Накопленная частота (или относительная частота) определённой варианты получается суммированием всех частот (относительных частот) вариант, предшествующих данной, с частотой (относительной частотой) этой варианты. При построении кумуляты дискретного признака по оси абсцисс откладывают значения признака (варианты). Ординатами
служат вертикальные отрезки, длина которых пропорциональна накопленной частоте (или относительной частоте) той или иной варианты. Соединением вершин ординат прямыми линиями получаем ломанную (кривую) кумуляту. При построении кумуляты интервального вариационного ряда нижней границе первого интервала соответствует частота (относительная частота), равная нулю, а верхней – вся частота (относительная частота) интервала. Верхней границе второго интервала соответствует накопленная частота (относительная частота) первых двух интервалов (то есть сумма частот (относительных частот) этих интервалов) и т. д.
Пример №2
По данным примера 1 построить кумуляту распределения.
Решение. Воспользовавшись определением и правилом построения кумуляты интервального вариационного ряда, нетрудно построить кумулятивную кривую данного распределения (см. рисунок).
Пример №3
В результате эксперимента получены следующие значения случайной величины X:
3; 6; 8; 11; 6; 10; 7; 9; 7; 3; 4; 8;
7; 9; 4; 9; 11; 7; 8; 4; 10; 5; 6; 7; 2.
Требуется:
а) составить статистический ряд;
б) построить статистическое распределение;
в) изобразить полигон распределения.
Решение. а) Объем выборки n = 25.
Построим статистический ряд данной выборки: в первой строке таблицы укажем все различные значения, принимаемые случайной величиной X; во второй строке укажем, сколько раз она приняла эти значения.
б) Найдем статистическое распределение случайной величины X, для чего в табл. 7.2 заменим вторую строку строкой, содержащей относительные частоты
Контроль:
в) На плоскости построим точки:
Соединим их (рис. 7.3). Полученная ломаная – полигон данного распределения.
Ответ: а) табл. 7.2, б) табл. 7.3, в) рис. 7.3.
Пример №4
В результате эксперимента получены следующие значения случайной величины X:
16; 17; 9; 13; 21; 11; 7; 7; 19; 5; 17; 5; 20;
18; 11; 4; 6; 22; 21; 15; 15; 23; 19; 25; 1.
Требуется:
а) построить интервальный статистический ряд, разбив промежуток [0; 25] на 5 промежутков равной длины;
б) построить гистограмму относительных частот.
Решение.
а) Объем выборки n = 25. По экспериментальным данным составим таблицу (табл. 7.4). В её первой строке укажем промежутки разбиения: [0; 5), [5; 10), [10; 15), [15; 20) [20; 25].
Во второй строке укажем соответствующие числа − сколько раз случайная величина X приняла значение из этого промежутка.
Контроль: 2 + 6 + 3 + 8 + 6 = 25.
По табл. 7.4 составим интервальный статистический ряд, где во второй строке указаны относительные частоты (табл. 7.5).
б) На оси Ox отложим промежутки:
[0; 5), [5; 10), [10; 15), [15; 20) [20; 25]
интервального статистического ряда, а на оси – относительные частоты. Построив по этим данным прямоугольники с основаниями и высотами получим ступенчатую фигуру – гистограмму (рис.7.4)
Ответ: а) табл. 7.4; б) рис. 7.5.
Пример №5
Дан статистический ряд
Найти статистическую функцию распределения и построить её график.
Решение. Воспользовавшись формулой
где n – объем выборки; – число выборочных значений, меньших x, вычисляем:
(1)
Построим график функции
Ответ: а) формула (1); б) рис. 7.5.
Числовые характеристики выборки
В качестве одной из важнейших характеристик вариационного ряда применяют среднюю величину. Математическая статистика различает несколько типов средних величин: арифметическую, геометрическую, гармоническую, квадратическую, кубическую и др. Все перечисленные типы средних могут быть рассчитаны для случаев, когда каждая из вариант вариационного ряда встречается только один раз (тогда средняя называется простой, или невзвешенной) и когда варианты или интервалы повторяются. При этом число повторений вариант или интервалов называют частотой, или статистическим весом, а среднюю, вычисленную с учётом статистического веса, – взвешенной средней.
Для характеристики вариационного ряда один из перечисленных типов средних выбирается не произвольно, а в зависимости от особенностей изучаемого явления и цели, для которой среднее вычисляется.
Практически при выборе того или иного типа средней следует исходить из принципа осмысленности результата при суммировании или при взвешивании. Только тогда средняя применена правильно, когда в результате взвешивания или суммирования получаются величины, имеющие реальный смысл.
Обычно затруднения при выборе типа средней возникают лишь в использовании средней арифметической, или гармонической. Что же касается геометрической и квадратической средних, то их применение обусловлено особыми случаями (см. далее).
Следует иметь в виду, что средняя только в том случае является обобщающей характеристикой, если она применяется к однородной совокупности. В случае использования средней для неоднородных совокупностей можно прийти к неверным выводам. Научной основой статистического анализа является метод статистических группировок, то есть расчленения совокупности на качественно однородные группы.
Все указанные типы средних величин можно получить из формул степенной средней. Если имеются варианты , то среднюю из данных вариант можно рассчитать по формуле простой невзвешенной степенной средней порядка
При наличии соответствующих частот средняя рассчитывается по формуле взвешенной степенной средней:
Здесь – степенная средняя; – показатель степени, определяющий тип средней;
– варианты; – частоты или статистические веса вариантов.
Средняя арифметическая получается из формулы степенной средней при
подстановке значения
- – невзвешенная (простая)
- – взвешенная
Средняя гармоническая получается при подстановке в формулу степенной средней значения
- – невзвешенная (простая)
- – взвешенная
Средняя гармоническая вычисляется тогда, когда средняя предназначается для расчёта сумм слагаемых, обратно пропорциональных величине данного признака, то есть, когда суммированию подлежат не сами варианты, а обратные им величины
Средняя квадратическая получается из формулы степенной средней при подстановке
- – невзвешенная (простая)
- – взвешенная
Средняя квадратическая используется только тогда, когда варианты представляют собой отклонения фактических величин от их средней
арифметической или от заданной нормы.
Средняя геометрическая получается из формулы степенной средней при предельном переходе
Вычисления средней геометрической в значительной мере упрощаются, если воспользоваться логарифмированием. В этом случае получаем:
- – для невзвешенной (простой) средней геометрической
- – для взвешенной
Таким образом, логарифм средней геометрической есть средняя арифметическая из логарифмов вариант. Средняя геометрическая используется главным образом при изучении динамики. Средние коэффициенты и темпы роста также рассчитывают по формулам средней геометрической. Если вычислить различные типы средних для одного и того же вариационного ряда, то числовые их значения будут различаться. При этом средние по своей величине расположатся в определённом порядке. Наименьшей из перечисленных средних окажется средняя гармоническая, затем геометрическая и т. д., наибольшей будет средняя квадратическая. При этом порядок возрастания средних определяется показателем степени z в формуле степенной средней. Так, при z =1 получаем среднюю гармоническую, при z =0 – геометрическую, при z =1 – арифметическую, при z = 2 – квадратическую:
В качестве характеристики вариационного ряда используют медиану , то есть такое значение варьирующего признака, которое приходится на середину упорядоченного вариационного ряда. Если в вариационном ряду 2m +1 случаев, то значение признака у случая m +1 будет медианным. Если в ряду чётное число 2m случаев, то медиана равна средней арифметической из двух серединных значений.
Таким образом, медиана рассчитывается по формуле
- – при нечётном количестве вариантов:
- – при чётном:
При расчёте медианы интервального вариационного ряда сначала находят интервал, содержащий медиану, путём использования накопленных частот (или относительных частот). Медианному интервалу соответствует первая из накопленных частот (или относительных частот), превышающая половину всего объёма совокупности. Для нахождения медианы при постоянстве плотности внутри интервала, содержащего медиану, используют формулу:
где нижняя граница медианного интервала; k – величина медианного интервала; – накопленная частота интервала, предшествующая медианному; – частота медианного интервала.
Медиану можно также определить графически – по кумуляте. Для этого последнюю ординату, пропорциональную суме всех частот (или относительных частот), делят пополам. Из полученной точки восстанавливают перпендикуляр до пересечения с кумулятой. Абсцисса точки пересечения – значение медианы.
Медиана обладает таким свойством: сумма абсолютных величин отклонений вариантов от медианы меньше, чем от любой другой величины (в том числе и от средней арифметической). Другими словами:
Это свойство медианы можно использовать при проектировании расположения трамвайных и троллейбусных остановок, бензоколонок и т. д.
Пример №6
На шоссе 100км имеется 10 гаражей. Для проектирования строительства бензоколонки были собраны данные о числе предполагаемых поездок на заправку с каждого гаража. Результаты обследования приведены в следующей таблице:
Бензоколонку нужно поставить так, чтобы общий пробег машин на заправку был наименьшим.
1-й способ:
Если бензоколонку поставить на середине шоссе, то есть на 50-м километре (средняя арифметическая), то пробеги с учётом числа поездок составят
– в одном направлении:
(50-7)-10 +(50-26)-15+ (50-28)-5+ (50-37)-20 +(50-40)-5 +(50-46)-25 = 1310 км;
– в противоположном:
(60 – 50)-15 + (78 – 50)- 30 + (86 – 50)-10 + (92-50)- 65 = 4080 км .
Общий пробег в оба направления окажется равным 5390 км.
2-й способ:
Уменьшения пробега можно достичь, если бензоколонку поставить на 63,85-м километре, то есть на среднем участке шоссе с учётом числа поездок (средняя арифметическая взвешенная). В этом случае пробеги составят по 2475,75 км в оба направления. Таким образом, общий пробег составит 4951,5 км и окажется меньше, чем в первом способе решения, на 438,5 км.
3-й способ:
Наилучший результат, то есть минимальный общий пробег, получим, если поставить бензоколонку на 78-м километре, что будет соответствовать медиане. Заметим, что медиана вычислена по формуле: При этом вариационный ряд записываем в виде
Следовательно Тогда пробеги составят 3820 км и 990 км
соответственно. Общий пробег, в этом случае, равен 4810 км, то есть он оказался меньше общих пробегов, рассчитанных в предыдущих способах. Модой называется варианта, наиболее часто встречающаяся в данном вариационном ряду. Для дискретного ряда мода, являющаяся характеристикой вариационного ряда, определяется по частотам вариант и соответствует варианте с наибольшей частотой. В случае интервального распределения с равными интервалами, модальный интервал (то есть интервал, содержащий моду) определяется по наибольшей частоте, а при неравных интервалах – по наибольшей плотности. Мода рассчитывается по формуле:
где – нижняя граница модального интервала; k – величина модального интервала; – частота модального интервала; – частота интервала, предшествующего модальному; – частота интервала, следующего за модальным.
Вариационные ряды, в которых частоты вариант, равноотстоящих от средней, равны между собой, называются симметричными. Особенность симметричны вариационных рядов состоит в равенстве трёх характеристик – средней арифметической, моды и медианы, то есть:
(это необходимое, но не достаточное, условие симметричности вариационного ряда). Вариационные ряды, в которых расположение вариант вокруг средней не одинаково, то есть частоты по обе стороны от средней изменяются по-разному, называются асимметричными, или скошенными. Различают асимметрию – левостороннюю и правостороннюю. Средние величины, характеризую вариационный ряд одним числом, не учитывают вариацию признака, между тем эта вариация существует. Для измерения вариации признака в математической статистике применяют ряд способов.
Вариационный размах ( R), или широта распределения, есть разность между наибольшим и наименьшим значениями вариационного ряда:
Вариационный размах представляет собой величину неустойчивую, чрезвычайно зависящую от случайных обстоятельств; применяется для приблизительной оценки вариации.
Среднее линейное отклонение (обозначается d ) представляет собой среднюю арифметическую из абсолютных значений отклонений вариант от средней. В зависимости от отсутствия или наличия частот вычисляют среднее линейное отклонение невзвешенное или взвешенное:
Средний квадрат отклонения, или дисперсия (обозначается D) наиболее часто применяется как мера колеблемости признака. Дисперсии невзвешенную и взвешенную вычисляют по формулам: Таким образом, дисперсия есть средняя арифметическая из квадратов отклонений вариант от их средней арифметической. Квадратный корень из дисперсииназывается среднеквадратическим отклонением. Обобщающими характеристиками вариационных рядов являются моменты
распределения. Характер распределения можно определить с помощью небольшого количества моментов. Средняя из k – х степеней отклонений вариант x от некоторой постоянной величины A (ложный ноль) называется моментом k -го порядка:
При расчёте средних в качестве весов можно использовать частоты, относительные частоты или вероятности. При использовании в качестве весов частот или относительных частот моменты называются эмпирическими, а при использовании вероятностей – теоретическими. Порядок момента определяется величиной k . Эмпирический момент k -го порядка находится как отношение суммы произведений k -х степеней отклонений вариант от постоянной величины A на соответствующие частоты к сумме частот (объём
выборки), то есть
В зависимости от выбора постоянной величины A различают следующее моменты:
1. Если A= 0, то моменты называются начальными. Будем обозначать их через и вычислять по формуле:
Тогда:
- – при k = 0 получаем начальный момент нулевого порядка ;
- – при k =1 получаем начальный момент первого порядка
- – при k =2 получаем начальный момент второго порядка ;
- – при k = 3 получаем начальный момент третьего порядка
- – при k = 4 получаем начальный момент четвёртого порядка
и так далее. На практике чаще всего используют моменты первых четырёх порядков.
2. Если то моменты называются начальными относительно , обозначаютсяи рассчитываются по формуле:
3. Еслисредняя), то моменты называются центральными, обозначаются и вычисляются так:
Тогда
Коэффициентом асимметрии называется отношение центрального момента третьего порядка к кубу среднеквадратического отклонения:
Если полигон вариационного ряда скошен, то есть одна из его ветвей, начиная от вершины, зримо короче другой, то такой ряд называют асимметричным.
Эксцессом называют уменьшенное на три единицы отношение центрального момента четвёртого порядка к четвёртой степени среднеквадратического отклонения:
Кривые распределения, у которых , менее крутые, имеют более плоскую вершину и называются плосковершинными. Кривые распределения, у которых более крутые, имеют более острую вершину и называются островершинными.
Выборки и доверительные интервалы
Пусть у нас имеется большое количество предметов, с нормальным распределением некоторых характеристик (например, полный склад однотипных овощей, размер и вес которых варьируется). Вы хотите знать средние характеристики всей партии товара, но у Вас нет ни времени, ни желания измерять и взвешивать каждый овощ. Вы понимаете, что в этом нет необходимости. Но сколько штук надо было бы взять на выборочную проверку?
Прежде, чем дать несколько полезных для этой ситуации формул напомним некоторые обозначения.
Во-первых, если бы мы все-таки промерили весь склад овощей (это множество элементов называется генеральной совокупностью), то мы узнали бы со всей доступной нам точностью среднее значение веса всей партии. Назовем это среднее значение Х ср.ген. – генеральным средним. Мы уже знаем, что нормальное распределение определяется полностью, если известно его среднее значение и отклонение s. Правда, пока мы ни ни s генеральной совокупности не знаем. Мы можем только взять некоторую выборку, замерить нужные нам значения и посчитать для этой выборки как среднее значение так и среднее квадратическое отклонение
Известно, что если наша выборочная проверка содержит большое количество элементов (обычно n больше 30), и они взяты действительно случайным образом, то s генеральной совокупности почти не будет отличаться от
Кроме того, для случая нормального распределения мы можем пользоваться следующими формулами:
С вероятностью 95%
С вероятностью 99%
В общем виде с вероятностью P(t)
Связь значения t со значением вероятности P(t), с которой мы хотим знать доверительный интервал, можно взять из следующей таблицы:
Таким образом, мы определили, в каком диапазоне находится среднее значение для генеральной совокупности (с данной вероятностью). Если у нас нет достаточно большой выборки, мы не можем утверждать, что генеральная совокупность имеет Кроме того, в этом случае проблематична близость выборки к нормальному распределению. В этом случае также пользуются вместо s в формуле:
но значение t для фиксированной вероятности P(t) будет зависеть от количества элементов в выборке n. Чем больше n, тем ближе будет полученный доверительный интервал к значению, даваемому формулой (1). Значения t в этом случае берутся из другой таблицы (t-критерий Стьюдента), которую мы приводим ниже:
Значения t-критерия Стьюдента для вероятности 0,95 и 0,99
Пример №7
Из работников фирмы случайным образом отобрано 30 человек. По выборке оказалось, что средняя зарплата (в месяц) составляет 10 тыс. рублей при среднем квадратическом отклонении 3 тыс. рублей. С вероятностью 0,99 определить среднюю зарплату в фирме.
Решение:
По условию имеем Для нахождения доверительного интервала воспользуемся формулой, соответствующей критерию Стьюдента. По таблице для n = 30 и Р = 0,99 находим t = 2,756, следовательно,
т.е. искомый доверительный интервал Итак, вероятностью 0,99 можно утверждать, что интервал (27484; 32516) содержит внутри себя среднюю зарплату в фирме. Мы надеемся, что Вы будете пользоваться этим методом, при этом не обязательно, чтобы при Вас каждый раз была таблица. Подсчеты можно проводить в Excel автоматически. Находясь в файле Excel, нажмите в верхнем меню кнопку Затем, выберите среди функций тип “статистические”, и из предложенного перечня в окошке – СТЬЮДРАСПОБР. Затем, по подсказке, поставив курсор в поле “вероятность” наберите значение обратной вероятности (т.е. в нашем случае вместо вероятности 0,95 надо набирать вероятность 0,05). Видимо, электронная таблица составлена так, что результат отвечает на вопрос, с какой вероятностью мы можем ошибиться. Аналогично в поле “степень свободы” введите значение (n-1) для своей выборки.
Понятие о статистике
«Статистика знает все», — утверждали И. Ильф и Е. Петров в своем знаменитом романе «Двенадцать стульев» и продолжали: «Известно, сколько какой пищи съедает в год средний гражданин республики… Известно, сколько в стране охотников, балерин, станков, собак всех пород, велосипедов, памятников, девушек, маяков и швейных машинок… Как много жизни, полной пыла, страстей и мысли, глядит на нас из статистических таблиц!»
Это ироничное описание дает достаточно точное представление о статистике (от латинского status — состояние) — науке, изучающей, обрабатывающей и анализирующей количественные данные о разнообразнейших массовых явлениях в жизни. Экономическая статистика изучает изменение цен, спроса и предложения товаров, прогнозирует рост и падение производства и потребления. Медицинская статистика изучает эффективность разных лекарств и методов лечения, вероятность возникновения некоторых заболеваний в зависимости от возраста, пола, наследственности, условий жизни, вредных привычек, прогнозирует распространение эпидемий. Демографическая статистика изучает рождаемость, численность населения, его состав (возрастной, национальный, профессиональный). А есть еще статистика финансовая, налоговая, биологическая, метеорологическая…
Статистика имеет многовековую историю. Уже в Древнем мире вели статистический учет населения. Однако случайное толкование статистических данных, отсутствие строгой научной базы статистических прогнозов даже в середине XIX в. еще не позволяли говорить о статистике как науке. Только в XX в. появилась математическая статистика — наука, опирающаяся на законы теории вероятностей. Выяснилось, что статистические методы обработки данных из самых разных областей жизни имеют много общего. Это позволило создать универсальные научно обоснованные методы статистических исследований и проверки статистических гипотез.
Таким образом:
Математическая статистика — это раздел математики, изучающий математические методы обработки и использования статистических данных для научных и практических выводов.
В математической статистике рассматриваются методы, которые дают возможность по результатам экспериментов (статистическим данным) делать определенные выводы вероятностного характера.
Математическая статистика подразделяется на две обширные области: 1) описательная статистика, которая рассматривает методы описания статистических данных, их табличное и графическое представление и пр.; 2) аналитическая статистика (теория статистических выводов), которая рассматривает обработку данных, полученных в ходе эксперимента, и формулировку выводов, имеющих прикладное значение для конкретной области человеческой деятельности. Теория статистических выводов тесно связана с теорией вероятностей и базируется на ее математическом аппарате. Среди основных задач математической статистики можно отметить следующие. 1. Оценка вероятности. Пусть некоторое случайное событие имеет вероятность p > 0, но ее значение нам неизвестно. Требуется оценить эту вероятность по результатам экспериментов, то есть решить задачу об оценке вероятности через частоту.
Оценка закона распределения:
Исследуется некоторая случайная величина, точное выражение для закона распределения которой нам неизвестно. Необходимо по результатам экспериментов найти приближенное выражение для функции, задающей закон распределения.
Оценка числовых характеристик случайной величины (например, математического ожидания ).
Проверка статистических гипотез (предположений).
Исследуется некоторая случайная величина. Исходя из определенных рассуждений, выдвигается, например, гипотеза о распределении этой случайной величины. Необходимо по результатам экспериментов принять или отвергнуть эту гипотезу. Результаты исследований, проводимых методами математической статистики, применяются для принятия решений. В частности, при планировании и организации производства, при контроле качества продукции, при выборе оптимального времени наладки или замены действующей аппаратуры (например, при определении времени замены двигателя самолета, отдельных частей станков и т. д.). Как и в каждой науке, в статистике используются свои специфические термины и понятия. Некоторые из них приведены в табл. 37. Запоминать их определения необязательно, достаточно понимать их смысл.
Генеральная совокупность и выборка
Для изучения различных массовых явлений проводятся специальные статистические исследования. Любое статистическое исследование начинается с целенаправленного сбора информации об изучаемом явлении или процессе. Этот этап называют этапом статистических наблюдений.
Для получения статистических данных в результате наблюдений похожие элементы некоторой совокупности сравнивают по разным признакам. Например, учащихся 11 классов можно сравнивать по росту, размеру одежды, успеваемости и пр. Болты можно сравнивать по длине, диаметру, массе, материалу и другим характеристикам. Практически любой признак или непосредственно измеряется, или может получить условную числовую характеристику (см. пример с выпадением «герба» или «числа» при подбрасывании монеты).
Таким образом, некоторый признак элементов совокупности можно рассматривать как величину, принимающую те или иные числовые значения. При изучении реальных явлений часто бывает невозможно обследовать все элементы совокупности.
Например, практически невозможно выяснить размеры обуви у всех людей планеты. А проверить, например, наличие листов некачественной фотобумаги в большой партии хотя и реально, но бессмысленно, потому что полная проверка приведет к уничтожению всей партии бумаги. В подобных случаях вместо изучения всех элементов совокупности, называемой генеральной совокупностью, обследуют ее значительную часть, выбранную случайным образом. Эту часть называют выборкой, а число элементов в выборке называется объемом выборки. Eсли в выборке все основные признаки генеральной совокупности представлены в той же пропорции и с той же относительной частотой, с которой данный признак выступает в данной генеральной совокупности, то эту выборку называют репрезентативной (от французского représentatif — показательный).
Иными словами, репрезентативная выборка представляет собой меньшую по размеру, но точную модель той генеральной совокупности, которую она должна отражать. В той степени, в какой выборка является репрезентативной, выводы, основанные на изучении этой выборки, можно с большой долей уверенности считать применимыми ко всей генеральной совокупности.
Понятие репрезентативности отобранной выборки не означает ее полного представительства по всем признакам генеральной совокупности, поскольку это практически обеспечить невозможно. Отобранная из всей совокупности часть должна быть репрезентативной относительно тех признаков, которые изучаются.
Чтобы выборка была репрезентативной, она должна быть выделена из генеральной совокупности случайным образом. Этого можно достичь различными способами.
Чаще всего используют следующие виды выборок:
- собственно-случайную;
- механическую;
- типическую;
- серийную.
Кратко охарактеризуем каждую из них.
1) Члены генеральной совокупности можно предварительно занумеровать и каждый номер записать на отдельной карточке. После тщательного перемешивания будем отбирать наугад из пачки таких карточек по одной и таким образом получим выборочную совокупность любого нужного объема, которая называется собственно-случайной выборкой. Номера на отобранных карточках укажут, какие члены генеральной совокупности попали в выборку. (Заметим, что при этом возможны два принципиально различных способа отбора карточек в зависимости от того, возвращается или не возвращается обратно вынутая карточка после записи ее номера.) Собственно-случайную выборку заданного объема п можно образовать и с помощью так называемых таблиц случайных чисел или генератора случайных чисел на компьютере. При образовании собственно-случайной выборки каждый член генеральной совокупности с одинаковой вероятностью может попасть в выборку.
2) Выборка, в которую члены из генеральной совокупности отбираются через определенный интервал, называется механической. Например, если объем выборки должен составлять 5% объема генеральной совокупности (5%-ная выборка), то отбирается ее каждый 20-й член, при 10%-ной выборке — каждый 10-й член генеральной совокупности и т. д. Механическую выборку можно образовать, если имеется определенный порядок следования членов генеральной совокупности, например, если они следуют друг за другом в определенной последовательности во времени. Именно так появляются изготовленные на станке детали, приборы, сошедшие с конвейера, и т. п. При этом необходимо убедиться, что в следующих один за другим членах генеральной совокупности значения признака не изменяются с той же (или кратной ей) периодичностью, что и периодичность отбора элементов в выборку. Например, пусть из продукции металлообрабатывающего станка в выборку попадает каждая пятая деталь, а после каждой десятой детали рабочий производит смену (или заточку) режущего инструмента и наладку станка. Эти операции рабочего направлены на улучшение качества деталей (износ режущего инструмента происходит более или менее равномерно). Следовательно, в выборочную совокупность попадут детали, на качество которых работа станка влияет в одну и ту же сторону, и значения признака выборочной совокупности могут неправильно отразить соответствующие значения признака генеральной совокупности.
3) Если из предварительно разбитой на непересекающиеся группы генеральной совокупности образовать собственно-случайные выборки из каждой группы (с повторным или бесповторным отбором членов), то отобранные элементы составят выборочную совокупность, которая называется типической.
4) Если генеральную совокупность предварительно разбить на непересекающиеся серии (группы), а затем, рассматривая серии как элементы, образовать собственно-случайную выборку (с повторным или бесповторным отбором серий), то все члены отобранных серий составят выборочную совокупность, которая называется серийной. Например, пусть на заводе 150 станков (10 цехов по 15 станков) производят одинаковые изделия. Если в выборку отбирать изделия из тщательно перемешанной продукции всех 150 станков, то образуется собственно-случайная выборка. Но можно отбирать изделия отдельно из продукции первого, второго и т. д. станков. Тогда будет образована типическая выборка. Если же членами генеральной совокупности считать цеха и сначала образовать собственно-случайную выборку цехов, а потом в каждом из отобранных цехов взять все произведенные изделия, то все отобранные изделия (из всех отобранных цехов) составят серийную выборку. Как уже отмечалось, практически любой изучаемый признак X может быть непосредственно измерен или получить числовую характеристику. Поэтому первичные экспериментальные данные, характеризующие выделенную выборку, обычно представлены в виде набора чисел, записанных исследователем в порядке их поступления. Количество (n) чисел в этом наборе – объем выборки, а численность (m) варианты (одного из значений элементов выборки) называют частотой варианты. Отношение m n называют относительной частотой (W) варианты.
Используя эти понятия, запишем соотношение между ними в репрезентативной выборке.
Пусть S — объем генеральной совокупности, n — объем репрезентативной выборки, в которой k значений исследуемых признаков распределены по частотам. Тогда в генеральной совокупности частотам будут соответствовать частоты тех же значений признака, что и в выборке По определению репрезентативной выборки получаем: , где і — порядковый номер значения признака Из этого соотношения находим:
Пример №8
Обувной цех должен выпустить 1000 пар кроссовок молодежного фасона. Для того чтобы определить, сколько кроссовок и какого размера необходимо выпустить, были выявлены размеры обуви у 50 случайным образом выбранных подростков. Распределение размеров обуви по частотам представлено в таблице:
Сколько кроссовок разного размера будет изготавливать фабрика?
Решение:
Будем считать рассмотренную выборку объемом n = 50 подростков репрезентативной. Тогда в генеральной совокупности (объемом S = 1000) количество кроссовок каждого размера пропорционально количеству кроссовок соответствующего размера в выборке (и для каждого размера находится по формуле (1)). Результаты расчетов будем записывать в таблицу:
Ответ:
В сельском хозяйстве для определения количественного соотношения продукции разного сорта пользуются так называемым выборочным
методом. Суть этого метода будет ясна из описания следующего опыта, теоретическую основу которого составляет закон больших чисел. В коробке тщательно перемешан горох двух сортов: зеленый и желтый. Небольшой емкостью, например ложкой, вынимают из разных мест коробки порции гороха. В каждой порции подсчитывают число М желтых горошин и число n всех горошин. Для каждой порции находят относительную частоту появления желтой горошины Так делают k раз (на практике обычно берут 5 < k < 10) и каждый раз вычисляют относительную частоту. За статистическую вероятность извлечения желтой горошины из коробки принимают среднее арифметическое полученных относительных частот
Табличное и графическое представление данных. Числовые характеристики рядов данных
Ранжирование ряда данных:
Под ранжированием ряда данных понимают расположение элементов этого ряда в порядке возрастания (имеется в виду, что каждое следующее число или больше, или не меньше предыдущего).
Пример:
Если ряд данных выборки имеет вид 5, 3, 7, 4, 6, 4, 6, 9, 4, то после ранжирования он превращается в ряд 3, 4, 4, 4, 5, 6, 6, 7, 9. (*)
Размах выборки (R)
Размах выборки — это разность между наибольшим и наименьшим значениями величины в выборке.
Для ряда (*) размах выборки: R = 9 – 3 = 6.
Мода (Mo)
Мода — это значение элемента выборки, встречающееся чаще остальных.
В ряду (*) значение 4 встречается чаще всего, итак, Mo = 4.
Медиана (Me)
Медиана — это так называемое серединное значение упорядоченного ряда значений: — если количество чисел в ряду нечетное, то медиана — это число, записанное посередине; — если количество чисел в ряду четное, то медиана — это среднее арифметическое двух чисел, стоящих посередине.
Для ряда (*), в котором 9 членов, медиана — это среднее (то есть пятое) число 5: Me = 5. Если рассмотреть ряд 3, 3, 4, 4, 4, 5, 6, 6, 7, 9, в котором 10 членов, то медиана — это среднее арифметическое пятого и шестого членов:
Среднее значение выборки
Средним значением выборки называется среднее арифметическое всех чисел ряда данных выборки. Если в ряду данных записаны значения (среди которых могут быть и одинаковые), то
Если известно, что в ряду данных различные значения встречаются соответственно с частотами (тогда то среднее арифметическое можно вычислить по формуле
Пусть ряд данных задан таблицей распределения его различных значений по частотам M:
Тогда по формуле (**) или по другой формуле
Табличное и графическое представление данных. Полигоны частот
Как уже отмечалось, практически любой изучаемый признак X может быть непосредственно измерен или получить числовую характеристику. Поэтому первичные экспериментальные данные, характеризующие выделенную выборку, обычно представлены в виде набора чисел, записанных исследователем в порядке их поступления.
Если данных много, то полученный набор чисел трудно обозрим и сделать по нему какие-то выводы очень сложно. Поэтому первичные данные нуждаются в обработке, которая обычно начинается с их группировки. Группировка выполняется различными методами в зависимости от целей исследования, вида изучаемого признака и количества экспериментальных данных (объема выборки). Наиболее часто группировка сводится к представлению данных в виде таблиц, в которых различные значения элементов выборки упорядочены по возрастанию и указаны их частоты (то есть количество каждого элемента в выборке).
При необходимости в этой таблице указывают также относительные частоты для каждого элемента, записанного в первой строке. Такую таблицу часто называют рядом распределения (или вариационным рядом). Например, пусть при изучении размера обуви 30 мальчиков 11 класса получили набор чисел (результаты записаны в порядке опроса): 39; 44; 41; 39; 40; 41; 45; 42; 44; 41; 41; 43; 42; 43; 41; 44; 42; 38; 40; 38; 41; 40; 42; 43; 42; 41; 43; 40; 40; 42. Чтобы удобнее было анализировать информацию, в подобных ситуациях числовые данные сначала ранжируют, располагая их в порядке возрастания (когда каждое следующее число или больше, или не меньше предыдущего). В результате ранжирования получаем следующий ряд: 38; 38; 39; 39; 40; 40; 40; 40; 40; 41; 41; 41; 41; 41; 41; 41; 42; 42; 42; 42; 42; 42; 43; 43; 43; 43; 44; 44; 44; 45. Затем составляем таблицу, в первой строке которой указаны все различные значения полученного ряда данных (X размер обуви выбранных 30 мальчиков 11 класса), а во второй строке – их частоты М:
Получаем ряд распределения рассматриваемого признака X по частотам. Иногда удобно проводить анализ ряда распределения на основе его графического изображения. Отметим на координатной плоскости точки с координатамии соединим их последовательно отрезками (рис. 23.1). Полученную ломаную линию называют полигоном частот.
Итак, полигоном частот называют ломаную, отрезки которой последовательно соединяют точки с координатами , где — значения различных элементов ряда данных, а — соответствующие им частоты. Аналогично определяется и строится полигон относительных частот для рассматриваемого признака X (строятся точки с координатами — значения различных элементов ряда данных, а — соответствующие им относительные частоты.
Если вычислить относительные частоты для каждого из различных значений ряда данных, рассмотренного в начале этого пункта, то распределение значений рассматриваемого признака X по относительным частотам можно задать таблицей:
Распределение значений рассматриваемого признака X по относительным частотам можно представить также в виде полигона относительных частот (рис. 23.2), в виде линейной диаграммы (рис. 23.3) или в виде круговой диаграммы, предварительно записав значения относительной частоты в процентах (рис. 23.4).
Напомним, что для построения круговой диаграммы круг разбивается на секторы, центральные углы которых пропорциональны относительным частотам, вычисленным для каждого из различных значений ряда данных. Обратим внимание, что круговая диаграмма сохраняет свою наглядность и выразительность только при небольшом количестве полученных секторов. В противном случае ее применение малоэффективно. Если рассматриваемый признак принимает много различных значений, то его распределение можно лучше себе представить после разбиения всех значений ряда данных на классы.
Количество классов может быть любым, удобным для исследования (обычно от 4 до 12). При этом величины (объемы) классов должны быть одинаковыми. Например, в следующей таблице представлены сведения о заработной плате 100 рабочих одного предприятия (в некоторых условных единицах). При этом значения зарплаты (округлены до целого числа условных единиц) сгруппированы в 7 классов, каждый объемом в 100 условных единиц.
(проверка: = 100) Наглядно частотное распределение зарплат по классам можно представить с помощью полигона частот (рис. 23.5) или столбчатой диаграммы (рис. 23.6).
Числовые характеристики рядов данных. Размах, мода и медиана ряда данных
Иногда выборку случайных величин или всю генеральную совокупность этих величин приходится характеризовать одним числом. На практике это необходимо, например, для быстрого сравнения двух или больше совокупностей по общему признаку. Рассмотрим конкретный пример. Пусть после летних каникул провели опрос 10 девочек и 9 мальчиков одного класса о количестве книг, прочитанных ими за каникулы. Результаты были записаны в порядке опроса. Получили следующие ряды чисел:
- для девочек: 4, 3, 5, 3, 8, 3, 12, 4, 5, 5;
- для мальчиков: 5, 3, 3, 4, 6, 4, 4, 7, 4.
Как уже отмечалось, чтобы удобнее было анализировать информацию, в подобных случаях числовые данные ранжируют, располагая их в порядке возрастания (когда каждое следующее число или больше, или не меньше предыдущего). В результате ранжирования получили следующие ряды:
- для девочек: 3, 3, 3, 4, 4, 5, 5, 5, 8, 12; (1)
- для мальчиков: 3, 3, 4, 4, 4, 4, 5, 6, 7. (2)
Тогда распределение по частотам M величин: X — число книг, прочитанных за каникулы девочками, и Y — число книг, прочитанных за каникулы мальчиками, можно задать таблицами:
Эти распределения можно проиллюстрировать также графически с помощью полигона частот (рис. 23.7, а, б).
Для сравнения рядов (1) и (2) используют различные характеристики. Приведем некоторые из них. Размахом ряда чисел (обозначается R) называют разность между наибольшим и наименьшим из этих чисел. Поскольку мы анализируем выборку некоторых величин, то размах выборки — это разность между наибольшим и наименьшим значениями величины в выборке.
Для ряда (1) размах R = 12 – 3 = 9, а для ряда (2) размах R = 7 – 3 = 4. На графике размах — это длина области определения полигона частот (рис. 23.7). Одной из статистических характеристик ряда данных является его мода (обозначается Mo, от латинского слова modus — мера, правило).
Мода — это значение элемента выборки, встречающееся чаще остальных.
Так, в ряду (1) две моды — числа 3 и 5: = 5, а в ряду (2) одна мода — число 4: Mo = 4. На графике мода — это значение абциссы точки, в которой достигается максимум полигона частот (см. рис. 23.7). Отметим, что моды может и не быть, если все значения рассматриваемого признака встречаются одинаково часто. Моду ряда данных обычно находят тогда, когда хотят выяснить некоторый типовой показатель. Например, когда изучают данные о моделях мужских рубашек, проданных в определенный день в универмаге, то удобно использовать такой показатель, как мода, который характеризует модель, пользующуюся наибольшим спросом (собственно, этим и объясняется название «мода»). Еще одной статистической характеристикой ряда данных является его медиана. Медиана — это так называемое серединное значение упорядоченного ряда значений (обозначается Me). Медиана делит упорядоченный ряд данных на две равные по количеству элементов части.
Если количество чисел в ряду нечетное, то медиана — это число, записанное посередине. Например, в ряду (2) нечетное количество элементов (n = 9). Тогда его медианой является число, стоящее посередине, то есть на пятом месте: Me =4
Следовательно, о мальчиках можно сказать, что одна половина из них прочитала не больше 4 книг, а вторая — не меньше 4 книг. (Отметим, что в случае нечетного n номер среднего члена ряда равен
Если количество чисел в ряду четное, то медиана — это среднее арифметическое двух чисел, стоящих посередине. Например, в ряду (1) четное количество элементов (n = 10). Тогда его медианой является число, равное среднему арифметическому чисел, стоящих посередине, то есть на пятом и шестом местах:
Следовательно, о девочках можно сказать, что одна половина из них прочитала меньше 4,5 книги, а вторая — больше 4,5 книги. (Отметим, что в случае четного n номера средних членов ряда равны
Среднее значение выборки
Средним значением выборки (обозначается называется среднее арифметическое всех чисел ряда данных выборки. Если в ряду данных записаны значения (среди которых могут быть и одинаковые), то
Если известно, что в ряду данных различные значения встречаются соответственно с частотами (тогда ∑M = n ), то, заменяя одинаковые слагаемые в числителе на соответствующие произведения, получаем, что среднее арифметическое можно вычислять по формуле
Последнюю формулу удобно использовать в тех случаях, когда в выборке распределение величины по частотам задано в виде таблицы. Напомним, что распределение по частотам M величин: X — число книг, прочитанных за каникулы девочками, и Y — число книг, прочитанных за каникулы мальчиками, было задано такими таблицами:
Тогда средние значения заданных выборок равны:
Поскольку то можно сказать, что за один и тот же промежуток времени девочки в классе читают книг больше, чем мальчики. Обратим внимание, что в пособиях по статистике моду, медиану и среднее значение выборки объединяют одним термином — меры центральной тенденции, подчеркивая тем самым возможность охарактеризовать ряд выборки одним числом. Не для каждого ряда данных имеет смысл формально находить центральные тенденции.
Например, если исследуется ряд 5, 5, 8, 110 (5) годовых доходов четырех людей (в тыс. у. е.), то очевидно, что ни мода (5), ни медиана (6,5), ни среднее значение (32) не могут выступать в роли единой характеристики всех значений ряда данных. Это объясняется тем, что размах ряда (105) является соизмеримым с наибольшим из его значений. В данном случае можно искать центральные тенденции, например, для части ряда (5): 5, 5, 8, условно назвав его выборкой годового дохода низкооплачиваемой части населения. Если в выборке среднее значение существенно отличается от моды, то его нецелесообразно выбирать в качестве типичной характеристики рассматриваемой совокупности данных (чем больше значение моды отличается от среднего значения, тем «более несимметричным» является полигон частот совокупности).
Сведения из истории:
Элементарные задачи, которые позднее были отнесены к стохастике, то есть к комбинаторике, теории вероятностей и математической статистике, ставились и решались еще во времена Древних Египта, Греции и Рима. Этот период так называемой предыстории теории вероятностей заканчивается в XVI в. работами итальянских математиков Д. Кардано (1501–1576) «Книга об игре в кости», Н. Тартальи (1499–1557) «Общий трактат о числе и мере», Г. Г а л и л е я (1564–1642) «О выпадении очков при игре в кости» и др. В этих работах уже фигурирует понятие вероятности, используется теорема о вероятности произведения независимых событий, высказываются некоторые соображения относительно так называемого закона больших чисел. В XVII–XVIII вв. вопросами теории вероятностей заинтересовались французские математики П. Ферма (1601–1665) и Б. Паскаль (1623–1662), нидерландский математик X. Гюйгенс (1629– 1695), швейцарские математики Я. Бернулли (1654–1705), И. Бернулли (1687–1759), Д. Бернулли (1700–1782) и российский математик Л. Эйлер (1707–1783). В своих работах они уже использовали теоремы сложения и умножения вероятностей, понятия зависимых и независимых событий, математического ожидания. Большую роль в распространении идей теории вероятностей и математической статистики в России сыграли выдающиеся российские математики В. Я. Буняковский (1804–1889) и М. В. Остроградский (1801–1862). Дальнейшее развитие теории вероятностей потребовало уточнения основных ее положений. Большую работу в этом направлении провел выдающийся российский математик П. Л. Чебышёв (1821–1894). Его ученик А. А. Марков (1856– 1922) стал выдающимся математиком именно благодаря своим исследованиям в теории вероятностей.
Книга А. А. Маркова «Исчисление вероятностей», первое издание которой вышло в 1900 г., а четвертое — в 1924 г., в течение многих лет была лучшей из тех, по которым учились российские математики. В этой книге, в частности, раскрывается, в каком понимании статистическая вероятность (А) близка к вероятности Р (А) при больших п: вероятность значительного отклонения от Р (А) близка к нулю, но это не означает, что значительные отклонения невозможны при больших п. В XX в. теория вероятностей постепенно превращается в строгую аксиоматическую теорию. Это произошло благодаря работам многих математиков. Но действительно решающим этапом в развитии теории вероятностей стала работа А. Н. Колмогорова (1903–1987) «Основные понятия теории вероятностей» (изданная в 1937 г.), в которой он изложил свою аксиоматику теории вероятностей и после которой теория вероятностей заняла равноправное место среди других математических дисциплин. Большие достижения в теории вероятностей и математической статистике имели также российские математики А. Я. Хинчин (1894–1959), Е. Е. Слуцкий (1880–1948), Б. В. Генеденко (1911–1995), математики И. И. Гихман (1918–1985), В. С. Михалевич (1930–1994), и другие.
Выборка, вариационный ряд и гистограмма
Если теория вероятностей оперирует с известными законами распределения и их параметрами (числовыми характеристиками), то математическая статистика по результатам экспериментов проверяет, правильно ли подобрано распределение (нормальное, биномиальное, экспоненциальное и т. д.), оценивает параметры этого распределения, проверяет гипотезы о параметрах принятого распределения. Это позволяет заменить большое число экспериментальных данных небольшим числом параметров распределения, которые в сжатом виде характеризуют случайную величину и позволяют прогнозировать результаты эксперимента при известном комплексе условий.
Пусть проводится измерений. В результате измерений получено чисел . Если повторить еще раз измерений, то получатся другие чисел, отличные от первого набора. Процесс из измерений можно описать как и независимых случайных величин.
Результат и наблюдений случайной величины X называется выборкой, – объем выборки, а сама случайная величина X – называется генеральной случайной величиной.
Результат эксперимента может быть интерпретирован либо апостериорной величиной, либо априорной. В первом случае это результат опыта. Во втором случае является случайной величиной (т. к. до опыта неизвестна), которая получит свое конкретное значение в результате какого-то опыта. В этом случае можно предполагать, что закон распределения , совпадает с законом распределения генеральной случайной величиной X и , можно рассматривать как экземпляр генеральной случайной величины X.
Далее мы будем считать выборки априорными. При этом будем полагать, что элементы выборки – независимые случайные величины с одинаковым законом распределения, т. е. мы можем широко использовать теоремы независимых случайных величинах.
Упорядоченная в порядке возрастания последовательность выборочных значений образует вариационный ряд:
члены вариационного ряда называются порядковыми статистиками. Если объем выборки – велик, то выборка позволяет приблизительно оценить закон распределения случайной величиной X. Для этого необходимо построить гистограмму. Есть два способа построения гистограммы – равноинтервальный и равновероятностный.
Рассмотрим равноинтервалъный способ.
- Разобьем весь диапазон выборочных значений от на равных частей. Величину выбирают достаточно произвольно, можно так: где – объем выборки.
- Определяем длину каждого интервала:
- Находим границы каждого интервала: для первого: для второго: для
Определим середины каждого интервала:
4. Подсчитываем (используя вариационный ряд) количество выборочных значений, попадающих в интервал –
5. Находим относительную частоту попадания случайной величиной X в интервал.
Полученные данные заносим в таблицу.
Эта таблица называется статистическим рядом.
Графическое изображение статистического ряда – это гистограмма.
Рисуем оси координат, делаем разметку осей, наносим на ось X границы интервалов и их середины. После этого строим на каждом отрезке прямоугольники высотой . Аппроксимируем фигуру из прямоугольников пунктирной линией (рис. 8.1). По виду этой кривой можно выдвинуть предположение (гипотезу) о виде закона распределения генеральной случайной величиной X (на рис. 8.1. видно, что пунктирная линия похожа на кривую Гаусса, которая относится к нормальному закону).
Имея статистический ряд можно оценить числовые характеристики генеральной случайной величиной X :
Выборочный метод
Группа предметов или явлений, объединенных каким-либо общим признаком или свойством качественного или количественного характера, называется совокупностью. Предметы или явления, образующие совокупность, называются единицами совокупности. Если совокупность содержит ограниченное число единиц, то она называется конечной. Если число единиц совокупности безгранично, то ее называют бесконечной совокупностью.
Теоретические основы выборочного метода содержатся в теоремах Чебышева и Ляпунова.
Основной предпосылкой применения выборочного метода является возможность судить о характеристиках генеральной (общей) совокупности по отобранной, так называемой выборочной совокупности. Наиболее важным принципом в применении выборочного метода является обеспечение равной возможности всем единицам, входящим в состав генеральной совокупности, быть избранными. При таком объективном подходе к отбору единиц, при котором ни одна единица не обладает преимуществом попасть в отбираемую совокупность по сравнению с другими единицами, характеристики выборочной совокупности при увеличении объема выборки стремятся к характеристикам генеральной совокупности.
Теорема Чебышева (применительно к выборочному методу) может быть записана в следующем виде:
где —средняя по совокупности выбранных единиц;
— средняя по генеральной совокупности;
— среднее квадратическое отклонение в генеральной совокупности.
Теорема формулируется так: с вероятностью, сколь угодно близкой к единице (достоверности), можно утверждать, что при достаточно большом объеме выборки, и ограниченной дисперсии генеральной совокупности разность между выборочной средней и генеральной средней будет сколь угодно мала.
Примечания. 1. Выражение часто обозначают
2. При практическом использовании теоремы Чебышева генеральную-дисперсию которая неизвестна, заменяют выборочной дисперсией
Теорема Ляпунова
Ляпунов с помощью разработанного им метода характеристических функций доказал в 1900 г. центральную предельную теорему, носящую его имя. Эта теорема выясняет общие условия, при осуществлении которых распределение суммы независимых случайных величин стремится к нормальному распределению вероятностей. В частности, эта теорема дает возможность оценить погрешность приближенных равенств:
при достаточно больших n (modo Bernulliano). Если —независимые случайные величины и то вероятность их средней находится в пределе от а до b и может быть определена равенством:
где
Ограничительные условия теоремы Ляпунова сводятся в основном к тому, чтобы среди слагаемых случайных величин не было сильно выделяющихся (таких, колеблемость которых значительно превосходила бы большинство остальных). В приложении к выборочному методу данная теорема может быть сформулирована следующим образом:
При достаточно большом объеме выборки и ограниченной дисперсии генеральной совокупности вероятность того, что разность между выборочной средней и генеральной средней будет в пределах равна
Формулировка Ляпунова придает теореме Чебышева полную определенность и записывается так:
Замечание о практическом использовании ее то же, что и для формулы на стр. 125.
Теорема Я. Бернулли, опубликованная в 1713 г., послужила началом возникновения большой группы теорем, именуемых в общем законом больших чисел. Она представляет собой частный случай теоремы Чебышева и может быть из нее получена
где — доля признака среди отобранных единиц (частость);
р — доля признака в генеральной совокупности.
Теорема Бернулли применяется в тех случаях, когда из генеральной совокупности производится отбор единиц и доля признака не меняется от испытания к испытанию. Формулировка теоремы Бернулли применительно к выборке: с вероятностью, сколь угодно близкой к единице, можно утверждать, что разность между частостью и долей в генеральной совокупности при достаточно большом объеме выборки будет сколь угодно мала. При практическом использовании данной теоремы величина рассчитывается путем замены р на и q на
Теорема Пуассона также является частным случаем теоремы Чебышева, когда доля признака в генеральной совокупности (р) с ходом выборки все время меняется. В этом случае
Тогда:
Ошибка репрезентативности (представительства представляет собой разность между характеристиками выборочной и генеральной совокупности. Генеральная средняя вычитается из выборочной средней или доля признака в генеральной совокупности (р) вычитается из доли признака в выборочной совокупности, т. е. частости
Если представляет собой предел,которого не превосходит абсолютная величина то
В формулах выборочного метода фигурирует дисперсия генеральной совокупности (). Но при производстве выборки характеристики генеральной совокупности неизвестны. Однако обычно (за исключением очень малочисленных выборок) без большой погрешности можно заменить дисперсию генеральной совокупности дисперсией выборочной совокупности (), которая вычисляется по формулам:
Предельная и средние ошибки выборки
Теория устанавливает соотношение между пределом ошибки выборки (), гарантируемым с некоторой вероятностью (P), величиной t, связанной с этой вероятностью (см. приложение III), и так называемой средней ошибкой выборки ():
или
Предельная ошибка выборки равна t-кратному числу средних ошибок выборки.
По способу организации выборки различают:
- собственно случайный отбор;
- типический отбор;
- механический отбор;
- серийный отбор;
- комбинированный отбор.
Собственно случайный отбор ориентирован на выборку единиц из генеральной совокупности без всякого расчленения ее на части или группы. При этом теоретически возможно применение собственно случайного повторного отбора и собственно случайного бесповторного отбора.
Формулы средней ошибки выборки при собственно случайном методе отбора:
Для большей точности вместо множителя следует брать множитель но при большой численности N различие между этими выражениями практически значения не имеет.
Пример №9
Из совокупности 10 000 деталей отобрано собственно случайным бесповторным методом 1000 деталей, для которых средний вес детали оказался равным 50 г, дисперсия 49. Бракованных деталей было обнаружено 20 штук. Вычислить средние ошибки выборки для средней и доли.
Дано:
По формулам табл. 1 находим средние ошибки выборки: для среднего веса детали при бесповторном отборе:
и для доли брака:
Случайные числа и таблицы случайных чисел
Однозначные числа, расположенные в случайном порядке, называются случайными числами. Случайность расположения чисел состоит в отсутствии закона, определяющего их расположение, и вместе с тем в приближенно равной частоте каждой из десяти цифр.
При организации собственно случайной выборки для соблюдения основного принципа выборки — равной возможности каждой единице генеральной совокупности быть отобранной — используются таблицы случайных чисел, позволяющие производить случайный отбор единиц наудачу, т. е. без привнесения элементов субъективности.
Таблицы случайных чисел составляются различными методами. Так, например, М. Кодыров выписывал 50 000 однозначных чисел из результатов переписи населения 1926 г. Брались срединные цифры одна за другой, в том порядке, в каком они встречались в сводках по городам и губерниям. Для избежания неслучайности крайние цифры из сводок вследствие тенденций к округлениям отбрасывались. А. К. Митропольский для получения таблиц случайных чисел брал 16—19-е знаки двадцатизначной таблицы логарифмов чисел от 90 000 до 100 000. Случайные цифры объединяются в четырехзначные числа.
Таблицы случайных чисел используются путем нумерации всех единиц генеральной совокупности и выписки из таблиц стольких чисел, сколько требуется для выборки. Из генеральной совокупности отбираются те единицы, порядковый номер которых соответствует выписанным из таблицы случайных чисел. Если число единиц в генеральной совокупности не более 999, то последнюю или первую цифру четырехзначного числа отбрасывают. Выборка с помощью таблицы случайных чисел может быть произведена по схеме возвращенного шара (повторная) и по схеме невозвращенного шара (бесповторная). В последнем случае одинаковые числа опускаются.
Пример №10
Генеральная совокупность состоит из 500 единиц. Производится 10-процентный бесповторный отбор. Пронумеруем все 500 единиц генеральной совокупности и возьмем из таблицы случайных чисел (приложение XI) 50 различных трехзначных чисел, начиная с первого числа 3-й колонки. Числа большие, чем 500, отбрасываем.
Получаем: 315, 255, 337, 179, 210, 455, 235-, 364, 489, 80, 117, 118, 174, 476, 111, 341, 296, 332, 4, 307, 22, 430, 52, 22, 83, 248, 319, 262, 36, 101, 27, 342, 470, 330, 170, 443, 499, 109, 42, 70, 490, 422, 336, 67, 121, 225, 57, 319, 499, 362, 198, 50, 286.
Эти числа означают номера тех единиц из 500, которые попали в случайную бесповторную выборку (в данном случае совпадают только три числа: 22, 319, 499; поэтому заменяем их другими).
Для случая, когда частость даже приблизительно неизвестна, можно произвести «грубый» расчет средней ошибки выборки для доли, вводя в расчет максимальную величину произведения равную 0,25. Тогда для повторного отбора получим:
и для бесконечного отбора:
Пример №11
Из совокупности численностью в 900 деталей взята на выборку 81 деталь. Никаких данных, даже предположительных, об удельном весе деталей I сорта в генеральной совокупности нет.
Определить среднюю ошибку выборки для доли продукции I сорта.
Дано: N = 900; n = 81; допускаем, что =0,25, тогда получаем:
Как было показано в § 7, Из приложения III возьмем три значения t, тогда
при t=1 F(t) = 0,683;
t=2 F(t) = 0,954;
t=3 F(t) = 0,997.
Это показывает, что 0,683 измеряет вероятность того, что ошибка выборки не превысит предела, равного одной средней ошибке. Значительно больше вероятность того, что ошибка не превысит двойной средней ошибки, и т. д.
Вероятность 0,997 практически принимают за достоверность, т. е. считают, что предельная ошибка выборки равна трехкратной средней ошибке.
Иногда для определения размеров предельной ошибки связывают величину t с объемом выборки, применяя эмпирическую формулу:
тогда
Чем больше объем выборки, тем ближе предельная ошибка к утроенным средним ошибкам.
Численность выборки
При проектировке выборочного наблюдения предполагают заранее заданными величину допустимой ошибки выборки и вероятность ответа. Неизвестным, следовательно, остается тот минимальный объем выборки, который должен обеспечить требуемую точность. Из формулы и формул средних ошибок выборки устанавливаем необходимую численность выборки (называемую иногда достаточно большим числом).
Формулы для определения численности выборки (n) при собственно случайном способе отбора:
Примечание. При проектировании объема необходимой выборки величины и неизвестны, поэтому вместо точного их значения берут приближенные, установленные на основании уже проведенного другого наблюдения или нескольких пробных наблюдений, избирая из найденных результатов наибольшие значения и
Пример №12
Проектируется выборочное наблюдение, целью которого является установление среднего размера деталей в совокупности, состоящей из 10 000 деталей. Требуемая точность 1 см. Произведенные пробные выборки дали наибольшую дисперсию, равную 49. Нужно определить необходимую численность случайной бесповторной выборки, обеспечивающей с вероятностью 0,95 заданную точность.
Дано: N= 10 000; =1; F(y)=0,95; =49.
По приложению III находим по F(t) значение t= 1,96 и по формуле для бесповторной выборки, взятой из табл. 2, получаем:
Типический отбор дает более точные результаты. Генеральная совокупность делится по некоторому признаку на типические группы. Количество отбираемых единиц из каждой типической группы устанавливается в следующих размерах (см. табл. 3).
При отборе, не пропорциональном объему типических групп, общее число отбираемых единиц делится на число типических групп и полученная величина дает численность отбора из каждой типической группы.
При отборе, пропорциональном объему типических групп, число наблюдений по каждой группе определяется по формуле:
где —объем выборки из i-й типической группы;
n— общий объем выборки;
— объем i-й типической группы;
N—объем генеральной совокупности.
При отборе с учетом колеблемости признака, дающем наименьшую величину ошибки выборки, процент выборки из каждой типической группы должен быть пропорционален среднему квадратическому отклонению в этой группе Расчет численности производится по формулам:
– для средней;
– для доли.
Для вычисления средних ошибок выборки используют формулы табл. 3.
Пример №13
Для определения средней из совокупности 10 000 единиц производится выборка типическим методом. Вся совокупность делится на 5 типических групп. Отбор единиц внутри типических групп производится случайным бесповторным методом пропорционально объему каждой группы. Отбирается 2000 единиц. При отборе получены следующие результаты:
Вычислить: а) среднюю ошибку для каждой группы и для всей выборочной совокупности (при собственно случайном и типическом способах отбора); б) границы, в которых с вероятностью 0,997 находится генеральная средняя по группам и по всей совокупности (при собственно случайном и типическом методах отбора).
Прежде всего рассчитывают численность отбираемых единиц из каждой типической группы пропорционально ее объему (см. колонку 3 табл. 4). Так, для первой типической группы имеем при заданном объеме всей выборки, равном 2000 единиц:
для второй типической группы:
и т. д.
Для определения средней ошибки выборки по группам и общей средней ошибки выборки при собственно случайном способе отбора (бесповторном) используем формулы из табл. 1, Получаем среднюю ошибку выборки:
для первой типической группы
для второй типической группы
и т. д. по всем группам (см. колонку 2 табл. 5).
Для удобства располагаем все получаемые результаты в таблицу (см. табл. 5).
Для расчета средней ошибки выборки всей совокупности при собственно случайном методе отбора и границ генеральной средней при этом же методе отбора нужно знать общую выборочную среднюю и общую дисперсию выборочной совокупности. Производим расчет общей выборочной средней из групповых выборочных средних путем взвешивания последних по численности отобранных групп
(см. итог колонки 4 табл. 4).
Для определения общей выборочной дисперсии используют теорему сложения вариации.
Находим сначала среднюю взвешенную из выборочных дисперсий:
а затем межгрупповую дисперсию:
Получаем общую дисперсию выборочной совокупности:
(см. итог колонки 5 табл. 4).
Находим среднюю ошибку выборки всей совокупности при собственно случайном методе отбора
(см. первую строку итога колонки 2 табл. 5).
Предельная ошибка собственно случайной выборки:
(см. первую строку итога колонки 3 табл. 5).
Соответственно находим границы генеральной средней при собственно случайном методе отбора:
(см. первую строку итога колонок 4 и 5 табл. 5).
Рассчитываем среднюю ошибку типической выборки, пропорциональной объему типических групп, по формуле из табл. 3. Получим:
(см. вторую строку итога колонки 2 табл. 5).
Далее определяем ошибку типической выборки и границы генеральной средней т. е. (см. вторую строку итога колонок 4 и 5 табл. 5).
Пример №14
Для определения доли признака производится типическая выборка 400 единиц из совокупности 10 500 единиц, разбитых на 3 типические группы численностью в 5000, 2500 и 3000 единиц. Имеются основания (прошлое обследование) считать, что искомая доля по типическим группам составляет около 10, 20 и 50%.
В каком объеме произвести выборку из типических групп, чтобы пропорции отбора были наивыгоднейшими?
Определяем численность первой типической группы по соответствующей формуле при объеме всей выборки, равной 400 единицам:
для второй типической группы:
для третьей типической группы:
При механической выборке совокупность делится на столько групп, сколько единиц должно войти в выборку, и из 1 каждой группы отбирается одна единица.
Средняя ошибка выборки подсчитывается по формулам ( собственно случайной выборки (табл. 1).
При серийном отборе с равновеликими сериями генеральную совокупность делят на одинаковые по объему группы — серии и производят выборку не единиц совокупности, а серий. Попавшие в выборку серии обследуются сплошь. Серии могут отбираться повторным и бесповторным методами.
Средние ошибки выборки при таком отборе рассчитывают по формулам:
где К — число серий в генеральной совокупности;
r — число отобранных серий;
— межсерийная (межгрупповая) дисперсия средних;
— межсерийная (межгрупповая) дисперсия доли.
Пример №15
Генеральная совокупность состоит из 5000 единиц, разбитых на 50 равных по величине серий (по 100 единиц). Бесповторным методом отобрано 10 серий. Результаты выборки представлены в следующей таблице:
Исчислить среднюю ошибку серийной бесповторной выборки. Вычисляем: а) общую среднюю всей выборочной совокупности по серийным средним:
б) межсерийную (межгрупповую) дисперсию средних:
в) среднюю ошибку серийной выборки:
Необходимая численность отбираемых серий при серийном отборе получается из формул табл. 2, в которых вместо N, n и подставляют R, r и
Пример №16
Совокупность разбита на 50 серий. Имеются основания предполагать, что межсерийная дисперсия равна 16. Сколько серий нужно отобрать бесповторным методом, чтобы с вероятностью 0,954 утверждать, что ошибка выборочной средней не превысит 2,3.
Дано:
Находим необходимое число серий, отбор которых обеспечит требуемую точность:
Комбинированная выборка (равновеликие серии) предполагает комбинацию серийного отбора с индивидуальным отбором.
Генеральная совокупность разбивается на одинаковые по объему серии. Сначала отбираются серии, а затем из отобранных серий производится индивидуальная выборка единиц.
Квадрат средних ошибок выборки рассчитывают по следующим формулам (см. табл. 8),
где — общее число единиц, попавших в выборку при отборе серий, определяется по формуле:
n — число единиц, попавших в выборку из серий.
Пример №17
Генеральная совокупность состоит из 100 000 единиц, разбитых на 200 равных по объему серий. Произведена бесповторная выборка 50% серий и из каждой серии по 20% единиц. Средняя из серийных дисперсий оказалась равной 12, а межсерийная дисперсия — 5. Определить среднюю ошибку выборки. Дано:
Определяем общее число единиц, попавших в выборку:
Определяем среднюю ошибку выборки:
(по формуле из табл. 8 для бесповторного отбора).
Мы получили среднюю ошибку комбинированной выборки при отборе из генеральной совокупности 10 000 единиц. Можно было бы произвести выборку такого же объема, но отобрав 20% серий и 50% единиц из каждой серии.
При тех же значениях — средней из серийных дисперсий и межсерийной дисперсии — средняя ошибка выборки была бы равна:
Таким образом, величина ошибки увеличилась бы больше чем в два раза.
В иных случаях большая точность достигается большим числом наблюдений в пределах отобранных серий за счет сокращения числа последних.
Средняя ошибка разности выборочных средних
Выборочная средняя отличается от генеральной средней на t-кратное число средних ошибок Если в результате выборок получены две выборочные средние для каждой из которых найдена средняя ошибка выборки то среднюю ошибку разности этих двух выборочных средних можно определить по средним ошибкам этих выборочных средних
где R—коэффициент корреляции между вариантами двух выборочных совокупностей (см. раздел VII).
В случае некоррелированности признаков, т. е. равенства коэффициента корреляции нулю, формула примет следующий вид:
Пример №18
Из генеральной совокупности произведены две выборки. При этом средние ошибки выборочных средних оказались равными 0,48 и 0,43. Признаки некоррелированы. Найти среднюю ошибку разности двух выборочных средних. Она равна
Распределение выборочных средних
Имеется случайная величина х, распределенная в генеральной совокупности по закону нормального распределения со средней и дисперсией Если произвести достаточно много выборок из указанной совокупности собственно случайным методом и для каждой из выборок вычислить выборочную среднюю, то их распределение будет также подчинено закону нормального распределения со средней и дисперсией
Такое распределение выборочных средних не будет зависеть от объема выборок.
Доверительная вероятность
Для суждения о том, являются ли достоверными характеристики, полученные с помощью выборочных наблюдений, применяют доверительную вероятность, т. е. такую вероятность, которую исследователь признает достаточной при установлении границ случайного колебания изучаемого явления.
В качестве доверительной вероятности принимают Р(t), равное 0,95 или 0,99. Последняя наиболее достаточна.
Достоверность существенного различия
Сравнивая несколько статистических характеристик, например средние или коэффициенты вариации, исчисленные по результатам случайных выборок из генеральной совокупности, хотят установить, существенна ли разность между ними.
Существенным различием называют различие между средними или коэффициентами вариации, превосходящее по величине то, которое можно было бы объяснить случайными колебаниями.
Для признания достоверности существенного различия, приведшего к резкому качественному сдвигу величины изучаемого признака, сравнивают разность между характеристиками с доверительной границей, выражающей пределы случайной вариации. Если эта разность больше доверительной границы, то различие называют существенным, и оно выражает систематическое различие сравниваемых характеристик.
Нулевая гипотеза
При проверке статистической гипотезы об отсутствии существенных различий между несколькими выборочными совокупностями используют так называемую нулевую гипотезу, состоящую в признании того, что они взяты наудачу из одной генеральной совокупности.
Проверка нулевой гипотезы производится с помощью различных критериев согласия, позволяющих с помощью доверительных вероятностей сделать вывод об ее опровержении или неопровержении. При этом следует иметь в виду, что неопро-вержение нулевой гипотезы не означает ее подтверждения, а свидетельствует лишь о необходимости проведения дальнейшей проверки, в частности путем увеличения числа наблюдений. При проверке нулевой гипотезы наибольшее значение придается практической неосуществимости маловероятных событий. Так, если вероятность критерия согласия, выражающего вероятность случайного расхождения, очень мала (<0,05), то это свидетельствует о существенном различии, и нулевая гипотеза опровергается; если же она достаточна велика (>0,05), то вопрос о существенности различия остается без ответа.
В качестве критерия согласия, т. е. оценки существенности расхождения или различия двух выборочных средних, в случае,.если число отобранных единиц в каждой выборке больше 25, принимается неравенство:
При этом нулевая гипотеза состоит в отрицании существенности различия средних.
Пример №19
Произведем проверку нулевой гипотезы по следующим данным.
Выделено 5 участков лесонасаждений и с каждого участка взяты пробные площадки. В среднем на 1 га по пяти участкам получилось следующее распределение деревьев по толщине:
Определить существенность расхождения средних диаметров деревьев по участкам:
а) Находим средние диаметры деревьев по участкам:
б) Вычисляем средние квадратические отклонения по участкам:
в) Вычисляем средние ошибки выборочных средних:
г) Находим, например, следующие разности выборочных средних по участкам:
д) Находим средние ошибки разности соответствующих пар выборочных средних:
е) Находим критерий оценки существенности расхождения соответствующих выборочных средних:
Вывод. Из критериев оценки существенности заключаем, что выделения II, III, IV и V участков произведены правильно, так как критерии оценки существенности больше трех. И следовательно, мы имеем разные насаждения.
При сравнении I и II участков вопрос остается открытым.
Смещенные и несмещенные оценки
Если из генеральной совокупности производится выборка и по ее результатам вычисляются характеристики:
1) выборочная средняя
2) выборочная дисперсия то при большом
числе отобранных единиц (n) эти характеристики будут приближаться к соответствующим математическим ожиданиям: Е(х)
и
При малом,числе отобранных единиц эти две характеристики могут значительно отличаться от соответствующих математических ожиданий. Поэтому, принимая эти выборочные характеристики в качестве оценок генеральных характеристик, мы допускаем определенную ошибку. Эта ошибка может быть несистематической, когда при неограниченном повторении выборок средняя из выборочных характеристик совпадет с генеральной; при этом систематической ошибки, т. е. регулярного завышения или занижения, не будет. В случае, если среднее значение принятых в качестве оценок выборочных характеристик совпадает с генеральной характеристикой, эти оценки называются несмещенными.
Можно доказать, что поэтому величина является несмещенной оценкой генеральной средней. Что же касается выборочной дисперсии, то ее математическое ожидание не равно генеральной дисперсии. и поэтому является смещенной оценкой. Для устранения систематической ошибки и получения несмещенной оценки нужно умножить на
Тогда дисперсию при малом числе наблюдений следует вычислять по формуле:
Малая выборка
При необходимости оценки генеральной совокупности по результатам малого числа наблюдений, т. е. при n меньше 20, формулы для обычной (большой) выборки, основанные на нормальном распределении вероятностей, дают значительные неточности.
Оценка результатов малой выборки производится путем «исправления» выборочного среднего квадратического отклонения и использования закона распределения вероятностей Стюдента.
Выборочное среднее квадратическое отклонение малой выборки исчисляется по формуле:
где n—1 представляет собой «Число степеней свободы», т. е. количество вариантов, могущих принимать произвольные значения, не меняющие величины средней.
Таким образом, выборочное среднее квадратическое отклонение малой выборки отличается от выборочного среднего квадратического отклонения () тем, что сумму квадратов отклонений от выборочной средней делят не на n, а на n—1. Зная выборочное среднее квадратическое отклонение можно путем его «исправления» вычислить выборочное среднее квадратическое отклонение малой выборки по формуле:
Пример №20
Произведена выборка 16 единиц. Выборочное среднее квадратическое отклонение () оказалось равным 100.
Вычислить выборочное среднее квадратическое отклонение малой выборки
Средняя ошибка малой выборки исчисляется по формуле:
Пример №21
На основе данных примера 12 можно вычислить среднюю ошибку малой выборки:
Среднюю ошибку малой выборки можно получить и путем использования «неисправленного» выборочного среднего квадратического отклонения
Среднюю ошибку разности двух выборочных средних исчисляют по формуле:
Нормированное отклонение или стандартизованная разность малой выборки (t) получается аналогично тому, как это получалось в обычной выборке:
Предельная ошибка малой выборки:
Опираясь на предположение о нормальном распределении признака в генеральной совокупности, Стюдент в 1908 г. нашел закон распределения t, который называется распределением Стюдента:
где P(t) =S(t) — вероятности того, что стандартизованная разность между выборочной и генеральной средней имеет величину t;
– гаммы-функции, которые можно рассматривать как обобщение факториала натурального числа.
Для любого положительного числа n гамма-функция определяется следующим равенством:
Частные случаи:
Свойства гаммы-функции:
1) и 2)
Первый частный случай гаммы-функции и первое указанное ее свойство дают:
Свойство гаммы-функции позволяет находить Г(n) при n, кратном Например:
Особенностью распределения Стюдента является то, что вероятность того или иного значения t зависит только от двух величин: объема выборки (n) и величины t. При возрастании объема выборки распределение Стюдента приближается к нормальному:
Если сделать определенные допущения о величине Генеральной средней, то можно вычислить фактическое нормированное отношение при помощи интеграла Стюдента:
Тогда
где
—вероятность того, что стандартизованная разность (t) между действительной генеральной средней и выборочной средней будет меньше стандартизованной разности, вычисленной по результатам малой выборки
—определяется из приложения IV. При этом значение n определяется вычитанием единицы из числа наблюдений.
Интеграл Стюдента используют для решения ряда обычных задач малой выборки как для случаев, когда генеральная совокупность обладает нормальным распределением, так и для случаев, когда распределение признака в генеральной совокупности не совсем совпадает с нормальным.
Функция используется для определения также вероятностей того, что: 1) 2) и 3)
Так, вероятность того, что будет:
где — вероятность значений t, больших, чем И далее:
где — вероятность значений t, абсолютная величина которых больше, чем
где — вероятность значений t, абсолютная величина которых меньше, чем
Пример №22
Первая типовая задача малой выборки. Оценка выборочной средней.
Произведена малая выборка урожая пшеницы. Срок уборки урожая своевременный. На выборку собственно случайным повторным методом взято 8 участков. Результаты выборки по отдельным участкам следующие:
Определить вероятность того, что разность между выборочным и генеральным средним урожаем не больше 0,5 ц с 1 га.
Дано:
Находим по формуле (см. раздел I, стр. 58):
Определяем:
«Исправляем» и получаем:
Вычисляем среднюю ошибку малой выборки
Определяем величину нормированного отклонения по выборочным данным и предполагаемым границам генеральной средней
Находим:
Так как число наблюдений равно 8, то берем n=7; тогда по приложению IV находим:
Следовательно:
Р[ |/| >0,412] = 2 (1—0,649) = 2 • 0,351 = 0,702« 0,7.
Таким образом видно, что вероятность нормированных отклонений, по абсолютной величине превышающих 0,412, или, иными словами, вероятность отклонений генеральной средней от выборочной средней на абсолютную величину, превышающую 0,5 ц с 1 га, не мала (0,7). Поэтому разность между генеральной и выборочной средними легко могла превысить 0,5 ц с 1 га.
Можно было воспользоваться другой формулой и определить вероятность нормированных отклонений, абсолютная величина которых меньше 0,412, и прийти к тому же заключению:
Вероятность того, что генеральная средняя находится в определенных границах, определяется по формуле:
Пример №23
Вторая типовая задача малой выборки: определение границ интервала, в которых находится генеральная средняя.
Из данных предыдущего примера 14 найти с вероятностью 0,954 границы интервала, в которых содержится генеральная средняя урожая.
Дано:
Находим по соответствующей формуле:
По приложению IV находим равное 2,5.
Следовательно, границы генеральной средней
С вероятностью 0,954 можно утверждать, что
Теория малой выборки дает возможность оценить существенность различия между двумя .выборочными средними. Вероятность значений разностей между двумя выборочными средними, по абсолютной величине не меньших, чем разность, полученная в результате опыта, т. е. фактическая, определяется по формуле:
где — выборочные средние;
— фактическая разность между двумя выборочными средними;
а величина определяется по формуле:
Примечания: 1. При определении вероятности, равной по приложению IV в качестве n следует брать
2. Если вероятность (Р) получается большой, то это свидетельствует о том, что следовало ожидать разностей, превышающих ту, которую мы получили фактически. И следовательно, фактическая разность, будучи меньше тех, которых следовало ожидать с большой вероятностью, не дает основания считать, что различия между средними существенны.
При полученной малой вероятности (Р) различие между средними не случайно, а существенно.
3. При вычислении можно использовать равенство
Пример №24
Третья типовая задача малой выборки. Оценка разности двух выборочных средних. Произведена малая выборка девяти участков аналогично тому, как это сделано в примере 14. Урожай убрали с большим опозданием.
Результат сбора урожая по участкам представлен в табл. 11 (в колонках 1 и 2).
Оценить расхождение между средним урожаем, полученным при своевременной уборке урожая (пример 14) и уборке его с большим опозданием.
Дано:
Вычисляем:
По соответствующей формуле получаем:
Из приложения IV для n = 8+9—2=15 находим:
S (4,3) =0,999.
Тогда:
Так как вероятность (Р) очень мала, то следует считать, что средние урожаи существенно отличаются друг от друга, т. е. что опоздание в сроках уборки существенно снижает урожай.
При оценке существенности расхождения между двумя выборочными средними часто применяют правило трех сигм:
где —среднее квадратическое отклонение, вычисляемое по формуле:
В первом случае, т. е. если больше трех сигм, расхождение между средними двух выборок полагают не случайным.
Пример №25
По данным примеров 14 и 16 оценить расхождение между двумя выборочными средними по указанным формулам:
Находим:
Получаем:
и, следовательно,
Поэтому расхождение между двумя выборочными средними следует считать существенным, что согласуется с выводом примера 16.
Оценка существенности различия двух выборочных средних может быть произведена также путем использования критерия, основанного на подсчете инверсий. В данном случае нулевой гипотезой является предположение, что две выборочные средние отличаются друг от друга несущественно. Подсчет инверсий производится путем расположения ранжированных результатов двух полученных выборок последовательно. Инверсия образуется в том случае, если какому-нибудь варианту из первой выборки (х) предшествует вариант из второй выборки (у). Например, соединенные в одну последовательность ранжированные варианты двух выборок расположились следующим образом:
Тогда подсчет инверсий для дает 1, для и — тоже единицу, для инверсий —4, для — 5 и т. д.
После подсчета числа инверсий находят математическое ожидание инверсии по формуле:
где и — объемы выборок.
Далее находят дисперсию:
и
Путем вычитания и прибавления к E(z) произведения на находят ожидаемые границы г. Если z находится в найденных границах, то нулевая гипотеза не опровергается. При выходе z за найденные границы нулевая гипотеза опровергается и делается вывод о существенности различий средних.
Данный метод обоснован в случаях, когда объем выборок больше 10, но может быть использован и при n, близком к 10.
Пример №26
Используя данные примеров 14 и 16, найдем существенность различия двух средних урожаев, полученных в результате сбора урожая своевременно и с большим опозданием.
Располагаем результаты обеих выборок в ранжированном порядке.
Имеем: Подсчитываем:
Подсчитываем фактическое число инверсий: z=1 +1 + 1 + + 2 = 5.
В данном случае нулевая гипотеза опровергается и результат свидетельствует о существенном расхождении двух средних урожаев, что согласуется с выводами, полученными ранее другими способами.
При проверке гипотезы случайности выборки можно использовать метод последовательных разностей.
Пусть выборка n единиц из генеральной совокупности со средней и дисперсией расположились по значению признака в следующем порядке: Находим сначала разности между значениями признака в последовательности их отбора.
и т. д. до Определяем среднюю из квадратов разностей по формуле:
Находим:
Вычисляем выборочную дисперсию:
и для получения критерия делим на
Сравнение найденного критерия с теоретическим () в зависимости от объема выборки производится так.
Если n<20, то используют следующую таблицу (см. табл. 13):
Из таблицы находят При этом если найденная то это указывает на неверность рассматриваемой гипотезы. Если то гипотеза верна.
При большом числе отобранных единиц (n>20) определяется по формуле:
где находится по табличному значению
где находится по табличному значению
При q = 5% имеем Из приложения III находим, что = 1,65, значит
Пример №27
Используя данные примера 16 о результатах сбора урожая по участкам с большим опозданием, оценим гипотезу случайности выборки.
1) Находим разности:
и вычисляем а затем
2) Определяем сначала среднюю:
а затем дисперсию:
3) Находим критерий:
4) По табл. 13 определяем верхнюю допустимую границу При n = 9 = 0,512.
5) Делаем вывод о том, что найденная превосходит допустимую верхнюю границу и поэтому наша гипотеза о случайности выборки верна.
Пример №28
Пусть отобрано 35 единиц. При q = 5% получаем:
Следовательно, если при выборке 35 единиц будет меньше 0,725, то это укажет на неверность нашей гипотезы; если же больше, то гипотеза верна.
Оценка существенности различия коэффициентов вариации устанавливается аналогично тому, как это делается при оценке существенности различия выборочных средних по критерию согласия. Если принять:
то при >3 различие коэффициентов вариации полагают неслучайным.
Во всех случаях <3 делают вывод, что при данном числе наблюдений нулевая гипотеза не подтверждается и тем самым существенность различия не доказана.
Пример №29
Используя данные примера 11 о выделении участков лесонасаждений, оценим существенность различия коэффициентов вариации по двум участкам — IV и V.
Имеем:
Определяем коэффициенты вариации:
Находим
Так как > 3, делаем вывод, что рассматриваемые коэффициенты вариации отличаются существенно, т. е. неслучайно.
- Статистическая проверка гипотез
- Статистические оценки
- Теория статистической проверки гипотез
- Линейный регрессионный анализ
- Регрессионный анализ
- Корреляционный анализ
- Статистические решающие функции
- Случайные процессы
Приведенная ниже формула для расчета объема выборки используется в тех случаях, когда опрашиваемым (респондентам) задается только один вопрос, на который существует только два варианта ответа. Например: «Да» и «Нет», «Покупаю» и «Не покупаю», «Пользуюсь» и «Не пользуюсь». Конечно, данную формулу можно применять только при проведении простейших исследований. Если Вам нужно определить объем выборочной совокупности при проведении более масштабных исследований, например анкетирования, то следует использовать другие формулы.
Содержание:
- формула с пояснениями;
- пример расчета объема выборки;
- нормированное отклонение (таблица);
- область применения;
- особенности формулы.
Простая формула для расчета объема выборки
Ниже приведена простая формула для расчета объема выборки для тех случаев когда на заданный вопрос возможны лишь два варианта ответа:
где: n – объем выборки;
z – нормированное отклонение, определяемое исходя из выбранного уровня доверительности (доверительного интервала, доверительной вероятности).
Этот показатель характеризует вероятность попадания ответов в специальный доверительный интервал — диапазон, границам которого соответствует определенный процент определенных ответов на некоторый вопрос.
Можно сказать, что уровень доверительности выражает вероятность того, что респонденты генеральной совокупности ответят так же, как и представители анализируемой выборки.
На практике доверительный интервал при проведении маркетинговых исследований часто принимают за 95% или 99%. Тогда значения z будут соответственно 1,96 и 2,58.
Также существует специальная таблица «Значение интеграла вероятностей», используя которую можно найти значение z для различных доверительных интервалов. Сокращенный вариант такой таблицы приведен ниже;
p – вариация для выборки, в долях.
Вариация характеризует величину схожести / несхожести ответов респондентов на вопрос. По сути, p — вероятность того, что респонденты выберут той или иной вариант ответа.
Допустим, если мы считаем, что четверть опрашиваемых выберут ответ «Да», то p будет равно 25%, то есть p = 0,25;
q = 1 – p.
Можно сказать, что q — это вероятность того, что респонденты не выберут анализируемый вариант ответа (в нашем примере ответят «Нет»). Например, если p = 0,25, то q = 1 – 0,25 = 0,75;
e – допустимая ошибка, в долях.
Значение допустимой ошибки заранее определяют исследователь и заказчик маркетингового исследования.
Пример расчета объема выборочной совокупности
Маркетинговая компания получила заказ на проведение социологического исследования с целью выявить долю курящих лиц в населении города. Для этого сотрудники компании будут задавать прохожим один вопрос: «Вы курите?». Возможных вариантов ответа, таким образом, только два: «Да» и «Нет».
Объем выборки в этом случае рассчитывается следующим образом. Уровень доверительности принимается за 95% (одно из стандартных значений для маркетинговых исследований), тогда нормированное отклонение z = 1,96. Проведя предварительный анализ населения города, вариацию принимаем за 50%, то есть условно считаем, что половина респондентов может ответить на вопрос о том, курят ли они — «Да». Тогда p = 0,5. Отсюда находим q = 1 – p = 1 – 0,5 = 0,5. исходя из требуемой заказчиком точности, допустимую ошибку выборки принимаем за 10%, то есть e = 0,1.
Подставляем эти данные в формулу и считаем:
Округлив расчетное значение, получаем объем выборки n = 96 человек.
Следовательно, для проведения исследования с заданными параметрами (уровень доверительности, допустимая ошибка) компании необходимо опросить 96 человек.
Значение нормированного отклонения для различных доверительных интервалов
В таблице приведены некоторые значения нормированного отклонения (z) для важнейших уровней доверительности, или, иначе, доверительной вероятности (α):
α (%) | 60 | 70 | 80 | 85 | 90 | 95 | 97 | 99 | 99,7 |
---|---|---|---|---|---|---|---|---|---|
z | 0,84 | 1,03 | 1,29 | 1,44 | 1,65 | 1,96 | 2,18 | 2,58 | 3,0 |
Конечно, в таблице приведены значения z только для основных уровней доверительности. Полную версию таблицы можно найти в интернете.
Область применения простой формулы выборки
При проведении простых исследований, когда нужно получить ответ всего на один простой вопрос. При этом шкала ответов, как правило, дихотомического характера. То есть предлагаются (или подразумеваются) варианты ответов по типу «Да» — «Нет», «Черное» — «Белое», «Куплю» — «Не куплю», и т. д. Иными словами возможны лишь два варианта ответа на заданный вопрос.
Особенности формулы расчета размера выборки
Для рассмотренной нами простой формулы определения объема выборки можно выделить несколько характерных особенностей:
- перед тем, как рассчитывать объем выборки в данном случае желательно предварительно провести качественный анализ изучаемой генеральной совокупности. В частности установить степень схожести, близости изучаемых единиц совокупности в части их социальных, демографических, географических, иных характеристик. Также полезно провести пилотное (разведочное) исследование, чтобы установить приблизительную величину p;
- нужно иметь в виду, что максимальная изменчивость (вариация ответов) соответствует значению p = 50%, так как тогда q = 50% и p × q = 0,5 × 0,5 = 0,25. Это наихудший случай, все другие значения p дадут изменчивость меньшего размера (например, при p = 80%, p × q = 0,8 × 0,2 = 0,16; а при p = 10%, p × q = 0,1 × 0,9 = 0,09). Впрочем, данный показатель влияет на объем выборки не очень сильно.
Также стоит отметить, что существует ряд иных формул для определения объема выборки в случаях с дихотомической шкалой ответов на единственный вопрос. Для более сложных маркетинговых исследований применяются другие формулы.
Источники
- Голубков Е. П. Маркетинговые исследования: теория, методология и практика. – М.: Издательство «Финпресс», 1998.
Статья дополнена и доработана автором 10 дек 2020 г.
© Копирование любых материалов статьи допустимо только при указании прямой индексируемой ссылки на источник: Галяутдинов Р.Р.
Нашли опечатку? Помогите сделать статью лучше! Выделите орфографическую ошибку мышью и нажмите Ctrl + Enter.
Библиографическая запись для цитирования статьи по ГОСТ Р 7.0.5-2008:
Галяутдинов Р.Р. Формула выборки – простая // Сайт преподавателя экономики. [2020]. URL: https://galyautdinov.ru/post/formula-vyborki-prostaya (дата обращения: 21.05.2023).