Как найти выборочную среднюю по распределению выборки

Автор статьи

Эксперт по предмету «Математика»

Задать вопрос автору статьи

Генеральная средняя

Пусть нам дана генеральная совокупность относительно случайной величины $X$. Для начала напомним следующее определение:

Определение 1

Генеральная совокупность — совокупность случайно отобранных объектов данного вида, над которыми проводят наблюдения с целью получения конкретных значений случайной величины, проводимых в неизменных условиях при изучении одной случайной величины данного вида.

Определение 2

Генеральная средняя — среднее арифметическое значений вариант генеральной совокупности.

Пусть значения вариант $x_1, x_2,dots ,x_k$ имеют, соответственно, частоты $n_1, n_2,dots ,n_k$. Тогда генеральная средняя вычисляется по формуле:

Рассмотрим частный случай. Пусть все варианты $x_1, x_2,dots ,x_k$ различны. В этом случае $n_1, n_2,dots ,n_k=1$. Получаем, что в этом случае генеральная средняя вычисляется по формуле:

Выборочная средняя

Пусть нам дана выборочная совокупность относительно случайной величины $X$. Для начала напомним следующее определение:

Определение 3

Выборочная совокупность — часть отобранных объектов из генеральной совокупности.

Определение 4

Выборочная средняя — среднее арифметическое значений вариант выборочной совокупности.

Пусть значения вариант $x_1, x_2,dots ,x_k$ имеют, соответственно, частоты $n_1, n_2,dots ,n_k$. Тогда выборочная средняя вычисляется по формуле:

Рассмотрим частный случай. Пусть все варианты $x_1, x_2,dots ,x_k$ различны. В этом случае $n_1, n_2,dots ,n_k=1$. Получаем, что в этом случае выборочная средняя вычисляется по формуле:

«Средняя выборки: генеральная, выборочная» 👇

!!! В случае, когда значение вариант не являются дискретными, а представляют из себя интервалы, то в формулах для вычисления генеральной или выборочной средних значений за значение $x_i$ принимается значение середины интервала, которому принадлежит $x_i.$

Примеры задач на нахождение средней выборки

Пример 1

В магазин завезли 10 видов шоколадных конфет. По ним проведена следующая выборка по цене за килограмм: 70, 65, 97, 83, 120, 107, 77, 88, 100, 86. Построить ряд распределения данной генеральной совокупности и найти её генеральное среднее.

Решение.

Видим, что все значения вариант различны, поэтому частоты равны единице. Ряд распределения можно записать следующим образом, перечислив значения вариант в порядке возрастания:

Рисунок 1.

Так как наша совокупность является генеральной и все варианты различны, то мы будем пользоваться следующей формулой:

[overline{x_г}=frac{sumlimits^k_{i=1}{x_i}}{n}]

Получим:

[overline{x_г}=frac{65+70+77+83+86+88+97+100+107+120}{10}=89,3]

Ответ: 89,3.

Пример 2

Выборочная совокупность задана следующей таблицей распределения:

Рисунок 2.

Найти среднее выборочное данной совокупности.

Решение.

Для нахождения значения выборочной средней будем пользоваться следующей формулой:

[overline{x_в}=frac{sumlimits^k_{i=1}{x_in_i}}{n}]

Обычно, для наглядности и удобности вычислений составляется расчетная таблица, в которую входят необходимые промежуточные вычисления. В нашем случае составим таблицу со следующей «шапкой»:

Рисунок 3.

Внизу таблицы также добавляется строка «итог», в которой подсчитывается сумма по всем значениям столбцов. Проведя необходимые вычисления, получим следующую расчетную таблицу:

Рисунок 4.

Используя формулу, получим:

[overline{x_в}=frac{sumlimits^k_{i=1}{x_in_i}}{n}=frac{305}{20}=15,25]

Ответ: 15,25.

Пример 3

Проводится социальный опрос среди 100 пенсионеров об уровне их пенсии. Получена следующая таблица распределения результатов опроса (размер пенсии указан в тысячах рублей):

Рисунок 5.

Найти среднее выборочное данной совокупности.

Данная совокупность является выборочной, поэтому будем пользоваться следующей формулой:

[overline{x_в}=frac{sumlimits^k_{i=1}{x_in_i}}{n}]

Составим, для начала, расчетную таблицу.

Рисунок 6.

Получаем:

[overline{x_в}=frac{sumlimits^k_{i=1}{x_in_i}}{n}=frac{964}{100}=9,64]

Ответ: 9,64.

Находи статьи и создавай свой список литературы по ГОСТу

Поиск по теме

Выборочные среднее и дисперсия

Пусть
для изучения генеральной совокупности
относительно количественного признака
Xизвлечена выборка объемаn.

Выборочным
средним
называют среднее арифметическое значение
признака выборочной совокупности. Если
все значенияпризнака
выборки объемаnразличны,
то.

Если
значения признака
имеют
частотысоответственно, причем,
то.

Выборочное
среднее, найденное по данным одной
выборки, равно определенному числу. При
извлечении других выборок того же объема
выборочное среднее будет меняться от
выборки к выборке. То есть выборочное
среднее можно рассматривать как случайную
величину и говорить о его распределениях
(теоретическом и эмпирическом) и о
числовых характеристиках этого
распределения (например, о математическом
ожидании и дисперсии).

Для
охарактеризования рассеяния наблюдаемых
значений количественного признака
выборки вокруг среднего значения
вводитсявыборочная дисперсия.Выборочной дисперсией называют среднее арифметическое
квадратов отклонения наблюдаемых
значений признака от их среднего значения.
Если все значенияпризнака
выборки объемаnразличны,
то
.

Если
значения признака
имеют
частотысоответственно, причем,
то.

Аналогично
выборочным среднему и дисперсии
определяются генеральные среднее
и дисперсия
, характеризующие
генеральную совокупность в целом. Для
расчета этих характеристик достаточно
в вышеприведенных соотношениях заменить
объем выборкиnна объем
генеральной совокупностиN.

Фундаментальное
значение для практики имеет нахождение
среднего и дисперсии признака генеральной
совокупности
по соответствующим
известнымвыборочнымпараметрам.
Можно показать, чтовыборочное
среднее
является несмещенной
состоятельной оценкой генерального
среднего. В то же время, несмещенной
состоятельной оценкой генеральной
дисперсии оказывается не выборочная
дисперсия,
а так называемая “исправленная
выборочная дисперсия, равная.

Таким
образом, в качестве оценок генерального
среднего и дисперсии в математической
статистике принимают выборочнее среднее
и исправленную выборочную дисперсию.

Надежность и
доверительный интервал.

До
сих пор мы рассматривали точечные
оценки, т.е. такие оценки, которые
определяются одним числом. При выборке
малого
объема

точечная оценка может значительно
отличаться от оцениваемого параметра,
что приводит к грубым ошибкам. В связи
с этим при небольшом объеме выборки
пользуются интервальными оценками.

Интервальнойназывают оценку, определяющуюся двумя
числами – концами интервала. Пусть
найденная по данным выборки статистическая
характеристикаслужит оценкой неизвестного параметра.
Очевидно,тем точнее определяет параметр,
чем меньше абсолютная величина разности.
Другими словами, еслии,
то чем меньшеd, тем
точнее оценка. Таким образом, положительное
числоdхарактеризуетточность оценки.

Статистические
методы не позволяютутверждать,
что оценкаудовлетворяет неравенству;
можно говорить лишь о вероятности, с
которой это неравенство осуществляется.

Надежностью
(доверительной вероятностью)
оценкипоназывают вероятностьg,
с которой осуществляется неравенство.
Обычно надежность оценки задается
заранее, причем в качествеgберут число, близкое к единице – как
правило 0,95; 0,99 или 0,999.

Пусть
вероятность того, что
равнаg:.

Заменим
неравенство
равносильным ему двойным неравенством

.

Это
соотношение следует понимать так:
вероятность того, что интервал
заключает в себе (покрывает) неизвестный
параметрQ, равна.

Таким
образом, доверительнымназывают
интервал,
который покрывает неизвестный параметр
с заданной надежностью.

Величину
1 – g=aназывают уровнем значимости или
вероятностью ошибки.

Для
построения интервальной оценки параметра
необходимо знать закон его распределения
как случайной величины

Лекция
14. Доверительные интервалы для
математического ожидания и дисперсии

  1. Доверительный
    интервал для математического ожидания
    нормального распределения при
    известной
    дисперсии.

Пусть
количественный признак Xгенеральной совокупности распределен
нормально, причем среднее квадратическое
отклонениеsэтого
распределенияизвестно. Требуется
оценить неизвестное математическое
ожиданиепо выборочному среднему.
Найдем доверительные интервалы,
покрывающие параметрaс
надежностью.

Будем
рассматривать выборочное среднее
как случайную величину(т.к.меняется
от выборки к выборке) и выборочные
значения– как одинаково распределенные независимые
случайные величины(эти числа также меняются от выборки к
выборке). Другими словами, математическое
ожидание каждой из этих величин равнои среднее квадратическое отклонение -s. Так как случайная
величинаXраспределена
нормально, то и выборочное среднеетакже распределено нормально. Параметры
распределенияравны.

Потребуем,
чтобы выполнялось соотношение
,

где
– заданная надежность. Используем формулу.

Заменим
Xнаиsнаи получим

где
.
Выразив из последнего равенства,
получим

Так
как вероятность Pзадана
и равна,
окончательно имеем

.

Таким
образом, с надежностью
можно утверждать, что доверительный
интервалпокрывает
неизвестный параметрa,
причем точность оценки равна.

Число
определяется из равенства;
по таблице функции Лапласа находят
аргумент,
которому соответствует значение функции
Лапласа, равное.

Отметим
два момента: 1) при возрастании объемавыборкиnчислоубывает и, следовательно, точность
оценки увеличивается, 2) увеличениенадежностиоценкиприводит к увеличению(так как функция Лапласа возрастающая
функция) и, следовательно, к возрастанию,
то естьувеличение надежностиоценки влечет за собойуменьшение
ее точности
.

Если
требуется оценить математическое
ожидание с наперед заданной точностью
и надежностью,
то минимальный объем выборки, который
обеспечит эту точность, находят по
формуле

,

следующей
из равенства
.

  1. Доверительный
    интервал для математического ожидания
    нормального распределения при неизвестной
    дисперсии

Пусть
количественный признак Xгенеральной совокупности распределен
нормально, причем среднее квадратическое
отклонениеsэтого
распределениянеизвестно.
Требуется оценить неизвестное
математическое ожидание с помощью
доверительных интервалов.

Оказывается,
что по данным выборки можно построить
случайную величину
,

которая
имеет распределение Стьюдента с
степенями свободы. В последнем выражении

выборочное среднее,– исправленное среднее квадратическое
отклонение,– объем выборки; возможные значения
случайной величиныTмы
будем обозначать черезt.
Плотность распределения Стьюдента
имеет вид

,
где
некоторая постоянная, выражающаяся
через гамма – функции.

Несколько
слов о распределении Стьюдента. Пусть
– независимые стандартные нормальные
величины. Тогда случайная величина

имеет
распределение Стьюдента (В.
Госсет) сстепенями свободы. При росте числа
степеней свободы распределение Стьюдента
стремится к нормальному распределению
и уже прииспользование нормального распределения
дает хорошие результаты.

Как
видно, распределение Стьюдента
определяется параметром n– объемом выборки (или, что то же самое
– числом степеней свободы)
и не зависит от неизвестных параметров.
Поскольку– четная функция отt, то
вероятность выполнения неравенства

определяется
следующим образом:.

Заменив
неравенство в круглых скобках двойным
неравенством, получим выражение для
искомого доверительного интервала

Итак,
с помощью распределения Стьюдента
найден доверительный интервал
,
покрывающий неизвестный параметрaс надежностью.
По таблице распределения Стьюдента и
заданнымnиможно найтии
используя найденные по выборкеи,
, можно определить доверительный
интервал.

Пример.
Количественный признакXгенеральной совокупности распределен
нормально. По выборке объемаn= 16 найдены генеральное среднееи исправленное среднее квадратическое
отклонение.
Требуется оценить неизвестное
математическое ожидание при помощи
доверительного интервала с надежностью
0,95.

Решение.
Найдемпо таблице распределения Стьюдента,
используя значения.
Этот параметр оказывается равным 2,13.
Найдем границы доверительного интервала:

То
есть с надежностью 0,95 неизвестный
параметр aзаключен в
доверительном интервале

Можно показать,
что при возрастании объема выборки nраспределение Стьюдента стремится к
нормальному. Поэтому практически приn> 30 можно вместо него
пользоваться нормальным распределением.
Прималыхnэто
приводит к значительным ошибкам.

3.
Доверительный интервал для оценки
среднего квадратического отклонения
s
нормального распределения

Пусть
количественный признак Xгенеральной совокупности распределен
нормально и требуется оценить неизвестное
генеральное среднее квадратическое
отклонениеsпо
исправленному выборочному среднему
квадратическому отклонениюs.
Найдем доверительные интервалы,
покрывающие параметрsс заданной надежностью.

Потребуем,
чтобы выполнялось соотношение

или

Преобразуем
двойное неравенство
в равносильное неравенствои обозначимd/s=q. Имеем(A)

и
необходимо найти q. С этой
целью введем в рассмотрение случайную
величину

Оказывается,
величина
распределена по законусn– 1 степенями свободы.

Несколько
слов о распределении хи-квадрат. Если
– независимые стандартные нормальные
величины, то говорят, что случайная
величина

имеет
распределение хи-квадратсстепенями свободы.

Плотность
распределения cимеет
вид

Это
распределение не зависит от оцениваемого
параметра s, а зависит
только от объема выборкиn.

Преобразуем
неравенство (A) так, чтобы
оно приняло вид.
Вероятность этого неравенства равна
заданной вероятности,
т.е..

Предполагая,
что q< 1, перепишем (A)
в виде

,

далее, умножим все
члены неравенства на
:

или.

Вероятность того,
что это неравенство, а также равносильное
ему неравенство (A) будет
справедливо, равна

.

Из этого уравнения
можно по заданным
найти,
используя имеющиеся расчетные таблицы.
Вычислив по выборкеи найдя по таблице,
получим искомый интервал (A1),
покрывающийsс
заданной надежностью.

Пример.
Количественный признакXгенеральной совокупности распределен
нормально. По выборке объемаn= 25 найдено исправленное среднее
квадратическое отклонениеs= 0.8. Найти доверительный интервал,
покрывающий генеральное среднее
квадратическое отклонениеsс надежностью 0,95.

Решение.
По заданнымпо таблице находим значениеq= 0.32. Искомый доверительный интервал
есть

.

Мы предполагали,
что q< 1. Если это не так,
то мы придем к соотношениям

,

и значение q>1 может быть найдено из уравнения

Лекция
14. Доверительные интервалы для
математического ожидания и дисперсии

  1. Доверительный
    интервал для математического ожидания
    нормального распределения при
    известной
    дисперсии.

Пусть
количественный признак Xгенеральной совокупности распределен
нормально, причем среднее квадратическое
отклонениеsэтого
распределенияизвестно. Требуется
оценить неизвестное математическое
ожиданиепо выборочному среднему.
Найдем доверительные интервалы,
покрывающие параметрaс
надежностью.

Будем
рассматривать выборочное среднее
как случайную величину(т.к.меняется
от выборки к выборке) и выборочные
значения– как одинаково распределенные независимые
случайные величины(эти числа также меняются от выборки к
выборке). Другими словами, математическое
ожидание каждой из этих величин равнои среднее квадратическое отклонение -s. Так как случайная
величинаXраспределена
нормально, то и выборочное среднеетакже распределено нормально. Параметры
распределенияравны.

Потребуем,
чтобы выполнялось соотношение
,

где
– заданная надежность. Используем формулу.

Заменим
Xнаиsнаи получим

где
.
Выразив из последнего равенства,
получим

Так
как вероятность Pзадана
и равна,
окончательно имеем

.

Таким
образом, с надежностью
можно утверждать, что доверительный
интервалпокрывает
неизвестный параметрa,
причем точность оценки равна.

Число
определяется из равенства;
по таблице функции Лапласа находят
аргумент,
которому соответствует значение функции
Лапласа, равное.

Отметим
два момента: 1) при возрастании объемавыборкиnчислоубывает и, следовательно, точность
оценки увеличивается, 2) увеличениенадежностиоценкиприводит к увеличению(так как функция Лапласа возрастающая
функция) и, следовательно, к возрастанию,
то естьувеличение надежностиоценки влечет за собойуменьшение
ее точности
.

Если
требуется оценить математическое
ожидание с наперед заданной точностью
и надежностью,
то минимальный объем выборки, который
обеспечит эту точность, находят по
формуле

,

следующей
из равенства
.

  1. Доверительный
    интервал для математического ожидания
    нормального распределения при неизвестной
    дисперсии

Пусть
количественный признак Xгенеральной совокупности распределен
нормально, причем среднее квадратическое
отклонениеsэтого
распределениянеизвестно.
Требуется оценить неизвестное
математическое ожидание с помощью
доверительных интервалов.

Оказывается,
что по данным выборки можно построить
случайную величину
,

которая
имеет распределение Стьюдента с
степенями свободы. В последнем выражении

выборочное среднее,– исправленное среднее квадратическое
отклонение,– объем выборки; возможные значения
случайной величиныTмы
будем обозначать черезt.
Плотность распределения Стьюдента
имеет вид

,
где
некоторая постоянная, выражающаяся
через гамма – функции.

Несколько
слов о распределении Стьюдента. Пусть
– независимые стандартные нормальные
величины. Тогда случайная величина

имеет
распределение Стьюдента (В.
Госсет) сстепенями свободы. При росте числа
степеней свободы распределение Стьюдента
стремится к нормальному распределению
и уже прииспользование нормального распределения
дает хорошие результаты.

Как
видно, распределение Стьюдента
определяется параметром n– объемом выборки (или, что то же самое
– числом степеней свободы)
и не зависит от неизвестных параметров.
Поскольку– четная функция отt, то
вероятность выполнения неравенства

определяется
следующим образом:.

Заменив
неравенство в круглых скобках двойным
неравенством, получим выражение для
искомого доверительного интервала

Итак,
с помощью распределения Стьюдента
найден доверительный интервал
,
покрывающий неизвестный параметрaс надежностью.
По таблице распределения Стьюдента и
заданнымnиможно найтии
используя найденные по выборкеи,
, можно определить доверительный
интервал.

Пример.
Количественный признакXгенеральной совокупности распределен
нормально. По выборке объемаn= 16 найдены генеральное среднееи исправленное среднее квадратическое
отклонение.
Требуется оценить неизвестное
математическое ожидание при помощи
доверительного интервала с надежностью
0,95.

Решение.
Найдемпо таблице распределения Стьюдента,
используя значения.
Этот параметр оказывается равным 2,13.
Найдем границы доверительного интервала:

То
есть с надежностью 0,95 неизвестный
параметр aзаключен в
доверительном интервале

Можно показать,
что при возрастании объема выборки nраспределение Стьюдента стремится к
нормальному. Поэтому практически приn> 30 можно вместо него
пользоваться нормальным распределением.
Прималыхnэто
приводит к значительным ошибкам.

3.
Доверительный интервал для оценки
среднего квадратического отклонения
s
нормального распределения

Пусть
количественный признак Xгенеральной совокупности распределен
нормально и требуется оценить неизвестное
генеральное среднее квадратическое
отклонениеsпо
исправленному выборочному среднему
квадратическому отклонениюs.
Найдем доверительные интервалы,
покрывающие параметрsс заданной надежностью.

Потребуем,
чтобы выполнялось соотношение

или

Преобразуем
двойное неравенство
в равносильное неравенствои обозначимd/s=q. Имеем(A)

и
необходимо найти q. С этой
целью введем в рассмотрение случайную
величину

Оказывается,
величина
распределена по законусn– 1 степенями свободы.

Несколько
слов о распределении хи-квадрат. Если
– независимые стандартные нормальные
величины, то говорят, что случайная
величина

имеет
распределение хи-квадратсстепенями свободы.

Плотность
распределения cимеет
вид

Это
распределение не зависит от оцениваемого
параметра s, а зависит
только от объема выборкиn.

Преобразуем
неравенство (A) так, чтобы
оно приняло вид.
Вероятность этого неравенства равна
заданной вероятности,
т.е..

Предполагая,
что q< 1, перепишем (A)
в виде

,

далее, умножим все
члены неравенства на
:

или.

Вероятность того,
что это неравенство, а также равносильное
ему неравенство (A) будет
справедливо, равна

.

Из этого уравнения
можно по заданным
найти,
используя имеющиеся расчетные таблицы.
Вычислив по выборкеи найдя по таблице,
получим искомый интервал (A1),
покрывающийsс
заданной надежностью.

Пример.
Количественный признакXгенеральной совокупности распределен
нормально. По выборке объемаn= 25 найдено исправленное среднее
квадратическое отклонениеs= 0.8. Найти доверительный интервал,
покрывающий генеральное среднее
квадратическое отклонениеsс надежностью 0,95.

Решение.
По заданнымпо таблице находим значениеq= 0.32. Искомый доверительный интервал
есть

.

Мы предполагали,
что q< 1. Если это не так,
то мы придем к соотношениям

,

и значение q>1 может быть найдено из уравнения

Лекция
15. Проверка статистических гипотез.
Нулевая и альтернативная гипотезы,
статистический критерий. Ошибки первого
и второго рода. Этапы проверки
статистической гипотезы. Критерий
согласия Пирсона о виде распределения.

На прошлой
лекции мы рассматривали задачу построения
доверительных интервалов для неизвестных
параметров генеральной совокупности.
Сегодня мы продолжим изучение основных
задач математической статистики и
перейдем к вопросупроверки
статистических гипотез
.

Проверка
статистических гипотез представляет
собой важнейший этап процесса принятия
решения в управленческой деятельности,
позволяя проводить подготовительный
этап предстоящих действий с учетом
реальных характеристик процесса
производства, контроля качества
продукции, коммерческой деятельности,
и т.п.

Как известно,
закон распределенияопределяет
количественные характеристики генеральной
совокупности.

Если закон
распределения неизвестен, но есть
основания предположить, что он имеет
определенный вид (например, А), то
выдвигают гипотезу: генеральная
совокупность распределена по закону
А. В этой гипотезе речь идето виде
предполагаемого распределения.

Часто закон
распределения известен, но неизвестны
его параметры. Если есть основания
предположить, что неизвестный параметрравен определенному значению,
то может выдвигаться гипотеза.
В этой гипотезе речь идет опредполагаемой
величине параметра
известного
распределения.

Возможны и другие
гипотезы: о равенстве параметров двух
или нескольких распределений, о
независимости выборок и т. д.

Приведем несколько
задач, которые могут быть решены с
помощью проверки статистических гипотез.

1. Используется
два метода измерения одной и той же
величины. Первый метод дает оценки
этой величины, второй –.
Требуется определить, обеспечивают ли
оба методаодинаковую точность
измерений
.

2. Контроль точности
работы некоторой производственной
системы. Получаемые характеристики
выпускаемой продукции характеризуются
некоторым разбросом (дисперсией). Обычно
величина этого разброса не должна
превышать некоторого заранее заданного
уровня. Требуется определить, обеспечивает
ли система (например, линия сборки или
отдельный станок) заданную точность.

Итак, статистической
называют гипотезу о виде неизвестного
распределения или о параметрах известных
распределений. Примеры статистических
гипотез: генеральная совокупность
распределена по закону Пуассона;
дисперсии двух нормальных распределений
равны между собой.

Наряду с выдвинутой
гипотезой всегда рассматривают и
противоречащую ей гипотезу. Если
выдвинутая гипотеза будет отвергнута,
то принимается противоречащая гипотеза.

Нулевой (основной)
называют выдвинутую гипотезу.

Альтернативной
(
конкурирующей) называют
гипотезу,
которая противоречит нулевой. Например,
если нулевая гипотеза состоит в
предположении, что математическое
ожидание нормального распределения
равно 5, то альтернативная гипотеза,
например, может состоять в предположении,
что.
Кратко это записывают так:.

Простойназывают гипотезу, содержащую только
одно предположение. Например, если– параметр показательного распределения,
то гипотеза– простая.Сложной называют
гипотезу, состоящую из конечного или
бесконечного числа простых гипотез.
Например, сложная гипотезасостоит из бесконечного множества
простых гипотез вида,
где– любое число, большее 3.

Выдвинутая гипотеза
может быть правильной или неправильной,
поэтому возникает необходимость ее
проверки. Так как проверку производят
статистическими методами, то ее называют
статистической. В итогестатистической проверки гипотезыв двух случаях может быть принято
неправильное решение, т.е. могут быть
допущены ошибки двух родов.

Ошибка первого
рода
состоит в том, что будетотвергнута правильнаягипотеза.
Ошибка второго рода состоит
в том, что будетпринята неправильнаягипотеза. Следует отметить, что последствия
ошибок могут оказаться различными. Если
отвергнуто правильное решение “продолжать
строительство жилого дома”, то эта
ошибка первого рода повлечет материальный
ущерб; если же принято неправильное
решение “продолжать строительство”
несмотря на опасность обвала дома, то
эта ошибка второго рода может привести
к многочисленным жертвам. Иногда,
наоборот, ошибка первого рода влечет
более тяжелые последствия.

Естественно,
правильное решение может быть принято
также в двух случаях, когда принимается
правильная
гипотеза илиотвергается
неверная
гипотеза.

Вероятность
совершения ошибки первого роданазываютуровнем значимостии
обозначают.
Чаще всего уровень значимости принимают
равным 0,05 или 0,01. Если, например, принят
уровень значимости 0,05, то это означает,
что в пяти случаях из ста имеется риск
допустить ошибку первого рода (отвергнуть
правильную гипотезу).


Представьте, что существует популяция из 10 000 дельфинов, и средний вес дельфина в этой популяции составляет 300 фунтов.

Если мы возьмем простую случайную выборку из 50 дельфинов из этой популяции, мы можем обнаружить, что средний вес дельфинов в этой выборке составляет 305 фунтов.

Затем, если мы возьмем еще одну простую случайную выборку из 50 дельфинов, мы можем обнаружить, что средний вес дельфинов в этой выборке составляет 295 фунтов.

Каждый раз, когда мы берем простую случайную выборку из 50 дельфинов, вполне вероятно, что средний вес дельфинов в выборке будет близок к среднему значению популяции в 300 фунтов, но не точно 300 фунтам.

Представьте, что мы берем 200 простых случайных выборок из 50 дельфинов из этой популяции и строим гистограмму среднего веса в каждой выборке:

В большинстве образцов средний вес будет близок к 300 фунтам. В редких случаях может случиться так, что мы выберем образец, полный маленьких дельфинов, средний вес которых составляет всего 250 фунтов. Или мы можем случайно выбрать образец, полный крупных дельфинов, средний вес которых составляет 350 фунтов. В целом распределение выборочных средних будет приблизительно нормальным, а центр распределения будет находиться в истинном центре генеральной совокупности.

Это распределение выборочных средних известно как выборочное распределение среднего и обладает следующими свойствами:

м х = м

где μx — выборочное среднее, а μ — среднее значение генеральной совокупности.

σ х = σ/ √n

где σ x — стандартное отклонение выборки, σ — стандартное отклонение генеральной совокупности, а n — размер выборки.

Например, в этой популяции дельфинов мы знаем, что средний вес равен μ = 300. Таким образом, среднее значение выборочного распределения равно μ x = 300 .

Предположим, мы также знаем, что стандартное отклонение населения составляет 18 фунтов. Таким образом, стандартное отклонение выборки равно σ x = 18/√50 = 2,546 .

Выборочное распределение доли

Рассмотрим ту же популяцию из 10 000 дельфинов. Предположим, что 10% дельфинов черные, а остальные серые. Предположим, мы берем простую случайную выборку из 50 дельфинов и обнаруживаем, что 14% дельфинов в этой выборке — черные. Затем мы берем еще одну простую случайную выборку из 50 дельфинов и обнаруживаем, что 8% дельфинов в этой выборке черные.

Представьте, что мы берем 200 простых случайных выборок из 50 дельфинов из этой популяции и строим гистограмму доли черных дельфинов в каждой выборке:

В большинстве выборок доля черных дельфинов будет близка к истинной популяции в 10%. Распределение выборочной доли черных дельфинов будет приблизительно нормальным, а центр распределения будет находиться в истинном центре популяции.

Это распределение выборочных долей известно как выборочное распределение доли и обладает следующими свойствами:

μ р = P

где p — доля выборки, а P — доля совокупности.

σ p = √ (P) (1-P) / n

где P — доля населения, а n — размер выборки.

Например, в этой популяции дельфинов мы знаем, что истинная доля черных дельфинов составляет 10% = 0,1. Таким образом, среднее значение выборочного распределения доли составляет μ p = 0,1 .

Предположим, мы также знаем, что стандартное отклонение населения составляет 18 фунтов. Таким образом, стандартное отклонение выборки равно σ p = √ (P)(1-P) / n = √ (0,1)(1-0,1) / 50 = 0,042 .

Установление нормальности

Чтобы использовать приведенные выше формулы, распределение выборки должно быть нормальным.

Согласно центральной предельной теореме , выборочное распределение среднего значения выборки приблизительно нормально, если размер выборки достаточно велик, даже если распределение генеральной совокупности не является нормальным.В большинстве случаев мы считаем, что размер выборки в 30 или более человек является достаточно большим.

Выборочное распределение доли выборки является приблизительно нормальным, если ожидаемое количество успешных и неудачных попыток равно как минимум 10.

Примеры

Мы можем использовать выборочные распределения для расчета вероятностей.

Пример 1: Определенная машина создает файлы cookie. Распределение веса этих печенек смещено вправо со средним значением 10 унций и стандартным отклонением 2 унции. Если мы возьмем простую случайную выборку из 100 печений, произведенных этой машиной, какова вероятность того, что средний вес печенья в этой выборке будет меньше 9,8 унций?

Шаг 1: Установите нормальность.

Нам нужно убедиться, что выборочное распределение среднего значения выборки является нормальным. Поскольку размер нашей выборки больше или равен 30, в соответствии с центральной предельной теоремой мы можем предположить, что выборочное распределение выборочного среднего является нормальным.

Шаг 2: Найдите среднее значение и стандартное отклонение выборочного распределения.

м х = м

σ х = σ/ √n

мкх = 10 унций

σ x = 2/√100 = 2/10 = 0,2 унции

Шаг 3: Используйте калькулятор площади Z Score, чтобы найти вероятность того, что средний вес печенья в этом образце меньше 9,8 унций.

Введите следующие числа в Калькулятор площади Z Score.Вы можете оставить «Исходный балл 2» пустым, так как в этом примере мы находим только одно число.

Поскольку мы хотим узнать вероятность того, что средний вес печенья в этой выборке меньше 9,8 унций, нас интересует площадь слева от 9,8. Калькулятор говорит нам, что эта вероятность равна 0,15866 .

Пример 2. Согласно общешкольному исследованию, 87% учащихся в определенной школе предпочитают пиццу мороженому. Предположим, мы берем простую случайную выборку из 200 студентов. Какова вероятность того, что доля студентов, предпочитающих пиццу, меньше 85 %?

Шаг 1: Установите нормальность.

Напомним, что выборочное распределение доли выборки является приблизительно нормальным, если ожидаемое количество «успехов» и «неуспехов» равно как минимум 10.

В этом случае ожидаемое количество студентов, которые предпочтут пиццу, составляет 87% * 200 студентов = 174 студента. Ожидаемое количество студентов, которые не предпочтут пиццу, составляет 13% * 200 студентов = 26 студентов. Поскольку оба эти числа не меньше 10, можно предположить, что выборочное распределение выборочной доли студентов, предпочитающих пиццу, примерно нормальное.

Шаг 2: Найдите среднее значение и стандартное отклонение выборочного распределения.

μ р = P

σ p = √ (P) (1-P) / n

мк р = 0,87

σ p = √ (0,87) (1–0,87) / 200 = 0,024

Шаг 3: Используйте Калькулятор Z Score Area Calculator , чтобы определить вероятность того, что доля учащихся, предпочитающих пиццу, составляет менее 85 %.

Введите следующие числа в Калькулятор площади Z Score.Вы можете оставить «Исходный балл 2» пустым, так как в этом примере мы находим только одно число.

Поскольку мы хотим узнать вероятность того, что доля студентов, предпочитающих пиццу, составляет менее 85 %, нас интересует область слева от 0,85. Калькулятор говорит нам, что эта вероятность равна 0,20233 .

Бонус: видео-объяснение распределений выборки

Добавить комментарий