Определение.
Арифметическое
значение квадратного
корня из выборочной дисперсии называется
выборочным
средним квадратическим отклонением:
(10)
Исправленное
выборочное среднее квадратическое
отклонение
(11)
4. Мода.
Определение.
Модой М0
называют значение
признака, которое имеет наибольшую
частоту
(ni
= max).
Например, для
распределения, данного табл. 5, мода
равна 5.
5. Медиана.
Медианой
те
называют значение признака, которое
делит статистическое распределение на
две равные части:
me
=
xk+1,
если
n
=
2k+1,
me
=
,
если n=2k
6. Коэффициент
вариации.
Для сравнивания меры рассеяния значений
признаков около выборочной средней в
разных выборках служит коэффициент
вариации.
Определение.
Коэффициентом
вариации V
называется
отношение выборочного среднего
квадратического
отклонения к выборочной средней,
выраженное в процентах:
(12)
Пусть изучается
случайная величина X.
Из генеральной
совокупности сделана выборка объема п
со значениями
признака х1
х2,…,
хn.
Предположим,
что х1,
х2,…,хn
различны.
Их можно рассматривать как случайные
величины Х1,
Х2,
…, Хn,
имеющие то
же распределение, что и случайная
величина X,
и, следовательно,
одинаковые значения М(Х)
и
D(Х).
Тогда
Воспользовавшись
свойствами дисперсии находим
Пусть σ– средняя
квадратическая ошибка выборочной
средней. Тогда
Вывод. Средняя
квадратическая ошибка выборочной
средней σ(B)
в
раз меньше среднего квадратического
отклонения случайной величиныX,
возможные
значения которой попали в выборочную
совокупность.
1.6. Статистические оценки параметров распределения
Оценки
математического ожидания и дисперсии.
С понятием параметров
распределения мы познакомились в теории
вероятностей. Например, в нормальном
законе распределения, задаваемом
функцией плотности вероятности
параметрами служат
а –
математическое ожидание и а
– среднее
квадратическое отклонение. В распределении
Пуассона параметром является число а
= пр.
Определение.
Статистической
оценкой неизвестного параметра
теоретического распределения называют
его приближенное значение, зависящее
от данных выборки (х1,
х2,
х3,
…, хk;
п1,
п2,
п3,…,
пk),
т. е. некоторую функцию этих величин.
Здесь х1,
х2,
х3,
…, хk
– значения признака, п1,
п2,
п3,…,
пk
–соответствующие частоты. Статистическая
оценка является случайной величиной.
Обозначим через
θ
– оцениваемый параметр, а через
θ*
– его статистическую оценку. Величину
|θ*–θ|
называют
точностью
оценки. Чем
меньше |θ*–θ|,
тем лучше, точнее определен неизвестный
параметр.
Чтобы оценка θ*
имела практическое значение, она не
должна содержать систематической ошибки
и вместе с тем иметь возможно меньшую
дисперсию. Кроме того, при увеличении
объема выборки вероятность сколь угодно
малых отклонений |θ*–θ|
должна быть близка к 1.
Сформулируем
следующие определения.
-
Оценка параметра
называется несмещенной, если ее
математическое ожидание М(θ*)
равно
оцениваемому параметру θ,
т. е.
М(θ*)
= θ, (1)
и смещенной, если
М(θ*)
≠ θ, (2)
-
Оценка θ*
называется состоятельной, если при
любом δ > 0
(3)
Равенство (3)
читается так: оценка θ*
сходится по вероятности к θ.
3. Оценка θ*
называется эффективной, если при заданном
п она имеет наименьшую дисперсию.
Теорема
1. Выборочная
средняя ХВ
является несмещенной и состоятельной
оценкой математического ожидания.
Доказательство.
Пусть выборка репрезентативна, т. е..
все элементы генеральной совокупности
имеют одинаковую возможность попасть
в выборку. Значения признака х1,
х2,
х3,…,хn
можно принять
за независимые случайные величины Х1,
Х2,
Х3, …,Хn
с одинаковыми
распределениями и числовыми
характеристиками, в том числе с равными
математическими ожиданиями, равными
а,
Так
как каждая из величин Х1,
Х2,
Х3,
…,
Хп
имеет
распределение,
совпадающее с распределением генеральной
совокупности, то М(Х)
= а. Поэтому
Далее, на основании
закона больших чисел имеем
откуда следует,
что
–
состоятельная оценка М(Х).
Используя правило
исследования на экстремум, можно
доказать, что
является и эффективной оценкойМ(Х).
В качестве оценки
дисперсии изучаемого признака в
генеральной совокупности D(Х)
принимается
исправленная дисперсия.
Теорема
2. Исправленная
выборочная дисперсия
является
несмещенной и состоятельной
оценкой
дисперсии D(Х).
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Евгений Николаевич Беляев
Эксперт по предмету «Математика»
Задать вопрос автору статьи
Генеральная дисперсия
Пусть нам дана генеральная совокупность относительно случайной величины $X$. Для начала напомним следующее определение:
Определение 1
Генеральная совокупность — совокупность случайно отобранных объектов данного вида, над которыми проводят наблюдения с целью получения конкретных значений случайной величины, проводимых в неизменных условиях при изучении одной случайной величины данного вида.
Определение 2
Генеральная дисперсия — среднее арифметическое квадратов отклонений значений вариант генеральной совокупности от их среднего значения.
Пусть значения вариант $x_1, x_2,dots ,x_k$ имеют, соответственно, частоты $n_1, n_2,dots ,n_k$. Тогда генеральная дисперсия вычисляется по формуле:
Сдай на права пока
учишься в ВУЗе
Вся теория в удобном приложении. Выбери инструктора и начни заниматься!
Получить скидку 3 000 ₽
Рассмотрим частный случай. Пусть все варианты $x_1, x_2,dots ,x_k$ различны. В этом случае $n_1, n_2,dots ,n_k=1$. Получаем, что в этом случае генеральная дисперсия вычисляется по формуле:
С этим понятием также связано понятие генерального среднего квадратического отклонения.
Определение 3
Генеральное среднее квадратическое отклонение — квадратный корень из генеральной дисперсии:
[{sigma }_г=sqrt{D_г}]
Выборочная дисперсия
Пусть нам дана выборочная совокупность относительно случайной величины $X$. Для начала напомним следующее определение:
Определение 4
Выборочная совокупность — часть отобранных объектов из генеральной совокупности.
Определение 5
Выборочная дисперсия — среднее арифметическое значений вариант выборочной совокупности.
«Дисперсия: генеральная, выборочная, исправленная» 👇
Пусть значения вариант $x_1, x_2,dots ,x_k$ имеют, соответственно, частоты $n_1, n_2,dots ,n_k$. Тогда выборочная дисперсия вычисляется по формуле:
Рассмотрим частный случай. Пусть все варианты $x_1, x_2,dots ,x_k$ различны. В этом случае $n_1, n_2,dots ,n_k=1$. Получаем, что в этом случае выборочная дисперсия вычисляется по формуле:
С этим понятием также связано понятие выборочного среднего квадратического отклонения.
Определение 6
Выборочное среднее квадратическое отклонение — квадратный корень из генеральной дисперсии:
[{sigma }_в=sqrt{D_в}]
Исправленная дисперсия
Для нахождения исправленной дисперсии $S^2$ необходимо умножить выборочную дисперсию на дробь $frac{n}{n-1}$, то есть
С этим понятием также связано понятие исправленного среднего квадратического отклонения, которое находится по формуле:
!!! В случае, когда значение вариант не являются дискретными, а представляют из себя интервалы, то в формулах для вычисления генеральной или выборочной дисперсий за значение $x_i$ принимается значение середины интервала, которому принадлежит $x_i.$
Пример задачи на нахождение дисперсии и среднего квадратического отклонения
Пример 1
Выборочная совокупность задана следующей таблицей распределения:
Рисунок 1.
Найдем для нее выборочную дисперсию, выборочное среднее квадратическое отклонение, исправленную дисперсию и исправленное среднее квадратическое отклонение.
Решение:
Для решения этой задачи для начала сделаем расчетную таблицу:
Рисунок 2.
Величина $overline{x_в}$ (среднее выборочное) в таблице находится по формуле:
[overline{x_в}=frac{sumlimits^k_{i=1}{x_in_i}}{n}]
То есть
[overline{x_в}=frac{sumlimits^k_{i=1}{x_in_i}}{n}=frac{305}{20}=15,25]
Найдем выборочную дисперсию по формуле:
[D_в=frac{sumlimits^k_{i=1}{{{(x}_i-overline{x_в})}^2n_i}}{n}=frac{523,75}{20}=26,1875]
Выборочное среднее квадратическое отклонение:
[{sigma }_в=sqrt{D_в}approx 5,12]
Исправленная дисперсия:
[{S^2=frac{n}{n-1}D}_в=frac{20}{19}cdot 26,1875approx 27,57]
Исправленное среднее квадратическое отклонение:
[S=sqrt{S^2}approx 5,25]
Находи статьи и создавай свой список литературы по ГОСТу
Поиск по теме
Интервальный вариационный ряд и его характеристики
- Построение интервального вариационного ряда по данным эксперимента
- Гистограмма и полигон относительных частот, кумулята и эмпирическая функция распределения
- Выборочная средняя, мода и медиана. Симметрия ряда
- Выборочная дисперсия и СКО
- Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации
- Алгоритм исследования интервального вариационного ряда
- Примеры
п.1. Построение интервального вариационного ряда по данным эксперимента
Интервальный вариационный ряд – это ряд распределения, в котором однородные группы составлены по признаку, меняющемуся непрерывно или принимающему слишком много значений.
Общий вид интервального вариационного ряда
Интервалы, (left.left[a_{i-1},a_iright.right)) | (left.left[a_{0},a_1right.right)) | (left.left[a_{1},a_2right.right)) | … | (left.left[a_{k-1},a_kright.right)) |
Частоты, (f_i) | (f_1) | (f_2) | … | (f_k) |
Здесь k – число интервалов, на которые разбивается ряд.
Размах вариации – это длина интервала, в пределах которой изменяется исследуемый признак: $$ F=x_{max}-x_{min} $$
Правило Стерджеса
Эмпирическое правило определения оптимального количества интервалов k, на которые следует разбить ряд из N чисел: $$ k=1+lfloorlog_2 Nrfloor $$ или, через десятичный логарифм: $$ k=1+lfloor 3,322cdotlg Nrfloor $$
Скобка (lfloor rfloor) означает целую часть (округление вниз до целого числа).
Шаг интервального ряда – это отношение размаха вариации к количеству интервалов, округленное вверх до определенной точности: $$ h=leftlceilfrac Rkrightrceil $$
Скобка (lceil rceil) означает округление вверх, в данном случае не обязательно до целого числа.
Алгоритм построения интервального ряда
На входе: все значения признака (left{x_jright}, j=overline{1,N})
Шаг 1. Найти размах вариации (R=x_{max}-x_{min})
Шаг 2. Найти оптимальное количество интервалов (k=1+lfloorlog_2 Nrfloor)
Шаг 3. Найти шаг интервального ряда (h=leftlceilfrac{R}{k}rightrceil)
Шаг 4. Найти узлы ряда: $$ a_0=x_{min}, a_i=1_0+ih, i=overline{1,k} $$ Шаг 5. Найти частоты (f_i) – число попаданий значений признака в каждый из интервалов (left.left[a_{i-1},a_iright.right)).
На выходе: интервальный ряд с интервалами (left.left[a_{i-1},a_iright.right)) и частотами (f_i, i=overline{1,k})
Заметим, что поскольку шаг h находится с округлением вверх, последний узел (a_kgeq x_{max}).
Например:
Проведено 100 измерений роста учеников старших классов.
Минимальный рост составляет 142 см, максимальный – 197 см.
Найдем узлы для построения соответствующего интервального ряда.
По условию: (N=100, x_{min}=142 см, x_{max}=197 см).
Размах вариации: (R=197-142=55) (см)
Оптимальное число интервалов: (k=1+lfloor 3,322cdotlg 100rfloor=1+lfloor 6,644rfloor=1+6=7)
Шаг интервального ряда: (h=lceilfrac{55}{5}rceil=lceil 7,85rceil=8) (см)
Получаем узлы ряда: $$ a_0=x_{min}=142, a_i=142+icdot 8, i=overline{1,7} $$
(left.left[a_{i-1},a_iright.right)) cм | (left.left[142;150right.right)) | (left.left[150;158right.right)) | (left.left[158;166right.right)) | (left.left[166;174right.right)) | (left.left[174;182right.right)) | (left.left[182;190right.right)) | (left[190;198right]) |
п.2. Гистограмма и полигон относительных частот, кумулята и эмпирическая функция распределения
Относительная частота интервала (left.left[a_{i-1},a_iright.right)) – это отношение частоты (f_i) к общему количеству исходов: $$ w_i=frac{f_i}{N}, i=overline{1,k} $$
Гистограмма относительных частот интервального ряда – это фигура, состоящая из прямоугольников, ширина которых равна шагу ряда, а высота – относительным частотам каждого из интервалов.
Площадь гистограммы равна 1 (с точностью до округлений), и она является эмпирическим законом распределения исследуемого признака.
Полигон относительных частот интервального ряда – это ломаная, соединяющая точки ((x_i,w_i)), где (x_i) – середины интервалов: (x_i=frac{a_{i-1}+a_i}{2}, i=overline{1,k}).
Накопленные относительные частоты – это суммы: $$ S_1=w_1, S_i=S_{i-1}+w_i, i=overline{2,k} $$ Ступенчатая кривая (F(x)), состоящая из прямоугольников, ширина которых равна шагу ряда, а высота – накопленным относительным частотам, является эмпирической функцией распределения исследуемого признака.
Кумулята – это ломаная, которая соединяет точки ((x_i,S_i)), где (x_i) – середины интервалов.
Например:
Продолжим анализ распределения учеников по росту.
Выше мы уже нашли узлы интервалов. Пусть, после распределения всех 100 измерений по этим интервалам, мы получили следующий интервальный ряд:
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
(left.left[a_{i-1},a_iright.right)) cм | (left.left[142;150right.right)) | (left.left[150;158right.right)) | (left.left[158;166right.right)) | (left.left[166;174right.right)) | (left.left[174;182right.right)) | (left.left[182;190right.right)) | (left[190;198right]) |
(f_i) | 4 | 7 | 11 | 34 | 33 | 8 | 3 |
Найдем середины интервалов, относительные частоты и накопленные относительные частоты:
(x_i) | 146 | 154 | 162 | 170 | 178 | 186 | 194 |
(w_i) | 0,04 | 0,07 | 0,11 | 0,34 | 0,33 | 0,08 | 0,03 |
(S_i) | 0,04 | 0,11 | 0,22 | 0,56 | 0,89 | 0,97 | 1 |
Построим гистограмму и полигон:
Построим кумуляту и эмпирическую функцию распределения:
Эмпирическая функция распределения (относительно середин интервалов): $$ F(x)= begin{cases} 0, xleq 146\ 0,04, 146lt xleq 154\ 0,11, 154lt xleq 162\ 0,22, 162lt xleq 170\ 0,56, 170lt xleq 178\ 0,89, 178lt xleq 186\ 0,97, 186lt xleq 194\ 1, xgt 194 end{cases} $$
п.3. Выборочная средняя, мода и медиана. Симметрия ряда
Выборочная средняя интервального вариационного ряда определяется как средняя взвешенная по частотам: $$ X_{cp}=frac{x_1f_1+x_2f_2+…+x_kf_k}{N}=frac1Nsum_{i=1}^k x_if_i $$ где (x_i) – середины интервалов: (x_i=frac{a_{i-1}+a_i}{2}, i=overline{1,k}).
Или, через относительные частоты: $$ X_{cp}=sum_{i=1}^k x_iw_i $$
Модальным интервалом называют интервал с максимальной частотой: $$ f_m=max f_i $$ Мода интервального вариационного ряда определяется по формуле: $$ M_o=x_o+frac{f_m-f_{m-1}}{(f_m-f_{m-1})+(f_m+f_{m+1})}h $$ где
(h) – шаг интервального ряда;
(x_o) – нижняя граница модального интервала;
(f_m,f_{m-1},f_{m+1}) – соответственно, частоты модального интервала, интервала слева от модального и интервала справа.
Медианным интервалом называют первый интервал слева, на котором кумулята превысила значение 0,5. Медиана интервального вариационного ряда определяется по формуле: $$ M_e=x_o+frac{0,5-S_{me-1}}{w_{me}}h $$ где
(h) – шаг интервального ряда;
(x_o) – нижняя граница медианного интервала;
(S_{me-1}) накопленная относительная частота для интервала слева от медианного;
(w_{me}) относительная частота медианного интервала.
Расположение выборочной средней, моды и медианы в зависимости от симметрии ряда аналогично их расположению в дискретном ряду (см. §65 данного справочника).
Например:
Для распределения учеников по росту получаем:
(x_i) | 146 | 154 | 162 | 170 | 178 | 186 | 194 | ∑ |
(w_i) | 0,04 | 0,07 | 0,11 | 0,34 | 0,33 | 0,08 | 0,03 | 1 |
(x_iw_i) | 5,84 | 10,78 | 17,82 | 57,80 | 58,74 | 14,88 | 5,82 | 171,68 |
$$ X_{cp}=sum_{i=1}^k x_iw_i=171,68approx 171,7 text{(см)} $$ На гистограмме (или полигоне) относительных частот максимальная частота приходится на 4й интервал [166;174). Это модальный интервал.
Данные для расчета моды: begin{gather*} x_o=166, f_m=34, f_{m-1}=11, f_{m+1}=33, h=8\ M_o=x_o+frac{f_m-f_{m-1}}{(f_m-f_{m-1})+(f_m+f_{m+1})}h=\ =166+frac{34-11}{(34-11)+(34-33)}cdot 8approx 173,7 text{(см)} end{gather*} На кумуляте значение 0,5 пересекается на 4м интервале. Это – медианный интервал.
Данные для расчета медианы: begin{gather*} x_o=166, w_m=0,34, S_{me-1}=0,22, h=8\ \ M_e=x_o+frac{0,5-S_{me-1}}{w_me}h=166+frac{0,5-0,22}{0,34}cdot 8approx 172,6 text{(см)} end{gather*} begin{gather*} \ X_{cp}=171,7; M_o=173,7; M_e=172,6\ X_{cp}lt M_elt M_o end{gather*} Ряд асимметричный с левосторонней асимметрией.
При этом (frac{|M_o-X_{cp}|}{|M_e-X_{cp}|}=frac{2,0}{0,9}approx 2,2lt 3), т.е. распределение умеренно асимметрично.
п.4. Выборочная дисперсия и СКО
Выборочная дисперсия интервального вариационного ряда определяется как средняя взвешенная для квадрата отклонения от средней: begin{gather*} D=frac1Nsum_{i=1}^k(x_i-X_{cp})^2 f_i=frac1Nsum_{i=1}^k x_i^2 f_i-X_{cp}^2 end{gather*} где (x_i) – середины интервалов: (x_i=frac{a_{i-1}+a_i}{2}, i=overline{1,k}).
Или, через относительные частоты: $$ D=sum_{i=1}^k(x_i-X_{cp})^2 w_i=sum_{i=1}^k x_i^2 w_i-X_{cp}^2 $$
Выборочное среднее квадратичное отклонение (СКО) определяется как корень квадратный из выборочной дисперсии: $$ sigma=sqrt{D} $$
Например:
Для распределения учеников по росту получаем:
$x_i$ | 146 | 154 | 162 | 170 | 178 | 186 | 194 | ∑ |
(w_i) | 0,04 | 0,07 | 0,11 | 0,34 | 0,33 | 0,08 | 0,03 | 1 |
(x_iw_i) | 5,84 | 10,78 | 17,82 | 57,80 | 58,74 | 14,88 | 5,82 | 171,68 |
(x_i^2w_i) – результат | 852,64 | 1660,12 | 2886,84 | 9826 | 10455,72 | 2767,68 | 1129,08 | 29578,08 |
$$ D=sum_{i=1}^k x_i^2 w_i-X_{cp}^2=29578,08-171,7^2approx 104,1 $$ $$ sigma=sqrt{D}approx 10,2 $$
п.5. Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации
Исправленная выборочная дисперсия интервального вариационного ряда определяется как: begin{gather*} S^2=frac{N}{N-1}D end{gather*}
Стандартное отклонение выборки определяется как корень квадратный из исправленной выборочной дисперсии: $$ s=sqrt{S^2} $$
Коэффициент вариации это отношение стандартного отклонения выборки к выборочной средней, выраженное в процентах: $$ V=frac{s}{X_{cp}}cdot 100text{%} $$
Подробней о том, почему и когда нужно «исправлять» дисперсию, и для чего использовать коэффициент вариации – см. §65 данного справочника.
Например:
Для распределения учеников по росту получаем: begin{gather*} S^2=frac{100}{99}cdot 104,1approx 105,1\ sapprox 10,3 end{gather*} Коэффициент вариации: $$ V=frac{10,3}{171,7}cdot 100text{%}approx 6,0text{%}lt 33text{%} $$ Выборка однородна. Найденное значение среднего роста (X_{cp})=171,7 см можно распространить на всю генеральную совокупность (старшеклассников из других школ).
п.6. Алгоритм исследования интервального вариационного ряда
На входе: все значения признака (left{x_jright}, j=overline{1,N})
Шаг 1. Построить интервальный ряд с интервалами (left.right[a_{i-1}, a_ileft.right)) и частотами (f_i, i=overline{1,k}) (см. алгоритм выше).
Шаг 2. Составить расчетную таблицу. Найти (x_i,w_i,S_i,x_iw_i,x_i^2w_i)
Шаг 3. Построить гистограмму (и/или полигон) относительных частот, эмпирическую функцию распределения (и/или кумуляту). Записать эмпирическую функцию распределения.
Шаг 4. Найти выборочную среднюю, моду и медиану. Проанализировать симметрию распределения.
Шаг 5. Найти выборочную дисперсию и СКО.
Шаг 6. Найти исправленную выборочную дисперсию, стандартное отклонение и коэффициент вариации. Сделать вывод об однородности выборки.
п.7. Примеры
Пример 1. При изучении возраста пользователей коворкинга выбрали 30 человек.
Получили следующий набор данных:
18,38,28,29,26,38,34,22,28,30,22,23,35,33,27,24,30,32,28,25,29,26,31,24,29,27,32,24,29,29
Постройте интервальный ряд и исследуйте его.
1) Построим интервальный ряд. В наборе данных: $$ x_{min}=18, x_{max}=38, N=30 $$ Размах вариации: (R=38-18=20)
Оптимальное число интервалов: (k=1+lfloorlog_2 30rfloor=1+4=5)
Шаг интервального ряда: (h=lceilfrac{20}{5}rceil=4)
Получаем узлы ряда: $$ a_0=x_{min}=18, a_i=18+icdot 4, i=overline{1,5} $$
(left.left[a_{i-1},a_iright.right)) лет | (left.left[18;22right.right)) | (left.left[22;26right.right)) | (left.left[26;30right.right)) | (left.left[30;34right.right)) | (left.left[34;38right.right)) |
Считаем частоты для каждого интервала. Получаем интервальный ряд:
(left.left[a_{i-1},a_iright.right)) лет | (left.left[18;22right.right)) | (left.left[22;26right.right)) | (left.left[26;30right.right)) | (left.left[30;34right.right)) | (left.left[34;38right.right)) |
(f_i) | 1 | 7 | 12 | 6 | 4 |
2) Составляем расчетную таблицу:
(x_i) | 20 | 24 | 28 | 32 | 36 | ∑ |
(f_i) | 1 | 7 | 12 | 6 | 4 | 30 |
(w_i) | 0,033 | 0,233 | 0,4 | 0,2 | 0,133 | 1 |
(S_i) | 0,033 | 0,267 | 0,667 | 0,867 | 1 | – |
(x_iw_i) | 0,667 | 5,6 | 11,2 | 6,4 | 4,8 | 28,67 |
(x_i^2w_i) | 13,333 | 134,4 | 313,6 | 204,8 | 172,8 | 838,93 |
3) Строим полигон и кумуляту
Эмпирическая функция распределения: $$ F(x)= begin{cases} 0, xleq 20\ 0,033, 20lt xleq 24\ 0,267, 24lt xleq 28\ 0,667, 28lt xleq 32\ 0,867, 32lt xleq 36\ 1, xgt 36 end{cases} $$ 4) Находим выборочную среднюю, моду и медиану $$ X_{cp}=sum_{i=1}^k x_iw_iapprox 28,7 text{(лет)} $$ На полигоне модальным является 3й интервал (самая высокая точка).
Данные для расчета моды: begin{gather*} x_0=26, f_m=12, f_{m-1}=7, f_{m+1}=6, h=4\ M_o=x_o+frac{f_m-f_{m-1}}{(f_m-f_{m-1})+(f_m+f_{m+1})}h=\ =26+frac{12-7}{(12-7)+(12-6)}cdot 4approx 27,8 text{(лет)} end{gather*}
На кумуляте медианным является 3й интервал (преодолевает уровень 0,5).
Данные для расчета медианы: begin{gather*} x_0=26, w_m=0,4, S_{me-1}=0,267, h=4\ M_e=x_o+frac{0,5-S_{me-1}}{w_{me}}h=26+frac{0,5-0,4}{0,267}cdot 4approx 28,3 text{(лет)} end{gather*} Получаем: begin{gather*} X_{cp}=28,7; M_o=27,8; M_e=28,6\ X_{cp}gt M_egt M_0 end{gather*} Ряд асимметричный с правосторонней асимметрией.
При этом (frac{|M_o-X_{cp}|}{|M_e-X_{cp}|} =frac{0,9}{0,1}=9gt 3), т.е. распределение сильно асимметрично.
5) Находим выборочную дисперсию и СКО: begin{gather*} D=sum_{i=1}^k x_i^2w_i-X_{cp}^2=838,93-28,7^2approx 17,2\ sigma=sqrt{D}approx 4,1 end{gather*}
6) Исправленная выборочная дисперсия: $$ S^2=frac{N}{N-1}D=frac{30}{29}cdot 17,2approx 17,7 $$ Стандартное отклонение (s=sqrt{S^2}approx 4,2)
Коэффициент вариации: (V=frac{4,2}{28,7}cdot 100text{%}approx 14,7text{%}lt 33text{%})
Выборка однородна. Найденное значение среднего возраста (X_{cp}=28,7) лет можно распространить на всю генеральную совокупность (пользователей коворкинга).
ЛЕКЦИЯ 13
ТЕМА: СТАТИСТИЧЕСКИЕ
ОЦЕНКИ ПАРАМЕТРОВ ВЫБОРКИ
1.
Точечные оценки параметров распределения.
1.1.
Генеральная средняя.
1.2.
Выборочная средняя.
1.3.
Генеральная дисперсия.
1.4.
Выборочная дисперсия.
1.5.
Исправленная дисперсия.
2.
Интервальные оценки параметров
распределения.
2.1.
Интервальные оценки параметров
нормального распределения.
2.1.1.
Доверительный интервал для оценки
математического ожидания при известном s.
2.1.2.
Доверительный
интервал для оценки математического
ожидания при неизвестном s.
2.1.3.
Доверительный интервал для оценки
дисперсии и среднего квадратического
отклонения.
2.2.
Интервальная оценка вероятности
биноминального распределения по
относительной частоте.
1.
Точечные
оценки параметров распределения.
Пусть
требуется изучить количественный признак
генеральной совокупности. Допустим, что из
теоретических соображений удалось
установить, какое именно распределение
имеет признак. Возникает задача оценки
параметров, которыми определяется это
распределение.
Обычно
в распоряжении исследователя имеются лишь
данные выборки, полученные в результате n
наблюдений (здесь и далее наблюдения
предполагаются независимыми). Через эти
данные и выражают оцениваемый параметр.
Рассматривая значения количественного
признака как независимые случайные
величины, можно сказать, что найти
статистическую оценку неизвестного
параметра теоретического распределения –
это значит найти функцию от наблюдаемых
случайных величин, которая и дает
приближенное значение оцениваемого
параметра.
Итак, статистической
оценкой неизвестного параметра
теоретического распределения называют
функцию от наблюдаемых случайных величин.
Для
того чтобы статистические оценки давали «хорошие»
приближения оцениваемых параметров, они
должны удовлетворять определенным
требованиям: оценка должна быть несмещенной,
эффективной и состоятельной.
Поясним
каждое из понятий.
Несмещенной
называют статистическую оценку Q*, математическое ожидание которой
равно оцениваемому параметру Q при любом объеме выборки, т. е.
M(Q*)
= Q.
Смещенной
называют оценку, математическое ожидание
которой не равно оцениваемому параметру.
Эффективной
называют статистическую оценку, которая (при
заданном объеме выборки п) имеет наименьшую
возможную дисперсию.
При
рассмотрении выборок большого объема (n велико!) к статистическим
оценкам предъявляется требование
состоятельности.
Состоятельной
называют статистическую оценку, которая
при
п®¥
стремится по вероятности
к оцениваемому параметру. Например, если
дисперсия несмещенной оценки при п®¥
стремится
к нулю, то такая оценка оказывается и
состоятельной.
Рассмотрим
точечные оценки параметров
распределения, т.е.
оценки, которые
определяются одним числом Q* =f( x1, x2,…,xn), где x1, x2,…,xn– выборка.
1.1.Генеральная средняя.
Пусть
изучается генеральная совокупность
относительно количественного признака Х.
Генеральной
средней называют среднее арифметическое
значений признака генеральной
совокупности.
Если все
значения признака различны, то
Если значения признака имеют частоты N1, N2, …, Nk, где N1 +N2+…+Nk= N, то
1.2.Выборочная средняя.
Пусть для
изучения генеральной совокупности
относительно количественного признака Х
извлечена выборка объема n.
Выборочной
средней называют среднее арифметическое
значение признака выборочной совокупности.
Если
все значения признака выборки различны, то
если
же все значения имеют частоты n1, n2,…,nk, то
Выборочная
средняя является несмещенной и
состоятельной оценкой
генеральной средней.
Замечание:
Если выборка представлена интервальным
вариационным рядом, то за xi
принимают середины частичных интервалов.
1.3.
Генеральная дисперсия.
Для
того чтобы охарактеризовать рассеяние
значений количественного признака Х генеральной совокупности вокруг
своего среднего значения, вводят сводную
характеристику — генеральную дисперсию.
Генеральной
дисперсией
Dг
называют
среднее арифметическое квадратов
отклонений значений признака генеральной
совокупности от их среднего значения
.
Если
все значения признака генеральной
совокупности объема N
различны, то
Если
же значения признака имеют соответственно
частоты N1, N2, …, Nk, где N1 +N2+…+Nk= N, то
Кроме
дисперсии для характеристики рассеяния значений
признака генеральной совокупности вокруг
своего среднего значения пользуются
сводной характеристикой— средним
квадратическим отклонением.
Генеральным
средним квадратическим отклонением
(стандартом) называют квадратный корень из
генеральной дисперсии:
1.4.Выборочная
дисперсия.
Для
того, чтобы наблюдать рассеяние
количественного признака значений выборки
вокруг своего среднего значения , вводят
сводную характеристику- выборочную
дисперсию.
Выборочной дисперсией
называют
среднее арифметическое квадратов
отклонения наблюдаемых значений признака
от их среднего значения
.
Если все
значения признака выборки различны, то
если же все значения имеют
частоты n1, n2,…,nk, то
Для
характеристики рассеивания значений
признака выборки вокруг своего среднего
значения пользуются сводной
характеристикой – средним квадратическим
отклонением.
Выборочным средним
квадратическим отклоненим называют
квадратный корень из выборочной дисперсии:
Вычисление
дисперсии- выборочной или генеральной,
можно упростить, используя формулу:
Замечание:
если выборка представлена интервальным
вариационным рядом, то за xi
принимают середины частичных интервалов.
1.5.Исправленная
дисперсия.
Выборочная
дисперсия является смещенной оценкой
генеральной дисперсии, т.е. математическое
ожидание выборочной дисперсии не равно
оцениваемой генеральной дисперсии, а равно
Для
исправления выборочной дисперсии
достаточно умножить ее на дробь
получим
исправленную
дисперсию S2. Исправленная дисперсия
является несмещенной оценкой.
В
качестве оценки генеральной дисперсии
принимают исправленную дисперсию.
Для
оценки среднего квадратического
генеральной совокупности используют исправленное среднее
квадратическое отклонение
Замечание:
формулы для вычисления выборочной
дисперсии и исправленной дисперсии
отличаются только знаменателями. При
достаточно больших n
выборочная и исправленная дисперсии мало
отличаются, поэтому на практике
исправленной дисперсией пользуются, если n<30.
Вычислим выборочные характеристики по
выборкам, рассмотренным в
лекции 12 пункт 3.1.(дискретный вариационный
ряд и пункт 3.2.(интервальный вариационный
ряд).
Пример
1. Для
дискретного вариационного ряда:
Среднее
выборочное
Выборочная
дисперсия
Выборочное
среднее квадратическое отклонение
Исправленная
дисперсия
Пример2.
Для интервального вариационного ряда:
За хi примем середины частичных
интервалов:
Для
вычисления выборочной дисперсии
воспользуемся формулой
Выборочное
среднее квадратическое отклонение :
2.
Интервальные
оценки параметров распределения.
Интервальной
называют оценку, которая определяется
двумя числами—концами интервала.
Интервальные оценки позволяют установить
точность и надежность оценок .
Пусть найденная по данным
выборки статистическая характеристика Q* служит оценкой
неизвестного параметра Q. Будем считать Q
постоянным числом (Q может быть и случайной
величиной). Ясно, что Q* тем точнее
определяет параметр Q, чем меньше
абсолютная величина разности |Q–
Q*|. Другими словами, если d>0
и |Q- Q*| <d , то чем
меньше
d
, тем оценка точнее.
Таким
образом, положительное число d характеризует
точность оценки.
Однако статистические
методы не позволяют категорически
утверждать, что оценка Q*
удовлетворяет неравенству |Q- Q*| <d;
можно лишь говорить о
вероятности g,
с которой это неравенство
осуществляется.
Надежностью
(доверительной вероятностью)
оценки
называют вероятность g , с
которой осуществляется неравенство |Q—Q*
| <d .
Обычно
надежность оценки задается наперед, причем
в качестве g берут
число, близкое к единице. Наиболее часто
задают надежность,
равную 0,95; 0,99 и 0,999.
Пусть
вероятность того, что, |Q- Q*| <d равна g:
P(|Q-
Q*| <d)= g.
Заменив
неравенство равносильным ему двойным
неравенством получим:
Р [Q* —d< Q < Q* +d] = g
Это соотношение следует понимать
так: вероятность того, что интервал Q* – d<
Q
< Q* +d заключает
в себе (покрывает) неизвестный параметр Q,
равна g.
Интервал (Q* – d
Q* +d) называется
доверительным интервалом , который
покрывает неизвестный параметр с
надежностью g.
2.1.Интервальные
оценки параметров нормального
распределения.
2.1.1.
Доверительный интервал для оценки
математического ожидания при известном
s.
Пусть количественный признак
генеральной совокупности распределен
нормально. Известно среднее квадратическое
отклонение этого
распределения –s. Требуется
оценить математическое ожидание а
по выборочной средней. Найдем
доверительный интервал, покрывающий а
с надежностью g.
Выборочную среднюю будем
рассматривать как случайную величину ( она
изменяется от выборки к
выборке), выборочные значения признака- как
одинаково распределенные независимые СВ с
математическим ожиданием каждой а
и средним квадратическим отклонением s. Примем
без доказательства, что если величина Х
распределена нормально, то и выборочная
средняя тоже распределена нормально с
параметрами
.
Потребуем,
чтобы выполнялось равенство
Заменив
Х и s, получим
получим
Задача
решена. Число t
находят по таблице функции Лапласа Ф(х).
Пример1.
СВХ распределена нормально и s
=3. Найти доверительный
интервал для оценки математического
ожидания по выборочным средним, если n
= 36 и задана надежность g
=0,95.
Из
соотношения 2Ф(t)= 0,95 ,
откуда Ф(t) = 0,475 по таблице найдем t
: t
=1,96. Точность оценки
Доверительный
интервал
.
Пример2.
Найти минимальный объем выборки, который
обеспечивает заданную точность d =0,3 и
надежность g = 0,975, если
СВХ распределена нормально и s =1,2.
Из равенства
выразим
n:
,
подставим
значения и получим минимльный объем
выборки n ~
81.
2.1.2.
Доверительный интервал для оценки
математического ожидания при неизвестном
s.
Т.к.
мы не знакомы с законами распределения СВ,
которые используются при выводе
формулы, то примем ее без доказательства.
В
качестве неизвестного параметра
s
используют
исправленную дисперсию s2
. Заменяя s на
s, t на величину tg.
Значение
этой величины зависит от надежности
g и объема
выборки n и определяется
по ” Таблице значений tg.“
Итак :
и
доверительный интервал имеет вид
Пример1.
Найти доверительный интервал для оценки
математического ожидания с надежностью 0,95,
если объем выборки n =16, среднее выборочное и
исправленная дисперсия соответственно
равны 20,2 и 0,8.
По
таблице приложения найдем tg
по заданной
надежности g =0,95 и n=
16: tg
=2,13. Подставим
в формулу s =0,8 и
tg
=2,13
, вычислим границы доверительного интевала:
,
откуда
получим доверительный интервал (19,774; 20,626)
Смысл
полученного результата: если взять 100
различных выборок, то в 95 из них
математическое ожидание будет находится в
пределах данного интервала, а в 5 из них- нет.
Пример2.
Измеряют диаметры 25 корпусов
электродвигателей. Получены выборочные
характеристики
Необходимо
найти вероятность
(надежность) того, что
–
является доверительным интервалом оценки
математического ожидания при нормальном
распределении.
Из
условия задачи найдем точность d,
составив и решив систему:
Откуда d =10.
Из
равенства
выразим
,
откуда
tg =3,125.
По таблице для найденного
tg и
n=
25 находим g
=0,99.
2.1.3.
Доверительный интервал для оценки
дисперсии и среднего квадратического
отклонения.
Требуется
оценить неизвестную генеральную дисперсию
и генеральное среднее квадратическое
отклонение по исправленной дисперсии, т.е.
найти доверительные интервалы, покрывающие
параметры D и s с заданной надежностью
g.
Потребуем
выполнения соотношения
.
Раскроем
модуль и получим двойное неравенство:
.
Преобразуем:
.
Обозначим
d/s
= q (величина
q
находится по “Таблице значений q”и зависит
от надежности и объема выборки),
тогда доверительный
интервал для оценки генерального среднего
квадратического отклонения имеет вид:
.
Замечание
: Так как s >0, то
если q
>1 , левая граница интервала равна 0:
0<
s
< s ( 1 + q ).
Пример1.
По выборке объема n
= 25 найдено “исправленное” среднее
квадратическое отклонение s
=
0,8. Найти
доверительный интервал, покрывающий генеральное
среднее квадратическое отклонение с
надежностью 0,95.
По
таблице приложения по данным : g
= 0,95; n =25 ,
находим q = 0,32.
Искомый
доверительный интервал 0,8(1- 0,32)< s
< 0,8(1+ 0,32) или
0,544<s
<0,056.
Пример2.
По выборке объема n = 10
найдено s = 0,16. Найти доверительный
интервал, покрывающий генеральное среднее
квадратическое отклонение с надежностью
0,999.
q( n=10, g
=0,999) =
1,8>0.
Искомый
доверительный интервал
0< s <0,16(1+1,8) или 0<
s <0,448.
Так
как дисперсия есть квадрат среднего
квадратического отклонения, то
доверительный интервал, покрывающий
генеральную дисперсию с заданной
надежностью g, имеет вид:
2.2.
Интервальная оценка
вероятности биноминального распределения
по относительной частоте.
Найдем
доверительный интервал для оценки
вероятности по относительной частоте,
используя формулу:
Если
n
достаточно велико и р не очень близка к нулю
и единице, то можно считать, что
относительная частота распределена
приближенно по нормальному закону, причем
М(W)= р.
Заменив Х на относительную частоту ,
математическое ожидание – на вероятность,
получим равенство:
Приступим к
построению доверительного интервала (р1,
р2), который с надежностью g
покрывает
оцениваемый параметр р
Потребуем, чтобы с надежностью g
выполнялось соотношение указанное выше
равенство:
Заменив
,
получим:
Таким образом,
с надежностью g выполняется
неравенство (чтобы получить рабочую
формулу, случайную величину W
заменим неслучайной наблюдаемой
относительной частотой w
и подставим 1- р
вместо q):
Учитывая,
что вероятность р
неизвестна, решим это неравенство
относительно р.
Допустим, что w > р. Тогда
Обе
части неравенства положительны; возведя
их в квадрат, получим равносильное
квадратное неравенство относительно р:
Дискриминант
трехчлена положительный, поэтому корни
действительные и различные:
меньший
корень
больший
корень:
Замечание1:
При больших значениях n
, пренебрегая слагаемыми
,и
учитывая
получим
приближенные формулы для границ
доверительного интервала :
Пример1.
Производят независимые испытания с
одинаковой и неизвестной вероятностью
появления события А в каждом испытании.
Найти доверительный интервал для оценки
вероятности с надежностью 0,95, если в 80
испытаниях событие А появилось 16 раз.
По
условию n =80, m=16,
g =0,95. Относительная
частота
.
Из
соотношения Ф(t)=0,95/2
= 0,475 по таблице находим t = 1,96. Т.к. n<100,
то используем точные формулы, получим :
р1= 0,128, р2= 0,299.
Замечание 2: Если n
мало, то используем для определения концов
доверительного интервала вероятности
события при биноминальном распределении
“Таблицу доверительных границ р1 и р2“. Значения р1 и р2
находят в зависимости от n
и m.
Пример.
В пяти независимых испытаниях событие А
произошло 3 раза. Найти с надежностью 0,95
интервальную оценку для вероятности
события А в единичном испытании.
По
условию задачи n=5, m=3.
Имеет место схема повторных испытаний.
Используя таблицу, находим доверительный
интервал : 0,147<p<0,947.
Контрольные
вопросы
1.
Определение статистической оценки
неизвестного параметра.
2.
Какая оценка называется точечной?
3.
Каким требованиям должны удовлетворять
статистические оценки?
4.
Сформулировать определения
генеральной средней и генеральной
дисперсии.
5.
Записать выражения для вычисления
выборочной средней, выборочной дисперсии и
исправленной дисперсии. Какая из этих
оценок не является несмещенной?
6.
Методики вычисления границ
доверительного интервала
для оценки математического ожидания
нормально распределенной СВ при известном
и неизвестном
s.
7.
Методика вычисления границ
доверительного интервала для оценки
среднего квадратического отклонения
нормально распределенной СВ.
8.
Доверительный интервал вероятности
биноминального распределения по
относительной частоте при больших n , при n<100.
Выборочная дисперсия, описание
Выборочная дисперсия является сводной характеристикой для наблюдения рассеяния количественного признака выборки вокруг среднего значения.
Определение
Выборочная дисперсия – это среднее арифметическое значений вариантов части отобранных объектов генеральной совокупности (выборки).
Связь выборочной и генеральной дисперсии
Генеральная дисперсия представляет собой среднее арифметическое квадратов отступлений значений признаков генеральной совокупности от их среднего значения.
Осторожно! Если преподаватель обнаружит плагиат в работе, не избежать крупных проблем (вплоть до отчисления). Если нет возможности написать самому, закажите тут.
Определение
Генеральная совокупность – это комплекс всех возможных объектов, относительно которых планируется вести наблюдение и формулировать выводы.
Выборочная совокупность или выборка является частью генеральной совокупности, выбранной для изучения и составления заключения касательной всей генеральной совокупности.
Как вычислить выборочную дисперсию
Выборочная дисперсия при различии всех значений варианта выборки находится по формуле:
({widehat D}_В=frac{displaystylesum_{i-1}^n{(x_i-{overline x}_В)}^2}n)
Для значений признаков выборочной совокупности с частотами n1, n2,…,nk формула выглядит следующим образом:
({widehat D}_В=frac{displaystylesum_{i-1}^kn_i{(x_i-{overline x}_В)}^2}n)
Квадратный корень из выборочной дисперсии характеризует рассеивание значений вариантов выборки вокруг своего среднего значения. Данная характеристика называется выборочным средним квадратическим отклонением и имеет вид:
({widehatsigma}_В=sqrt{{widehat D}_В})
Упрощенный способ вычисления выборочной или генеральной дисперсии производят по формуле:
(D=overline{x^2}-left[overline xright]^2)
Если вариационный ряд выборочной совокупности интервальный, то за xi принимается центр частичных интервалов.
Пример
Найти выборочную дисперсию выборки со значениями:
- xi: 1, 2, 3, 4;
- ni: 20, 15, 10, 5.
Решение
Для начала необходимо определить выборочную среднюю:
({overline x}_В=frac1{50}(1cdot20+2cdot15+3cdot10+4cdot5)=frac1{50}cdot100=2)
Затем найдем выборочную дисперсию:
(D_В=frac1{50}({(1-2)}^2cdot20+{(2-2)}^2cdot15+{(3-2)}^2cdot10+{(4-2)}^2cdot5)=1)
Исправленная дисперсия
Математически выборочная дисперсия не соответствует генеральной, поскольку выборочная используется для смещенного оценивания генеральной дисперсии. По этой причине математическое ожидание выборочной дисперсии вычисляется так:
(Mleft[D_Bright]=frac{n-1}nD_Г)
В данной формуле DГ – это истинное значение дисперсии генеральной совокупности.
Исправить выборочную дисперсию можно путем умножения ее на дробь:
(frac n{n-1})
Получим формулу следующего вида:
(S^2=frac n{n-1}cdot D_В=frac{displaystylesum_{i=1}^kn_i{(x_i-{overline x}_В)}^2}{n-1})
Исправленная дисперсия используется для несмещенной оценки генеральной дисперсии и обозначается S2.
Среднеквадратическая генеральная совокупность оценивается при помощи исправленного среднеквадратического отклонения, которое вычисляется по формуле:
(S=sqrt{S^2})
При нахождении выборочной и исправленной дисперсии разнятся лишь знаменатели в формулах. Различия в этих характеристиках при больших n незначительны. Применение исправленной дисперсии целесообразно при объеме выборки меньше 30.
Для чего применяют исправленную выборочную дисперсию
Исправленную выборочную используют для точечной оценки генеральной дисперсии.
Пример
Длину стержня измерили одним и тем же прибором пять раз. В результате получили следующие величины: 92 мм, 94 мм, 103 мм, 105 мм, 106 мм. Задача найти выборочную среднюю длину предмета и выборочную исправленную дисперсию ошибок измерительного прибора.
Решение
Сначала вычислим выборочную среднюю:
({overline x}_В=frac{92+94+103+105+106}5=100)
Затем найдем выборочную дисперсию:
(D_В=frac{displaystylesum_{i=1}^k{(x_i-{overline x}_В)}^2}n=frac{{(92-100)}^2+{(94-100)}^2+{(103-100)}^2+{(105-100)}^2+{(106-100)}^2}5=34)
Теперь рассчитаем исправленную дисперсию:
(S^2=frac5{5-1}cdot34=42,5)