Как по функции распределения найти параметры

Функция распределения случайной величины

  • Краткая теория
  • Примеры решения задач
  • Задачи контрольных и самостоятельных работ

Краткая теория


Пусть

 – действительное число. Вероятность события,
состоящего в том, что

 примет значение, меньшее

, то есть вероятность
события

 обозначим через

. Разумеется, если

 изменяется, то, вообще говоря, изменяется и

, то есть

 – функция от

.

Функцией распределения называют функцию

, определяющую вероятность
того, что случайная величина

 в результате испытания примет значение,
меньшее

, то есть:

Геометрически
это равенство можно истолковать так:

 есть вероятность того, что случайная величина примет
значение, которое изображается на числовой оси точкой, лежащей левее точки

.

Иногда
вместо термина «функция распределения» используют термин «интегральная
функция».

Функцию
распределения дискретной случайной величины

 можно представить следующим соотношением:

Это
соотношение можно переписать в развернутом виде:

Функция
распределения дискретной случайной величины есть разрывная ступенчатая функция,
скачки которой происходят в точках, соответствующих возможным значениям
случайной величины и равны вероятностям этих значений. Сумма всех скачков
функции

 равна 1.

Свойства функции распределения

Свойство 1.

Значения
функции распределения принадлежат отрезку

:


Свойство 2.

 – неубывающая функция, то есть:

,
если


Свойство 3.

Если возможные значения случайной величины
принадлежат интервалу

,
то:

1)

 при

;

2)

 при


Свойство 4.

Справедливо равенство:


Свойство 5.

Вероятность того, что непрерывная случайная
величина

 примет одно определенное значение, равна нулю.

Таким образом, не представляет интереса говорить о
вероятности того, что непрерывная случайная величина примет одно определенное
значение, но имеет смысл рассматривать вероятность попадания ее в интервал,
пусть даже сколь угодно малый.

Заметим, что было бы неправильным думать, что
равенство нулю вероятности

 означает, что событие

 невозможно (если, конечно, не ограничиваться
классическим определением вероятности). Действительно, в результате испытания
случайная величина обязательно примет одно из возможных значений; в частности,
это значение может оказаться равным

.


Свойство 6.

Если возможные значения непрерывной случайной величины
расположены на всей оси

,
то справедливы следующие предельные соотношения:


Свойство 7.

Функция распределения непрерывная слева, то есть:

Смежные темы решебника:

  • Дискретная случайная величина
  • Непрерывная случайная величина
  • Математическое ожидание
  • Дисперсия и среднее квадратическое отклонение

Примеры решения задач


Пример 1

Дан ряд
распределения случайной величины

:

1 2 6 8

0,2 0,3 0,1 0,4

Найти и изобразить ее функцию распределения.

Решение

На сайте можно заказать решение контрольной или самостоятельной работы, домашнего задания, отдельных задач. Для этого вам нужно только связаться со мной:

ВКонтакте
WhatsApp
Telegram

Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту СберБанка. Опыт работы более 25 лет.

Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.

Будем задавать различные значения

 и находить для них

1. Если

,
то, очевидно,

в том числе и при

2. Пусть

 (например

)

Очевидно, что и

3. Пусть

 (например

);

Очевидно, что и

4. Пусть

Очевидно, что и

5. Пусть

Итак:

График функции распределения


Пример 2

Случайная
величина

 задана функцией распределения:

Найти
вероятность того, что в результате испытания

 примет значение:

а) меньше
0,2;

б) меньше
трех;

в) не
меньше трех;

г) не
меньше пяти.

Решение

а) Так
как при

 функция

, то

то есть
при

б)

в)
События

 и

 противоположны, поэтому

Отсюда:

г) сумма
вероятностей противоположных событий равна единице, поэтому

Отсюда, в
силу того что при

 функция

, получим:


Пример 3

Задана
непрерывная случайная величина X своей плотностью
распределения вероятностей f(x). Требуется:

1)
определить коэффициент A;

2) найти
функцию распределения F(x);

3)
схематично построить графики функций f(x) и F(x);

4)
вычислить математическое ожидание и дисперсию X;

5)
определить вероятность того, что X примет значение из
интервала (a,b).

Решение

На сайте можно заказать решение контрольной или самостоятельной работы, домашнего задания, отдельных задач. Для этого вам нужно только связаться со мной:

ВКонтакте
WhatsApp
Telegram

Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту СберБанка. Опыт работы более 25 лет.

Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.

1)
Постоянный параметр

 найдем из
свойства плотности вероятности:

В
нашем случае эта формула имеет вид:

Получаем:

2)
Функцию распределения

 найдем из
формулы:

Учитывая
свойства

,  сразу можем отметить,
что:

и

Остается
найти выражение для

, когда х принадлежит интервалу

:

Получаем:  

3) Построим графики функций:

График плотности распределения

График функции распределения

4) Вычислим
математическое ожидание:

В нашем случае:

Вычислим дисперсию:

Искомая дисперсия:

5) Вероятность того, что

 примет значение из интервала

:

Задачи контрольных и самостоятельных работ


Задача 1

Закон
распределения случайной величины X задан таблицей.

Найти ее
математическое ожидание, дисперсию и значение функции распределения в заданной
точке.

F(1)=

M[X]=

D[X]=


Задача 2

Случайная
величины X задана функцией распределения

Найти
плотность распределения вероятностей, математическое ожидание и дисперсию
случайной величины. Построить графики дифференциальной и интегральной функций.
Найти вероятность попадания случайной величины X в интервалы (1,2; 1,8),
(1,8; 2,3)


Задача 3

Дискретная
случайная величина X задана рядом распределения. Найти:

1)
функцию распределения F(x) и ее график;

2)
математическое ожидание M(X);

3)
дисперсию D(X).

-5 5 25 45 65

0.2 0.15 0.3 0.25 0.1

На сайте можно заказать решение контрольной или самостоятельной работы, домашнего задания, отдельных задач. Для этого вам нужно только связаться со мной:

ВКонтакте
WhatsApp
Telegram

Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту СберБанка. Опыт работы более 25 лет.

Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.

Задача 4

В задаче
дискретная случайная величина задана рядом распределения.

Найти

; M(X), D(X), P(0≤X≤2); F(x).
Начертить график F(x)


Задача 5

В задаче
непрерывная случайная величина X задана функцией
распределения F(x).

Найти  a; f(x); M(X); D(X); P(X<0.2)

Начертить
графики функций f(x);F(x).


Задача 6

Функция
распределения непрерывной случайной величины X (времени безотказной работы
некоторого устройства) равна

 (

). Найти вероятность безотказной
работы устройства за время x больше либо равно T.


Задача 7

Функция
распределения непрерывной случайной величины задана выражением:

Найдите:

1)
параметр a;

2)
плотность вероятностей;

4) P(0<x<1)

Постройте
графики интегральной и дифференциальной функции распределения.


Задача 8

Дана
интегральная функция распределения. Найти: дифференциальную функцию f(x),M(X),σ(X),D(X).


Задача 9

Дана
функция распределения F(х) случайной величины Х.

Найти плотность
распределения вероятностей f(x), математическое ожидание M(X),
дисперсию D(X) и вероятность попадания X на
отрезок [a,b]. Построить графики
функций F(x) и f(x).


Задача 10

НСВ X имеет
плотность вероятности (закон Коши)

Найти:

а)
постоянную C=const;

б)
функцию распределения F(x);

в)
вероятность попадания в интервал -1<x<1

г)
построить графики f(x), F(x).

  • Краткая теория
  • Примеры решения задач
  • Задачи контрольных и самостоятельных работ

Непрерывная случайная величина

Ранее мы представили примеры решений задач о дискретной случайной величине, теперь переходим к непрерывной. Формально в задачах требуется найти тоже самое: вычислить числовые характеристики, начертить графики, определить неизвестные параметры, найти вероятности событий.

Но формулы-то совсем другие (в силу непрерывности СВ), поэтому стоит разобраться в них хорошенько. Надеемся, наши примеры вам помогут (а если нет времени, закажите решение).

Ниже вы найдете примеры решений на самые разные законы распределений непрерывных случайных величин: законы $arcsin$ и $arctan$, тригонометрические и логарифмические функции, показательный, равномерный закон распределения, законы Коши, Симпсона, Лапласа и т.д.

Примеры для других НСВ: Нормальный закон, Равномерный закон, Показательный закон.

Спасибо за ваши закладки и рекомендации

Примеры решений

Задача 1. Случайная величина X задана дифференциальной функцией распределения


1) Определить вероятность попадания случайной величины X в интервал $[pi, 5/4 pi]$.
2) Найти математическое ожидание и дисперсию случайной величины X.

Задача 2. Случайная величина X задана плотностью вероятности:



Требуется:
а) найти коэффициент C;
б) найти функцию распределения F(x);
в) найти M(X), D(X), σ(X)
г) найти вероятность P(α < X < β);
д) построить графики f(x) и F(x).

Задача 3. Случайная величина Х задана функцией распределения F(x).
А) является ли случайная величина Х непрерывной?
Б) имеет ли случайная величина Х плотность вероятности f(X)? Если имеет, найти ее.
В) постройте схематично графики f(X) и F(X).

Задача 4. Дана функция распределения F(x) непрерывной случайной величины X.
1. Найти значения параметров a,b
2. Построить график функции распределения F(x)
3. Найти вероятность P(α < X < β)
4. Найти плотность распределения p(x) и построить ее график.

Задача 5. Время в годах безотказной работы прибора подчинено показательному закону, т.е. плотность распределения этой случайной величины такова: f(t)=2e-2t при t ≥ 0 и f(t)=0 при t<0.
1) Найти формулу функции распределения этой случайной величины.
2) Определить вероятность того, что прибор проработает не более года.
3) Определить вероятность того, что прибор безотказно проработает 3 года.
4) Определить среднее ожидаемое время безотказной работы прибора.

Задача 6. Функция распределения вероятностей случайной величины $X$ имеет вид:


А) найти $a$ и $b$;
Б) найти плотность $f(x)$;
В) нарисовать график $F(x)$;
Г) нарисовать график $f(x)$;
Д) найти $M[X]$;
Е) найти $D[X]$.

Задача 7. Функция распределения вероятностей случайной величины $X$ имеет вид:
$$F(x)=A+B arctan (x/2), -infty lt x lt infty $$ (закон Коши).
А) определить постоянные $A$ и $B$;
Б) найти плотность распределения вероятностей
В) найти $P(-1 lt X lt 1)$;
Г) нарисовать график $F(x)$;
Д) нарисовать график $f(x)$.

Задача 8. Случайная величина $X$ имеет распределение Парето с плотностью вероятности $f(x)=4/23(23/x)^5$
при $23 le x$ и $f(x)=0$ при $x lt 23$.
Найдите $M(X)$ и $P(23lt X lt 27)$.

Задача 9. Непрерывная случайная величина задана интегральной функцией (функцией распределения) $F(x)$. Найти:
А) вероятность попадания случайной величины $X$ в интервал $(a;b)$.

Б) дифференциальную функцию (функцию плотности вероятностей) $f(x)$.
В) математическое ожидание, дисперсию и среднее квадратическое отклонение величины $X$.
Г) построить графики функций $F(x)$ и $f(x)$.

Задача 10. Случайная величина $X$ подчинена закону Лапласа $p(x)=acdot e^{-lambda |x|}$, $lambda gt 0.$ Найти $a$, $M(x)$, $D(x)$ и $F(x)$. Построить графики $p(x)$ и $F(x)$.

Задача 11. Случайная величина $X$ задана функцией распределения $F(x)$. Найти:
5) дифференциальную функцию $f(x)$ (плотность распределения),
6) математическое ожидание $M(X)$, дисперсию $D(X)$, среднее квадратическое отклонение $sigma(X)$.
7) Моду $Mo$ и медиану $Me$,
8) $P(1/2 lt X lt 2).$
Построить графики функции и плотности распределения.

Задача 12. Случайная величина $Х$ подчинена закону Симпсона (закону равнобедренного треугольника) на участке от $-a$ до $+a$.
а) Написать выражение для плотности распределения.
б) Построить график функции распределения.
в) Определить числовые характеристики случайной величины Х.

Мы отлично умеем решать задачи по теории вероятностей

Решебник по теории вероятности онлайн

Больше 11000 решенных и оформленных задач по теории вероятности:

Тема 23. Функция и плотность распределения непрерывной случайной величины

Пренебрежение различием между близкими значениями случайной величины широко используется для упрощения описания и изучения случайных величин. В связи с этим вводится следующее определение.

Случайные величины, значения которых заполняют непрерывные интервалы, т.е. бесконечно мало отличаются друг от друга, называются непрерывными

случайными величинами.

Из этого определения следует, что непрерывные случайные величины могут принимать сколько угодно много разных близких значений и их нельзя задавать законом распределения. Для задания непрерывных случайных величин используются функции распределения и плотности распределения.

Напомним, что функцией распределения (как для дискретной, так и для непрерывной) случайной величины называют функцию F (x) , определяющую ве-

роятность того, что случайная величина X в результате испытания примет зна-

чение, меньшее x , т.е.:

F (x) = P( X < x)

(5.1)

На рис. 2.8 представлен график функции распределения непрерывной случайной величины.

F(x)

1

Рис. 2.8. График функции распределения непрерывной случайной величины

Плотностью распределения случайной величины X называется произ-

водная от ее функции распределения FX (x) . Плотность распределения обозна-

чается

f X (x) . Следовательно, согласно определению:

f (x) =

dF (x)

(5.2)

dx

Для непрерывной случайной величины функция F (x) и плотность

f (x)

распределения удовлетворяют следующим условиям:

1)

при всех действительных x справедливо:

f (x) 0 ;

(5.3)

63

2) для любых a < b справедливо равенство:

P(a X < b) = b

f (x)dx = F(b) F(a) ;

(5.4)

a

3)

F(+∞) = f (x)dx =1;

(5.5)

−∞

4) вероятность того, что непрерывная случайная величина X примет одно определенное значение, равна нулю.

Эти свойства вытекают из определения плотности распределения и свойств функции распределения. Неотрицательность выводится из того, что функция распределения всегда не убывает. Второе свойство определяется на основе основного свойства функции распределения. Последнее свойство есть важный частный случай второго и выполняется потому, что значения случайной величины всегда удовлетворяют условию: −∞ < X < ∞. Оно называется условием нормировки.

Геометрически (рис. 2.9) основные свойства плотности распределения означают, что:

1)вся кривая плотности распределения лежит не ниже оси абсцисс;

2)площадь криволинейной трапеции, ограниченной сверху графиком функции плотности распределения, снизу осью абсцисс, слева и справа прямыми x = a

иx = b , равна вероятности попадания случайной величины в интервал a < X < b ;

3)полная площадь, ограниченная кривой плотности распределения и осью абсцисс, равна единице.

f(x)

Рис. 2.9. График плотности распределения непрерывной случайной величины

Зная плотность распределения f (x) , можно найти функцию распределения F (x) по формуле:

F(x) = x

f (x)dx

(5.6)

−∞

64

Приведем несколько примеров, в которых используются плотности распределения.

Пример 1. При каких значениях параметра a функция

0,

если

x ≤ −2

2

,

если 2 < x 0

f (x) = ax

0,

eссл

x > 0

будет являться плотностью распределения вероятности случайной величины X ?

Решение. По условию, заданная функция всюду неотрицательна, если a положительно. Остается только найти его значение. Воспользуемся последним

свойством плотности распределения – f (x)dx =1.

−∞

В данном случае подынтегральная функция не равна нулю только тогда, когда 2 x 0 , и, следовательно, интеграл равен нулю при интегрировании по тем областям, в которых не выполняется условие 2 x 0 . А по условию, на

интервале 2 x 0 заданная функция равна ax2 . Значит, должно выполняться равенство:

0 ax2dx =1.

Вычисление интеграла дает:

2

0

0

x3

03

(2)3

8a

ax

2

.

dx = a 3

= a 3 a

3 =

3 =1

2

2

Следовательно, при значении параметра a = 83 заданная функция является

плотностью распределения вероятности случайной величины X . Пример 2. Дана плотность распределения:

0,

если x ≤ −1

если 1 < x 1

f (x) = a(x +1),

0,

если x >1

Определить: а) параметр a ; б) вероятность того, что значение случайной величины попадает в интервал (0.5, 1.5) ; в) функцию распределения.

Решение. В условии этой задачи сказано, что заданная функция является плотностью распределения случайной величины. Эта функция равна нулю при всех значениях x , которые меньше -1 и больше 1. Поэтому все значения случай-

ной величины удовлетворяют x <1. Для того чтобы найти значение параметра a , так же как и в предыдущем примере воспользуемся последним свойством

65

плотности распределения –

f (x)dx =1. Запишем это условие, учитывая задан-

−∞

ный вид плотности распределения:

1 a(x +1)dx =1.

1

После интегрирования получаем:

1

2

1

1

2

(1)

2

1

1

x

+ (1)

= a(

+1

+1)

= 2a =1

a(x +1)dx = a

+ x

= a

+1

a

1

2

1

2

2

2

2

Следовательно, a =

1

.

2

Поскольку плотность распределения есть производная функции распределения, интеграл от плотности является функцией распределения. В данной задаче функция распределения должна равняться нулю при всех x < −1 и единице, при всех x >1. Если 1 < x <1, интегрирование плотности дает:

x

1

x

1

x2

x

F(x) = f (x)dx =

(x +1)dx =

+ x

=

2

2

2

1

−∞

1

2

1

x2

1

(1)

2

x2

+1 + 2x

x +1

+ x

+

(1)

=

=

2

2

2

4

2

2

Подчеркнем специально, что найденное выражение справедливо только при условии x <1. Таким образом, функция распределения есть:

0,

если

x ≤ −1

2

x +1

F(x) =

если

1 < x 1

2

если

x >1

1,

Теперь найдем вероятность того, что выполняется условие 0.5 < X <1.5 . Проще всего использовать найденную функцию распределения. Получаем:

P(0.5 < X <1.5) = F(1.5) F(0.5)

3

2

7

=1

=

4

16

Пример 3. Функция распределения непрерывной случайной величины X имеет вид:

0,

если

x 0

Аx

2

+ В,

если 0 < x 1

F(x) =

1,

если

x >1

66

Определить параметры A и B . Найти вероятность того, что случайная величина X примет значение: а) меньше 0.5; б) больше, чем -0.5; в) в интервале (1.5, 5). Определить плотность распределения случайной величины X .

Решение. Для решения надо так подобрать параметры A и B , чтобы функция распределения была непрерывной, так как по условию X – непрерывная случайная величина. Это значит, что при x = 0 она должна равняться нулю. По-

этому A 02 + B = 0 и B = 0 . Аналогично,

при x =1 функция распределения

должна равняться единице. Следовательно,

A 12 + B =1 и A =1. Таким образом,

функция распределения непрерывной случайной величины Х есть:

0,

если

x 0

2

,

если 0 < x 1

F(x) = x

если

x >1

1,

Теперь найдем вероятность того,

что значение X < 0.5 . Для этого доста-

точно вычислить F (0.5) . Получаем P( X < 0.5) = F(0.5) = 0.52 = 0.25. По усло-

вию задачи, все значения случайной величины X неотрицательны и не больше, чем 1. Поэтому P( X > −0.5) =1 F (0.5) =1. Аналогично, P( X >1.5) = 0 .

Пример 4. Функция распределения непрерывной случайной величины Х имеет вид:

0,

если

x 1

Аx

2

+ В, если1

< x 3

F(x) =

1,

если

x > 3

Определить параметры A и B . Найти вероятность того, что случайная величина X примет значение: а) меньше 1.5; б) больше, чем 1.5, но меньше, чем 2.5. Определить плотность распределения случайной величины X .

Решение. Так как по условию X непрерывная случайная величина, для решения надо так подобрать параметры A и B , чтобы функция распределения была непрерывной. Значит, при x =1 она должна равняться нулю, а при x = 3 функция распределения должна равняться единице. Следовательно, имеем систему двух линейных алгебраических уравнений с двумя неизвестными A и B :

A + B = 0

9A + B =1

Эта система имеет единственное решение A =1 / 8 , B = −1/ 8 .

Таким образом, функция распределения непрерывной случайной величины

X есть:

0,

если

x 1

1

2

F(x) =

(x

1),

если

1 < x 3

8

1,

если

x > 3

Теперь вероятность того, что значение X <1.5 , равна значению функции распределения при значении x =1.5 , т.е.:

67

P( X <1.5) = F(1.5) =

1.52

1

=

1.25

= 0.15625

8

8

Аналогично, получаем:

2.52

1.52

P(1.5 < X < 2.5) = F(2.5) F(1.5) =

1

1

=

5.25 1.25

= 0.5

8

8

8

По определению плотности распределения случайной величины, она равна производной от функции распределения. Поэтому, вычисляя производную, получаем:

(0),

если

x 1

0,

если

x 1

1

x2 1

f ( x) =

,

если

1 < x

3 =

x,

если

1 < x 3

8

4

0,

если

x > 3

(1),

если

x > 3

Задачи для самостоятельного решения

Задача 1. Может ли функция

0,

если

x 0

F(x) =

2

,

если 0 < x 1

x

если

x > 2

1,

являться функцией распределения случайной величины?

Задача 2. Функция распределения случайной величины X имеет вид:

0,

если

x 1

Аx + В,

если1 < x 3

F(x) =

1,

если

x > 3

Определить параметры A и B . Найти вероятность того, что случайная величина X примет значение: а) меньше –2; б) меньше 4; в) больше 3; г) больше 3; д) в интервале (-2, 2); е) в интервале (-1, 0); ж) в интервале (-3, 5).

Задача 3. Функция распределения случайной величины X имеет вид:

0,

если

x 0

2

,

если 0

< x 2

F(x) = Ax

1,

если

x > 2

Определить параметр A и плотность распределения случайной величины. Задача 4. Функция распределения случайной величины X имеет вид:

0,

если

x 0

если 0 < x 1

F(x) = Ax,

1,

если

x >1

Определить параметр A и вероятность попадания значения случайной величины в интервал (-1, 0.5).

68

Задача 5. Функция распределения случайной величины X имеет вид:

0,

если

x 1

А(x 1)2 ,

если1 < x 3

F(x) =

1,

если

x > 3

Определить параметр A и построить график функции распределения. Задача 6. Функция распределения случайной величины имеет вид:

0,

если

x ≤ −2

F(x) =

0.25(x + 2)2 ,

если 2 < x 0

1,

если

x > 0

Найти плотность распределения случайной величины и вероятность того, что значение Х больше, чем -1.5, но меньше, чем -0.5.

Задача 7. Функция распределения случайной величины имеет вид:

0,

если

x 1

Аx

2

+ В,

если1 < x 4

F(x) =

1,

если

x > 4

Определить параметры A и B . Найти вероятность того, что случайная величина X примет значение: а) меньше 0.5; б) больше -0.5; в) в интервале (1.5, 3) . Определить плотность распределения случайной величины X .

Задача 8. Дана плотность распределения:

0,

если

x ≤ −1

если 1

< x 1

f (x) = a,

если

x >1

0,

Определить: а) параметр a ; б) вероятность попадания в интервал (0.5, 1.5) ; в) функцию распределения.

Тема 24. Математическое ожидание и дисперсия непрерывной случайной величины

Математическое ожидание дискретных случайных величин, введенное выше, определялось законом распределения случайной величины и использовалось при предельном переходе от биномиального распределения к распределению Пуассона. Для непрерывных случайных величин, математическое ожидание и дисперсия выражаются через плотности распределения согласно следующему определению.

Математическим ожиданием непрерывной случайной величины X с

плотностью распределения f (x) называется:

M ( X ) = xf (x)dx

(5.7)

−∞

69

Это определение представляет собой обобщение определения для дискретных случайных величин.

Пример 5. Найти M ( X ) , если случайная величина X имеет плотность рас-

пределения:

0,

если

x 1

f (x) = 0.25,

если1 < x 5

0,

если

x > 5

Решение. По определению математического ожидания, получаем:

1

5

+∞

M ( X ) = xf (x)dx =

xf (x)dx + xf (x)dx + xf (x)dx =

−∞

−∞

1

5

5

1

x2

5

52

1

= x

dx =

=

= 3

4

8

8

1

1

Здесь учтено, что по условию плотность распределения равна нулю всюду вне интервала (1;5) и равна 0.25 только внутри интервала (1;5).

Пример 6. Найти M ( X ) , если случайная величина X имеет плотность распределения:

0,

если

x 1

x

2

+8x 7

f (x) =

,

если1 < x 7

36

если

x > 7

0,

Решение. Учитывая, что так же, как в предыдущем примере, при вычислении математического ожидания надо найти интеграл только по той области, где плотность распределения отлична от нуля, получаем:

7 x(x

2 +8x 7)

1

x4

8x

3

7x2

7

M ( X ) =

dx =

+

=

36

36

4

3

2

1

1

4

7

3

7 7

2

4

3

2

49 35 +13

1

7

8

1

8 1

7 1

=

+

+

=

= 4

36

4

3

2

4

3

2

36 12

Математическое ожидание обладает следующими свойствами:

1.Постоянный множитель можно выносить за знак математического ожидания, т.е. M (cX ) = cM ( X ) , где c – любое постоянное число.

2.Математическое ожидание постоянной величины равно этой постоянной.

3.Математическое ожидание суммы конечного числа случайных величин равно сумме их математических ожиданий.

Эти свойства вытекают из определения математического ожидания. Например, первое свойство имеет место потому, что все значения случайной величины

70

Y = cX получаются из значений случайной величины Х умножением на множитель c, а вероятности соответствующих значений новой случайной величины никак не изменяются.

Еще раз подчеркнем, что математическое ожидание есть усредненная характеристика случайной величины. Оно всегда определяется только одним числом, которое находится на интервале между наименьшим и наибольшим из возможных значений случайной величины. В отличие от функции и плотности распределения, которые дают полную информацию о случайной величине и позволяют находить вероятности ее значений или вероятности того, что они находятся в любом интервале, знание математического ожидания недостаточно для определения таких вероятностей.

Дисперсия случайных величин характеризует средний разброс квадрата отклонений значений случайной величины X от ее математического ожидания M ( X ) . Аналогично тому, как это было для дискретных случайных величин,

вводится следующее определение.

Дисперсией случайной величины X называется математическое ожидание квадрата отклонения случайной величины от ее математического ожидания.

D( X ) = M (( X M ( X ))2 )

(5.8)

Поэтому размерность D(X ) равна квадрату размерности X . Удобнее D( X ) является среднее квадратичное отклонение σ = D( X ) . Дисперсии случайных

величин удовлетворяют следующим свойствам:

1. Дисперсия постоянной величины C равна нулю:

D(C) = 0

2. Постоянный множитель выносится за знак дисперсии в квадрате, т.е.:

D(cX ) = c2 D( X )

3. Дисперсия суммы двух независимых случайных величин равна сумме их дисперсий, т.е.:

D( X +Y ) = D( X ) + D(Y )

4. Для вычисления D( X ) удобнее использовать равенство

D( X ) = M (X 2 )(M ( X ))2

(5.9)

Заметим, что отклонение случайной величины X от числа, равного ее математическому ожиданию M ( X ) , т.е. Z = X M ( X ) – также случайная вели-

чина. При этом M (Z ) всегда равно нулю, т.е. M (X M (X )) = 0 . Действительно, используя свойства (1) – (3), получаем:

M (Z) = M ( X ) M (M ( X )) = M ( X ) M (X ) = 0

Именно по этой причине разброс значений X относительно M ( X )

харак-

теризуется дисперсией D( X ) и средним квадратичным уклонением σ =

D(X ) .

Пример 7. Найти математическое ожидание, дисперсию и среднеквадратическое отклонение случайной величины X , которая имеет плотность распределения:

71

0,

если x 1

если1 < x 6

f (x) = 0.2,

0,

если x > 6

Решение. По определению математического ожидания, получаем:

6

1

1

6

1

35

7

M ( X ) = xf (x)dx = x

dx =

x2

=

(62

1) =

=

.

5

10

1

10

10

2

−∞

1

Здесь учтено, что, по условию, плотность распределения равна нулю всюду вне интервала (1,6) и равна 0.2 только внутри интервала (1,6) .

Для того чтобы найти дисперсию X , воспользуемся формулой (5.9) и найдем сначала:

6

1

1

6

1

215

43

M ( X 2 ) = x2 f (x)dx = x2

dx =

x3

=

(63 1) =

=

1

.

5

15

15

15

3

−∞

1

Поэтому:

2

D( X ) = M ( X 2 ) (M ( X )2

43

7

43

4 49 3

172

147

25

=

=

=

=

3

12

12

12

2

σ =

D( X ) =

25

=

5

3

12

2

Пример 8. Найти математическое ожидание, дисперсию и среднеквадрати-

ческое отклонение случайной величины X , заданной плотностью распределения:

0,

если

x 1

x

2

+8x 7

f (x) =

,

если1 < x 7

36

если

x > 7

0,

Решение. При вычислении математического ожидания надо найти интеграл только по той области, где плотность распределения отлична от нуля, получаем:

7

x(x2 +8x

7)

1

x4

8x3

7x2

7

49 35 +13

М( Х) =

dx =

+

=

= 4.

36

36

4

3

2

36 12

1

1

Аналогично, получаем:

7

М( Х2 ) =

7

x2 (x2 +8x 7)

1

x5

8x4

7x3

7

4 4 +8

dx =

+

=

=17.8

36

36

5

4

3

36 15

1

1

Поэтому по формуле (5.9):

D( X ) =17.8 42 =1.8,

σ =

1.8 1.4

Существуют различные распределения непрерывных случайных величин. Плотности распределений непрерывных случайных величин называют также законами распределений. Далее будут рассмотрены равномерно распределенные и нормально распределенные случайные величины.

72

Задачи для самостоятельного решения

Найти математическое ожидание, дисперсию и среднеквадратическое отклонение случайной величины

Задача 9. Плотность распределения:

0,

если

x ≤ −1

1

,

если 1 < x 1

f ( x) =

2

если

x > 1

0,

Задача 10. Плотность распределения:

0,

если

x 0

3

(2 x x2 ),

f ( x) =

если 0 < x 2

4

0,

если

x > 2

Задача 11. Плотность распределения:

0,

если

x ≤ −1

если 1 < x 1

f (x) = 0.75(1 x2 ),

0,

если

x >1

Задача 12. Плотность распределения:

0,

если

x ≤ −2

3

(4 x2 ),

f ( x) =

если 2 < x 2

32

0,

если

x > 2

Задача 13. Плотность распределения:

0,

если

x 1

3

( x2

f ( x) = −

6 х + 5),

если 1 < x 5

32

0,

если

x > 5

Задача 14. Плотность распределения:

0,

если

x ≤ −5

3

( x2

f ( x) = −

+ 6 x + 5),

если 5 < x ≤ −1

32

0,

если

x > −1

Задача 15. Плотность распределения:

0,

если

x ≤ −2

2

+ 4

х)

3(12 x

f ( x) =

,

если 2 < x 6

256

если

x > 6

0,

Задача 16. Плотность распределения:

0,

если

x 1

2

( x2 5x + 4),

если 1 < x 4

f ( x) = −

9

0,

если

x > 4

73

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Так же как и теория вероятностей, математическая статистика имеет свои ключевые понятия, к которым относятся: генеральная совокупность, теоретическая функция распределения, выборка, эмпирическая функция распределения, статистика. Именно с определения этих понятий, а также с установления связи между ними и объектами, изучаемыми в теории вероятностей, мы начнем изложение математической статистики, предварительно дав краткое описание задач, которые собираемся решать. Кроме того, в последнем параграфе главы остановимся на некоторых распределениях, наиболее часто встречающихся в математической статистике.

Задачи математической статистики

Математическая статистика, являясь частью общей прикладной математической дисциплины «Теория вероятностей и математическая статистика», изучает, как и теория вероятностей, случайные явления, использует одинаковые с ней определения, понятия и методы и основана на той же самой аксиоматике А.Н. Колмогорова.

Однако задачи, решаемые математической статистикой, носят специфический характер. Теория вероятностей исследует явления, заданные полностью их моделью, и выявляет еще до опыта те статистические закономерности, которые будут иметь место после его проведения. В математической статистике вероятностная модель явления определена с точностью до неизвестных параметров. Отсутствие сведений о параметрах компенсируется тем, что нам позволено проводить «пробные» испытания и на их основе восстанавливать недостающую информацию.

Попытаемся показать различие этих двух взаимосвязанных дисциплин на простейшем примере — последовательности независимых одинаковых испытаний, или схеме Бернулли (часть 1, гл.4). Схему Бернулли можно трактовать как подбрасывание несимметричной монеты с вероятностью выпадения «герба» (успеха) р и «цифры» (неудачи) Оценки неизвестных параметров В теории вероятностей р и q задаются «извне» (например, для симметричной монеты Оценки неизвестных параметров Методы теории вероятностей позволяют, зная р и q, определить вероятность выпадения т «гербов» при п подбрасываниях монеты (биномиальное распределение, часть 1, гл.4, параграф 1), найти асимптотику этой вероятности при увеличении числа подбрасываний (теоремы Пуассона и Муавра-Лапласа,

часть 1, гл.4, параграфы 2-4) и т.д. В математической статистике значения р и q неизвестны заранее, но мы можем произвести серию подбрасываний монеты. Цель проведения испытаний как раз и заключается либо в определении р и q, либо в проверке некоторых априорных суждений относительно их значений. Таким образом, судя уже по этому простейшему примеру, задачи математической статистики являются в некотором смысле обратными задачам теории вероятностей.

В математической статистике обычно принято выделять два основных направления исследований.

Первое направление связано с оценкой неизвестных параметров. Возвращаясь к нашему примеру, предположим, что мы произвели п подбрасываний монеты и установили, что в Оценки неизвестных параметров из них выпал «герб». Тогда наиболее естественной оценкой вероятности р является наблюденная частота Оценки неизвестных параметров Как известно из закона больших чисел Бернулли (часть 1, гл. 4, параграф 5), с увеличением числа испытаний частота Оценки неизвестных параметров стремится к вероятности р, т. е. Оценки неизвестных параметров является состоятельной оценкой вероятности р. Оказывается, наряду с простотой и естественностью оценка Оценки неизвестных параметров будет и наилучшей с многих точек зрения, т. е. она обладает свойством эффективности. Однако если нам заранее определено число п подбрасываний монеты, то сказать со 100%-й гарантией что-либо об истинном значении р мы не можем (за исключением разве что тривиальных суждений типа «если выпадет хотя бы один „герб» то вероятность выпадения „герба» не может равняться нулю»). Поэтому наряду с точечными оценками в математической статистике принято определять интервальные оценки или, иными словами, доверительные интервалы, опираясь при этом на «уровень доверия», или доверительную вероятность.

Второе направление в математической статистике связано с проверкой некоторых априорных предположений, или статистических гипотез. Так, до опыта мы можем предположить, что монета симметрична, т.е. высказать гипотезу о равенстве Оценки неизвестных параметров Противоположное предположение, естественно, будет состоять в том, что Оценки неизвестных параметров и тоже представляет собой гипотезу. Принято называть одну из этих гипотез (как правило, более важную с практической точки зрения) основной Оценки неизвестных параметров а вторую — альтернативной или конкурирующей Оценки неизвестных параметров В приведенном выше примере нужно проверить основную гипотезу Оценки неизвестных параметров против конкурирующей гипотезы Оценки неизвестных параметров Заметим, что в нашем случае основная гипотеза Оценки неизвестных параметров полностью определяет вероятностную модель подбрасывания монеты, т.е. является простой (состоит из одной точки), в отличие от конкурирующей гипотезы Оценки неизвестных параметров являющейся сложной (состоит из более чем одной точки). Задача проверки статистических гипотез состоит в выборе правила или критерия, позволяющего по результатам наблюдений проверить (по возможности, наилучшим образом) справедливость этих гипотез и принять одну из них. Так же, как и при оценке неизвестных параметров, мы не застрахованы от неверного решения; в математической статистике они подразделяются

на ошибки первого и второго рода. Ошибка первого рода состоит в том, что мы принимаем конкурирующую гипотезу Оценки неизвестных параметров в то время как справедлива основная гипотеза Оценки неизвестных параметров аналогично определяется ошибка второго рода. Возвращаясь к примеру с монетой, приведем следующий критерий проверки двух перечисленных гипотез: основную гипотезу Оценки неизвестных параметров будем принимать в том случае, если наблюденная частота Оценки неизвестных параметров удовлетворяет неравенству Оценки неизвестных параметров в противном случае считаем верной конкурирующую гипотезу Оценки неизвестных параметров Вероятность ошибки первого рода (принять симметричную монету за несимметричную) в этом случае определяется как вероятность выполнения неравенства Оценки неизвестных параметров в схеме Бернулли с равновероятными исходами. Вероятность ошибки второго рода (принять несимметричную монету за симметричную) также определяется из схемы Бернулли, но с неравновероятными исходами и будет зависеть от истинного значения р.

Далее мы увидим, что задача проверки статистических гипотез наиболее полно решается для случая двух простых гипотез. Можно поставить и задачу проверки нескольких гипотез (в примере с монетой можно взять, например, три гипотезы: Оценки неизвестных параметров однако мы такие задачи рассматривать не будем.

Условно математическую статистику можно подразделить на исследование байесовских и небайесовских моделей.

Байесовские модели возникают тогда, когда неизвестный параметр является случайной величиной и имеется априорная информация о его распределении. При байесовском подходе на основе опытных данных априорные вероятности пересчитываются в апостериорные. Применение байесовского подхода фактически сводится к использованию формулы Байеса (см. часть 1, гл. 3, параграф 5), откуда, собственно говоря, и пошло его название. Байесовский подход нами будет применяться только как вспомогательный аппарат при доказательстве некоторых теорем.

Небайесовские модели появляются тогда, когда неизвестный параметр нельзя считать случайной величиной и все статистические выводы приходится делать, опираясь только на результаты «пробных» испытаний. Именно такие модели мы будем рассматривать в дальнейшем изложении.

В заключение этого параграфа отметим, что в математической статистике употребляют также понятия параметрических и непараметрических моделей. Параметрические модели возникают тогда, когда нам известна с точностью до параметра (скалярного или векторного) функция распределения наблюдаемой характеристики и необходимо по результатам испытаний определить этот параметр (задача оценки неизвестного параметра) или проверить гипотезу о принадлежности его некоторому заранее выделенному множеству значений (задача проверки статистических гипотез). Все приведенные выше примеры с подбрасыванием монеты представляют собой параметрические модели. Примеры непараметрических моделей мы рассмотрим позже.

Основные понятия математической статистики

Основными понятиями математической статистики являются: генеральная совокупность, выборка, теоретическая функция распределения.

Генеральная совокупность. Будем предполагать, что у нас имеются N объектов, каждому из которых присуще определенное значение некоторой числовой характеристики X. Характеристика X, вообще говоря, может быть и векторной (например, линейные размеры объекта), однако для простоты изложения мы ограничимся только скалярным случаем, тем более что переход к векторному случаю никаких трудностей не вызывает. Совокупность этих N объектов назовем генеральной совокупностиью.

Поскольку все наши статистические выводы мы будем делать, основываясь только на значениях числовой характеристики X, естественно абстрагироваться от физической природы самих объектов и отождествить каждый объект с присущей ему характеристикой X. Таким образом, с точки зрения математической статистики генеральная совокупность представляет собой N чисел, среди которых, конечно, могут быть и одинаковые.

Выборка. Для того чтобы установить параметры генеральной совокупности, нам позволено произвести некоторое число п испытаний. Каждое испытание состоит в том, что мы случайным образом выбираем один объект генеральной совокупности и определяем его значение X. Полученный таким образом ряд чисел Оценки неизвестных параметров будем называть (случайной) выборкой объема п, а число Оценки неизвестных параметров элементом выборки.

Заметим, что сам процесс выбора можно осуществлять различными способами: выбрав объект и определив его значение, изымать этот объект и не допускать к последующим испытаниям (выборка без возвращения); после определения его значения объект возвращается в генеральную совокупность и может полноправно участвовать в дальнейших испытаниях (выборка с возвращением) и т.д.

Разумеется, если бы мы смогли провести сплошное обследование всех объектов генеральной совокупности, то не нужно было бы применять никакие статистические методы и саму математическую статистику можно было бы отнести к чисто теоретическим наукам. Однако такой полный контроль невозможен по следующим причинам. Во-первых, часто испытание сопровождается разрушением испытуемого объекта; в этом случае мы имеем выборку без возвращения. Во-вторых, обычно необходимо исследовать весьма большое количество объектов, что просто невозможно физически. Наконец, может возникнуть такое положение, когда многократно измеряется один и тот же объект, но каждый замер производится со случайной ошибкой, и цель последующей статистической обработки заключается именно в уточнении характеристик объекта на основе многократных наблюдений; при этом результат каждого наблюдения надо считать новым объектом генеральной совокупности (простейшим примером такой ситуации является многократное подбрасывание монеты с целью определения вероятности выпадения «герба»). Следует помнить также, что выборка обязательно должна удовлетворять условию репрезентативности или, говоря более простым языком, давать обоснованное представление о генеральной совокупности.

С ростом объема N генеральной совокупности исчезает различие между выборками с возвращением и без возвращения. Мы, как обычно это делается в математической статистике, будем рассматривать случай бесконечно большого объема генеральной совокупности и поэтому, употребляя слово «выборка», не будем указывать, какая она — с возвращением или без него.

Теоретическая функция распределения. Пусть Оценки неизвестных параметров — выборка единичного объема из заданной генеральной совокупности. Поскольку сам процесс выбора производится случайным образом, то Оценки неизвестных параметров является случайной величиной и, как и всякая случайная величина, имеет функцию распределения Оценки неизвестных параметров Нетрудно видеть, что если объем N генеральной совокупности конечен, то при случайном выборе объекта мы находимся в рамках схемы классической вероятности (часть 1, гл.2, параграф 1) и значение функции распределения F(x) совпадает с отношением Оценки неизвестных параметров — число тех объектов генеральной совокупности, значения которых меньше х.

В случае выборки Оценки неизвестных параметров произвольного объема п каждый элемент Оценки неизвестных параметров выборки также будет иметь функцию распределения F(x), причем для выборки с возвращением наблюдения Оценки неизвестных параметров будут независимы между собой (чего нельзя сказать о выборке без возвращения). Поскольку, как уже говорилось, мы будем рассматривать выборки из генеральной совокупности бесконечно большого объема, а в этом случае исчезает различие между выборками разного типа, мы приходим к интерпретации (с точки зрения теории вероятностей) выборки Оценки неизвестных параметров как п независимых одинаково распределенных с функцией распределения F(x) случайных величин или, допуская некоторую вольность речи, как п независимых реализаций наблюдаемой случайной величины X, имеющей функцию распределения F(x). Функция распределения F(x) называется теоретической функцией распределения. Однако теоретическая функция распределения F(x) либо неизвестна, либо известна не полностью, и именно относительно F(x) мы будем делать наши статистические выводы. Заметим, что в соответствии с общими положениями теории вероятностей совместная функция распределения Оценки неизвестных параметров выборки Оценки неизвестных параметровзадается формулой

Оценки неизвестных параметров

В дальнейшем, как правило, мы будем предполагать, что F(x) является функцией распределения либо дискретной, либо непрерывной наблюдаемой случайной величины X. В первом случае будем оперировать рядом распределения случайной величины X, записанным в виде табл. 1, а во втором — плотностью распределения Оценки неизвестных параметров

Оценки неизвестных параметров

Простейшие статистические преобразования

Прежде чем переходить к детальному анализу наблюденных статистических данных, обычно проводят их предварительную обработку. Иногда результаты такой обработки уже сами по себе дают наглядную картину исследуемого явления, в большинстве же случаев они служат исходным материалом для получения более подробных статистических выводов.

Вариационный и статистический ряды. Часто бывает удобно пользоваться не самой выборкой Оценки неизвестных параметров а некоторой ее модификацией, называемой вариационным рядом. Вариационный ряд Оценки неизвестных параметров представляет собой ту же самую выборку Оценки неизвестных параметров но расположенную в порядке возрастания элементов: Оценки неизвестных параметров Такое преобразование не приводит к потере информации относительно теоретической функции распределения F(x), поскольку, переставив элементы вариационного ряда Оценки неизвестных параметров в случайном порядке, мы получим новый набор случайных величин Оценки неизвестных параметров совместная функция распределения Оценки неизвестных параметров которых в точности совпадает с функцией распределения Оценки неизвестных параметров первоначальной выборки Оценки неизвестных параметров

Для Оценки неизвестных параметров употребляют название «крайние члены вариационного ряда».

Пример 1. Измерение проекции вектора скорости молекул водорода на одну из осей координат дало (с учетом направления вектора) результаты Оценки неизвестных параметров представленные в табл.2.

Вариационный ряд этой выборки приведен в табл. 3. Крайними членами вариационного ряда Оценки неизвестных параметров являются Оценки неизвестных параметров

Если среди элементов выборки Оценки неизвестных параметров (а значит, и среди элементов вариационного ряда Оценки неизвестных параметров имеются одинаковые, что происходит при наблюдении дискретной случайной величины, а также довольно часто встречается при наблюдении непрерывной случайной величины с округлением значений, то наряду с вариационным рядом используют представление выборки в виде статистического

Оценки неизвестных параметров
Оценки неизвестных параметров

ряда (табл.4), в котором Оценки неизвестных параметров представляют собой расположенные в порядке возрастания различные значения элементов выборки Оценки неизвестных параметров — числа элементов выборки, значения которых равны соответственно Оценки неизвестных параметров

Пример 2. В течение минуты каждую секунду регистрировалось число попавших в счетчик Гейгера частиц. Результаты наблюдений приведены в табл. 5.

Статистический ряд выборки представлен в табл. 6.

Оценки неизвестных параметров
Оценки неизвестных параметров
Оценки неизвестных параметров

Статистики. Для получения обоснованных статистических выводов необходимо проводить достаточно большое число испытаний, т.е. иметь выборку достаточно большого объема п. Ясно, что не только использование такой выборки, но и хранение ее весьма затруднительно. Чтобы избавиться от этих трудностей, а также для других целей, полезно ввести понятие статистики, общее определение которой формулируется следующим образом. Назовем статистикой Оценки неизвестных параметров произвольную (измеримую) k-мерную функцию от выборки Оценки неизвестных параметров

Оценки неизвестных параметров

Как функция от случайного вектора Оценки неизвестных параметров статистика S также будет случайным вектором (см. часть 1, гл.6, параграф 7), и ее функция распределения

Оценки неизвестных параметров

определяется для дискретной наблюдаемой случайной величины X формулой

Оценки неизвестных параметров

и для непрерывной — формулой

Оценки неизвестных параметров

где суммирование или интегрирование производится по всем возможным значениям Оценки неизвестных параметров (в дискретном случае каждое Оценки неизвестных параметров принадлежит множеству Оценки неизвестных параметров для которых выполнена система неравенств

Оценки неизвестных параметров

Пример 3. Пусть выборка Оценки неизвестных параметров произведена из генеральной совокупности с теоретической функцией распределения Оценки неизвестных параметров являющейся нормальной с математическим ожиданием (средним значением) т и дисперсией Оценки неизвестных параметров Рассмотрим двумерную статистику Оценки неизвестных параметров где

Оценки неизвестных параметров

Тогда

Оценки неизвестных параметров

Мы, однако, не будем вычислять записанный интеграл, а воспользуемся тем фактом (см. пример 29, часть 1, гл.6, параграф 7), что любое линейное преобразование переводит нормально распределенный вектор в вектор, снова имеющий нормальное распределение, причем ортогональное преобразование переводит вектор с независимыми координатами, имеющими одинаковые дисперсии, в вектор с также независимыми и имеющими те же самые дисперсии координатами.

Из курса теории вероятностей известно, что статистика Оценки неизвестных параметров имеет нормальное распределение со средним га и дисперсией Оценки неизвестных параметров Положим

Оценки неизвестных параметров

Очевидно, что

Оценки неизвестных параметров

Пусть теперь А — линейное ортогональное преобразование пространства Оценки неизвестных параметров ставящее в соответствие каждому вектору Оценки неизвестных параметров вектор Оценки неизвестных параметров (как известно из курса линейной алгебры, такое преобразование всегда существует). Тогда, если Оценки неизвестных параметров будет нормально распределенным случайным вектором, имеющим независимые координаты Оценки неизвестных параметров с нулевым средним и дисперсией Оценки неизвестных параметровКроме того, Оценки неизвестных параметров Далее, рассмотрим Оценки неизвестных параметров— квадрат длины вектора Оценки неизвестных параметров Простейшие преобразования показывают, что

Оценки неизвестных параметров

С другой стороны, в силу ортогональности преобразования А

Оценки неизвестных параметров

Отсюда, в частности, следует, что

Оценки неизвестных параметров

т.е. Оценки неизвестных параметров представляет собой сумму квадратов п — 1 независимых случайных величин, распределенных по стандартному нормальному закону. Вспоминая теперь, что случайные величины Оценки неизвестных параметров независимы, получаем окончательный ответ: статистики Оценки неизвестных параметров независимы Оценки неизвестных параметров статистика Оценки неизвестных параметров распределена по нормальному закону с параметрами Оценки неизвестных параметров а случайная величина Оценки неизвестных параметров (в том случае, когда дисперсия Оценки неизвестных параметров неизвестна, отношение Оценки неизвестных параметров не является статистикой, поскольку зависит от неизвестного параметра Оценки неизвестных параметров — по закону Оценки неизвестных параметров степенями свободы (см. также параграф 4).

Отметим, что проведенные рассуждения будут нами постоянно использоваться в гл. 4, посвященной статистическим задачам, связанным с нормально распределенными наблюдениями.

Важный класс статистик составляют так называемые достаточные статистики. Не давая пока строгого математического определения, скажем, что статистика S является достаточной, если она содержит всю ту информацию относительно теоретической функции распределения F(x), что и исходная выборка Оценки неизвестных параметров В частности, вариационный ряд всегда представляет собой достаточную статистику. Более сложными примерами достаточных статистик являются число успехов в схеме Бернулли и двумерная статистика S из примера 3 для выборки из генеральной совокупности с нормальной теоретической функцией распределения. В современной математической статистике достаточные статистики играют очень важную роль.

Эмпирическая функция распределения. Пусть мы имеем выборку Оценки неизвестных параметров объема п из генеральной совокупности с теоретической функцией распределения F(x). Построим по выборке Оценки неизвестных параметров аналог теоретической функции распределения F(x). Положим

Оценки неизвестных параметров

где Оценки неизвестных параметров — число элементов выборки, значения которых Оценки неизвестных параметров меньше х. Поскольку каждое Оценки неизвестных параметров меньше х с вероятностью Оценки неизвестных параметров а сами Оценки неизвестных параметров независимы, то Оценки неизвестных параметров является целочисленной случайной величиной, распределенной по биномиальному закону:

Оценки неизвестных параметров

Функция Оценки неизвестных параметров носит название эмпирической (выборочной) функции распределения. Ясно, что при каждом х значение эмпирической функции распределения Оценки неизвестных параметров является случайной величиной, принимающей значения Оценки неизвестных параметров если же рассматривать Оценки неизвестных параметров как функцию от х, то Оценки неизвестных параметров представляет собой случайный процесс.

Построение эмпирической функции распределения Оценки неизвестных параметров удобно производить с помощью вариационного ряда Оценки неизвестных параметров Функция Оценки неизвестных параметров постоянна на каждом интервале Оценки неизвестных параметров а в точке Оценки неизвестных параметровувеличивается на 1 /п.

Пример 4. График эмпирической функции распределения, построенной по вариационному ряду из табл. 3, приведен на рис. 1.

Если выборка задана статистическим рядом (см. табл. 4), то эмпирическая функция распределения также постоянна на интервалах Оценки неизвестных параметров но ее значение в точке Оценки неизвестных параметров увеличивается на Оценки неизвестных параметров а не на 1/n

Оценки неизвестных параметров

Пример 5. График эмпирической функции распределения, построенной по статистическому ряду из табл. 6, приведен на рис. 2.

Гистограмма, полигон. Для наглядности выборку иногда преобразуют следующим образом. Всю ось абсцисс делят на интервалы Оценки неизвестных параметров длиной Оценки неизвестных параметров и определяют функцию Оценки неизвестных параметров постоянную на i-м интервале и принимающую на этом интервале значение Оценки неизвестных параметров — число элементов выборки, попавших в интервал Оценки неизвестных параметров Функция Оценки неизвестных параметровназывается гистограммой.

При наблюдении дискретной случайной величины вместо гистограммы часто используют полигон частот. Для этого по оси абсцисс откладывают все возможные значения Оценки неизвестных параметров наблюдаемой величины X, а по оси ординат, пользуясь статистическим рядом, либо числа Оценки неизвестных параметров элементов выборки, принявших значения Оценки неизвестных параметров (полигон частот), либо соответствующие наблюденные частоты

Оценки неизвестных параметров

(полигон относительных частот). Для большей наглядности соседние точки соединяются отрезками прямой.

Для непрерывной наблюдаемой случайной величины полигоном относительных частот иногда называют ломаную линию, соединяющую середины отрезков, составляющих гистограмму.
Пример 6. Построим гистограмму и полигон относительных частот выборки, представленной в табл. 2. Для этого выберем интервалы одинаковой длины Оценки неизвестных параметров Числа Оценки неизвестных параметров и значения Оценки неизвестных параметров на каждом интервале приведены в табл. 7. Гистограмма выборки показана на рис. 3 сплошной линией, а полигон относительных частот — штриховой линией.

Оценки неизвестных параметров

Пример 7. Построим полигон относительных частот выборки, приведенной в табл. 5. Возможные значения наблюдаемой случайной величины X (числа частиц, попавших в счетчик Гейгера) представляют собой неотрицательные целые числа. Воспользовавшись статистическим рядом из табл. 6, получаем полигон относительных частот, изображенный на рис. 4.

Предельное поведение эмпирической функции распределения.

Предположим, что по выборке Оценки неизвестных параметров мы построили эмпирическую функцию распределения Оценки неизвестных параметров(здесь и в дальнейшем в том случае, когда нам важна зависимость какой-то характеристики от объема выборки п, будем снабжать ее дополнительным нижним индексом (n)). Как мы уже говорили, число Оценки неизвестных параметров элементов выборки, принявших значение, меньшее х, распределено по биномиальному закону с вероятностью успеха Оценки неизвестных параметров Тогда при Оценки неизвестных параметров в силу усиленного закона больших чисел (часть 1, гл.8, параграф 2) значения эмпирических функций распределения Оценки неизвестных параметров сходятся при каждом х к значению теоретической функции распределения F(x). В. И. Гливенко и Ф. П. Кантелли обобщили этот факт и доказали следующую теорему.

Теорема Гливенко-Кантелли. При Оценки неизвестных параметров с вероятностью, равной единице

Оценки неизвестных параметров

Смысл теоремы Гливенко-Кантелли заключается в том, что при увеличении объема выборки п у эмпирической функции распределения исчезают свойства случайности и она приближается к теоретической функции распределения.

Аналогично, если п велико, то значение гистограммы Оценки неизвестных параметров в точке х приближенно равно

Оценки неизвестных параметров

где Оценки неизвестных параметров — концы интервала, в котором находится х, а Оценки неизвестных параметров есть длина этого интервала. Если теоретическая функция распределения имеет плотность распределения р(х) и при этом длины интервалов Оценки неизвестных параметров малы, то гистограмма Оценки неизвестных параметров достаточно хорошо воспроизводит эту плотность.

Выборочные характеристики. Эмпирическая функция распределения Оценки неизвестных параметров построенная по фиксированной выборке Оценки неизвестных параметров обладает всеми свойствами обычной функции распределения (дискретной случайной величины). В частности, по ней можно найти математическое ожидание (среднее)

Оценки неизвестных параметров

второй момент

Оценки неизвестных параметров

дисперсию

Оценки неизвестных параметров

момент k-го порядка

Оценки неизвестных параметров

центральный момент k-го порядка

Оценки неизвестных параметров

и т.д. Соответствующие характеристики называются выборочными (выборочное среднее, выборочный второй момент, выборочная дисперсия и т.п.). Ясно, что выборочные характеристики как функции от случайных величин Оценки неизвестных параметров сами являются случайными величинами, причем их распределения определяются в соответствии с общими положениями теории вероятностей (см. часть 1, гл.6, параграф 7). Так, функция распределения выборочного среднего Оценки неизвестных параметров для случая дискретной наблюдаемой случайной величины определяется формулой

Оценки неизвестных параметров

где суммирование ведется по всем Оценки неизвестных параметров принимающим значения Оценки неизвестных параметров и удовлетворяющим неравенству Оценки неизвестных параметров а функция распределения выборочного второго момента Оценки неизвестных параметров для непрерывного случая — формулой

Оценки неизвестных параметров

Наряду с выборочной дисперсией Оценки неизвестных параметров часто используют и другую характеристику разброса выборки вокруг среднего:

Оценки неизвестных параметров

Характеристику Оценки неизвестных параметров также будем называть выборочной дисперсией, а для того чтобы не путать Оценки неизвестных параметров каждый раз будем указывать, о какой именно выборочной дисперсии идет речь. Выборочная дисперсия Оценки неизвестных параметров отличается от выборочной дисперсии Оценки неизвестных параметров только лишь наличием множителя Оценки неизвестных параметров который с увеличением объема выборки п стремится к единице, и, казалось бы, нет смысла вводить две практически одинаковые величины. Однако, как мы увидим из дальнейшего, Оценки неизвестных параметров является несмещенной оценкой теоретической дисперсии Оценки неизвестных параметров чего нельзя сказать о выборочной дисперсии Оценки неизвестных параметров хотя стандартные методы приводят именно к Оценки неизвестных параметров

Пример 8. Подсчитаем выборочное среднее и выборочные дисперсии для выборки, приведенной в табл. 2:

Оценки неизвестных параметров

Для подсчета выборочной дисперсии Оценки неизвестных параметров можно было бы воспользоваться также формулой Оценки неизвестных параметров

Основные распределения математической статистики

Наиболее часто в математической статистике используются: нормальное распределение, Оценки неизвестных параметров распределение (распределение Пирсона), t-распределение (распределение Стьюдента), F-распределение (распределение Фишера), распределение Колмогорова и Оценки неизвестных параметров-распределение. Все эти распределения связаны с нормальным. В свою очередь, широкое распространение нормального распределения обусловлено исключительно центральной предельной теоремой (см. часть 1, гл.8, параграф 4). Ввиду их особой важности все названные распределения затабулированы и содержатся в различных статистических таблицах, а также, частично, в большинстве учебников по теории вероятностей и математической статистике. Наиболее полными из известных и доступных читателю в нашей стране являются таблицы Л.Н. Большева и Н. В. Смирнова [1], на которые мы и будем ссылаться в дальнейшем.

Нормальное распределение. Одномерное стандартное нормальное распределение (стандартный нормальный закон) задается своей плотностью распределения (см. часть 1, гл.5, параграф 4)

Оценки неизвестных параметров

Значения функции Ф(x) и плотности Оценки неизвестных параметров стандартного нормального распределения, а также квантилей Оценки неизвестных параметров (функции Оценки неизвестных параметров обратной функции стандартного нормального распределения) приведены в [1], табл. 1.1-1.3 (см. также табл.2 и 3 приложения).

Общее одномерное нормальное распределение характеризуется двумя параметрами: средним (математическим ожиданием) т и дисперсией Оценки неизвестных параметров Его можно трактовать как распределение случайной величины

Оценки неизвестных параметров

где случайная величина Оценки неизвестных параметров подчинена стандартному нормальному закону. Плотность распределения и функцию распределения общего нормального закона будем обозначать через Оценки неизвестных параметров Многомерное (k-мерное) нормальное распределение (часть 1, гл.6, параграф 4) определяется вектором средних Оценки неизвестных параметров и матрицей ковариаций Оценки неизвестных параметров

Оценки неизвестных параметров-распределение (см. часть 1, гл.5, параграф 4, а также примеры 28 и 30, часть 1, гл.6, параграф 7). Пусть Оценки неизвестных параметров— независимые случайные величины, распределенные по стандартному нормальному закону. Распределение случайной величины

Оценки неизвестных параметров

носит название Оценки неизвестных параметровраспределения с п степенями свободы, Оценки неизвестных параметров-распределение имеет плотность распределения

Оценки неизвестных параметров

где Оценки неизвестных параметров введено в параграфе 4 гл. 5.

Значения функции Оценки неизвестных параметров-распределения и а-процентных точек (а-про-центная точка Оценки неизвестных параметров-распределения представляет собой Оценки неизвестных параметров-квантиль Оценки неизвестных параметров-распределения приведены в [1], табл. 2.1а и 2.2а. В дальнейшем нам будет полезно следующее свойство. Пусть Оценки неизвестных параметров независимые случайные величины, распределенные по нормальному закону с одинаковыми параметрами Оценки неизвестных параметров Положим

Оценки неизвестных параметров

Тогда случайная величина

Оценки неизвестных параметров

имеет Оценки неизвестных параметров-распределение, но с п-1 степенями свободы. Доказательство этого факта содержится в примере 3.

Еще одна схема, в которой появляется Оценки неизвестных параметров-распределение — полиномиальная схема (см. часть 1, гл.4, параграф 7). Пусть производится п независимых одинаковых испытаний, в каждом из которых с вероятностью Оценки неизвестных параметров может произойти одно из событий Оценки неизвестных параметров Обозначим через Оценки неизвестных параметров число появлений события Оценки неизвестных параметров Тогда из многомерного аналога интегральной теоремы Муавра-Лапласа следует, что случайная величина

Оценки неизвестных параметров

при Оценки неизвестных параметров асимптотически распределена по закону Оценки неизвестных параметров степенями свободы.

t-распределение. Пусть Оценки неизвестных параметров — независимые случайные величины, причем Оценки неизвестных параметров распределена по стандартному нормальному закону, а Оценки неизвестных параметровимеет Оценки неизвестных параметров-распределение с п степенями свободы. Распределение случайной величины

Оценки неизвестных параметров

называется t-распределением с п степенями свободы, t-распределение имеет плотность распределения

Оценки неизвестных параметров

Значения функции t-распределения и Оценки неизвестных параметров-процентных точек Оценки неизвестных параметров квантилей Оценки неизвестных параметров t-распределения приведены в [1], табл. 3.1а и 3.2.

Далее, пусть Оценки неизвестных параметров — независимые одинаково распределенные случайные величины, подчиненные нормальному закону со средним т. Положим

Оценки неизвестных параметров

Тогда случайные величины Оценки неизвестных параметров независимы, а случайная величина

Оценки неизвестных параметров

имеет t-распределение с n-1 степенями свободы (доказательство этого см. в примере 3).

F-распределение. Пусть Оценки неизвестных параметров две независимые случайные величины, имеющие Оценки неизвестных параметров-распределения с Оценки неизвестных параметров степенями свободы. Распределение случайной величины

Оценки неизвестных параметров

носит название F-распределения с параметрами Оценки неизвестных параметров F-распределение имеет плотность распределения

Оценки неизвестных параметров

Значения Оценки неизвестных параметров-процентных точек Оценки неизвестных параметров-квантилей Оценки неизвестных параметров-распределения приведены в [1], табл. 3.5.

Распределение Колмогорова. Функция распределения Колмогорова имеет вид

Оценки неизвестных параметров

Распределение Колмогорова является распределением случайной величины

Оценки неизвестных параметров

где Оценки неизвестных параметров — броуновский мостик, т. е. винеровский процесс с закрепленными концами Оценки неизвестных параметров на отрезке Оценки неизвестных параметров (см. [11]).

Значения функции распределения Колмогорова приведены в [1], табл.6.1. Квантили распределения Колмогорова будем обозначать через Оценки неизвестных параметров

Оценки неизвестных параметров -распределение. Функция Оценки неизвестных параметровраспределения задается формулой

Оценки неизвестных параметров

Здесь Оценки неизвестных параметров — модифицированная функция Бесселя, Оценки неизвестных параметров-распределение представляет собой распределение случайной величины

Оценки неизвестных параметров

где Оценки неизвестных параметров — броуновский мостик.

Значения функции Оценки неизвестных параметров-распределения приведены в [1], табл. 6.4а. Квантили Оценки неизвестных параметров-распределения будем обозначать через Оценки неизвестных параметров

Оценки неизвестных параметров

Как уже говорилось в гл. 1, одним из двух основных направлений в математической статистике является оценивание неизвестных параметров. В этой главе мы дадим определение оценки, опишем те свойства, которые желательно требовать от оценки, и приведем основные методы построения оценок. Завершается глава изложением метода построения доверительных интервалов для неизвестных параметров.

Статистические оценки и их свойства

Предположим, что в результате наблюдений мы получили выборку Оценки неизвестных параметров из генеральной совокупности с теоретической функцией распределения F(x). Относительно F(x) обычно бывает известно только, что она принадлежит определенному параметрическому семейству Оценки неизвестных параметров зависящему от числового или векторного параметра Оценки неизвестных параметров Как правило, для простоты изложения будем рассматривать случай числового параметра Оценки неизвестных параметров и лишь иногда обращаться к векторному параметру Оценки неизвестных параметров в векторном случае будем использовать запись Оценки неизвестных параметров Для большей наглядности будем все неизвестные параметры (за исключением теоретических моментов Оценки неизвестных параметров обозначать буквой Оценки неизвестных параметров (снабжая их при необходимости индексами), хотя в теории вероятностей для них обычно приняты другие обозначения. Наша цель состоит в том, чтобы, опираясь только на выборку Оценки неизвестных параметровоценить неизвестный параметр Оценки неизвестных параметров

Оценкой неизвестного параметра Оценки неизвестных параметров построенной по выборке Оценки неизвестных параметров назовем произвольную функцию

Оценки неизвестных параметров

зависящую только от выборки Оценки неизвестных параметров Ясно, что как функция от случайной величины Оценки неизвестных параметров оценка Оценки неизвестных параметров сама будет являться случайной величиной и, как всякая случайная величина, будет иметь функцию распределения Оценки неизвестных параметров определяемую в дискретном случае формулой

Оценки неизвестных параметров

где суммирование ведется по всем переменным Оценки неизвестных параметров принимающим значения Оценки неизвестных параметров из ряда распределения наблюдаемой случайной величины X и удовлетворяющим неравенству Оценки неизвестных параметров и в непрерывном случае — формулой

Оценки неизвестных параметров

где интегрирование ведется по области, выделяемой неравенством Оценки неизвестных параметров Как уже говорилось, иногда для того, чтобы подчеркнуть зависимость оценки от объема выборки п, будем наряду с обозначением Оценки неизвестных параметров употреблять обозначение Оценки неизвестных параметров Нужно четко представлять себе, что зависимость оценки Оценки неизвестных параметров от неизвестного параметра Оценки неизвестных параметров осуществляется только через зависимость от Оценки неизвестных параметров выборки Оценки неизвестных параметров что в свою очередь реализуется зависимостью от Оценки неизвестных параметров функции распределения Оценки неизвестных параметров Приведенное выше определение отождествляет понятие оценки Оценки неизвестных параметров (вектора оценок Оценки неизвестных параметров с одномерной (k-мерной) статистикой.

Пример:

Предположим, что проведено п испытаний в схеме Бернулли с неизвестной вероятностью успеха Оценки неизвестных параметров В результате наблюдений получена выборка Оценки неизвестных параметров где Оценки неизвестных параметров — число успехов i-м испытании. Ряд распределения наблюдаемой величины X — числа успехов в одном испытании представлен в табл. 1.

Оценки неизвестных параметров

В качестве оценки Оценки неизвестных параметров рассмотрим наблюденную частоту успехов

Оценки неизвестных параметров

где

Оценки неизвестных параметров

представляет собой суммарное число успехов в п испытаниях Бернулли. Статистика Оценки неизвестных параметров распределена по биномиальному закону с параметром Оценки неизвестных параметров поэтому ряд распределения оценки Оценки неизвестных параметров имеет вид, приведенный в табл. 2.

Оценки неизвестных параметров

Пример:

Выборка Оценки неизвестных параметров произведена из генеральной совокупности с теоретической функцией распределения Оценки неизвестных параметров являющейся нормальной с неизвестным средним Оценки неизвестных параметров В качестве оценки Оценки неизвестных параметров снова рассмотрим выборочное среднее

Оценки неизвестных параметров

Функция распределения Оценки неизвестных параметров задается формулой

Оценки неизвестных параметров

Однако вместо непосредственного вычисления написанного n-мерного интеграла заметим, что статистика

Оценки неизвестных параметров

распределена по нормальному закону с параметрами Оценки неизвестных параметров (математической ожидание) и Оценки неизвестных параметров (дисперсия). Значит, оценка Оценки неизвестных параметров распределена также по нормальному закону с параметрами Оценки неизвестных параметров

Разумеется, на практике имеет смысл использовать далеко не любую оценку.

Пример:

Как и в примере 1, рассмотрим испытания в схеме Бернулли. Однако теперь в качестве оценки неизвестной вероятности успеха Оценки неизвестных параметров возьмем

Оценки неизвестных параметров

Такая оценка будет хороша лишь в том случае, когда истинное значение Оценки неизвестных параметров ее качество ухудшается с увеличением отклонения Оценки неизвестных параметров от 1 /2.

Приведенный пример показывает, что желательно употреблять только те оценки, которые по возможности принимали бы значения, наиболее близкие к неизвестному параметру. Однако в силу случайности выборки в математической статистике мы, как правило, не застрахованы полностью от сколь угодно большой ошибки. Значит, гарантировать достаточную близость оценки Оценки неизвестных параметров к оцениваемому параметру Оценки неизвестных параметров можно только с некоторой вероятностью и для того, чтобы увеличить эту вероятность, приходится приносить необходимую жертву — увеличивать объем выборки п.

Опишем теперь те свойства, которые мы хотели бы видеть у оценки.

Главное свойство любой оценки, оправдывающее само название «оценка», — возможность хотя бы ценой увеличения объема выборки до бесконечности получить точное значение неизвестного параметра Оценки неизвестных параметров. Оценка Оценки неизвестных параметров называется состоятельной, если с ростом объема выборки она сходится к оцениваемому параметру Оценки неизвестных параметров Можно рассматривать сходимость различных типов: по вероятности, с вероятностью единица, в среднем квадратичном и т.д. Обычно рассматривается сходимость по вероятности, т.е. состоятельной называется такая оценка Оценки неизвестных параметров которая для любого Оценки неизвестных параметров при всех возможных значениях неизвестного параметра Оценки неизвестных параметров удовлетворяет соотношению

Оценки неизвестных параметров

Отметим, что правильнее было бы говорить о состоятельности последовательности оценок Оценки неизвестных параметров поскольку для каждого значения п объема выборки оценка Оценки неизвестных параметров может определяться по своему правилу. Однако в дальнейшем мы будем употреблять понятие состоятельности только для оценок, построенных по определенным алгоритмам, поэтому будем говорить просто о состоятельности оценки.

Пример:

Оценка Оценки неизвестных параметров из примера 1 является состоятельной оценкой неизвестной вероятности успеха Оценки неизвестных параметров. Это является прямым следствием закона больших чисел Бернулли.

Пример:

Пусть выборка Оценки неизвестных параметров произведена из генеральной совокупности с неизвестной теоретической функцией распределения F(x). Тогда в силу закона больших чисел выборочный момент

Оценки неизвестных параметров

сходится к теоретическому моменту Оценки неизвестных параметров значит, представляет собой состоятельную оценку Оценки неизвестных параметров Аналогично, выборочные дисперсии Оценки неизвестных параметров и выборочные центральные моменты Оценки неизвестных параметров являются состоятельными оценками теоретической дисперсии Оценки неизвестных параметров и теоретических центральных моментов Оценки неизвестных параметров Отметим, что поскольку в этом примере не предполагается принадлежность теоретической функции распределения F(x) какому-либо параметрическому семейству, то мы имеем дело с задачей оценки неизвестных моментов теоретической функции распределения в непараметрической модели.

Пример:

Выборка Оценки неизвестных параметров произведена из генеральной совокупности с теоретической функцией распределения F(x), имеющей плотность распределения Коши

Оценки неизвестных параметров

с неизвестным параметром Оценки неизвестных параметров Поскольку плотность распределения Коши симметрична относительно Оценки неизвестных параметров то казалось бы естественным в качестве оценки Оценки неизвестных параметров параметра Оценки неизвестных параметров взять выборочное среднее

Оценки неизвестных параметров

Однако Оценки неизвестных параметров как и сама наблюдаемая случайная величина X, имеет распределение Коши с тем же параметром Оценки неизвестных параметров (это легко установить с помощью характеристических функций, см. часть 1, гл.8, параграф 3), т.е. не сближается с параметром Оценки неизвестных параметров а значит, не является состоятельной оценкой параметра Оценки неизвестных параметров

Из курса теории вероятностей известно (см. часть 1, гл.7, параграф 1), что мерой отклонения оценки Оценки неизвестных параметров от параметра Оценки неизвестных параметров служит разность Оценки неизвестных параметров В математической статистике разность

Оценки неизвестных параметров

называется смещением оценки Оценки неизвестных параметров Ясно, что

Оценки неизвестных параметров

в дискретном случае и

Оценки неизвестных параметров

в непрерывном, где суммирование или интегрирование ведется по всем возможным значениям Оценки неизвестных параметров

Оценка Оценки неизвестных параметров называется несмещенной, если

Оценки неизвестных параметров

при всех Оценки неизвестных параметров е. ее среднее значение Оценки неизвестных параметров совпадает с оцениваемым параметром Оценки неизвестных параметров

Пример:

Оценка Оценки неизвестных параметров неизвестной вероятности успеха Оценки неизвестных параметров из примера 1 является несмещенной. Действительно,

Оценки неизвестных параметров

Пример:

Выборочные моменты Оценки неизвестных параметров являются несмещенными оценками теоретических моментов Оценки неизвестных параметров поскольку

Оценки неизвестных параметров

Вычислим теперь математическое ожидание выборочной дисперсии Оценки неизвестных параметров

Оценки неизвестных параметров

Таким образом, Оценки неизвестных параметров является смещенной (хотя и состоятельной, см. пример 5) оценкой дисперсии Оценки неизвестных параметров Поскольку

Оценки неизвестных параметров

то

Оценки неизвестных параметров

и Оценки неизвестных параметров представляет собой уже несмещенную оценку Оценки неизвестных параметров Можно показать также, что выборочные центральные моменты Оценки неизвестных параметров являются смещенными оценками теоретических центральных моментов Оценки неизвестных параметров

Пример:

Пусть Оценки неизвестных параметров — выборка из генеральной совокупности с теоретической функцией распределения Оценки неизвестных параметров являющейся нормальной с неизвестным средним Оценки неизвестных параметров Поскольку Оценки неизвестных параметров то оценка

Оценки неизвестных параметров

является несмещенной. Очевидно, однако, что она не является состоятельной.

Примеры 8 и 9 показывают, что состоятельная оценка может быть сметенной и, наоборот, несмещенная оценка не обязана быть состоятельной.

Рассматривая несколько оценок неизвестного параметра Оценки неизвестных параметров мы, разумеется, хотели бы выбрать из них ту, которая имела бы наименьший разброс, причем при любом значении неизвестного параметра Оценки неизвестных параметров. Мерой разброса оценки Оценки неизвестных параметров как и всякой случайной величины, является дисперсия

Оценки неизвестных параметров

(дисперсия, как и распределение оценки, зависит от неизвестного параметра Оценки неизвестных параметров). Однако для смещенной оценки Оценки неизвестных параметров дисперсия служит мерой близости не к оцениваемому параметру Оценки неизвестных параметров а к математическому ожиданию Оценки неизвестных параметров Поэтому естественно искать оценки с наименьшей дисперсией не среди всех оценок, а только среди несмещенных, что мы и будем делать в дальнейшем. Для несмещенных оценок дисперсия определяется также формулой

Оценки неизвестных параметров

Имеется несколько подходов к нахождению несмещенных оценок с минимальной дисперсией. Это связано с тем, что такие оценки существуют не всегда, а найти их бывает чрезвычайно сложно. Здесь мы изложим понятие эффективности оценки, основанное на неравенстве Рао-Крамера.

Теорема:

Неравенство Рао-Крамера. Пусть Оценки неизвестных параметров— несмещенная оценка неизвестного параметра Оценки неизвестных параметров построенная по выборке объема п. Тогда (при некоторых дополнительных условиях регулярности, наложенных на семейство Оценки неизвестных параметров

где Оценки неизвестных параметров— информация Фишера, определяемая в дискретном случае формулой

Оценки неизвестных параметров

а в непрерывном — формулой

Оценки неизвестных параметров

Прежде чем переходить к доказательству теоремы, заметим, что по неравенству Рао-Крамера дисперсия любой несмещенной оценки не может быть меньше Оценки неизвестных параметров Назовем эффективностью Оценки неизвестных параметровнесмещенной оценки Оценки неизвестных параметров величину

Оценки неизвестных параметров

Ясно, что эффективность любой оценки Оценки неизвестных параметров при каждом Оценки неизвестных параметров заключена между нулем и единицей, причем чем она ближе к единице при каком-либо Оценки неизвестных параметров тем лучше оценка Оценки неизвестных параметров при этом значении неизвестного параметра.

Несмещенная оценка Оценки неизвестных параметров называется эффективной (по Рао-Краме-ру), если Оценки неизвестных параметров при любом Оценки неизвестных параметров

Доказательство теоремы 1. Доказательство этой и всех остальных теорем будем проводить (если не сделано специальной оговорки) для непрерывного случая. Это связано с тем, что непрерывный случай, как правило, более сложен, и читатель, усвоивший доказательство для непрерывного случая, легко проведет его для дискретного.

Как мы увидим из хода доказательства, условия регулярности семейства Оценки неизвестных параметров упомянутые в формулировке теоремы, есть не что иное, как условия, гарантирующие законность дифференцирования под знаком интеграла в формулах (1) и (3). В разных книгах сформулированы различные достаточные условия. Мы упомянем одно из них, приведенное в [11]:

функция Оценки неизвестных параметров для всех (точнее, для почти всех) х непрерывно дифференцируема по Оценки неизвестных параметров информация Фишера Оценки неизвестных параметров конечна, положительна и непрерывна по Оценки неизвестных параметров

Приступим теперь к собственно доказательству теоремы. Заметим прежде всего, что, дифференцируя тождество

Оценки неизвестных параметров

(в силу сформулированного условия это можно делать), получаем

Оценки неизвестных параметров

Далее, в силу несмещенности оценки Оценки неизвестных параметров имеем

Оценки неизвестных параметров

Дифференцируя это равенство по Оценки неизвестных параметров и учитывая очевидное тождество

Оценки неизвестных параметров

полученное из (1) и (2), находим

Оценки неизвестных параметров

Воспользовавшись неравенством Коши-Буняковского

Оценки неизвестных параметров

при

Оценки неизвестных параметров

имеем

Оценки неизвестных параметров

Заметим теперь, что в силу тождества (2)

Оценки неизвестных параметров

Тогда неравенство (5) можно переписать в виде Оценки неизвестных параметров откуда и следует неравенство Рао-Крамера.

Замечание:

Для превращения используемого при доказательстве теоремы 1 неравенства Коши-Буняковского, в равенство необходимо и достаточно существование таких функций Оценки неизвестных параметроваргумента х и Оценки неизвестных параметров аргумента Оценки неизвестных параметров что ,

Оценки неизвестных параметров

При этом оценка Оценки неизвестных параметров должна иметь вид

Оценки неизвестных параметров

Обозначая

Оценки неизвестных параметров

и интегрируя уравнение (6), получаем, что необходимым условием существования эффективной оценки является возможность представления плотности распределения Оценки неизвестных параметров в виде

Оценки неизвестных параметров

где Оценки неизвестных параметров — функции, зависящие только от Оценки неизвестных параметров функции, зависящие только от Оценки неизвестных параметров

Аналогичное представление для ряда распределения Оценки неизвестных параметров должно иметь место и в дискретном случае. Семейство плотностей или рядов распределения такого вида носит название экспоненциального.

Экспоненциальные семейства играют в математической статистике важную роль. В частности, как мы показали, только для этих семейств могут существовать эффективные оценки, которые к тому же определяются формулой

Оценки неизвестных параметров

(появление множителя Оценки неизвестных параметров связано с неоднозначностью определения функций Оценки неизвестных параметров в представлении (7)). Однако следует помнить, что не для всякого экспоненциального семейства существует эффективная оценка (в принятом нами смысле), поскольку эффективная оценка по определению должна быть несмещенной, что, вообще говоря, нельзя сказать об оценке (8) в случае произвольного экспоненциального семейства. Впрочем, из тождества (1) вытекает весьма простой способ проверки несмещенности (8) непосредственно по Оценки неизвестных параметров заключающийся в выполнении равенства Оценки неизвестных параметров

Замечание:

Неравенство Рао-Крамера можно обобщить на случай смещенных оценок:

Оценки неизвестных параметров

И в этом случае неравенство превращается в равенство только тогда, когда семейство распределений экспоненциально.

Пример:

Рассмотрим оценку Оценки неизвестных параметров неизвестной вероятности успеха Оценки неизвестных параметров в схеме Бернулли из примера 1. Как показано в примере 7, эта оценка несмещенная. Дисперсия Оценки неизвестных параметров имеет вид

Оценки неизвестных параметров

Найдем информацию Фишера (напомним, что в данном случае наблюдаемая величина X принимает всего два значения 0 и 1 с вероятностями Оценки неизвестных параметров соответственно):

Оценки неизвестных параметров

Таким образом, Оценки неизвестных параметров и, значит, оценка Оценки неизвестных параметров эффективная.

Пример:

Рассмотрим оценку Оценки неизвестных параметров неизвестного среднего нормального закона из примера 2. Поскольку эта оценка представляет собой выборочное среднее, то в соответствии с результатами, полученными в примере 8, она является несмещенной. Найдем ее эффективность. Для этого прежде всего заметим, что

Оценки неизвестных параметров

Далее,

Оценки неизвестных параметров
Оценки неизвестных параметров

И в этом примере оценка Оценки неизвестных параметров является эффективной.

Пример:

Оценим неизвестную дисперсию Оценки неизвестных параметров нормального закона при известном среднем т. Плотность нормального распределения представима в виде

Оценки неизвестных параметров

где

Оценки неизвестных параметров

т.е. по отношению к неизвестной дисперсии Оценки неизвестных параметров принадлежит экспоненциальному семейству. Поэтому эффективная оценка Оценки неизвестных параметров дисперсии Оценки неизвестных параметров должна по формуле (8) иметь вид

Оценки неизвестных параметров

С другой стороны, нетрудно видеть, что Оценки неизвестных параметров откуда следует несмещенность оценки

Оценки неизвестных параметров

и, значит, ее эффективность. Впрочем, эффективность оценки Оценки неизвестных параметров легко установить и на основе неравенства Рао-Крамера.

Пусть теперь мы оцениваем не дисперсию, а среднее квадратичное отклонение Оценки неизвестных параметров И в этом случае имеет место представление (7), только теперь

Оценки неизвестных параметров

Поэтому равенство Оценки неизвестных параметров не превращается в тождество ни при каком выборе g, и, значит, эффективной (в смысле Рао-Крамера) оценки среднего квадратичного отклонения нормального закона не существует. Рассмотрим оценку

Оценки неизвестных параметров

равную корню квадратному из оценки дисперсии с точностью до постоянного множителя Оценки неизвестных параметров Читателю предлагается проверить, что оценка Оценки неизвестных параметров несмещенная. Кроме того, в следующем параграфе будет показано, что среди всех несмещенных оценок среднего квадратичного отклонения Оценки неизвестных параметров она имеет минимальную дисперсию (хотя и не является эффективной).

Пример:

Пусть выборка Оценки неизвестных параметров произведена из генеральной совокупности с равномерным на интервале Оценки неизвестных параметров теоретическим распределением. Оценим неизвестный параметр Оценки неизвестных параметров Обозначим через Оценки неизвестных параметров максимальный член вариационного ряда. В качестве оценки параметра Оценки неизвестных параметров возьмем

Оценки неизвестных параметров

Функция распределения Оценки неизвестных параметров статистики Оценки неизвестных параметров задается формулой

Оценки неизвестных параметров

Тогда

Оценки неизвестных параметров

Значит, оценка Оценки неизвестных параметров несмещенная. Далее,

Оценки неизвестных параметров

Мы видим, что дисперсия оценки Оценки неизвестных параметров при Оценки неизвестных параметров убывает, как Оценки неизвестных параметров Такая оценка оказалась более эффективной, поскольку дисперсия эффективной оценки убывает только, как 1 /п. Разгадка парадокса чрезвычайно проста: для данного семейства не выполнены условия регулярности, необходимые при доказательстве неравенства Рао-Крамера. Используя понятие достаточной статистики, в следующем параграфе мы докажем минимальность дисперсии данной оценки.

В заключение этого параграфа отметим, что эффективные по Рао-Крамеру оценки существуют крайне редко. Правда, как мы увидим в параграфе 4, эффективность по Рао-Крамеру играет существенную роль в асимптотическом анализе оценок, получаемых методом максимального правдоподобия. Кроме того, существуют обобщения неравенства Рао-Крамера (например, неравенство Бхаттачария [7]), позволяющие доказывать оптимальность более широкого класса оценок.

В следующем параграфе мы рассмотрим другой подход к определению оценок с минимальной дисперсией, базирующийся на достаточных статистиках.

Наиболее распространенные методы нахождения оценок приводятся в параграфах 3-6.

Наконец, в параграфе 7 описан подход к построению доверительных интервалов для неизвестных параметров.

Достаточные оценки

Первый шаг в поисках другого (не основанного на неравенстве Рао-Крамера) принципа построения оценок с минимальной дисперсией состоит во введении понятия достаточной статистики (отметим, что достаточные статистики играют в современной математической статистике весьма важную роль, причем как при оценке неизвестных
параметров, так и при проверке статистических гипотез). Назовем k-мерную статистику

Оценки неизвестных параметров

достаточной для параметра Оценки неизвестных параметров если условное распределение Оценки неизвестных параметров выборки Оценки неизвестных параметров при условии Оценки неизвестных параметров не зависит от параметра Оценки неизвестных параметров

Пример:

Пусть Оценки неизвестных параметров — число успехов в i-м испытании Бернулли (см. пример 1). Рассмотрим статистику

Оценки неизвестных параметров

— общее число успехов в п испытаниях Бернулли. Покажем, что она является достаточной для вероятности успеха Оценки неизвестных параметров Для этого найдем условное распределение Оценки неизвестных параметров Воспользовавшись определением условной вероятности, получаем

Оценки неизвестных параметров

Если Оценки неизвестных параметров то вероятность Оценки неизвестных параметров совпадает с вероятностью Оценки неизвестных параметров т.е.

Оценки неизвестных параметров

(напомним еще раз, что каждое Оценки неизвестных параметров может принимать здесь только значение О или 1, причем Оценки неизвестных параметров Поскольку вероятность Оценки неизвестных параметров определяется формулой Бернулли

Оценки неизвестных параметров

то из (9) получаем, что

Оценки неизвестных параметров

т. е. не зависит от Оценки неизвестных параметров Если же Оценки неизвестных параметров то

Оценки неизвестных параметров

откуда

Оценки неизвестных параметров

т. е. опять-таки не зависит от Оценки неизвестных параметров Таким образом, S — достаточная статистика.

Очевидно, что использовать приведенное выше определение для проверки достаточности конкретных статистик весьма сложно, особенно в непрерывном случае. Простой критерий достаточности задается следующей теоремой.

Теорема:

Факторизационная теорема Неймана-Фишера. Для того чтобы статистика Оценки неизвестных параметров была достаточной для параметра Оценки неизвестных параметров необходимо и достаточно, чтобы ряд распределения

Оценки неизвестных параметров

в дискретном случае или плотность распределения

Оценки неизвестных параметров

в непрерывном случае выборки Оценки неизвестных параметров были представимы в виде

Оценки неизвестных параметров

где функция Оценки неизвестных параметров зависит только от Оценки неизвестных параметров а функция Оценки неизвестных параметров — только от Оценки неизвестных параметров

Доказательство:

Для простоты изложения ограничимся только дискретным случаем. По определению условной вероятности,

Оценки неизвестных параметров

Очевидно, что числитель в правой части (II) совпадает с вероятностью Оценки неизвестных параметров в том случае, когда Оценки неизвестных параметров и равен нулю в противном. Поскольку событиями нулевой вероятности можно пренебречь, то ограничимся случаем Оценки неизвестных параметров и запишем (11) в виде

Оценки неизвестных параметров

Теперь, если S — достаточная статистика, то левая часть (12) не зависит от Оценки неизвестных параметров Обозначая ее через Оценки неизвестных параметров — через Оценки неизвестных параметров приходим к (10), что доказывает необходимость (10). И наоборот, пусть выполнено (10). Тогда

Оценки неизвестных параметров

Подставляя последнее равенство в (12), имеем

Оценки неизвестных параметров

т.е. не зависит от Оценки неизвестных параметров а значит, статистика S является достаточной.

Замечание к теореме 2. Очевидно, что представление (10) справедливо с точностью до функции Оценки неизвестных параметров зависящей только от Оценки неизвестных параметров

Пример:

Пусть Оценки неизвестных параметров — выборка из генеральной совокупности с теоретической функцией распределения, являющейся нормальной со средним Оценки неизвестных параметров и дисперсией Оценки неизвестных параметров Покажем, что (двумерная) статистика Оценки неизвестных параметров где

Оценки неизвестных параметров

является достаточной для (двумерного) параметра Оценки неизвестных параметров (см. также пример 3 из гл. 1). Действительно, плотность распределения Оценки неизвестных параметров выборки Оценки неизвестных параметров представима в виде

Оценки неизвестных параметров

т.е. имеет вид (10), где

Оценки неизвестных параметров

Пример:

Пусть Оценки неизвестных параметров — выборка из генеральной совокупности с равномерным на интервале Оценки неизвестных параметров теоретическим распределением (см. пример 13). Покажем, что максимальный член вариационного ряда

Оценки неизвестных параметров

является (одномерной) достаточной статистикой для Оценки неизвестных параметров Действительно, вспоминая, что плотность Оценки неизвестных параметров равномерно распределенной на интервале Оценки неизвестных параметров величины равна Оценки неизвестных параметров при Оценки неизвестных параметров и нулю в противном случае, получаем для плотности распределения выборки Оценки неизвестных параметров выражение

Оценки неизвестных параметров

В частности, область изменения каждого аргумента Оценки неизвестных параметров при отличной от нуля плотности распределения зависит от параметра Оценки неизвестных параметров Рассмотрим функцию

Оценки неизвестных параметров

и положим

Оценки неизвестных параметров

С учетом введенных функций.

Оценки неизвестных параметров

Здесь уже при определении функции Оценки неизвестных параметров сверху не наложено никаких ограничений, поскольку они автоматически ограничены своим максимальным значением S, которое в свою очередь не превосходит Оценки неизвестных параметров Но это означает, что функция Оценки неизвестных параметров не зависит от параметра Оценки неизвестных параметров и в соответствии с теоремой 2 статистика

Оценки неизвестных параметров

является достаточной для параметра Оценки неизвестных параметров

Пример:

Покажем, что для экспоненциального семейства (7) существует одномерная достаточная статистика. Этот факт легко установить, если подставить выражение (7) в формулу для плотности распределения выборки

Оценки неизвестных параметров

Полагая теперь

Оценки неизвестных параметров

видим, что одномерная статистика

Оценки неизвестных параметров

является достаточной для параметра Оценки неизвестных параметров

Как уже говорилось в гл. 1, смысл достаточной статистики S заключается в том, что она включает в себя всю ту информацию о неизвестном параметре Оценки неизвестных параметров которая содержится в исходной выборке Оценки неизвестных параметров Интуиция подсказывает нам: оценка с наименьшей дисперсией (если она существует) должна зависеть только от достаточной статистики S. И действительно, следующий наш шаг будет заключаться в переходе от произвольной оценки Оценки неизвестных параметров к оценке Оценки неизвестных параметров зависящей только от достаточной статистики S, причем этот переход совершится таким образом, чтобы дисперсия оценки Оценки неизвестных параметров не превосходила дисперсии исходной оценки Оценки неизвестных параметров

Начиная с этого момента и до конца параграфа будем для простоты предполагать, что неизвестный параметр Оценки неизвестных параметров является одномерным.

Пусть имеется некоторая оценка Оценки неизвестных параметровэтого параметра, а также (произвольная) статистика S. Рассмотрим условное математическое ожидание Оценки неизвестных параметров случайной величины Оценки неизвестных параметров при условии S (см. часть 1, гл. 7, параграф 5). Следующее утверждение, играющее основную роль в наших рассуждениях, было получено независимо Д. Блекуэлом, М.М. Рао и А.Н. Колмогоровым.

Теорема:

Улучшение оценки по достаточной статистике. Пусть S — достаточная статистика, а Оценки неизвестных параметров — несмещенная оценка параметра Оценки неизвестных параметровТогда условное математическое ожидание Оценки неизвестных параметров является несмещенной оценкой параметра Оценки неизвестных параметров зависящей только от достаточной статистики S и удовлетворяющей неравенству

Оценки неизвестных параметров

при всех Оценки неизвестных параметров

Доказательство:

В силу достаточности статистики 5 условное распределение, а значит, и условное математическое ожидание оценки Оценки неизвестных параметров при условии S не зависит от неизвестного параметра Оценки неизвестных параметров (для произвольной статистики S функция Оценки неизвестных параметров вообще говоря, может зависеть от т.е. Оценки неизвестных параметров представляет собой оценку параметра Оценки неизвестных параметров причем зависящую только от S. Далее, из равенства

Оценки неизвестных параметров

для условного математического ожидания немедленно следует несмещенность оценки Оценки неизвестных параметров

Наконец,

Оценки неизвестных параметров

Используя опять свойство условного математического ожидания, получаем

Оценки неизвестных параметров

Поэтому

Оценки неизвестных параметров

Замечание:

Неравенство (13) превращается для некоторого Оценки неизвестных параметров в равенство тогда и только тогда, когда Оценки неизвестных параметров (почти всюду по мере Оценки неизвестных параметров

Замечание:

Утверждение теоремы остается в силе и для смещенной оценки Оценки неизвестных параметров В частности, Оценки неизвестных параметров

Смысл теоремы 3 заключается в том, что взятие условного математического ожидания, т. е. переход к оценке Оценки неизвестных параметров зависящей только от достаточной статистики S, не ухудшает любую оценку Оценки неизвестных параметров при всех значениях неизвестного параметра Оценки неизвестных параметров

Пример:

Пусть Оценки неизвестных параметров — выборка из нормально распределенной генеральной совокупности с неизвестным средним Оценки неизвестных параметров и известной дисперсией Оценки неизвестных параметров В примере 9 было показано, что оценка Оценки неизвестных параметров даже не является состоятельной оценкой Оценки неизвестных параметров хотя она и несмещенная. Рассмотрим статистику

Оценки неизвестных параметров

Нетрудно показать, что статистика S является достаточной для параметра Оценки неизвестных параметров Поэтому мы можем определить новую оценку Оценки неизвестных параметров Для ее вычисления заметим, что величины Оценки неизвестных параметров имеют двумерное нормальное распределение со средними Оценки неизвестных параметров дисперсиями Оценки неизвестных параметров и ковариацией Оценки неизвестных параметров Но тогда, как известно из курса теории вероятностей, условное распределение Оценки неизвестных параметров при условии S = s также является нормальным со средним значением Оценки неизвестных параметров как раз и представляющим собой значение Оценки неизвестных параметров при S = s. Поскольку коэффициент корреляции Оценки неизвестных параметров то среднее значение условного распределения Оценки неизвестных параметров совпадает с s/n и окончательно получаем

Оценки неизвестных параметров

Иными словами, мы из совсем плохой оценки Оценки неизвестных параметров получили эффективную (см. пример 11) оценку Оценки неизвестных параметров

Рассмотренный пример приоткрывает нам те возможности, которые несет с собой теорема 3. Однако, прежде чем сделать последний шаг, введем еще одно определение. Назовем статистику Оценки неизвестных параметров полной для семейства распределений Оценки неизвестных параметров если из того, что

Оценки неизвестных параметров

при всех Оценки неизвестных параметров (мы для простоты предположили существование плотности распределения Оценки неизвестных параметров следует, что функция Оценки неизвестных параметров тождественно равна нулю. Теперь мы в состоянии сформулировать окончательный итог наших поисков.

Теорема:

Минимальность дисперсии оценки, зависящей от полной достаточной статистики. Пусть S — полная достаточная статистика, Оценки неизвестных параметров — несмещенная оценка неизвестного параметра Оценки неизвестных параметров Тогда

Оценки неизвестных параметров

является единственной несмещенной оценкой с минимальной дисперсией.

Доказательство теоремы немедленно вытекает из предыдущих результатов. Действительно, в силу теоремы 3 оценка с минимальной дисперсией обязательно должна находиться среди оценок, зависящих только от достаточной статистики S; в противном случае ее можно было бы улучшить с помощью условного математического ожидания. Но среди оценок, зависящих только от S, может быть максимум одна несмещенная. В самом деле, если таких оценок две: Оценки неизвестных параметров то функция

Оценки неизвестных параметров

имеет при всех значениях Оценки неизвестных параметров математическое ожидание

Оценки неизвестных параметров

что в силу полноты статистики S влечет за собой равенство Оценки неизвестных параметров нулю. Само же существование несмещенной оценки Оценки неизвестных параметров зависящей только от S, гарантируется существованием просто несмещенной оценки Оценки неизвестных параметров

Перейдем к обсуждению полученных результатов.

Условие полноты статистики S, как мы видим, сводится к единственности несмещенной оценки Оценки неизвестных параметров зависящей только от статистики S. Нам не известно общих теорем, которые давали бы простые правила проверки полноты произвольной статистики S. Однако, как мы увидим из примеров, в конкретных случаях кустарные способы обычно дают хорошие результаты.

Сравнение размерностей полной статистики S и оцениваемого параметра Оценки неизвестных параметров дает право говорить, что, как правило, статистика S должна иметь ту же размерность, что и Оценки неизвестных параметров а поскольку мы ограничились одномерным параметром Оценки неизвестных параметров то S также должна быть одномерной. Это приводит к следующим полезным определениям. Оценка Оценки неизвестных параметров называется достаточной, если она является достаточной как одномерная статистика. Аналогично, назовем оценку Оценки неизвестных параметров полной, если она является полной статистикой.

Сформулируем очевидное следствие из теоремы 4. которое удобно применять во многих частных случаях.

Следствие из теоремы 4. Если оценка Оценки неизвестных параметров несмещенная и зависит только от полной достаточной статистики S, то она имеет минимальную дисперсию.

Пример:

Пусть Оценки неизвестных параметров — выборка из генеральной совокупности, распределенной по нормальному закону с известным средним m и неизвестным средним квадратичным отклонением Оценки неизвестных параметров Нетрудно показать, что статистика

Оценки неизвестных параметров

является достаточной для параметра Оценки неизвестных параметров Покажем, что она также полная. Для этого вспомним (см. параграф 4 гл. 1), что случайная величина Оценки неизвестных параметров имеет Оценки неизвестных параметров-распределение с п степенями свободы, а значит, статистика Оценки неизвестных параметров имеет плотность распределения

Оценки неизвестных параметров

Пусть теперь Оценки неизвестных параметров — такая функция, что Оценки неизвестных параметров при всех Оценки неизвестных параметровПоложим

Оценки неизвестных параметров

Тогда

Оценки неизвестных параметров

что Оценки неизвестных параметров для всех Оценки неизвестных параметров Но из теории преобразований Лапласа известно, что в этом случае оригинал Оценки неизвестных параметров а значит, и функция Оценки неизвестных параметровтакже должны тождественно равняться нулю, что и доказывает полноту статистики S.

Рассмотрим теперь оценку

Оценки неизвестных параметров

(см. пример 12) неизвестного среднего квадратичного отклонения Оценки неизвестных параметров Эта оценка несмещенная и зависит только от полной достаточной статистики S. Поэтому по следствию из теоремы 4 она имеет минимальную дисперсию, хотя, как было показано в примере 12, и не является эффективной по Рао-Крамеру.

Пример:

Рассмотрим оценку

Оценки неизвестных параметров

параметра Оценки неизвестных параметров равномерного на интервале Оценки неизвестных параметров распределения (см. пример 13). В примере 13 показано, что эта оценка несмещенная. Статистика Оценки неизвестных параметров является достаточной (см. пример 16). Покажем, наконец, что — полная статистика. Действительно, для любой функции Оценки неизвестных параметров

Оценки неизвестных параметров

Отсюда, в частности, следует, что если Оценки неизвестных параметров при всех Оценки неизвестных параметров то

Оценки неизвестных параметров

при всех х. Поэтому Оценки неизвестных параметров и статистика Оценки неизвестных параметров полная.

Таким образом, в силу следствия из теоремы 4 и в этом примере оценка Оценки неизвестных параметров имеет минимальную дисперсию.

Метод моментов

Пусть мы имеем выборку Оценки неизвестных параметров из генеральной совокупности с теоретической функцией распределения F(x), принадлежащей k-параметрическому семейству Оценки неизвестных параметров с неизвестными параметрами Оценки неизвестных параметров которые нужно оценить. Поскольку нам известен вид теоретической функции распределения, мы можем вычислить первые k теоретических моментов. Эти моменты, разумеется, будут зависеть от k неизвестных параметров Оценки неизвестных параметров

Оценки неизвестных параметров

Суть метода моментов заключается в следующем: так как выборочные моменты являются состоятельными оценками теоретических моментов (см. пример 8), мы можем в написанной системе равенств при большом объеме выборки п теоретические моменты Оценки неизвестных параметров заменить на выборочные Оценки неизвестных параметров а затем, решая эту систему относительно Оценки неизвестных параметров найти оценки неизвестных параметров. Таким образом, в методе моментов оценки Оценки неизвестных параметров неизвестных параметров Оценки неизвестных параметров определяются из системы уравнений

Оценки неизвестных параметров

Можно показать, что при условии непрерывной зависимости решения этой системы от начальных условий Оценки неизвестных параметров оценки, полученные методом моментов, будут состоятельными. Более того, справедлива следующая теорема.

Теорема:

Асимптотическая нормальность оценок, полученных методом моментов. При некоторых условиях, наложенных на семейство Оценки неизвестных параметров совместное распределение случайных величин

Оценки неизвестных параметров

при Оценки неизвестных параметров сходится к (многомерному) нормальному закону с нулевыми средними и матрицей ковариаций, зависящей от теоретических моментов Оценки неизвестных параметров и матрицы Оценки неизвестных параметров

Доказательство:

Будем полагать, что выполнены следующие условия: а) параметры Оценки неизвестных параметров однозначно определяются своими моментами Оценки неизвестных параметров

б) существует теоретический момент Оценки неизвестных параметров порядка 2k (это эквивалентно существованию дисперсий у выборочных моментов Оценки неизвестных параметров

в) функция

Оценки неизвестных параметров

дифференцируема по Оценки неизвестных параметров с отличным от нуля якобианом Оценки неизвестных параметров

Доказательство теоремы проведем для одномерного случая, предоставляя общий случай читателю. Оно является комбинацией следующих результатов: теоремы о дифференцируемости обратного отображения и центральной предельной теоремы. Действительно, поскольку существует дисперсия DX, то при каждом истинном значении Оценки неизвестных параметров параметра Оценки неизвестных параметров в силу центральной предельной теоремы выборочное среднее

Оценки неизвестных параметров

асимптотически при Оценки неизвестных параметров распределено по нормальному закону с параметрами Оценки неизвестных параметров С другой стороны, сама оценка Оценки неизвестных параметров записывается в виде

Оценки неизвестных параметров

где Оценки неизвестных параметров — обратная к Оценки неизвестных параметров функция. В силу сделанных предположений обратное отображение Оценки неизвестных параметров в окрестности точки Оценки неизвестных параметров приближенно представляет собой линейную функцию

Оценки неизвестных параметров

причем Оценки неизвестных параметров Но тогда и случайная величина Оценки неизвестных параметров как приближенно линейное преобразование приближенно нормальной случайной величины Оценки неизвестных параметров распределена приближенно по нормальному закону со средним Оценки неизвестных параметров и дисперсией Оценки неизвестных параметров Это доказывает утверждение теоремы.

Пример:

Найдем методом моментов оценку неизвестной вероятности успеха Оценки неизвестных параметров в схеме Бернулли. Поскольку в схеме Бернулли только один неизвестный параметр, для его определения необходимо приравнять теоретическое математическое ожидание числа успехов в одном испытании Оценки неизвестных параметров выборочному среднему Оценки неизвестных параметров

Итак, оценка Оценки неизвестных параметров полученная методом моментов, представляет собой наблюденную частоту успехов. Свойства этой оценки были нами достаточно полно исследованы в примерах 1, 4, 7 и 10.

Пример:

Выборка Оценки неизвестных параметров произведена из генеральной совокупности с теоретической функцией распределения, имеющей гамма-плотность

Оценки неизвестных параметров

с двумя неизвестными параметрами Оценки неизвестных параметров Первые два момента случайной величины X, имеющей гамма-распределение, задаются формулами:

Оценки неизвестных параметров

Отсюда для определения оценок Оценки неизвестных параметров неизвестных параметров Оценки неизвестных параметров получаем систему двух уравнений:

Оценки неизвестных параметров

решение которой имеет вид

Оценки неизвестных параметров

Вообще говоря, в методе моментов не обязательно использовать первые k моментов. Более того, можно рассматривать моменты не обязательно целого порядка. Иногда для использования в методе моментов привлекают более или менее произвольные функции Оценки неизвестных параметров сравнивая выборочные средние

Оценки неизвестных параметров

функций Оценки неизвестных параметров с теоретическими средними

Оценки неизвестных параметров

Пример:

Пусть выборка Оценки неизвестных параметров произведена из нормальной генеральной совокупности с известным средним т и неизвестной дисперсией Оценки неизвестных параметров Попробуем для оценивания Оценки неизвестных параметров применить метод моментов, взяв выборочное среднее Оценки неизвестных параметров Но теоретическое среднее Оценки неизвестных параметров не зависит от параметра Оценки неизвестных параметров Это означает, что использование выборочного среднего для оценивания неизвестной дисперсии неправомочно и нужно привлекать моменты других порядков. В частности, применяя второй выборочный момент Оценки неизвестных параметров и вспоминая, что Оценки неизвестных параметров получаем оценку

Оценки неизвестных параметров

Следует отметить, что оценки, полученные методом моментов, обычно имеют эффективность существенно меньше единицы и даже являются смещенными. Иногда из-за своей простоты они используются в качестве начального приближения для нахождения более эффективных оценок.

Метод максимального правдоподобия

Метод максимального правдоподобия является наиболее распространенным методом нахождения оценок. Пусть по-прежнему выборка Оценки неизвестных параметров произведена из генеральной совокупности с неизвестной теоретической функцией распределения F(x), принадлежащей известному однопараметрическому семейству Оценки неизвестных параметров Функция

Оценки неизвестных параметров

в дискретном случае и

Оценки неизвестных параметров

в непрерывном называется функцией правдоподобия. Отметим,что в функции правдоподобия Оценки неизвестных параметров элементы выборки Оценки неизвестных параметров являются фиксированными параметрами, а Оценки неизвестных параметров— аргументом (а не истинным значением неизвестного параметра). Функция правдоподобия по своей сути представляет собой не что иное, как вероятность (в непрерывном случае плотность распределения) получить именно ту выборку Оценки неизвестных параметров которую мы реально имеем, если бы значение неизвестного параметра равнялось Оценки неизвестных параметров Естественно поэтому в качестве оценки неизвестного параметра Оценки неизвестных параметров выбрать Оценки неизвестных параметров доставляющее наибольшее значение функции правдоподобия Оценки неизвестных параметров Оценкой максимального правдоподобия называется такое значение Оценки неизвестных параметров для которого

Оценки неизвестных параметров

При практической реализации метода максимального правдоподобия удобно пользоваться не самой функцией правдоподобия, а ее логарифмом.

Уравнением правдоподобия называется уравнение

Оценки неизвестных параметров

Если функция правдоподобия дифференцируема по Оценки неизвестных параметров в каждой точке, то оценку максимального правдоподобия Оценки неизвестных параметров следует искать среди значений Оценки неизвестных параметров удовлетворяющих уравнению правдоподобия или принадлежащих границе области допустимых значений Оценки неизвестных параметров. Для наиболее важных семейств Оценки неизвестных параметров уравнение правдоподобия имеет единственное решение Оценки неизвестных параметров которое и является оценкой максимального правдоподобия.

Пример:

Найдем оценку неизвестной вероятности успеха Оценки неизвестных параметров в схеме Бернулли, но теперь уже в отличие от примера 21 методом максимального правдоподобия. Поскольку Оценки неизвестных параметров если X = 0, то функцию правдоподобия можно записать так:

Оценки неизвестных параметров

где Оценки неизвестных параметров — суммарное число успехов в п испытаниях. Тогда уравнение правдоподобия принимает вид

Оценки неизвестных параметров

Решая это уравнение, имеем

Оценки неизвестных параметров

Поскольку

Оценки неизвестных параметров

то Оценки неизвестных параметров представляет собой выпуклую вверх функцию Оценки неизвестных параметров Значит, Оценки неизвестных параметров доставляет максимум функции правдоподобия Оценки неизвестных параметров т.е. является оценкой максимального правдоподобия. Эта оценка представляет собой, как и в примере 21, наблюденную частоту успехов.

Оказывается, имеется тесная связь между эффективными оценками и оценками, полученными методом максимального правдоподобия. А именно, справедлива следующая теорема.

Теорема:

Совпадение эффективной оценки с оценкой максимального правдоподобия. Если (естественно, при условиях регулярности теоремы 1) существует эффективная оценка Оценки неизвестных параметров то она является оценкой максимального правдоподобия Оценки неизвестных параметров

Доказательство теоремы 6 представляет собой дальнейшее уточнение доказательства теоремы 1. Действительно, как следует из замечания 1 к теореме 1, из существования эффективной оценки Оценки неизвестных параметров вытекает (6) и (8) Оценки неизвестных параметров Отсюда и из (4) следует равенство

Оценки неизвестных параметров

Поэтому из условия строгой положительности информации I вытекает строгая положительность Оценки неизвестных параметров которая в свою очередь влечет за собой единственность решения

Оценки неизвестных параметров

уравнения правдоподобия

Оценки неизвестных параметров

Это решение совпадает с эффективной оценкой Оценки неизвестных параметров и задает единственный максимум функции правдоподобия Оценки неизвестных параметров

В общем случае оценка максимального правдоподобия может быть не только неэффективной, но и смещенной. Тем не менее она обладает свойством асимптотической эффективности в следующем смысле.

Теорема:

Асимптотическая эффективность оценки максимального правдоподобия. При некоторых условиях на семейство Оценки неизвестных параметров уравнение правдоподобия имеет решение, при Оценки неизвестных параметров асимптотически распределенное по нормальному закону со средним Оценки неизвестных параметров и дисперсией Оценки неизвестных параметров где I — информация Фишера.

Доказательство:

Сначала сформулируем условия теоремы (см. [9]), которые, как мы увидим далее, гарантируют возможность дифференцируемости под знаком интеграла и разложения Оценки неизвестных параметров в ряд Тейлора до первого члена:

а) для (почти) всех х существуют производные

Оценки неизвестных параметров

б) при всех Оценки неизвестных параметров справедливы неравенства

Оценки неизвестных параметров

где функции Оценки неизвестных параметров интегрируемы на Оценки неизвестных параметров причем M не зависит от Оценки неизвестных параметров

в) информация I конечна и положительна для всех Оценки неизвестных параметров

Обозначим через Оценки неизвестных параметров истинное значение неизвестного параметра Оценки неизвестных параметров В силу условий теоремы справедливо следующее разложение Оценки неизвестных параметров в окрестности Оценки неизвестных параметров

Оценки неизвестных параметров

причем Оценки неизвестных параметров Тогда после умножения на Оценки неизвестных параметров уравнение правдоподобия можно записать в виде

Оценки неизвестных параметров

где случайные величины Оценки неизвестных параметров определяются выражениями

Оценки неизвестных параметров

Рассмотрим поведение Оценки неизвестных параметров при больших п. Дифференцируя (1) по Оценки неизвестных параметров получаем

Оценки неизвестных параметров

Поэтому

Оценки неизвестных параметров

Вернемся к уравнению (14) и воспользуемся сначала тем фактом, что при Оценки неизвестных параметров в силу закона больших чисел Оценки неизвестных параметров причем, согласно условиям теоремы, Оценки неизвестных параметров Тогда можно показать, что уравнение (14) будет в некоторой окрестности Оценки неизвестных параметров иметь асимптотически единственное решение Оценки неизвестных параметровкоторое к тому же определяется приближенной формулой

Оценки неизвестных параметров

Величина Оценки неизвестных параметров по центральной предельной теореме, при Оценки неизвестных параметров имеет асимптотически нормальное распределение с нулевым средним и дисперсией Оценки неизвестных параметров

Поэтому оценка Оценки неизвестных параметров также асимптотически распределена по нормальному закону с параметрами Оценки неизвестных параметров

Замечание:

Доказанная теорема гарантирует, что среди всех решений уравнения правдоподобия существует по крайней мере одно Оценки неизвестных параметров обладающее свойством асимптотической эффективности в указанном смысле. Более того, такое решение асимптотически единственно в некоторой окрестности точки Оценки неизвестных параметров (т. е. вероятность того, что в этой окрестности имеется другое решение уравнения правдоподобия, с ростом п стремится к нулю) и именно оно доставляет локальный максимум функции правдоподобия в этой окрестности. Но с самого начала мы назвали оценкой максимального правдоподобия оценку, доставляющую глобальный максимум функции правдоподобия. Такая оценка, вообще говоря, может не совпадать с Оценки неизвестных параметров и даже быть неединственной. Однако если семейство распределений Оценки неизвестных параметров удовлетворяет естественному свойству разделимости, смысл которого сводится к тому, что для достаточно удаленных друг от друга Оценки неизвестных параметров распределения Оценки неизвестных параметров также достаточно хорошо отличаются друг от друга, то любая оценка максимального правдоподобия будет состоятельной, т.е. стремиться к оцениваемому параметру. Вкупе с доказанной теоремой это означает асимптотическую единственность оценки максимального правдоподобия и совпадение ее с Оценки неизвестных параметров что позволяет при асимптотическом анализе свойств оценки максимального правдоподобия говорить не об одном из решений уравнения правдоподобия или даже не об одной из оценок максимального правдоподобия, а просто об оценке максимального правдоподобия Оценки неизвестных параметровДетальный разбор этого явления можно найти в [И]. Там же показано, что для оценки близости распределений удобно использовать расстояние Кульбака-Лейблера

Оценки неизвестных параметров

поскольку в силу закона больших чисел именно к расстоянию Кульбака-Лейблера при Оценки неизвестных параметров сходится с точностью до знака, постоянной

здесь Оценки неизвестных параметров — аргумент функции правдоподобия, а Оценки неизвестных параметров — истинное значение неизвестного параметра.

В случае, когда семейство Оценки неизвестных параметров зависит от нескольких неизвестных параметров Оценки неизвестных параметров при использовании метода максимального правдоподобия нужно искать максимум функции правдоподобия или ее логарифма по k аргументам Оценки неизвестных параметров Уравнение правдоподобия превращается в систему уравнений

Оценки неизвестных параметров

Пример:

Выборка Оценки неизвестных параметров произведена из нормальной генеральной совокупности с неизвестными параметрами Оценки неизвестных параметров (среднее) и Оценки неизвестных параметров (дисперсия). Найдем их оценки Оценки неизвестных параметров методом максимального правдоподобия. Логарифм функции правдоподобия задается формулой

Оценки неизвестных параметров

Система уравнений правдоподобия имеет вид

Оценки неизвестных параметров

Таким образом,

Оценки неизвестных параметров

Читателю предлагается самостоятельно показать, что Оценки неизвестных параметровдоставляют максимум функции правдоподобия Оценки неизвестных параметровОценки Оценки неизвестных параметров параметров Оценки неизвестных параметров совпадают с выборочным средним Оценки неизвестных параметров и выборочной дисперсией Оценки неизвестных параметров Отметим, что оценка Оценки неизвестных параметров неизвестного математического ожидания Оценки неизвестных параметров является эффективной (см. пример 11), чего нельзя сказать об оценке Оценки неизвестных параметров неизвестной дисперсии Оценки неизвестных параметров которая, как мы знаем, является даже смещенной.

Оказывается, однако, что если мы в качестве оценки параметра Оценки неизвестных параметров рассмотрим выборочную дисперсию Оценки неизвестных параметров то эта оценка будет уже не только несмещенной, но и иметь минимальную дисперсию среди всех несмещенных оценок параметра Оценки неизвестных параметров Последний факт вытекает из неравенства Бхаттачария [7], обобщающего неравенство Рао-Крамера, а также может быть установлен из свойств многомерных достаточных оценок [11].

Метод минимального расстояния

Суть этого метода заключается в следующем. Предположим, что любым двум функциям распределения Оценки неизвестных параметров поставлено в соответствие число

Оценки неизвестных параметров

называемое расстоянием, причем Оценки неизвестных параметров Пусть теперь, как обычно, задана выборка Оценки неизвестных параметров из генеральной совокупности с теоретической функцией распределения F(x), принадлежащей параметрическому семейству Оценки неизвестных параметров Вычислим расстояние между эмпирической функцией распределения Оценки неизвестных параметров и функциями распределения Оценки неизвестных параметров из данного семейства. Оценкой, полученной методом минимального расстояния, называется такое значение Оценки неизвестных параметров для которого

Оценки неизвестных параметров

т. е. такое значение Оценки неизвестных параметров которое определяет ближайшую к Оценки неизвестных параметров в смысле расстояния р функцию распределения из семейства Оценки неизвестных параметров

Приведем примеры некоторых наиболее часто встречающихся в математической статистике расстояний.

Равномерное расстояние (расстояние Колмогорова) определяется формулой

Оценки неизвестных параметров

Расстояние Оценки неизвестных параметров имеет вид

Оценки неизвестных параметров

Расстояние Оценки неизвестных параметров употребляется для функций распределения Оценки неизвестных параметров дискретных случайных величин Оценки неизвестных параметров принимающих одинаковые значения Оценки неизвестных параметров и задается выражением

Оценки неизвестных параметров

где вероятности Оценки неизвестных параметров определяются рядами распределения случайных величин Оценки неизвестных параметров

Использование приведенных выше расстояний для получения оценок весьма сложно в вычислительном плане, и поэтому они употребляются крайне редко. Здесь мы упомянули об этих расстояниях только потому, что применение оценок, полученных с их помощью, позволяет упростить вычисление уровней значимости критериев при проверке сложных непараметрических статистических гипотез, поскольку такие оценки естественным образом связаны с соответствующими критериями (см. параграф 5 гл. 3).

Метод номограмм

Еще одним методом, позволяющим, пользуясь только номограммами (специальным образом разлинованными листами бумаги, которые в математической статистике носят название вероятностной бумаги), весьма просто и быстро оценить неизвестные параметры, является метод номограмм. Его сущность состоит в следующем. Пусть мы имеем выборку Оценки неизвестных параметров из генеральной совокупности с неизвестной теоретической функцией распределения, принадлежащей двухпараметрическому семейству Оценки неизвестных параметров Предположим теперь, что каким-то чрезвычайно простым способом удалось построить функцию распределения Оценки неизвестных параметров из семейства Оценки неизвестных параметров достаточно хорошо приближающую эмпирическую функцию распределения Оценки неизвестных параметров Тогда Оценки неизвестных параметров будут являться оценками неизвестных параметров Оценки неизвестных параметров причем в силу теоремы Гливенко-Кантелли состоятельными при весьма слабых условиях, накладываемых на семейство Оценки неизвестных параметров

Казалось бы, мы пришли к не менее сложной задаче: найти «чрезвычайно простой» способ приближения эмпирической функции распределения функцией распределения из семейства Оценки неизвестных параметров Оказывается, однако, что графики функций распределения тех семейств Оценки неизвестных параметров в которых Оценки неизвестных параметров по сути дела, связаны с параметрами «сдвига» и «масштаба» (к таким семействам относятся, например, нормальное, логнормальное и т.д.), можно с помощью некоторых нелинейных преобразований координат превратить в семейство прямых линий. Тогда, построив в этих новых координатах график эмпирической функции распределения Оценки неизвестных параметров нетрудно визуально провести прямую, которая достаточно хорошо приближает Оценки неизвестных параметров а затем уже по коэффициентам проведенной прямой найти оценки Оценки неизвестных параметров и неизвестных параметров Оценки неизвестных параметров

Практическая реализация метода номограмм происходит следующим образом. Сначала выборку Оценки неизвестных параметров преобразуют в вариационный ряд Оценки неизвестных параметров и на номограмме для соответствующего семейства Оценки неизвестных параметров откладывают точки Оценки неизвестных параметров с координатами Оценки неизвестных параметров абсциссы которых Оценки неизвестных параметров представляют собой точки скачков эмпирической функции распределения Оценки неизвестных параметров а ординаты Оценки неизвестных параметров— середины этих скачков. Затем «на глаз» проводят прямую линию, проходящую как можно ближе ко всем точкам Оценки неизвестных параметров Наконец, с помощью пояснений к номограмме по коэффициентам прямой находят оценки Оценки неизвестных параметров неизвестных параметров Оценки неизвестных параметров

Пример 26. Предполагая в примере 1 из гл. 1, что проекция вектора скорости молекул водорода распределена по нормальному закону, оценим с помощью метода номограмм неизвестное математическое ожидание Оценки неизвестных параметров и дисперсию Оценки неизвестных параметров Воспользовавшись вариационным рядом выборки, найдем координаты точек Оценки неизвестных параметров (табл.3). Отложим точки Оценки неизвестных параметров на номограмме для нормального распределения (на нормальной вероятностной бумаге) и проведем «на глаз» прямую А, задаваемую уравнением Оценки неизвестных параметров (рис. 1).

Оценки неизвестных параметров

Оценка Оценки неизвестных параметров математического ожидания Оценки неизвестных параметров совпадает с точкой пересечения прямой А с осью абсцисс, т. е. Оценки неизвестных параметров Для того чтобы найти оценку дисперсии Оценки неизвестных параметров определим значение коэффициента Оценки неизвестных параметров Тогда Оценки неизвестных параметров Для сравнения приведем значения оценок этих же параметров, полученные методом максимального

Оценки неизвестных параметров

правдоподобия (см. пример 18, а также пример 8 из гл. 1): Оценки неизвестных параметровОценки неизвестных параметров Как видим, оценки весьма близки.

Следует отметить, что с помощью метода номограмм можно судить также о правильности выбора семейства Оценки неизвестных параметровДействительно, по множеству точек Оценки неизвестных параметров сразу видно, группируются они вокруг некоторой прямой или нет. Если нет, то возникают серьезные сомнения в принадлежности теоретического распределения F(x) семейству Оценки неизвестных параметров

Доверительные интервалы

Полученные в предыдущих параграфах оценки неизвестных параметров естественно называть точечными, поскольку они оценивают неизвестный параметр одним числом или точкой. Однако, как мы знаем, точечная оценка не совпадает с оцениваемым параметром и более разумно было бы указывать те допустимые границы, в которых может находиться неизвестный параметр Оценки неизвестных параметров при наблюденной выборке Оценки неизвестных параметров К сожалению, в подавляющем большинстве важных для практики случаев при любой выборке Оценки неизвестных параметров достоверная область, в которой может находиться неизвестный параметр Оценки неизвестных параметров совпадает со всей возможной областью изменения этого параметра, поскольку такую выборку мы можем получить с ненулевой вероятностью (или плотностью распределения) при каждом значении Оценки неизвестных параметров Поэтому приходится ограничиваться нахождением границ изменения неизвестного параметра с некоторой наперед заданной степенью доверия или доверительной вероятностью.

Доверительной вероятностью назовем такую вероятность Оценки неизвестных параметров что событие вероятности Оценки неизвестных параметров можно считать невозможным. Разумеется, выбор доверительной вероятности полностью зависит от исследователя, причем во внимание принимаются не только его личные наклонности, но и физическая суть рассматриваемого явления. Так, степень доверия авиапассажира к надежности самолета, несомненно, должна быть выше степени доверия покупателя к надежности электрической лампочки. В математической статистике обычно используют значения доверительной вероятности 0,9, 0,95, 0,99, реже 0,999, 0,9999 и т. д.

Задавшись доверительной вероятностью Оценки неизвестных параметров мы уже можем по выборке Оценки неизвестных параметров определить интервал Оценки неизвестных параметров в котором будет находиться неизвестный параметр Оценки неизвестных параметров Такой интервал называется доверительным интервалом (иногда также говорят «интервальная оценка») доверительной вероятности Оценки неизвестных параметров для неизвестного параметра Оценки неизвестных параметров Отметим, что доверительная вероятность а ни в коей мере не является вероятностью неизвестному параметру Оценки неизвестных параметров принадлежать доверительному интервалу Оценки неизвестных параметров поскольку, как мы предположили с самого начала, априорные сведения о параметре Оценки неизвестных параметров в частности о его распределении, отсутствуют. Когда говорят, что неизвестный параметр не может выйти за границу доверительного интервала Оценки неизвестных параметров констатируют только, что если при любом истинном значении Оценки неизвестных параметров в результате эксперимента получена выборка Оценки неизвестных параметров а затем по ней построен доверительный интервал Оценки неизвестных параметров то этот интервал с вероятностью Оценки неизвестных параметров накроет значение Оценки неизвестных параметров

Доверительные интервалы определим, следуя Ю. Нейману, опираясь на точечные оценки. По заданной оценке Оценки неизвестных параметров доверительные интервалы доверительной вероятности а можно построить различными способами. На практике обычно используют два типа доверительных интервалов: симметричные и односторонние. Ограничимся описанием процедуры построения симметричных доверительных интервалов. Односторонние доверительные интервалы находятся совершенно аналогично.

Итак, пусть у нас имеется выборка Оценки неизвестных параметров из генеральной совокупности с неизвестной теоретической функцией распределения F(x), принадлежащей однопараметрическому семейству Оценки неизвестных параметров Предположим также, что нами выбрана некоторая оценка Оценки неизвестных параметров по которой мы хотим построить симметричный доверительный интервал доверительной вероятности Оценки неизвестных параметров Для этого возьмем произвольное значение Оценки неизвестных параметров и найдем функцию распределения Оценки неизвестных параметров оценки Оценки неизвестных параметров Определим Оценки неизвестных параметров и Оценки неизвестных параметров из решения уравнений (см. рис. 2):

Оценки неизвестных параметров

(напомним, что Оценки неизвестных параметров носят название Оценки неизвестных параметров-квантилей функции распределения Оценки неизвестных параметров Таким образом, при заданном Оценки неизвестных параметров оценка Оценки неизвестных параметров будет с вероятностью Оценки неизвестных параметров заключена в интервале Оценки неизвестных параметров причем вероятность попадания Оценки неизвестных параметров как влево, так и вправо от интервала Оценки неизвестных параметров имеет одно и то же значение Оценки неизвестных параметров (отсюда происходит название «симметричный»). Откладывая теперь на графике рис. 3 по оси абсцисс значение параметра Оценки неизвестных параметров а по оси ординат — соответствующие ему значения Оценки неизвестных параметров получим кривые Оценки неизвестных параметров В силу принципа невозможности события, происходящего с вероятностью 1 — а, заключаем, что все возможные пары Оценки неизвестных параметров могут находиться только внутри области G между кривыми Оценки неизвестных параметров Для окончания построения доверительного интервала остается заметить, что, получив по выборке Оценки неизвестных параметров оценку Оценки неизвестных параметров мы вправе сделать вывод: неизвестный параметр Оценки неизвестных параметров в обязан лежать внутри интервала где Оценки неизвестных параметров определяются из решения уравнений

Оценки неизвестных параметров

Именно интервал Оценки неизвестных параметров и является симметричным доверительным интервалом доверительной вероятности Оценки неизвестных параметров

Оценки неизвестных параметров

Пример 27. Построим симметричный доверительный интервал доверительной вероятности а для неизвестной вероятности успеха Оценки неизвестных параметров в схеме Бернулли. Естественно в качестве оценки Оценки неизвестных параметров взять наблюденную частоту

Оценки неизвестных параметров

где Оценки неизвестных параметров — суммарное наблюденное число успехов (см. пример 24).

При малом объеме выборки п процедура построения доверительных интервалов трудоемка, поскольку она практически сводится к перебору значений неизвестного параметра. Поэтому существуют специальные таблицы (см. [1], табл. 5.2), которые по наблюденным значениям числа успехов Оценки неизвестных параметров и числа неудач Оценки неизвестных параметров дают границы доверительного интервала доверительной вероятности а.

Оценки неизвестных параметров

При больших объемах выборки п пользуются тем фактом, что в силу интегральной теоремы Муавра-Лапласа оценка Оценки неизвестных параметров распределена приближенно по нормальному закону со средним Оценки неизвестных параметров и дисперсией Оценки неизвестных параметров Тогда решения уравнений

Оценки неизвестных параметров

связаны с Оценки неизвестных параметров-квантилями Оценки неизвестных параметров (см. [1], табл. 1.3) стандартного нормального закона формулами

Оценки неизвестных параметров

Учитывая, что Оценки неизвестных параметров уравнения кривых Оценки неизвестных параметров можно записать в единой эквивалентной форме

Оценки неизвестных параметров

Последнее уравнение, как нетрудно видеть, представляет собой уравнение эллипса (рис. 4) (физически непонятный выход эллипса за полосу Оценки неизвестных параметров связан с тем, что при Оценки неизвестных параметров близких к нулю или единице, необходимо в соответствии с теоремой Пуассона использовать не нормальную, а пуассоновскую аппроксимацию оценки Оценки неизвестных параметров Уравнение для определения границ Оценки неизвестных параметровдоверительного интервала имеет вид

Оценки неизвестных параметров

откуда окончательно получаем

Оценки неизвестных параметров

Пример:

Построим симметричный доверительный интервал доверительной вероятности а для неизвестного среднего Оценки неизвестных параметров нормального закона при известной дисперсии Оценки неизвестных параметров Эффективной оценкой Оценки неизвестных параметров параметра Оценки неизвестных параметров как мы знаем (пример 18), является выборочное среднее

Оценки неизвестных параметров

Оценка Оценки неизвестных параметров также распределена по нормальному закону с параметрами Оценки неизвестных параметров Поэтому

Оценки неизвестных параметров

т.е. Оценки неизвестных параметров представляют собой уравнения двух параллельных прямых (рис. 5). Решая уравнения получаем границы доверительного интервала Оценки неизвестных параметровили, учитывая, что Оценки неизвестных параметров

Оценки неизвестных параметров

Пример:

Как и в предыдущем примере, предположим, что выборка Оценки неизвестных параметров произведена из нормальной генеральной совокупности, но с неизвестной дисперсией Оценки неизвестных параметров а среднее известно и равно т. В качестве оценки Оценки неизвестных параметров неизвестной дисперсии Оценки неизвестных параметров возьмем выборочную дисперсию

Оценки неизвестных параметров

Тогда случайная величина Оценки неизвестных параметров будет иметь Оценки неизвестных параметров-распределение с п степенями свободы, а значит, решения уравнений

Оценки неизвестных параметров

определяются формулами

Оценки неизвестных параметров

где Оценки неизвестных параметров— а-квантиль Оценки неизвестных параметров-распределения с п степенями свободы (см. [1], табл. 2.26). Уравнения

Оценки неизвестных параметров

представляют собой уравнения двух лучей, исходящих из начала координат (рис.6), и, значит, границы симметричного доверительного интервала доверительной вероятности а для неизвестной дисперсии Оценки неизвестных параметров задаются формулами

Оценки неизвестных параметров

Пример:

Рассмотрим, наконец, случай, когда в выборке из нормальной генеральной совокупности неизвестны оба параметра: среднее Оценки неизвестных параметров и дисперсия Оценки неизвестных параметров В качестве их оценок воспользуемся выборочным средним

Оценки неизвестных параметров

и выборочной дисперсией

Оценки неизвестных параметров

(см. пример 25).

Построение доверительного интервала Оценки неизвестных параметров для неизвестного среднего начнем с определения случайной величины

Оценки неизвестных параметров

которая, как говорилось в параграфе 4 гл. 1, имеет t-распределение с п — 1 степенями свободы. Обозначим через Оценки неизвестных параметров-квантили t-распределения (см. [1], табл. 3.2). Тогда значение оценки среднего с вероятностью а будет лежать в пределах

Оценки неизвестных параметров

Продолжая рассуждения, как и в случае известной дисперсии, и учитывая равенство Оценки неизвестных параметров получаем окончательные выражения для границ Оценки неизвестных параметров симметричного доверительного интервала доверительной вероятности a:

Оценки неизвестных параметров

Доверительный интервал Оценки неизвестных параметров доверительной вероятности а для неизвестной дисперсии Оценки неизвестных параметров строится точно так же, как и в примере 29:

Оценки неизвестных параметров

При этом нужно учитывать, что квантили Оценки неизвестных параметров берутся для Оценки неизвестных параметров-распределения с Оценки неизвестных параметров степенями свободы, поскольку одна степень свободы уходит на определение неизвестного среднего Оценки неизвестных параметров

В заключение отметим, что в современной математической статистике доверительные интервалы строят так же, основываясь на критериях значимости.

Решение заданий и задач по предметам:

  • Теория вероятностей
  • Математическая статистика

Дополнительные лекции по теории вероятностей:

  1. Случайные события и их вероятности
  2. Случайные величины
  3. Функции случайных величин
  4. Числовые характеристики случайных величин
  5. Законы больших чисел
  6. Статистические оценки
  7. Статистическая проверка гипотез
  8. Статистическое исследование зависимостей
  9. Теории игр
  10. Вероятность события
  11. Теорема умножения вероятностей
  12. Формула полной вероятности
  13. Теорема о повторении опытов
  14. Нормальный закон распределения
  15. Определение законов распределения случайных величин на основе опытных данных
  16. Системы случайных величин
  17. Нормальный закон распределения для системы случайных величин
  18. Вероятностное пространство
  19. Классическое определение вероятности
  20. Геометрическая вероятность
  21. Условная вероятность
  22. Схема Бернулли
  23. Многомерные случайные величины
  24. Предельные теоремы теории вероятностей
  25. Генеральная совокупность

Непрерывные распределения вероятностей и их параметры

  1. Общие свойства непрерывного распределения
  2. Функция распределения непрерывной случайной величины
  3. Числовые характеристики непрерывного распределения
  4. Таблица непрерывных распределений, их параметров и числовых характеристик
  5. Примеры

п.1. Общие свойства непрерывного распределения

Если случайная величина x может принимать любые значения в интервале (a;b), она называется непрерывной случайной величиной.
Функция (p(x)) от значения случайной величины, равная вероятности получения этого значения в испытании, называется плотностью распределения.
Свойства плотности распределения: begin{gather*} p(x)geq 0\ int_{-infty}^{+infty}p(x)dx=1 text{(условие нормировки)} end{gather*}

Например:
Пусть случайная величина равномерно распределена на отрезке (xin [a;b]), т.е. (p(x)=c=const). Из условия нормировки получаем: $$ int_{-infty}^{+infty}p(x)dx=int_{a}^{b}ccdot dx=ccdot x|_{a}^{b}=c(b-a)=1Rightarrow c=frac{1}{b-a} $$ Плотность равномерного непрерывного распределения: $$ p(x)= begin{cases} frac{1}{b-a}, xin [a;b]\ 0, xnotin [a;b] end{cases} $$

п.2. Функция распределения непрерывной случайной величины

Функцией распределения непрерывной случайной величины называют функцию, которая определяет вероятность, что значение случайной величины x не превышает граничное значение t: $$ F(t)=P(xleq t)=int_{-infty}^t p(x)dx $$ Вероятность для случайной величины попасть в интервал (cleq xleq d) определяется интегралом от плотности вероятности: $$ P(cleq xleq d)=int_{c}^d p(x)dx=F(d)-F(c) $$ и равна разности значений функции распределения на концах интервала.

Для непрерывной случайной величины график (F(x)) является монотонно возрастающей гладкой кривой. Область значений (F(x)in [0;1]).
Предел (F(x)) слева равен 0, предел справа равен 1: $$ lim_{xrightarrow -infty}F(x)=0; lim_{xrightarrow +infty}F(x)=1 $$ Например:
Найдем функцию распределения для равномерного распределения с плотностью: $$ p(x)= begin{cases} frac{1}{b-a}, xin [a;b]\ 0, xnotin [a;b] end{cases} $$ Для всех (xlt a) $$ F(x)=int_{-infty}^a p(x)dx=int_{-infty}^acdot dx=0 $$ Для всех (aleq xleq b) begin{gather*} F(t)=0+int_{a}^t p(x)dx=int_{a}^tfrac{1}{b-a}cdot dx=frac{1}{b-a}cdot x|_{a}^t=frac{t-a}{b-a}\ F(x)=frac{x-a}{b-a} end{gather*} Для всех (xgt b) begin{gather*} F(x)=F(b)+int_{b}^{+infty} p(x)dx=1+0=1 end{gather*} Получаем: $$ F(x)= begin{cases} 0, xlt a\ frac{x-a}{b-a}, xin [a;b]\ 1, xgt b end{cases} $$ Графики плотности распределения и функции распределения для равномерно распределенной непрерывной величины:
Функция распределения непрерывной случайной величины

п.3. Числовые характеристики непрерывного распределения

Числовыми характеристиками непрерывного распределения являются математическое ожидание, дисперсия и среднее квадратичное отклонение (СКО).
Если для дискретных распределений числовые характеристики определяются через суммы (см. §62 данного справочника), то для непрерывных распределений для этого используются интегралы.

Математическое ожидание непрерывной случайной величины (x) с плотностью распределения (p(x)) равно интегралу: $$ M(X)=int_{-infty}^{+infty}xcdot p(x)dx $$

Дисперсия непрерывной случайной величины (x) с плотностью распределения (p(x)) равна интегралу: $$ D(X)=int_{-infty}^{+infty}(x-M(x))^2cdot p(x)dx=int_{-infty}^{+infty}x^2cdot p(x)dx-M^2(x) $$

Среднее квадратичное отклонение (СКО) непрерывной случайной величины – это корень квадратный от дисперсии: $$ sigma(X)=sqrt{D(X)} $$

Например:
Найдем числовые характеристики равномерного распределения. $$ p(x)= begin{cases} frac{1}{b-a}, xin [a;b]\ 0, xnotin [a;b] end{cases} $$ Мат. ожидание: begin{gather*} M(x)=int_{-infty}^{+infty} xcdot p(x)dx=int_{a}^{b} xcdotfrac{1}{b-a}dx=frac{1}{b-a}cdotfrac{x^2}{2}|_{a}^{b}=frac{b^2-a^2}{2(b-a)}=\ =frac{(b-a)(b+a)}{2(b-a)}=frac{a+b}{2} end{gather*} Т.е., среднее значение (центр тяжести) равномерного распределения – это середина отрезка.
Дисперсия: begin{gather*} D(x)=D(X)=int_{-infty}^{+infty}x^2cdot p(x)dx-M^2(x)=D(X)=int_{a}^{b}x^2cdotfrac{1}{b-a}dx-left(frac{a+b}{2}right)^2=\ =frac{1}{b-a}cdotfrac{x^3}{3}|_{a}^{b}-left(frac{a+b}{2}right)^2=frac{b^3-a^3}{3(b-a)}-frac{b^3-a^3}{3(b-a)}-frac{(a+b)^2}{4}=frac{a^2+ab+b^2}{3}-frac{a^2+2ab+b^2}{4}=\ =frac{a^2-2ab+b^2}{12}=frac{(b-a)^2}{12} end{gather*} СКО: $$ sigma(x)=sqrt{D(x)}=frac{b-a}{2sqrt{3}} $$

п.4. Таблица непрерывных распределений, их параметров и числовых характеристик

Название Принятое
обозначение
Плотность
распределения
Мат.
ожидание
Дисперсия
Непрерывное равномерное (U(a,b)) begin{gather*} p(x)=frac{1}{b-a}\ xinleft[a;bright] end{gather*} (frac{a+b}{2}) (frac{(b-a)^2}{12})
Нормальное (Гаусса) (N(mu,sigma^2)) begin{gather*} p(x)=frac{1}{sqrt{2pisigma^2}}e^{-frac{(x-mu)^2}{2sigma^2}}\ xinmathbb{R} end{gather*} (mu) (sigma^2)
Экспоненциальное (Exp(lambda)) begin{gather*} p(x)=lambda e^{-lambda x}\ lambdagt 0, xgeq 0 end{gather*} (frac1lambda) (frac{1}{lambda^2})

п.5. Примеры

Пример 1. Непрерывная случайная величина x задана плотностью распределения: $$ p(x)= begin{cases} Ax^2, xin [0;2]\ 0, xnotin [0;2] end{cases} $$ Найдите множитель A, функцию распределения, мат. ожидание, дисперсию и СКО случайной величины x. Постройте графики плотности распределения и функции распределения. Чему равна вероятность, что случайная величина окажется в интервале (frac12leq xleq 1)?

Находим множитель A из условия нормировки: begin{gather*} int_{-infty}^{+infty}p(x)dx=int_{0}^{2}Ax^2dx=1\ Acdotfrac{x^3}{3}|_{0}^{2}=frac{A}{3}(2^3-0)=frac{8A}{3}=1Rightarrow A=frac38\ p(x)= begin{cases} frac38 x^2, xin [0;2]\ 0, xnotin [0;2] end{cases} end{gather*} График плотности распределения:
Пример 1
Функция распределения (F(x)) для (xlt 0) равна 0, для (xgt 2) равна 1.
Найдем (F(x)) в интервале (xinleft[0;2right]): begin{gather*} F(t)=int_{0}^{t}p(x)dx=frac38int_{0}^{t}x^2dx=frac38cdotfrac{x^3}{3}|_{0}^{t}=frac{t^3}{8}Rightarrow F(x)=frac{x^3}{8}\ F(x)= begin{cases} 0, xlt 0\ frac{x^3}{8}, xin [0;2]\ 1, xgt 2 end{cases} end{gather*} График функции распределения:
Пример 1
Найдем математическое ожидание: begin{gather*} M(x)=int_{-infty}^{+infty}xcdot p(x)dx=int_{0}^{2}xcdotfrac38 x^2dx=frac38int_{0}^{2}x^3dx=frac38cdotfrac{x^4}{4}|_{0}^{2}=frac{3}{32}cdot 2^4=1,5 end{gather*} Найдем дисперсию: begin{gather*} D(x)=int_{-infty}^{+infty}x^2cdot p(x)dx-M^2(x)=int_{0}^{2}x^2cdotfrac38 x^2dx-1,5^2=frac38int_{0}^{2}x^4dx-1,5^2=\ =frac38cdotfrac{x^5}{5}|_{0}^{2}-1,5^2=frac{3}{40}cdot 2^5-1,5^2=2,4-2,25=0,15 end{gather*} Найдем СКО: $$ sigma(x)=sqrt{D(x)}=sqrt{0,15}approx 0,387 $$ Вероятность для x оказаться в интервале (frac12leq xleq 1) равна: $$ Pleft(frac12leq xleq 1right)=F(1)-Fleft(frac12right)=frac{1^3}{8}-frac{left(frac12right)^3}{8}=frac{7}{64} $$

Пример 2. Непрерывная случайная величина x задана функцией распределения: $$ F(x)= begin{cases} 0, xlt c\ frac{(x+2)^2}{4}, cleq xleq d\ 1, xgt d end{cases} $$ Найдите границы интервала c и d, плотность распределения, мат. ожидание, дисперсию и СКО случайной величины x. Постройте графики плотности распределения и функции распределения. Чему равна вероятность, что случайная величина окажется в интервале (-1leq xleq -frac12)

Границы интервала ищем из условий: begin{gather*} F(c)=frac{(c+2)^2}{4}=0Rightarrow c=-2\ F(d)=frac{(d+2)^2}{4}=1Rightarrow d=0 end{gather*} Получаем: begin{gather*} F(x)= begin{cases} 0, xlt -2\ frac{(x+2)^2}{4}, -2leq xleq 0\ 1, xgt 0 end{cases} end{gather*} График функции распределения:
Пример 2
Плотность распределения равна производной от функции распределения: $$ p(x)=F'(x) $$ Для (xlt -2cup xgt 0) получим (p(x)=0), т.к. производная от постоянной равна 0.
На значащем интервале: $$ p(x)=left(frac{(x+2)^2}{4}right)=frac{2(x+2)}{4}=frac{x+2}{2} $$ Получаем: begin{gather*} p(x)= begin{cases} frac{x+2}{2}, -2leq xleq 0\ 0, xlt -2cup xgt 0 end{cases} end{gather*} График плотности распределения:
Пример 2
Найдем математическое ожидание: begin{gather*} M(x)=int_{-infty}^{+infty}xcdot p(x)dx=int_{-2}^{0}xcdotfrac{x+2}{2}dx=frac12int_{-2}^{0}(x^2+2x)dx=frac12cdotleft(frac{x^3}{3}+x^2right)|_{-2}^{0}=\ =frac12left(0-left(frac{-8}{3}+4right)right)=-frac23 end{gather*} Найдем дисперсию: begin{gather*} D(x)=int_{-infty}^{+infty}x^2cdot p(x)dx-M^2(x)=int_{-2}^{0}x^2cdotfrac{x+2}{2}dx-left(-frac23right)^2=\ =frac12int_{-2}^{0}(x^3+2x^2)dx-frac49=frac12cdotleft(frac{x^4}{4}+frac{2x^3}{3}right)|_{-2}^{0}-frac49=frac12left(0-left(frac{16}{4}-frac{2cdot 8}{3}right)right)-frac49=\ =frac23-frac49=frac29 end{gather*} Найдем СКО: $$ sigma(x)=sqrt{D(x)}=frac{sqrt{2}}{3} $$ Вероятность для x оказаться в интервале (-1leq xleq -frac12) равна: $$ Pleft(-1leq xleq -frac12right)=Fleft(-frac12right)-F(-1)=frac{left(-frac12+2right)^2}{4}-frac{(-1+2)^2}{4}=frac{1,5^2-1^2}{4}=frac{9}{16} $$

Добавить комментарий