Как найти математическое ожидание по гистограмме

  1. Вычисление оценок математического ожидания и дисперсии

Оценки
математического ожидания и дисперсии
вычисляются по формулам

,

,(1)

где
— частота вариантыв выборке объема.

Если
объем выработки велик, то вычисление
точечных оценок математического ожидания
и
дисперсии
по
формулам (1)
громоздко.
Для сокращения вычислений элементам
выборки, попавшим в
–тый
интервал, припишем значения равные
серединам интервалов

.

Вносим
значения в пятый столбец таблицы 1.

Для
упрощения дальнейших выкладок варианты
заменяем наусловные
варианты

по формуле

,

где
называетсяложным
нулем

(новым началом отсчета). Ложный ноль
находим по следующему правилу:

Если
число интервалов нечетное, то в качестве
ложного нуля берем середину среднего
интервала, если четное, то середину того
интервала, у которого больше частота
.

При
этом варианте, которая принята в качестве
ложного нуля, соответствует условная
варианта, равная нулю.

Значения
вносим в таблицу 1.

Подсчитаем
произведения
,
результаты внесем в таблицу 1.

Суммируя
седьмой столбец таблицы 1, вычислим
значение

=

Оценим
математическое ожидание по формуле

.

Подсчитаем
произведения
,
результаты внесем в таблицу 1.

Суммируя
восьмой столбец таблицы 1, вычислим
значение

=

Оценим
дисперсию по формуле

.

Оценка
занижает дисперсию генеральной
совокупности, поэтому введя поправочный
коэффициент

получим
несмещенную оценку дисперсии

.

Вычислим
оценку среднего квадратического
отклонения

.

Для
сравнения подсчитаем

по
«правилу
»
.
Так как для случайной величины, имеющей
нормальное распределение, почти все
рассеивания укладывается на участке
,
то с помощью «правила»
можно ориентировочно определить оценку
среднего квадратического отклонения
случайной величины. Берем максимальное
практически возможное отклонение от
среднего значения и делим его на три.

Табл.
1

Статистическое
распределение выборки

№ Кл.

Границы
классов

1

2

3

4

5

6

7

8

9

h1=

=

h2=

  1. Построение гистограммы относительных частот

Гистограммой
называется ступенчатая фигура, состоящая
из прямоугольников, основаниями которых
служат частичные интервалы длиной
,
а высоты равны(плотность относительной частоты).

Для
построения гистограммы заполним
последний столбец таблицы 1. По полученным
данным построим гистограмму:

По
данным таблицы 1 построим точки с
координатами
и соединим их плавной пунктирной линией.
Эта линия будет аналогом плотности
распределения случайной величины и,
следовательно, по виду гистограммы
можно выдвинуть гипотезу о нормальном
распределении (или о распределении,
близком к нормальному) случайной величины
с плотностью

В
дальнейшем эту функцию будем называть
теоретической плотностью распределения.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Математическая статистика задачи с решением

Прежде чем изучать готовые решения задач по математической статистике, нужно знать теорию, поэтому для вас я подготовила краткую теорию по предмету «математическая статистика», после которой подробно решены задачи.

Эта страница подготовлена для школьников и студентов.

Если что-то непонятно — вы всегда можете написать мне в WhatsApp и я вам помогу!

Приступая к изучению элементов статистики, отметим несколько особенностей в постановке и решении ее задач в сравнении с задачами теоретико-вероятностными.

Теория вероятностей, исходя из известных характеристик совокупности случайных величин, отвечает на вопрос о возможности осуществления того или иного события, обусловленного рассматриваемыми случайными величинами:

знаем закон распределения совокупности случайных величин Законы больших чисел и предельные теоремы — хотим уметь находить вероятности событий, которые этими случайными величинами определяются.

В статистике мы решаем задачи, в некотором смысле обратные, а именно: наблюдая некоторые события, о которых известно, что возможность их осуществления или неосуществления обусловливается комплексом случайных величин, хотим определить эти (неизвестные) случайные величины, их вероятностные характеристики:

знаем результаты наблюдений {конкретные значения, принятые случайной величиной} —хотим сделать какие-нибудь заключения о законе распределения (в частности о параметрах и числовых характеристиках} наблюдаемой случайной величины.

Ясно, что в силу принципиальной непредсказуемости результатов наблюдения за случайной величиной, выводы, сделанные на основе результатов эксперимента, будут информативными только в том случае, когда эти наблюдения «хорошие» — т. е. те значения £, которые имеют большую вероятность, будут наблюдаться в эксперименте чаще, а имеющие меньшую вероятность — реже. Законы больших чисел утверждают, что в подавляющем большинстве экспериментов так и будет. Однако, это не гарантирует нам, что данный конкретный эксперимент окажется именно таким.

Поэтому всякое статистическое заключение недостоверно: если основа заключения «хороший» эксперимент, то заключение достаточно близко к истине, если «плохой», то ошибочно. При этом «хорош» эксперимент или «плох» определяется не нами, не нашей добросовестностью наблюдателя и тщательностью экспериментатора, а исключительно случаем — природой.

Сказанное хорошо иллюстрируется следующим примером: пусть наблюдаются результаты n-кратного бросания монеты. Если бросать монету достаточно долго, то частота появления, например, герба, как гласит закон больших чисел в форме Бернулли, будет близка к вероятности. Поэтому по частоте (наблюдаемой и вычисляемой величине) можно сделать заключение о вероятности (неизвестной величине). Насколько это заключение соответствует истине?

Пусть монета симметрична, т. е. Р(Г) = Р(Р) = 0,5 (что тем не менее не препятствует асимметрии в количестве появлений герба и решки в конкретном эксперименте)!

Может статься, что в серии из 100 бросаний герб появится 45 раз, а решка 55, а может статься и так, что герб появится 20 раз, а решка — 80. Ясно, что первая серия может быть признана «хорошей» с точки зрения рассматриваемой задачи, а вторая — «плохой». В любом случае мы сделаем заключение о неизвестной вероятности выпадения герба по наблюденной в эксперименте частоте и в первом случае положим Р(Г) = 0,45, а во втором — 0,2. Основанием для оптимизма является то важное обстоятельство, что «плохие» серии будут встречаться тем реже, чем длиннее серия! Значит, при достаточно длинной серии бросаний эксперимент скорее будет «хорошим» чем «плохим», и определенная по результатам такого эксперимента Р(Г) будет «похожа» на истинную. Достоверность статистического вывода будет определяться тем, насколько «редки» плохие эксперименты.

Практика использования статистических процедур показывает, что чаще всего решения, принятые на основании подобных выводов, оказываются верными. И именно это обстоятельство (согласованность статистических выводов с экспериментом) делает математическую статистику не бесполезной в практическом отношении наукой.

В дальнейшем мы неоднократно будем употреблять термины «маленькая вероятность», «маловероятное событие» и т. п. Какая же вероятность может считаться маленькой, а какая нет? Не вдаваясь подробно в обсуждение этого вопроса, заметим только, что абсолютная величина вероятности вне связи с конкретной обстановкой не дает нам никаких сведений о ее малости или немалости. Скажем, если нам известно, что вероятность осуществления некоторого события равна 0,01, то эта вероятность будет маленькой, если комплекс условий, обусловливающий рассматриваемое событие, складывается один раз за сто лет. Если же комплекс условий, при котором наблюдается рассматриваемое событие, складывается каждые пять минут, то эта же вероятность должна рассматриваться как значительная. Другими словами, под маленькой вероятностью мы будем понимать вероятность такого события, которое практически не наблюдается, вне зависимости от ее численного значения.

Математическая статистика

Математическая статистика – это раздел математики, изучающий математические методы сбора, систематизации, обработки и интерпретации результатов наблюдений с целью выявления статистических закономерностей.

Статистический материал и его обработка

Результаты наблюдений массовых явлений, случайных величин составляют статистические данные или статистический материал. Выборкой объёма Решение задач по математической статистике называется совокупность Решение задач по математической статистике случайно отобранных объектов. Множество всех объектов, из которых производится выборка, называется генеральной совокупностью (ГС).

Выборочный метод состоит в том, что на основании изучения некоторого количественного признака Решение задач по математической статистике у некоторой части статистической совокупности (выборки), полученной в результате статистического отбора, можно сделать вывод о характере распределения этого признака по всей статистической совокупности (генеральной совокупности).

Результаты наблюдений выборки Решение задач по математической статистике объёма записываются, в частности, в виде статистической совокупности;

Решение задач по математической статистике

При больших значениях Решение задач по математической статистике и различных значениях xt статистическую совокупность подвергают специальным видам статистической обработки.

Расположим значения Решение задач по математической статистике которые назовём вариантами, в порядке возрастания и обозначим Решение задач по математической статистике. Величина Решение задач по математической статистике называется размахом статистической совокупности. Среди значений Решение задач по математической статистике могут быть одинаковые. Пусть значение Решение задач по математической статистике наблюдалось Решение задач по математической статистике раз, Решение задач по математической статистике раз, Решение задач по математической статистике наблюдалось Решение задач по математической статистике раз. Тогда общий объём выборки равен Решение задач по математической статистике. Число Решение задач по математической статистике показывающее, сколько раз встречается варианта (значение) Решение задач по математической статистике называется частотойРешение задач по математической статистике а число Решение задач по математической статистике — относительной частотой варианты Решение задач по математической статистике.

Последовательность Решение задач по математической статистике записанная в порядке возрастания с указанием частот и (или) относительных частот, называется вариационным рядом. Статистическим рядом называется последовательность пар Решение задач по математической статистике. Обычно статистический ряд записывается в виде следующей таблицы:

Решение задач по математической статистике

Геометрическим изображением вариационного ряда является эмпирический полигон распределения, являющийся аналогом плотности распределения случайной величины Решение задач по математической статистике— ломаная с вершинами Решение задач по математической статистике — см. рисунок 1.

Вариационный ряд обозрим при небольших значениях Решение задач по математической статистике. В противном случае его (или первоначальную статистическую совокупность) подвергают интервальной обработке.

Все варианты Решение задач по математической статистике принадлежат отрезку Решение задач по математической статистике. Пусть к некоторое (не больше 20) натуральное число. Отрезок Решение задач по математической статистике разобьём на Решение задач по математической статистике равных частей длины Решение задач по математической статистике.

Обозначим эти промежутки следующим образом: Решение задач по математической статистике. Через Решение задач по математической статистике обозначим число вариант, попавших в интервал Решение задач по математической статистике, при этом будем считать, что каждый промежуток содержит свой левый конец, но лишь последний промежуток содержит и свой правый конец. Пусть Решение задач по математической статистике (числа Решение задач по математической статистике и Решение задач по математической статистике можно также отнести к середине Решение задач по математической статистике. интервала Решение задач по математической статистике). Полученные данные занесём в таблицу, называемую интервальной обработкой ряда, или статистической совокупности.

Решение задач по математической статистике

Количество интервалов Решение задач по математической статистике можно рассчитать по формуле Стерджеса Решение задач по математической статистикеРешение задач по математической статистике либо с помощью таблицы:

Решение задач по математической статистике

Геометрическим изображением интервальной обработки служит гистограмма (см. рисунок 1). Гистограммой частот называется множество прямоугольников с основаниями Решение задач по математической статистике и высотами Решение задач по математической статистике. Площадь гистограммы равна объёму выборки Решение задач по математической статистике.

Нормированная гистограмма (гистограмма относительных частот) представляет собой ступенчатую фигуру из прямоугольников с основаниями равными интервалам значений признака Решение задач по математической статистике и высотами, равными плотности частоты Решение задач по математической статистике. Если соединить прямолинейными отрезками середины верхних оснований прямоугольников, получим полигон распределения. Суммарная площадь всех прямоугольников гистограммы равна 1:

Решение задач по математической статистике
Решение задач по математической статистике

Эмпирической функцией распределении (функцией распределения выборки) называется функция Решение задач по математической статистике, определяющая для каждого значения Решение задач по математической статистике относительную частоту события Решение задач по математической статистике (см. рисунок 2):

Решение задач по математической статистике

где Решение задач по математической статистике — число вариант Решение задач по математической статистике, меньших чем Решение задач по математической статистике — объем выборки.

Решение задач по математической статистике

Функция Решение задач по математической статистике обладает следующими свойствами (здесь Решение задач по математической статистикеРешение задач по математической статистике):

Решение задач по математической статистике

-монотонно неубывающая, непрерывная слева функция.

Функция Решение задач по математической статистике является статистическим аналогом функции распределения Решение задач по математической статистике генеральной совокупности. Функцию распределения Решение задач по математической статистикев математической статистике называют теоретической функцией распределения. Различие между теоретической и эмпирической функциями распределения состоит в том, что Решение задач по математической статистике определяет вероятность события Решение задач по математической статистике, a Решение задач по математической статистике — относительную частоту этого события.

Эмпирическая функция распределения служит для оценки вида теоретической функции распределения случайного признака, полигон и гистограмма — для оценки вида теоретической кривой распределения.

Числовые характеристики законов распределения эмпирических величии

Одна из задач математической статистики состоит в установлении закона распределения случайной величины Решение задач по математической статистике (генеральной совокупности) и оценке параметров этого закона.

Вид закона выбирается из каких-либо теоретических или практических соображений, а параметры следует вычислять, исходя из параметров этого закона.

Важнейшим этапом обработки статистических данных является вычисление оценок числовых характеристик исследуемой случайной величины.

Полученные оценки позволяют в числовой форме описать характерные черты статистического распределения и являются базой для построения математической модели изучаемого случайного явления.

Любая величина Решение задач по математической статистике, определяемая как функция выборочных значений Решение задач по математической статистике = Решение задач по математической статистике, называется выборочной статистикой или просто статистикой. Статистика в, используемая в качестве приближённого значения неизвестного параметра Решение задач по математической статистике, называется статистической оценкой параметра Решение задач по математической статистике.

Существует два вида оценок параметров: точечные и интервальные.

Точечной называется статистическая оценка, которая определяется одним числом.

К точечным статистическим оценкам предъявляется ряд требований.

Если Решение задач по математической статистике — статистическая оценка параметра Решение задач по математической статистике, то она должна удовлетворять следующим условиям:

1) быть несмещенной, что означает, что Решение задач по математической статистике.

2) быть состоятельной, т.е. предел по вероятности при Решение задач по математической статистике последовательности таких оценок должен быть равен искомому параметру, т.е. вероятность того, что Решение задач по математической статистике, стремится к нулю при Решение задач по математической статистике.

3) быть эффективной, т.е. дисперсия Решение задач по математической статистике — наименьшая или быть асимптотически эффективной, что означает, что Решение задач по математической статистике.

Число Решение задач по математической статистике называется точностью оценки, если имеет место равенство Решение задач по математической статистике. Если это неравенство имеет место с некоторой вероятностью Решение задач по математической статистике, то число Решение задач по математической статистике называется надёжностью оценки или уровнем надёжности. Наиболее употребительными уровнями надёжности являются Решение задач по математической статистике 0,999.

Выборочной средней Решение задач по математической статистике называют среднее арифметическое значение случайной величины Решение задач по математической статистике по выборочной совокупности объёма Решение задач по математической статистике:

Решение задач по математической статистике

Выборочная средняя служит несмещенной оценкой математического ожидания признака Решение задач по математической статистике или генеральной совокупности.

Кроме выборочной средней в статистическом анализе применяются структурные средние: медиана и мода.

Модой Мо называют варианту, которая имеет наибольшую частоту. Если распределение интервальное, то определяется модальный интервал Решение задач по математической статистике, которому соответствует наибольшая частота Решение задач по математической статистике, мода вычисляется по формуле:

Решение задач по математической статистике

где Решение задач по математической статистике — величина модального интервала; Решение задач по математической статистике — частоты предмодального и послемодального интервала.

Медианой Me называют варианту, которая делит вариационный ряд на две части, равные по числу вариант. Если Решение задач по математической статистике, а если Решение задач по математической статистике, то Решение задач по математической статистике при вычислении медианы интервального ряда распределения используется формула:

Решение задач по математической статистике

где Решение задач по математической статистике — накопленная частота интервала, предшествующего медианному, включая интервал, предшествующий медианному; Решение задач по математической статистике— — начальное значение интервала, который содержит медиану. Номер медианного интервала определяется из неравенства Решение задач по математической статистике случае выполнения равенства номер медианного интервала равен Решение задач по математической статистике, в противном случае — Решение задач по математической статистике.

Средние величины не отражают изменчивости (вариации) значений признака. Чтобы охарактеризовать рассеяние наблюдаемых значений количественного признака выборки вокруг своего среднего значения Решение задач по математической статистике вводят свободную характеристику — выборочную дисперсию.

Выборочной дисперсией Решение задач по математической статистике называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения Решение задач по математической статистике:

Решение задач по математической статистике

Выборочным средним квадратическим отклонением (стандартом) называют квадратный корень из выборочной дисперсии:

Решение задач по математической статистике

Выборочная дисперсия является смещённой оценкой генеральной дисперсии, так как

Решение задач по математической статистике

В качестве несмещенной оценки генеральной дисперсии служит «исправленная» выборочная дисперсия:

Решение задач по математической статистике

При достаточно больших Решение задач по математической статистике выборочная и исправленная дисперсии мало отличаются, поэтому на практике исправленной дисперсией пользуются, если Решение задач по математической статистике< 50.

Выборочная средняя и дисперсия вариационного ряда являются частными случаями более общего понятия — выборочных (эмпирических) моментов.

Начальный момент Решение задач по математической статистике — го порядка вариационного ряда определяется по формуле

Решение задач по математической статистике

Центральный момент Решение задач по математической статистике — го порядка вариационного ряда определяется по формуле

Решение задач по математической статистике

В частности

Решение задач по математической статистике

Центральные моменты первых четырёх порядков выборки Решение задач по математической статистике выражаются через начальные моменты Решение задач по математической статистике по формулам:

Решение задач по математической статистике

Коэффициентом асимметрии вариационного ряда называется число

Решение задач по математической статистике

Эксцессом вариационного ряда называется число:

Решение задач по математической статистике

Асимметрия называется также нормированным третьим центральным моментом, а эксцесс — нормированным четвертым центральным моментом признака Решение задач по математической статистике. Знаки асимметрии и эксцесса указывают на отклонения графика закона распределения Решение задач по математической статистике от нормального распределения, для которого Решение задач по математической статистике. При Решение задач по математической статистике большая часть вариант будет расположена слева от Решение задач по математической статистике — имеет место левосторонняя асимметрия распределения, при Решение задач по математической статистике— правосторонняя. Если Решение задач по математической статистике, в этом случае распределение имеет симметричную форму (рисунок 3).

Решение задач по математической статистике

Положительное значение эксцесса указывает на то, что полигон распределения около моды имеет более высокую острую вершину, чем нормальная кривая, с тем же центром и той же дисперсией.

Отрицательное значение эксцесса имеет место для кривых с более низким и более плоским характером вершины по сравнению с нормальной кривой (см. рисунок 4).

Решение задач по математической статистике

Точечные оценки не указывают величину ошибки, которая совершается при замене Решение задач по математической статистике и Решение задач по математической статистике их приближёнными значениями (оценками). Поэтому иногда выгодно пользоваться интервальной оценкой, которая определяется двумя числами Решение задач по математической статистике и Решение задач по математической статистике — концами интервала, накрывающего оцениваемый параметр в с заданной вероятностью (надёжностью).

Пусть Решение задач по математической статистике — точечная оценка параметра Решение задач по математической статистике. Она тем лучше, чем меньше разность Решение задач по математической статистике. Тогда в качестве характеристики точности оценки можно взять некоторое Решение задач по математической статистике, такое, что Решение задач по математической статистике. Но в статистике можно говорить лишь о вероятности (надёжности) Решение задач по математической статистике, с которой выполняется это неравенство. Число Решение задач по математической статистике называется уровнем значимости.

Доверительной вероятностью оценки называется вероятность Решение задач по математической статистике выполнения неравенства Решение задач по математической статистике. Обычно у задаётся заранее и наиболее часто полагают Решение задач по математической статистике и пр. Таким образом:

Решение задач по математической статистике

Доверительный интервал — это интервал Решение задач по математической статистике, который накрывает неизвестный параметр Решение задач по математической статистике с заданной надёжностью Решение задач по математической статистике.

Границы интервала и его величина находятся по выборочным данным и поэтому являются случайными величинами в отличие от оцениваемого параметра Решение задач по математической статистике, поэтому говорят, что Решение задач по математической статистике накрывает, а не содержит истинное значение Решение задач по математической статистике.

Величина доверительного интервала существенно зависит от объёма выборки Решение задач по математической статистике (уменьшается с ростом Решение задач по математической статистике) и значения доверительной вероятности Решение задач по математической статистике (увеличивается с приближением Решение задач по математической статистике к единице).

Интервальной оценкой с надёжностью у математического ожидания а нормально распределённой случайной величины (признака) Решение задач по математической статистике по выборочной средней Решение задач по математической статистике при известном СКО Решение задач по математической статистике генеральной совокупности служит доверительный интервал

Решение задач по математической статистике

где Решение задач по математической статистике — точность оценки, Решение задач по математической статистике — объём выборки, Решение задач по математической статистике — значение аргумента функции ЛапласаРешение задач по математической статистике при котором Решение задач по математической статистике.

При неизвестном Решение задач по математической статистике (в условиях эксперимента Решение задач по математической статистике обычно неизвестно) доверительный интервал для математического ожидания Решение задач по математической статистике нормально распределённой случайной величины Решение задач по математической статистике имеет вид:

Решение задач по математической статистике

где Решение задач по математической статистике — квантиль распределения Стьюдента, определяемый по таблицам, а параметры Решение задач по математической статистике находятся по данным выборки.

При больших выборках Решение задач по математической статистике распределение Стьюдента приближается к нормальному, и тогда можно пользоваться теоремами о нормальном распределении.

Доверительный интервал для Решение задач по математической статистике задаётся неравенствами:

Решение задач по математической статистике

где Решение задач по математической статистике — квантили Решение задач по математической статистике распределения, определяемые по соответствующим таблицам по заданному уровню значимости а и числу степеней свободы Решение задач по математической статистикеРешение задач по математической статистике, либо

Решение задач по математической статистике

Величина Решение задач по математической статистике находится по таблице Решение задач по математической статистике и зависит от надежности и объема выборки.

Статистическая проверка гипотез

Статистической гипотезой называется предположение относительно параметров или вида распределения изучаемой случайной величины.

Статистические гипотезы можно разделить на следующие основные группы:

1 (гипотезы о параметрах распределения;

2)гипотезы о виде распределения.

Выдвинутую гипотезу называют нулевой и обозначают ее через Решение задач по математической статистике. Наряду с Решение задач по математической статистике рассматривают конкурирующую (или альтернативную) гипотезу Решение задач по математической статистике.

Таким образом, ставится задача проверки гипотезы Решение задач по математической статистике относительно конкурирующей гипотезы Решение задач по математической статистике на основе выборки Решение задач по математической статистике объема Решение задач по математической статистике. Правило, по которому принимается или отвергается гипотеза, называется статистическим критерием. Принципы проверки статистических гипотез впервые были сформулированы в работах известных математиков Е. Неймана и Э. Пирсона. Они исходили из того, что принимая или отвергая гипотезу Решение задач по математической статистике, можно допустить ошибки двух видов.

Ошибка первого рода: Решение задач по математической статистике отвергается (принимается Решение задач по математической статистике) в то время как в действительности верна гипотеза Решение задач по математической статистике. Вероятность ошибки первого рода называют уровнем значимости и обозначают Решение задач по математической статистике:

Решение задач по математической статистике

Величину Решение задач по математической статистике, то есть вероятность принять верную гипотезу, называют уровнем доверия (доверительным уровнем).

Ошибка второго рода: Решение задач по математической статистике принимается, в то время как верна гипотеза Решение задач по математической статистике. Вероятность ошибки второго рода обозначается Решение задач по математической статистике.

Вероятность принять гипотезу Решение задач по математической статистике если она верна, называют мощностью критерия.

Суть проверки статистической гипотезы заключается в том, что используется специально составленная выборочная характеристика (статистика) Решение задач по математической статистикеРешение задач по математической статистике, полученная по выборке Решение задач по математической статистике, так, чтобы в случае, если гипотеза Решение задач по математической статистике верна, точное или приближенное распределение Решение задач по математической статистике было бы известным. Построение критерия, в зависимости от вида гипотезы Решение задач по математической статистике, заключается в выборе таких значений Решение задач по математической статистике и Решение задач по математической статистике, что если Решение задач по математической статистике то гипотеза Решение задач по математической статистике принимается. Значения Решение задач по математической статистике и Решение задач по математической статистике называются критическими, а область Решение задач по математической статистике называется областью допустимых значений.

Множество возможных значений статистики Решение задач по математической статистике разбивается на 2 непересекающихся подмножества: критическую область — множество значений Решение задач по математической статистике, при которых Решение задач по математической статистике отвергается — Решение задач по математической статистике, и область допустимых значений — множество значений Решение задач по математической статистике, при которых Решение задач по математической статистике принимается — Решение задач по математической статистике. Если фактически наблюдаемое (полученное по выборке) значение статистики критерия Решение задач по математической статистике попадает в критическую область, то гипотезу Решение задач по математической статистике отвергают, в противном случае принимают.

Проверка гипотезы о нормальном распределении генеральной совокупности. Критерий согласия Пирсона

Одной из задач математической статистики является установление истинного закона распределения случайной величины на основании экспериментальных данных. Критерии, устанавливающие закон распределения, называются критериями согласия.

Алгоритм применения критерия Пирсона.

1)Из генеральной совокупности образовывается случайная выборка, и на ее основе делается предположение о нормальном законе распределения. Выдвигается гипотеза Решение задач по математической статистике: «генеральная совокупность распределена нормально».

2)Вычисляются выборочные числовые характеристики Решение задач по математической статистике.

3)Вычисляются теоретические частоты:

а) Для дискретного ряда

Решение задач по математической статистике

где Решение задач по математической статистике — объем выборки, Решение задач по математической статистике — шаг (разность между двумя соседними вариантами),

Решение задач по математической статистике

Значения Решение задач по математической статистике определяются из таблицы приложения 1.

б) Для интервального ряда Решение задач по математической статистике, где Решение задач по математической статистике — объем выборки,

Решение задач по математической статистике
Решение задач по математической статистике

теоретические вероятности попадания в интервалы

Решение задач по математической статистике
Решение задач по математической статистике

функция Лапласа, значения которой определяются по таблице

4)Находится наблюдаемое значение критерия Пирсона по формуле

Решение задач по математической статистике

5)По таблице критических точек распределения Решение задач по математической статистике по заданному уровню значимости а и числу степеней свободы Решение задач по математической статистике (Решение задач по математической статистике — число групп для дискретного ряда или число интервалов для интервального ряда) находят критическую точку Решение задач по математической статистике правосторонней критической области.

6)Если Решение задач по математической статистике— нет оснований отвергнуть гипотезу о нормальном распределении генеральной совокупности. Другими словами, эмпирические и теоретические частоты различаются незначимо. Если Решение задач по математической статистике — гипотезу отвергают.

Замечание. Малочисленные варианты и интервалы (содержащие малочисленные частоты Решение задач по математической статистике) следует объединить, а соответствующие им частоты сложить. Если производилось объединение частот, то в формуле Решение задач по математической статистике следует в качестве Решение задач по математической статистике принять число групп или интервалов выборки, оставшихся после объединения частот.

Элементы теории регрессионного и корреляционного анализа

Методы теории корреляции позволяют определять зависимость между различными факторами или случайными величинами. Термин «корреляция» происходит от латинского «correlatio» — соотношение, взаимосвязь.

В естественных науках часто речь идёт о функциональной зависимости, когда каждому значению одной величины соответствует вполне определённое значение другой. Случайные величины обычно не связаны функциональной зависимостью. В большинстве случаев между переменными существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определённое, а множество возможных значений другой переменной. Такая зависимость получила название статистической (или стохастической, вероятностной).

В силу неоднозначной статистической зависимости между случайными величинами Решение задач по математической статистике и Решение задач по математической статистике для исследователя представляет интерес усреднённая схема зависимости — зависимость условного математического ожидания Решение задач по математической статистике или его статистического аналога Решение задач по математической статистике от значений Решение задач по математической статистике случайной величины Решение задач по математической статистике, то есть Решение задач по математической статистике или Решение задач по математической статистике. Здесь Решение задач по математической статистике — условная средняя, которая определяется как среднее арифметическое значений Решение задач по математической статистике, то есть Решение задач по математической статистике, соответствующих значению Решение задач по математической статистике. Такая зависимость получила название корреляционной. Корреляционной зависимостью Решение задач по математической статистике от Решение задач по математической статистике называют функциональную зависимость условной средней ух от Решение задач по математической статистике:

Решение задач по математической статистике

Уравнение (14) называют уравнением регрессии Решение задач по математической статистике на Решение задач по математической статистике; функцию Решение задач по математической статистике называют регрессией Решение задач по математической статистике на Решение задач по математической статистике, а её график -линиейрегрессии Решение задач по математической статистике на Решение задач по математической статистике.

Статистические связи между переменными можно изучать методами корреляционного и регрессионного анализа. Основной задачей корреляционного анализа является выявление связи между случайными величинами и оценка ее тесноты. Основной задачей регрессионного анализа — установление и изучение формы зависимости между переменными.

Данные о статистической зависимости удобно представлять в виде корреляционной таблицы:

Решение задач по математической статистике

Здесь

Решение задач по математической статистике

значения случайных величин Решение задач по математической статистике и Решение задач по математической статистике соответственно, а

Решение задач по математической статистике

соответствующие частоты, Решение задач по математической статистике — частота, с которой встречается пара Решение задач по математической статистике.

По направлению корреляционная связь может быть положительной («прямой») и отрицательной («обратной»). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака — низкие значения другого. При отрицательной корреляции соотношения обратные.

Наличие корреляции приближенно может быть определено с помощью корреляционного поля. Его получим, если нанесем на график в определенном масштабе точки, соответствующие наблюдаемым одновременным значениям двух величин Решение задач по математической статистике — если точки рассеяны хаотично, то связь между Решение задач по математической статистике и Решение задач по математической статистике отсутствует; если точки группируются около какой-то линии, то связь есть, и она тем теснее, чем ближе они группируются (рисунок 5).

Решение задач по математической статистике

Рассмотрим наиболее важный для практики случай линейной зависимости между величинами. В теории вероятностей показателем тесноты линейной зависимости являлся коэффициент корреляции, в математической статистике таким показателем является выборочный коэффициент корреляции.

Выборочным коэффициентом корреляции называется величина, рассчитываемая по формуле:

Решение задач по математической статистике

где

Решение задач по математической статистике

оценка корреляционного момента; Решение задач по математической статистике и Решение задач по математической статистике — исправленные средние квадратические отклонения.

Выборочный коэффициент корреляции обладает некоторыми свойствами:

  1. Решение задач по математической статистике;
  2. Чем ближе значение Решение задач по математической статистике к единице, тем более тесная линейная зависимость между изучаемыми величинами. В зависимости оттого, насколько Решение задач по математической статистике приближается к единице, различают слабую, умеренную, заметную, достаточно тесную и весьма тесную линейную связь.
  3. Если Решение задач по математической статистике, то говорят о прямой связи между изучаемыми величинами (т.е. с увеличением одной случайной величины увеличивается и другая), если же Решение задач по математической статистике, говорят об обратной связи (с увеличением одной случайной величины вторая уменьшается).
  4. Если все значения переменных увеличить (уменьшить) на одно и тоже число или в одно и то же число раз, то величина коэффициента корреляции не изменится. Коэффициент корреляции есть безразмерная характеристика тесноты линейной связи.
  5. При Решение задач по математической статистике корреляционная связь представляет линейную функциональную зависимость, при этом все точки поля корреляции лежат на одной прямой.
  6. При Решение задач по математической статистике или Решение задач по математической статистике близком к нулю линейная корреляционная связь отсутствует, но это не означает отсутствие другой зависимости, например, нелинейная связь может быть очень тесной.

Для ответа на вопрос о значимости коэффициента корреляции проверяют нулевую гипотезу Решение задач по математической статистике о равенстве нулю генерального коэффициента корреляции. Если гипотеза принимается, то говорят, что между Решение задач по математической статистике и Решение задач по математической статистике нет линейной корреляционной зависимости, иначе линейная зависимость признается значимой.

Для того чтобы при уровне значимости Решение задач по математической статистике проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции при конкурирующей Решение задач по математической статистике, надо вычислить наблюдаемое значение критерия:

Решение задач по математической статистике

затем, пользуясь таблицей критических точек распределения Стьюдента, по заданному уровню значимости и числу степеней свободы Решение задач по математической статистике найти критическую точку Решение задач по математической статистике для двухсторонней критической области. Если сравнить данные величины, то можно сделать вывод о степени коррелированности исходных признаков:

•если Решение задач по математической статистике, то верна нулевая гипотеза и, следовательно, величины Решение задач по математической статистике не коррелированны;

•если же Решение задач по математической статистике, то нулевая гипотеза отвергается.

Рассмотрим уравнение парной линейной регрессии Математическая статистика задачи с решением. Найдём формулы расчёта неизвестных параметров Математическая статистика задачи с решением и Математическая статистика задачи с решением по имеющимся статистическим данным Математическая статистика задачи с решением.

Согласно методу наименьших квадратов неизвестные параметры выбираются таким образом, чтобы сумма квадратов отклонений выборочных значений Математическая статистика задачи с решением от значений Математическая статистика задачи с решением, полученных по уравнению регрессии, была минимальна:

Математическая статистика задачи с решением

На основании необходимого условия экстремума, приравнивая нулю частные производные, получим:

Математическая статистика задачи с решением

После преобразования получаем систему нормальных уравнений для определения параметров линейной регрессии:

Математическая статистика задачи с решением

Из последней системы следуют формулы для определения параметров уравнения парной линейной регрессии Математическая статистика задачи с решением на Математическая статистика задачи с решением:

Математическая статистика задачи с решением

Уравнение регрессии Математическая статистика задачи с решением можно с учётом формулы вычисления параметра Математическая статистика задачи с решением записать в виде

Математическая статистика задачи с решением

Коэффициент Математическая статистика задачи с решением показывает, на сколько единиц в среднем изменится переменная Математическая статистика задачи с решением при увеличении переменной Математическая статистика задачи с решением на одну единицу.

Уравнение регрессии может быть использовано для прогнозирования значений Математическая статистика задачи с решением при значениях Математическая статистика задачи с решением, не указанных в корреляционной таблице.

Величину Математическая статистика задачи с решением называют остаточной дисперсией случайной величины Математическая статистика задачи с решением относительно случайной величины Математическая статистика задачи с решением; она характеризует величину ошибки, которая возникает при замене Математическая статистика задачи с решением линейной функцией. При Математическая статистика задачи с решением остаточная дисперсия равна нулю, т.е. при представлении Математическая статистика задачи с решением в виде линейной функции от Математическая статистика задачи с решением не возникает ошибки, a Математическая статистика задачи с решением и Математическая статистика задачи с решением связаны линейной функциональной зависимостью.

Кстати готовые на продажу задачи тут, и там же теория из учебников может быть вам поможет она.

Задачи с решением

Задача № 1

  • Из генеральной совокупности извлечена выборка объёма Математическая статистика задачи с решением:
Математическая статистика задачи с решением

Требуется:

1)Найти и построить эмпирическую функцию распределения;

2)Найти выборочное среднее, «исправленное» СКО, выборочную моду и медиану.

Решение:

1) Согласно определению эмпирической функции распределения её значение при любом Математическая статистика задачи с решением равно Математическая статистика задачи с решением, где Математическая статистика задачи с решением — количество элементов Математическая статистика задачи с решением; выборки, меньших, чем Математическая статистика задачи с решением — объём выборки.

Например, при

Математическая статистика задачи с решением

Математическая статистика задачи с решением

Тогда

Математическая статистика задачи с решением

График эмпирической функции распределения изображён на рисунке 6.

Математическая статистика задачи с решением

2) Определим выборочное среднее выборки по формуле (2):

Математическая статистика задачи с решением

«Исправленную» дисперсию найдём, используя следующую формулу:

Математическая статистика задачи с решением

Так как мода — это варианта, которой соответствует наибольшая частота, то Математическая статистика задачи с решением.

Не сгруппированные данные образуют дискретный вариационный ряд, содержащий нечётное число вариант Математическая статистика задачи с решением:

Математическая статистика задачи с решением

Значит, медиана равна

Математическая статистика задачи с решением

Задача № 2

  • Записать в виде вариационного ряда выборку 20, 19, 12, 13, 16, 17, 17, 14, 16, 14, 13, 19, 18, 16, 14. Представить статистическое распределение выборки. Построить полигон относительных частот для статистического ряда. Вычислить числовые характеристики выборки: выборочное среднее, «исправленную» и выборочную дисперсии, «исправленное» среднеквадратическое отклонение (СКО).

Решение:

Объём выборки Математическая статистика задачи с решением. Упорядочив элементы выборки по возрастанию, получим вариационный ряд:

12, 13, 13, 14, 14, 14, 16, 16, 16, 17, 17, 18, 19, 19, 20.

Статистическое распределение исходной выборки можно записать в виде следующей таблицы:

Математическая статистика задачи с решением

Полигон относительных частот изображён на рисунке 7.

Математическая статистика задачи с решением

Находим выборочное среднее по формуле (2):

Математическая статистика задачи с решением

Для вычисления выборочной дисперсии используем формулу (5):

Математическая статистика задачи с решением

«Исправленная» дисперсия и СКО:

Математическая статистика задачи с решением

Задача № 3

  • Найти выборочное среднее, моду, медиану и выборочное СКО выборки объёмом Математическая статистика задачи с решением, распределение которой задано следующей таблицей:
Математическая статистика задачи с решением

Построить гистограмму и полигон частот.

Решение:

Для построения гистограммы все частоты необходимо разделить на длину интервала, равную 1,02, и откладывать по оси ординат. По оси абсцисс отмечаются границы интервалов (рисунок 8).

Для построения полигона частот найдем середины интервалов и дополним исходную таблицу:

Математическая статистика задачи с решением

Ломаная линия (рисунок 8) будет соединять точки с координатами Математическая статистика задачи с решением.

Математическая статистика задачи с решением

Для расчёта выборочного среднего и выборочного СКО составляем вариационный ряд, принимая в качестве вариант середины соответствующих интервалов:

Математическая статистика задачи с решением

Таким образом:

Математическая статистика задачи с решением

Так как наибольшая частота

Математическая статистика задачи с решением

отвечает интервалу 1,02 — 2,04, то

Математическая статистика задачи с решением

Мода (согласно формуле (3)) равна:

Математическая статистика задачи с решением

Определим номер медианного интервала. Так как Математическая статистика задачи с решением, то номер медианного интервала равен 3, а сам интервал — 2,04 — 3,06. Тогда, по формуле (4), получаем:

Математическая статистика задачи с решением

Задача № 4

Дан статистический ряд признака Математическая статистика задачи с решением:

Математическая статистика задачи с решением

Найти начальные и центральные моменты первых четырёх порядков признака Математическая статистика задачи с решением, а также определить асимметрию и эксцесс.

Решение:

Вычисления проводим по формулам (8) для Математическая статистика задачи с решением и по формулам (10) для Математическая статистика задачи с решением.

Начальные моменты:

Математическая статистика задачи с решением

Центральные моменты

Математическая статистика задачи с решением

Тогда, так как

Математическая статистика задачи с решением

то

Математическая статистика задачи с решением

Задача № 5

Предельная нагрузка для выборки из 50 стальных стержней характеризуется следующим рядом:

Математическая статистика задачи с решением

Считая распределение предельной нагрузки Математическая статистика задачи с решением нормальным, построить доверительные интервалы для оценки с надёжностью Математическая статистика задачи с решением средней предельной нагрузки и СКО предельной нагрузки стальных стержней партии, из которой произведена выборка.

Решение:

Вычислим выборочное среднее и исправленное СКО соответственно по формулам

Математическая статистика задачи с решением

По таблице (см. приложение 3) найдём

Математическая статистика задачи с решением

Точность оценки:

Математическая статистика задачи с решением

Доверительный интервал для средней предельной нагрузки найдём по формуле (13):

Математическая статистика задачи с решением

Доверительный интервал для СКО предельной нагрузки будем искать по формуле

Математическая статистика задачи с решением

так как

Математическая статистика задачи с решением
Математическая статистика задачи с решением

Задача № 6

В результате эксперимента получены данные, представленные в виде статистического ряда:

Математическая статистика задачи с решением

Требуется:

1 )3аписать значения результатов эксперимента в виде вариационного ряда.

2)Представить данную выборку в виде интервального статистического ряда.

3)Найти числовые характеристики выборки:

Математическая статистика задачи с решением

4) Определить доверительные интервалы неизвестного математического ожидания и неизвестного среднего квадратического отклонения. Предполагается, что генеральная совокупность имеет нормальное распределение. Доверительную вероятность принять равной 0,95.

Решение:

1) Расположим значения результатов эксперимента в порядке возрастания, т.е. записываем вариационный ряд:

14 21 28 30 30 32 33 35 38 39 40 41 41 42 42 42 43 44 45 45 46 4747 47 48 48 49 49 50 51 52 53 54 54 56 57 58 58 59 59 60 60 60 60 61 61 65 67 72 77.

2) Объём выборки Математическая статистика задачи с решением. Наибольшая варианта — 77, наименьшая — 14. Найдём длину интервала:

Математическая статистика задачи с решением

Выбираем длину интервала 9. Интервальный статистический ряд примет вид:

Математическая статистика задачи с решением

3) Для вычисления числовых характеристик составляем вариационный ряд, принимая в качестве вариант середины соответствующих интервалов:

Математическая статистика задачи с решением

Таким образом:

Математическая статистика задачи с решением

4) Доверительный интервал для оценки математического ожидания нормально распределённой случайной величины найдём по формуле:

Математическая статистика задачи с решением

Из приложения 3 для Математическая статистика задачи с решением находим Математическая статистика задачи с решением. Далее

Математическая статистика задачи с решением

Математическая статистика задачи с решением

Доверительный интервал для оценки а нормального распределения по несмещённой оценке Математическая статистика задачи с решением определяется из неравенства

Математическая статистика задачи с решением

где величина

Математическая статистика задачи с решением

определяется из таблицы (приложение 4).

Имеем

Математическая статистика задачи с решением

При

Математическая статистика задачи с решением

в таблице приложения находим

Математическая статистика задачи с решением

Следовательно,

Математическая статистика задачи с решением

Математическая статистика задачи с решением

Значит,

Математическая статистика задачи с решением

Задача № 7

Математическая статистика задачи с решением

Решение:

Определим наблюдаемое значение критерия Пирсона по формуле

Математическая статистика задачи с решением

В таблице критических точек Математическая статистика задачи с решением (приложение 5) находим при уровне значимости Математическая статистика задачи с решением значение Математическая статистика задачи с решением (имеем Математическая статистика задачи с решениемстепени свободы). Значение Математическая статистика задачи с решениемСледовательно, выдвинутая гипотеза о нормальном распределении генеральной совокупности не отвергается.

Задача № 8

  • Из генеральной совокупности извлечена выборка, представленная в виде ряда.

Требуется проверить, согласуются ли выборочные данные с гипотезой о нормальном распределении случайной величины Математическая статистика задачи с решением с помощью критерия согласия Пирсона при уровне значимости Математическая статистика задачи с решением, разбив отрезок Математическая статистика задачи с решением на Математическая статистика задачи с решением интервалов одинаковой длины. Величину Математическая статистика задачи с решением рассчитать по формуле Стерджеса Математическая статистика задачи с решениемМатематическая статистика задачи с решением.

Математическая статистика задачи с решением
Математическая статистика задачи с решением

Решение:

Подсчитаем количество интервалов разбиения:

Математическая статистика задачи с решением

Из ряда видно, что

Математическая статистика задачи с решением

поэтому

Математическая статистика задачи с решением

Математическая статистика задачи с решением

Границы интервалов будут:

Математическая статистика задачи с решением

Частота Математическая статистика задачи с решением— интервала Математическая статистика задачи с решением подсчитывается с помощью ряда как число наблюдений, попавших в интервал. Так в первый Математическая статистика задачи с решением интервал ) 0,6; 1,11 попало 7 значений, во второй [1,1; 1,6[ — 14 значений. Сведём полученные данные в таблицу:

Математическая статистика задачи с решением

Объем выборки равен

Математическая статистика задачи с решением

Выборочное среднее и дисперсия определяются по формулам:

Математическая статистика задачи с решением

Найдём теоретические вероятности Математическая статистика задачи с решением по формуле

Математическая статистика задачи с решением

где Математическая статистика задачи с решением — функция Лапласа, значения которой даются в приложении 3. Результаты вычислений сведём в таблицу:

Математическая статистика задачи с решением

Математическая статистика задачи с решением

Вычислим наблюдаемое значение критерия Пирсона. Для этого составим следующую расчетную таблицу:

Математическая статистика задачи с решением

По таблице критических точек распределения Математическая статистика задачи с решением, уровню значимости Математическая статистика задачи с решением и числу степеней свободы

Математическая статистика задачи с решением

находим

Математическая статистика задачи с решением

Так как

Математическая статистика задачи с решением

то нет оснований отвергнуть гипотезу о нормальном распределении генеральной совокупности.

Задача № 9

Математическая статистика задачи с решением

вычислить выборочный коэффициент корреляции и остаточную дисперсию. Записать уравнения прямой регрессии Математическая статистика задачи с решением на Математическая статистика задачи с решением. Построить корреляционное поле и линию регрессии на корреляционном поле.

Решение:

Вычислим основные выборочные характеристики: Выборочные средние:

Математическая статистика задачи с решением

Найдем оценки для средних квадратичных отклонений и корреляционного момента, для чего составим следующую вспомогательную таблицу:

Математическая статистика задачи с решением

Согласно формуле (15):

Математическая статистика задачи с решением

Найдем методом наименьших квадратов эмпирическую формулу вида Математическая статистика задачи с решениемМатематическая статистика задачи с решением. Составим систему нормальных уравнений (17) для определения параметров линейной регрессии. Так как

Математическая статистика задачи с решением

Уравнение регрессии Математическая статистика задачи с решением наМатематическая статистика задачи с решением имеет вид:

Математическая статистика задачи с решением

Остаточная дисперсия:

Математическая статистика задачи с решением

Корреляционное поле и линия регрессии на корреляционном поле изображены на рисунке 9.

Математическая статистика задачи с решением

Задача № 10

Математическая статистика задачи с решением

Построить корреляционное поле. Найти выборочный коэффициент корреляции, оценить его значимость. Записать уравнения прямой линии регрессии Математическая статистика задачи с решением на Математическая статистика задачи с решением.

Решение:

Корреляционное поле данной двумерной выборки приведено на рисунке 10.

Математическая статистика задачи с решением

По виду поля корреляции можно судить о том, что между величинами существует зависимость.

Для вычисления выборочных числовых характеристик составляем следующую расчётную таблицу:

Математическая статистика задачи с решением

Замечание. Строка

Математическая статистика задачи с решением

получается следующим образом:

Математическая статистика задачи с решением

Столбец

Математическая статистика задачи с решением

Вычислим выборочные средние

Математическая статистика задачи с решением
Математическая статистика задачи с решением

«Исправленные» дисперсии находим по формулам:

Математическая статистика задачи с решением

Оценку корреляционного момента вычисляем по формуле:

Математическая статистика задачи с решением

Рассчитав все нужные величины, можно вычислить выборочный коэффициент корреляции:

Математическая статистика задачи с решением

Для оценки значимости выборочного коэффициента корреляции вычислим наблюдаемое значение критерия, воспользовавшись формулой (16):

Математическая статистика задачи с решением

Затем по таблице критических точек распределения Стьюдента, по заданному уровню значимости Математическая статистика задачи с решением и числу степеней свободы Математическая статистика задачи с решением найдем критическую точку Математическая статистика задачи с решением для двухсторонней критической области:

Математическая статистика задачи с решением

Сравнивая Математическая статистика задачи с решением, получим, что Математическая статистика задачи с решением, следовательно, величиныМатематическая статистика задачи с решением коррелированы.

Оценкой теоретической линии регрессии является эмпирическая линия регрессии, уравнение которой имеет вид

Математическая статистика задачи с решением

Тогда

Математическая статистика задачи с решением

Задача № 11

Из генеральной совокупности извлечена выборка, представленная в виде статистического ряда:

Математическая статистика задачи с решением

Требуется:

1)вычислить выборочное среднее Математическая статистика задачи с решением, выборочную дисперсию Математическая статистика задачи с решением, исправленную выборочную дисперсию Математическая статистика задачи с решением и среднее квадратичное отклонение Математическая статистика задачи с решением;

2)найти размах варьирования; моду и медиану;

3)построить полигон частот и эмпирическую функцию распределения;

4)провсрить, согласуются ли выборочные данные с гипотезой о нормальном распределении случайной величины Математическая статистика задачи с решением графически и с помощью критерия согласия Пирсона при уровне значимости Математическая статистика задачи с решением, представив данную выборку в виде интервального ряда. Количество интервалов рассчитать по формуле Стерджеса Математическая статистика задачи с решением;

5)найти с доверительной вероятностью Математическая статистика задачи с решениемдоверительный интервал для математического ожидания, а также доверительный интервал для Математическая статистика задачи с решением.

Решение:

1) Объем выборки равен

Математическая статистика задачи с решением

Выборочное среднее определим по формуле:

Математическая статистика задачи с решением

Для нахождения выборочной дисперсии составим следующую вспомогательную таблицу:

Математическая статистика задачи с решением

Тогда

Математическая статистика задачи с решением
Математическая статистика задачи с решением

Исправленное среднее квадратичное отклонение будет

Математическая статистика задачи с решением

2) Размах варьирования находится по формуле

Математическая статистика задачи с решением
Математическая статистика задачи с решением

Так как мода — это варианта, которой соответствует наибольшая частота, то

Математическая статистика задачи с решением

Не сгруппированные данные образуют дискретный вариационный ряд, содержащий чётное число вариант Математическая статистика задачи с решением, поэтому Математическая статистика задачи с решениемМатематическая статистика задачи с решением

3) Согласно определению эмпирической функции распределения ее значение при любом Математическая статистика задачи с решением равно Математическая статистика задачи с решением где Математическая статистика задачи с решением — количество элементов Математическая статистика задачи с решением выборки, меньших, чем Математическая статистика задачи с решением.

Математическая статистика задачи с решением

Тогда

Математическая статистика задачи с решением

График эмпирической функции распределения:

Математическая статистика задачи с решением

Полигон частот изображен на рисунке:

Математическая статистика задачи с решением

4) Так как полигон частот по форме напоминает кривую Гаусса, то можно сделать предположение о том, что случайная величина Математическая статистика задачи с решением распределена по нормальному закону. Проверим данное утверждение по критерию Пирсона. Вычислим количество интервалов:

Математическая статистика задачи с решением

Длина интервала

Математическая статистика задачи с решением

Границы интервалов будут:

Математическая статистика задачи с решением

Посчитаем число выборочных значений, попавших в каждый интервал. Частота Математическая статистика задачи с решением интервала Математическая статистика задачи с решением подсчитывается с помощью ряда, как число наблюдений, попавших в интервал. Так, в первый Математическая статистика задачи с решением интервал [4; 5,2] попало 3 значения; во второй Математическая статистика задачи с решением — [5,2; 6,4] попало 7 значений. Аналогично получаем частоты 3-7 интервалов.

Полученные данные сведём в следующую таблицу:

Математическая статистика задачи с решением

Найдем теоретические вероятности Математическая статистика задачи с решением по формуле:

Математическая статистика задачи с решением

Результаты вычислений сведем в таблицу:

Математическая статистика задачи с решением

Так как ожидаемые (эмпирические) частоты первого и седьмого интервалов группировки не удовлетворяют условию Математическая статистика задачи с решением5, объединим эти интервалы (первый со вторым; а седьмой — с шестым).

Вычислим наблюдаемое значение критерия Пирсона. Для этого составим

Математическая статистика задачи с решением

По таблице критических точек распределения Математическая статистика задачи с решением, уровню значимости Математическая статистика задачи с решениемМатематическая статистика задачи с решением и числу степеней свободы Математическая статистика задачи с решением находим Математическая статистика задачи с решением. Так как

Математическая статистика задачи с решением

то гипотеза о нормальном распределении принимается.

5) Доверительный интервал для математического ожидания найдём по формуле

Математическая статистика задачи с решением

Значение Математическая статистика задачи с решением определим по таблице для доверительной вероятности

Математическая статистика задачи с решением

и объёму выборки

Математическая статистика задачи с решением
Математическая статистика задачи с решением

Тогда доверительный интервал имеет вид:

Математическая статистика задачи с решением

Задача № 12

По заданной таблице зависимости признаков Математическая статистика задачи с решением и Математическая статистика задачи с решением:

1}Вычислить выборочный коэффициент корреляции; проверить его на значимость, приняв Математическая статистика задачи с решением.

2)Методом наименьших квадратов выровнять зависимость Математическая статистика задачи с решением от Математическая статистика задачи с решением по прямой Математическая статистика задачи с решением.

3)Вычислить остаточную дисперсию, сделать вывод.

4)Построить корреляционное поле и линию регрессии на корреляционном поле.

Математическая статистика задачи с решением

Решение:

Найдём выборочные средние х, у, а также оценки для средних квадратичсских отклонений и корреляционного момента, для чего составим следующую вспомогательную таблицу:

Математическая статистика задачи с решением

Здесь

Математическая статистика задачи с решением

Тогда

Математическая статистика задачи с решением

Выборочное значение коэффициента корреляции:

Математическая статистика задачи с решением

Проверим значимость полученного выборочного коэффициента корреляции. Найдём наблюдаемое значение критерия:

Математическая статистика задачи с решением

По таблице критических точек распределения Стьюдента, по уровню значимости Математическая статистика задачи с решением и числу степеней свободы Математическая статистика задачи с решением находим критическую точку двусторонней критической области Математическая статистика задачи с решением.

Так как Математическая статистика задачи с решением, то отвергаем гипотезу о равенстве нулю генерального коэффициента корреляции, значит Математическая статистика задачи с решением и Математическая статистика задачи с решением-коррелированы.

Математическая статистика задачи с решением

Запишем нормальную систему уравнений. Так как

Математическая статистика задачи с решением
Математическая статистика задачи с решением

то

Математическая статистика задачи с решением

Решая систему по формулам Крамера, получим:

Математическая статистика задачи с решением

Следовательно, зависимость между величинами Математическая статистика задачи с решением и Математическая статистика задачи с решением выражается приближённой формулой

Математическая статистика задачи с решением

3) Остаточная дисперсия:

Математическая статистика задачи с решением

То сеть величина ошибки, которая возникает при замене Математическая статистика задачи с решением линейной функцией, невелика можно сделать вывод, что между величинами Математическая статистика задачи с решением и Математическая статистика задачи с решением существует приближённая линейная зависимость.

4) Корреляционное поле и линия регрессии на корреляционном поле представлены на следующем рисунке:

Математическая статистика задачи с решением

Возможно эти страницы вам будут полезны:

  • Предмет теория вероятностей и математическая статистика Решение задач по теории вероятностей
  • Помощь по теории вероятности
  • Заказать работу по теории вероятности
  • Контрольная работа по теории вероятности
  • Курсовая работа по теории вероятности
  • Помощь по математической статистике
  • Заказать работу по математической статистике
  • Контрольная работа по математической статистике
  • Курсовая работа по математической статистике
  • Теория вероятностей краткий курс для школьников и студентов

Примеры решения задач по всем темам математической статистики

Математическая статистика – раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений.

Статистическое описание применяют к таким физическим процессам, для которых результат отдельного измерения не может быть предсказан с необходимой точностью. Тем не менее, при проведении достаточто большого числа повторных измерений может быть с достаточно хорошей точностью предсказана некоторая величина, являющаяся функцией результатов измерений.

При построении моделей в математической статистике предполагают вероятностную природу наблюдаемых явлений и используют математический аппарат теории вероятностей. Хотя математическая статистика и опирается на методы и понятия теории вероятностей, но можно сказать, что в каком-то смысле математическая статистика решает обратные задачи.

Основные понятия и задачи математической статистики

Математическая статистика — это наука, изучающая методы сбора, систематизации и интерпретации числовых (случайных) данных,

В этом определении интерпретация и систематизация данных рассматривается как существенный аспект.

Главная цель статистики — получение осмысленных заключений из несогласованных (подверженных разбросу) данных.

Действительно, исключая тривиальные ситуации, реальные данные всегда являются несогласованными, что требует применения статистических методов. Рассогласованность (разброс) между индивидуальными наблюдениями может быть, например, обусловлена ошибкой при считывании позиции стрелки прибора, когда она расположена между двумя делениями шкалы стрелочного прибора. Изменчивость может быть также следствием нестабильности работы электронного оборудования при передаче сообщений по радио или телеграфу. (В последнем случае для характеристики ситуации используется термин «шум»).

Чем же конкретно занимается математическая статистика? Какие задачи решает?

Выборочные распределения

Статистика должна получить свои выводы, используя наличную выборку. Каждое наблюдение является реализацией некоторой случайной величины. Известно множество значений, которые может принимать случайная величина; некоторые из них имеют большую возможность появления, чем другие.

Значение, которое наблюдалось, представляет собой реализацию. Вероятности возможных реализаций характеризуются распределением вероятностей случайных величин (СБ). Обычно функции распределения вероятностей бывают заданы с точностью до одного, двух параметров значений некоторых неизвестных. Это приводит к проблеме поиска таких комбинаций выборочных значений, которые бы давали наилучшее приближение для неизвестных параметров. Каждая такая комбинация и есть статистика. Выборочное распределение статистики поволяет судить, может ли предложенная статистика служить оценкой интересующего нас параметра,

Оценки, тесты (критерии значимости), решения Проблема оценивания была схематично рассмотрена выше. Ясно, что разумная процедура оценивания не должна ограничиваться лишь выбором приближенного численного значения для неизвестного параметра; она должна что-то говорить и о надежности этого приближения. Обычно говорят о точечном оценивании и об интервальном оценивании.

Существуют различные методы конструирования точечных оценок и определения их надежности. Наиболее полезным из них является метод максимального правдоподобия (ММП). Другой известный метод, который можно рассматривать либо как специальный случай ММП, либо как независимую процедуру подгонки, — метод наименьших квадратов.

Интервальное оценивание связано с определением «доверительных интервалов», правдоподобных интервалов, байесовских интервалов.

Поскольку статистика в целом основана на случайной изменчивости, каждая оценка подвержена ошибке. Так, если получены две различные оценки параметра — одна при одном наборе условий, а другая -при другом, непосредственно неясно, соответствует ли имеющееся между ними различие различию между параметрами. Вопрос об их различии решается с помощью статистического критерия (теста) или критерия значимости.

Один из подходов к статистическим критериям (проверки гипотез) связан с именем Р.А. Фишера, который рассматривает проверку гипотезы как пробный шаг в проведении научного исследования, позволяющий получить ученому объективный критерий, с помощью которого можно судить об истинности гипотезы.

Другой подход связан в основном с именами Дж. Неймана и Э. Пирсона, которые рассматривают процедуру проверки гипотезы как правило, с помощью которого должен быть сделан выбор либо принято решение об истинности одной гипотезы в противоречие другой.

Одна из частных проблем теории проверки статистических гипотез -оценка пригодности модели, предложенной для объяснения (интерпретации) данных, При этом необходимо решить: насколько предложенная модель соответствует выборке? И являются ли выборочные значения действительно близкими к тем, которые можно ожидать, используя подогнанную модель? Наиболее широко для решения подобных вопросов применяется процедура, предложенная Карлом Пирсоном и использующая критерий, основанный на ее выборочном распределении. Это пирсоновский критерий согласия хи-квадрат.

Генеральной совокупностью случайной величины

Статистическая устойчивость случайных явлений проявляется лишь при большом (в пределе — бесконечно большом) числе наблюдений. Однако на практике реальное число наблюдений ограничено. Поэтому характеристики случайных величин (СВ), определенные по малому числу наблюдений, в принципе не должны совпадать с величинами тех же характеристик, определенными по большому числу наблюдений (условия опыта остаются неизменными). Чтобы провести различие между характеристиками СВ, найденными по достаточно большому и малому числу наблюдений, в математической статистике введены понятия абстрактной генеральной совокупности и выборки.

Генеральной совокупностью случайной величины Примеры решения задач по математической статистике называется множество всех значений, которые может принимать случайная величина Примеры решения задач по математической статистике.

Выпорка представляет собой совокупность ограниченного числа наблюдений.

В соответствии с этим различают выборочные характеристики СВ, найденные по ограниченному числу наблюдений (выборке) и зависящие от числа наблюдений, и соответствующие им характеристики в генеральной совокупности, не зависящие от числа наблюдений. При этом выборочные характеристики рассматриваются как оценки соответствующих характеристик в генеральной совокупности.

На практике во многих случаях функция распределения рассматриваемой случайной величины Примеры решения задач по математической статистике неизвестна; ее определяют по результатам наблюдений или, как говорят, по выборке.

Выборкой объемом Примеры решения задач по математической статистике для данной случайной величины Примеры решения задач по математической статистике называется последовательность Примеры решения задач по математической статистике независимых наблюдений этой величины.

Пусть из генеральной совокупности извлечена выборка, причем

Примеры решения задач по математической статистике

Объем выборки:

Примеры решения задач по математической статистике

Наблюдаемые значения Примеры решения задач по математической статистике называют вариантами, а последовательность вариантов, записанных в возрастающем порядке, — вариационным рядом.

Число наблюдений называют частотами, а их отношение к объему выборки: Примеры решения задач по математической статистике — относительными частотами (частостями).

В статистике различают малые и большие выборки.

Малой выборкой считают такую выборку, при обработке которой методами, основанными на группировании наблюдений, нельзя достичь заданных точности и достоверности.

Больший считают такую выборку, при обработке которой можно перейти к группированию наблюдений без ощутимой потери информации и достижению заданных значений точности и достоверности.

Если выборка достаточно велика, то построенный на ее основе вариационный ряд неудобен для дальнейшего статистического анализа. В Этом случае строится гак называемый группированный статистический ряд.

Группирование данных, гистограмма, полигон

При группировании данных необходимо соблюдать определенные правила. Рассмотрим наиболее важные из них:

  1. Объем выборки должен быть достаточно велик Примеры решения задач по математической статистике.
  2. Число интервалов группирования Примеры решения задач по математической статистике (число групп) должно находиться в интервале Примеры решения задач по математической статистике. При выборе Примеры решения задач по математической статистике в каждом конкретном случае следует помнить, что при малом числе групп определение вида теоретической кривой распределения по эмпирическим данным может быть затруднено из-за маскировки (утраты) резких изменений кривой распределения, если они фактически имели место. При большом числе групп и незначительном объеме выборки будет наблюдаться большое количество пропусков (ноль попаданий в группу), что будет обусловлено не столько видом распределения, сколько недостатком статистики, кроме того, в этом случае даже небольшие случайные колебания приводят к искажению кривой распределения.
  3. Необходимо, по возможности, охватывать всю область данных, так как при неизвестных предельных значениях невозможно вычислить некоторые числовые характеристики выборки.
  4. Интервалы не должны перекрываться. Не должно возникать никаких сомнений относительно того, в какой интервал попадает любое значение.
  5. Если заведомо известно, что теоретическая кривая может быть двумодальной, число групп может быть увеличено в 1,5-2 раза по сравнению с оптимальным числом Примеры решения задач по математической статистике.

Оптимальное число групп Примеры решения задач по математической статистике выборки объемом Примеры решения задач по математической статистике рассчитывается по формулам:

• при известном значении

Примеры решения задач по математической статистике
Примеры решения задач по математической статистике

• при неизвестном значении Примеры решения задач по математической статистике, но известно, что

Примеры решения задач по математической статистике
Примеры решения задач по математической статистике

• согласно формуле Стерджесса:

Примеры решения задач по математической статистике

Из (8.3) видно, что для увеличения оптимального количества интервалов на единицу необходимо увеличить объем выборки вдвое, Шаг группирования (ширина интервала) Примеры решения задач по математической статистике определяется по формуле:

Примеры решения задач по математической статистике

Для графического изображения вариационных рядов наиболее часто используются полигон, гистограмма и кумулятивная кривая.

Гистограммой распределения, или просто гистограммой называется чертеж в прямоугольной системе координат, горизонтальная ось которого разбивается на Примеры решения задач по математической статистике равных интервалов (групп) шириной Примеры решения задач по математической статистике. На каждом отрезке, как на основании, строится прямоугольник с высотой, равной частоте (частости) Примеры решения задач по математической статистике соответствующего интервала.

Полигоном распределения. или просто полигоном называется ломаная линия, соединяющая середины верхних оснований каждого столбца гистограммы. За пределами гистограммы как слева, так и справа размещают пустые интервалы, в которых точки, соответствующие их серединам, лежат на оси абсцисс.

Кумулятивная кривая (кумулята) — кривая накопления частот (час-гостей). Для дискретного ряда кумулята представляет ломаную, соединяющую точки

Примеры решения задач по математической статистике

Для интервального вариационного ряда ломаная начинается с точки, абсцисса которой равна началу первого интервала, а ордината — накопленной частоте (частости), равной нулю. Остальные точки этой ломаной соответствуют концам интервалов.

Пример № 1

Построить полигон, гистограмму и кумуляту по выборке объема Примеры решения задач по математической статистике. Сгруппированные данные приведены в таблице.

Примеры решения задач по математической статистике
Примеры решения задач по математической статистике

Статистическая (эмпирическая) функция распределения

Статистическим распределением выборки называют перечень вариантов и соответствующих им частот или относительных частот (частосгпей).

В теории вероятностей под распределением понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике — соответствие между наблюдаемыми значениями и их частотами или относительными частотами.

Пример № 2

Задана выборка объемом Примеры решения задач по математической статистике с соответствующими частотами. Необходимо найти частости (относительные частоты).

Примеры решения задач по математической статистике

Контроль:

Примеры решения задач по математической статистике

Пусть исследуется статистическое распределение частот количественного признака (случайной величины) Примеры решения задач по математической статистике. Введем обозначение:

Примеры решения задач по математической статистике — число наблюдений, при которых отслеживалось значение признака меньшее Примеры решения задач по математической статистике;

Примеры решения задач по математической статистике — общее число наблюдений (объем выборки). Очевидно, что относительная частота (частость) события Примеры решения задач по математической статистике равна Примеры решения задач по математической статистике.

Статистической функцией распределения случайной величины Примеры решения задач по математической статистике называется функция, определяющая для каждого значения Примеры решения задач по математической статистике относительную частоту события Примеры решения задач по математической статистике:

Примеры решения задач по математической статистике

Сравним статистическую и интегральную функции распределения. Вспомним (теорема Бернулли), что относительная частота события Примеры решения задач по математической статистике, то есть Примеры решения задач по математической статистике стремится по вероятности к вероятности Примеры решения задач по математической статистике этого события.

Функция Примеры решения задач по математической статистике обладает теми же свойствами, что и Примеры решения задач по математической статистике:

  1. Значения Примеры решения задач по математической статистике.
  2. Эмпирическая функция распределения Примеры решения задач по математической статистике— неубывающая.
  3. Если Примеры решения задач по математической статистике — наименьшая варианта, то Примеры решения задач по математической статистике при Примеры решения задач по математической статистике.
  4. Если Примеры решения задач по математической статистике — наибольшая варианта, то Примеры решения задач по математической статистике при Примеры решения задач по математической статистике.

Пример № 3

Построить эмпирическую функцию по данной выборке:

Примеры решения задач по математической статистике

Решение:

Найдем объем выборки Примеры решения задач по математической статистике = 12 + 18 + 30 = 60. Теперь найдем статистическую функцию распределения:

Примеры решения задач по математической статистике

Представим Примеры решения задач по математической статистике в аналитическом и графическом виде:

Примеры решения задач по математической статистике
Примеры решения задач по математической статистике

Выборочные значения и оценка параметров

Рассмотрим один из возможных методов оценивания среднего значения и дисперсии случайной величины Примеры решения задач по математической статистике по Примеры решения задач по математической статистике независимым наблюдениям:

Примеры решения задач по математической статистике

Здесь Примеры решения задач по математической статистике и Примеры решения задач по математической статистике — выборочное среднее и выборочная дисперсия соответственно. Индекс в формуле Примеры решения задач по математической статистике (см. 8.7) указывает на смещенность оценки дисперсии. Наряду с вышеприведенными характеристиками, при обработке результатов наблюдений обычно находят следующие оценки:

• выборочная дисперсия (несмещенная)

Примеры решения задач по математической статистике

♦ среднее квадратическое отклонение

Примеры решения задач по математической статистике

• выборочный коэффициент асимметрии

Примеры решения задач по математической статистике

выборочный коэффициент эксцесса

Примеры решения задач по математической статистике

Для установления качества или «правильности» любой оценки используются свойства (требования) «хороших оценок».

Требования «хороших оценок»

1 Несмещенность.

Во-первых, желательно, чтобы математическое ожидание оценки равнялось оцениваемому параметру:

Примеры решения задач по математической статистике

где Примеры решения задач по математической статистике — оценка параметра Примеры решения задач по математической статистике. Если свойство (8.12) имеет место, то оценка называется несмещенной.

2, Эффективность,

Во-вторых, желательно, чтобы среднеквадратическая ошибка данной оценки была наименьшей среди всех возможных оценок, то есть:

Примеры решения задач по математической статистике

где Примеры решения задач по математической статистике — исследуемая оценка, a Примеры решения задач по математической статистике — любая другая оценка. Если по свойство имеет место, то оценка Примеры решения задач по математической статистике называется эффективной.

3* Состоятельность,

В-третьих, желательно, чтобы оценка сходилась к оцениваемому параметру с вероятностью, стремящейся к единице по мере увеличения размера выборки, то есть для любого Примеры решения задач по математической статистике

Примеры решения задач по математической статистике

Если выполнено условие (8,14), то оценка называется состоятельной. Из неравенства Чебышева следует, что достаточным для выполнения (8.14) является условие:

Примеры решения задач по математической статистике

В качестве примера «хорошей оценки» рассмотрим оценку среднего значения (8.6). Математическое ожидание выборочного среднего Примеры решения задач по математической статистике равно:

Примеры решения задач по математической статистике

Следовательно, согласно (8.12), оценка Примеры решения задач по математической статистике несмещенная.

Среднеквадратическая ошибка выборочного среднего Примеры решения задач по математической статистике равна:

Примеры решения задач по математической статистике

Поскольку наблюдения Примеры решения задач по математической статистике, независимы, то математическое ожидание членов, содержащих смешанные произведения, равны нулю. Поэтому из (8.17) получим:

Примеры решения задач по математической статистике

Таким образом, согласно (8.15) оценка Примеры решения задач по математической статистике — состоятельная. Можно показать, что эта оценка эффективна.

Рассмотрим оценку дисперсии по формуле (8.7).

Примеры решения задач по математической статистике

Однако

Примеры решения задач по математической статистике

Поскольку

Примеры решения задач по математической статистике

то, подставив получим:

Примеры решения задач по математической статистике

Следовательно, оценка Примеры решения задач по математической статистике — смещенная.

Хотя оценка (выборочная дисперсия) Примеры решения задач по математической статистике и является смещенной, она состоятельна и эффективна. Из (8.21) понятно, что для получения несмещенной оценки Примеры решения задач по математической статистике следует взять несколько видоизмененную выборочную дисперсию (8.8).

Интервальное оценивание

Ранее мы обсудили использование выборочных значений в качестве оценок параметров случайных величин. Однако такие процедуры дают только точечные оценки интересующих нас параметров и не позволяют судить о степени близости выборочных значений к оцениваемому параметру. Более предпочтительная процедура — построения интервала, который накрывает оцениваемый параметр с известной степенью достоверности, Такой подход называется «интервальным оцениванием».

Сразу отметим следующее: чем больше уверенность в том, что оцениваемый параметр лежит в интервале, тем шире интервал.

Так что искать интервал, накрывающий параметр с вероятностью, равной единице, бессмысленно. Это вся область Примеры решения задач по математической статистике, то естьПримеры решения задач по математической статистике.

Пусть для параметра Примеры решения задач по математической статистике получена несмещенная оценка Примеры решения задач по математической статистике. Мы хотим оценить возможную при этом ошибку. Назначим некоторую достаточно большую вероятность Примеры решения задач по математической статистике (например: Примеры решения задач по математической статистике …)„ такую, что событие с вероятностью Примеры решения задач по математической статистике можно считать практически достоверным, и найдем такое значение Примеры решения задач по математической статистике, для которого выполняется соотношение

Примеры решения задач по математической статистике

Тогда диапазон практически возможных значений ошибки, возникающей при замене Примеры решения задач по математической статистике на Примеры решения задач по математической статистике будет равен Примеры решения задач по математической статистике Ошибки, большие по абсолютной величине Примеры решения задач по математической статистике будут появляться с малой вероятностью Примеры решения задач по математической статистике. Запишем (9.1) в другом виде:

Примеры решения задач по математической статистике

То есть неизвестное значение параметра Примеры решения задач по математической статистике с вероятностью Примеры решения задач по математической статистике попадает в интервал

Примеры решения задач по математической статистике

Ранее (в теории вероятностей) мы рассматривали вероятность попадания случайной величины на некоторый интервал. У нас же а не случайная величина, а интервал случаен, здесь корректно говорить о вероятности Примеры решения задач по математической статистике накрыть точку а.

Вероятность Примеры решения задач по математической статистике принято называть доверительной вероятностью, а интервал Примеры решения задач по математической статистике — доверительным интервалом.

Рассмотрим задачу нахождения доверительных границ Примеры решения задач по математической статистике и Примеры решения задач по математической статистике параметра Примеры решения задач по математической статистике, имеющего несмещенную оценку Примеры решения задач по математической статистике. Если бы нам был известен закон распределения величины Примеры решения задач по математической статистике, то из выражения (9.1) нахождение Примеры решения задач по математической статистике при заданной Примеры решения задач по математической статистике не представляло бы затруднений. Однако, как правило, мы не знаем закон распределения случайной величины Примеры решения задач по математической статистике.

Пусть теперь распределение случайной величины Примеры решения задач по математической статистике отлично от нормального. Применяя центральную предельную теорему, получаем следующий результат.

С увеличением объема выборки Примеры решения задач по математической статистике выборочное распределение выборочного среднего Примеры решения задач по математической статистике стремится к нормальному распределению независимо от вида распределения исходной случайной величины.

Практически во многих случаях выборочное Примеры решения задач по математической статистике можно считать нормальным уже при Примеры решения задач по математической статистике, а при Примеры решения задач по математической статистике приближение будет хорошим.

В качестве примера рассмотрим задачу нахождения доверительного интервала математического ожидания, Пусть произведено Примеры решения задач по математической статистике независимых опытов над случайной величинойПримеры решения задач по математической статистике с неизвестными Примеры решения задач по математической статистике.

Для этих параметров выберем оценки:

Примеры решения задач по математической статистике

Необходимо построить доверительный интервал Примеры решения задач по математической статистике соответствующий доверительной вероятности Примеры решения задач по математической статистике:

Примеры решения задач по математической статистике

Интервальная оценка математического ожидания при известной дисперсии

Пусть СВ Примеры решения задач по математической статистике имеет гауссово распределение с параметрами Примеры решения задач по математической статистике причем Примеры решения задач по математической статистике неизвестно значение Примеры решения задач по математической статистике известно. Тогда эффективной оценкой параметра Примеры решения задач по математической статистике будет Примеры решения задач по математической статистике.

При этом Примеры решения задач по математической статистике имеет нормальное распределение

Примеры решения задач по математической статистике

Статистика (оценка) СВ

Примеры решения задач по математической статистике

имеет распределение Примеры решения задач по математической статистике, независимо от параметра Примеры решения задач по математической статистике, и как функция Примеры решения задач по математической статистике — непрерывна и монотонна. Вспомним, что Примеры решения задач по математической статистике. Тогда, с учетом (9.2), запишем:

Примеры решения задач по математической статистике

где Примеры решения задач по математической статистике ~ квантили стандартного нормального распределения Примеры решения задач по математической статистике, причем Примеры решения задач по математической статистике Подставим Примеры решения задач по математической статистике в явном виде в (9.6):

Примеры решения задач по математической статистике

Запишем это неравенство относительно Примеры решения задач по математической статистике:

Примеры решения задач по математической статистике

Квантили стандартного нормального распределения определяются по таблицам, тогда окончательно получим:

Примеры решения задач по математической статистике

Искомый доверительный интервал математического ожидания нормально распределенной СВ с известной дисперсией равен:

Примеры решения задач по математической статистике

На рис. 9.1 представлена плотность распределения стандартного нормального распределения с отмеченными квантилями Примеры решения задач по математической статистике.

Примеры решения задач по математической статистике

Интервальная оценка математического ожидания при неизвестной дисперсии

На практике почти всегда генеральная дисперсия Примеры решения задач по математической статистике (как и оцениваемое математическое ожидание Примеры решения задач по математической статистике) неизвестна. Итак, имеется нормально распределенная СВ

Примеры решения задач по математической статистике

с неизвестными параметрами Примеры решения задач по математической статистике и Примеры решения задач по математической статистике случайной выборке найдем несмещенные, эффективные оценки

Примеры решения задач по математической статистике

Построение интервальной оценки основано на статистике:

Примеры решения задач по математической статистике

Вспомним, что

Примеры решения задач по математической статистике

и подставим в (9.11):

Примеры решения задач по математической статистике

Числитель выражения (9.12), как было показано выше, имеет стандартное нормальное распределение Примеры решения задач по математической статистике. Показано, что величина Примеры решения задач по математической статистике имеет Примеры решения задач по математической статистике распределение с Примеры решения задач по математической статистике степенями свободы. А статистика Примеры решения задач по математической статистике имеет распределение Стыодснта с Примеры решения задач по математической статистике степенями свободы. Распределение Стьюдента не зависит от неизвестных параметров распределения случайной величины Примеры решения задач по математической статистике, а зависит лишь от числа Примеры решения задач по математической статистике.

Следует отметить, что распределение Стьюдента напоминает нормальное распределение, и при Примеры решения задач по математической статистике сколь угодно близко приближается к нему.

Число степеней свободы Примеры решения задач по математической статистике определяется как общее число Примеры решения задач по математической статистике наблюдений (вариантов) случайной величины Примеры решения задач по математической статистике минус число уравнений, связывающих эти наблюдения, то есть Примеры решения задач по математической статистике

Так, например, для распределения Примеры решения задач по математической статистике статистики число степеней свободы Примеры решения задач по математической статистике, поскольку одна степень свободы «теряется» при определении выборочного среднего Примеры решения задач по математической статистике (Примеры решения задач по математической статистике наблюдений связаны одним уравнением).

Таким образом, по аналогии с (9.6) запишем:

Примеры решения задач по математической статистике

Ha рис. 9,2 представлена плотность распределения Стьюдента с пятнадцатью степенями свободы.

Доверительный интервал математического ожидания нормально распределенной СB с неизвестной дисперсией равен:

Примеры решения задач по математической статистике

Интервальная оценка выборочной дисперсии

Доверительный интервал для оценки дисперсии по выборочной дисперсии Примеры решения задач по математической статистике для СВ

Примеры решения задач по математической статистике

строится аналогичным образом.

Естественно, что в качестве математического ожидания и дисперсии гауссовой СВ мы возьмем их несмещенные и эффективные оценки:

Примеры решения задач по математической статистике

Исходя из вышесказанного, запишем:

Примеры решения задач по математической статистике

Это интервал, который с вероятностью Примеры решения задач по математической статистике накрывает неизвестную дисперсию. Из статистики известно, что если СВ Примеры решения задач по математической статистике имеет гауссово распределение

Примеры решения задач по математической статистике

то справедливо соотношение:

Примеры решения задач по математической статистике

Здесь Примеры решения задач по математической статистике хи-квадрат распределения с Примеры решения задач по математической статистике степенями свободы. Теперь, задавая Примеры решения задач по математической статистике или что равносильно Примеры решения задач по математической статистике, можно найти квантили (соответствующие) Примеры решения задач по математической статистике. При этом следует учесть, что распределение не симметрично (рис. 9.3).

Примеры решения задач по математической статистике

Как же решить эту задачу однозначно? Ведь сдвигая интервал влево или вправо соответствующим образом, можно для заданной доверительной вероятности найти бесконечное множество решений (интервалов).

Для обеспечения единообразия условились выбирать такие квантили (интервал), чтобы площадь под кривой, лежащая левее левой квантили, равнялась площади под кривой, расположенной правее правой квантили:

Примеры решения задач по математической статистике

Тогда из (9.19), учитывая (9.20), получим соответствующие границы интервала:

Примеры решения задач по математической статистике

Пример № 4

Дана выборка СВ Примеры решения задач по математической статистике объемом Примеры решения задач по математической статистике. Предполагается, что СВ Примеры решения задач по математической статистике распределена нормально с неизвестными параметрами Примеры решения задач по математической статистике.

Примеры решения задач по математической статистике

Необходимо найти доверительные интервалы для математического ожидания и дисперсии при доверительной вероятности, равной 0,97,

Решение:

В качестве несмещенных и эффективных оценок вычислим:

Примеры решения задач по математической статистике

a) Вычислим доверительный интервал для математического ожидания, если дисперсия известна (полагаем, что Примеры решения задач по математической статистике). Тогда из таблицы нормального распределения получим

Примеры решения задач по математической статистике

Подставим значения квантилий в (9.9) и (9.10):

Примеры решения задач по математической статистике
Примеры решения задач по математической статистике

b) Вычислим доверительный интервал для математического ожидания, при неизвестной дисперсии. Воспользуемся таблицей распределения Стьюдснта с числом степеней свободы

Примеры решения задач по математической статистике

Соответствующие квантили равны

Примеры решения задач по математической статистике

Подставим полученные значения в (9.15) и (9.16):

Примеры решения задач по математической статистике

c) Вычислим доверительный интервал для дисперсии. Воспользуемся таблицей распределения Примеры решения задач по математической статистике Симметричный 97 % вероятностный интервал с

Примеры решения задач по математической статистике

числом степеней свободы: (2,33; 20,5). Подставив полученные значения в (9.21), получим:

Примеры решения задач по математической статистике

Статистические критерии

Прежде чем перейти к рассмотрению понятия статистической гипотезы, сформулируем так называемый принцип практической уверен-посты, лежащий в основе применения выводов и рекомендаций, полученных с помощью теории вероятностей и математической статистики.

Если вероятность события А в данном испытании очень мала, то при однократном испытании можно быть уверенным в том, что событие А не произойдет, и в практической деятельности вести себя так, как будто событие А вообще невозможно.

Вопрос о том, насколько малой должна быть вероятность а события А, чтобы его можно было считать практически невозможным, выходит за рамки математической теории и решается в каждом отдельном случае с учетом важности последствий, вытекающих из наступления события А. В ряде случаев можно пренебречь событиями, вероятность которых меньше 0,05, а в других, когда речь идет, например, о разрушении сооружений, гибели судна и т. п., нельзя пренебрегать событиями, которые могут появиться с вероятностью, равной 0,00К

Статистическим критерием (или просто критерием) называют случайную величину Кщ которая служит для проверки гипотезы.

Критерии значимости (критерии проверки гипотез, иногда просто тесты) — это простейшие, но наиболее широко используемые стати сти ч ее к и е средства.

Критерий значимости дает возможность статистику найти разумный ответ на вопрОС, подобный следующим;

• Сталь, произведенная разными методами, имеет неодинаковые пределы прочности. «Указывает ли это на то, что производимая разными методами сталь имеет различную прочность или же выявленное различие можно объяснить выборочными флуктуация ми?»

  • «Превосходит ли по эффективности одно противогриппозное средство другое?»
  • «Способствует ли отказ от курения снижению вероятности раковых заболеваний?»
  • «Превосходит ли по воздействию одно удобрение другое приращивании овощей ? »

Проверка гипотез

Статистически называют гипотезу о виде неизвестного распределения или о параметрах известных распределений.

Рассмотрим простейший вид статистической процедуры, называемой проверкой гипотез. Пусть дана некоторая оценка Примеры решения задач по математической статистике построенная по выборке из я независимых наблюдений СВ Примеры решения задач по математической статистике. Предположим, что есть основания считать истинное значение оцениваемого параметра равным Примеры решения задач по математической статистике.

Однако, даже если истинное значение параметра Примеры решения задач по математической статистике равно выборочное значение Примеры решения задач по математической статистике, вероятно, не будет в точности равняться из-за выборочной изменчивости, присущей Примеры решения задач по математической статистике. Поэтому сформулируем следующий вопрос. Если предположить, что Примеры решения задач по математической статистике=Примеры решения задач по математической статистике то при каком отклонении Примеры решения задач по математической статистике от Примеры решения задач по математической статистике эта гипотеза должна быть отвергнута как несостоятельная? На этот вопрос ответ можно дать в статистических терминах, вычислив вероятность любого значимого отклонения Примеры решения задач по математической статистике от Примеры решения задач по математической статистике по выборочному распределению Примеры решения задач по математической статистике. Если вероятность такого отличия мала, то отличие следует считать значимым и гипотезаПримеры решения задач по математической статистике = Примеры решения задач по математической статистике должна быть отвергнута. Если же вероятность такого отличия велика, то отклонение следует приписать естественной статистической изменчивости и гипотеза = может быть принята.

Проиллюстрируем общий подход, предположив, что выборочное значение Примеры решения задач по математической статистике, являющееся оценкой параметра Примеры решения задач по математической статистике имеет плотность вероятности нормального распределения Примеры решения задач по математической статистике. Теперь, если гипотеза Примеры решения задач по математической статистике, верна, то Примеры решения задач по математической статистике должна иметь среднее значение Примеры решения задач по математической статистике (рис. ЮЛ).

Вероятность использованная при испытании гипотез, называется уровнем значимости критерия.

Вероятность того, что Примеры решения задач по математической статистике окажется меньше нижней границы Примеры решения задач по математической статистике, равна вероятности того, что Примеры решения задач по математической статистике превзойдет верхнюю границу Примеры решения задач по математической статистике и каждая из них равна Примеры решения задач по математической статистике. Следовательно, вероятность того, что Примеры решения задач по математической статистике окажется вне интервала, заключенного между этими границами, равна а. Область значений Примеры решения задач по математической статистике, при которых гипотеза принимается, называется областью принятия гипотезы

Нулевой (основной) называют выдвинутую гипотезу Примеры решения задач по математической статистике. В данном

примере Примеры решения задач по математической статистике: Примеры решения задач по математической статистике.

Область значений Примеры решения задач по математической статистике при которых гипотеза должна быть отверг нута, называется областью отклонения гипотезы, или критической областью,

Примеры решения задач по математической статистике

Конкурирующей (альтернативной) называют гипотезу, которая противоречит нулевой.

В данном примере

Примеры решения задач по математической статистике

Рассмотренный нами простой критерий испытания гипотез называется двусторонним критерием, так как, когда гипотеза неверна, значение может быть либо больше, либо меньше Примеры решения задач по математической статистике.

В ряде случаев достаточно бывает односторонних критериев (рис. 10.2). Например, пусть основная гипотеза

Примеры решения задач по математической статистике

Тогда альтернативная гипотеза:

Примеры решения задач по математической статистике

Следовательно, в критерии должна использоваться только нижняя (левая} граница определяемая по плотности вероятности Примеры решения задач по математической статистике.

Примеры решения задач по математической статистике

Ошибки проверки гипотез

При проверке гипотезы возможны два типа ошибок.

  • Во-первых, гипотеза может быть отклонена, хотя фактически она верна. Такая ошибка называется ошибкой первого рода.
  • Во-вторых, гипотеза может быть принята, хотя фактически она неверна. Такая ошибка называется ошибкой второго рода.

Проиллюстрируем эти понятия графически (рис, 10.3).

Примеры решения задач по математической статистике

Из рисунка видно, что ошибка первого рода происходит в том случае, когда при справедливости гипотезы Примеры решения задач по математической статистике значение Примеры решения задач по математической статистике попадает в область ее отклонения (критическую область). Следовательно„ вероятность ошибки первого рода равна Примеры решения задач по математической статистике — уровню значимости критерия.

Для определения вероятности ошибки второго рода предположим, к примеру, что истинный параметр равен либо

Примеры решения задач по математической статистике

либо

Примеры решения задач по математической статистике

(см. рис. 10.3), Если гипотеза состоит в том, что

Примеры решения задач по математической статистике

тогда как на самом деле

Примеры решения задач по математической статистике

то вероятность того, что Примеры решения задач по математической статистике попадает в область принятия гипотезы, заключенную между

Примеры решения задач по математической статистике

равна Примеры решения задач по математической статистике Следовательно, вероятность ошибки второго рода равна Примеры решения задач по математической статистике при выявлении отклонения величиной ±d от гипотетического значения Примеры решения задач по математической статистике.

Вероятность называется мощностью критерия Следует отмстить, что вероятности ошибок первого и второго рода вычисляются при разных предположениях о распределении (если верна гипотеза Примеры решения задач по математической статистике и если верна гипотеза Примеры решения задач по математической статистике), так что никаких раз и навсегда фиксированных соотношений (например Примеры решения задач по математической статистике, независимо от вида гипотезы и вида критерия) между ними нет. Таким образом, при фиксированном объеме выборки Примеры решения задач по математической статистике мы можем сколь угодно уменьшать ошибку первого рола, уменьшая уровень значимости Примеры решения задач по математической статистике. При этом, естественно, возрастает вероятность Примеры решения задач по математической статистике — ошибки второго рода (уменьшается мощность критерия). Единственный способ одновременно уменьшить ошибки первого и второго рода — увеличить размер выборки Примеры решения задач по математической статистике.

Именно такие соображения лежат в основе выбора нужного размера выборки в статистических экспериментах.

Пример № 5

Построение критерия проверки гипотез,

Предположим, что среднее значение СВ Примеры решения задач по математической статистике равно

Примеры решения задач по математической статистике

также предположим, что дисперсия известна и равна

Примеры решения задач по математической статистике

Необходимо найти объем выборки, позволяющий построить критерий проверки гипотезы

Примеры решения задач по математической статистике

с 5%-м уровнем значимости и 5%-й ошибкой второго рода для выявления 10%-х отклонений от гипотетического значения. Построим также область принятия гипотезы Примеры решения задач по математической статистике.

Решение:

Выборочное среднее Примеры решения задач по математической статистике определяемое формулой (8.6), является несмещенной оценкой Примеры решения задач по математической статистике. Соответствующее выборочное распределение определяется из соотношения (9.7):

Примеры решения задач по математической статистике

где Примеры решения задач по математической статистике имеет распределение Примеры решения задач по математической статистике Верхняя и нижняя границы области принятия гипотезы соответственно равны:

Примеры решения задач по математической статистике

Если теперь истинное среднее значение равно

Примеры решения задач по математической статистике

то с вероятностью Примеры решения задач по математической статистике произойдет ошибка второго рода, если выборочное среднее Примеры решения задач по математической статистике окажется меньше (левее) верхней границы и больше (правее) нижней. В терминах выборочного распределения Примеры решения задач по математической статистике со средним

Примеры решения задач по математической статистике

или

Примеры решения задач по математической статистике

для верхней и нижней границ (рис. 10,3);

Примеры решения задач по математической статистике

Итак, справедливы следующие равенства:

Примеры решения задач по математической статистике

Вспомним, что благодаря симметричности распределения Примеры решения задач по математической статистикесправедливы равенства:

Примеры решения задач по математической статистике

Теперь из (10.4) с учетом (10.5) найдем требуемый объем выборки:

Примеры решения задач по математической статистике

Для конкретных значений данного примера:

Примеры решения задач по математической статистике
Примеры решения задач по математической статистике

Подставим эти значения в (10.6) и получим значение необходимою объема выборки Примеры решения задач по математической статистике. Таким образом, объем выборки должен быть равен или больше пятидесяти двух. Область принятия гипотезы Примеры решения задач по математической статистике определяется соответствующими границами (верхней и нижней (10.2)):

Примеры решения задач по математической статистике

Математическая статистика основные определения и вычисления

Основные задачи математической статистики:

Математическая статистика — это раздел математики, который изучает методы обработки и классификации статистических данных для получения научно обоснованных выводов и принятия решений.

Примером статистических данных служит последовательность значений случайной величины, полученных в результате некоторого наблюдения, эксперимента (опыта). Так, последовательность чисел, которые получаются в результате неоднократного измерения некоторой величины, скажем, взвешивания некоторого тела на
аналитических весах, является простейшим примером статистических данных. Рассмотрим еще один пример. Электрическая лампочка считается стандартной, если она горит не менее 1400 часов. Каким образом определить, в какой степени партия лампочек, выпущенная заводом, соответствует установленному стандарту? Очевидно, что испытывать все лампочки бессмысленно. Поэтому выбирают случайным образом некоторое количество лампочек для испытания. Последовательность полученных данных о продолжительности горения отобранных лампочек представляет собой статистические данные, которые, будучи обработаны методами математической статистики, позволяют делать выводы о качестве данной партии продукции.

В связи с тем, что статистические данные зависят от случайных факторов, математическая статистика тесно связана с теорией вероятностей, которая является ее теоретической основой.

Как мы уже знаем, теория вероятностей устанавливает правила нахождения вероятностей более сложных событий (суммы, произведения событий) и вычисления различных числовых характеристик случайных величин (математического ожидания, дисперсии) по заданным вероятностям исходных событий. На практике же редко встречаются задачи, в которых вероятности
рассматриваемых событий были бы заранее известны. В таких случаях методами математической статистики можно получить сведения о случайной величине путем изучения небольшого набора наблюденных значений случайной величины, содержащего как можно больше нужных сведении о случайной величине.

Основные задачи математической статистики могут быть сформулированы следующим образом:

а) оценка неизвестных параметров случайной величины (вероятности случайного события, математического ожидания случайной величины, дисперсии, функции распределения);

б) статистическая проверка гипотез, т. е. проверка предположений, сделанных относительно некоторых случайных событий, случайных величин (о вероятности события, о законе распределения случайной величины и т. д. );

в) принятие решений (сюда относятся, в частности, задачи оптимального выбора момента настройки или замены действующей аппаратуры, например, определения срока замены двигателя самолета, отдельных деталей станков и т. д.).

В настоящее время математическая статистика продолжает бурно развиваться; при этом все больше расширяется круг ее задач и методов исследования с широким применением ЭВМ.

Так, разрабатываются статистические методы распознавания образов, определения характеристик элементов системы автоматического управления и т. д.

Математическая и прикладная статистика используется при планировании и организации производства, при анализе технологических процессов при предупредительном и приемочном контроле качества продукции и в других практических задачах.

Основные понятия математической статистики

Пусть требуется изучить множество значений случайной величины или совокупности объектов относительно некоторого признака. Например, требуется определить процент изделий, выпускаемых одним и тем же оператором, параметры которых отличаются от
номинальных.

Если число элементов в совокупности не очень большое, обследование объекта не связано с его уничтожением или не требует больших затрат, то можно исследовать каждый элемент в отдельности, фиксировать значение исследуемого признака и соответствующей обработкой результатов сделать тот или иной вывод о наблюдаемом или измеряемом признаке.

Если же совокупность состоит из очень большого числа объектов, или исследование связано с уничтожением объекта, или оно дорого стоит, то сплошное обследование невозможно. Невозможно, например,
исследовать на долговечность всю партию электрических
лампочек, так как в результате исследуемые лампочки сгорают и вся партия уничтожилась бы. В этих случаях выводы об исследуемом признаке делаются на основе изучения ограниченного числа
объектов, должным образом отобранных из общей совокупности. Основными понятиями математической статистики являются генеральная и выборочная совокупности.

Множество всех значений некоторой изучаемой величины или, другими словами, совокупность всех объектов, которая подлежит изучению, носит название генеральной совокупности, а специальным образом отобранная группа объектов — выборочной совокупности или выборки. Например, партия всех электрических
лампочек, которая подлежит изучению, является генеральной совокупностью, а множество лампочек, взятых для обследования, составляет выборочную совокупность.

Число объектов совокупности (генеральной или выборочной) называется объемом данной совокупности (выборки). Например, если цех выпустил 2000 деталей, а для обследования отобрано 150 деталей, то объем генеральной совокупности равен 2000 (N = 2000), а объем
выборки— 150 (п = 150).

Сейчас можно сказать, что основная задача математической статистики состоит в получении обоснованных выводов о свойствах генеральной совокупности по известным свойствам извлеченной из нее выборки.

Рассмотрим теперь основные виды выборок. Различают выборки с возвращением и без возвращения. Если после фиксирования значения параметра объект возвращается в генеральную совокупность и, таким образом, он может многократно повторяться в выборке, то говорят о выборке с возвращением или с повторением. Если же раз отобранный объект обратно не возвращается и он не может больше, чем один раз, повторяться в выборке, то такая выборка называется выборкой без возвращения или без повторения. Заметим, что когда объем выборки намного меньше объема генеральной
совокупности, то различие между выборкой с возвращением и без возвращения практически исчезает.

Говорят, что выборка репрезентативна (представительна), если она достаточно «хорошо» представляет изучаемые признаки генеральной совокупности.

Важным условием обеспечения репрезентативности выборки является соблюдение случайности отбора, т. е. все объекты генеральной совокупности должны иметь равные вероятности попасть в выборку.

С целью обеспечения репрезентативности выборки в зависимости от конкретных условий применяются различные способы отбора: простой, типический, механический, серийный.

Простым называется отбор, при котором из генеральной совокупности случайным образом извлекается по одному элементу с возвращением или без возвращения. Например, для изучения белых медведей экспедиция ловит- случайным образом попавшихся ей белых медведей, измеряет исследуемые параметры и отпускает
на волю или сдает в зоопарк в зависимости от целей, которые стоят перед ней.

Типическим называется отбор, при котором объекты случайным образом отбираются из каждой «типической» части генеральной совокупности…

Например, если детали изготовляются разными цехами, то для обеспечения репрезентативности выборки отбор производится случайным образом с соблюдением пропорций из продукции каждого цеха. Типическим отбором пользуются тогда, когда исследуемый признак существенно колеблется в различных частях генеральной совокупности.

Механическим называется отбор, при котором объекты отбираются через определенный интервал, скажем, каждый пятый, двадцатый, сотый и т. д. Механическим отбором надо пользоваться осторожно.

Например, если резец заменяется после тридцати обработанных
деталей, то нельзя составлять выборку, отбирая каждую десятую или пятнадцатую детали. Отметим, что в таких случаях целесообразно, чтобы номер отбираемой детали и период ритма работы были взаимно простыми числами. Тогда в выборку попадут объекты со всех точек периода ритма.

Серийным называется отбор, при котором выборка состоит из целой серии объектов. Этим способом пользуются в тех случаях, когда исследуемый признак в генеральной совокупности колеблется незначительно.

Например, если квалификация всех рабочих цеха, качество технических средств и сырья существенно не изменяются в течение недели, то для проверки недельной продукции данного цеха можно провести сплошную проверку продукции одного дня.

На практике для обеспечения репрезентативности выборки пользуются сочетанием вышеуказанных способов отбора.

Если отбор объектов из генеральной совокупности и образование выборки невозможны непосредственным манипулированием самими объектами ввиду их громоздкости, труднодоступности или по другим причинам, то объектам генеральной совокупности присваиваются номера, которые записываются, например, на отдельных карточках, удобных для перемешивания и осуществления отбора. Путем случайного отбора карточек образуется выборка заданного объема, а впоследствии из генеральной совокупности отбираются те объекты номера которых совпадают с номерами карточек, попавших в выборку. Описанным способом поступают,
например, при составлении тиражей выигрышных билетов в денежно-вещевых лотереях, облигаций трехпроцентного займа и др.

В научных исследованиях для формирования выборок чаще всего пользуются так называемыми таблицами случайных чисел, которые могут быть получены при помощи случайного выбора карточек или
специальными алгоритмами на ЭВМ. Существуют таблицы случайных чисел четырехзначные, пятизначные и т. д. Если надо, например, образовать выборку объема n из генеральной совокупности объема N = 100 000, то берем пятизначную таблицу случайных чисел и выписываем любую группу из n последовательных ее чисел. Обследованию подвергаются те объекты генеральной совокупности, номера которых совпадают с выписанными числами из таблицы случайных чисел.

Выборочные ряды распределения

Группировка статистических данных. Определение
статистических (выборочных) распределений

Для установления закономерностей массовых случайных явлений изучаются статистические данные, т. е. сведения, полученные путем наблюдений или экспериментов о значениях интересующего нас признака. Примеры статистических данных были приведены в § 1. Рассмотрим здесь еще один пример. Экономист, интересующийся
тарифным разрядом рабочих некоторого подразделения завода, выбрал документы 100 рабочих и выписал из них последовательность разрядов 5, 1, 4, 5, 4, 3, 6 и т. д. Эта последовательность представляет собой статистические данные, которые подлежат обработке.

Изучение статистических данных обычно начинается с их группировки в порядке возрастания значения признака. Пусть в нашем примере после упорядочения по возрастанию статистических данных мы получили ряд из 100 чисел

Математическая статистика

где 1 повторяется 4 раза, 2 — 6 раз, 3—12 раз, 4 — 16 раз (для экономии места мы не выписали этот ряд полностью), 5 — 44 раза и 6— 18 раз.

Наблюдаемые значения рассматриваемого признака называются вариантами, а последовательность вариант, записанных в возрастающем порядке, называется выборочным или вариационным рядом.

Условимся обозначать через Математическая статистика значения вариант в данной выборке, Если Математическая статистика — вариационный ряд, т. е. Математическая статистика — это наименьшее значение признака,
Математическая статистика — наибольшее значение признака в данной выборке, а разность Математическая статистика называется размахом выборки. В нашем примере Математическая статистика

Пусть из генеральной совокупности отобрана выборка, в которой значение Математическая статистика признака X наблюдалось Математическая статистика раз, значение Математическая статистика раз, …, значение Математическая статистика раз. Если объем выборки равен n, то

Математическая статистика

Числа Математическая статистика.., называются частотами, а их отношения к объему выборки, т, е. Математическая статистикаотносительными частотами соответствующих вариант.

Рассматривается еще накопленная или кумулятивная частота Математическая статистика, которая показывает, сколько наблюдалось элементов выборки со значениями признака, меньшими Математическая статистика. Отношение Математическая статистика накопленной частоты к общему объему выборки называется относительной накопленной частотой,

Математическая статистика

Определение:

Статистическим распределением выборки называется перечень вариант и соответствующих им частот или относительных частот.

В теории вероятностей изучается аналогичное понятие, именно закон распределения или просто распределение случайной величины. При этом под распределением случайной величины понимается соответствие между возможными значениями случайной величины и их вероятностями. Для дискретной случайной величины X, принимающей значения Математическая статистика с вероятностями Математическая статистика, закон распределения записывается, как правило, в виде таблицы

Математическая статистика

В первой строке этой таблицы указаны значения случайной величины, во второй соответствующие вероятности Аналогичным образом, статистическое распределение выборки можно записать в виде таблицы, в первой строке которой указываются значения вариант выборки, во второй строке — значения частот:

Математическая статистика

или значения относительных частот (которые легко вычисляются по известным частотам и объему выборки):

Математическая статистика

Так, статистическое распределение выборки рассмотренного выше примера, запишется в виде

Математическая статистика

или

Математическая статистика

Можно свести обе эти характеристики выборки в одну таблицу:

Таблица 6

Математическая статистика

Пример:

Дано статистическое распределение выборки

Математическая статистика

Найти относительные частоты, накопленные частоты накопленные относительные частоты.

Решение:

Вычислим объем выборки n = 3 + 10 + 7 = 20. Тогда

Математическая статистика

Пример:

Найти вариационный ряд, частоты, относительные частоты для выборки, полученной при измерении электрической емкости двадцати пластин пьезоэлементов в пикофарадах по следующим результатам:

Математическая статистика

Решение:

Вариационный ряд для данной выборки будет:

Математическая статистика

Здесь каждая варианта встречается по одному разу, следовательно, Математическая статистика для всех Математическая статистика Равными будут также и относительные частоты, причем Математическая статистика.

Теперь мы можем следующим образом уточнить понятие репрезентативности выборки: выборка является репрезентативной, если относительные частоты выборки близки к соответствующим относительным частотам генеральной совокупности (по всем вариантам генеральной совокупности).

Пример:

Исследовать репрезентативность выборки

Математическая статистика

для генеральной совокупности, заданной таблицей 6.

Решение:

Вычислим относительные частоты для нашей выборки (обозначим их через Математическая статистика):

Математическая статистика

Из этих подсчетов делаем вывод, что данную выборку можно считать репрезентативной.

При большом числе наблюдений и большом числе
вариант, удобно варианты группировать по отдельным интервалам их значений. Для этого шкала интересующего нас признака разделяется на некоторое число интервалов, и вместо отдельных вариант рассматриваются группы значений вариант, попавших в последовательно расположенные интервалы. Число m таких интервалов, как правило, берется в пределах от 10 до 20. Ширина
интервалов Математическая статистика определяется путем деления размаха выборки Математическая статистика на количество интервалов: Математическая статистика. В таких случаях составляется статистическое распределение выборки по частотам интервалов (интервальное статистическое распределение выборки). При этом частота интервала равна сумме частот вариант, попавших
в данный интервал.

Пример:

Для выборки примера 2 составить таблицу статистического распределения, по интервалам, беря число интервалов m = 10.

Решение:

Вычисляем ширину интервалов:

Математическая статистика

Следовательно, имеем интервалы (точнее, — промежутки):
[7,0; 7,5], ]7,5; 8,0], ]8,0; 8,5], ]8,5; 9,0], ]9,0; 9,5], ]9,5; 10,0], ]10,0; 10,5], ]10,5; 11,0], ]11,0; 11,5], ]11,5; 12,0]. Используя данные примера 2, получаем следующую таблицу статистического распределения
выборки по интервалам:

Математическая статистика

Геометрическая интерпретация статистических распределений выборки

Если на оси абсцисс прямоугольной системы координат расположить варианты Математическая статистика а на оси ординат — соответствующие им частоты, то в плоскости получим точки Математическая статистика. Соединим точки Математическая статистика отрезками прямых. Полученная ломаная линия называется
полигоном частот.

Математическая статистика

Пример:

Построить полигон частот для статистического распределения выборки, заданной таблицей 6.

Решение:

См. рис. 148

Полигоном относительних частот называют ломаную, отрезки которой соединяют точки Математическая статистика, Математическая статистика, построенные в системе координат так, что на оси абсцисс расположены варианты Математическая статистика а на оси ординат — относительные частоты Математическая статистика. Так как Математическая статистика , то ординаты точек Математическая статистика получаются из ординат точек Математическая статистика уменьшением их в n раз.

Следовательно, полигон частот будет представлять полигон относительных частот в системе координат, у которой масштаб на оси ординат увеличен в n раз.

Пример:

Построить полигон относительных частот для статистического распределения выборки, заданной таблицей 6.

Решение:

См. рис. 149.

Математическая статистика

Если статистическое распределение выборки задается в виде
последовательности интервалов значений вариант и их частот, то геометрическое изображение дается при помощи гистограммы
частот (очевидно, что в этом случае нельзя построить полигон частот).

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, построенных на частичных интервалах с длиной d и высотой, равной отношению Математическая статистика (плотность частоты на данном интервале).

Математическая статистика

Площадь i-го частичного прямоугольника равна Математическая статистикаСледовательно, площадь гистограммы частот равна сумме всех частот, т. е. объему выборки.

Гистограммы относительных частот строятся аналогичным образом, только в качестве высот прямоугольников берется отношение Математическая статистика (плотность относительной частоты на данном интервале).

Гистограмма относительных частот может быть получена из гистограммы частот сжатием вдоль оси ординат в n раз, или увеличением масштаба на оси ординат в n раз.

Легко видеть, что площадь гистограммы относительных частот равна единице.

Пример:

По данным изучения выработки на одного рабочего в отчетном году в процентах по отношению к предыдущему году было составлено интервальное статистическое распределение в виде таблицы 7 для выборки объема n = 117, извлеченной из всей
совокупности рабочих завода. Построить гистограмму статистического распределения данной выборки.

Таблица 7

Математическая статистика

Решение:

См. рис. 150.

Можно построить и график кумулятивной частоты или кумулятивной относительной частоты — кумулятивную кривую.

Пример:

Построить кумулятивную кривую частот для статистического распределения выборки, заданной таблицей 6.

Решение:

См. рис. 151.

Заметим, что кумулятивная кривая частот сыграничена сверху числом n, а кумулятивная кривая относительных частот ограничена сверху единицей.

Теоретико-вероятностные аналоги статистических распределений

Сопоставляя известные нам определения вероятности и данное выше определение относительной частоты выборки, легко заметить, что между ними имеется числовая связь. Однако следует подчеркнуть, что между этими двумя понятиями имеется и принципиальное различие. Это различие состоит в том, что вероятность события определяется до испытания, исходя из равновозможности элементарных событий, а относительная частота выборки — после испытания (отбора выборки). Обычно о равновозможности элементарных событий судят, исходя из. соображений симметрии, однородности и т. д., т. е. из теоретических соображений. Так, исходя из того, что игральная кость имеет форму куба, состоит из однородного материала, заключают, что вероятность появления какого-нибудь определенного числа очков, например 4, равна 1/6, причем такова же вероятность появления 1, 2, ».., 6 очков.

Математическая статистика

Определение же относительной частоты может быть получено только после того как испытания были фактически произведены. Так,
если при 100-кратном бросании игральной кости мы получили варианты

Математическая статистика

то относительные частоты будут

Математическая статистика

в то время как вероятность любого из указанных исходов равна Математическая статистика. Хотя численные значения этих величин и близки, они не совпадают. Однако если из теоретических соображений нам известно значение вероятности, то, как это следует из закона больших чисел, при большом объеме выборки относительная частота варианты
будет близкой к его вероятности. На практике же случаи, в которых можно определить вероятность, исходя из теоретических соображений, встречаются весьма редко. Поэтому на практике, учитывая закон больших чисел, в качестве приближенного значения вероятности случайной величины принимают относительную частоту репрезентативной выборки.

В силу такой тесной связи между понятиями вероятности и относительной частоты имеет место много аналогий между основными понятиями и теоремами теории вероятностей и математической статистики.

В математической статистике большую роль играют понятия, аналогичные понятиям математического ожидания, дисперсии, среднего квадратичного отклонения, известные нам из теории вероятностей.

Сводные числовые характеристики выборки

Как мы уже говорили выше, одной из основных задач математической статистики является оценка параметров генеральной совокупности (случайной величины) при помощи соответствующих параметров выборки. Пусть дана случайная величина X, принимающая значения Математическая статистика

Определение:

Выборочным средним Математическая статистика выборки объема n со статистическим распределением

Математическая статистика

называется «среднее взвешенное» значений признака выборки, т. е.

Математическая статистика

Если рассмотренная выборка является генеральной совокупностью объема N со статистическим распределением

Математическая статистика

то получаем генеральное среднее:

Математическая статистика

Вероятность Математическая статистика того, что случайная величина X получает значение Математическая статистика, будет Математическая статистика Вычислим математическое ожидание M(X) случайной величины X:

Математическая статистика

Таким образом,

Математическая статистика

Генеральное среднее (а следовательно, и математическое ожидание случайной величины) может быть оценено при помощи выборочной средней той или иной выборки. Точность таких оценок зависит от степени репрезентативности данной выборки.

Пример:

Вычислить генеральное среднее для генеральной совокупности, заданной таблицей 6.

Решение:

Математическая статистика

Пример:

Оценить генеральное среднее генеральной совокупности примера 1 при помощи выборочного среднего выборки

Математическая статистика

Решение:

Математическая статистика

Следовательно, можно принять Математическая статистика, что близко к истинному значению Математическая статистика (см. пример 1).

Пример:

По данным таблицы 7 оценить среднюю выработку на одного рабочего завода в отчетном году в процентах к предыдущему году (в качестве вариант берутся середины соответствующих интервалов).

Решение:

Оценим среднюю выработку при помощи выборочного среднего Математическая статистика:

Математическая статистика

Определение:

Выборочной дисперсией Математическая статистика которой выборки называется среднее взвешенное квадратов отклонений значений признака от выборочной средней Математическая статистика.

Если варианты Математическая статистика выборки объема n.
имеют частоты Математическая статистика то

Математическая статистика

Если рассматриваемая выборка является генеральной совокупностью, то получаем генеральную дисперсию Математическая статистика Пусть X — случайная величина, значения которой предоставлены генеральной совокупностью объема N со статистическим распределением

Математическая статистика

Тогда Математическая статистика

Вычислим дисперсию случайной величины X:

Математическая статистика

Множество значений случайной величины Математическая статистикапредставляет собой генеральную совокупность объема N с вариантами Математическая статистика с частотами Математическая статистика следовательно, для ее математического ожидания имеем:

Математическая статистика

Таким образом.

Математическая статистика

Генеральная дисперсия генеральной совокупности (а следовательно, и дисперсия случайной величины) может быть оценена при помощи выборочной дисперсии той или иной выборки. Точность такой оценки зависит от степени репрезентативности данной выборки.

Напомним, что дисперсия является характеристикой рассеяния значений признака вокруг своего среднего значения.

Часто рассматривается еще величина которая называется средним квадратическим отклоненнием выборки.

Пример:

Вычислить генеральную дисперсию генеральной совокупности, заданной таблицей 6.

Решение:

Из примера 1 имеем Математическая статистика. Тогда

Математическая статистика

Пример:

Оценить генеральную дисперсию генеральной совокупности, заданной таблицей 6, при помощи выборочной дисперсии выборки из примера 2.

Решение:

Из примера 2 имеем Математическая статистика.

Тогда

Математическая статистика

Следовательно, можно принять Математическая статистика, что близко к истинному значению Математическая статистика (см. пример 4),

Пример:

По данным таблицы 7 оценить дисперсию средней выработки на одного рабочего завода и среднее квадратическое отклонение.

Решение:

Из примера 3 имеем Математическая статистика. Тогда

Математическая статистика

Отсюда

Математическая статистика

Понятие об аппроксимации распределений

Пусть дано статистическое распределение частот некоторой выборки объема n случайной величины X. Пусть Математическая статистика — накопленная частота выборки. Очевидно, что Математическая статистика зависит от варианты Математическая статистика поэтому, для
простоты, обозначим ее через Математическая статистика т. е. Математическая статистика Аналогично,
относительную накопленную частоту Математическая статистикаобозначим через Математическая статистика. Ясно, что относительная частота события Математическая статистика равна Математическая статистика Обозначая через x текущую варианту, можем сказать, что Математическая статистика является функцией от x. Обозначим эту функцию через Математическая статистика:

Математическая статистика

и назовем ее функцией распределения выборки. Поскольку значения функции Математическая статистика определяются из опыта, то Математическая статистика называется эмпирической функцией распределения выборки. Функция Математическая статистикараспределения генеральной совокупности, которая может оставаться неизвестной или может быть выведена из теоретических результатов теории вероятностей, называется теоретической функцией распределения.

Из теоремы Бернулли следует, что относительная частота события Математическая статистика стремится по вероятности к вероятности Математическая статистика этого события. В силу этого числа Математическая статистика мало различаются между собой, т. е. Математическая статистика. Следовательно, эмпирическая функция Математическая статистика распределения выборки может быть
использована для приближенного представления теоретической функции распределения генеральной совокупности или соответствующей случайной величины.

Пример:

Построить эмпирическую функцию распределения по данному, распределению выборки:

Математическая статистика

Решение:

Вычислим объем выборки:

Математическая статистика

Наименьшая варианта Математическая статистика равна 2, следовательно,

Математическая статистика

Значение Математическая статистика равно 12, так как событие Математическая статистика наблюдается 12 раз. Тогда при Математическая статистика имеем

Математическая статистика

Значение Математическая статистика равно 23, так как событие Математическая статистика. наблюдается 12 + 11 = 23 раза. Тогда при Математическая статистика имеем:

Математическая статистика

Значение Математическая статистика равно 20 так как событие Математическая статистика наблюдается 12 + 11 + 3 = 26 раз. Тогда при Математическая статистика имеем

Математическая статистика

Наконец, так как Математическая статистика — наибольшая варианта, то Математическая статистика Следовательно, при X > 7 имеем:

Математическая статистика

Следовательно, искомая эмпирическая функция распределения дается формулой

Математическая статистика

График этой функции изображен на рис. 152

Таким образом, если дана генеральная совокупность (или случайная величина), закон распределения которой неизвестен, то извлекают репрезентативную выборку и вычисляют эмпирическую функцию распределения Математическая статистика для данной выборки и оценивают распре
деление генеральной совокупности Математическая статистика при помощи эмпирической функции распределения выборки Математическая статистика Иногда удобно поступить и обратным путем. Для многих распространенных случайных величин из теоретико-вероятностных соображений известен характер их

Математическая статистика

закона распределения. Многие Случайные величины, а следовательно, и генеральные совокупности, имеют нормальный закон распределения с функцией распределения

Математическая статистика

где параметры a и Математическая статистика имеют вполне конкретный вероятностный смысл: а — математическое ожидание, Математическая статистика — дисперсия случайной величины. Отметим еще, что существуют случайные величины с показательным законом распределения с функцией распределения

Математическая статистика

где а — математическое ожидание случайной величины, случайные величины с биномиальным законом распределения и др.
Допустим, что нам известен вид функции распределения генеральной совокупности, например, что генеральная совокупность имеет нормальное распределение, показательное распределение или какой-либо другой вид распределения. Рассмотрим некоторую выборку,
которая извлечена из данной генеральной совокупности.

Определяем по вариантам данной выборки значения параметров, входящих в формулу теоретической функции распределения. Заменяя найденные значения параметров в формулах функции распределения, получим конкретную функцию, которая является
аппроксимацией выборочных распределений теоретическими
распределениями. Таким образом, распределения конкретных выборок аппроксимируются теоретическими.

Совместные распределения случайных величин

1. Статистическая зависимость. Во многих случаях возникает необходимость совместного изучения двух или нескольких случайных величин. Две случайные величины могут быть независимыми, либо зависимыми, при этом зависимость может быть функциональной или статистической (во втором случае говорят еще — вероятностная, или стохастическая зависимость). В теории вероятностей и математической статистике изучаются статистические (стохастические) зависимости.

Зависимость между двумя случайными величинами называется статистической, если при изменении одной го величин изменяется закон распределения другой величины.

Пусть, например, Y — вес мужчин одного возраста, a X — их рост. Зависимость между Y и X не является функциональной, так как вес разных мужчин одного и того же роста различный, но изменение величины X ведет к изменению закона распределения величины Y — веса. Зависимость между Y и X является статистической.

Статистическая зависимость, у которой при изменении одной из величин изменяется среднее значение другой величины, называется корреляционной.

Пусть, например, Y — урожай участка, X — количество внесенных удобрений. Зависимость между Y и X не является функциональной, так как на равных участках земли при равном количестве удобрений снимают все же различный урожай. Это связано с тем, что урожай
зависит от многих случайных факторов. Тем не менее, опыт показывает, что средний урожай зависит от количества удобрений. Следовательно, случайные величины — урожай и количество внесенных удобрений — связаны корреляционной зависимостью.

Понятие о корреляции и регрессии

Рассмотрим две случайные величины Y и X. Допустим, что каждому значению X соответствует несколько значений Y, например при Математическая статистика = 2 величина Y принимает значения Математическая статистика

Среднее арифметическое значений величины Y при Математическая статистиканазывается условным средним и обозначается Математическая статистика. В нашем примере имеем

Математическая статистика

Как мы уже отметили, зависимость Y от X называется корреляционной зависимостью, если условная средняя Математическая статистикафункционально зависит от x:

Математическая статистика

Уравнение (1) называется уравнением регрессии Y на X; Математическая статистиканазывается регрессией Y на X, а ее график — линией регрессии Y на X.
Аналогично определяется корреляционная зависимость X от Y, Математическая статистика.

Различаются две основные задачи теории корреляции. Первая — установить вид функции регрессии (1) (линейная, квадратическая, показательная и т. д.). Вторая — определить величину рассеяния значений Y вокруг условного среднего Математическая статистика, т. е. оценить силу
зависимости Y от X.

3. Выборочное уравнение. Пусть X и Y — две случайные величины, связанные корреляционной зависимостью. Для отыскания уравнения этой зависимости проведено n независимых испытаний; в результате
получены n пар чисел:

Математическая статистика

Множество пар (2) является случайной выборкой из генеральной совокупности всех возможных пар (x; у) значений величин X и Y. Распределение выборки (2) называется выборочным распределением пары случайных величин X и Y. В связи с этим уравнение (1),
определенное по данным выборки (2), называется выборочным уравнением регрессии Y на X.

Нахождение уравнений выборочной регрессии методом наименьших квадратов

Будем искать выборочное уравнение регрессии

Математическая статистика

по выборке

Математическая статистика

в виде линейного уравнения — одного из самых распространенных случаев. При этом будем считать, что в данной выборке каждому значению x признака X соответствует единственное значение у признака Y. Тогда Математическая статистика, т. е. можем считать, что заданы средние
значения величины Y для каждого значения X.

Рассмотрим линейную функцию

Математическая статистика

и поставим задачу определить параметры Математическая статистика и b так, чтобы линейная функция Математическая статистика давала наилучшее приближение в смысле квадратического отклонения функции регрессии (1). Полученную линейную функцию назовем прямой линии регрессии Y на X. Угловой
коэффициент прямой линии регрессии Y на X называется выборочным коэффициентом регрессии Y на X и обозначается через Математическая статистика

Таким образом, выборочное уравнение прямой линии регрессии Y на X будем искать в виде

Математическая статистика

Если Математическая статистика a Математическая статистика — наблюдаемое значение Y, соответствующее Математическая статистика, то разности Математическая статистика. называются отклонениями значений Y. Подберем параметры Математическая статистика и b так, чтобы сумма квадратов отклонений Математическая статистика, которая равна

Математическая статистика

или

Математическая статистика

была минимальной.

Для отыскания минимума приравняем нулю соответствующие частные производные Математическая статистика

Математическая статистика

Отсюда находим:

Математическая статистика

Умножая уравнение (5) на n и (6) на — Математическая статистика получим:

Математическая статистика

Сложив полученные уравнения, имеем

Математическая статистика

Отсюда

Математическая статистика

Аналогично находим

Математическая статистика

Пример:

Найти выборочное уравнение прямой линии регрессии Y на X по данным n = 5 наблюдений:

Математическая статистика

Решение:

Составим расчетную таблицу дли вычисления Математическая статистика и b по формулам (7) и (8). В результате вычислений найдем линейную функцию регрессии:

Математическая статистика

Математическая статистика — решение заданий и задач по всем темам с вычислением

Статистический материал и его обработка

1°. Результаты наблюдений массовых явлений, случайных величин составляют статистические данные, или статистический материал. Выборкой объема n называется совокупность n случайно отобранных объектов. Множество всех объектов, из которых производится выборка, называется генеральной совокупностью (ГС).

Выборочный метод состоит в том, что на основании изучения некоторого количественного признака X у некоторой части статистической совокупности (выборки), полученной в результате случайного отбора, можно сделать вывод о характере распределения этого признака по всей статистической совокупности (генеральной совокупности).

Результаты наблюдений выборки объема n записываются, в частности, в виде статистической совокупности:

i: 1, 2, …. n — номера наблюдений, измерений,
Математическая статистика— значения наблюденной величины. При больших значениях n и различных значениях Математическая статистика необозримую статистическую совокупность подвергают специальным видам статистической обработки.

2°. Расположим значения Математическая статистика которые называются вариантами, в порядке возрастания и обозначим Математическая статистикаМатематическая статистикаВеличина R = b — а называется размахом статистической совокупности. Среди значений Математическая статистика, могут быть одинаковые. Пусть значение Математическая статистика наблюдалось Математическая статистикараз, Математическая статистика наблюдалось Математическая статистика раз, …, Математическая статистиканаблюдалось Математическая статистика раз. Тогда общий объем выборки равен

Математическая статистика

Число Математическая статистика, показывающее, сколько раз встречается варианта (значение) Математическая статистиканазывается частотой Математическая статистика, а число Математическая статистикаотносительной частотой варианты Математическая статистика

Имеем

Математическая статистика

Последовательность Математическая статистика записанная в порядке возрастания с указанием частот и (или) относительных частот, называется вариационным рядом, который может быть представлен в виде таблицы (варианты вариационного ряда различны):

Математическая статистика

Геометрическим изображением вариационного ряда является эмпирический полигон распределения, являющийся аналогом плотности распределения случайной величины X, — ломаная с вершинамиМатематическая статистика

Вариационный ряд обозрим при небольших значениях Математическая статистикаВ противном случае его (или первоначальную статистическую совокупность) подвергают интервальной обработке.

3°. Все варианты принадлежат отрезку (см. п. 2°). Пусть к некоторое (не больше 20) натуральное число. Отрезок [а; b] разобьем на к равных частей длины h =(b — a)/k. Обозначим эти промежутки следующим образом:

Математическая статистика

Через Математическая статистикаобозначим число вариант Х, попавших в интервал Математическая статистика Если некоторые значения Математическая статистика совпадают с Математическая статистикато половину их количества отнесем к левому интервалу, а половину — к правому (в случае нечетного числа таких значений одно из них можно отнести к тому или иному интервалу произвольно). Положим еще Математическая статистика Числа Математическая статистикаможно отнести также к середине Математическая статистикаинтервала, Математическая статистика Полученные данные занесем в таблицу, называемую интервальной обработкой ряда, или статистической совокупности.

Математическая статистика

Три последние строки этой таблицы составляют вариационный ряд, которым можно заменить вариационный ряд предыдущего пункта (в случае, если число его вариант велико). В качестве новых вариант можно принять середины интервалов.

Геометрическим изображением интервальной обработки служит гистограмма. Гистограммой частот называется множество прямоугольников с основаниями Математическая статистика и высотами Математическая статистикаПлощадь гистограммы равна объему выборки n.

Нормированной гистограммой называется множество прямоугольников с основаниями Математическая статистика и высотами Математическая статистикаПлощадь этой гистограммы (ступенчатой фигуры) равна 1. По гистограмме легко построить эмпирический полигон, и наоборот.

4°. Эмпирической функцией распределения выборки объема n называется функция F(x), определяющая для каждого х относительную частоту события X < х:

Математическая статистика — число вариант Математическая статистика меньших чем х.

Функция F(x) обладает свойствами (здесь Математическая статистика Математическая статистика)

1)Математическая статистика

2) F(x) = 0 при x < a, F(x) = 1 при x > b.

3) F(x) — монотонно неубывающая, непрерывная слева функция.

Пример обработки статистического материала.

Признак X — объем товарооборота (в млн. руб.) группы обследованных магазинов в течение месяца. Результаты обследования 50 магазинов следующие: 32, 17, 22, 15, 22, 17, 20, 26, 27, 32, 17, 32, 17, 22, 15, 26, 17, 22, 15, 20, 26, 32, 22, 32, 37, 22, 15, 20, 27, 26, 32, 37, 22, 20, 27, 32, 37, 22, 32, 37, 26, 32, 17, 32, 22, 15, 20, 26, 22; 32.

1) Вариационный ряд имеет вид:

Математическая статистика

2) Полигон распределения (рис. 8.1):

Математическая статистика

3) Для удобства интервальной обработки расширим интервал, на котором расположены варианты х. Положим а = 14, b = 38 и разобьем интервал (14,38) на к = 4 равных интервала. Часть совпадающих значений Математическая статистикаотнесем к левым, а часть их — к правым интервалам.

Математическая статистика

Гистограмма частот (рис. 8.2) — набор внешних прямоугольников. Нормированная гистограмма — нижняя, внутренняя.

4) Эмпирическая функция распределения и ее график (рис. 8.3):

Математическая статистика

Математическая статистика

Числовые характеристики законов распределения эмпирических величин

1°. Одна из задач математической статистики состоит в установлении закона распределения случайной величины X (генеральной совокупности) и оценке параметров этого закона.

Вид закона выбирается из каких-либо теоретических или практических соображений, а параметры следует вычислять, исходя из имеющейся выборки.

Например, для нормального закона нужно определить математическое ожидание а и среднее квадратическое отклонение Математическая статистика а для распределения Пуассона достаточно одного параметра Математическая статистика

2°. Обозначим через Математическая статистикапараметр, подлежащий определению, а через Математическая статистикаего оценку. Оценки параметров должны удовлетворять следующим условиям:

1) несмещенности — математическое ожидание оценки параметра должно совпадать с самим параметром;

2) эффективности — при данном объеме выборки оценка должна иметь наименьшую дисперсию;

3) состоятельности — предел по вероятности при Математическая статистикапоследовательности таких оценок равен искомому параметру, т.е. вероятность того, что Математическая статистикастремится к нулю при Математическая статистика.

3°. Оценка называется точечной, если она определяется лишь одним числом, и интервальной, если она определяется двумя числами — концами интервала.

Число Математическая статистиканазывается точностью оценки, если имеет место неравенство — Математическая статистикаЕсли это неравенство имеет место с некоторой вероятностью Математическая статистика, то число Математическая статистиканазывается надежностью оценки, или уровнем надежности. Наиболее употребительными уровнями надежности являются

Математическая статистика

Интервал Математическая статистикав котором (с заданным уровнем надежности) находится параметр Математическая статистика называется доверительным интервалом оценки.

4°. Выборочной средней Математическая статистиканазывается арифметическое среднее СВ X по выборочной совокупности объема n:

Математическая статистика

Выборочная средняя служит несмещенной оценкой математического ожидания признака X или генеральной совокупности.

5°. Выборочная дисперсия — среднее арифметическое квадратов отклонений наблюденных значений Математическая статистикаот выборочной средней:

Математическая статистика

Математическая статистика — смещенная дисперсия СВ X, а в качестве несмещенной оценки дисперсии Математическая статистика генеральной совокупности X принимают величину

Математическая статистика

S — несмещенная дисперсия.

6°. Мода выборки — варианта Математическая статистикас наибольшей частотой, медиана Me — варианта, делящая ряд на две равные части: если n = 2k + 1, то Математическая статистикаа если n = 2к, то Математическая статистика

7°. Начальные эмпирические моменты Мk (к = 1,2,3,4) и центральные эмпирические моменты Математическая статистикаопределяются формулами:

Математическая статистика

8°. Варианты Математическая статистика, составляющие арифметическую прогрессию, называются равноотстоящими.

Для упрощения вычислений начальных моментов равноотстоящих вариант удобно переходить к так называемым условным, или центрированным вариантам: Математическая статистика где с — новое начало отсчета, а Математическая статистика— разность (шаг) прогрессии.

Центральные моменты первых четырех порядков равноотстоящей выборки Математическая статистикавыражаются через начальные моменты Математическая статистика условных вариант по формулам:

Математическая статистика

Асимметрия выборки: Математическая статистика эксцесс: Математическая статистика

В вычислениях можно указать индексом варианту, для которой вычисляются соответствующие моменты (например, Математическая статистика)

9°. Предположим, что признак X генеральной совокупности распределен нормально со средним квадратическим отклонением Математическая статистикаИмеет место формула доверительной вероятности Математическая статистикаМатематическая статистика Тогда с надежностью Математическая статистикаможно утверждать, что математическое ожидание случайной величины X принадлежит доверительному интегралу

Математическая статистика

Значение t следует найти в табл. 1 приложения по значению функцииМатематическая статистика

Доверительный интервал с надежностью а для оценки среднего квадратического отклонения сто нормального распределения по несмещенной оценке S определяется из неравенства:

Математическая статистика

где Математическая статистикаопределяется из табл. 5 приложения, в которой приведены значения функции Математическая статистикапо доверительной вероятности Математическая статистика и объему выборки n.

10°. Если признак X распределен по биномиальному закону с относительной частотой Математическая статистикато при больших n доверительным интервалом неизвестной вероятности р с надежностью Математическая статистикабудет интервал

Математическая статистика

Задачи с решениями

Задача:

Дан статистический ряд — число дней в году, пропущенных по болезни сотрудниками лаборатории.

Математическая статистика

Определить среднее число дней на одного человека, пропущенных по болезни, и разброс этого числа около среднего.

Решение:

Определим среднее выборки объема n = 30 (k = 7) по формуле (1):

Математическая статистика

Дисперсию и среднее квадратическое отклонение вычислим по формуле (2):

Математическая статистика

Имеем

Математическая статистика

Округляя до целых, получаем, что среднее число (математическое ожидание) пропусков в году на одного человека составляет 4 дня, разброс 3 дня.

Задача:

Выборка, приведенная в следующей таблице, соответствует времени обслуживания (в минутах) покупателя магазина:

Математическая статистика

Привести прогноз времени обслуживания магазином и среднее квадратическое отклонение этого времени. Найти моду вариационного ряда.

Решение:

От интервальной таблицы переходим к вариационному ряду, заменяя интервал времени центром этого интервала:

Математическая статистика

Мода — варианта с максимальной частотой; Математическая статистика

Числа вариационного ряда не удобны для вычислений, т.к. они большие, поэтому переходим к условным вариантам с новым центром с = 48 и шагом (разностью) h = 4. Положим

Математическая статистика

Вычислим выборочное среднее и дисперсию для новой варианты. Для удобства приводим таблицу с промежуточными вычислениями.

Математическая статистика

При помощи сумм в последней строке таблицы вычислим:

Математическая статистика

Обратный переход к вариантам х осуществляется по формулам, которые следуют из формул п. 8°:

Математическая статистика

Получаем:

Математическая статистика

Прогноз обслуживания: Математическая статистикамин, разброс Математическая статистикамин.

Задача:

Случайная величина X — число семян сорняков в пробе зерна, распределена по закону Пуассона. В таблице

Математическая статистика

приведено распределение числа семян сорняков в n = 1000 пробах зерна. В первой строке — количество Математическая статистика сорняков в одной пробе, во второй — число проб, содержащих Математическая статистикасемян сорняков. Найти точечную оценку неизвестного параметра распределения Пуассона.

Решение:

Закон Пуассона имеет вид Математическая статистика где m — число испытаний, произведенных в одном опыте, Математическая статистика— число наступлений события в i-м опыте. Для закона Пуассона математическое ожидание совпадает с параметром Математическая статистика С другой стороны, несмещенной оценкой М(Х) принимается среднее выборки Математическая статистика

Вычисляем Математическая статистика по формуле п. 4°:

Математическая статистика

Ответ.

Математическая статистика

Задача:

Время работы элемента радиоустройства подчиняется закону Математическая статистика

В таблице

Математическая статистика

приведено эмпирическое распределение среднего времени работы
n = 200 элементов: Математическая статистика — среднее время работы элемента в часах, Математическая статистика — количество элементов, проработавших Математическая статистика ч. Найти Математическая статистика

Решение:

Как известно, для показательного закона математическое ожидание М(Х) равно Математическая статистика Следовательно, точечной оценкой Математическая статистикаслужит Математическая статистика Вычислим Математическая статистика

Математическая статистика

Следовательно, Математическая статистика

Ответ Математическая статистика

Задача:

Дан вариационный ряд признака X:

Математическая статистика

Найти начальные и центральные моменты первых четырех порядков признака X, а также определить асимметрию и эксцесс.

Решение:

Вычисления проводим по формулам п. 7° для Математическая статистика и п. 8° для Математическая статистикаh = 1.

Математическая статистика

Задача:

По данным выборочного обследования 7, 3, 0, 7, 2, 1, 2, 4, 5, 3 определить несмещенную выборочную дисперсию и среднее квадратическое отклонение.

Решение:

Составим сначала вариационный ряд:

Математическая статистика

Вычислим выборочное среднее Математическая статистика

Математическая статистика

Вычислим теперь выборочную дисперсию Математическая статистика

Математическая статистика

Несмещенная оценка дисперсии имеет вид Математическая статистикаМатематическая статистика

Несмещенное среднее квадратическое отклонение: Математическая статистика

Задача:

Найти с надежностью 0,99 доверительный интервал для оценки неизвестного математического ожидания нормально распределенного признака X генеральной совокупности, если
Математическая статистика = 20,5; n = 36 и Математическая статистика= 3.

Решение:

Согласно п. 9° доверительным интервалом неизвестного математического ожидания является интервал Математическая статистика, где

Математическая статистика

Определим сначала t из равенства 2Ф(t) = 0,99, т.е Ф(t) = 0,495. Из табл. 1 приложения находим Математическая статистика

Далее, Математическая статистика Наконец,

Математическая статистика

Математическая статистика

Ответ. 19,21 < а < 21,79.

Задача:

Найти доверительный интервал для оценки с надежностью 0,99 неизвестной вероятности р биномиального закона распределения, если в 400 испытаниях событие наступило 140 раз.

Решение:

Согласно п. 10° искомый доверительный интервал имеет вид:

Математическая статистика

Находим также

Математическая статистика

Наконец,

Математическая статистика

Ответ. Математическая статистика

Задача:

Из текущей продукции токарного автомата был произведен выбор 250 валов. Результаты измерений отклонения диаметра валов от номинала приведены в таблице:

Математическая статистика

Требуется:

1) найти оценки математического ожидания, дисперсии и среднего квадратического отклонения случайной величины X — отклонения диаметра вала от номинала;

2) определить доверительные интервалы неизвестного математического ожидания и неизвестного среднего квадратического отклонения случайной величины X. Предполагается, что случайная величина X имеет нормальное распределение. Доверительную вероятность принять равной 0,95.

Решение:

1) Составляем вариационный ряд, принимая в качестве вариант середины соответствующих интервалов:

Математическая статистика

В третьей строке таблицы записаны произведенияМатематическая статистика а в четвертой — произведения Математическая статистика

Последний столбец содержит суммы чисел соответствующих строк. Таким образом,

Математическая статистика

2) Согласно п.9°

Математическая статистика

Из равенства Ф(t) =Математическая статистикаи табл. 1 приложения находим
t = 1,96.

Далее,

Математическая статистика

3) Доверительный интервал для оценки Математическая статистика нормального распределения по несмещенной оценке 5 определяется из неравенства (см. п. 9°):

Математическая статистика

где Математическая статистика определяется из табл. 5 приложения, в которой приведены значения функции Математическая статистикапо доверительной вероятности Математическая статистикаи объему выборки n.

Имеем

Математическая статистика

При Математическая статистика и n = 250 в табл. 5 приложения находим
t(0,95; 250) = 0,089.

Следовательно,

Математическая статистика

Значит, Математическая статистика

Построение теоретического закона распределения и его согласование с эмпирическими данными

1°. Предположим, что выборка объема n из генеральной совокупности значений случайной величины X задана в виде вариационного ряда. Требуется определить вид теоретического закона распределения СВ X и установить, насколько этот закон согласуется с данной выборкой.

Вид теоретического закона выбирается интуитивно, исходя из вида эмпирического полигона, а его параметры вычисляются по методике, изложенной ранее, в предыдущих параграфах.

2°. Согласование теоретического закона с эмпирическими данными произведем на основании критерия Пирсона «хи квадрат», который заключается в оценке вероятности величины

Математическая статистика

где Математическая статистика — теоретическая частота варианты Математическая статистика

Если вероятность Математическая статистикавелика (больше 0,5), то расхождения между эмпирическими и теоретическими частотами считаются случайными и полученный закон принимается (не отвергается). Для вероятностей Математическая статистикаимеются специальные таблицы.

Мы будем пользоваться табл. 3 приложения. В ней приводятся критические значения Математическая статистика соответствующие данному уровню значимости а и числу степеней свободы критерия r = k — m — 1, где k — число групп выборки, m — число параметров используемого теоретического закона.

Наиболее употребительными уровнями значимости являются:

Математическая статистика

Значение Математическая статистикав таблице находится на пересечении строки r и столбца Математическая статистика.
Если Математическая статистикато теоретический закон принимается, а если Математическая статистика то закон отвергается.

Проверка гипотезы о нормальном распределении генеральной совокупности

Предположим, что выборка случайной величины X задана в виде вариационного ряда с равноотстоящими вариантами.

Правило. Для того, чтобы при данном уровне значимости проверить гипотезу о нормальном распределении генеральной совокупности, необходимо:

1) вычислить Математическая статистика
2) вычислить теоретические частоты Математическая статистикагде n — объем выборки, Математическая статистика — шаг ряда, и,

Математическая статистика

(значения даны в табл. 2 приложения);

3) вычислить значение Математическая статистика

4) в табл. 3 приложения найти значение по уровню значимости а и числу степеней свободы r = k — 3 (k — число групп выборки);

5) сравнить Математическая статистикаесли Математическая статистикаполученный закон признается верным, а если Математическая статистикаполученный закон отвергается.

Примечание. Малочисленные интервалы Математическая статистикаследует объединить, а соответствующие частоты, как эмпирические, так и теоретические — сложить.

Задачи с решениями

Задача:

Построить теоретический закон распределения генеральной совокупности СВ Х, заданной в виде выборки объема
n = 100 вариант при помощи вариационного ряда

Математическая статистика

Используя критерий Пирсона при уровне значимости Математическая статистикаустановить, согласуется ли полученный закон с данной выборкой. Найти также асимметрию и эксцесс эмпирического распределения и дать им надлежащее толкование.

Решение:

Первую рабочую таблицу (с. 349) используем для вычисления эмпирических начальных и центральных моментов данного вариационного ряда. Для этого переходим к центрированным вариантам Математическая статистика(с = 11, h = 3); в качестве центра с новых вариант можно брать моду (Мо) или медиану (Me) исходного вариационного ряда. В данном случае Математическая статистика

Математическая статистика

При помощи таблицы находим последовательно:

Математическая статистика

При помощи Математическая статистика и Математическая статистиканаходим Математическая статистикаМатематическая статистика и Математическая статистика

Построим эмпирический полигон (рис. 8.4) и, исходя из его внешнего вида, выдвигаем гипотезу: генеральная совокупность распределена по нормальному закону с параметрами

Математическая статистика

Для проверки этой гипотезы воспользуемся новой рабочей таблицей (с. 350), в которой

Математическая статистика

Математическая статистика

Математическая статистика— целое число), Математическая статистика — функция Лапласа.

Математическая статистика

Из таблицы находим Математическая статистика а при Математическая статистикаи числе степеней свободы k = 7 — 2 — 1 = 4 ( k7 — число групп выборки, m = 2 — число параметров задачи) из табл. 3 приложения имеем Математическая статистика

Следовательно, выдвинутая гипотеза о нормальном распределении генеральной совокупности не отвергается. График теоретической функции плотности изображен на рис. 8.4 пунктиром. Сравнивая теоретический и эмпирический графики, видим, что эмпирический полигон скошен вправо (что соответствует As = 0,13) и «слегка низковершинный» (что согласуется с Еk = — 0,71).

Задача:

Дан вариационный ряд случайной величины X с n = 150 вариантами:

Математическая статистика

Построить теоретический закон распределения СВ X. Используя критерий Пирсона при уровне значимости Математическая статистикаустановить, согласуется или нет построенный закон с эмпирическими данными.

Решение:

Сначала объединим малочисленные варианты, переходя к новому вариационому ряду с k = 10 различными вариантами и объемом выборки n = 150 Новый вариационный ряд имеет вид:

Математическая статистика

Построив полигон этого вариационного ряда (рис 8.5), замечаем, что он напоминает график нормального распределения, поэтому можно выдвинуть гипотезу о нормальном распределении данной СВ X. Параметры Математическая статистика и Математическая статистиказакона вычислим при помощи рабочей таблицы. В ней отражены варианты Математическая статистика, их частоты, центрированные варианты Математическая статистикагде с = 5,5 — это варианта с наибольшей частотой (мода), a h = 0,5 есть шаг равноотстоящих вариант Математическая статистика

Математическая статистика

Из таблицы получаем выборочное средние и среднее квадратическое отклонение СВ и

Математическая статистика
Математическая статистика

Соответствующие параметры для СВ X находим по формулам перехода

Математическая статистика
Математическая статистика

Тем самым теоретический закон имеет вид (принимаем Математическая статистика)

Математическая статистика

выпишем теоретические частоты, отклонения теоретических и эмпирических частот и определим

Математическая статистика

Положим Математическая статистика (принимаем Математическая статистика)

Математическая статистика

Математическая статистика

В таблице критических точек распределения Математическая статистика(табл. 3 приложения) находим при уровне значимости Математическая статистиказначение Математическая статистика(имеем r = 10 — 3 = 7 степеней свободы). Значение Математическая статистика

Гипотеза о том, что данное распределение нормально, отвергается при уровне значимости Математическая статистика. Вместе с тем гипотеза о нормальном распределении СВ X не отвергается при уровнях значимости Математическая статистикаМатематическая статистика

Таким образом, уровень значимости представляет собой уровень точности (близости) полученного закона к стандартному, каноническому.

Анализ экспериментальных данных позволяет найти причину того, что полученный закон не является нормальным в каноническом смысле. Этому мешает частота Математическая статистикачто приводит к островершинности распределения (предлагаем найти As и Ek и посмотреть, насколько они отличаются от стандартных As = 0 и Ek = 0)

Задача:

Используя критерий Пирсона при уровне значимости 0,05, проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200:

Математическая статистика

Решение:

Рекомендуем построить самостоятельно эмпирический полигон и сделать предположение о виде теоретического закона.

Непосредственные вычисления параметров нормального распределения дают следующие результаты:

Математическая статистика

Дальнейшие вычисления поместим в расчетную таблицу. Отметим только, что

Математическая статистика

(результаты для Математическая статистика округляем, ибо Математическая статистика— целые числа).

Математическая статистика

Последнее число 24,045 и есть Математическая статистика В табл. 3 приложения находим, что Математическая статистикапри Математическая статистикаr = k — 2 — 1 = 9 — 3 = 6.

Гипотеза о нормальном распределении генеральной совокупности признака X отвергается, т.к Математическая статистика

Проверка гипотезы о распределении генеральной совокупности по биномиальному закону

1°. Произведены п опытов. Каждый опыт состоит из N независимых испытаний, в каждом из которых вероятность события А равна
р = р(А). Регистрируется число наступлений события А в каждом опыте.

Для случайной величины X — числа появлений события А в одном опыте — получена таблица

Математическая статистика

Требуется, используя критерий Пирсона, проверить гипотезу о распределении X по биномиальному закону.

2°. Правило. Для того, чтобы при уровне значимости а проверить гипотезу о том, что дискретная случайная величина X распределена по биномиальному закону, необходимо (q = 1 — р):

1) вычислить вероятности Математическая статистика по формуле Бернулли

Математическая статистика

2) вычислить теоретические частоты Математическая статистика

3) сравнить эмпирические и теоретические частоты по критерию Пирсона при уровне значимости Математическая статистика и Математическая статистикастепеней свободы
( Математическая статистика — число групп выборки), если р = р(А) неизвестна, либо Математическая статистикастепеней свободы, если р = р(А) известна, т.е. дана в условиях задачи.

Задачи с решениями

Задача:

Произведены n = 100 опытов. Каждый опыт состоит из 10 испытаний. Вероятность появления события А в каждом испытании равна р = 0,3. В результате регистрации опытов получено эмпирическое распределение (Математическая статистика— число наступлений А в одном опыте, Математическая статистика — число опытов, в которых А произошло Математическая статистика раз):

Математическая статистика

Требуется установить при уровне значимости 0,05, согласуется ли с этими данными гипотеза о том, что СВ X — число появлений А — распределена по биномиальному закону.

Решение:

Построим полигон распределения (рис. 8.6). Применим правило п. 2°.

Математическая статистика

Математическая статистика

2) Вычислим теперь теоретические

Математическая статистика

В табл. 3 приложения по уровню значимости Математическая статистика и r = 6 — 2 = = 4 (k = 6 — число групп в выборке) находим Математическая статистика

Ответ. Гипотеза верна.

Задача:

Отдел технического контроля проверил n=100 партий по N = 10 изделий в каждой партии, и в результате этого получена таблица распределений случайной величины X — числа нестандартных изделий в одной партии:

Математическая статистика

Требуется при уровне значимости Математическая статистика проверить гипотезу о том, что X распределена по биномиальному закону.

Решение:

Вероятность р = р(А) вычисляем по выборке:
р = 0,4. В табл. 3 приложения находим Математическая статистикапоМатематическая статистика и числу степеней свободы r = 8 — 2 = 6: Математическая статистика Далее вычисляем теоретические частоты: 0,6; 4,0; 12,2; 25,1; 11,2; 4,4 и получаем Математическая статистика

Ответ. Гипотеза верна.

Проверка гипотезы о распределении генеральной совокупности по закону Пуассона

Правило. Для того, чтобы при уровне значимости а проверить гипотезу о том, что СВ X распределена по закону Пуассона, необходимо:

1) вычислить параметр Математическая статистика
2) вычислить Математическая статистика по закону Пуассона или по таблицам;
3) вычислить теоретические частоты Математическая статистика
4) применить критерий Пирсона при данном Математическая статистика и числу r = k — 2 степеней свободы, где k — число групп выборки

Задача с решением

Задача:

Отдел технического контроля проверил n = 200 партий одинаковых изделий и получил следующее эмпирическое распределение количества нестандартных изделий:

Математическая статистика

Требуется при уровне значимости Математическая статистикапроверить гипотезу о том, что число X нестандартных изделий распределено по закону Пуассона.

Решение:

Построим полигон распределения (рис. 8.7).

Математическая статистика

Закон Пуассона имеет вид:

Математическая статистика

Применим правило (см. выше).

1) Имеем

Математическая статистика

Принимаем Математическая статистика

2) Вычислим вероятности Математическая статистикаМатематическая статистика

Находим: р(0) = 0,549; р(1) = 0,329; р(2) = 0,098; р(3) = 0,019; р(4) = 0,003.

3) Вычислим (округляя до целого числа) теоретические частотыМатематическая статистика

Математическая статистика

4) Вычислим теперь Математическая статистикаЧастоты Математическая статистика(ввиду их малости) объединим в одну:

Математическая статистика

В табл. 3 приложения при Математическая статистикаи r = 4 — 2 = 2 находим Математическая статистикаМатематическая статистикаГипотеза подтверждается.

Проверка гипотезы о распределении генеральной совокупности по показательному закону

Правило. Для того, чтобы при уровне значимости Математическая статистика проверить гипотезу о том, что данное интервальное распределение подчиняется показательному закону, необходимо:

1) вычислить Математическая статистика и принять в качестве параметра показательного распределения число Математическая статистика

2) найти вероятности попадания X в частичные интервалы:

Математическая статистика

3) вычислить теоретические частоты Математическая статистика

4) применить критерий Пирсона при данном Математическая статистика и r = k — 2 степеней свободы, где к — число первоначальных интервалов выборки.

Задача с решением

Задача:

Дано интервальное распределение:

Математическая статистика

Требуется при уровне значимости Математическая статистика, применяя критерий Пирсона подтвердить или опровергнуть гипотезу о том, что данное распределение подчиняется показательному закону.

Решение:

1) Эмпирическое выборочное среднее Математическая статистикавычислим по центрам интервалов:

Математическая статистика

Принимаем

Математическая статистика

Таким образом, плотность показательной функции распределения имеет вид: Математическая статистика

2) Вычислим

Математическая статистика

Получаем:

Математическая статистика

Аналогично,

Математическая статистика

3) Вычислим теоретические частоты Математическая статистика

Математическая статистика

4) Применим критерий Пирсона (частоты 4 + 2 + 1 объединим в одну; соответствующая теоретическая частота равна 6,3 + 2,3 + 0,8 = 9,4).

Получаем

Математическая статистика

После объединения трех интервалов число степеней свободы стало
r = 4 — 2 = 2. Из табл. 3 приложения берем Математическая статистика

Ответ. Гипотеза подтверждается.

Линейная корреляция случайных величин

1°. Корреляционная зависимость между случайными величинами (признаками) X и У обычно задается с помощью корреляционной таблицы:

Математическая статистика

Здесь

Математическая статистика

— середины интервалов или признаков X и Y, a Математическая статистикаМатематическая статистикаМатематическая статистикаМатематическая статистика — соответствующие частоты, Математическая статистика — частота, с которой встречается пара

Математическая статистика

2°. Заданная таблицей корреляционная зависимость между признаками X и У может быть заменена функциональной зависимостью, если каждому значению Математическая статистика признака X поставить в соответствие условное среднее признака У, т.е. величину

Математическая статистика

— среднее значение Y.

Если теперь точки Математическая статистикавыровнять по методу наименьших квадратов вдоль кривой

Математическая статистика

то последняя называется линией регрессии У на X, а ее уравнение — уравнением регрессии Y на X. Аналогично определяется линия регрессии X на У.

Наиболее простыми и важными случаями линий регрессии являются прямые линии.

3°. Если обе линии регрессии У на X и X на У — прямые линии, то величины У и X называют линейно коррелированными.

4°. Выборочное уравнение прямой линии регрессии У на X имеет вид:

Математическая статистика

где Математическая статистика групповое среднее,
Математическая статистикавыборочные средние признаков У и X,
Математическая статистикавыборочные средние квадратические отклонения,
Математическая статистикавыборочный коэффициент корреляции.

5°. Аналогичный вид имеет выборочное уравнение прямой линии регрессии X на Y:

Математическая статистика

6°. Величину Математическая статистиканазывают остаточной дисперсией случайной величины У относительно случайной величины X; она характеризует величину ошибки, которая возникает при замене У линейной функцией. Аналогично величину Математическая статистика

г) называют остаточной дисперсией величины X относительно У. При Математическая статистикаостаточная дисперсия равна нулю, т.е. при представлении У в виде линейной функции от X не возникает ошибки, а У и X связаны линейной функциональной зависимостью.

7°. При необходимости, для облегчения вычислений, целесообразно переходить к условным (центрированным) вариантам: Математическая статистикаМатематическая статистикагде Математическая статистика — новые начала координат, Математическая статистика — шаги вариант величин X и Y.

Величины Математическая статистикавычисляются по формулам

Математическая статистика

Наконец,

Математическая статистика

Задача с решением

Задача:

Найти выборочное уравнение прямой линии регрессии Y на X по данным, приведенным в корреляционной таблице, вычислить остаточную дисперсию:

Математическая статистика

Решение:

Берем

Математическая статистика
Математическая статистика

Построим корреляционную таблицу для U, V:

Математическая статистика

Вычисления:

Математическая статистика

Математическая статистика

Однофакторный дисперсионный анализ

Задачей дисперсионного анализа является изучение влияния одного или нескольких факториальных признаков на результативный признак.

Например, если измерения некоторой величины производятся на к различных приборах, то можно исследовать влияние фактора «прибор» на результаты измерений, т.е. ответить на вопрос, имеют ли различные приборы одну и ту же систематическую ошибку (проверяется гипотеза о равенстве средних). ‘

Предположим, что на количественный признак X, распределенный нормально, воздействует фактор F, который имеет р уровней Математическая статистикаМатематическая статистикаНа каждом уровне произведено по q испытаний. Результаты испытаний определяются числовой матрицей

Математическая статистика

номер испытания, j = 1,2, …, р — номер уровня фактора Математическая статистика). Данные заносим в таблицу (с. 365).

Требуется: при условии значимости а проверить гипотезу о равенстве групповых средних при условии, что групповые генеральные дисперсии одинаковы, хотя они и неизвестны.

Эта задача решается по следующей схеме.

1) Вычислить общую среднюю Математическая статистика

Математическая статистика

2) Вычислить сумму квадратов отклонений групповых средних от общей средней

Математическая статистика

Имеет место формула:

Математическая статистика

3) Вычислить факторную сумму квадратов отклонений групповых средних от общей средней (рассеяние между группами)

Математическая статистика

Имеет место формула:

Математическая статистика

4) Вычислить остаточную сумму квадратов отклонений значений группы от своей групповой средней (рассеяние внутри групп)

Математическая статистика

5) Вычислить факторную и остаточную дисперсии

Математическая статистика

и величину

Математическая статистика

6) Величина Математическая статистикараспределена по закону Фишера-Снедекора. Поэтому следует сравнить

Математическая статистика

используя табл. 4 приложения:

если Математическая статистикато различие групповых средних незначимое; в этом таком случае можно сказать также, что фактор оказывает незначительное воздействие на результаты испытаний и его не следует учитывать;

если Математическая статистикато различие групповых средних значимое; в таком случае фактор оказывает существенное влияние на результаты испытаний и его следует учитывать.

Примечания. 1 Если Математическая статистикато гипотеза о равенстве групповых средних справедлива, и критерий Фишера-Снедекора можно не применять.

2.Если Математическая статистика — десятичные дроби с m знаками после запятой, то целесообразно перейти к нормированным и центрированным вариантам Математическая статистикаПри этом факторная и остаточная дисперсии увеличатся в Математическая статистикараз каждая.

Задачи с решениями

Задача:

Произведено по 4 испытания на каждом из трех уровней фактора F. Методом дисперсионного анализа при уровне значимости 0,05 проверить гипотезу о равенстве групповых средних. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями:

Математическая статистика

Решение:

Поскольку данные варианты являются дробными числами, то для упрощения вычислений переходим к новым, целым и центрированным вариантам, полагая

Математическая статистика

(общее среднее арифметическое значений Математическая статистикаравно 0,29). Новые варианты заносим в расчетную таблицу:

Математическая статистика

А теперь реализуем схему, описанную выше.

Математическая статистика

6) В табл.4 приложения находим

Математическая статистика

Неравенство Математическая статистикаозначает, что гипотезу о равенстве групповых средних данных совокупностей отвергаем.

Задача:

В трех филиалах одного банка были организованы три уровня различных услуг для клиентов. После этого в течение шести месяцев измерялись объемы вкладов X (тыс. руб.). Методом

Математическая статистика

дисперсионного анализа проверить нулевую гипотезу о существенном влиянии организации услуг на объем вкладов при уровне значимости 0,05. Данные измерений приведены в таблице
(с. 367).

Решение:

Имеем р = 3, q = 6, значения вариант — целые числа.

1) Находим групповые и общие средние:

Математическая статистика

2) Для расчета Математическая статистикасоставим таблицу квадратов.

Математическая статистика

Вычислим Математическая статистика по второй формуле п. 2) схемы:

Математическая статистика

3) Вычислим Математическая статистикапо второй формуле п. 3) схемы:

Математическая статистика

4) Факторная, остаточная дисперсии и Математическая статистикаравны:

Математическая статистика

5) В табл. 4 приложения находим Математическая статистика

Неравенство Математическая статистикаможно трактовать так: нулевая гипотеза о существенном влиянии организации услуг на объем вкладов принимается.

Обработка результатов измерений (анализ данных)

Основные определения:

Научная дисциплина, разрабатывающая и систематизирующая понятия, приемы, математические методы и модели, предназначенные для организации сбора, систематизации и обработки данных с целью их интерпретации и получения выводов, называется анализом данных.

Пусть проводится некоторый опыт (рассматривается некоторое явление). Все возможные результаты опыта образуют так называемую генеральную совокупность. Если в данной серии опытов получено несколько результатов, то эта совокупность данных называется выборкой. Количество объектов в генеральной совокупности или в выборке называется ее объемом. Свойства и характеристики генеральной совокупности обычно не известны. Необходимо, исследуя данные выборки, как можно точнее оценить свойства и характеристики генеральной совокупности. Решение такого рода задач — предмет рассмотрения дисциплины, называемой математической статистикой. Отметим, что она применима только к массовым явлениям, имеющим вероятностную природу.

При составлении выборки используют разные методы отбора. Прежде всего, отбор может быть повторным, при котором выбранный объект возвращается в генеральную совокупность, и бесповторным, при котором объект не возвращается. Кроме того, отбор может проводиться с расчленением генеральной совокупности на части и без такого расчленения,. При раз-

бивании генеральной совокупности на части используют:

типический отбор, при котором объекты выбираются из каждой типической части генеральной совокупности; •

механический отбор, при котором генеральная совокупность формально делится на столько групп, сколько элементов в выборке и из каждой группы берут один элемент;

серийный отбор, при котором объекты выбираются сериями.

Если генеральная совокупность не разбивается на части, то используют простой случайный бесповторный отбор и простой случайный повторный отбор, при которых элементы выбираются из всей совокупности.

При любых способах отбора необходимо, чтобы выборка правильно отражала пропорции генеральной совокупности, т. е. выборка должна быть репрезентативной. Выборка будет репрезентативной, если ее осуществлять случайно. Если объем выборки велик, то разность между повторной и бесповторной выборкой стираются.

Существует множество ситуаций, когда полученные данные, даже если их и много, характеризуют не все, а только некоторые объекты, т. е. нарушено требование репрезентативности. В таких случаях мы не вправе распространять результаты обработки данных на другие (не рассмотренные) объекты. Например, проведено обследование приморских городов страны. Полученные характеристики будут справедливы только для этих городов и не могут быть в полной мере распространены на города, расположенные в глубинных районах. Другой пример: проведено исследование населения городов с числом жителей более миллиона. Полученные данные нельзя использовать для прогнозирования ситуации в населенных пунктах с другой численностью населения. Или, в 12 часов дня проведен опрос населения по домашним телефонам, хотя в это время основная масса трудоспособного населения не находится дома. Данные опроса нельзя распространить на всех жителей города.

Другой пример: рассматриваются произведения поэтов «серебряного века». Цель рассмотрения — выявление групп поэтов,

близких по стилю построения стихов, их размеру, тематической направленности и т.д. Полученные при этом результаты будут справедливы только для рассматриваемой группы поэтов (только для данной выборки). Надо понимать, что данные такого типа имеют другую, не вероятностную природу. Отличительной особенностью таких данных является то, что они уникальны и многократное повторение анализа (опытов) не принесет существенно новой информации. Анализу данных, имеющих не вероятностную природу, посвящены методы кластерного анализа, распознавания образов и т.п. Но, тем не менее, и для анализа данных, имеющих не вероятностную природу, широко применяются методы статистической обработки наблюдений.

Элементы математической статистики

Основной целью применения аппарата математической статистики является определение ряда числовых характеристик случайной величины, например, математического ожидания и дисперсии или ее закона распределения в целом с тем, чтобы иметь возможность при решении прикладных задач применять аппарат теории вероятностей.

Поскольку рассматривается только выборка (а не генеральная совокупность), при решении задач математической статистики всегда присутствует элемент случайности, и результаты получаются лишь с некоторой степенью уверенности.

Существуют три основные задачи математической статистики:

• Определение вида закона распределения исследуемой случайной величины (задача сглаживания экспериментальных зависимостей).

• Определение неизвестных параметров распределения.

• Проверка правдоподобия гипотез.

Первичная обработка данных

Решение любой задачи математической статистики предваряет первичная обработка наблюдений. Пусть в результате проведения в одинаковых условиях независимых опытов получено n значения исследуемой случай-

ной величины X. Расположенные в виде таблицы полученные данные,

Математическая статистика

где Математическая статистика результат i-го опыта, называют простой статистической совокупностью, сами величины Математическая статистика называют вариантами. Простая статистическая совокупность — первичная форма записи статистического материала. Если объем данных невелик, то их располагают в порядке возрастания. Последовательность вариант, записанная в возрастающем порядке, называют вариационным рядом. Для каждой варианты определяют частоту Математическая статистика число ее появлений в простой совокупности, и относительную частоту Математическая статистика (здесь и далее знак * говорит о том, что это статистический аналог соответствующего понятия теории вероятностей).

Если получено большое число данных, а в статистике оперируют, как правило, сотнями и тысячами значений, то их преобразуют в так называемый статистический ряд. Для этого весь диапазон полученных значений случайной величины X разбивают на разряды (подинтервалы). Для удобства обычно вводят Математическая статистика разрядов (большее число разрядов сложно анализировать, а при малом их числе происходит излишнее огрубление исследуемых зависимостей). Для каждого разряда подсчитывается число попавших в него значений Математическая статистика из совокупности (4.36). Если каждое из этих значений разделить на общее количество имеемых данных n, то получим относительные частоты попадания в соответствующий разряд Математическая статистика Полученные таким образом данные образуют таблицу, называемую статистическим рядом

Математическая статистика

Графическое изображение статистического ряда называется гистограммой, (см. рис. 4.6 а). Данные статистического ряда можно использовать для построения статистической функции распределения

Математическая статистика

График этой функции, изображенной на рис. 4.6 б, всегда представляет собой характерную ступенчатую функцию. Полученные в результате первичной обработки данные используются для решения задач математической статистики.

Математическая статистика

Пример:

Изготавливается тираж книги, один из размеров которой должен быть равен 20 см. Выбрано и измерено 100 готовых экземпляров. Результаты измерений сведены в таблицу, где Математическая статистика отклонение от заданного размера в мм i-той книги

Математическая статистика
Математическая статистика

Построить статистический ряд, гистограмму и статистическую функцию распределения.

Решение:

Из анализа данных таблицы можно сделать вывод о том, что целесообразно разбить интервал наблюденных отклонений на семь разрядов и построить следующий статистический ряд

Математическая статистика

Гистограмма, построенная на основе этого статистического ряда, представлена на рис. 4.7.

Математическая статистика

Статистическая функция распределения данной выборки имеет следующий вид:

Математическая статистика

Определение неизвестных параметров закона распределения

Полученные характеристики являются лишь статистическими аналогами параметров исследуемой случайной величины, и им в большей или меньшей мере присущи черты случайности. Так, гистограмма дает наглядное представление о том, как часто случайная величина в проведенных опытах принимала значения из соответствующего разряда. Очевидно, что при увеличении числа опытов и увеличении числа разрядов, гистограмма для непрерывной случайной величины X будет приближаться к кривой плотности вероятности этой случайной величины. Аналогично, статистическая функция при увеличении числа проведенных опытов и разрядов приближается к универсальному закону — функции распределения.

Задача заключается в подборе математической модели — закона распределения исследуемой случайной величины X. При этом модель должна в некотором смысле слова наилучшим образом описывать свойства этой величины и отражать лишь существенные стороны ее распределения. Сложность задачи заключается в том, чтобы найти сглаживающую кривую только на основании имеющегося экспериментального материала. Формально эта задача является неопределенной, поскольку слова «наилучшим образом» могут пониматься по-разному. На

практике класс сглаживаемых функции получают на основании априорных сведений о характере исследуемой величины X. Так, если речь идет об измерениях, то сглаживающая кривая для гистограммы, как правило, есть кривая нормального закона распределения, если речь идет о времени телефонного разговора, то это кривая экспоненциального закона распределения и т.п. При большом объеме экспериментальных данных и значительном числе разрядов форма гистограммы и статистической функции распределения могут служить основанием для выбора типа сглаживающей функции.

Высказанная гипотеза о виде сглаживающей кривой еще не дает возможности применять количественные методы теории вероятностей. Так, например, если установлено, что X имеет нормальный закон распределения

Математическая статистика

то для нахождения вероятности попадания в интервал (а,b) необходимо знать математическое ожидание ш и среднеквадра-тическое отклонение Математическая статистика случайной величины X. Определение неизвестных параметров — следующая основная задача математической статистики. Решение этой задачи часто осуществляется при помощи метода моментов. Согласно этому методу, неизвестные параметры выбираются таким образом, чтобы числовые характеристики X были равны их статистическим аналогам.

Для математического ожидания статистическим аналогом является среднее арифметическое (среднее выборочное)

Математическая статистика

где Математическая статистика середины соответствующих интервалов, Математическая статистика относительные частоты.

Для дисперсии — статистическая дисперсия (выборочная дисперсия)

Математическая статистика

Отсюда находится, статистическое среднеквадратическое отклонение

Математическая статистика

Для разобранного ранее примера можно выдвинуть гипотезу о том, что распределение размера книги подчинено нормальному закону. Параметры этого закона при помощи метода моментов можно определить, используя данные ряда распределения:

Математическая статистика

Теперь можно сказать, что средний размер выпускаемых книг равен приблизительно 20,72 см и разброс размеров в обе стороны (по правилу «три сигма») практически не превысит 0,27 см.

Проверка правдоподобия гипотез

Предположим, что сформулирована гипотеза Н о законе распределения исследуемой случайной величиной X (ее будем называть теоретическим распределением). Требуется проверить, не противоречит ли эта выдвинутая гипотеза имеющимся выборочным данным.

Чтобы иметь основания принять или опровергнуть гипотезу, необходимо выработать некоторый критерий, позволяющий делать корректные выводы. В математической статистике при проверке гипотез выбрать критерий — значит задать некоторое критическое значение вероятности ошибочного отклонения проверяемой гипотезы. Эта вероятность называется уровнем значимости и обозначается Математическая статистика Чем весомее для нас потери от ошибочного отклонения гипотезы Н, тем меньше Математическая статистика Обычно эта величина имеет одно из стандартных значений: 0,1,0,05 или 0,01. Выбрав, например, Математическая статистика мы в среднем десять раз из ста будем отбрасывать верную гипотезу. Если же выбрать Математическая статистика то

из ста случаев мы (в среднем) только один раз отбросим верную гипотезу.

Основная идея проверки гипотез заключается в следующем Выбирается уровень значимости Математическая статистика и задается некоторая мера расхождения U, характеризующая степень расхождения теоретического и статистического распределений. В предположении, что гипотеза верна, вычисляется вероятность того, что только за счет чисто случайных причин (связанных с ограниченностью числа проведенных опытов) мера расхождения U (критерий согласия) окажется не меньше, чем вычисленная по результатам наблюдений величина этой меры u, т.е. Математическая статистика Если эта вероятность не меньше Математическая статистика, то говорят, что экспериментальные данные не противоречат выдвинутой гипотезе. По такой схеме проводится проверка практически любых статистических гипотез.

Для проверки гипотезы о законе распределения исследуемой случайной величины применяют различные критерии. Чаще других применяется критерий согласия Пирсона. Здесь в качестве меры рассогласования U выбирается величина (обозначаемая Математическая статистика которая вычисляется по формуле

Математическая статистика

где Математическая статистика теоретическая вероятность, т.е. вероятность попадания в i-ый разряд, вычисленная по гипотетическому закону; Математическая статистика статистическая (вычисленная по выборке) частота попадания в i-ый разряд.

Вычисленная по такой формуле величина рассогласования (называемая «хи-квадрат») является хорошо изученной случайной величиной, для распределения которой построены таблицы.

Схема применения критерия согласия Математическая статистикаследующая:

1.По формуле (4.36) вычисляется мера рассогласования Математическая статистика.

2.Вычисляется число степеней свободы Математическая статистика

где k — число разрядов, на которое разбит диапазон наблюденных значений величины X; s — число параметров теоретического закона распределения, которые определены по выбор-

ке. Например, для гипотезы о нормальном законе: если известно среднее значение х известно, то Математическая статистика (надо вычислять статистическую Математическая статистика, если ни один параметр закона не известен заранее, Математическая статистика

3.По таблице распределения «хи-квадрат» для найденных Математическая статистика и r определяется вероятность Р. Если эта вероятность не больше заранее выбранного уровня значимости Математическая статистика, то гипотеза отбрасывается как неправдоподобная. Если же Математическая статистика то говорят, что гипотеза не противоречит экспериментальным данным.

Для примера проверим гипотезу о том, что размеры книги имеют нормальное распределение. Используя формулы приведенной функции Лапласа для интервалов, выбранных при формировании гистограммы, представленной на рис. 4.7, и найденных ранее Математическая статистика найдем теоретические вероятности Математическая статистика Затем по формуле (4.3) определим значение величины Математическая статистика, которая равна 2,7. Поскольку выбрано 7 разрядов и из выборки найдены оценки математического ожидания и среднеквадратического отклонения Математическая статистика Теперь по таблице распределения «хи-квадрат» находим вероятность Математическая статистика что существенно больше, чем Математическая статистика Следовательно, можно констатировать, что гипотеза о нормальном распределении ошибки размера книги не противоречит экспериментальным данным.

Методы анализа статистических зависимостей

Рассмотренные выше методы позволяют определять статистические характеристики результатов опыта: Однако важным является нахождение и анализ статистических зависимостей между наблюдаемыми результирующими величинами й факторами, их вызывающими.

Основные задачи анализа статистических зависимостей

Наблюдаемая результирующая величина y может зависеть от нескольких характеризующих ее величин (факторов)

Математическая статистика На практике можно встретить самые разнообразные формы причинно-следственных связей между результирующей величиной и величинами, ее вызывающими. Рассмотрим наиболее распространенные схемы зависимостей между факторами Математическая статистика и результатом у.

Схема А — зависимость между неслучайными параметрами. Здесь связь у с факторами детерминированная, и задача состоит в том, чтобы восстановить по значениям факторов значения результирующих величин, т.е. установить вид функции f:

Математическая статистика

Схема В — регрессионная зависимость. Зависимость случайного результирующего показателя Математическая статистика от неслучайных факторов (Математическая статистика — случайная реализация у)

Математическая статистика

Данная схема реализуется в том случае, если у связана со случайными обстоятельствами регистрации или с наличием неучтенных случайных факторов. Предполагается, что случайный компонент Математическая статистика обладает следующими свойствами

1.Его математическое ожидание равно нулю Математическая статистика

2.Его дисперсия конечна Математическая статистика

Схема С — корреляционная зависимость. Зависимость случайного результирующего показателя Математическая статистика от случайных факторов Математическая статистикаслучайная реализация Математическая статистика):

Математическая статистика

Существует и целый ряд других зависимостей. Выбор схемы исследуемых зависимостей в первую очередь определяется сущностью решаемой задачи, ее смысловой направленности и глубиной рассмотрения вопроса. Приведем ряд примеров. Классический пример схемы А — установление зависимости между возрастом дерева (у) и числом колец х на срезе его ствола. Сейчас всем, наверное, известно, что в данном случае Математическая статистика

Если рассматривается вопрос о числе гласных букв (у) в словах с различным количеством букв Математическая статистика являющихся различны-

ми частями речи Математическая статистика то эта ситуация, скорее всего, подходит под схему В. Если искать связь между чистотой хлопка и качеством выпускаемой пряжи, целесообразно принять схему С. Таким образом, выбор схемы искомой зависимости определяется поставленной задачей и является прерогативой исследователя.

Методы исследования зависимостей функций вида

Математическая статистика

которые описывают поведение условных средних результирующего показателя Математическая статистика (вычисленного при зафиксированном уровне Математическая статистика) в зависимости от изменения X и называются функциями регрессии (см. главу 4.4).

Можно рассматривать качественные и количественные факторы. Если свойство объекта рассмотрения не выражается числовым показателем, то это качественный показатель. Например: квалификация наблюдателя, социальное положение опрашиваемого, материал, из которого изготовлено изделие — качественные факторы, но температура воздуха, скорость автомобиля, этажность зданий — количественные факторы.

Некоторые факторы в зависимости от точки зрения исследователя можно рассматривать и как качественные, и как количественные. Примером может явиться возраст людей. Если результат наблюдения рассматривается как функция от возраста людей, то возраст выступает как количественный фактор. Однако результаты наблюдения можно рассматривать для различных возрастных групп населения (дети, молодежь, пенсионеры и т.д.). Здесь возраст — качественный фактор.

Анализ статистических зависимостей проводится в рамках тех или иных теорий. Так, если все факторы относятся к качественному виду, то анализ зависимостей проводится в рамках дисперсионного и факторного анализа. Когда все факторы количественные, то приложимы методы регрессионного анализа. В рамках корреляционного анализ’а возможно исследование наборов факторов, относящихся к различным типам.

Сформулируем следующую задачу. По результатам опытов получена определенная информация. Исходя из сути рассмат-

риваемых процессов, выбрана схема зависимости. Необходимо проанализировать полученные данные и получить характеристики причинно-следственной связи. Такой анализ сводится, как минимум, к поиску ответов на следующие вопросы:

1.Действительно ли у зависит от факторов Математическая статистика

2.Если у зависит от Математическая статистика, то какова степень этой зависимости?

3.Каков вид имеет причинно-следственная зависимость между у и X, в частности, каков между ними вид аппроксимационной зависимости f?

Рассмотрим кратко наиболее простые и распространенные методы анализа статистической зависимости. .

Дисперсионный анализ

Установление зависимости у от качественного фактора х. Будем считать, что результирующая величина у зависит только от одного фактора х. Требуется, исходя из результатов наблюдений, определить наличие (или отсутствие) влияния х на у.

Предположим, что фактор х может принимать ряд значений, называемых уровнями Математическая статистика При каждом заданном уровне i проводится группа из Математическая статистика опытов и в каждом j-м опыте измеряется значение величины у, обозначаемое Математическая статистика Общее количество опытов N. Результаты этих опытов сведены в таблицу следующего вида

Математическая статистика

Из анализа данных обычно следует, что при одном и том же значении фактора имеются различные значения результата Математическая статистика Поскольку значения величин в одной и той же строке получены при одних и тех же уровнях фактора х, то различие

между Математическая статистика в одной строке обусловлено чисто случайными обстоятельствами. Но различия в значениях результатов, стоящих в различных строках могут быть обусловлены или той же причиной (тогда у их независимы), или они связаны также и с изменением значения фактора, т.е. имеется зависимость у от х. Предположение о независимости значений результатов от значений уровней фактора называется нулевой гипотезой Математическая статистика Если оказывается, что эта гипотеза не противоречит результатам проведенных опытов, то есть основания считать, что у не зависит от х.

Задача о проверке гипотезы Математическая статистика может быть решена в рамках так называемого дисперсионного анализа. Сущность дисперсионного анализа состоит в разложении по специальным правилам дисперсии результата наблюдения на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора на результат опыта. Рассмотрим модель однофакторного дисперсионного анализа. Отклонение случайной величины Математическая статистика от своего математического ожидания Математическая статистика может быть

представлено следующим образом:

Математическая статистика

где Математическая статистика — отклонение, вызываемое фактором х; Математическая статистика — отклонение, вызываемое другими неучтенными факторами.

В однофакторном дисперсионном анализе приняты следующие допущения: ошибка Математическая статистика распределена по нормальному закону с Математическая статистика и для различных уровней факторов она имеет одинаковую дисперсию. Сравнение дисперсий, характеризующих вклад в рассеивание получаемых результатов, позволяет судить о зависимости или независимости у и х. Введем следующие виды дисперсий. Общая дисперсия Математическая статистика характеризует рассеивание результатов наблюдений относительно общего математического ожидания Математическая статистика

Математическая статистика

Ее оценка имеет следующий вид:

Математическая статистика

где Математическая статистика — количество данных в i-той строке. Если все Математическая статистика равны, т.е. Математическая статистика для любого i, то

Математическая статистика

Групповая дисперсия Математическая статистика характеризует рассеивание результатов наблюдений относительно группового математического ожидания Математическая статистика (оценка группового математического ожидания есть среднее по результатам серии опытов для фиксированного уровня i):

Математическая статистика

Оценка этой дисперсии вычисляется по формуле:

Математическая статистика

Межгрупповая дисперсия Математическая статистика характеризует рассеивание, обусловленное исключительно фактором Математическая статистика и может быть оценена по формуле:

Математическая статистика

где Математическая статистика количество факторов Математическая статистика

Если Математическая статистика для всех j,

Математическая статистика

Внутригрупповая дисперсия Математическая статистика характеризует различия в результатах наблюдения, обусловленных влиянием неучтенных факторов, определяется как средневзвешенная по объемам групп

Математическая статистика

и, если Математическая статистика для всех j, а Математическая статистика для всех i, то может быть оценена по формуле:

Математическая статистика

Из сравнения введенных оценок дисперсии следует

Математическая статистика

Рассмотрим методику проверки существенности влияния фактора х на результаты наблюдения.

1.Выдвигается гипотеза о несущественности фактора х (гипотеза Математическая статистика). Содержательно понятно, если эта гипотеза верна, то математические ожидания в различных группах (при различных значениях фактора, т.е. средние по строкам) должны совпадать

Математическая статистика

При этом условии оценка межгрупповой дисперсии должна быть значительно меньше, чем оценка внутригрупповой дисперсии. В этой связи величина

Математическая статистика

может выступать в качестве меры непротиворечивости выдвинутой гипотезы, характеристикой справедливости гипотезы Математическая статистика.

2.По формуле (4.42), исходя из полученных результатов опытов, вычисляется экспериментальное значение величины u.

Показано, что такая величина и распределена по закону распределения Фишера со степенями свободы Математическая статистика и Математическая статистика Распределение Фишера табулировано и его таблицы приведены во многих учебниках. Заметим, что таблицы этого распределения составлены при условии, что числитель в отношениях типа (4.42) больше знаменателя. Если это не так, то за экспериментальное значение показателя рассогласованности выбирается обратная величина Математическая статистика

3.По таблицам распределения Фишера находится теоретическая величина показателя uМатематическая статистикас выбранным уровнем значимости Математическая статистика (обычно 0,1, 0,05 или 0,01) и указанными степенями свободы.

4.Гипотеза не противоречит экспериментальным данным, если выполняется условие

Математическая статистика

Выполнение этого неравенства свидетельствует о том, что влияние фактора несущественно и все наблюдаемые различия обусловлены не изменением значения фактора х, а какими то другими обстоятельствами. Следовательно, можно сказать, что гипотеза Математическая статистика не противоречит опытным данным. Невыполнение же условия (4.43) означает, что у скорее всего зависит от х и возможна постановка вопроса о нахождении уровня фактора, в наибольшей мере влияющего на рассматриваемый результат, что требует более подробного анализа.

Анализ существенности влияния (тесноты связи) количественных факторов на результаты наблюдений

Рассмотрим наиболее простой случай: результирующая величина у зависит только от одного фактора х. Требуется, исходя из результатов наблюдений, определить степень тесноты связи х и у. Решение этой задачи осуществляется в рамках корреляционного анализа (см. главу 4.4).

Пусть проведена первичная обработка результатов опытов и получены оценки необходимых математических ожиданий и дисперсий. Существенность влияний х на y может быть определена, если будет указано, какая доля степени изменчивости

интересующего нас результата обусловлена изменчивостью описывающей его функции f от контролируемого нами аргумента х. Количественной мерой этой доли может выступать отношение оценки межгрупповой дисперсии к оценке общей дисперсии

Математическая статистика

Величина Математическая статистика называется корреляционным отношением зависимой переменной у от независимой переменной х и является универсальной характеристикой тесноты их связи. Из (4.45) следует, что Математическая статистика Если Математическая статистика то налицо однозначная функциональная (жесткая) связь между х и у, т.е. корреляционная зависимость отсутствует. Наоборот, при Математическая статистика приходится констатировать, что усредненные по группе значения результирующего признака (оценки групповых математических ожиданий) не зависят от х и наблюдаемая зависимость — следствие других неконтролируемых факторов. Промежуточные значения Математическая статистика и есть количественная мера тесноты исследуемой связи.

В частном случае, когда связь между у и х является линейной, для оценивания степени зависимости используется оценка коэффициента корреляции Математическая статистика, которая находится следующим образом. Пусть в результате n опытов получены следующие значения, представленные таблицей

Математическая статистика

Оценка коэффициента корреляции определяется с помощью соотношения

Математическая статистика

Оценка Математическая статистика определена на основе выборки результатов наблюдения, поэтому является величиной случайной. Следовательно, неравенство полученной оценки нулю Математическая статистика еще не означает, что между х и у есть линейная зависимость, т.к. это может быть следствием чисто случайных обстоятельств, вызванных недостаточно большим числом опытов. В этой связи необходима проверка значимости оценки.

Решение этой задачи проводится по следующей методике.

1.Вычисляется мера согласованности гипотезы об отсутствии линейной зависимости у от х с наблюденными значениями

Математическая статистика

2.По таблицам распределения Стьюдента с Математическая статистика степенями свободы (такое распределение имеет величина u) при выбранном уровне значимости Математическая статистика находится теоретически «допустимая» с уровнем а мера согласованности uМатематическая статистика. (Таблицы распределения Стьюдента имеются практически в любом учебнике по математической статистике.)

3.Если окажется, что Математическая статистика то гипотеза об отсутствии линейной связи между у и х не противоречит опытным данным и на практике обычно принимается. В противном случае полученную оценку Математическая статистика можно считать значимой, и между х и у скорее всего существует линейная связь.

Определение причинно-следственной зависимости между результатом и влияющими на него факторами

Пусть рассматривается некоторая случайная результирующая переменная Математическая статистика (случайные реализации у), зависящая от неслучайных факторов Математическая статистика Значения величины Математическая статистика случайным образом распределяются около неизвестного уровня Математическая статистика. При этом отклонения значений Математическая статистика отМатематическая статистика представляют собой значения некоторой случайной ошибки Математическая статистика т.е.

Математическая статистика

Случайный характер величины Математическая статистика требует выбора подходящей характеристики. Такой характеристикой обычно выступает ее условное среднее, которое ввиду того, что Математическая статистика имеет вид

Математическая статистика

Зависимость (4.47) называется регрессионной, что определило название методов определения причинно-следственных зависимостей: регрессионный анализ.

Для установления причинно-следственной связи f необходимо:

1.Выбрать класс функций, в рамках которого целесообразно искать общий вид функции

Математическая статистика

2.Подобрать подходящие параметры Математическая статистика определяющие конкретный вид функции f.

Первая из этих задач не решается формальными методами. Обычно класс функций определяется на основе знаний о предметной области и в каждом конкретном случае вид функции f конструируется индивидуально. Следует подчеркнуть, что неверный выбор класса функций приводит обычно к ошибкам, которые невозможно устранить подбором коэффициентов в (4.48).

В рамках регрессионного анализа для подбора неизвестных параметров обычно используется метод наименьших квадратов (МНК). Суть этого метода заключается в подборе параметров функции (4.48), обеспечивающих минимум суммы квадратов отклонений наблюденных значений Математическая статистика т.е. решении задачи:

Математическая статистика

Выбор в (4.49) функционала именно такого вида в большинстве случаев практики имеет серьезное теоретико-вероятностное обоснование (реализуется принцип максимального правдоподобия), чем и обусловлена распространенность МНК. Покажем схему реализации МНК на примере функции одной пере-

менной Математическая статистика Пусть имеется таблица опытных данных Математическая статистика и выбран вид функции Математическая статистика Задача состоит в выборе параметров Математическая статистика так, чтобы выполнить условие типа (4.49). С точки зрения математики это стандартная задача на безусловный экстремум (см. следующий раздел). Функция, стоящая в левой части (4.49), может иметь минимум лишь в точках, в которых выполняются условия равенства нулю всех ее производных от варьируемых переменных (в данном случае Математическая статистика):

Математическая статистика

Система уравнений (4.50) состоит из k уравнений. Решив эту систему относительно неизвестных Математическая статистика, в соответствии с (4.48) определим искомую функцию связи f.

Пример:

Результирующая величина у измерена при помощи четырех разнотипных приборов, причем каждым прибором было осуществлено по пять измерений. Результаты измерений сведены в таблицу

Математическая статистика

Требуется определить, существенно ли зависят измерения от типа прибора, если приборы имеют одинаковую погрешность измерения.

Решение:

Тип прибора относится к качественным факторам, поэтому решение этой задачи целесообразно вести в рамках дисперсионного анализа с числом уровней 4.

Для решения задачи дисперсионного анализа необходимо по данным таблицы определить оценки межгрупповой и внутригрупповой дисперсией. В соответствии с формулами (4.40а) и (4.41а)

Математическая статистика

Показатель согласованности, согласно (4.42), следующий

Математическая статистика

Поскольку Математическая статистика то перейдем к обратному показателю согласованности Математическая статистика Число степеней свободы: Математическая статистика Принимая уровень значимости Математическая статистика по таблицам распределения Фишера, находим теоретический уровень рассогласованности Математическая статистика

Поскольку Математическая статистика то гипотеза о несущественности типа прибора может быть принята.

Пример:

Произведенные 20 измерений системы двух случайных величин х и у сведены в таблицу

Математическая статистика

Требуется определить тесноту связи между x и у.

Решение:

Вначале определим корреляционное отношение между измеряемыми величинами. Используя формулу (4.45), найдем

Математическая статистика

Следовательно, между х и у существует достаточно сильная статистическая связь.

Рассмотрим вопрос о степени линейной зависимости между х и y. Для этого вычислим величину u, связанную с оценкой коэффициента корреляции и распределенную по закону Стьюдента:

Математическая статистика

Для доверительной вероятности 0,95 и 18 степеней свободы по таблице распределения Стьюдента находим Математическая статистика Поскольку

Математическая статистика

мы не можем принять гипотезу о линейной связи х с у. Однако близость значений показателей согласованности позволяет в итоге сделать следующий вывод: между х и у, скорее всего, стохастическая нелинейная связь.

Пример:

Проведены измерения величины растворяемой в данном объеме воды некоторой соли при различных температурах.

Математическая статистика

Определить зависимость объема растворяемой соли как функцию температуры.

Решение:

Если нанести полученные значения на плоскость, то можно увидеть, что искомую зависимость можно считать линейной, т.е. Математическая статистика Найдем неизвестные параметры а и b методом наименьших квадратов.

Система уравнений в данном случае имеет вид

Математическая статистика

Решение этой системы дает такие результаты:

Математическая статистика

Следовательно, искомая зависимость имеет следующий вид

Математическая статистика

Математическая статистика и ее формулы и теоремы

Статистика как раздел науки об управлении государством, сборе,
классификации и обсуждении сведений о состоянии общества и
государства зародилась в XVII в. Однако статистический учет
существовал еще в глубокой древности. Так, за аять тысяч лет до нашей эры проводились переписи населения в Китае, велся учет имущества граждан в Древнем Риме и т.д.

В современном понимании статистика — это регистрация, описание и
анализ экспериментальных данных, получаемых в результате наблюдения массовых случайных явлений.

В настоящее время статистические методы используются не
только для описания состояния общества и государства, но также в
технике, физике и т.д.

Наука, занимающаяся общими вопросами, связанными с собиранием и классификацией числовых данных и сведений, называется
математической статистикой.

Важнейшей задачей статистики является определение закона
распределения случайной величины (системы случайных величин)
по статистическим данным. Закономерности, наблюдаемые в
массовых случайных явлениях, проявляются тем точнее, чем больше
объем статистической информации. На практике, как правило, мы
имеем ограниченное количество экспериментальных данных,
поэтому при определении закона распределения возникает
необходимость расчета уровня доверия к нему. Отсюда следует задача проверки правдоподобия гипотез, предполагающая выявление в статистических закономерностях элементов случайности. В частности, может быть проверена гипотеза о том, что данная случайная величина подчиняется заданному закону распределения.

При обработке статистических данных часто возникает задача
определения параметров закона распределения, а не самого закона.

Генеральная совокупность и выборка

Генеральной совокупностью называются все возможные наблюдения интересующего нас показателя, все исходы испытания или вся совокупность реализаций случайной величины X .

В генеральной совокупности обычно интересуются признаком,
имеющем качественный или количественный характер. Примером
генеральной совокупности может быть все население страны. Такая
совокупность иногда изучается путем переписи населения. В этой
совокупности нас могут интересовать, например, доходы жителей —
количественный признак совокупности. Другим примером
генеральной совокупности являются все изготовленные на данном
станке детали. Эти детали могут быть бракованными и годными.
Данный признак деталей является качественным.

Выборкой называется выбор части объектов из генеральной совокупности, причем выбор отдельных объектов происходит независимо один от другого.

Примером выборки объема и может являться независимый
выбор из всех изготовленных на данном станке деталей в количестве
n штук. Результатом выборки объема n является совокупность Математическая статистика значений признака.

Обычно под целью математической статистики понимают
определение закона распределения или его характеристик по выборке.

Гистограмма. Статистическая функция распределения

Предположим, что изучается некоторая величина X. Пусть закон
распределения X нам неизвестен. Требуется определить данный
закон опытным путем. С этой целью над случайной величиной X
производится ряд независимых наблюдений. В результате получим
выборку Математическая статистика из генеральной совокупности с признаком X.

При большом числе наблюдений простая выборка становится
слишком громоздкой и неудобной для анализа. Для придания ей
большей наглядности строится статистический ряд. Для этого
разделим весь диапазон полученных в результате опыта значений на интервалы и подсчитаем количество значений Математическая статистика приходящихся на каждый j-й. интервал. Найдем частоту попадания случайной величины в j-й интервал по формуле

Математическая статистика

Эта величина называется также статистикой. Вообще говоря,
статистика — это любое число, вычисленное по выборке.

Занесем полученные данные в табл. 12.1, в которой интервалы
расположены в порядке их возрастания вдоль оси абсцисс.

Таблица 12.1

Математическая статистика

Здесь Математическая статистика — интервал вдоль оси абсцисс под номером j; k —
число интервалов; Математическая статистика — границы интервалов под номерами j
и j +1; k +1 — число границ.

Статистический ряд, представленный в табл. 12.1, называется
интервальным. Если частота задана для дискретной случайной
величины, то ряд называется дискретным.

Очевидно, что

Математическая статистика

Пример:

Произведено 500 измерений диаметра детали,
изготовленной на данном станке. После предварительной обработки этой выборки отклонения диаметра от номинала (в микрометрах) сведены в табл. 12.2 (две первые строки). Определить частоты попадания ошибки в заданные интервалы.

Решение:

Результаты расчета по формуле (12.1) представлены в
последней строке табл. 12.2. ►

Таблица 12.2

Математическая статистика

Если экспериментальные значения случайной величины X
находятся в точности на границе двух интервалов, то чисто условно
можно рекомендовать одну половину этих значений прибавить к
предыдущему интервалу, а другую — к последующему. Можно
также граничные значения целиком отнести как к предыдущему, так и к последующему интервалу.

Статистический ряд можно представить в виде графика,
называемого гистограммой. При этом по оси абсцисс откладываются
интервалы и на каждом из них строится прямоугольник, площадь
которого равна частоте данного интервала. При увеличении числа
опытов можно выбирать все более и более мелкие интервалы. При
этом гистограмма приближается к некоторой кривой, являющейся
плотностью распределения величины X.

Пример:

Построить гистограмму для данных примера 12.1.

Решение:

Гистограмма представлена на рис. 12.1. ►

Математическая статистика

По статистическому ряду можно приближенно построить
статистическую (выборочную) функцию распределения случайной
величины X. Соотношения для расчета выборочной функции
распределения по статистическому ряду удобно представить в виде:

Математическая статистика

Пример:

Для условий примера 12.1 построить таблицу и
график статистической функции распределения.

Решение:

Статистическая функция распределения,
рассчитанная по формулам (12.2), представлена в табл. 12.3. График данной функции показан на рис. 12.2. ►

Таблица 12.3

Математическая статистика

При увеличении числа опытов и уменьшении интервала
статистическая функция распределения приближается к функции
распределения генеральной совокупности.

Числовые характеристики выборочного распределения

Каждой числовой характеристике случайной величины X
соответствует ее выборочная аналогия. Для математического ожидания случайной величины X в качестве аналогии используют среднее арифметическое полученных в результате опыта значений, вычисляемое по формуле

Математическая статистика

где Математическая статистика — значение случайной величины, зарегистрированное в i-м
опыте; n — число опытов.

При неограниченном увеличении числа опытов среднее
арифметическое сходится к математическому ожиданию.

Значение Математическая статистика от выборки к выборке будет изменяться. Поэтому
Математическая статистика также является случайной величиной. Ее математическое
ожидание равно математическому ожиданию случайной величины X:

Математическая статистика

Оценка любой характеристики случайной величины X, проведенная по выборке, называется несмещенной, если ее математическое ожидание равно оцениваемому параметру.

Из определения несмещенной оценки и соотношения (12.4)
следует, что выборочное среднее является несмещенной оценкой
для генерального среднего Математическая статистика Если Математическая статистика существует, то Математическая статистика имеет асимптотически нормальное распределение с дисперсией
Математическая статистика при Математическая статистика

Выборочные дисперсии рассчитываются по одной из следующих
формул:

Математическая статистика

Величину s называют выборочным стандартным отклонением. Величины Математическая статистика и Математическая статистика являются случайными и имеют математические ожидания

Математическая статистика

Поскольку Математическая статистика есть несмещенная оценка для генеральной дисперсии Математическая статистика то она применяется чаще, чем Математическая статистика.

Если выборка задана в виде статистического ряда, то формулы (12.3), (12.5), (12.6) удобно представить в виде:

Математическая статистика

где Математическая статистика среднее значение случайной величины X в j-м интервале; Математическая статистика — частота попадания случайной величины в j-й интервал; k — число интервалов.

Для дискретного статистического ряда значения Математическая статистика Математическая статистика и k относятся к соответствующему значению случайной величины, полученному в результате опыта.

Иногда используются и другие моменты выборки.

Пример:

Для условий примера 12.1 определить выборочные среднюю и дисперсию.

Решение:

В табл. 12.2 для частот попадания ошибки в заданные интервалы вместо интервалов Математическая статистика введем среднее значение Математическая статистика случайной величины X j-м интервале. Результаты представим в табл. 12.4.

Таблица 12.4

Математическая статистика

Для расчета выборочных среднего и дисперсии используем формулы (12.3′) и (12.6′):

Математическая статистика

Математическая статистика

Основные статистические распределения

Статистические распределения, с одной стороны, играют роль
эталона при определении закона распределения случайной
величины, а с другой, используются для оценки правдоподобия
выдвигаемых гипотез. Среди известных распределений в статистике
используются закон равномерной плотности, закон Пуассона, нормальный закон распределения. Большое значение в статистике играют также Математическая статистикараспределение и t-распределение Стьюдента.

Математическая статистикараспределение. Пусть Математическая статистика — выборка из генеральной
совокупности случайной величины X. Рассмотрим статистику

Математическая статистика

где Математическая статистика— дисперсия случайной величины X; а — ее математическое
ожидание.

Распределение Математическая статистика случайной величины называется Математическая статистика-распределением с v = n степенями свободы.

Плотность распределения случайной величины X при х>0
определяется соотношением

Математическая статистика

Это распределение достигает максимума при Математическая статистика имеет
математическое ожидание Математическая статистика и дисперсию Математическая статистика

Графики Математическая статистикараспределения представлены на рис. 12.3.

Математическая статистика

t-распределение Стьюдента. Пусть X — случайная нормально распределенная величина с параметрами а и Математическая статистика Имеем выборку наблюдений Математическая статистика данной случайной величины. В качестве оценок математического ожидания а и дисперсии Математическая статистика принимаем

Математическая статистика

Величина

Математическая статистика

называется отношением Стьюдента.

Выборочное распределение данной величины называется t-распределением Стьюдента с v = n-1 степенями свободы.

Функция плотности распределения отношения Стьюдента определяется соотношением

Математическая статистика

Математическое ожидание t-распределения Математическая статистика а дисперсия Математическая статистика при v > 2 . Функция плотности распределения отношения Стьюдента симметрична относительно оси ординат. Она качественно напоминает функцию плотности нормального распределения (рис. 12.4), но отличается более «массивными» хвостами. Этот эффект сильнее выражен для меньших значений v, а для значений v, превышающих 40, данное распределение близко к нормальному.

Математическая статистика

Доверительные интервалы и доверительные пределы

Доверительным интервалом параметра Математическая статистика распределения случайной величины X с уровнем доверия р , порожденным выборкой Математическая статистика называется интервал с границами Математическая статистика и Математическая статистика которые являются реализациями случайных величин Математическая статистика и Математическая статистика таких, что Математическая статистика Граничные точки доверительного интервала называются доверительными пределами.

Доверительный интервал для математического ожидания нормального распределения

Вначале рассмотрим доверительный интервал для математического ожидания нормального распределения при известном значении дисперсии.

Пусть Математическая статистика — реализация случайной величины X, распределенной нормально и имеющей параметры а и Математическая статистика Дисперсия Математическая статистика известна. По выборке нужно определить математическое ожидание а. В качестве математического ожидания обычно принимают среднее арифметическое Математическая статистика

Среднее арифметическое Математическая статистика, являющееся реализацией случайной
величины X, также является случайной величиной,
распределенной по нормальному закону с параметрами а и Математическая статистика

Математическая статистика

Отсюда можно построить доверительный интервал для заданного
уровня доверительной вероятности F, в котором находится
математическое ожидание а . Данный интервал определяется выражением

Математическая статистика

где t — коэффициент доверия, от которого зависит доверительная вероятность F.

Некоторые значения доверительной вероятности для нормального закона распределения, соответствующие тому или иному уровню доверия, приведены в табл. 12.5.

Таблица 12.5

Математическая статистика

Пример:

Для изучения размера крестьянских хозяйств проведена выборка, в результате которой получены следующие данные: обследовано 100 участков, Математическая статистика=10 га. Определить доверительный интервал, в котором с вероятностью 0,9545 находится среднее значение земельных участков при дисперсии Математическая статистика = 16 .

Решение:

Для требуемой доверительной вероятности из таблиц находим t = 2. Тогда Математическая статистика Отсюда доверительный интервал, в котором с заданной вероятностью находится среднее значение земельных участков:

Математическая статистика

Если дисперсия неизвестна и выборка невелика (n < 40), то доверительный интервал вычисляют с помощью t-распределения Стьюдента по формуле

Математическая статистика

где Математическая статистика — коэффициент доверия, от которого зависит доверительная
вероятность. При расчете используются таблицы. Необходимо помнить, что в различных источниках таблицы представлены в разной форме.

Интеграл вероятности для t-распределения Стьюдента имеет вид

Математическая статистика

где Математическая статистика — функция плотности распределения вероятности Стьюдента с v степенями свободы. Графически значение интеграла вероятности представлено на рис. 12.5.

Математическая статистика

В рассматриваемом случае табулируются значения Математическая статистика для
различных значений Математическая статистика и v. Графически доверительный интервал
можно представить так, как показано на рис. 12.6.

Математическая статистика

Заштрихованная на рис. 12.6 площадь является доверительной
вероятностью F.

Таким образом, расчет производится по следующему алгоритму:

1.Находят Математическая статистика и S по формулам

Математическая статистика

2.Задаются доверительной вероятностью F.

3.Рассчитывают Математическая статистика по формуле

Математическая статистика

4.При известном количестве степеней свободы v = n -1 по
таблицам находят Математическая статистика.

5.Определяют доверительные пределы по формуле

Математическая статистика

Иногда таблицы t-распределения Стьюдента представлены в
виде критических точек. В этих таблицах для различных значений
уровня значимости

Математическая статистика

и разных значений степеней свободы v = n -1 приведены данные
для Математическая статистика. В этом случае расчет проводится по следующей методике:

1.Находят Математическая статистика и S.

2.Задаются уровнем значимости Математическая статистика.

3.Рассчитывают F по формуле

F = —Математическая статистика.

4.По заданному уровню значимости а и известному
количеству степеней свободы v = n -1 по таблицам находят Математическая статистика.

5.Определяют доверительные пределы по формуле (12.11).

Пример:

Для условий примеров 12.1 и 12.4 определить
доверительный интервал математического ожидания для доверительных вероятностей Математическая статистика и Математическая статистика

Решение:

В примере 12.4 были определены Математическая статистика = 0,168 и S = 1,448 .
Уровни значимости для поставленных условий:

Математическая статистика

Значения коэффициентов доверия находим из таблиц (см., например, [9], с. 626):

Математическая статистика и Математическая статистика

По полученным данным определяем доверительные пределы и
интервалы:

1.При Математическая статистика

Математическая статистика

2.Математическая статистика

Доверительный интервал для дисперсии нормального распределения

Пусть Математическая статистика — выборка из нормальной генеральной
совокупности с математическим ожиданием а и дисперсией Математическая статистика. Тогда при Математическая статистика статистика Математическая статистика является случайной величиной, распределенной по закону Математическая статистикас v = n -1 степенями свободы. Доверительная вероятность этого распределения определяется соотношением (рис. 11.7)

Математическая статистика

На рис. 12.7 доверительная вероятность равна заштрихованной
площади. Значения b и с определяются по таблицам из условия
симметричного вероятностного интервала:

Математическая статистика

Тогда с вероятностью F имеем

Математическая статистика

Это равносильно неравенствам

Математическая статистика

Математическая статистика

Для среднего квадратического отклонения

Математическая статистика

Расчет производится по следующему алгоритму:

1.Находят Математическая статистика и S по формулам

Математическая статистика

2.Задаются доверительной вероятностью F.

3.По таблицам при известных

Математическая статистика

находят b и с.

4.Определяют доверительный интервал для дисперсии и
среднего квадратического отклонения по формулам (12.12) и (12.13).

Пример:

Произведено 101 измерение диаметра детали,
изготовленной на данном станке. После обработки установлено, что среднее арифметическое этой выборки Математическая статистика =0,168, а выборочное квадратическое отклонение Математическая статистика = 1,448. Определить доверительный интервал среднего квадратичного отклонения для доверительной вероятности F = 0,99 .

Решение:

Количество степеней свободы для рассматриваемого
случая v = n -1 = 100. Находим по формулам

Математическая статистика

Используя таблицу распределения Математическая статистика (см., например, [11, с. 440])
находим для v = 100 величины с = 140,169 и b = 67,3276.

Подставляя полученные значения в (12.13), найдем доверительный
интервал среднего квадратического отклонения:

Математическая статистика

Определение закона распределения случайной величины

Обычно закон распределения случайной величины неизвестен и имеется ограниченное число наблюдений (выборка). При его определении задаются некоторым известным законом распределения и затем проверяют эту гипотезу на значимость.

Простейшим методом проверки гипотезы о законе распределения является визуальный. Он заключается в построении гистограммы по выборке и анализу ее внешнего вида, однако данный метод неточен. Наиболее полная и точная проверка соответствия выбранного распределения реальному производится с помощью критерия Карла Пирсона.

Статистика Карла Пирсона имеет вид

Математическая статистика

где n — количество полученных в результате наблюдения значений
случайной величины X (объем выборки);

k — число интервалов;

Математическая статистика— теоретическая вероятность попадания случайной величины в
j-й интервал;

Математическая статистика— ожидаемое (теоретическое) количество попаданий случайной
величины в j-й интервал;

Математическая статистика — количество попаданий случайной величины в j-й интервал в
результате опыта.

Теоретическая вероятность попаданий случайной величины в
j -й интервал Математическая статистика для исследуемой плотности распределения f(x)
рассчитывается по формуле

Математическая статистика

Разделив числитель и знаменатель статистики Карла Пирсона
(12.14) на n и учитывая (12.1), получим

Математическая статистика

Рассчитывать значение Математическая статистика можно как по формуле (12.14), так и по формуле (12.15).

Выборочное распределение Математическая статистика является (приблизительно) Математическая статистика-распределением с числом степеней свободы

v = k-b-1,

где k — число интервалов;

b — число параметров вероятностной модели, которые должны быть оценены по тем же данным.

Отклонение от проверяемой модели всегда будет приводить к увеличению значения Математическая статистика

Значимость выбранного закона распределения определяется сравнением рассчитанного и табличного (теоретического) значений Математическая статистика с v степенями свободы. Уровень значимости а определяется выражением

Математическая статистика

Геометрический смысл теоретического значения Математическая статистика поясняется на рис. 12.8, на котором по оси абсцисс отложены значения Математическая статистика. Индекс v свидетельствует о том, что на рис. 12.8 приведен график плотности распределения для функции с v степенями свободы. Отмеченная на оси абсцисс точка Математическая статистика означает, что площадь под кривой плотности распределения на интервале

Математическая статистика

равна уровню значимости Математическая статистика

Математическая статистика

Таким образом, если Математическая статистикапри том же числе степеней
свободы и заданном уровне значимости Математическая статистика, то вероятность
соответствия закона распределения исследуемой случайной величины выбранному закону распределения будет больше или равно Математическая статистика.

Если ожидаемые частоты слишком малы для использования
Математическая статистика-распределения, то их надо объединить в один более крупный
интервал. Значений частот не должно быть меньше 5—10. При
объединении необходимо учитывать и то, что число интервалов не должно быть слишком малым.

Пример:

Для условий примеров 12.1 и 12.4 определить
значимость соответствия закона распределения исследуемой случайной величины нормальному.

Решение:

Используя результаты решения примера 12.4,
запишем функцию плотности распределения исследуемой случайной
величины в виде

Математическая статистика

Результаты обработки выборки табл. 12.2 (пример 12.1) представлены в первых трех строках табл. 12.6 Здесь же представлены результаты
остальных расчетов.

Таблица 12.6

Математическая статистика

Теоретические значения вероятности попадания случайной
величины в j-й интервал для заданной плотности распределения
рассчитывается по формуле

Математическая статистика

Интеграл вероятности

Математическая статистика

находим по таблицам. Его значения записаны в третьей и четвертой строках табл. 12.6. Теоретические значения вероятности попадания случайной величины в j-й интервал представлены в пятой строке данной таблицы. Расчет статистики Карла Пирсона проведем по формуле (12.14), слагаемые которой представлены в последней строке:

Математическая статистика

Уровень значимости определяется по формуле

Математическая статистика

при количестве степеней свободы v = k —b —1 = 8 — 2 —1 = 5. Уровни
значимости в зависимости от заданного значения Математическая статистика находим по таблицам (см., например, [9], с. 74). Имеем Математическая статистика = 3 при Математическая статистика = 0,7,
Математическая статистика=4,35 при Математическая статистика = 0,5.

Принимаем зависимость Математическая статистика от Математическая статистика на интервале от 0,5 до 0,7
линейной (рис. 12.9).

Математическая статистика

Из подобия прямоугольных треугольников находим:

Математическая статистика

Отсюда определяем уровень значимости:

Математическая статистика

Таким образом, гипотеза о том, что случайная величина
распределена по нормальному закону с вероятностью 0,61 принимается. ►

Исследование случайных зависимостей

Любой закон природы или общественное явление могут быть
выражены в виде описания взаимосвязей, существующих между
показателями данного закона или явления. Статистика изучает
связи между показателями, часть из которых являются случайными.

Функционирование изучаемого объекта можно описать набором
переменных. Эти переменные подразделяют на:

независимые (экзогенные, предикаторные, объясняющие),
которые не обязательно являются случайными величинами;

зависимые (эндогенные, результирующие, объясняемые), которые обязательно являются случайными величинами.

Задача измерения связи между переменными решается на
эмпирическом материале, представляющем собой выборку объема n из (k+ 1)-мерной совокупности наблюдений или матрицы размером
(k + 1)хn (табл. 12.7).

Таблица 12.7

Математическая статистика

Если количество независимых переменных больше двух, то
исследуемая модель называется многофакторной. В табл. 12.7
представлена k-факторная модель.

Корреляционно-регрессионный анализ

В обычном смысле термин «регрессия» понимается как
«обратное движение, возврат к исходной точке или месту». Этот термин был введен в статистику в XIX в. в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека. При этом
обнаружили, что сыновья высоких отцов хотя и имеют больший рост по сравнению с сыновьями низких отцов, но разброс в росте сыновей
был меньше, чем разброс в росте отцов. Таким образом, была
замечена тенденция возврата сыновей к среднему росту, т.е. регресс.

Большинство исследуемых явлений зависит от действия
множества факторов. Обычно отбирают те факторы, которые наиболее существенно влияют на явление. В перечне отобранных факторов не исключено наличие таких, которые слабо влияют на изучаемый показатель. Их отсев осуществляется в ходе построения
многофакторной модели путем многошагового регрессионного анализа. Вначале строят уравнение регрессии по максимально возможному количеству факторов. Затем с помощью определенных критериев (например t-критерия Стьюдента) исключают те факторы, которые оказывают статистически несущественное влияние. Такой отсев по одному фактору на каждом шаге проводится до тех пор, пока в уравнении регрессии с точки зрения выбранного критерия не
останется незначимых факторов.

Важнейшим этапом построения многофакторной регрессионной
модели является выбор формы связи (функции регрессии). Форму
связи можно определить путем перебора функций разных типов,
что сопряжено со значительным количеством лишних расчетов.
Обычно для этих целей используются наиболее известные функции.
Широкое применение получила линейная функция. Это связано,
во-первых, с ее простотой. Во-вторых, путем замены переменных
или логарифмирования многие используемые для этих целей
функции можно свести к линейным.

Если форма связи случайной величины у (см. табл. 12.7)
является линейной, то функция регрессии имеет вид

Математическая статистика

После выбора формы связи определяют коэффициенты
функции регрессии так, чтобы она (с точки зрения заданного критерия) лежала ближе всех других к исследуемым точкам.

Функция регрессии Математическая статистика зависимой случайной величины у и
случайная переменная Математическая статистика этой величины будут связаны
соотношением

Математическая статистика

Случайная переменная Математическая статистика называется возмущением. Ее значение
изменяется для каждого наблюдения Математическая статистика

Для однофакторной модели линейная функция регрессии
приобретает вид

Математическая статистика

Проверка предпосылок регрессионного анализа

В регрессионном анализе делаются следующие основные
предположения:

1.Возмущающая переменная Математическая статистика является случайной величиной.
В силу этого Математическая статистика также является случайной величиной с
распределением того же вида, что и Математическая статистика.

2.Случайная величина Математическая статистика имеет математическое ожидание,
равное нулю. Значения случайных переменных Математическая статистика
независимы между собой.

3.Случайная величина Математическая статистика имеет нормальное распределение с
постоянной дисперсией Математическая статистика, не зависящей от Математическая статистика

При нарушении нормальности возмущения при оценке по
методу наименьших квадратов остатки остаются наилучшими и
сохраняют свойство несмещенности и состоятельности, но становятся неустойчивыми (малоэффективными). Существуют методы получения устойчивых (робастных) оценок.

Постоянство дисперсии Математическая статистика называется гомоскедастичностью (или
условием однородности).

Если это условие не выполняется, то эти наблюдения
неоднородны (гетероскедастичны). Это может возникнуть, например, при исключении из модели переменной, коррелированной с любой из оставшихся переменных, влияние которой приписывается
случайному возмущению Математическая статистика. В этом случае можно исключить эффекты гетероскедастичности простой заменой переменных.

4.Наблюдения Математическая статистика должны быть независимыми при изменении
j от 1 до к .

5.На значения параметров Математическая статистика не накладывается никаких
ограничений, т.е. предварительно об их значениях ничего не известно.

6.Матрица значений независимых переменных Математическая статистика не содержит
линейно связанных столбцов.

7.Число наблюдений n должно превышать число параметров k.

Выполнение рассмотренных предпосылок обеспечивает
возможность проведения классического регрессионного анализа.
Однако часто эти предпосылки не полностью удовлетворяются. Для
устранения этого недостатка разработаны различные методы
обработки. Например, робастные (устойчивые) методы допускают
нарушение предпосылок, но требуют, чтобы эти нарушения
находились в определенных пределах.

Оценка качества регрессионной модели

Построенная регрессионная модель нуждается в проверке ее
соответствия реальным статистическим данным. В качестве
показателя степени согласованности расчетных значений Математическая статистика и фактических значений переменной у является коэффициент детерминации. При оценке качества функции регрессии проверяется также значимость коэффициентов уравнения, степень тесноты взаимосвязи исследуемых случайных величин, качество подбора формы кривой.

Для расчета коэффициента детерминации и проведения
дисперсионного анализа потребуются приведенные ниже статистики. Эти статистики могут быть использованы также при проведении многофакторного анализа.

1.Общая девиация, являющаяся суммой квадратов отклонений
признака от средней арифметической,

Математическая статистика

2.Общая выборочная дисперсия

Математическая статистика

3.Девиация регрессии, равная сумме квадратов отклонения
функции регрессии от средней арифметической,

Математическая статистика

4.Выборочная дисперсия функции регрессии

Математическая статистика

где m = k +1 — число коэффициентов в исследуемой функции
регрессии (см. табл. 12.7).

5.Остаточная девиация, равная сумме квадратов отклонений
зависимой переменной от функции регрессии,

Математическая статистика

6.Выборочная остаточная дисперсия

Математическая статистика

Сумма числа степеней свободы остаточной дисперсии и
дисперсии регрессии равна числу степеней свободы общей дисперсии:

(n-m) + (m-1) = n-1.

Справедливо также соотношение

Математическая статистика

Действительно, подставив сюда (12.24) и (12.23), получим
(12.20)

Математическая статистика

Чем больше второе слагаемое и меньше первое, тем меньше
разброс у относительно среднего, т.е. тем больше коэффициент
детерминации, вычисляемый по формуле

Математическая статистика

Так как Математическая статистика (см. (12.26)), то можно записать

Математическая статистика

Чем больше Математическая статистика тем лучше выбранная функция аппроксимирует фактические данные. При этом вид функции регрессии определен тем лучше, чем меньше величина Математическая статистика. Мерой неопределенности регрессии служит величина

Математическая статистика

Отсюда следует, что

Математическая статистика

Корень квадратный из коэффициента детерминации называется выборочным коэффициентом корреляции Математическая статистика.

Величина коэффициента корреляции используется как характеристика качества полученной модели любой формы связи (не обязательно линейной).

Значимость рассчитанного коэффициента корреляции Математическая статистикапроверяется при помощи F-критерия Фишера. Рассчитывают

Математическая статистика

Значения Математическая статистика и Математическая статистика при этом определяются по формулам (12.23) и (12.25). Если Математическая статистика то коэффициент корреляции Математическая статистика признается значимым с доверительной вероятностью F = 1 —Математическая статистика, где Математическая статистика — уровень значимости.

Качество подбора функции регрессии можно оценить путем сравнения остаточной Математическая статистика и общей Математическая статистика дисперсий. Если Математическая статистика то говорят, что модель некорректна, или страдает неадекватностью. Если Математическая статистика то регрессионная модель адекватна фактическим данным.

Значимость коэффициентов регрессии Математическая статистика модели может быть проверена по t-критерию Стьюдента:

Математическая статистика

где

Математическая статистика

a Математическая статистика — стандартное отклонение для коэффициента Математическая статистика. Значение Математическая статистика выбирается из таблицы t-критерия Стьюдента для доверительной вероятности F = 1 — Математическая статистика и числа степеней свободы n — m. При выполнении неравенства (12.29) коэффициент считается значимым с вероятностью F. Здесь Математическая статистика — уровень значимости.

Доверительным интервалом коэффициента Математическая статистика называют интервал с границами

Математическая статистика

где Математическая статистика — коэффициент доверия распределения Стьюдента с v = n-m степенями свободы.

В указанном интервале с наперед заданной вероятностью F = 1 — Математическая статистика заключено истинное значение исследуемого коэффициента Математическая статистика

Для линейной однофакторной модели

Математическая статистика

Остаточную дисперсию для линейной однофакторной модели находят из (12.24) при m = 2:

Математическая статистика

Проверка адекватности регрессионной модели может быть дополнена корреляционным анализом. Теснота взаимосвязи линейной однофакторной модели проверяется при помощи коэффициента корреляции

Математическая статистика

Используя обозначения

Математическая статистика

получим

Математическая статистика

Коэффициент корреляции лежит в пределах

Математическая статистика

При значении коэффициента корреляции, близком к 1 или — 1, связь сильная, при значении, близком к нулю, — слабая. Отрицательное значение коэффициента корреляции указывает на обратную связь, положительное — на прямую.

Квадрат линейного коэффициента корреляции называется линейным коэффициентом детерминации Математическая статистика.

Факт совпадения Математическая статистика и Математическая статистика говорит о наличии линейной
связи. При разности между Математическая статистика и Математическая статистика менее 0,1 гипотезу о линейной связи можно принять. Если данные величины не совпадают, то связь между ними не является линейной.

Чем больше Математическая статистика, тем лучше функция регрессии аппроксимирует
фактические данные.

Значимость коэффициента корреляции с доверительной
вероятностью Математическая статистика определяется с помощью t-критерия Стьюдента по формуле

Математическая статистика

где Математическая статистикаКоличество степеней свободы v = n — 2 .

Качество подбора формы кривой оценивается по критерию Дарбина—Уотсона. Для этого проводится анализ остатков (12.18)

Математическая статистика

Если модель функции регрессии адекватна форме подобранной
кривой, то соседние значения остатков независимы друг от друга. Эта
независимость проверяется с помощью критерия Дарбина—Уотсона

Математическая статистика

По таблице Дарбина—Уотсона для заданной доверительной
вероятности Математическая статистика определяют критические границы,
позволяющие вынести суждение о наличии автокорреляции (рис. 12.10). Задавшись уровнем значимости Математическая статистика и зная количество комбинаций n, находят из таблицы значения Математическая статистика

Математическая статистика

При Математическая статистика и Математическая статистика автокорреляция имеет место. Если обнаружена существенная автокорреляция остатков, то следует пересмотреть форму выбранной кривой.

Однофакторный корреляционно-регрессионный анализ

Корреляционно-регрессионный анализ целесообразно начинать
с изучения однофакторной модели. Исходными данными для
построения модели является выборка n наблюдений зависимой переменной Математическая статистика и соответствующей ей независимой переменной Математическая статистика, где i — номер наблюдения, изменяющийся от 1 до n. Полученную
выборку можно представить в виде

Математическая статистика

где Математическая статистика — детерминированная функция независимой переменной х
(функция регрессии);

Математическая статистика — возмущение, определяемое действием случайных факторов.

Так как каждое значение Математическая статистика является случайной величиной, то
значение Математическая статистика в точке Математическая статистика является математическим ожиданием
данной случайной величины.

Построить корреляционно-регрессионную модель явления — значит найти функцию регрессии и характеристики случайных отклонений от нее, позволяющие определить доверительный интервал, в границах которого с заданной доверительной вероятностью должна находиться исследуемая величина.

Модель явления строится по следующему алгоритму:

1.На основе качественного и количественного анализа
исходных данных выбирают вид функции регрессии, наилучшим образом описывающий данное явление.

2.Для выбранной функции подбирают параметры по какому-
либо критерию оптимизации.

3.Оценивают качество подобранной кривой по совокупности
критериев и делают вывод о ценности данной модели для
практического использования.

Явление может быть описано некоторой функцией или
комбинацией функций. На практике используются линейная функция, парабола, многочлен, гипербола, экспонента и др. Наиболее часто для этих целей используется линейная функция по причинам, описанным в § 12.11.

Для вычисления параметров уравнения регрессии будем использовать метод наименьших квадратов. При этом минимизируется cумма квадратов остатков

Математическая статистика

Рассмотрим метод наименьших квадратов на примере линейной
функции регрессии

Математическая статистика

В этом случае сумма квадратов остатков приобретает вид

Математическая статистика

Найдем частные производные по коэффициентам Математическая статистика и Математическая статистика

Математическая статистика

Приравняв эти производные нулю и сгруппировав слагаемые,
получим систему из двух уравнений для искомых коэффициентов:

Математическая статистика

Решение этой системы имеет вид

Математическая статистика

где Математическая статистика

Используя полученную регрессионную модель, можно
прогнозировать появление зависимой случайной величины. Так как
процесс подвержен случайным воздействиям, то прогноз может быть
сделан лишь в виде доверительного интервала. Средним значением
прогноза является линия регрессии. Пусть нас интересует прогноз в
точке Математическая статистика (рис. 12.11). Тогда границы доверительного интервала для
прогнозируемой точки будут определяться по формуле

Математическая статистика

где Математическая статистика— коэффициент доверия распределения Стьюдента для
доверительной вероятности Математическая статистика и числа степеней свободы v=n-2 .

Общая дисперсия фактического значения у в точке Математическая статистика
вычисляется по формуле

Математическая статистика

Доверительный интервал расширяется при удалении координаты х от ее среднего значения Математическая статистика и при увеличении доверительной вероятности Математическая статистика

Математическая статистика

Пример:

Дана выборка производительности труда у рабочего в зависимости от стажа его работы х (два первых столбца табл. 12.8). Данные ранжированы по стажу.

Рассчитать линию регрессии, определить ее адекватность и значимость, сделать прогноз производительности труда для рабочих со стажем 5,5 и 12 лет.

Решение:

Для уточнения формы связи между рассматриваемыми признаками используем графический метод. Значения, полученные в результате выборки, нанесены в виде точек в прямоугольной системе координат на рис. 12.12.

Таблица 12.8

Математическая статистика

Анализируя ломаную линию, можно предположить, что возрастание производительности труда идет равномерно, пропорционально стажу работы. Видимо, в основе этой зависимости лежит прямолинейная связь

Математическая статистика

Математическая статистика

Из табл. 12.8 следует, что

Математическая статистика

По формулам (12.20) находим

Математическая статистика

Таким образом, функция регрессии имеет вид

Математическая статистика

Для определения адекватности и значимости модели необходимо рассчитать ряд статистик. Результаты расчета сведены в табл. 12.9.

Таблица 12.9

Математическая статистика

Проверим точность построения модели производительности труда с помощью дисперсионного анализа:

Математическая статистика

Коэффициент детерминации

Математическая статистика

Отсюда заключаем, что 92,5% производительности труда обусловлено стажем работы.

Мера неопределенности

Математическая статистика

т.е. только 7,5% общей вариации производительности труда нельзя объяснить стажем работы.

Выборочный коэффициент корреляции Математическая статистикаЭто свидетельствует о том, что связь между изучаемыми признаками весьма тесная.

Рассмотрим существенность связи по критерию Фишера:

Математическая статистика

При уровне значимости Математическая статистика и числах степеней свободы Математическая статистика и Математическая статистика в таблице распределения Фишера находим Математическая статистикаТак как Математическая статистика то коэффициент корреляции Математическая статистика с вероятностью Математическая статистика признается значимым.

Оценим качество подбора функции регрессии с помощью сравнения общей и остаточной дисперсий. Так как Математическая статистикато регрессионная модель адекватна фактическим данным.

Значимость коэффициентов регрессии проверим по t-критерию Стьюдента:

Математическая статистика

Математическая статистика

По таблице распределения Стьюдента для Математическая статистика находим при
числе степеней свободы n —2 = 8 Математическая статистика

Так как в обоих случаях Математическая статистика то Математическая статистика и Математическая статистика признаются
значимыми.

Доверительные интервалы коэффициентов Математическая статистика и Математическая статистика определяем по
формуле

Математическая статистика

Предварительно находим

Математическая статистика

Отсюда

Математическая статистика

Найдем коэффициент корреляции по формуле (12.33). Для этого определим

Математическая статистика

Результат практически совпал с вычисленным ранее
коэффициентом корреляции Математическая статистика Это подтверждает факт наличия прямолинейной связи.

Проверим значимость линейного коэффициента корреляции на
основе t-критерия Стьюдента:

Математическая статистика

Табличное значение Математическая статистика Для числа степеней свободы n — 2 = 8Математическая статистика

Так как Математическая статистика, то коэффициент корреляции значим, и связь
между производительностью труда и стажем работы существует с
вероятностью Математическая статистика

По критерию Дарбина—Уотсона оценим качество подбора формы
кривой. Для этих целей найдем по формуле (12.35)

Математическая статистика

Ближайшие табличные значения критических границ в таблице
Дарбина—Уотсона для заданной доверительной вероятности
Математическая статистика определены для n = 15 (см., например, [12], с. 78). Эти критические границы, позволяющие вынести суждение о наличии автокорреляции, отмечены на рис. 12.13. Учитывая, что Математическая статистика медленно изменяется при уменьшении n, будем считать, что наличие автокорреляционных остатков не подтверждается.

Математическая статистика

Таким образом, построенная регрессионная модель в виде функции
связи

Математическая статистика

определена в целом, и выводы, полученные по результатам, хотя и
малой выборки, можно с достаточной вероятностью распространить на всю гипотетическую генеральную совокупность.

Средняя величина прогноза выработки рабочего со стажем 5,5 лет
составляет

Математическая статистика

а со стажем 12 лет —

Математическая статистика

Доверительный интервал выборки этих рабочих определяется
границами, рассчитанными по формуле

Математическая статистика

где

Математическая статистика

Для доверительной вероятности F = 0,99 имеем Математическая статистика Так
как Математическая статистика то

Математическая статистика

Отсюда следует

Математическая статистика

Таким образом,

Математическая статистика

Для доверительной вероятности F = 0,95 имеем Математическая статистика Отсюда

Математическая статистика

Тогда

Математическая статистика

Многофакторный корреляционно-регрессионный анализ

Функция регрессии

В рассматриваемом случае зависимая переменная является случайной функцией нескольких независимых переменных Математическая статистика где j — номер переменной, изменяющейся от 1 до k. В каждом отдельном наблюдении i получают совокупность значений независимой переменной Математическая статистика и соответствующие им значения зависимой переменной Математическая статистика. Все наблюдения могут быть представлены в таблиц це (см., например, табл. 12.7). В общем виде функция регрессии может быть представлена в виде

Математическая статистика

На практике часто сталкиваются с моделью линейной регрессий (12.17)

Математическая статистика

Для каждого наблюдения i можно записать

Математическая статистика

где возмущающая переменная Математическая статистика является случайной величиной.

Для линейной модели наблюдение i можно представить в виде

Математическая статистика

Отсюда

Математическая статистика

Для расчета параметров Математическая статистика уравнения (12.17) применим метод наименьших квадратов. При этом минимизируется сумма

Математическая статистика

Для этого находят частные производные по каждому коэффициентуМатематическая статистика , приравнивают их нулю и решают k +1 уравнений относительно k+1 коэффициентов. Частные производные по коэффициентам Математическая статистика имеют вид

Математическая статистика

Приравнивая данные производные нулю и проводя суммирование, получим искомую систему уравнений. Первое уравнение системы при дифференцировании по Математическая статистика т.е. при j = 0, имеет вид

Математическая статистика

При j = 1, 2, 3, …, k запишем уравнения системы в общем виде:

Математическая статистика

Перепишем эту систему уравнений в более привычном виде:

Математическая статистика

Подобную систему линейных уравнений можно решить,
например, методом Крамера или с помощью теории матриц.

Для математической модели линейной регрессии представим:

■ неизвестные параметры а — матрицей-вектором размера mх1 в
виде Математическая статистика где j = 0,1, 2,…, k, при условии m = 1 + k:

Математическая статистика

■ независимые переменные — матрицей размера nхm в видеМатематическая статистика

Математическая статистика

■ зависимые переменные — матрицей-вектором размера nх1 в видеМатематическая статистика где i = 0,1, 2,…, n:

Математическая статистика

Тогда систему линейных уравнений (12.39) в матричной форме
можно представить в виде

Математическая статистика

где Математическая статистика — транспонированная матрица матрицы X.

Чтобы показать соответствие формулы (12.40) системе (12.39),
найдем вначале произведение матриц

Математическая статистика

Затем найдем

Математическая статистика

Математическая статистика

Отсюда следует, что при перемножении трех матриц Математическая статистика получаем матрицу-столбец левых частей уравнений системы (12.39).

При перемножении двух матриц

Математическая статистика

получаем матрицу-столбец правых частей уравнений системы
(12.39).

Таким образом, система уравнений (12.39) соответствует
формуле (12.40).

Решение (12.40) можно записать в виде

Математическая статистика

Это выражение позволяет произвести расчет всех
коэффициентов линейного уравнения множественной регрессии.

Пример:

Оценить взаимосвязь зависимой переменной у
и двух независимых переменных Математическая статистика и Математическая статистика на основе выборки,
приведенной в первых четырех столбцах табл. 12.10.

Таблица 12.10

Математическая статистика

Решение:

Матрицы X и Y имеют вид

Математическая статистика

Произведение двух матриц

Математическая статистика

Элементы матрицы произведения находятся по формуле

Математическая статистика

Математическая статистика

Отсюда следует, что

Математическая статистика

Произведение двух матриц

Математическая статистика

так как

Математическая статистика

Обратной матрицей Математическая статистика по отношению к матрице Математическая статистика
называется матрица

Математическая статистика

где Математическая статистика — алгебраическое дополнение элемента Математическая статистика в определителе Математическая статистикаматрицы Математическая статистика транспонированной к матрице Математическая статистика

Математическая статистика

Определитель матрицы

Математическая статистика

Обратная матрица равна

Математическая статистика

В результате находим

Математическая статистика

Таким образом, уравнение регрессии имеет вид

Математическая статистика

Значения Математическая статистика рассчитанные по этой формуле для приведенных в
выборке Математическая статистика и Математическая статистика представлены в пятом столбце табл. 12.10,
соответствующие возмущения Математическая статистика — в шестом столбце табл. 12.10. ►

Коэффициент множественной корреляции

Как указывалось ранее, взаимосвязь зависимой переменной у с
рядом независимых переменных х измеряется с помощью
коэффициента множественной корреляции

Математическая статистика

Чем теснее экспериментальные данные прилегают к функции регрессии, тем больше эта величина.

Пример:

Для данных примера 12.10 определить коэффициент множественной корреляции.

Решение:

Данные для расчета коэффициента множественной корреляции приведены в табл. 12.11.

Таблица 12.11

Математическая статистика

Необходимые данные для расчета коэффициента множественной корреляции представлены в третьем и четвертом столбцах табл. 12.11:

Математическая статистика

Такое значение коэффициента множественной корреляции
свидетельствует о том, что связь между изучаемыми признаками весьма тесная. ►

Значимость коэффициента множественной корреляции

Существенность связи, или значимость рассчитанного
коэффициента множественной корреляции Математическая статистика, проверяется при помощи F-критерия Фишера. Рассчитывают

Математическая статистика

Значения выборочной дисперсии функции регрессии Математическая статистика и
выборочной остаточной дисперсии Математическая статистика определяются по формулам (12.23) и (12.25). Если Математическая статистика то коэффициент корреляции Математическая статистика признается значимым с доверительной вероятностью F = 1 — Математическая статистика, где Математическая статистика — уровень значимости. Математическая статистика находят в таблице распределения Фишера при заданных уровне значимости Математическая статистика, числе степеней свободы остаточной дисперсии Математическая статистика и дисперсии регрессии Математическая статистика

Пример:

Для данных примера 12.10 определить значимость
коэффициента множественной корреляции, рассчитанного в примере 12.11.

Решение:

Данные для определения значимости коэффициента
множественной корреляции приведены в табл. 12.11. Найдем дисперсии:

Математическая статистика

Находим

Математическая статистика

При коэффициенте значимости Математическая статистика = 0,05, т.е. для доверительной
вероятности F -1 — Математическая статистика = 0,95, и при степенях свободы Математическая статистика и Математическая статистика по таблице распределения Фишера находим Математическая статистика

Так как Математическая статистика то связь существенна. ►

Матрица ковариаций

Рассмотрим k-факторную модель, в которой зависимая
переменная X определяется k независимыми переменными Математическая статистика, где
j = 1, 2,…, k. Наблюдению над объектом под номером i присвоены
некоторые скалярные численные значения Математическая статистика В
качестве объектов могут выступать, например, люди, а в качестве
факторов — их вес, рост, возраст и т.д. Зависимую переменную X
и наблюдения над объектом под номером i можно представить как
матрицы-столбцы

Математическая статистика

Выборка объемом n из k-мерной совокупности содержит n
наблюдений (матриц-столбцов) по одному на каждый объект в
выборке:

Математическая статистика

Эти наблюдения удобно представить в виде выборочной матрицы

Математическая статистика

Среднее значение j-й компоненты, например среднее значение роста опрошенных людей, определяется по формуле

Математическая статистика

Среднее всей выборки можно представить в виде матрицы-
столбца

Математическая статистика

Подставив в (12.45) формулу (12.44), получим

Математическая статистика

Учитывая (12.42), это соотношение можно записать в виде

Математическая статистика

Таким образом, матрица-столбец среднего всей выборки равна сумме матриц-столбцов наблюдений, деленной на количество наблюдений.

Введем матрицу А с элементами

Математическая статистика

где j,s = 1,2,…,k.

По определению Математическая статистика Эту матрицу можно записать в виде

Математическая статистика

Она является симметричной матрицей размера kхk. Ее можно
представить также через матрицу S. Действительно,

Математическая статистика

Математическая статистика

(В этой и других формулах в транспонированных матрицах
номер столбца обозначен буквой s.)

Математическая статистика

Сопоставляя две последние формулы с (12.47) и с (12.48),
можно записать

Математическая статистика

Это соотношение часто записывают в виде

Математическая статистика

Действительно, используя (12.42) и (12.45), найдем

Математическая статистика

Тогда (12.50) приобретает вид

Математическая статистика

Математическая статистика

После проведения суммирования матриц получим

Математическая статистика

Сопоставляя это с (12.47) и (12.48), видим, что соотношение
(12.50) действительно имеет место.

Выборочные дисперсии и ковариации находятся по формулам

Математическая статистика

Таким образом, выборочная ковариационная (дисперсионно-
ковариационная) матрица является симметричной матрицей
размера kхk, определяемой как

Математическая статистика

Иногда формулу (12.51) записывают в виде

Математическая статистика

где М — оператор математического ожидания, х — матрица-столбец.

Математическая статистика

Значимость коэффициентов регрессии

Значимость коэффициентов регрессии определяется при
помощи t-критерия Стьюдента (12.30):

Математическая статистика

где Математическая статистика — стандартное отклонение для коэффициента Математическая статистика.

Дисперсиями Математическая статистика параметров Математическая статистика являются элементы главной
диагонали матрицы ковариации для матрицы а. В соответствии с
(12.52) имеем

Математическая статистика

Выше показано, что матрица а определяется соотношением
(12.41). При использовании для X и Y обозначений п. 12.15.1
формула для зависимой случайной величины (12.18) приобретает
следующий матричный вид:

Математическая статистика

где

Математическая статистика

Найдем произведение двух матриц:

Математическая статистика

Сложив две матрицы, найдем

Математическая статистика

Отсюда следует справедливость соотношения (12.54).

Подставив в (12.41) соотношение (12.54), найдем

Математическая статистика

Отсюда

Математическая статистика

Учитывая следующие свойства матриц:

Математическая статистика

найдем

Математическая статистика

Тогда перепишем (12.53) в виде

Математическая статистика

Отсюда найдем

Математическая статистика

Раскроем

Математическая статистика

Эта матрица является диагональной, так как все ее элементы, не лежащие на главной диагонали, равны нулю в силу того, что остатки не коррелированы между собой

Математическая статистика

Все остатки имеют одинаковую дисперсию, которую заменим на выборочную дисперсию (12.25):

Математическая статистика

С учетом сказанного можно записать:

Математическая статистика

Подставив это в (12.56), найдем

Математическая статистика

Из соотношения (12.57) следует, что дисперсия коэффициентов
регрессии Математическая статистика определяется по формуле

Математическая статистика

где Математическая статистика — диагональные элементы матрицы Математическая статистика

Пример:

Для данных примера 12.10 определить значимость
коэффициентов регрессии.

Решение:

Уравнение регрессии, остаточная дисперсия и
обратная матрица Математическая статистика определены в примере 12.10:

Математическая статистика

Отсюда находим

Математическая статистика

Значимость коэффициентов регрессии найдем при помощи t-критерия Стьюдента (12.30):

Математическая статистика

Для числа степеней свободы 10 — 3 = 7 и вероятности Математическая статистика находим Математическая статистика Поскольку Математическая статистика то коэффициент Математическая статистика принимается значимым с вероятностью 0,99. Для
коэффициента Математическая статистика имеем Математическая статистика при Математическая статистика Поэтому Математическая статистика принимается значимым с вероятностью 0,85. Для Математическая статистика имеем Математическая статистика при Математическая статистика

Таким образом, коэффициент Математическая статистика принимается несущественным. ►

Обычно, если проверка параметров приводит к тому, что один
или несколько из них оказываются несущественными, то они
исключаются из регрессии. Оценивание параметров повторяется уже для нового набора независимых переменных.

Оценка степени линейной независимости факторов друг от друга

В хорошей модели зависимость факторов друг от друга не
должна быть существенной. Для проверки степени линейной
зависимости факторов друг от друга рассчитывают попарно
коэффициенты корреляции

Математическая статистика

где Математическая статистика

Эти коэффициенты можно представить в виде таблицы (матрицы)

Математическая статистика

В идеальном случае все парные коэффициенты корреляции при Математическая статистика должны быть равны нулю. На практике они отличны от нуля.

Их значимость проверяется с помощью t-критерия Стьюдента

Математическая статистика

где m = k +1. Если Математическая статистика то коэффициент корреляции признается значимым.

Пример:

Для данных примера 12.10 определить степень линейной зависимости факторов друг от друга и значимость полученного коэффициента корреляции.

Решение:

Для определения коэффициента корреляции между первым и вторым фактором проведены расчеты, результаты которых сведены в табл. 12.12.

Подставив данные из табл. 12.12 в формулу (12.59), найдем:

Математическая статистика

Значение этого коэффициента велико, поэтому связь между факторами сильная.

По формуле (12.60) находим

Математическая статистика

Таблица 12.12

Математическая статистика

Для числа степеней свободы 10—3=7 и вероятности Математическая статистика
находим Математическая статистика Поскольку Математическая статистика то значение коэффициента корреляции, равное 0,965, принимается с вероятностью 0,99.

Так как связь между факторами очень сильная, то структура
уравнения регрессии должна быть пересмотрена. В данном случае должен быть исключен фактор Математическая статистика

Оценка степени линейной взаимосвязи между зависимой переменной и каждым из факторов

Зависимость у с каждым из факторов в модели регрессии
должна быть существенной. Эта зависимость проверяется при
помощи коэффициента корреляции

Математическая статистика

где Математическая статистика

Значимость коэффициентов корреляции может быть проверена
с помощью t-критерия Стьюдента:

Математическая статистика

где m = k +1. Если Математическая статистика то коэффициент корреляции признается значимым.

Пример:

Для данных примера 12.10 определить степень
линейной зависимости зависимой переменной от каждого из факторов и значимость полученных коэффициентов корреляции.

Для данных примера 12.10 определить степень
линейной зависимости зависимой переменной от каждого из факторов и значимость полученных коэффициентов корреляции.

Решение:

Для определения коэффициентов корреляции между
первым и вторым факторами воспользуемся данными табл. 12.11, 12.12. Подставив эти данные в формулу (12.61), найдем

Математическая статистика

Значение этих коэффициентов велико, поэтому связь между
зависимой переменной и факторами сильная.

По формуле (12.62) находим

Математическая статистика

Для числа степеней свободы 10 — 3 = 7 и вероятности Математическая статистикаимеем Математическая статистика Поскольку Математическая статистика то значения коэффициентов корреляции принимаются с вероятностью 0,99. ►

Автокорреляция остатков

Отсутствие автокорреляции соседних значений остатков оценивается с помощью критерия Дарбина—Уотсона

Математическая статистика

По таблице Дарбина—Уотсона для заданной доверительной вероятности Математическая статистика определяют критические границы, позволяющие вынести суждение о наличии автокорреляции (рис. 12.14). Задавшись уровнем значимости Математическая статистика и зная количество комбинаций n, находят из таблицы значения Математическая статистика и Математическая статистика

Математическая статистика

При Математическая статистика автокорреляция остатков отсутствует. ПриМатематическая статистика и Математическая статистика автокорреляция имеет место. Если обнаружена существенная автокорреляция остатков, то следует пересмотреть форму функции регрессии.

Пример:

Для данных примера 12.10 провести исследование автокорреляции остатков.

Решение:

Воспользовавшись данными табл. 12.10 и 12.11, по формуле (12.63) найдем

Математическая статистика

Ближайшее табличное значение d определено при n = 15 и k = 2 Математическая статистика Поэтому прямое сопоставление с табличными данными невозможно. Однако, учитывая, что расчетное значение оказалось близким к 2, можно полагать, что наличие автокорреляции остатков не подтверждается. ►

Доверительные интервалы регрессии и ошибка прогноза

Пусть прогнозируемое значение у определяется по уравнению регрессии с полученными выше параметрами

Математическая статистика

Пусть

Математическая статистика

— матрица-столбец заданных значений независимых переменных, подстановкой которой в Математическая статистика определяется прогнозируемое значение у . Для определения доверительного интервала найдем дисперсию у в точке Математическая статистика

Математическая статистика

Используя теорему о дисперсии суммы зависимых величин, получим

Математическая статистика

где Математическая статистика — ковариация случайных параметров Математическая статистика и Математическая статистика

В матричной записи выражение для дисперсии выглядит
следующим образом:

Математическая статистика

где Математическая статистика — матрица ковариаций параметров а уравнения регрессии (см. (12.57)). Тогда

Математическая статистика

Границы доверительного интервала для прогнозируемой точки
будут определяться по формуле

Математическая статистика

Вероятность попадания прогнозируемого значения в
доверительный интервал зависит от коэффициента доверия Математическая статистика. Значения Математическая статистика и доверительная вероятность Математическая статистика определяются по таблицам Стьюдента для степеней свободы n-m, где m = 1 + k .

Пример:

Для данных примера 12.10 найти доверительные
границы в точке Математическая статистика и Математическая статистика при доверительной вероятности F = 0,95, т.е. при Математическая статистика

Решение:

В примере 12.10 нашли

Математическая статистика

Подставив сюда Математическая статистикаи Математическая статистика, найдем прогнозируемое значение у:

Математическая статистика

Значения обратной матрицы Математическая статистика определено в примере 12.13:

Математическая статистика

Произведение матриц под корнем в (12.64) равно:

Математическая статистика

Умножение матриц является ассоциативной операцией, т.е.

Математическая статистика

Таким образом,

Математическая статистика

Отсюда следует, что границы доверительного интервала для
прогнозируемой точки согласно (12.64):

Математическая статистика

Значение остаточной дисперсии Математическая статистика получено в примере 12.12:

Математическая статистика= 1,1954.

Тогда

Математическая статистика

Вероятность попадания прогнозируемого значения в доверительный
интервал зависит от коэффициента доверия Математическая статистика. Значение Математическая статистика при
доверительной вероятности F = 0,95 для степеней свободы n-m = 7
находим по таблице Стьюдента: Математическая статистика = 2,364 .

Таким образом,

Математическая статистика

Введение в математическую статистику

Цель: Освоить понятие статистическая гипотеза. По знакомиться с методами статистической проверки гипотез.

В задачу математической статистики входит изучение массовых явлений в природе, обществе и технике и их научное обоснование. Везде, где приходится иметь дело с обработкой
экспериментальных результатов, необходимыми и незаменимыми вспомогательными средствами являются методы математической статистики.

Зарождение математической статистики было связано со сбором данных и графическим представлением полученных результатов измерений. Так возникли первые сводки рождаемости, бракосочетаний и смертности в демографической статистике.
В 20-е годы нашего столетия, главным образом в США и Англии, были разработаны математико-статистические методы научной обработки результатов измерений, основанные на закономерностях теории вероятностей (К. Пирсон, Р.А. Фишер, Дж. Нейман, А. Вальд).

Генеральная совокупность (популяция) W – полный набор объектов, с которыми связана данная проблема. Эти объекты могут быть людьми, животными, изделиями и так далее. С каждым объектом связана величина (или величины), называемая исследуемым признаком Математическая статистика

Основной целью статистического анализа является выяснение некоторых свойств рассматриваемой генеральной совокупности. Если генеральная совокупность конечна, то наилучшая процедура – рассмотрение каждого ее элемента. Однако в большинстве задач используются либо бесконечные генеральные совокупности, либо конечные, но трудно обозримые. В этой ситуации необходимо отобрать из генеральной совокупности подмножество из n элементов, называемое выборкой объема n, исследовать его свойства, а затем обобщить эти результаты на всю генеральную совокупность. Это обобщение называется статистическим выводом.

Способы получения различных выборок и оценка их представительности будут рассмотрены в лабораторном практикуме.
Различные значения признака, наблюдающиеся у членов генеральной совокупности (или выборки), называются вариантами, а
числа, показывающие сколько раз встречается каждый вариант, частотами.

В данном определении предполагается дискретное изменения признака. Однако, если измерять непрерывную величину, то точность измерения и количество измерений в единицу времени
тоже дадут некий дискретный набор.

Мы предполагаем, что измеряемый или исследуемый признак изменяется некоторым случайным образом. Произведя серию измерений, получим набор данных, которые, скорее всего,
будут случайной выборкой из генеральной совокупности. Чтобы
провести первичную обработку этой выборки, необходимо построить экспериментальное распределение данных по частотам
или (если данные имеют явно непрерывный характер) по интервалам частот.

Выборочные функции

Для любой случайной величины Х существует (теоретическая) функция распределения F(x), или по-другому “Генеральная совокупность имеет теоретическое распределение F(x)”.
Вероятностный закон генеральной совокупности на практике почти всегда неизвестен. Единственным источником информации о нем служит взятая из этой совокупности выборка объема n, элементы которой Математическая статистикаявляются реализациями Х; по ней рассчитывается эмпирическое распределение и статистические параметры (еще говорят – статистики числовых характеристик): среднее арифметическое, дисперсия, моменты высших порядков и др.

Эмпирическое распределение выборки рассматривается в
качестве оценки теоретической функции распределения F(x) генеральной совокупности.

Пусть дана выборка значений случайной величины Математическая статистикаиз неизвестного совместного распределения
F(x). Тогда любое утверждение, касающееся природы F(x), называется статистической гипотезой. Гипотезы различают по виду предположений, содержащихся в них:

Статистическая гипотеза, однозначно определяющая распределение F(x), то есть Математическая статистикагде Математическая статистикакакой-то конкретный закон, называется простой.

Статистическая гипотеза, утверждающая принадлежность
распределения F(x) к некоторому семейству распределений, то
есть вида Математическая статистика , где F – семейство распределений, называется сложной.

Например, для экспоненциального распределения гипотеза
Математическая статистика – простая, Математическая статистика– сложная, состоящая из
бесконечного числа простых гипотез вида λ = с, где с – любое число, большее 3.
На практике обычно требуется проверить какую-то конкретную и как правило простую гипотезу . Такую гипотезу принято называть нулевой. При этом параллельно рассматривается противоречащая ей гипотеза , называемая конкурирующей или альтернативной.

Различают две группы математико-статистических методов:

  • статистическая проверка гипотез (статистические тесты);
  • статистическая оценка параметров распределения.

Статистическая проверка гипотез предполагает выдвижение
определенных допущений (гипотез) относительно неизвестных
параметров F(x). Правильность этих гипотез проверяется затем по числовым значениям, полученным из выборки, и, в зависимости от результата проверки, гипотезы принимаются или отвергаются.

Примеры непараметрических гипотез

Математическая статистика где F0(x) может быть функцией нормального распределения с определенными установленными параметрами Математическая статистика и Математическая статистика то есть Математическая статистика Закон распределения выборочной совокупности является нормальным

Математическая статистика закон распределения выборочной совокупности не является нормальным.
Математическая статистикасвязь между ущербом в случае аварии и размером страхуемой машины отсутствует;
Математическая статистикасвязь между ущербом в случае аварии и размером машины существует.

Статистическая оценка параметров распределения предусматривает получение оценок (для отдельных значений или интервалов) неизвестных параметров вероятностного закона генеральной совокупности по параметрам выборки.

При статистической оценке параметров распределения и проверке гипотез используются числовые характеристики, рассчитанные по n наблюдениям выборки.

Пример параметрической гипотезы

Пусть дана независимая выборка из нормального распределения, где Математическая статистика – неизвестный параметр. Тогда , где – фиксированная константа, является простой параметрической гипотезой, а конкурирующая с ней — сложная параметрическая гипотеза.

Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами, поэтому гипотезу называют статистической. Для проверки гипотезы используют критерии, позволяющие принять или опровергнуть гипотезу.
Статистической гипотезой называется любое предположение о
виде неизвестного распределения или о параметрах известного
распределения.

Статистическая проверка гипотез

Под статистической гипотезой понимают всякое высказывание о генеральной совокупности (случайной величине), проверяемое по выборке (по результатам наблюдений).
Располагая выборочными данными и руководствуясь конкретными условиями рассматриваемой задачи, формулируют гипотезу Но, которую называют основной или нулевой, и гипотезу Математическая статистика конкурирующую с гипотезой Математическая статистика

Термин «конкурирующая» означает, что являются противоположными следующие два события:

Гипотезу Математическая статистиканазывают также альтернативной. Например, если нулевая гипотеза такова: математическое ожидание равно 5, то альтернативная гипотеза может быть следующей: математическое ожидание меньше 5, что записывается следующим образом:

Основная гипотеза: Математическая статистика

Конкурирующая гипотеза: Математическая статистика

Статистическая проверка гипотез применяется для того, чтобы использовать полученную по выборке информацию для суждения о законе распределения генеральной совокупности. При этом имеется определенное представление о неизвестном вероятностном законе F(x) и его параметрах, которое формулируется в виде статистической гипотезы, обозначаемой символом Н или Математическая статистика(нулевая, или основная, гипотеза).

Целесообразным оказался следующий способ записи: Математическая статистикаМатематическая статистика это означает допущение (“гипотезу”) о том, что Математическая статистика
есть функция распределения генеральной совокупности. Например, Математическая статистика может быть функцией нормального распределения с определенными установленными параметрами Математическая статистикато есть

Математическая статистика

С помощью статистических методов или критериев для проверки гипотезы устанавливается, соответствуют ли взятые из выборки данные выдвинутой гипотезе или нет, то есть нужно ли принять или отвергнуть гипотезу.

Если вид функции распределения F(x) задан отдельными параметрами и, если гипотеза строится именно по этим неизвестным параметрам, то говорят о параметрических гипотезах.

Например, допущение о неизвестном параметре Математическая статистиканормального
распределения является такой параметрической гипотезой.

Математическая статистика – математическое ожидание случайной величины или “средняя
арифметическая величина” по выборке.

В противоположность этому статистические гипотезы общего порядка Математическая статистиканазываются непараметрическими, а методы их проверки – непараметрическими тестами. Они, естественно, являются более общими, чем параметрические гипотезы и методы их проверки, так как не требуют дополнительных предположений о виде функции F(x). С другой стороны, они менее эффективны, чем соответствующие критерии параметрических гипотез.

Этапы проверки статистических гипотез

1. Формулировка основной гипотезы и конкурирующей гипотезы . Гипотезы должны быть чётко формализованы в математических терминах.

2. Задание вероятности , называемой уровнем значимости и
отвечающей ошибкам первого рода, на котором в дальнейшем и
будет сделан вывод о правдивости гипотезы.

3. Расчёт статистики критерия такой, что:

  • её величина зависит от исходной выборки
Математическая статистика
  • по её значению можно делать выводы об истинности
    гипотезы ;
  • сама статистика должна подчиняться какому-то известному закону распределения, т.к. сама является случайной в силу случайности .

4. Построение критической области. Из области значений
выделяется подмножество таких значений, по которым можно
судить о существенных расхождениях с предположением. Его
размер выбирается таким образом, чтобы выполнялось равенство . Это множество и называется критической областью.

5. Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику и по попаданию (или непопаданию) в критическую область выносится решение об отвержении (или принятии) выдвинутой гипотезы Математическая статистика

Параметрические критерии

В группу параметрических критериев методов математической статистики входят методы для вычисления описательных статистик, построения графиков на нормальность распределения, проверка гипотез о принадлежности двух выборок одной совокупности. Эти методы основываются на предположении о том, что распределение выборок подчиняется нормальному (гауссовому) закону распределения. Среди параметрических критериев статистики нами будут рассмотрены критерий Стьюдента и Фишера.

Критерий Стьюдента (t-критерий)

Критерий позволяет найти вероятность того, что оба средних
значения в выборке относятся к одной и той же совокупности.
Данный критерий наиболее часто используется для проверки
гипотезы: «Средние двух выборок относятся к одной и той же
совокупности».
При использовании критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно.
Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными.

Случай независимых выборок

Статистика критерия для случая несвязанных, независимых
выборок равна:

Математическая статистика

где Математическая статистика – средние арифметические в экспериментальной и
контрольной группах; Математическая статистика– стандартная ошибка разности
средних арифметических, которая находится из формулы:

Математическая статистика

где Математическая статистикаи Математическая статистикасоответственно величины первой и второй выборки.
Если Математическая статистикато стандартная ошибка разности средних арифметических будет считаться по формуле:

Математическая статистика

где n величина выборки.

Подсчет числа степеней свободы осуществляется по формуле:

Математическая статистика

При численном равенстве выборок k = 2n – 2.

Далее необходимо сравнить полученное значение Математическая статистикас теоретическим значением t–распределения Стьюдента (см. приложение к учебникам статистики). Если Математическая статистикато гипотеза Математическая статистикапринимается, в противном случае нулевая гипотеза отвергается и принимается альтернативная гипотеза. Рассмотрим пример использования t-критерия Стьюдента для несвязных и неравных по численности выборок.

Пример:

В двух группах учащихся – экспериментальной и
контрольной – получены следующие результаты по учебному
предмету (см. табл. 13).

Математическая статистика

Общее количество членов выборки: Математическая статистика
Расчет средних арифметических: Математическая статистика
Стандартное отклонение: Математическая статистика

По формуле (2) рассчитываем стандартную ошибку разности арифметических средних:

Математическая статистика

Считаем статистику критерия:

Математическая статистика

Сравниваем полученное в эксперименте значение t с табличным значением с учетом степеней свободы, равных по формуле (4) числу испытуемых минус два.

Табличное значение Математическая статистикаравняется 2,1 при допущении
возможности риска сделать ошибочное суждение в пяти случаях
из ста (уровень значимости Математическая статистика или 0,05).

Если полученное в эксперименте эмпирическое значение t превышает табличное, то есть основания принять альтернативную гипотезу Математическая статистика о том, что учащиеся экспериментальной группы показывают в среднем более высокий уровень знаний. В
эксперименте t=3,981, табличное t=2,10, 3,981>2,10, откуда следует вывод о преимуществе экспериментального обучения.

Здесь могут возникнуть такие вопросы:

  1. Что если полученное в опыте значение t окажется меньше
    табличного? Тогда надо принять нулевую гипотезу.
  2. Доказано ли преимущество экспериментального метода?
    Не столько доказано, сколько показано, потому что с самого начала допускается риск ошибиться в пяти случаях из ста (р=0,05). Наш эксперимент мог быть одним из этих пяти случаев. Но 95% возможных случаев говорит в пользу альтернативной гипотезы, а это достаточно убедительный аргумент в статистическом доказательстве.
  3. Что если в контрольной группе результаты окажутся выше, чем в экспериментальной? Поменяем, например, местами,
    сделав средней арифметической экспериментальной группы Математическая статистикаа Математическая статистика — контрольной:
Математическая статистика

Отсюда следует вывод, что новый метод пока не проявил себя с хорошей стороны по разным, возможно, причинам. Поскольку абсолютное значение 3,9811>2,1, принимается вторая альтернативная гипотеза Математическая статистика о преимуществе традиционного
метода.

Случай связанных выборок

В случае связанных выборок с равным числом измерений в каждой можно использовать более простую формулу t-критерия Стьюдента. Вычисление значения t осуществляется по формуле:

Математическая статистика

где Математическая статистика– разности между соответствующими значениями переменной X и переменной У, а Математическая статистика— среднее этих разностей, а Sd вычисляется по следующей формуле;

Математическая статистика

Число степеней свободы k определяется по формуле k=n-1.
Рассмотрим пример использования t-критерия Стьюдента для
связных и, очевидно, равных по численности выборок.
Если Математическая статистикато нулевая гипотеза принимается, в противном случае принимается альтернативная.

Пример:

Изучался уровень ориентации учащихся на художественно-эстетические ценности. С целью активизации формирования этой ориентации в экспериментальной группе проводились беседы, выставки детских рисунков, были организованы
посещения музеев и картинных галерей, проведены встречи с музыкантами, художниками и др. Закономерно встает вопрос:
какова эффективность проведенной работы? С целью проверки
эффективности этой работы до начала эксперимента и после давался тест. Из методических соображений в табл. 14 приводятся результаты небольшого числа испытуемых.

Таблица 14

Математическая статистика

Вначале произведем расчет по формуле:

Математическая статистика

Затем применим формулу (6), получим:

Математическая статистика

И, наконец, следует применить формулу (5). Получим:

Математическая статистика

Число степеней свободы: k=10-1=9 и по таблице находим Математическая статистика экспериментальное t=6,678, откуда следует возможность принятия альтернативной гипотезы Математическая статистика о достоверных различиях средних арифметических, т.е. делается вывод об эффективности экспериментального воздействия.
В терминах статистических гипотез полученный результат
будет звучать так: на 5%-м уровне гипотеза Математическая статистика отклоняется и
принимается гипотеза Математическая статистика.

Критерий Фишера

F – критерий Фишера используют для сравнения дисперсий
двух вариационных рядов. Он вычисляется по формуле:

Математическая статистика

где Математическая статистика– большая выборочная дисперсия, Математическая статистика – меньшая выборочная дисперсия. По двум выборкам объемами n1 и n2 строят
выборочные функции:

Математическая статистика

Если предположить, что соответствующие генеральные совокупности распределены нормально с параметрами Математическая статистикаи Математическая статистикаМатематическая статистикаи что, кроме того, выполняется соотношение Математическая статистика то существует теорема: выборочная функция имеет непрерывную функцию распределения и ее плотность вероятности:

Математическая статистика

Данное распределение названо в честь Р.А. Фишера F -распределением с Математическая статистикастепенями свободы. Если вычисленное значение критерия F больше критического для определенного уровня значимости и соответствующих чисел степеней свободы для числителя и знаменателя, то дисперсии считаются различными.
Число степеней свободы числителя определяется по формуле: Математическая статистика где Математическая статистика – число вариант для большей дисперсии.
Число степеней свободы знаменателя определяется по формуле: Математическая статистика где Математическая статистика – число вариант для меньшей дисперсии.

Рассмотрим пример расчета критерия Фишера

Известны результаты женской эстафеты 5-го этапа Кубка мира 2010 г. по биатлону, прошедшей в Рупольдинге (в Германии).

Математическая статистика– дисперсии времени прохождения дистанции спортсменками команд России и Швеции (двух генеральных
совокупностей равны).
Математическая статистика – дисперсии времени прохождения дистанции спортсменками команд России и Швеции существенно различаются.

Математическая статистика

По таблице критических точек распределения Фишера-Снедекора можно найти критическую точку для F-критерия при известных степенях свободы, равных: k= 4 – 1 = 3. Получаем Математическая статистика

Поскольку, Математическая статистикаследовательно, можно утверждать, что нулевая гипотеза Математическая статистика принимается на 5%-м уровне значимости, а конкурирующая гипотеза Математическая статистика в этом случае отвергается. Исследователь может сделать вывод, что по степени однородности показателя времени прохождения дистанции различие между двумя командами незначительные.

Непараметрические тесты

Чтобы определить, имеем ли мы дело с нормальным распределением, можно применять следующие методы.
1) В пределах осей можно нарисовать полигон частоты
(эмпирическую функцию распределения) и кривую нормального
распределения на основе данных исследования. Исследуя формы кривой нормального распределения и графика эмпирической функции распределения, можно выяснить те параметры, которыми последняя кривая отличается от первой.
2) Вычисляется среднее, медиана и мода и на основе этого
определяется отклонение от нормального распределения. Если
мода, медиана и среднее арифметическое друг от друга значительно не отличаются, мы имеем дело с нормальным распределением. Если медиана значительно отличается от среднего, то мы имеем дело с асимметричной выборкой.
3) Эксцесс кривой распределения должен быть равен 0.
Кривые с положительным эксцессом значительно круче кривой нормального распределения. Кривые с отрицательным эксцессом являются более покатистыми по сравнению с кривой нормального распределения.
4) Правило трех сигм. После определения среднего значения распределения частоты и стандартного отклонения находят следующие четыре интервала распределения сравнивают их
с действительными данными ряда:

а) Математическая статистика– к интервалу должно относиться около 25%
частоты совокупности,
б) Математическая статистика – к интервалу должно относиться около 50%
частоты совокупности,
в) Математическая статистика – к интервалу должно относиться около 75%
частоты совокупности,
г) Математическая статистика– к интервалу должно относиться около 100%
частоты совокупности.

Проверка гипотез о законе распределения по критерию (хи-квадрат)

Проверка гипотез о законе распределения по критерию Математическая статистика
(хи-квадрат)

Численным методом оценки того, принадлежит ли данная
выборка генеральной совокупности с нормальным распределением, является критерий Математическая статистикаразработанный К. Пирсоном. Согласно этому методу, наблюдаемое эмпирическое распределение выборки, выраженное абсолютными, относительными или относительными накопленными частотами сгруппированного ряда измерений, сравнивается с гипотетическим теоретическим распределением соответствующей генеральной совокупности. Для этого выдвигается гипотеза о неизвестной функции распределения F(x) генеральной совокупности, которая сопоставляется с подходящей выборочной функцией и, в зависимости от величины отклонения эмпирического распределения от теоретического, выдвинутая гипотеза принимается или отвергается. Так как статистическая гипотеза относится к неизвестной функции распределения F(x), а не к отдельным ее параметрам, мы говорим о непараметрическом методе проверки, или о критерии подобия.

Критерий Математическая статистикаи представляет собой один из таких критериев подобия.

Критерий Математическая статистика часто используют также для сравнения между собой двух выборок из некоторой генеральной совокупности.

Пусть в результате n наблюдений получен вариационный
ряд с опытными частотами Математическая статистика Тогда их сумма равна.

Анализируя опытные данные, выбираем некоторый закон теоретического распределения для рассматриваемого признака. По
опытным данным найдем параметры этого закона (гипотеза). С помощью теоретического закона вычислим теоретические частотыМатематическая статистика соответствующие эмпирическим частотам.
Сумма теоретических частот также должна быть равна объему
выборки – n (соглашение).
В качестве меры расхождения теоретического и эмпирического рядов частот возьмем величину:

Математическая статистика

s – число параметров теоретического закона, найденного с помощью этого распределения или число связей теоретического и эмпирического распределений. Например, если мы нашли –
среднее арифметическое и Математическая статистика – дисперсию, используя данные
опытного распределения и установили, сумма частот опытного
распределения равна сумме частот теоретического распределения, то число связей s = 3.

Если же эмпирическое распределение не использовалось для
нахождения параметров теоретического закона и теоретических
частот, а эмпирические частоты не связаны никакими дополнительными соотношениями, то k равно числу групп эмпирического распределения. Количество частот в группе должно быть больше 5. Если количество меньше, то соседние группы следует
объединить.

Выборочная совокупность. Вариационный ряд

Цель: изучение типов выборок, методов анализа выборочной совокупности. Получение представлений о статистической
оценке параметров и интервалов вариационного ряда.

Основной целью статистического анализа является выяснение некоторых свойств рассматриваемой генеральной совокупности. Если генеральная совокупность конечна, то наилучшая процедура – рассмотреть каждый ее элемент.
Однако чаще всего на практике приходится ограничиваться
выборочными значениями из генеральной совокупности. Основное требование к выборке – хорошо представлять (быть репрезентативной, представительной) генеральную совокупность.

Обычно считается, что чтобы иметь право судить о генеральной совокупности по выборке, выборка должна быть образована случайно. Это можно достичь различными способами (наиболее распространенными):

  • собственно-случайная выборка;
  • механическая;
  • типическая;
  • серийная.

Собственно-случайная выборка

Существует два подхода к решению данной задачи:
Простая случайная выборка с возвращением – объект извлекается из генеральной совокупности случайным образом, и перед извлечением следующего, возвращается обратно. Например, после отбора деталей на анализ соответствия стандарту из большой партии, их снова возвращают назад и партию перемешивают.

Выборка без возвращения – извлеченный объект не возвращается в генеральную совокупность, а значит, может появиться в выборке только один раз. Например, отбор деталей производится с конвейера и после деструктивного анализа (разрушающего), возврат уже не возможен.

Математическая статистика

Если генеральная совокупность бесконечна, то процедуры
выборки как с возвращением, так и без него, дают простую случайную выборку. Если генеральная совокупность конечна и велика по сравнению с размером выборки, то процедура извлечения без возвращения дает приблизительно простую случайную выборку. Если генеральная совокупность конечна и объем выборки составляет заметную долю от размера генеральной совокупности, то различие между этими двумя методами становится заметным.

Механическая выборка

Механической называется выборка, в которую объекты из
генеральной совокупности отбираются через определенный интервал (рис. 24).

Математическая статистика

Например, если объем выборки должен составлять 5 % объема генеральной совокупности, то отбирается каждый двадцатый объект генеральной совокупности. Опасность, которая подстерегает исследователя при использовании этого метода – попасть в период циклически изменяющейся случайной величины.

Типическая выборка

Если генеральную совокупность предварительно разбить на непересекающиеся группы, а затем образовать собственнослучайные выборки элементов (с возвратом или без) изкаждой группы и все отобранные объекты считать попавшими в выборку, то получим выборочную совокупность, называемую типической выборкой. Считается, что типическая выборка с большей
достоверностью воспроизводит однородную генеральную совокупность.

Серийная выборка

Если генеральную совокупность предварительно разбить на
непересекающиеся серии, а затем, рассматривая серии как элементы некой мегасовокупности, выбрать случайным образом несколько серий и все объекты отобранных серий поместить в выборку, то получим выборочную совокупность, которая называется серийной.

Всякая случайная выборка возникает из генеральной совокупности в результате случайного отбора, ее можно описать с
помощью n-мерного случайного вектора Математическая статистикасоставляющая которого Математическая статистикадает случайную величину Х в i-м наблюдении Математическая статистика

Можно говорить о выборке объема n из распределенной согласно F(x) генеральной совокупности, когда случайные компоненты Математическая статистика независимы друг от друга и имеют ту же функцию распределения, что и X, а именно F(x).
Закон распределения случайного вектора Математическая статистикаМатематическая статистика
в этом случае полностью определяется формулой: Эта формула получается из условий: F(x) – вероятность, Математическая статистика – независимые события. Здесь мы вторгаемся в область многомерных случайных величин и функций.

Отсюда следует, что каждая из рассчитанных по наблюдениям Математическая статистика данной выборки числовая характеристика, например среднее арифметическое , есть реализация случайной величины, которая от выборки к выборке может принимать различные значения.

Такая случайная величина называется выборочной функцией и в общем случае обозначается как

Математическая статистика

Такая запись означает зависимость выборочной функции от случайных компонент Математическая статистика вектора Математическая статистика

Так как выборочная функция Т является случайной величиной, то она имеет закон распределения, зависящий от закона распределения случайной величины X в генеральной совокупности. Для построения математико-статистических методов
оценки параметров и проверки гипотез необходимо знание закона распределения, поэтому его расчет по распределению Х для различных выборочных функций образует основную техническую проблему математической статистики.

Распределение среднего арифметического значения используется достаточно часто. Если из генеральной совокупности, распределение которой имеет математическое ожидание Математическая статистикаи
дисперсию Математическая статистика(при этом закон распределения генеральной совокупности не обязательно должен быть нормальным) последовательно отбирать ряд выборок объема n, то каждая выборка даст реализацию величины . В итоге получается ряд средних арифметических для которых можно установить эмпирическое распределение и вычислить числовые характеристики. Тогда распределение частот с увеличением объема выборки n все более
приближается по форме к нормальной кривой. Можно математически строго доказать, что имеет (для больших n) асимптотически нормальное распределение с математическим ожидание Математическая статистика и дисперсией Математическая статистика

Некоторые важные распределения выборочных функций
Все приведенные ниже теоремы предполагают, что n компонент Математическая статистикаслучайного вектора Математическая статистика независимы и имеют
нормальное распределение с математическим ожиданием Математическая статистика и
дисперсией Математическая статистика, то есть имеем выборку объема n из нормально
распределенной генеральной совокупности.

Теорема:

Выборочная функция

Математическая статистика

распределена нормально согласно Математическая статистика

Величина также приближенно распределена нормально согласно Математическая статистика если соответствующая генеральная совокупность удовлетворяет произвольному распределению с математическим ожиданием Математическая статистика и дисперсией Математическая статистика. Приближение тем лучше, чем больше n.

Теорема:

Выборочная функция (нормированная) удовлетворяет нормированному (стандартному) нормальному распределению с параметрами N(0; 1).

Математическая статистика

Теорема:

Образованная с помощью эмпирической дисперсии (деление на n-1 дает несмещенную оценку) выборочная функция удовлетворяет непрерывной функции распределения с плотностью для х>0 при m = n-1.

Значение Математическая статистиказависит только от m, но не от x, и его следует выбирать так, чтобы выполнялось условие нормирования для плотности распределения (). Определенная здесь плотность распределения называется распределением Математическая статистика(хи-квадрат) с m = n-1 степенями свободы. При этом n и m являются параметрами.

Плотность распределения хи-квадрат асимметрична, но при Математическая статистикаприближается к плотности нормального распределения с математическим ожиданием m=n-1 и дисперсией 2m = 2(n- 1).

Теорема:

Если из выборочных функций Математическая статистикаи Математическая статистикаобразовать новую функцию

Математическая статистика

то для нее доказано, что эта выборочная функция непрерывна, а ее плотность равна:

Математическая статистика

константа, зависимая только от m.
Эта плотность вероятности получена У. С. Гассетом и названа по его псевдониму – Student. Распределение Стьюдента или t-распределение с m=n-1 степенями свободы.
Кривая плотности вероятности тем более полога, чем меньше m, и при Математическая статистикапереходит в плотность вероятности нормированного (стандартного) распределения.

Статистические оценки параметров распределения

Цель: получение представлений о статистической оценке
параметров и интервалов выборочного распределения.

Точечные оценки параметров распределения
Пусть требуется изучить количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Возникает задача оценки параметров, которыми определяется это распределение.

Обычно в распоряжении исследователя имеются лишь данные выборки, полученные в результате n наблюдений (здесь и далее наблюдения предполагаются независимыми). Через эти данные и выражают оцениваемый параметр. Рассматривая значения количественного признака как независимые случайные величины, можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения – это значит найти функцию от наблюдаемых случайных величин, которая и дает приближенное значение оцениваемого параметра.

Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин.

Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определенным требованиям: оценка должна быть несмещенной, эффективной и состоятельной.

Несмещенной называют статистическую оценку Q*, математическое ожидание которой равно оцениваемому параметру Q при любом объеме выборки, т. е.
M(Q*) = Q.

Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру.
Эффективной называют статистическую оценку, которая (при заданном объеме выборки n) имеет наименьшую возможную дисперсию.
При рассмотрении выборок большого объема (n велико!) к
статистическим оценкам предъявляется требование состоятельности.

Состоятельной называют статистическую оценку, которая при Математическая статистика стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при
Математическая статистика стремится к нулю, то такая оценка оказывается и состоя-
тельной.
Рассмотрим точечные оценки параметров распределения,
т.е. оценки, которые определяются одним числом Математическая статистикаМатематическая статистика где Математическая статистика— выборка.

Генеральная средняя

Пусть изучается генеральная совокупность относительно
количественного признака Х.
Генеральной средней называют среднее арифметическое значений признака генеральной совокупности.
Если все значения признака различны, то

Математическая статистика

Если значения признака распределены по частотам:

Математическая статистика
Математическая статистика

Выборочная средняя

Пусть для изучения генеральной совокупности относительно количественного признака Х извлечена выборка объема n.
Выборочной средней называют среднее арифметическое
значение признака выборочной совокупности.
Если все значения признака выборки различны, то

Математическая статистика

а если же все значения имеют частоты Математическая статистика то

Математическая статистика

Выборочная средняя является несмещенной и состоятельной оценкой генеральной средней. Замечание: Если выборка
представлена интервальным вариационным рядом, то за Математическая статистикапринимают середины частичных интервалов.

Генеральная дисперсия

Для того чтобы охарактеризовать рассеяние значений количественного признака Х генеральной совокупности вокруг
своего среднего значения, вводят сводную характеристику – генеральную дисперсию.

Генеральной дисперсией Математическая статистиканазывают среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения. Если все значения признака генеральной совокупности объема N различны, то

Математическая статистика

Если же значения признака имеют соответственно частоты

Математическая статистика

Кроме дисперсии для характеристики рассеяния значений признака генеральной совокупности вокруг своего среднего значения пользуются сводной характеристикой – средним квадратическим отклонением.
Генеральным средним квадратическим отклонением (стандартом) называют квадратный корень из генеральной дисперсии.

Выборочная дисперсия

Для того, чтобы наблюдать рассеяние количественного признака значений выборки вокруг своего среднего значения, вводят сводную характеристику- выборочную дисперсию.
Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения.

Если все значения признака выборки различны, то

Математическая статистика

если же все значения имеют частоты Математическая статистика то

Математическая статистика

Для характеристики рассеивания значений признака выборки вокруг своего среднего значения пользуются сводной характеристикой – средним квадратическим отклонением.

Генеральным средним квадратическим отклонением называют квадратный корень из генеральной дисперсии:

Математическая статистика

Выборочным средним квадратическим отклонением называют квадратный корень из выборочной дисперсии:

Математическая статистика

Вычисление дисперсии – выборочной или генеральной, можно упростить, используя формулу: Математическая статистика

Замечание: если выборка представлена интервальным вариационным рядом, то за xi принимают середины частичных интервалов.

Исправленная дисперсия

Выборочная дисперсия является смещенной оценкой генеральной дисперсии, т.е. математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дисперсии, а равно

Математическая статистика

Для исправления выборочной дисперсии достаточно умножить ее на дробь

Математическая статистика

получим исправленную дисперсию Математическая статистика Исправленная дисперсия является несмещенной оценкой. В качестве оценки генеральной
дисперсии принимают исправленную дисперсию.
Для оценки среднего квадратического генеральной совокупности используют исправленное среднее квадратическое отклонение

Математическая статистика

Замечание: формулы для вычисления выборочной дисперсии и исправленной дисперсии отличаются только знаменателями. При достаточно больших n выборочная и исправленная дисперсии мало отличаются, поэтому на практике исправленной дисперсией пользуются, если n<30.

Вычислим выборочные характеристики по выборкам, рассмотренным в табл. 16.

Математическая статистика

Пример:

Для дискретного вариационного ряда:
Среднее выборочное

Математическая статистика

Выборочная дисперсия

Математическая статистика

Выборочное среднее квадратическое отклонение

Математическая статистика

Исправленная дисперсия

Математическая статистика

Рассмотрим пример расчета точечных оценок параметров
интервального вариационного ряда (табл. 17).

Математическая статистика

За Математическая статистика примем середины частичных интервалов:

Математическая статистика

Для вычисления выборочной дисперсии воспользуемся формулой

Математическая статистика

Тогда выборочная дисперсия равна

Математическая статистика

Выборочное среднее квадратическое отклонение:

Математическая статистика

Интервальные оценки параметров распределения

Интервальной называют оценку, которая определяется двумя числами – концами интервала. Интервальные оценки позволяют установить точность и надежность оценок.
Пусть найденная по данным выборки статистическая характеристика Q* служит оценкой неизвестного параметра Q.
Будем считать Q постоянным числом (Q может быть и случайной величиной). Ясно, что Q* тем точнее определяет параметр Q, чем меньше абсолютная величина разности |Q- Q*|. Другими словами, если Математическая статистика и Математическая статистика, то чем меньше Математическая статистика, тем оценка точнее.

Таким образом, положительное число Математическая статистикахарактеризует точность оценки. Однако статистические методы не позволяют категорически утверждать, что оценка Q* удовлетворяет неравенству Математическая статистика; можно лишь говорить о вероятности Математическая статистикас которой это неравенство осуществляется.

Надежностью (доверительной вероятностью) оценки называют вероятность Математическая статистика, с которой осуществляется неравенство
Математическая статистика.
Обычно надежность оценки задается наперед, причем в качестве Математическая статистикаберут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.

Пусть вероятность того, что, |Q- Q*| <d равна Математическая статистика

Математическая статистика

Заменив неравенство, равносильным ему двойным неравенством получим:

Математическая статистика

Это соотношение следует понимать так: вероятность того, что интервал Q* – d < Q < Q* +d заключает в себе (покрывает) неизвестный параметр Q, равна Математическая статистика.
Интервал Математическая статистиканазывается доверительным интервалом, который покрывает неизвестный параметр с надежностью Математическая статистика.

Интервальные оценки параметров нормального распределения

Доверительный интервал для оценки математического ожидания при известном среднем квадратичном отклонении

Пусть количественный признак генеральной совокупности распределен нормально. Известно среднее квадратическое отклонение этого распределения Математическая статистикаТребуется оценить математическое ожидание a по выборочной средней. Найдем доверительный интервал, покрывающий математическое ожидание a с надежностью Математическая статистика. Выборочную среднюю будем рассматривать как случайную величину (она изменяется от выборки к выборке), выборочные значения признака – как одинаково распределенные независимые случайные величины с математическим ожиданием a и средним квадратическим отклонением Математическая статистика Примем без доказательства, что если величина Х распределена нормально, то и выборочная средняя тоже распределена нормально с параметрами

Математическая статистика

Потребуем, чтобы выполнялось равенство

Математическая статистика

Заменив Х и Математическая статистика, получим

Математическая статистика

Задача решена. Число t находят по таблице функции Лапласа Ф(х).

Пример:

Случайная величина Х распределена нормально и Математическая статистика

Найти доверительный интервал для оценки математического ожидания по выборочным средним, если n = 36 и задана надежность Математическая статистика
Из соотношения 2Ф(t)= 0,95 , откуда Ф(t) = 0,475 по таблице найдем
t =1,96. Точность оценки

Математическая статистика

Доверительный интервал

Математическая статистика

Пример:

Найти минимальный объем выборки, который обеспечивает заданную точность Математическая статистикаи надежность Математическая статистикаесли СВХ распределена нормально и Математическая статистика

Из равенства

Математическая статистика

подставим значения и получим минимальный объем выборки
n=80.

Доверительный интервал для оценки математического ожидания при неизвестном среднем квадратичном отклонении

Поскольку мы не знакомы с законами распределения случайной величины, которые используются при выводе формулы, то примем ее без доказательства.
В качестве неизвестного параметра Математическая статистика используют исправленную дисперсию Математическая статистика. Заменяя Математическая статистика на s, t на величину Математическая статистика

Значение этой величины зависит от надежности Математическая статистикаи объема выборки n и определяется по таблице значений Математическая статистика Итак:

Математическая статистика

и доверительный интервал имеет вид

Математическая статистика

Пример:

Найти доверительный интервал для оценки математического ожидания с надежностью 0,95, если объем выборки n =16, среднее выборочное и исправленная дисперсия соответственно равны 20,2 и 0,8.
По таблице приложения найдем Математическая статистикапо заданной надежности Математическая статистикаи n= 16: Математическая статистика Подставим в формулу s =0,8 и Математическая статистика , вычислим границы доверительного интервала:

Математическая статистика

откуда получим доверительный интервал (19,774; 20,626).
Смысл полученного результата: если взять 100 различных
выборок, то в 95 из них математическое ожидание будет находиться в пределах данного интервала, а в 5 из них – нет.

Пример:

Измеряют диаметры 25 корпусов электродвигателей. Получены выборочные характеристики

Математическая статистика

Необходимо найти вероятность (надежность) того, что интервал: Математическая статистика является доверительным интервалом оценки математического ожидания при нормальном распределении.
Из условия задачи найдем точность d, составив и решив систему:

Математическая статистика

Откуда d =10. Из равенства

Математическая статистика

откуда Математическая статистика По таблице для найденного Математическая статистика и n= 25 находим
Математическая статистика

Доверительный интервал для оценки дисперсии и среднего квадратического отклонения

Требуется оценить неизвестную генеральную дисперсию и генеральное среднее квадратическое отклонение по исправленной дисперсии, т.е. найти доверительные интервалы, покрывающие параметры D и Математическая статистика с заданной надежностью Математическая статистика.

Потребуем выполнения соотношения

Математическая статистика

Раскроем модуль и получим двойное неравенство:

Математическая статистика

Преобразуем:

Математическая статистика

Обозначим d/s = q (величина q находится по «Таблице значений q» и зависит от надежности и объема выборки), тогда доверительный интервал для оценки генерального среднего квадратического отклонения имеет вид:

Математическая статистика

Замечание:

Так как s >0, то если q >1 , левая граница
интервала равна 0:

0< s < s ( 1 + q ).

Пример:

По выборке объема n = 25 найдено «исправленное» среднее квадратическое отклонение s = 0,8. Найти до- верительный интервал, покрывающий генеральное среднее квадратическое отклонение с надежностью 0,95. По таблице приложения по данным Математическая статистика n =25 , находим q = 0,32.

Искомый доверительный интервал 0,8(1- 0,32)< s < 0,8(1+ 0,32) или 0,544 < s <0,056.

Пример:

По выборке объема n = 10 найдено s = 0,16.
Найти доверительный интервал, покрывающий генеральное среднее квадратическое отклонение с надежностью 0,999.

Математическая статистика

Искомый доверительный интервал 0< s <0,16(1+1,8) или 0< s <0,448.
Так как дисперсия есть квадрат среднего квадратического
отклонения, то доверительный интервал, покрывающий генеральную дисперсию с заданной надежностью Математическая статистика, имеет вид:

Математическая статистика

Линейный корреляционный анализ

Цель: изучение связей между величинами, носящими случайный характер. Проверка гипотез о линейной и нелинейной корреляции величин.

Исключительный интерес для широкого класса задач представляет обнаружение взаимных связей между двумя и более случайными величинами. Например, существует ли связь между курением и ожидаемой продолжительностью жизни или между умственными способностями и успеваемостью. В инженерных применениях такие задачи обычно сводятся к установлению связи между некоторым предполагаемым возбуждением и наблюдаемым откликом изучаемой физической системы.

Корреляционный анализ (термин “корреляция” происходит
от лат. correlatio – соотношение, связь) измеряет степень взаимосвязи между двумя переменными – например, ценой товара
на рынке и объемом спроса на этот товар. Величина, характеризующая наличие связи – коэффициент корреляции показывает, приведут ли изменения одной переменной, например, цены к изменениям другой – спроса.

При корреляционном анализе двух переменных одна из них называется «зависимая», а другая – «независимая». Цель анализа
– определить, приведут ли изменения независимой переменной
к изменениям зависимой.

Из математики нам известно понятие функции, которая описывает зависимость значения величины Y от значения независимой переменной Х, называемой аргументом. Однозначная зависимость между переменными величинами Y и X называется функциональной, т.е. Y = f(X) (“игрек есть функция от икс”).

Например, в функции Y = -3X+5 каждому значению X соответствует значение Y. В функции Математическая статистикакаждому значению X соответствует Y , равный кубу X. Но такого рода однозначные или функциональные связи между переменными величинами встречаются не всегда. Известно, например, что между ростом и массой человека существует положительная связь: более высокие индивиды имеют обычно и большую массу, чем индивиды низкого роста. То же наблюдается и в отношении качественных признаков: блондины, как правило, имеют голубые, а брюнеты –карие глаза. Однако из этого правила имеются исключения, когда сравнительно низкорослые индивиды оказываются тяжелее высокорослых, и среди людей встречаются кареглазые блондины и голубоглазые брюнеты. Причина таких “исключений” в том, что каждый биологический признак, выражаясь математическим языком, является функцией многих переменных; на его величине сказывается влияние и генетических, и средовых факторов, в том числе и случайных, что вызывает варьирование признаков. Отсюда зависимость между ними приобретает не функциональный, а статистический характер, когда определенному значению одного признака, рассматриваемого в качестве независимой переменной, соответствует не одно и то же числовое значение, а целая гамма распределяемых в вариационный ряд числовых значений другого признака, рассматриваемого в качестве независимой переменной. Такого рода зависимость между переменными величинами называется корреляционной.

Если функциональные связи одинаково легко обнаружить и на
единичных, и на групповых объектах, то этого нельзя сказать о
связях корреляционных, которые изучаются только на групповых объектах методами математической статистики.

Задача корреляционного анализа сводится к установлению
направления и формы связи между признаками, измерению ее
тесноты и к оценке достоверности выборочных показателей корреляции.

Для двух случайных величин х и y коэффициент корреляции определяется по формуле:

Математическая статистика

где Математическая статистика— ковариация х и у, определяемая по формуле, а Математическая статистикаи Математическая статистика
средние квадратичные отклонения по выборкам.

Математическая статистика

Коэффициент корреляции Браве–Пирсона по выборочным
данным можно оценить по формуле:

Математическая статистика

Выборочный коэффициент корреляции лежит между -1 и +1
и принимает одно из граничных значений только при наличии
идеальной линейной связи между наблюдениями. Нелинейная
связь и (или) разброс данных, вызванный ошибками измерения
или же неполной коррелированностью случайных величин, приводит к уменьшению абсолютного значения Математическая статистика

Данный коэффициент впервые использовал Карл Пирсон
(1857–1936), английский математик, разработавший статистический аппарат для проверки теории Ч.Дарвина. Статистические
методики Пирсона широко используются в психологии и педагогике.
Расчет коэффициента корреляции правомерно проводить в том случае, когда случайные величины могут быть измерены в числовой шкале, при этом возможно вычисление средних значений. Приведём пример, когда нахождение коэффициента корреляции некорректно именно по причине измерения случайных величин в качественной шкале. Любые измеряемые величины соотносят с одной из измерительных шкал. Обычно выделяют две качественные шкалы: номинальную и порядковую. Номинальная позволяет только качественно отличить один объект от другого, например черное – белое, Марина – Пётр – Саша. Порядковая или ранговая шкала позволяет установить порядок увеличения или уменьшения какого-либо качества: низкий – средний – высокий, плохо – удовлетворительно – хорошо – отлично и т.д.

Количественные шкалы – интервалов и отношений, позволяют сравнивать величины между собой и выражать различие числом. Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами Математическая статистика и Математическая статистикаграфически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называют также диаграммой рассеивания или корреляционным полем (рис. 25).

Данная модель двумерного нормального распределения
(корреляционное поле) позволяет дать наглядную графическую
интерпретацию коэффициента корреляции, т.к. распределение в
совокупности зависит от пяти параметров: Математическая статистика– средние значения (математические ожидания); Математическая статистика – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.

Математическая статистика

Математическая статистика

Если р = 0, то значения, Математическая статистика полученные из двумерной
нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью. В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.

Пример:

Определить достоверность взаимосвязи между по-
казателями веса и количеством подтягиваний на перекладине у
11 исследуемых с помощью расчета нормированного коэффициента корреляции, если данные выборок таковы:

Математическая статистика

Решение:
1.Расчет коэффициента корреляции Пирсона:

Математическая статистика

2.Для расчетов создать вспомогательную таблицу

Математическая статистика
Математическая статистика

3.Рассчитать число степеней свободы по формуле:

Математическая статистика

4.Сравнить рассчитанное значение нормированного
коэффициента корреляции Математическая статистикас табличным значением
для К =9 при a = 5 % и сделать вывод.

Вывод

1) так как Математическая статистика то между данными выборок наблюдается обратная отрицательная взаимосвязь, то есть с увеличением показателей веса у исследуемых снижается их результат в количестве подтягиваний на перекладине;
2) поскольку Математическая статистика для K = 10 при Математическая статистика то с
уверенностью Математическая статистикаможно говорить о том, что выявленная
зависимость недостоверна.

Основы дисперсионного анализа

Цель: познакомиться с теорией дисперсионного анализа.

Дисперсионный анализ (от латинского Dispersio – рассеивание) – статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Р. Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.

Целью дисперсионного анализа является проверка значимости различия средних арифметических на основе сравнения
дисперсий нескольких групп. Дисперсию измеряемого признака
разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.

Например, проводя опросы по поводу потребления какого-
либо товара в различных регионах страны, необходимо сделать
выводы на: сколько данные опроса отличаются или не отличаются друг от друга. Сопоставлять отдельные показатели не имеет смысла и поэтому процедура сравнения и последующей оценки производится по некоторым усредненным значениям и отклонениям от этой усредненной оценки. Изучается вариация
признака. За меру вариации принимается дисперсия. На практике часто возникают задачи более общего характера – задачи проверки существенности различий средних выборочных нескольких совокупностей.

Например, требуется оценить влияние различного сырья на качество производимой продукции, решить задачу о влиянии количества удобрений на урожайность с/х продукции.

Дисперсионный анализ включает в себя проверку гипотез, связанных с оценкой выборочной дисперсии. Можно выделить три основных вида гипотез:
1) значимо ли различие между двумя дисперсиями?
2) одна дисперсия значимо больше другой?
3) значимо ли различие между несколькими дисперсиями?

Гипотезой для дисперсионного анализа может служить и
такая гипотеза: выборки, по которым определены оценки дисперсии, получены из генеральных совокупностей, обладающих
одинаковыми дисперсиями.

Иногда дисперсионный анализ применяется, чтобы установить однородность нескольких совокупностей. Дисперсии этих совокупностей одинаковы по предположению; если дисперсионный анализ покажет, что и математические ожидания одинаковы, то в этом смысле совокупности однородны. Однородные же совокупности можно объединить в одну и тем самым
получить о ней более полную информацию, следовательно, и
более надежные выводы.

В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Вариацию, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая дисперсия Математическая статистикаОна является мерой вариации частных средних по группам Математическая статистикавокруг общей средней Математическая статистика и определяется по формуле:

Математическая статистика

где p – число групп; n – число уровней фактора; – общая средняя.
Вариацию, характеризующую рассеяние между группами, описывает межгрупповая дисперсия:

Математическая статистика

Остаточная сумма квадратов отклонений наблюдаемых
значений группы от своего группового среднего, характеризует
рассеяние внутри групп:

Математическая статистика

Между общей дисперсией Математическая статистика межгрупповой дисперсией Математическая статистика и внутригрупповой дисперсией Математическая статистикасуществует соотношение:

Математическая статистика

Внутригрупповая дисперсия объясняет влияние неучтенных при группировке факторов, а межгрупповая дисперсия объясняет влияние факторов группировки на среднее значение по группе. Разделив суммы квадратов на соответствующее число степеней свободы, получим общую, факторную и остаточную дисперсии:

Математическая статистика

Математическая статистика

Если справедлива гипотеза Математическая статистика, то все эти дисперсии являются несмещенными оценками генеральной дисперсии. Покажем, что проверка нулевой гипотезы сводится к сравнению факторной и остаточной дисперсии по критерию Фишера-Снедекора.

1.Пусть гипотеза Математическая статистика правильна. Тогда факторная и остаточная дисперсии являются несмещенными оценками неизвестной генеральной дисперсии и, следовательно, различаются незначимо. Поэтому результат оценки по критерию Фишера-Снедекора F покажет, что нулевая гипотеза принимается. Таким образом, если верна гипотеза о равенстве математических ожиданий генеральных совокупностей, то верна и гипотеза о равенстве факторной и остаточной дисперсий.

2. Если нулевая гипотеза неверна, то с возрастанием расхождения между математическими ожиданиями увеличивается и факторная дисперсия, а вместе с ней и отношение

Математическая статистика

Поэтому в результате Математическая статистикаокажется больше Математическая статистикаи гипотеза о равенстве дисперсий будет отвергнута. Следовательно, если гипотеза о равенстве математических ожиданий генеральных совокупностей ложна, то ложна и гипотеза о равенстве факторной и остаточной дисперсий.

Итак, метод дисперсионного анализа состоит в проверке по критерию F нулевой гипотезы о равенстве факторной и остаточной дисперсий.
Если факторная дисперсия окажется меньше остаточной, то гипотеза о равенстве математических ожиданий генеральных
совокупностей верна. При этом нет необходимости использовать критерий F.

При обработке данных эксперимента наиболее разработанными и поэтому распространенными считаются две модели. Их различие обусловлено спецификой планирования самого эксперимента. В модели дисперсионного анализа с фиксированными эффектами исследователь намеренно устанавливает строго определенные уровни изучаемого фактора. Термин «фиксированный эффект» в данном контексте имеет тот смысл, что самим исследователем фиксируется количество уровней фактора и различия между ними. При повторении эксперимента он или другой исследователь выберет те же самые уровни фактора. В модели со случайными эффектами уровни значения фактора выбираются исследователем случайно из широкого диапазона значений фактора, и при повторных экспериментах, естественно, этот диапазон будет другим.

Таким образом, данные модели отличаются между собой способом выбора уровней фактора, что, очевидно, в первую очередь влияет на возможность обобщения полученных экспериментальных результатов. Для дисперсионного анализа однофакторных экспериментов различие этих двух моделей не столь существенно, однако в многофакторном дисперсионном анализе оно может оказаться весьма важным.

При проведении дисперсионного анализа должны выполняться следующие статистические допущения: независимо от уровня фактора величины отклика имеют нормальный закон распределения и одинаковую дисперсию. Такое равенство дисперсий называется гомогенностью. Таким образом, изменение способа обработки сказывается лишь на положении случайной величины отклика, которое характеризуется средним значением или медианой. Поэтому все наблюдения отклика принадлежат сдвиговому семейству нормальных распределений.

Говорят, что техника дисперсионного анализа является «робастной». Этот термин, используемый статистиками, означает, что данные допущения могут быть в некоторой степени нарушены, но, несмотря на это, технику можно использовать. При неизвестном законе распределения величин отклика используют непараметрические (чаще всего ранговые) методы анализа.

Пример использования однофакторного дисперсионного анализа

В четырех группах испытуемых, по 17 человек в каждой, проводилось изучение времени реакции на звуковой стимул.
Интенсивность стимула составила 40, 60, 80 и 100 дБ, причем в
каждой группе предъявлялись стимулы только одной интенсивности.

Математическая статистикаСреднее время реакции уменьшается по мере увеличения громкости звука. В этой задаче регулируемым фактором
является сила звука, а её уровни рассматриваются как градации
фактора. Таким образом, фактор «сила звука» выступает как независимая переменная, а время реакции как результативный
признак, или как зависимая переменная. Проверяется гипотеза
Математическая статистика, согласно которой средние и дисперсии в группах обусловлены случайными влияниями и не зависят от действия регулируемого фактора.
Математическая статистика Среднее время реакции увеличивается по мере увеличения громкости звука.

Представим исходные данные для работы с однофакторным дисперсионным анализом в виде табл. 20, в которую внесены некоторые дополнительные расчетные данные.

Математическая статистика

Математическая статистика

Сравнивая F экс и F таб, можно сделать вывод, что F экс больше критического табличного значения, а это значит, что нулевую гипотезу Математическая статистика об отсутствии различий следует отвергнуть, а
принять гипотезу Математическая статистика. Психолог может быть уверенным, что при
увеличении силы звука скорость реакции значительно увеличивается. Или регулируемый фактор – сила звука оказывает существенное влияние на независимую переменную – скорость реакции.

Факторный анализ

Цель: освоить методику применения факторного анализа для исследования экспериментальных данных.

Множество явлений и процессов в окружающем нас мире связаны между собой. Изучение взаимных зависимостей между составляющими явлений и процессов порождает множество вопросов: о силе связей, об их закономерностях, о причинах, породивших определенную структуру связей. Сложные зависимости системы факторов, влияющих на процесс, сложно интерпретировать, поскольку в большинстве ситуаций существуют скрытые параметры, влияющие на коррелированные признаки.

Часто изменения взаимосвязанных признаков происходит
согласованно, т.е. признаки дублируются. Стремление объяснить совокупность признаков через введение более глубинных
характеристик явления, определяющих его структуру, приводит
к модели факторного анализа.
Факторный анализ – многомерный статистический метод, применяемый для изучения взаимосвязей между значениями переменных.

Реализация факторного анализа представляет собой постепенный переход от исходной факторной системы к конечной факторной системе, изучение влияния полного набора прямых, количественно измеряемых факторов, оказывающих влияние на изменение результативного показателя.

Условия выполнения факторного анализа:

  • факторный анализ выполняется над взаимосвязанными
    переменными;
  • изучаемые признаки должны быть количественными;
  • число признаков должно быть в два раза больше числа переменных;
  • выборка должна быть однородна.

По характеру взаимосвязи между показателями различают методы детерминированного и стохастического факторного анализа.

Детерминированный факторный анализ представляет собой методику исследования влияния факторов, связь которых с результативным показателем носит функциональный характер.
Основные свойства детерминированного подхода к анализу:

  • построение детерминированной модели путем логического
    анализа;
  • наличие полной (жесткой) связи между показателями;
  • невозможность разделения результатов влияния одновременно действующих факторов, которые не поддаются объединению в одной модели;
  • изучение взаимосвязей в краткосрочном периоде.

Различают четыре типа детерминированных моделей:
Аддитивные модели представляют собой алгебраическую сумму показателей и имеют вид

Математическая статистика

К таким моделям, например, относятся показатели себестоимости во взаимосвязи с элементами затрат на производство и со статьями затрат; показатель объема производства продукции в его взаимосвязи с объемом выпуска отдельных изделий или объема выпуска в отдельных подразделениях.

Мультипликативные модели в обобщенном виде могут быть представлены формулой

Математическая статистика

Примером мультипликативной модели является двухфакторная модель объема реализации

Математическая статистика

где X – среднесписочная численность работников;
Pr – средняя выработка на одного работника.

Кратные модели:

Математическая статистика

Примером кратной модели служит показатель срока оборачиваемости товаров (в днях) . Т ОБ.Т:

Математическая статистика

где ЗТ – средний запас товаров; ОР – однодневный объем реализации.

Смешанные модели представляют собой комбинацию перечисленных выше моделей и могут быть описаны с помощью
специальных выражений:

Математическая статистика

Примерами таких моделей служат показатели затрат на 1 руб. товарной продукции, показатели рентабельности и др.

Алгоритмы применения детерминированного факторного анализа для различных моделей

  1. Модель вида Математическая статистика
Математическая статистика

2. Модель вида Математическая статистика

Математическая статистика

3. Модель вида Математическая статистика

Математическая статистика

4. Модель вида Математическая статистика

Математическая статистика

Построение факторной модели – первый этап детерминированного анализа. Далее определяют способ оценки влияния факторов.

Способы оценки влияния факторов

  • Способ цепных подстановок
  • Способ относительных разниц
  • Способ абсолютных разниц

Способ цепных подстановок заключается в определении ряда промежуточных значений обобщающего показателя путем
последовательной замены базисных значений факторов на отчетные. Данный способ основан на исключении воздействия
всех факторов на величину результативного показателя, кроме
одного. При этом исходя из того, что все факторы изменяются
независимо друг от друга, т.е. сначала изменяется один фактор, а все остальные остаются без изменения, потом изменяются два при неизменности остальных и т.д.

В общем виде применение способа цепных постановок можно описать следующим образом:

Математическая статистика

где Математическая статистика – базисные значения факторов, оказывающих влияние на обобщающий показатель у; Математическая статистика – фактические значения факторов; Математическая статистика – промежуточные изменения результирующего показателя, связанного с изменением факторов а, b,соответственно.
Общее изменение Математическая статистикаскладывается из суммы изменений результирующего показателя за счет изменения каждого фактора при фиксированных значениях остальных факторов:

Математическая статистика

Проведем факторный анализ влияния на объем товарной продукции количества работников и их выработки описанным выше способом на основе данных табл.21.
Зависимость объема товарной продукции от данных факторов можно описать с помощью мультипликативной модели:

Математическая статистика

Математическая статистика

Тогда влияние изменения величины количества работников на обобщающий показатель можно рассчитать по формуле:

Математическая статистика

Далее определим влияние изменения выработки работников на обобщающий показатель

Математическая статистика

Суммарное влияние двух факторов:

Математическая статистика

Таким образом, на изменение объема товарной продукции
отрицательное влияние оказало изменение на 32 человека чис-
ленности работников, что вызвало снижение объема продукции
на 2720 тыс. руб. и отрицательное влияние оказало снижение
выработки на 13 тыс. руб., что вызвало снижение объема на
1274 тыс. руб. Суммарное влияние двух факторов привело к
снижению объема продукции на 3994 тыс. руб.

Способ абсолютных разниц является модификацией способа цепной подстановки. Изменение результативного показателя за счет каждого фактора способом разниц определяется как произведение отклонения изучаемого фактора на базисное или отчетное значение другого фактора в зависимости от выбранной последовательности подстановки:

Математическая статистика

Способ относительных разниц применяется для измерения влияния факторов на прирост результативного показателя в мультипликативных и смешанных моделях вида у = (а – b) * с.
Он используется в случаях, когда исходные данные содержат определенные ранее относительные отклонения факторных показателей в процентах.

Для мультипликативных моделей типа у = abc методика анализа следующая: находят относительное отклонение каждого факторного показателя:

Математическая статистика

затем определяют отклонение результативного показателя у за счет каждого фактора

Математическая статистика

Пример:

Воспользовавшись данными табл. 21, проведем анализ способом относительных разниц. Относительные отклонения рассматриваемых факторов составят:

Математическая статистика

Математическая статистика

Рассчитаем влияние на объем товарной продукции каждого фактора.

Количества работников:

Математическая статистика

Выработки продукции каждым работником:

Математическая статистика

Линейный регрессионный анализ

Цель: Используя методы регрессионного анализа, научиться строить прямые регрессии и оценивать полученные данные (прогноз) в заданном доверительном интервале.

Корреляционный анализ позволяет установить степень взаимосвязи двух и более случайных величин. Однако наряду с
этим желательно иметь модель этой связи, которая дала бы возможность предсказывать значения одной случайной величины
по конкретным значениям другой. Методы решения подобных
задач носят наименование регрессионный анализ.

В линейный регрессионный анализ входит широкий круг задач, связанных с построением (восстановлением) зависимостей между группами числовых переменных

Математическая статистика

Предполагается, что Х – независимые переменные (факторы, объясняющие переменные) влияют на значения Y – зависимых переменных (откликов, объясняемых переменных). По имеющимся эмпирическим данным Математическая статистика требуется построить функцию f (X), которая приближенно описывала бы изменение Y при изменении X

Рассмотрим простой случай двух коррелированных случайных величин х и у. Линейная связь между двумя случайными величинами означает, что прогноз значения величины у по данному значению х имеет вид

Математическая статистика

где А и В – это соответственно отрезок оси ординат, отсекаемой прямой, и ее наклон. Если данные связаны идеальной линейной
зависимостью (функциональная или сильная связь – в других
терминах) Математическая статистика то предсказанное значение будет в точности равняться наблюденному значению Математическая статистикапри любом данном Математическая статистикаОднако на практике обычно отсутствует идеальная линейная зависимость между данными. Как правило, внешние случайные воздействия приводят к разбросу данных, и, кроме того, возможны искажения за счет присутствия нелинейных эффектов. Тем не менее, если все же предположить существование линейной связи и наличие неограниченной выборки, то можно подобрать такие значения А и В, которые дадут возможность предсказать ожидаемое значение для любого данного Математическая статистика. Это означает, что не обязательно совпадает с наблюдаемым значением Математическая статистика, соответствующим данному Математическая статистикаоднако оно будет равно среднему значению всех таких наблюдаемых значений.

Метод наименьших квадратов

Общепринятая процедура определения коэффициентов уравнения состоит в выборе таких значений А и В, которые минимизируют сумму квадратов отклонений наблюдаемых значений от предсказанного значения у. Эта процедура называется методом наименьших квадратов. Поскольку отклонения наблюдаемых значений от предсказанных равны

Математическая статистика

то сумма квадратов отклонений имеет вид

Математическая статистика

Следовательно, наилучшее согласие в смысле наименьших квадратов обеспечивают значения А и В, для которых частные
производные равны нулю:

Математическая статистика

Частные производные по коэффициентам А и В, так как они являются не константами в общем смысле, а некоторыми переменными величинами.
На практике обычно имеется ограниченная выборка из N пар наблюдений значений х и у. Это означает, что уравнение Математическая статистика даст всего лишь оценки А и В; обозначим их через
а и b соответственно. Для отыскания минимума приравняем к
нулю частные производные:

Математическая статистика

Решая систему уравнений относительно оценок величин А и В, получим:

Математическая статистика

Оценки А и В можно также подсчитать по формулам:

Математическая статистика

или в обозначениях коэффициента корреляции и выборочных
дисперсий:

Математическая статистика

Эти значения можно использовать для построения регрессионной модели, позволяющей предсказывать неизвестное у по заданному х:

Математическая статистика

Прямая линия, задаваемая указанным уравнением называется прямой линейной регрессии у на х. Ясно, что коэффициенты а и b, определенные формулами, приведенными выше, являются случайными функциями, имеющими свои распределения. Следовательно, необходимо оценить, насколько точно (или по другому – какой разброс) значения а и b мы получим.

Доверительные интервалы

Для анализа экспериментальных данных часто рассчитываются значения числовых характеристик случайных величин.
Это способ служит для оценки параметров и дает их точечные
оценки.
Числовые характеристики выборки не позволяют судить о степени близости к соответствующим параметрам генеральной совокупности, поскольку каждый вариант выборки дает свои значения параметров. Более содержательны процедуры оценивания параметров, связанные не с получением точечного
значения, а с построением интервала, который накрывает оцениваемый параметр с известной степенью достоверности.
Пусть, например, выборочное среднее арифметическое, вычисленное по n независимым наблюдениям случайной величины х, используется в качестве оценки среднего Математическая статистика

Обычно представляет интерес оценить Математическая статистикав терминах некоторого интервала Математическая статистика, в который Математическая статистикапопадает с заданной степенью достоверности. Такие интервалы можно построить, если известны выборочные распределения рассматриваемой оценки.

Относительно значения выборочного среднего можно сделать следующее вероятностное утверждение:

Математическая статистика

где Ф(х) – стандартная функция распределения; где Математическая статистика– называется вероятностью ошибки, или уровнем значимости.

Обычно вероятность ошибки измеряется в пределах от 0,10 до 0,0001 или в процентах от 1 %, 5 % или 10 % .

Значение Математическая статистика – статистическая достоверность. S измеряют часто в процентах и говорят, например, о 95%-м доверительном интервале Математическая статистика

По мере уменьшения Математическая статистика (увеличения интервала, заключенного между Математическая статистика разумно считать, что вероятность Р скорее равна единице, чем нулю. Иначе говоря, если производится много выборок, и для каждой из них вычисляется , то можно ожидать, что она будет попадать в указанный интервал с относительной частотой, примерно равной Математическая статистикаПри таком подходе можно утверждать, что существует интервал, в который величина Математическая статистика попадает с большой степенью достоверности. Такие утверждения называют доверительными. Интервал, относительно которого делается доверительное утверждение, называется доверительным интервалом. Степень доверия, сопоставляемая доверительному утверждению, называется уровнем доверия.

При оценивании среднего значения доверительный интервал для среднего Математическая статистика можно построить по выборочному значению x :

Математическая статистика

Если Математическая статистика — неизвестна, то доверительный интервал для Математическая статистика
можно построить по выборочным значениям Математическая статистика и s (среднеквадратичное отклонение для выборки). В этом случае
используется t-распределение Стьюдента:

Математическая статистика

где n = N-1 — степени свободы для распределения Стьюдента, N — выборка. Интервалам соответствует уровень доверия Математическая статистика

Точность оценки параметров линии регрессии

Точность оценок параметров а, b и значения предсказанной
функции Математическая статистикамы определим в предположении о нормальности
распределения y при данном значении х (рис. 26).

Математическая статистика

Выборочные распределения указанных параметров связаны с
t-распределением соотношениями:

Математическая статистика

Распределение Математическая статистикапри конкретном значении Математическая статистикапредставляет особый интерес (Математическая статистика — значение, вычисленное по уравнению регрессии, Математическая статистика— оценочное интервальное значение):

Математическая статистика
Математическая статистика

Значение будет определять границы интервала для заданного
значения Математическая статистика В формулах величина Математическая статистика— выборочное стандартное
отклонение наблюдаемого значения Математическая статистика от предсказанного Математическая статистика равное:

Математическая статистика

Множественный регрессионный анализ

Цель: используя множественную регрессионную модель, научиться строить регрессионную зависимость.

Общее назначение множественной регрессии (этот термин был впервые использован в работе К. Пирсона – Pearson, 1908) состоит в анализе связи между несколькими независимыми переменными называемыми также регрессорами или предикторами) и зависимой переменной. Например, агент по продаже недвижимости мог бы вносить в каждый элемент реестра размер дома (в квадратных футах), число спален, средний доход населения в этом районе в соответствии с данными переписи и субъективную оценку привлекательности дома. Как только эта информация собрана для различных домов, было бы интересно посмотреть, связаны ли и каким образом эти характеристики дома с ценой, по которой он был продан.

Например, могло бы оказаться, что число спальных комнат
является лучшим предсказывающим фактором (предиктором)
для цены продажи дома в некотором специфическом районе,
чем «привлекательность» дома (субъективная оценка). Могли бы
также обнаружиться и «выбросы», т.е. дома, которые могли бы
быть проданы дороже, учитывая их расположение и
характеристики.

Как только эта так называемая линия регрессии определена, аналитик оказывается в состоянии построить график ожидаемой (предсказанной) оплаты труда и реальных обязательств компании по выплате жалования. Таким образом, аналитик может определить, какие позиции недооценены (лежат ниже линии регрессии), какие оплачиваются слишком высоко (лежат выше линии регрессии), а какие оплачены адекватно.

В общественных и естественных науках процедуры множественной регрессии чрезвычайно широко используются в
исследованиях. В общем, множественная регрессия позволяет
исследователю задать вопрос (и, вероятно, получить ответ) о том, «что является лучшей посылкой для…». Например, исследователь в области образования мог бы пожелать узнать, какие факторы являются лучшими условиями успешной учебы в средней школе. А психолога мог бы заинтересовать вопрос, какие индивидуальные качества позволяют лучше предсказать степень социальной адаптации индивида. Социологи, вероятно, хотели бы найти те социальные индикаторы, которые лучше других предсказывают результат адаптации новой иммигрантской группы и степень ее слияния с обществом.

Заметим, что термин «множественная» указывает на наличие
нескольких предикторов или регрессоров, которые используются в модели.

Множественная корреляция имеет второе название —множественное предсказание. Цель множественного
предсказания — оценивание зависимой переменной Y по
линейной (или нелинейной) комбинации m независимых
переменных Математическая статистика

Термин »множественная регрессия» объясняется тем, что
анализу подвергается зависимость одного признака (результирующего) от набора независимых (факторных) признаков.

Разделение признаков на результирующий и факторные осуществляется исследователем на основе содержательных представлений об изучаемом явлении (процессе). Все признаки должны быть количественными (хотя допускается и использование дихотомических признаков, принимающих лишь два значения, например 0 и 1). Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и
необходимо учитывать влияние нескольких факторов.

Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Различие линейных и нелинейных регрессий

Линейная регрессия описывается уравнением:

Математическая статистика

Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.

Примеры регрессий, нелинейных по объясняющим переменным, но линейных по оцениваемым параметрам:

  • равносторонняя гипербола Математическая статистика

Примеры нелинейных регрессий, по оцениваемым параметрам:

  • степенная Математическая статистика
  • показательная Математическая статистика
  • экспоненциальная Математическая статистика

Наиболее часто применяются следующие модели регрессий:

  • прямой Математическая статистика
  • гиперболы Математическая статистика
  • параболы Математическая статистика
  • показательной функции Математическая статистика
  • степенной функции Математическая статистика

Чаще всего исследователи ограничиваются линейной
регрессией, т.е. зависимостью вида:

Математическая статистика

где Y – результирующий признак; Математическая статистика – факторные
признаки; Математическая статистика– коэффициенты регрессии; а – свободный
член уравнения; Математическая статистика – »ошибка» модели.

Это уравнение представляет собой многомерное предсказание переменной Y по аналогии с одномерным случаем.
Уравнение (1) называется линейным, поскольку b-коэффициенты входят туда в первой степени. Уравнение (1) само по себе не представляет особой ценности; должна быть установлена процедура, посредством которой для Математическая статистика выбирают “хорошие” (близкие к достоверным, наиболее вероятные) значения.

Как и в случае парной регрессии, построение уравнения
множественной регрессии осуществляется в два этапа:

  • определение модели;
  • оценка параметров выбранной модели.

Определение модели включает в себя решение двух задач:
1) отбор p факторов Математическая статистиканаиболее влияющих на величину y;
2) выбор вида уравнения регрессии Математическая статистика

Включение в уравнение множественной регрессии того или иного набора факторов связано, прежде всего, с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями.

1) Факторы, включаемые во множественную регрессию,
должны отвечать следующим требованиям.
2) Факторы должны быть количественными. Добавление
в модель качественного фактора, требует присвоения ему количественного значения (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости недвижимости районам присваиваются ранги).

3) Число включаемых факторов должно быть в 6–7 раз меньше объема совокупности, по которой строится регрессия. Факторы не должны быть взаимозависимы. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результат, и параметры уравнения регрессии не будут адекватно интерпретироваться.

Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором из р факторов, то для нее рассчитывается показатель детерминации Математическая статистика, который фиксирует долю
объясненной вариации результативного признака за счет рассматриваемых в регрессии р факторов. Влияние других, не учтенных в модели, факторов оценивается как Математическая статистикас соответствующей остаточной дисперсией Математическая статистика

При дополнительном включении в регрессию (р + 1) – фактора Математическая статистикакоэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться, т. е.

Математическая статистика

Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включаемый в анализ фактор хp+1 не улучшает модель и является лишним. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по t-критерию Стьюдента.

Отбор факторов производится на основе качественного анализа и обычно осуществляется в две стадии:

  • на первой подбираются факторы исходя из сущности проблемы;
  • на второй – на основе матрицы показателей корреляции оп-
    ределяют t-статистики для параметров регрессии.

Коэффициенты корреляции между объясняющими переменными позволяют исключать из модели дублирующие факторы. Считается, что две переменные находятся между собой в линейной зависимости, если Математическая статистика

Если факторы явно коллинеарны, то они дублируют друг друга и один из них нужно исключить из регрессии. Предпочтение отдается тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Пусть, например, при изучении зависимости y = f (х, z, v)
матрица парных коэффициентов корреляции оказалась следую-
щей:

Математическая статистика

Очевидно, что факторы q и z дублируют друг друга, поскольку связь между ними Математическая статистикаВ анализ целесообразно включить фактор z, а не q, поскольку корреляция z с результатом у сильнее, чем корреляция фактора q и у, и слабее межфакторная корреляция между z и Математическая статистика Поэтому в данном случае в уравнение множественной регрессии включаются факторы z и x.

Выбор формы уравнения регрессии

Как и в парной зависимости, возможны разные виды уравнений множественной регрессии: линейные и нелинейные. Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции.
В уравнении линейной множественной регрессии

Математическая статистика

параметры при хi называются коэффициентами «чистой» регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизмененном значении других факторов, закрепленных на среднем уровне.

Предположим, например, что зависимость расходов на
продукты питания по совокупности семей характеризуется следующим уравнением:

Математическая статистика

где у – расходы семьи за месяц, тыс. руб.;
Математическая статистика – месячный доход на одного члена семьи, тыс. руб.;
Математическая статистика– размер семьи, человек;
Математическая статистика– коммунальные платежи на одного члена семьи, тыс. руб.

Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс. руб. расходы на питание возрастут в среднем на 330 руб. при том же среднем размере семьи. Иными словами, 33 % дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на 420 руб. Увеличение коммунальных платежей при тех же ее доходах предполагает дополнительный рост расходов на 250 руб.

Оценка параметров уравнения множественной регрессии
Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). Для линейных уравнений регрессии (и нелинейных уравнений, приводимых к линейным) строится система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии. В случае линейной множественной регрессии

Математическая статистика

система нормальных уравнений имеет следующий вид:

Математическая статистика

Для определения значимости факторов и повышения точности результата используется уравнение множественной регрессии в стандартизованном масштабе:

Математическая статистика

где Математическая статистика– стандартизованные переменные, рассчитываемые по формулам:

Математическая статистика

для которых среднее значение равно нулю Математическая статистика а среднее
квадратическое отклонение равно единице Математическая статистика

Величины βi называются стандартизованными коэффициентами регрессии. К уравнению множественной регрессии в
стандартизованном масштабе применим МНК. Стандартизованные коэффициенты регрессии (β-коэффициенты) определяются
из следующей системы уравнений:

Математическая статистика

либо из системы уравнений

Математическая статистика

Стандартизованные коэффициенты регрессии показывают, на сколько сигм (средних квадратических отклонений) изменится в среднем результат, если соответствующий фактор хi изменится на одну сигму при неизменном среднем уровне других факторов. В силу того, что все переменные заданы как центрированные и нормированные, стандартизованные коэффициенты регрессии βi сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия на результат. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от коэффициентов «чистой» регрессии, которые несравнимы между собой.

В парной зависимости стандартизованный коэффициент
регрессии β есть не что иное, как линейный коэффициент корреляции ryx.

Связь коэффициентов множественной регрессии bi со стандартизованными коэффициентами βi описывается соотношением

Математическая статистика

Параметр а определяется из соотношения:

Математическая статистика

Средние коэффициенты эластичности для линейной множественной регрессии рассчитываются по формуле

Математическая статистика

и показывают, на сколько процентов в среднем по совокупности изменится результат у от своей величины при изменении фактора х на 1 % от своего значения при неизменных значениях других факторов.

Предположим, что по ряду регионов множественная регрессия величины импорта на определенный товар относительно
отечественного его производства Математическая статистика, изменения запасов Математическая статистика и потребления на внутреннем рынке Математическая статистика оказалась следующей

Математическая статистика

При этом средние значения для рассматриваемых признаков составили:

Математическая статистика

На основе данной информации могут быть найдены средние по совокупности показатели эластичности. Для данного примера они окажутся равными:

Математическая статистика

1) С ростом величины отечественного производства на 1 % размер импорта в среднем по совокупности регионов возрастет на 1,06 % при неизменных запасах и потреблении семей; 2) с ростом изменения запасов на 1 % при неизменном производстве и внутреннем потреблении величина импорта увеличивается в среднем на
0,056 %; 3) при неизменном объеме производства и величины запасов с увеличением внутреннего потребления на 1 % импорт товара возрастает в среднем по совокупности регионов на 1,987 %.

Средние показатели эластичности можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат. В рассматриваемом примере наибольшее воздействие на величину импорта оказывает размер внутреннего потребления товара Математическая статистика, а наименьшее – изменение запасов Математическая статистика

Дополнительные лекции:

  1. Случайные события и их вероятности
  2. Случайные величины
  3. Функции случайных величин
  4. Числовые характеристики случайных величин
  5. Законы больших чисел
  6. Статистические оценки
  7. Статистическая проверка гипотез
  8. Статистическое исследование зависимостей
  9. Теории игр
  10. Вероятность события
  11. Теорема умножения вероятностей
  12. Формула полной вероятности
  13. Теорема о повторении опытов
  14. Нормальный закон распределения
  15. Определение законов распределения случайных величин на основе опытных данных
  16. Системы случайных величин
  17. Нормальный закон распределения для системы случайных величин
  18. Вероятностное пространство
  19. Классическое определение вероятности
  20. Геометрическая вероятность
  21. Условная вероятность
  22. Схема Бернулли
  23. Многомерные случайные величины
  24. Предельные теоремы теории вероятностей
  25. Оценки неизвестных параметров
  26. Генеральная совокупность

Среднее выборки или выборочное среднее (sample average, mean) представляет собой среднее арифметическое всех значений выборки .

В MS EXCEL для вычисления среднего выборки можно использовать функцию СРЗНАЧ() . В качестве аргументов функции нужно указать ссылку на диапазон, содержащий значения выборки .

Выборочное среднее является «хорошей» (несмещенной и эффективной) точечной оценкой математического ожидания случайной величины (см. ниже ), т.е. среднего значения исходного распределения, из которого взята выборка .

Примечание : О вычислении доверительных интервалов при оценке математического ожидания можно прочитать, например, в статье Доверительный интервал для оценки среднего (дисперсия известна) в MS EXCEL .

Некоторые свойства среднего арифметического :

  • Сумма всех отклонений от среднего значения равна 0:

  • Если к каждому из значений x i прибавить одну и туже константу с , то среднее арифметическое увеличится на такую же константу;
  • Если каждое из значений x i умножить на одну и туже константу с , то среднее арифметическое умножится на такую же константу.

Математическое ожидание

Среднее значение можно вычислить не только для выборки, но для случайной величины, если известно ее распределение . В этом случае среднее значение имеет специальное название — Математическое ожидание. Математическое ожидание характеризует «центральное» или среднее значение случайной величины.

Примечание : В англоязычной литературе имеется множество терминов для обозначения математического ожидания : expectation, mathematical expectation, EV (Expected Value), average, mean value, mean, E[X] или first moment M[X].

Если случайная величина имеет дискретное распределение , то математическое ожидание вычисляется по формуле:

где x i – значение, которое может принимать случайная величина, а р(x i ) – вероятность, что случайная величина примет это значение.

Если случайная величина имеет непрерывное распределение , то математическое ожидание вычисляется по формуле:

где р(x) – плотность вероятности (именно плотность вероятности , а не вероятность, как в дискретном случае).

Для каждого распределения, из представленных в MS EXCEL, Математическое ожидание можно вычислить аналитически, как функцию от параметров распределения (см. соответствующие статьи про распределения ). Например, для Биномиального распределения среднее значение равно произведению его параметров: n*p (см. файл примера ).

Свойства математического ожидания

E[a*X]=a*E[X], где а — const

E[E[X]]=E[X] — т.к. величина E[X] — является const

E[X+Y]=E[X]+E[Y] — работает даже для случайных величин не являющихся независимыми.

СОВЕТ : Про другие показатели распределения — Дисперсию и Стандартное отклонение, можно прочитать в статье Дисперсия и стандартное отклонение в MS EXCEL .

Среднее арифметическое в Excel

Среднее арифметическое значение — самый известный статистический показатель. В этой заметке рассмотрим его смысл, формулы расчета и свойства.

Средняя арифметическая как оценка математического ожидания

Теория вероятностей занимается изучением случайных величин. Для этого строятся различные характеристики, описывающие их поведение. Одной из основных характеристик случайной величины является математическое ожидание, являющееся своего рода центром, вокруг которого группируются остальные значения.

Формула матожидания имеет следующий вид:

Формула математического ожидания

где M(X) – математическое ожидание

xi – это случайные величины

То есть, математическое ожидание случайной величины — это взвешенная сумма значений случайной величины, где веса равны соответствующим вероятностям.

Математическое ожидание суммы выпавших очков при бросании двух игральных костей равно 7. Это легко подсчитать, зная вероятности. А как рассчитать матожидание, если вероятности не известны? Есть только результат наблюдений. В дело вступает статистика, которая позволяет получить приблизительное значение матожидания по фактическим данным наблюдений.

Математическая статистика предоставляет несколько вариантов оценки математического ожидания. Основное среди них – среднее арифметическое.

Среднее арифметическое значение рассчитывается по формуле, которая известна любому школьнику.

Формула средней арифметической простой

где xi – значения переменной,
n – количество значений.

Среднее арифметическое – это соотношение суммы значений некоторого показателя с количеством таких значений (наблюдений).

Свойства средней арифметической (математического ожидания)

Теперь рассмотрим свойства средней арифметической, которые часто используются при алгебраических манипуляциях. Правильней будет вновь вернутся к термину математического ожидания, т.к. именно его свойства приводят в учебниках.

Матожидание в русскоязычной литературе обычно обозначают как M(X), в иностранных учебниках можно увидеть E(X). Встречается обозначение греческой буквой μ (читается «мю»). Для удобства предлагаю вариант M(X).

Итак, свойство 1. Если имеются переменные X, Y, Z, то математическое ожидание их суммы равно сумме их математических ожиданий.

M(X+Y+Z) = M(X) + M(Y) + M(Z)

Допустим, среднее время, затрачиваемое на мойку автомобиля M(X) равно 20 минут, а на подкачку колес M(Y) – 5 минут. Тогда общее среднее арифметическое время на мойку и подкачку составит M(X+Y) = M(X) + M(Y) = 20 + 5 = 25 минут.

Свойство 2. Если переменную (т.е. каждое значение переменной) умножить на постоянную величину (a), то математическое ожидание такой величины равно произведению матожидания переменной и этой константы.

К примеру, среднее время мойки одной машины M(X) 20 минут. Тогда среднее время мойки двух машин составит M(aX) = aM(X) = 2*20 = 40 минут.

Свойство 3. Математическое ожидание постоянной величины (а) есть сама эта величина (а).

Если установленная стоимость мойки легкового автомобиля равна 100 рублей, то средняя стоимость мойки нескольких автомобилей также равна 100 рублей.

Свойство 4. Математическое ожидание произведения независимых случайных величин равно произведению их математических ожиданий.

Автомойка за день в среднем обслуживает 50 автомобилей (X). Средний чек – 100 рублей (Y). Тогда средняя выручка автомойки в день M(XY) равна произведению среднего количества M(X) на средний тариф M(Y), т.е. 50*100 = 500 рублей.

Формула среднего значения в Excel

Среднее арифметическое чисел в Excel рассчитывают с помощью функции СРЗНАЧ. Выглядит примерно так.

Функция СРЗНАЧ

У этой формулы есть замечательное свойство. Если в диапазоне, по которому рассчитывается формула, присутствуют пустые ячейки (не нулевые, а именно пустые), то они исключается из расчета.

Вызвать функцию можно разными способами. Например, воспользоваться командой автосуммы во вкладке Главная:

Вызов функции средней арифметической с ленты Excel

После вызова формулы нужно указать диапазон данных, по которому рассчитывается среднее значение.

Есть и стандартный способ для всех функций. Нужно нажать на кнопку fx в начале строки формул. Затем либо с помощью поиска, либо просто по списку выбрать функцию СРЗНАЧ (в категории «Статистические»).

Функция средней арифметической в Мастере функций

Средняя арифметическая взвешенная

Рассмотрим следующую простую задачу. Между пунктами А и Б расстояние S, которые автомобиль проехал со скоростью 50 км/ч. В обратную сторону – со скоростью 100 км/ч.

Условие задачи про среднюю взвешенную

Какова была средняя скорость движения из А в Б и обратно? Большинство людей ответят 75 км/ч (среднее из 50 и 100) и это неправильный ответ. Средняя скорость – это все пройденное расстояние, деленное на все потраченное время. В нашем случае все расстояние – это S + S = 2*S (туда и обратно), все время складывается из времени из А в Б и из Б в А. Зная скорость и расстояние, время найти элементарно. Исходная формула для нахождения средней скорости имеет вид:

Формула средней скорости

Теперь преобразуем формулу до удобного вида.

Расчет средней скорости

Средняя взвешенная скорость

Правильный ответ: средняя скорость автомобиля составила 66,7 км/ч.

Средняя скорость – это на самом деле среднее расстояние в единицу времени. Поэтому для расчета средней скорости (среднего расстояния в единицу времени) используется средняя арифметическая взвешенная по следующей формуле.

Формула средней арифметической взвешенной

где x – анализируемый показатель; f – вес.

Аналогичным образом по формуле средневзвешенной средней рассчитывается средняя цена (средняя стоимость на единицу продукции), средний процент и т.д. То есть если средняя считается по другим усредненным значениям, нужно применить среднюю взвешенную, а не простую.

Формула средневзвешенного значение в Excel

Обычная функция среднего значения в Excel СРЗНАЧ, к сожалению, считает только среднюю простую. Готовой формулы для среднего взвешенного значения в Excel нет. Однако расчет несложно сделать подручными средствами.

Самый понятный вариант создать дополнительный столбец. Выглядит примерно так.

Расчет средней взвешенной в Excel

Имеется возможность сократить количество расчетов. Есть функция СУММПРОИЗВ. С ее помощью можно рассчитать числитель одним действием. Разделить на сумму весов можно в этой же ячейке. Вся формула для расчета среднего взвешенного значения в Excel выглядит так:

Интерпретация средней взвешенной такая же, как и у средней простой. Средняя простая – это частный случай взвешенной, когда все веса равны 1.

Физический смысл средней арифметической

Представим, что имеется спица, на которой в разных местах нанизаны грузики различной массы.

Физический смысл средней арифметической

Как отыскать центр тяжести? Центр тяжести – это такая точка, за которую можно ухватиться, и спица при этом останется в горизонтальном положении и не будет переворачиваться под действием силы тяжести. Она должна быть в центре всех масс, чтобы силы слева равнялись силам справа. Для нахождения точки равновесия следует рассчитать среднее арифметическое взвешенное расстояний от начала спицы до каждого грузика. Весами будут являться массы грузиков (mi), что в прямом смысле слова соответствует понятию веса. Таким образом, среднее арифметическое расстояние – это центр равновесия системы, когда силы с одной стороны точки уравновешивают силы с другой стороны.

И последнее. В русском языке так сложилось, что под словом «средний» обычно понимают именно среднее арифметическое. То есть моду и медиану как-то не принято называть средним значением. А вот на английском языке слово «средний» (average) может трактоваться и как среднее арифметическое (mean), и как мода (mode), и как медиана (median). Так что при чтении иностранной литературы следует быть бдительным.

Формула математическое ожидания в MS Excel – расчет по шагам

Среднее выборки или выборочное среднее (sample average, mean) представляет собой среднее арифметическое всех значений выборки.

В MS EXCEL для вычисления среднего выборки можно использовать функцию СРЗНАЧ() . В качестве аргументов функции нужно указать ссылку на диапазон, содержащий значения выборки.

Выборочное среднее является «хорошей» (несмещенной и эффективной) точечной оценкой математического ожидания случайной величины (см. ниже), т.е. среднего значения исходного распределения, из которого взята выборка.

Примечание: О вычислении доверительных интервалов при оценке математического ожидания можно прочитать, например, в статье Доверительный интервал для оценки среднего (дисперсия известна) в MS EXCEL.

Некоторые свойства среднего арифметического:

  • Сумма всех отклонений от среднего значения равна 0:

  • Если к каждому из значений xi прибавить одну и туже константу с, то среднее арифметическое увеличится на такую же константу;
  • Если каждое из значений xi умножить на одну и туже константу с, то среднее арифметическое умножится на такую же константу.

Математическое ожидание

Среднее значение можно вычислить не только для выборки, но для случайной величины, если известно ее распределение. В этом случае среднее значение имеет специальное название – Математическое ожидание. Математическое ожидание характеризует «центральное» или среднее значение случайной величины.

Примечание: В англоязычной литературе имеется множество терминов для обозначения математического ожидания: expectation, mathematical expectation, EV (Expected Value), average, mean value, mean, E[X] или first moment M[X].

Если случайная величина имеет дискретное распределение, то математическое ожидание вычисляется по формуле:

где xi – значение, которое может принимать случайная величина, а р(xi) – вероятность, что случайная величина примет это значение.

Если случайная величина имеет непрерывное распределение, то математическое ожидание вычисляется по формуле:

где р(x) – плотность вероятности (именно плотность вероятности, а не вероятность, как в дискретном случае).

Для каждого распределения, из представленных в MS EXCEL, Математическое ожидание можно вычислить аналитически, как функцию от параметров распределения (см. соответствующие статьи про распределения). Например, для Биномиального распределения среднее значение равно произведению его параметров: n*p (см. файл примера ).

Функция СРОТКЛ в Excel используется для анализа числового ряда, передаваемого в качестве аргумента, и возвращает число, соответствующее среднему значению, рассчитанному для модулей отклонений относительно среднего арифметического для исследуемого ряда.

Примеры методов анализа числовых рядов в Excel

Смысл данной функции становится предельно ясен после рассмотрения примера. Допустим, на протяжении суток каждые 3 часа фиксировались показатели температуры воздуха. Был получен следующий ряд значений: 16, 14, 17, 21, 25, 26, 22, 18. С помощью функции СРЗНАЧ можно определить среднее значение температуры – 19,88 (округлим до 20).

Для определения отклонения каждого значения от среднего необходимо вычесть из него полученное среднее значение. Например, для первого замера температуры это будет равно 16-20=-4. Получаем ряд значений: -4, -6, -3, 1, 5, 6, 2, -2. Поскольку СРОТКЛ по определению работает с модулями отклонений, итоговый ряд значений имеет вид: 4, 6, 3, 1, 5, 6, 2, 2. Теперь нужно получить среднее значение для данного ряда с помощью функции СРЗНАЧ – примерно 3,63. Именно таков алгоритм работы рассматриваемой функции.

Таким образом, значение, вычисляемое функцией СРОТКЛ, можно рассчитать с помощью формулы массива без использования этой функции. Допустим, перечисленные результаты замеров температур записаны в столбец (ячейки A1:A8). Тогда для определения среднего значения отклонений можно использовать формулу =СРЗНАЧ(ABS(A1:A8-СРЗНАЧ(A1:A8))). Однако, рассматриваемая функция значительно упрощает расчеты.

Пример 1. Имеются два ряда значений, представляющих собой результаты наблюдений одного и того же физического явления, сделанные в ходе двух различных экспериментов. Определить, среднее отклонение от среднего значения результатов для какого эксперимента является максимальным?

Вид таблицы данных:

Используем следующую формулу:

Сравниваем результаты, возвращаемые функцией СРОТКЛ для первого и второго ряда чисел с использованием функции ЕСЛИ, возвращаем соответствующий результат.

В результате мы получили среднее отклонение от среднего значения. Это весьма интересная функция для технического анализа финансовых рынков, прогнозов курсов валют и даже позволяет повысить шансы выигрышей в лотереях.

Формула расчета линейного коэффициента вариации в Excel

Пример 2. Студенты сдали экзамены по различным предметам. Определить число студентов, которые удовлетворяют следующему критерию успеваемости – линейный коэффициент вариации оценок не превышает 15%.

Вид таблицы данных:

Линейный коэффициент вариации определяется как отношение среднего отклонения к среднему значению. Для расчета используем следующую формулу:

Растянем ее вниз по столбцу и получим следующие значения:

Для определения числа неуспешных студентов по указанному критерию используем функцию:

Правила использования функции СРОТКЛ в Excel

Функция имеет следующий синтаксис:

=СРОТКЛ( число1 ;[число2];. )

  • число1 – обязательный, принимает числовое значение, характеризующее первый член ряда значений, для которых необходимо определить среднее отклонение от среднего;
  • [число2];… – необязательный, принимает второе и последующие значения из исследуемого числового ряда.
  1. При использовании функции СРОТКЛ удобнее задавать первый аргумент в виде ссылки на диапазон ячеек, например =СРОТКЛ(A1:A8) вместо перечисления (=СРОТКЛ(A1;A2:A3…;A8)).
  2. В качестве аргумента функции может быть передана константа массива, например =СРОТКЛ(<2;5;4;7;10>).
  3. Для получения достоверного результата необходимо привести все значения ряда к единой системе измерения величин. Например, если часть длин указана в мм, а остальные – в см, результат расчетов будет некорректен. Необходимо преобразовать все значения в мм или см соответственно.
  4. Если в качестве аргументов функции переданы нечисловые данные, которые не могут быть преобразованы к числам, функция вернет код ошибки #ЧИСЛО!. Если хотя бы одно значение из ряда является числовым, функция выполнит расчет, не возвращая код ошибки.
  5. Не преобразуемые к числам текстовые строки и пустые ячейки не учитываются в расчете. Если ячейка содержит значение 0 (нуль), оно будет учтено.
  6. Логические данные автоматически преобразуются к числовым: ИСТИНА – 1, ЛОЖЬ – 0 соответственно.

1. Вычислить математическое ожидание:

1) Пуск > Все программы > Microsoft Office > Microsoft Excel

2) Так как функция математического ожидания – это т оже самое, что и функция среднего арифметического, то: в пустой ячейке вводим «=», далее нажимаем fx, выбираем функцию СРЗНАЧ, выделяем числовые данные нашей исходной таблицы.

2. Вычислить дисперсию:

Вводим =, далее – fx, “Статистические” – “ДИСП”, выделить числовые данные нашей исходной таблицы.

3. Среднее квадратичесое отклонение (не смещённое):

Вводим =, далее – fx, “Статистические” – “СТАНДТОТКЛОН”, выделить числовые данные нашей исходной таблицы.

4. Среднее квадратическое отклонение (смещённое):

Вводим =, далее – fx, “Статистические” – “СТАНДТОТКЛОН”, выделить числовые данные нашей исходной таблицы.

Вывод: Microsoft Excel является одной из самых удобных компьютерных программ, с помощью которых можно высчитать статические данные. В этом я убедился, когда высчитывал вышеуказанные данные.

Добавить комментарий