-
Вычисление оценок математического ожидания и дисперсии
Оценки
математического ожидания и дисперсии
вычисляются по формулам
,
,(1)
где
— частота вариантыв выборке объема.
Если
объем выработки велик, то вычисление
точечных оценок математического ожидания
и
дисперсии
по
формулам (1)
громоздко.
Для сокращения вычислений элементам
выборки, попавшим в
–тый
интервал, припишем значения равные
серединам интервалов
.
Вносим
значения в пятый столбец таблицы 1.
Для
упрощения дальнейших выкладок варианты
заменяем наусловные
варианты
по формуле
,
где
называетсяложным
нулем
(новым началом отсчета). Ложный ноль
находим по следующему правилу:
Если
число интервалов нечетное, то в качестве
ложного нуля берем середину среднего
интервала, если четное, то середину того
интервала, у которого больше частота
.
При
этом варианте, которая принята в качестве
ложного нуля, соответствует условная
варианта, равная нулю.
Значения
вносим в таблицу 1.
Подсчитаем
произведения
,
результаты внесем в таблицу 1.
Суммируя
седьмой столбец таблицы 1, вычислим
значение
=
Оценим
математическое ожидание по формуле
.
Подсчитаем
произведения
,
результаты внесем в таблицу 1.
Суммируя
восьмой столбец таблицы 1, вычислим
значение
=
Оценим
дисперсию по формуле
.
Оценка
занижает дисперсию генеральной
совокупности, поэтому введя поправочный
коэффициент
получим
несмещенную оценку дисперсии
.
Вычислим
оценку среднего квадратического
отклонения
.
Для
сравнения подсчитаем
по
«правилу
».
Так как для случайной величины, имеющей
нормальное распределение, почти все
рассеивания укладывается на участке
,
то с помощью «правила»
можно ориентировочно определить оценку
среднего квадратического отклонения
случайной величины. Берем максимальное
практически возможное отклонение от
среднего значения и делим его на три.
Табл.
1
Статистическое |
|
|
|
|
|
|||
№ Кл. |
Границы |
|
|
|||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
∑ |
h1= = |
h2= |
-
Построение гистограммы относительных частот
Гистограммой
называется ступенчатая фигура, состоящая
из прямоугольников, основаниями которых
служат частичные интервалы длиной
,
а высоты равны(плотность относительной частоты).
Для
построения гистограммы заполним
последний столбец таблицы 1. По полученным
данным построим гистограмму:
По
данным таблицы 1 построим точки с
координатами
и соединим их плавной пунктирной линией.
Эта линия будет аналогом плотности
распределения случайной величины и,
следовательно, по виду гистограммы
можно выдвинуть гипотезу о нормальном
распределении (или о распределении,
близком к нормальному) случайной величины
с плотностью
В
дальнейшем эту функцию будем называть
теоретической плотностью распределения.
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Прежде чем изучать готовые решения задач по математической статистике, нужно знать теорию, поэтому для вас я подготовила краткую теорию по предмету «математическая статистика», после которой подробно решены задачи.
Эта страница подготовлена для школьников и студентов.
Если что-то непонятно — вы всегда можете написать мне в WhatsApp и я вам помогу!
Приступая к изучению элементов статистики, отметим несколько особенностей в постановке и решении ее задач в сравнении с задачами теоретико-вероятностными.
Теория вероятностей, исходя из известных характеристик совокупности случайных величин, отвечает на вопрос о возможности осуществления того или иного события, обусловленного рассматриваемыми случайными величинами:
знаем закон распределения совокупности случайных величин — хотим уметь находить вероятности событий, которые этими случайными величинами определяются.
В статистике мы решаем задачи, в некотором смысле обратные, а именно: наблюдая некоторые события, о которых известно, что возможность их осуществления или неосуществления обусловливается комплексом случайных величин, хотим определить эти (неизвестные) случайные величины, их вероятностные характеристики:
знаем результаты наблюдений {конкретные значения, принятые случайной величиной} —хотим сделать какие-нибудь заключения о законе распределения (в частности о параметрах и числовых характеристиках} наблюдаемой случайной величины.
Ясно, что в силу принципиальной непредсказуемости результатов наблюдения за случайной величиной, выводы, сделанные на основе результатов эксперимента, будут информативными только в том случае, когда эти наблюдения «хорошие» — т. е. те значения £, которые имеют большую вероятность, будут наблюдаться в эксперименте чаще, а имеющие меньшую вероятность — реже. Законы больших чисел утверждают, что в подавляющем большинстве экспериментов так и будет. Однако, это не гарантирует нам, что данный конкретный эксперимент окажется именно таким.
Поэтому всякое статистическое заключение недостоверно: если основа заключения «хороший» эксперимент, то заключение достаточно близко к истине, если «плохой», то ошибочно. При этом «хорош» эксперимент или «плох» определяется не нами, не нашей добросовестностью наблюдателя и тщательностью экспериментатора, а исключительно случаем — природой.
Сказанное хорошо иллюстрируется следующим примером: пусть наблюдаются результаты n-кратного бросания монеты. Если бросать монету достаточно долго, то частота появления, например, герба, как гласит закон больших чисел в форме Бернулли, будет близка к вероятности. Поэтому по частоте (наблюдаемой и вычисляемой величине) можно сделать заключение о вероятности (неизвестной величине). Насколько это заключение соответствует истине?
Пусть монета симметрична, т. е. Р(Г) = Р(Р) = 0,5 (что тем не менее не препятствует асимметрии в количестве появлений герба и решки в конкретном эксперименте)!
Может статься, что в серии из 100 бросаний герб появится 45 раз, а решка 55, а может статься и так, что герб появится 20 раз, а решка — 80. Ясно, что первая серия может быть признана «хорошей» с точки зрения рассматриваемой задачи, а вторая — «плохой». В любом случае мы сделаем заключение о неизвестной вероятности выпадения герба по наблюденной в эксперименте частоте и в первом случае положим Р(Г) = 0,45, а во втором — 0,2. Основанием для оптимизма является то важное обстоятельство, что «плохие» серии будут встречаться тем реже, чем длиннее серия! Значит, при достаточно длинной серии бросаний эксперимент скорее будет «хорошим» чем «плохим», и определенная по результатам такого эксперимента Р(Г) будет «похожа» на истинную. Достоверность статистического вывода будет определяться тем, насколько «редки» плохие эксперименты.
Практика использования статистических процедур показывает, что чаще всего решения, принятые на основании подобных выводов, оказываются верными. И именно это обстоятельство (согласованность статистических выводов с экспериментом) делает математическую статистику не бесполезной в практическом отношении наукой.
В дальнейшем мы неоднократно будем употреблять термины «маленькая вероятность», «маловероятное событие» и т. п. Какая же вероятность может считаться маленькой, а какая нет? Не вдаваясь подробно в обсуждение этого вопроса, заметим только, что абсолютная величина вероятности вне связи с конкретной обстановкой не дает нам никаких сведений о ее малости или немалости. Скажем, если нам известно, что вероятность осуществления некоторого события равна 0,01, то эта вероятность будет маленькой, если комплекс условий, обусловливающий рассматриваемое событие, складывается один раз за сто лет. Если же комплекс условий, при котором наблюдается рассматриваемое событие, складывается каждые пять минут, то эта же вероятность должна рассматриваться как значительная. Другими словами, под маленькой вероятностью мы будем понимать вероятность такого события, которое практически не наблюдается, вне зависимости от ее численного значения.
Математическая статистика
Математическая статистика – это раздел математики, изучающий математические методы сбора, систематизации, обработки и интерпретации результатов наблюдений с целью выявления статистических закономерностей.
Статистический материал и его обработка
Результаты наблюдений массовых явлений, случайных величин составляют статистические данные или статистический материал. Выборкой объёма называется совокупность случайно отобранных объектов. Множество всех объектов, из которых производится выборка, называется генеральной совокупностью (ГС).
Выборочный метод состоит в том, что на основании изучения некоторого количественного признака у некоторой части статистической совокупности (выборки), полученной в результате статистического отбора, можно сделать вывод о характере распределения этого признака по всей статистической совокупности (генеральной совокупности).
Результаты наблюдений выборки объёма записываются, в частности, в виде статистической совокупности;
При больших значениях и различных значениях xt статистическую совокупность подвергают специальным видам статистической обработки.
Расположим значения которые назовём вариантами, в порядке возрастания и обозначим . Величина называется размахом статистической совокупности. Среди значений могут быть одинаковые. Пусть значение наблюдалось раз, раз, наблюдалось раз. Тогда общий объём выборки равен . Число показывающее, сколько раз встречается варианта (значение) называется частотой а число — относительной частотой варианты .
Последовательность записанная в порядке возрастания с указанием частот и (или) относительных частот, называется вариационным рядом. Статистическим рядом называется последовательность пар . Обычно статистический ряд записывается в виде следующей таблицы:
Геометрическим изображением вариационного ряда является эмпирический полигон распределения, являющийся аналогом плотности распределения случайной величины — ломаная с вершинами — см. рисунок 1.
Вариационный ряд обозрим при небольших значениях . В противном случае его (или первоначальную статистическую совокупность) подвергают интервальной обработке.
Все варианты принадлежат отрезку . Пусть к некоторое (не больше 20) натуральное число. Отрезок разобьём на равных частей длины .
Обозначим эти промежутки следующим образом: . Через обозначим число вариант, попавших в интервал , при этом будем считать, что каждый промежуток содержит свой левый конец, но лишь последний промежуток содержит и свой правый конец. Пусть (числа и можно также отнести к середине . интервала ). Полученные данные занесём в таблицу, называемую интервальной обработкой ряда, или статистической совокупности.
Количество интервалов можно рассчитать по формуле Стерджеса либо с помощью таблицы:
Геометрическим изображением интервальной обработки служит гистограмма (см. рисунок 1). Гистограммой частот называется множество прямоугольников с основаниями и высотами . Площадь гистограммы равна объёму выборки .
Нормированная гистограмма (гистограмма относительных частот) представляет собой ступенчатую фигуру из прямоугольников с основаниями равными интервалам значений признака и высотами, равными плотности частоты . Если соединить прямолинейными отрезками середины верхних оснований прямоугольников, получим полигон распределения. Суммарная площадь всех прямоугольников гистограммы равна 1:
Эмпирической функцией распределении (функцией распределения выборки) называется функция , определяющая для каждого значения относительную частоту события (см. рисунок 2):
где — число вариант , меньших чем — объем выборки.
Функция обладает следующими свойствами (здесь ):
-монотонно неубывающая, непрерывная слева функция.
Функция является статистическим аналогом функции распределения генеральной совокупности. Функцию распределения в математической статистике называют теоретической функцией распределения. Различие между теоретической и эмпирической функциями распределения состоит в том, что определяет вероятность события , a — относительную частоту этого события.
Эмпирическая функция распределения служит для оценки вида теоретической функции распределения случайного признака, полигон и гистограмма — для оценки вида теоретической кривой распределения.
Числовые характеристики законов распределения эмпирических величии
Одна из задач математической статистики состоит в установлении закона распределения случайной величины (генеральной совокупности) и оценке параметров этого закона.
Вид закона выбирается из каких-либо теоретических или практических соображений, а параметры следует вычислять, исходя из параметров этого закона.
Важнейшим этапом обработки статистических данных является вычисление оценок числовых характеристик исследуемой случайной величины.
Полученные оценки позволяют в числовой форме описать характерные черты статистического распределения и являются базой для построения математической модели изучаемого случайного явления.
Любая величина , определяемая как функция выборочных значений = , называется выборочной статистикой или просто статистикой. Статистика в, используемая в качестве приближённого значения неизвестного параметра , называется статистической оценкой параметра .
Существует два вида оценок параметров: точечные и интервальные.
Точечной называется статистическая оценка, которая определяется одним числом.
К точечным статистическим оценкам предъявляется ряд требований.
Если — статистическая оценка параметра , то она должна удовлетворять следующим условиям:
1) быть несмещенной, что означает, что .
2) быть состоятельной, т.е. предел по вероятности при последовательности таких оценок должен быть равен искомому параметру, т.е. вероятность того, что , стремится к нулю при .
3) быть эффективной, т.е. дисперсия — наименьшая или быть асимптотически эффективной, что означает, что .
Число называется точностью оценки, если имеет место равенство . Если это неравенство имеет место с некоторой вероятностью , то число называется надёжностью оценки или уровнем надёжности. Наиболее употребительными уровнями надёжности являются 0,999.
Выборочной средней называют среднее арифметическое значение случайной величины по выборочной совокупности объёма :
Выборочная средняя служит несмещенной оценкой математического ожидания признака или генеральной совокупности.
Кроме выборочной средней в статистическом анализе применяются структурные средние: медиана и мода.
Модой Мо называют варианту, которая имеет наибольшую частоту. Если распределение интервальное, то определяется модальный интервал , которому соответствует наибольшая частота , мода вычисляется по формуле:
где — величина модального интервала; — частоты предмодального и послемодального интервала.
Медианой Me называют варианту, которая делит вариационный ряд на две части, равные по числу вариант. Если , а если , то при вычислении медианы интервального ряда распределения используется формула:
где — накопленная частота интервала, предшествующего медианному, включая интервал, предшествующий медианному; — — начальное значение интервала, который содержит медиану. Номер медианного интервала определяется из неравенства случае выполнения равенства номер медианного интервала равен , в противном случае — .
Средние величины не отражают изменчивости (вариации) значений признака. Чтобы охарактеризовать рассеяние наблюдаемых значений количественного признака выборки вокруг своего среднего значения вводят свободную характеристику — выборочную дисперсию.
Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения :
Выборочным средним квадратическим отклонением (стандартом) называют квадратный корень из выборочной дисперсии:
Выборочная дисперсия является смещённой оценкой генеральной дисперсии, так как
В качестве несмещенной оценки генеральной дисперсии служит «исправленная» выборочная дисперсия:
При достаточно больших выборочная и исправленная дисперсии мало отличаются, поэтому на практике исправленной дисперсией пользуются, если < 50.
Выборочная средняя и дисперсия вариационного ряда являются частными случаями более общего понятия — выборочных (эмпирических) моментов.
Начальный момент — го порядка вариационного ряда определяется по формуле
Центральный момент — го порядка вариационного ряда определяется по формуле
В частности
Центральные моменты первых четырёх порядков выборки выражаются через начальные моменты по формулам:
Коэффициентом асимметрии вариационного ряда называется число
Эксцессом вариационного ряда называется число:
Асимметрия называется также нормированным третьим центральным моментом, а эксцесс — нормированным четвертым центральным моментом признака . Знаки асимметрии и эксцесса указывают на отклонения графика закона распределения от нормального распределения, для которого . При большая часть вариант будет расположена слева от — имеет место левосторонняя асимметрия распределения, при — правосторонняя. Если , в этом случае распределение имеет симметричную форму (рисунок 3).
Положительное значение эксцесса указывает на то, что полигон распределения около моды имеет более высокую острую вершину, чем нормальная кривая, с тем же центром и той же дисперсией.
Отрицательное значение эксцесса имеет место для кривых с более низким и более плоским характером вершины по сравнению с нормальной кривой (см. рисунок 4).
Точечные оценки не указывают величину ошибки, которая совершается при замене и их приближёнными значениями (оценками). Поэтому иногда выгодно пользоваться интервальной оценкой, которая определяется двумя числами и — концами интервала, накрывающего оцениваемый параметр в с заданной вероятностью (надёжностью).
Пусть — точечная оценка параметра . Она тем лучше, чем меньше разность . Тогда в качестве характеристики точности оценки можно взять некоторое , такое, что . Но в статистике можно говорить лишь о вероятности (надёжности) , с которой выполняется это неравенство. Число называется уровнем значимости.
Доверительной вероятностью оценки называется вероятность выполнения неравенства . Обычно у задаётся заранее и наиболее часто полагают и пр. Таким образом:
Доверительный интервал — это интервал , который накрывает неизвестный параметр с заданной надёжностью .
Границы интервала и его величина находятся по выборочным данным и поэтому являются случайными величинами в отличие от оцениваемого параметра , поэтому говорят, что накрывает, а не содержит истинное значение .
Величина доверительного интервала существенно зависит от объёма выборки (уменьшается с ростом ) и значения доверительной вероятности (увеличивается с приближением к единице).
Интервальной оценкой с надёжностью у математического ожидания а нормально распределённой случайной величины (признака) по выборочной средней при известном СКО генеральной совокупности служит доверительный интервал
где — точность оценки, — объём выборки, — значение аргумента функции Лапласа при котором .
При неизвестном (в условиях эксперимента обычно неизвестно) доверительный интервал для математического ожидания нормально распределённой случайной величины имеет вид:
где — квантиль распределения Стьюдента, определяемый по таблицам, а параметры находятся по данным выборки.
При больших выборках распределение Стьюдента приближается к нормальному, и тогда можно пользоваться теоремами о нормальном распределении.
Доверительный интервал для задаётся неравенствами:
где — квантили распределения, определяемые по соответствующим таблицам по заданному уровню значимости а и числу степеней свободы , либо
Величина находится по таблице и зависит от надежности и объема выборки.
Статистическая проверка гипотез
Статистической гипотезой называется предположение относительно параметров или вида распределения изучаемой случайной величины.
Статистические гипотезы можно разделить на следующие основные группы:
1 (гипотезы о параметрах распределения;
2)гипотезы о виде распределения.
Выдвинутую гипотезу называют нулевой и обозначают ее через . Наряду с рассматривают конкурирующую (или альтернативную) гипотезу .
Таким образом, ставится задача проверки гипотезы относительно конкурирующей гипотезы на основе выборки объема . Правило, по которому принимается или отвергается гипотеза, называется статистическим критерием. Принципы проверки статистических гипотез впервые были сформулированы в работах известных математиков Е. Неймана и Э. Пирсона. Они исходили из того, что принимая или отвергая гипотезу , можно допустить ошибки двух видов.
Ошибка первого рода: отвергается (принимается ) в то время как в действительности верна гипотеза . Вероятность ошибки первого рода называют уровнем значимости и обозначают :
Величину , то есть вероятность принять верную гипотезу, называют уровнем доверия (доверительным уровнем).
Ошибка второго рода: принимается, в то время как верна гипотеза . Вероятность ошибки второго рода обозначается .
Вероятность принять гипотезу если она верна, называют мощностью критерия.
Суть проверки статистической гипотезы заключается в том, что используется специально составленная выборочная характеристика (статистика) , полученная по выборке , так, чтобы в случае, если гипотеза верна, точное или приближенное распределение было бы известным. Построение критерия, в зависимости от вида гипотезы , заключается в выборе таких значений и , что если то гипотеза принимается. Значения и называются критическими, а область называется областью допустимых значений.
Множество возможных значений статистики разбивается на 2 непересекающихся подмножества: критическую область — множество значений , при которых отвергается — , и область допустимых значений — множество значений , при которых принимается — . Если фактически наблюдаемое (полученное по выборке) значение статистики критерия попадает в критическую область, то гипотезу отвергают, в противном случае принимают.
Проверка гипотезы о нормальном распределении генеральной совокупности. Критерий согласия Пирсона
Одной из задач математической статистики является установление истинного закона распределения случайной величины на основании экспериментальных данных. Критерии, устанавливающие закон распределения, называются критериями согласия.
Алгоритм применения критерия Пирсона.
1)Из генеральной совокупности образовывается случайная выборка, и на ее основе делается предположение о нормальном законе распределения. Выдвигается гипотеза : «генеральная совокупность распределена нормально».
2)Вычисляются выборочные числовые характеристики .
3)Вычисляются теоретические частоты:
а) Для дискретного ряда
где — объем выборки, — шаг (разность между двумя соседними вариантами),
Значения определяются из таблицы приложения 1.
б) Для интервального ряда , где — объем выборки,
теоретические вероятности попадания в интервалы
функция Лапласа, значения которой определяются по таблице
4)Находится наблюдаемое значение критерия Пирсона по формуле
5)По таблице критических точек распределения по заданному уровню значимости а и числу степеней свободы ( — число групп для дискретного ряда или число интервалов для интервального ряда) находят критическую точку правосторонней критической области.
6)Если — нет оснований отвергнуть гипотезу о нормальном распределении генеральной совокупности. Другими словами, эмпирические и теоретические частоты различаются незначимо. Если — гипотезу отвергают.
Замечание. Малочисленные варианты и интервалы (содержащие малочисленные частоты ) следует объединить, а соответствующие им частоты сложить. Если производилось объединение частот, то в формуле следует в качестве принять число групп или интервалов выборки, оставшихся после объединения частот.
Элементы теории регрессионного и корреляционного анализа
Методы теории корреляции позволяют определять зависимость между различными факторами или случайными величинами. Термин «корреляция» происходит от латинского «correlatio» — соотношение, взаимосвязь.
В естественных науках часто речь идёт о функциональной зависимости, когда каждому значению одной величины соответствует вполне определённое значение другой. Случайные величины обычно не связаны функциональной зависимостью. В большинстве случаев между переменными существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определённое, а множество возможных значений другой переменной. Такая зависимость получила название статистической (или стохастической, вероятностной).
В силу неоднозначной статистической зависимости между случайными величинами и для исследователя представляет интерес усреднённая схема зависимости — зависимость условного математического ожидания или его статистического аналога от значений случайной величины , то есть или . Здесь — условная средняя, которая определяется как среднее арифметическое значений , то есть , соответствующих значению . Такая зависимость получила название корреляционной. Корреляционной зависимостью от называют функциональную зависимость условной средней ух от :
Уравнение (14) называют уравнением регрессии на ; функцию называют регрессией на , а её график -линиейрегрессии на .
Статистические связи между переменными можно изучать методами корреляционного и регрессионного анализа. Основной задачей корреляционного анализа является выявление связи между случайными величинами и оценка ее тесноты. Основной задачей регрессионного анализа — установление и изучение формы зависимости между переменными.
Данные о статистической зависимости удобно представлять в виде корреляционной таблицы:
Здесь
значения случайных величин и соответственно, а
соответствующие частоты, — частота, с которой встречается пара .
По направлению корреляционная связь может быть положительной («прямой») и отрицательной («обратной»). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака — низкие значения другого. При отрицательной корреляции соотношения обратные.
Наличие корреляции приближенно может быть определено с помощью корреляционного поля. Его получим, если нанесем на график в определенном масштабе точки, соответствующие наблюдаемым одновременным значениям двух величин — если точки рассеяны хаотично, то связь между и отсутствует; если точки группируются около какой-то линии, то связь есть, и она тем теснее, чем ближе они группируются (рисунок 5).
Рассмотрим наиболее важный для практики случай линейной зависимости между величинами. В теории вероятностей показателем тесноты линейной зависимости являлся коэффициент корреляции, в математической статистике таким показателем является выборочный коэффициент корреляции.
Выборочным коэффициентом корреляции называется величина, рассчитываемая по формуле:
где
оценка корреляционного момента; и — исправленные средние квадратические отклонения.
Выборочный коэффициент корреляции обладает некоторыми свойствами:
- ;
- Чем ближе значение к единице, тем более тесная линейная зависимость между изучаемыми величинами. В зависимости оттого, насколько приближается к единице, различают слабую, умеренную, заметную, достаточно тесную и весьма тесную линейную связь.
- Если , то говорят о прямой связи между изучаемыми величинами (т.е. с увеличением одной случайной величины увеличивается и другая), если же , говорят об обратной связи (с увеличением одной случайной величины вторая уменьшается).
- Если все значения переменных увеличить (уменьшить) на одно и тоже число или в одно и то же число раз, то величина коэффициента корреляции не изменится. Коэффициент корреляции есть безразмерная характеристика тесноты линейной связи.
- При корреляционная связь представляет линейную функциональную зависимость, при этом все точки поля корреляции лежат на одной прямой.
- При или близком к нулю линейная корреляционная связь отсутствует, но это не означает отсутствие другой зависимости, например, нелинейная связь может быть очень тесной.
Для ответа на вопрос о значимости коэффициента корреляции проверяют нулевую гипотезу о равенстве нулю генерального коэффициента корреляции. Если гипотеза принимается, то говорят, что между и нет линейной корреляционной зависимости, иначе линейная зависимость признается значимой.
Для того чтобы при уровне значимости проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции при конкурирующей , надо вычислить наблюдаемое значение критерия:
затем, пользуясь таблицей критических точек распределения Стьюдента, по заданному уровню значимости и числу степеней свободы найти критическую точку для двухсторонней критической области. Если сравнить данные величины, то можно сделать вывод о степени коррелированности исходных признаков:
•если , то верна нулевая гипотеза и, следовательно, величины не коррелированны;
•если же , то нулевая гипотеза отвергается.
Рассмотрим уравнение парной линейной регрессии . Найдём формулы расчёта неизвестных параметров и по имеющимся статистическим данным .
Согласно методу наименьших квадратов неизвестные параметры выбираются таким образом, чтобы сумма квадратов отклонений выборочных значений от значений , полученных по уравнению регрессии, была минимальна:
На основании необходимого условия экстремума, приравнивая нулю частные производные, получим:
После преобразования получаем систему нормальных уравнений для определения параметров линейной регрессии:
Из последней системы следуют формулы для определения параметров уравнения парной линейной регрессии на :
Уравнение регрессии можно с учётом формулы вычисления параметра записать в виде
Коэффициент показывает, на сколько единиц в среднем изменится переменная при увеличении переменной на одну единицу.
Уравнение регрессии может быть использовано для прогнозирования значений при значениях , не указанных в корреляционной таблице.
Величину называют остаточной дисперсией случайной величины относительно случайной величины ; она характеризует величину ошибки, которая возникает при замене линейной функцией. При остаточная дисперсия равна нулю, т.е. при представлении в виде линейной функции от не возникает ошибки, a и связаны линейной функциональной зависимостью.
Кстати готовые на продажу задачи тут, и там же теория из учебников может быть вам поможет она.
Задачи с решением
Задача № 1
- Из генеральной совокупности извлечена выборка объёма :
Требуется:
1)Найти и построить эмпирическую функцию распределения;
2)Найти выборочное среднее, «исправленное» СКО, выборочную моду и медиану.
Решение:
1) Согласно определению эмпирической функции распределения её значение при любом равно , где — количество элементов ; выборки, меньших, чем — объём выборки.
Например, при
Тогда
График эмпирической функции распределения изображён на рисунке 6.
2) Определим выборочное среднее выборки по формуле (2):
«Исправленную» дисперсию найдём, используя следующую формулу:
Так как мода — это варианта, которой соответствует наибольшая частота, то .
Не сгруппированные данные образуют дискретный вариационный ряд, содержащий нечётное число вариант :
Значит, медиана равна
Задача № 2
- Записать в виде вариационного ряда выборку 20, 19, 12, 13, 16, 17, 17, 14, 16, 14, 13, 19, 18, 16, 14. Представить статистическое распределение выборки. Построить полигон относительных частот для статистического ряда. Вычислить числовые характеристики выборки: выборочное среднее, «исправленную» и выборочную дисперсии, «исправленное» среднеквадратическое отклонение (СКО).
Решение:
Объём выборки . Упорядочив элементы выборки по возрастанию, получим вариационный ряд:
12, 13, 13, 14, 14, 14, 16, 16, 16, 17, 17, 18, 19, 19, 20.
Статистическое распределение исходной выборки можно записать в виде следующей таблицы:
Полигон относительных частот изображён на рисунке 7.
Находим выборочное среднее по формуле (2):
Для вычисления выборочной дисперсии используем формулу (5):
«Исправленная» дисперсия и СКО:
Задача № 3
- Найти выборочное среднее, моду, медиану и выборочное СКО выборки объёмом , распределение которой задано следующей таблицей:
Построить гистограмму и полигон частот.
Решение:
Для построения гистограммы все частоты необходимо разделить на длину интервала, равную 1,02, и откладывать по оси ординат. По оси абсцисс отмечаются границы интервалов (рисунок 8).
Для построения полигона частот найдем середины интервалов и дополним исходную таблицу:
Ломаная линия (рисунок 8) будет соединять точки с координатами .
Для расчёта выборочного среднего и выборочного СКО составляем вариационный ряд, принимая в качестве вариант середины соответствующих интервалов:
Таким образом:
Так как наибольшая частота
отвечает интервалу 1,02 — 2,04, то
Мода (согласно формуле (3)) равна:
Определим номер медианного интервала. Так как , то номер медианного интервала равен 3, а сам интервал — 2,04 — 3,06. Тогда, по формуле (4), получаем:
Задача № 4
Дан статистический ряд признака :
Найти начальные и центральные моменты первых четырёх порядков признака , а также определить асимметрию и эксцесс.
Решение:
Вычисления проводим по формулам (8) для и по формулам (10) для .
Начальные моменты:
Центральные моменты
Тогда, так как
то
Задача № 5
Предельная нагрузка для выборки из 50 стальных стержней характеризуется следующим рядом:
Считая распределение предельной нагрузки нормальным, построить доверительные интервалы для оценки с надёжностью средней предельной нагрузки и СКО предельной нагрузки стальных стержней партии, из которой произведена выборка.
Решение:
Вычислим выборочное среднее и исправленное СКО соответственно по формулам
По таблице (см. приложение 3) найдём
Точность оценки:
Доверительный интервал для средней предельной нагрузки найдём по формуле (13):
Доверительный интервал для СКО предельной нагрузки будем искать по формуле
так как
Задача № 6
В результате эксперимента получены данные, представленные в виде статистического ряда:
Требуется:
1 )3аписать значения результатов эксперимента в виде вариационного ряда.
2)Представить данную выборку в виде интервального статистического ряда.
3)Найти числовые характеристики выборки:
4) Определить доверительные интервалы неизвестного математического ожидания и неизвестного среднего квадратического отклонения. Предполагается, что генеральная совокупность имеет нормальное распределение. Доверительную вероятность принять равной 0,95.
Решение:
1) Расположим значения результатов эксперимента в порядке возрастания, т.е. записываем вариационный ряд:
14 21 28 30 30 32 33 35 38 39 40 41 41 42 42 42 43 44 45 45 46 4747 47 48 48 49 49 50 51 52 53 54 54 56 57 58 58 59 59 60 60 60 60 61 61 65 67 72 77.
2) Объём выборки . Наибольшая варианта — 77, наименьшая — 14. Найдём длину интервала:
Выбираем длину интервала 9. Интервальный статистический ряд примет вид:
3) Для вычисления числовых характеристик составляем вариационный ряд, принимая в качестве вариант середины соответствующих интервалов:
Таким образом:
4) Доверительный интервал для оценки математического ожидания нормально распределённой случайной величины найдём по формуле:
Из приложения 3 для находим . Далее
Доверительный интервал для оценки а нормального распределения по несмещённой оценке определяется из неравенства
где величина
определяется из таблицы (приложение 4).
Имеем
При
в таблице приложения находим
Следовательно,
Значит,
Задача № 7
Решение:
Определим наблюдаемое значение критерия Пирсона по формуле
В таблице критических точек (приложение 5) находим при уровне значимости значение (имеем степени свободы). Значение Следовательно, выдвинутая гипотеза о нормальном распределении генеральной совокупности не отвергается.
Задача № 8
- Из генеральной совокупности извлечена выборка, представленная в виде ряда.
Требуется проверить, согласуются ли выборочные данные с гипотезой о нормальном распределении случайной величины с помощью критерия согласия Пирсона при уровне значимости , разбив отрезок на интервалов одинаковой длины. Величину рассчитать по формуле Стерджеса .
Решение:
Подсчитаем количество интервалов разбиения:
Из ряда видно, что
поэтому
Границы интервалов будут:
Частота — интервала подсчитывается с помощью ряда как число наблюдений, попавших в интервал. Так в первый интервал ) 0,6; 1,11 попало 7 значений, во второй [1,1; 1,6[ — 14 значений. Сведём полученные данные в таблицу:
Объем выборки равен
Выборочное среднее и дисперсия определяются по формулам:
Найдём теоретические вероятности по формуле
где — функция Лапласа, значения которой даются в приложении 3. Результаты вычислений сведём в таблицу:
Вычислим наблюдаемое значение критерия Пирсона. Для этого составим следующую расчетную таблицу:
По таблице критических точек распределения , уровню значимости и числу степеней свободы
находим
Так как
то нет оснований отвергнуть гипотезу о нормальном распределении генеральной совокупности.
Задача № 9
вычислить выборочный коэффициент корреляции и остаточную дисперсию. Записать уравнения прямой регрессии на . Построить корреляционное поле и линию регрессии на корреляционном поле.
Решение:
Вычислим основные выборочные характеристики: Выборочные средние:
Найдем оценки для средних квадратичных отклонений и корреляционного момента, для чего составим следующую вспомогательную таблицу:
Согласно формуле (15):
Найдем методом наименьших квадратов эмпирическую формулу вида . Составим систему нормальных уравнений (17) для определения параметров линейной регрессии. Так как
Уравнение регрессии на имеет вид:
Остаточная дисперсия:
Корреляционное поле и линия регрессии на корреляционном поле изображены на рисунке 9.
Задача № 10
Построить корреляционное поле. Найти выборочный коэффициент корреляции, оценить его значимость. Записать уравнения прямой линии регрессии на .
Решение:
Корреляционное поле данной двумерной выборки приведено на рисунке 10.
По виду поля корреляции можно судить о том, что между величинами существует зависимость.
Для вычисления выборочных числовых характеристик составляем следующую расчётную таблицу:
Замечание. Строка
получается следующим образом:
Столбец
Вычислим выборочные средние
«Исправленные» дисперсии находим по формулам:
Оценку корреляционного момента вычисляем по формуле:
Рассчитав все нужные величины, можно вычислить выборочный коэффициент корреляции:
Для оценки значимости выборочного коэффициента корреляции вычислим наблюдаемое значение критерия, воспользовавшись формулой (16):
Затем по таблице критических точек распределения Стьюдента, по заданному уровню значимости и числу степеней свободы найдем критическую точку для двухсторонней критической области:
Сравнивая , получим, что , следовательно, величины коррелированы.
Оценкой теоретической линии регрессии является эмпирическая линия регрессии, уравнение которой имеет вид
Тогда
Задача № 11
Из генеральной совокупности извлечена выборка, представленная в виде статистического ряда:
Требуется:
1)вычислить выборочное среднее , выборочную дисперсию , исправленную выборочную дисперсию и среднее квадратичное отклонение ;
2)найти размах варьирования; моду и медиану;
3)построить полигон частот и эмпирическую функцию распределения;
4)провсрить, согласуются ли выборочные данные с гипотезой о нормальном распределении случайной величины графически и с помощью критерия согласия Пирсона при уровне значимости , представив данную выборку в виде интервального ряда. Количество интервалов рассчитать по формуле Стерджеса ;
5)найти с доверительной вероятностью доверительный интервал для математического ожидания, а также доверительный интервал для .
Решение:
1) Объем выборки равен
Выборочное среднее определим по формуле:
Для нахождения выборочной дисперсии составим следующую вспомогательную таблицу:
Тогда
Исправленное среднее квадратичное отклонение будет
2) Размах варьирования находится по формуле
Так как мода — это варианта, которой соответствует наибольшая частота, то
Не сгруппированные данные образуют дискретный вариационный ряд, содержащий чётное число вариант , поэтому
3) Согласно определению эмпирической функции распределения ее значение при любом равно где — количество элементов выборки, меньших, чем .
Тогда
График эмпирической функции распределения:
Полигон частот изображен на рисунке:
4) Так как полигон частот по форме напоминает кривую Гаусса, то можно сделать предположение о том, что случайная величина распределена по нормальному закону. Проверим данное утверждение по критерию Пирсона. Вычислим количество интервалов:
Длина интервала
Границы интервалов будут:
Посчитаем число выборочных значений, попавших в каждый интервал. Частота интервала подсчитывается с помощью ряда, как число наблюдений, попавших в интервал. Так, в первый интервал [4; 5,2] попало 3 значения; во второй — [5,2; 6,4] попало 7 значений. Аналогично получаем частоты 3-7 интервалов.
Полученные данные сведём в следующую таблицу:
Найдем теоретические вероятности по формуле:
Результаты вычислений сведем в таблицу:
Так как ожидаемые (эмпирические) частоты первого и седьмого интервалов группировки не удовлетворяют условию 5, объединим эти интервалы (первый со вторым; а седьмой — с шестым).
Вычислим наблюдаемое значение критерия Пирсона. Для этого составим
По таблице критических точек распределения , уровню значимости и числу степеней свободы находим . Так как
то гипотеза о нормальном распределении принимается.
5) Доверительный интервал для математического ожидания найдём по формуле
Значение определим по таблице для доверительной вероятности
и объёму выборки
Тогда доверительный интервал имеет вид:
Задача № 12
По заданной таблице зависимости признаков и :
1}Вычислить выборочный коэффициент корреляции; проверить его на значимость, приняв .
2)Методом наименьших квадратов выровнять зависимость от по прямой .
3)Вычислить остаточную дисперсию, сделать вывод.
4)Построить корреляционное поле и линию регрессии на корреляционном поле.
Решение:
Найдём выборочные средние х, у, а также оценки для средних квадратичсских отклонений и корреляционного момента, для чего составим следующую вспомогательную таблицу:
Здесь
Тогда
Выборочное значение коэффициента корреляции:
Проверим значимость полученного выборочного коэффициента корреляции. Найдём наблюдаемое значение критерия:
По таблице критических точек распределения Стьюдента, по уровню значимости и числу степеней свободы находим критическую точку двусторонней критической области .
Так как , то отвергаем гипотезу о равенстве нулю генерального коэффициента корреляции, значит и -коррелированы.
Запишем нормальную систему уравнений. Так как
то
Решая систему по формулам Крамера, получим:
Следовательно, зависимость между величинами и выражается приближённой формулой
3) Остаточная дисперсия:
То сеть величина ошибки, которая возникает при замене линейной функцией, невелика можно сделать вывод, что между величинами и существует приближённая линейная зависимость.
4) Корреляционное поле и линия регрессии на корреляционном поле представлены на следующем рисунке:
Возможно эти страницы вам будут полезны:
- Предмет теория вероятностей и математическая статистика Решение задач по теории вероятностей
- Помощь по теории вероятности
- Заказать работу по теории вероятности
- Контрольная работа по теории вероятности
- Курсовая работа по теории вероятности
- Помощь по математической статистике
- Заказать работу по математической статистике
- Контрольная работа по математической статистике
- Курсовая работа по математической статистике
- Теория вероятностей краткий курс для школьников и студентов
Примеры решения задач по всем темам математической статистики
Математическая статистика – раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений.
Статистическое описание применяют к таким физическим процессам, для которых результат отдельного измерения не может быть предсказан с необходимой точностью. Тем не менее, при проведении достаточто большого числа повторных измерений может быть с достаточно хорошей точностью предсказана некоторая величина, являющаяся функцией результатов измерений.
При построении моделей в математической статистике предполагают вероятностную природу наблюдаемых явлений и используют математический аппарат теории вероятностей. Хотя математическая статистика и опирается на методы и понятия теории вероятностей, но можно сказать, что в каком-то смысле математическая статистика решает обратные задачи.
Основные понятия и задачи математической статистики
Математическая статистика — это наука, изучающая методы сбора, систематизации и интерпретации числовых (случайных) данных,
В этом определении интерпретация и систематизация данных рассматривается как существенный аспект.
Главная цель статистики — получение осмысленных заключений из несогласованных (подверженных разбросу) данных.
Действительно, исключая тривиальные ситуации, реальные данные всегда являются несогласованными, что требует применения статистических методов. Рассогласованность (разброс) между индивидуальными наблюдениями может быть, например, обусловлена ошибкой при считывании позиции стрелки прибора, когда она расположена между двумя делениями шкалы стрелочного прибора. Изменчивость может быть также следствием нестабильности работы электронного оборудования при передаче сообщений по радио или телеграфу. (В последнем случае для характеристики ситуации используется термин «шум»).
Чем же конкретно занимается математическая статистика? Какие задачи решает?
Выборочные распределения
Статистика должна получить свои выводы, используя наличную выборку. Каждое наблюдение является реализацией некоторой случайной величины. Известно множество значений, которые может принимать случайная величина; некоторые из них имеют большую возможность появления, чем другие.
Значение, которое наблюдалось, представляет собой реализацию. Вероятности возможных реализаций характеризуются распределением вероятностей случайных величин (СБ). Обычно функции распределения вероятностей бывают заданы с точностью до одного, двух параметров значений некоторых неизвестных. Это приводит к проблеме поиска таких комбинаций выборочных значений, которые бы давали наилучшее приближение для неизвестных параметров. Каждая такая комбинация и есть статистика. Выборочное распределение статистики поволяет судить, может ли предложенная статистика служить оценкой интересующего нас параметра,
Оценки, тесты (критерии значимости), решения Проблема оценивания была схематично рассмотрена выше. Ясно, что разумная процедура оценивания не должна ограничиваться лишь выбором приближенного численного значения для неизвестного параметра; она должна что-то говорить и о надежности этого приближения. Обычно говорят о точечном оценивании и об интервальном оценивании.
Существуют различные методы конструирования точечных оценок и определения их надежности. Наиболее полезным из них является метод максимального правдоподобия (ММП). Другой известный метод, который можно рассматривать либо как специальный случай ММП, либо как независимую процедуру подгонки, — метод наименьших квадратов.
Интервальное оценивание связано с определением «доверительных интервалов», правдоподобных интервалов, байесовских интервалов.
Поскольку статистика в целом основана на случайной изменчивости, каждая оценка подвержена ошибке. Так, если получены две различные оценки параметра — одна при одном наборе условий, а другая -при другом, непосредственно неясно, соответствует ли имеющееся между ними различие различию между параметрами. Вопрос об их различии решается с помощью статистического критерия (теста) или критерия значимости.
Один из подходов к статистическим критериям (проверки гипотез) связан с именем Р.А. Фишера, который рассматривает проверку гипотезы как пробный шаг в проведении научного исследования, позволяющий получить ученому объективный критерий, с помощью которого можно судить об истинности гипотезы.
Другой подход связан в основном с именами Дж. Неймана и Э. Пирсона, которые рассматривают процедуру проверки гипотезы как правило, с помощью которого должен быть сделан выбор либо принято решение об истинности одной гипотезы в противоречие другой.
Одна из частных проблем теории проверки статистических гипотез -оценка пригодности модели, предложенной для объяснения (интерпретации) данных, При этом необходимо решить: насколько предложенная модель соответствует выборке? И являются ли выборочные значения действительно близкими к тем, которые можно ожидать, используя подогнанную модель? Наиболее широко для решения подобных вопросов применяется процедура, предложенная Карлом Пирсоном и использующая критерий, основанный на ее выборочном распределении. Это пирсоновский критерий согласия хи-квадрат.
Генеральной совокупностью случайной величины
Статистическая устойчивость случайных явлений проявляется лишь при большом (в пределе — бесконечно большом) числе наблюдений. Однако на практике реальное число наблюдений ограничено. Поэтому характеристики случайных величин (СВ), определенные по малому числу наблюдений, в принципе не должны совпадать с величинами тех же характеристик, определенными по большому числу наблюдений (условия опыта остаются неизменными). Чтобы провести различие между характеристиками СВ, найденными по достаточно большому и малому числу наблюдений, в математической статистике введены понятия абстрактной генеральной совокупности и выборки.
Генеральной совокупностью случайной величины называется множество всех значений, которые может принимать случайная величина .
Выпорка представляет собой совокупность ограниченного числа наблюдений.
В соответствии с этим различают выборочные характеристики СВ, найденные по ограниченному числу наблюдений (выборке) и зависящие от числа наблюдений, и соответствующие им характеристики в генеральной совокупности, не зависящие от числа наблюдений. При этом выборочные характеристики рассматриваются как оценки соответствующих характеристик в генеральной совокупности.
На практике во многих случаях функция распределения рассматриваемой случайной величины неизвестна; ее определяют по результатам наблюдений или, как говорят, по выборке.
Выборкой объемом для данной случайной величины называется последовательность независимых наблюдений этой величины.
Пусть из генеральной совокупности извлечена выборка, причем
Объем выборки:
Наблюдаемые значения называют вариантами, а последовательность вариантов, записанных в возрастающем порядке, — вариационным рядом.
Число наблюдений называют частотами, а их отношение к объему выборки: — относительными частотами (частостями).
В статистике различают малые и большие выборки.
Малой выборкой считают такую выборку, при обработке которой методами, основанными на группировании наблюдений, нельзя достичь заданных точности и достоверности.
Больший считают такую выборку, при обработке которой можно перейти к группированию наблюдений без ощутимой потери информации и достижению заданных значений точности и достоверности.
Если выборка достаточно велика, то построенный на ее основе вариационный ряд неудобен для дальнейшего статистического анализа. В Этом случае строится гак называемый группированный статистический ряд.
Группирование данных, гистограмма, полигон
При группировании данных необходимо соблюдать определенные правила. Рассмотрим наиболее важные из них:
- Объем выборки должен быть достаточно велик .
- Число интервалов группирования (число групп) должно находиться в интервале . При выборе в каждом конкретном случае следует помнить, что при малом числе групп определение вида теоретической кривой распределения по эмпирическим данным может быть затруднено из-за маскировки (утраты) резких изменений кривой распределения, если они фактически имели место. При большом числе групп и незначительном объеме выборки будет наблюдаться большое количество пропусков (ноль попаданий в группу), что будет обусловлено не столько видом распределения, сколько недостатком статистики, кроме того, в этом случае даже небольшие случайные колебания приводят к искажению кривой распределения.
- Необходимо, по возможности, охватывать всю область данных, так как при неизвестных предельных значениях невозможно вычислить некоторые числовые характеристики выборки.
- Интервалы не должны перекрываться. Не должно возникать никаких сомнений относительно того, в какой интервал попадает любое значение.
- Если заведомо известно, что теоретическая кривая может быть двумодальной, число групп может быть увеличено в 1,5-2 раза по сравнению с оптимальным числом .
Оптимальное число групп выборки объемом рассчитывается по формулам:
• при известном значении
• при неизвестном значении , но известно, что
• согласно формуле Стерджесса:
Из (8.3) видно, что для увеличения оптимального количества интервалов на единицу необходимо увеличить объем выборки вдвое, Шаг группирования (ширина интервала) определяется по формуле:
Для графического изображения вариационных рядов наиболее часто используются полигон, гистограмма и кумулятивная кривая.
Гистограммой распределения, или просто гистограммой называется чертеж в прямоугольной системе координат, горизонтальная ось которого разбивается на равных интервалов (групп) шириной . На каждом отрезке, как на основании, строится прямоугольник с высотой, равной частоте (частости) соответствующего интервала.
Полигоном распределения. или просто полигоном называется ломаная линия, соединяющая середины верхних оснований каждого столбца гистограммы. За пределами гистограммы как слева, так и справа размещают пустые интервалы, в которых точки, соответствующие их серединам, лежат на оси абсцисс.
Кумулятивная кривая (кумулята) — кривая накопления частот (час-гостей). Для дискретного ряда кумулята представляет ломаную, соединяющую точки
Для интервального вариационного ряда ломаная начинается с точки, абсцисса которой равна началу первого интервала, а ордината — накопленной частоте (частости), равной нулю. Остальные точки этой ломаной соответствуют концам интервалов.
Пример № 1
Построить полигон, гистограмму и кумуляту по выборке объема . Сгруппированные данные приведены в таблице.
Статистическая (эмпирическая) функция распределения
Статистическим распределением выборки называют перечень вариантов и соответствующих им частот или относительных частот (частосгпей).
В теории вероятностей под распределением понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике — соответствие между наблюдаемыми значениями и их частотами или относительными частотами.
Пример № 2
Задана выборка объемом с соответствующими частотами. Необходимо найти частости (относительные частоты).
Контроль:
Пусть исследуется статистическое распределение частот количественного признака (случайной величины) . Введем обозначение:
— число наблюдений, при которых отслеживалось значение признака меньшее ;
— общее число наблюдений (объем выборки). Очевидно, что относительная частота (частость) события равна .
Статистической функцией распределения случайной величины называется функция, определяющая для каждого значения относительную частоту события :
Сравним статистическую и интегральную функции распределения. Вспомним (теорема Бернулли), что относительная частота события , то есть стремится по вероятности к вероятности этого события.
Функция обладает теми же свойствами, что и :
- Значения .
- Эмпирическая функция распределения — неубывающая.
- Если — наименьшая варианта, то при .
- Если — наибольшая варианта, то при .
Пример № 3
Построить эмпирическую функцию по данной выборке:
Решение:
Найдем объем выборки = 12 + 18 + 30 = 60. Теперь найдем статистическую функцию распределения:
Представим в аналитическом и графическом виде:
Выборочные значения и оценка параметров
Рассмотрим один из возможных методов оценивания среднего значения и дисперсии случайной величины по независимым наблюдениям:
Здесь и — выборочное среднее и выборочная дисперсия соответственно. Индекс в формуле (см. 8.7) указывает на смещенность оценки дисперсии. Наряду с вышеприведенными характеристиками, при обработке результатов наблюдений обычно находят следующие оценки:
• выборочная дисперсия (несмещенная)
♦ среднее квадратическое отклонение
• выборочный коэффициент асимметрии
выборочный коэффициент эксцесса
Для установления качества или «правильности» любой оценки используются свойства (требования) «хороших оценок».
Требования «хороших оценок»
1 Несмещенность.
Во-первых, желательно, чтобы математическое ожидание оценки равнялось оцениваемому параметру:
где — оценка параметра . Если свойство (8.12) имеет место, то оценка называется несмещенной.
2, Эффективность,
Во-вторых, желательно, чтобы среднеквадратическая ошибка данной оценки была наименьшей среди всех возможных оценок, то есть:
где — исследуемая оценка, a — любая другая оценка. Если по свойство имеет место, то оценка называется эффективной.
3* Состоятельность,
В-третьих, желательно, чтобы оценка сходилась к оцениваемому параметру с вероятностью, стремящейся к единице по мере увеличения размера выборки, то есть для любого
Если выполнено условие (8,14), то оценка называется состоятельной. Из неравенства Чебышева следует, что достаточным для выполнения (8.14) является условие:
В качестве примера «хорошей оценки» рассмотрим оценку среднего значения (8.6). Математическое ожидание выборочного среднего равно:
Следовательно, согласно (8.12), оценка несмещенная.
Среднеквадратическая ошибка выборочного среднего равна:
Поскольку наблюдения , независимы, то математическое ожидание членов, содержащих смешанные произведения, равны нулю. Поэтому из (8.17) получим:
Таким образом, согласно (8.15) оценка — состоятельная. Можно показать, что эта оценка эффективна.
Рассмотрим оценку дисперсии по формуле (8.7).
Однако
Поскольку
то, подставив получим:
Следовательно, оценка — смещенная.
Хотя оценка (выборочная дисперсия) и является смещенной, она состоятельна и эффективна. Из (8.21) понятно, что для получения несмещенной оценки следует взять несколько видоизмененную выборочную дисперсию (8.8).
Интервальное оценивание
Ранее мы обсудили использование выборочных значений в качестве оценок параметров случайных величин. Однако такие процедуры дают только точечные оценки интересующих нас параметров и не позволяют судить о степени близости выборочных значений к оцениваемому параметру. Более предпочтительная процедура — построения интервала, который накрывает оцениваемый параметр с известной степенью достоверности, Такой подход называется «интервальным оцениванием».
Сразу отметим следующее: чем больше уверенность в том, что оцениваемый параметр лежит в интервале, тем шире интервал.
Так что искать интервал, накрывающий параметр с вероятностью, равной единице, бессмысленно. Это вся область , то есть.
Пусть для параметра получена несмещенная оценка . Мы хотим оценить возможную при этом ошибку. Назначим некоторую достаточно большую вероятность (например: …)„ такую, что событие с вероятностью можно считать практически достоверным, и найдем такое значение , для которого выполняется соотношение
Тогда диапазон практически возможных значений ошибки, возникающей при замене на будет равен Ошибки, большие по абсолютной величине будут появляться с малой вероятностью . Запишем (9.1) в другом виде:
То есть неизвестное значение параметра с вероятностью попадает в интервал
Ранее (в теории вероятностей) мы рассматривали вероятность попадания случайной величины на некоторый интервал. У нас же а не случайная величина, а интервал случаен, здесь корректно говорить о вероятности накрыть точку а.
Вероятность принято называть доверительной вероятностью, а интервал — доверительным интервалом.
Рассмотрим задачу нахождения доверительных границ и параметра , имеющего несмещенную оценку . Если бы нам был известен закон распределения величины , то из выражения (9.1) нахождение при заданной не представляло бы затруднений. Однако, как правило, мы не знаем закон распределения случайной величины .
Пусть теперь распределение случайной величины отлично от нормального. Применяя центральную предельную теорему, получаем следующий результат.
С увеличением объема выборки выборочное распределение выборочного среднего стремится к нормальному распределению независимо от вида распределения исходной случайной величины.
Практически во многих случаях выборочное можно считать нормальным уже при , а при приближение будет хорошим.
В качестве примера рассмотрим задачу нахождения доверительного интервала математического ожидания, Пусть произведено независимых опытов над случайной величиной с неизвестными .
Для этих параметров выберем оценки:
Необходимо построить доверительный интервал соответствующий доверительной вероятности :
Интервальная оценка математического ожидания при известной дисперсии
Пусть СВ имеет гауссово распределение с параметрами причем неизвестно значение известно. Тогда эффективной оценкой параметра будет .
При этом имеет нормальное распределение
Статистика (оценка) СВ
имеет распределение , независимо от параметра , и как функция — непрерывна и монотонна. Вспомним, что . Тогда, с учетом (9.2), запишем:
где ~ квантили стандартного нормального распределения , причем Подставим в явном виде в (9.6):
Запишем это неравенство относительно :
Квантили стандартного нормального распределения определяются по таблицам, тогда окончательно получим:
Искомый доверительный интервал математического ожидания нормально распределенной СВ с известной дисперсией равен:
На рис. 9.1 представлена плотность распределения стандартного нормального распределения с отмеченными квантилями .
Интервальная оценка математического ожидания при неизвестной дисперсии
На практике почти всегда генеральная дисперсия (как и оцениваемое математическое ожидание ) неизвестна. Итак, имеется нормально распределенная СВ
с неизвестными параметрами и случайной выборке найдем несмещенные, эффективные оценки
Построение интервальной оценки основано на статистике:
Вспомним, что
и подставим в (9.11):
Числитель выражения (9.12), как было показано выше, имеет стандартное нормальное распределение . Показано, что величина имеет распределение с степенями свободы. А статистика имеет распределение Стыодснта с степенями свободы. Распределение Стьюдента не зависит от неизвестных параметров распределения случайной величины , а зависит лишь от числа .
Следует отметить, что распределение Стьюдента напоминает нормальное распределение, и при сколь угодно близко приближается к нему.
Число степеней свободы определяется как общее число наблюдений (вариантов) случайной величины минус число уравнений, связывающих эти наблюдения, то есть
Так, например, для распределения статистики число степеней свободы , поскольку одна степень свободы «теряется» при определении выборочного среднего ( наблюдений связаны одним уравнением).
Таким образом, по аналогии с (9.6) запишем:
Ha рис. 9,2 представлена плотность распределения Стьюдента с пятнадцатью степенями свободы.
Доверительный интервал математического ожидания нормально распределенной СB с неизвестной дисперсией равен:
Интервальная оценка выборочной дисперсии
Доверительный интервал для оценки дисперсии по выборочной дисперсии для СВ
строится аналогичным образом.
Естественно, что в качестве математического ожидания и дисперсии гауссовой СВ мы возьмем их несмещенные и эффективные оценки:
Исходя из вышесказанного, запишем:
Это интервал, который с вероятностью накрывает неизвестную дисперсию. Из статистики известно, что если СВ имеет гауссово распределение
то справедливо соотношение:
Здесь хи-квадрат распределения с степенями свободы. Теперь, задавая или что равносильно , можно найти квантили (соответствующие) . При этом следует учесть, что распределение не симметрично (рис. 9.3).
Как же решить эту задачу однозначно? Ведь сдвигая интервал влево или вправо соответствующим образом, можно для заданной доверительной вероятности найти бесконечное множество решений (интервалов).
Для обеспечения единообразия условились выбирать такие квантили (интервал), чтобы площадь под кривой, лежащая левее левой квантили, равнялась площади под кривой, расположенной правее правой квантили:
Тогда из (9.19), учитывая (9.20), получим соответствующие границы интервала:
Пример № 4
Дана выборка СВ объемом . Предполагается, что СВ распределена нормально с неизвестными параметрами .
Необходимо найти доверительные интервалы для математического ожидания и дисперсии при доверительной вероятности, равной 0,97,
Решение:
В качестве несмещенных и эффективных оценок вычислим:
a) Вычислим доверительный интервал для математического ожидания, если дисперсия известна (полагаем, что ). Тогда из таблицы нормального распределения получим
Подставим значения квантилий в (9.9) и (9.10):
b) Вычислим доверительный интервал для математического ожидания, при неизвестной дисперсии. Воспользуемся таблицей распределения Стьюдснта с числом степеней свободы
Соответствующие квантили равны
Подставим полученные значения в (9.15) и (9.16):
c) Вычислим доверительный интервал для дисперсии. Воспользуемся таблицей распределения Симметричный 97 % вероятностный интервал с
числом степеней свободы: (2,33; 20,5). Подставив полученные значения в (9.21), получим:
Статистические критерии
Прежде чем перейти к рассмотрению понятия статистической гипотезы, сформулируем так называемый принцип практической уверен-посты, лежащий в основе применения выводов и рекомендаций, полученных с помощью теории вероятностей и математической статистики.
Если вероятность события А в данном испытании очень мала, то при однократном испытании можно быть уверенным в том, что событие А не произойдет, и в практической деятельности вести себя так, как будто событие А вообще невозможно.
Вопрос о том, насколько малой должна быть вероятность а события А, чтобы его можно было считать практически невозможным, выходит за рамки математической теории и решается в каждом отдельном случае с учетом важности последствий, вытекающих из наступления события А. В ряде случаев можно пренебречь событиями, вероятность которых меньше 0,05, а в других, когда речь идет, например, о разрушении сооружений, гибели судна и т. п., нельзя пренебрегать событиями, которые могут появиться с вероятностью, равной 0,00К
Статистическим критерием (или просто критерием) называют случайную величину Кщ которая служит для проверки гипотезы.
Критерии значимости (критерии проверки гипотез, иногда просто тесты) — это простейшие, но наиболее широко используемые стати сти ч ее к и е средства.
Критерий значимости дает возможность статистику найти разумный ответ на вопрОС, подобный следующим;
• Сталь, произведенная разными методами, имеет неодинаковые пределы прочности. «Указывает ли это на то, что производимая разными методами сталь имеет различную прочность или же выявленное различие можно объяснить выборочными флуктуация ми?»
- «Превосходит ли по эффективности одно противогриппозное средство другое?»
- «Способствует ли отказ от курения снижению вероятности раковых заболеваний?»
- «Превосходит ли по воздействию одно удобрение другое приращивании овощей ? »
Проверка гипотез
Статистически называют гипотезу о виде неизвестного распределения или о параметрах известных распределений.
Рассмотрим простейший вид статистической процедуры, называемой проверкой гипотез. Пусть дана некоторая оценка построенная по выборке из я независимых наблюдений СВ . Предположим, что есть основания считать истинное значение оцениваемого параметра равным .
Однако, даже если истинное значение параметра равно выборочное значение , вероятно, не будет в точности равняться из-за выборочной изменчивости, присущей . Поэтому сформулируем следующий вопрос. Если предположить, что = то при каком отклонении от эта гипотеза должна быть отвергнута как несостоятельная? На этот вопрос ответ можно дать в статистических терминах, вычислив вероятность любого значимого отклонения от по выборочному распределению . Если вероятность такого отличия мала, то отличие следует считать значимым и гипотеза = должна быть отвергнута. Если же вероятность такого отличия велика, то отклонение следует приписать естественной статистической изменчивости и гипотеза = может быть принята.
Проиллюстрируем общий подход, предположив, что выборочное значение , являющееся оценкой параметра имеет плотность вероятности нормального распределения . Теперь, если гипотеза , верна, то должна иметь среднее значение (рис. ЮЛ).
Вероятность использованная при испытании гипотез, называется уровнем значимости критерия.
Вероятность того, что окажется меньше нижней границы , равна вероятности того, что превзойдет верхнюю границу и каждая из них равна . Следовательно, вероятность того, что окажется вне интервала, заключенного между этими границами, равна а. Область значений , при которых гипотеза принимается, называется областью принятия гипотезы
Нулевой (основной) называют выдвинутую гипотезу . В данном
примере : .
Область значений при которых гипотеза должна быть отверг нута, называется областью отклонения гипотезы, или критической областью,
Конкурирующей (альтернативной) называют гипотезу, которая противоречит нулевой.
В данном примере
Рассмотренный нами простой критерий испытания гипотез называется двусторонним критерием, так как, когда гипотеза неверна, значение может быть либо больше, либо меньше .
В ряде случаев достаточно бывает односторонних критериев (рис. 10.2). Например, пусть основная гипотеза
Тогда альтернативная гипотеза:
Следовательно, в критерии должна использоваться только нижняя (левая} граница определяемая по плотности вероятности .
Ошибки проверки гипотез
При проверке гипотезы возможны два типа ошибок.
- Во-первых, гипотеза может быть отклонена, хотя фактически она верна. Такая ошибка называется ошибкой первого рода.
- Во-вторых, гипотеза может быть принята, хотя фактически она неверна. Такая ошибка называется ошибкой второго рода.
Проиллюстрируем эти понятия графически (рис, 10.3).
Из рисунка видно, что ошибка первого рода происходит в том случае, когда при справедливости гипотезы значение попадает в область ее отклонения (критическую область). Следовательно„ вероятность ошибки первого рода равна — уровню значимости критерия.
Для определения вероятности ошибки второго рода предположим, к примеру, что истинный параметр равен либо
либо
(см. рис. 10.3), Если гипотеза состоит в том, что
тогда как на самом деле
то вероятность того, что попадает в область принятия гипотезы, заключенную между
равна Следовательно, вероятность ошибки второго рода равна при выявлении отклонения величиной ±d от гипотетического значения .
Вероятность называется мощностью критерия Следует отмстить, что вероятности ошибок первого и второго рода вычисляются при разных предположениях о распределении (если верна гипотеза и если верна гипотеза ), так что никаких раз и навсегда фиксированных соотношений (например , независимо от вида гипотезы и вида критерия) между ними нет. Таким образом, при фиксированном объеме выборки мы можем сколь угодно уменьшать ошибку первого рола, уменьшая уровень значимости . При этом, естественно, возрастает вероятность — ошибки второго рода (уменьшается мощность критерия). Единственный способ одновременно уменьшить ошибки первого и второго рода — увеличить размер выборки .
Именно такие соображения лежат в основе выбора нужного размера выборки в статистических экспериментах.
Пример № 5
Построение критерия проверки гипотез,
Предположим, что среднее значение СВ равно
также предположим, что дисперсия известна и равна
Необходимо найти объем выборки, позволяющий построить критерий проверки гипотезы
с 5%-м уровнем значимости и 5%-й ошибкой второго рода для выявления 10%-х отклонений от гипотетического значения. Построим также область принятия гипотезы .
Решение:
Выборочное среднее определяемое формулой (8.6), является несмещенной оценкой . Соответствующее выборочное распределение определяется из соотношения (9.7):
где имеет распределение Верхняя и нижняя границы области принятия гипотезы соответственно равны:
Если теперь истинное среднее значение равно
то с вероятностью произойдет ошибка второго рода, если выборочное среднее окажется меньше (левее) верхней границы и больше (правее) нижней. В терминах выборочного распределения со средним
или
для верхней и нижней границ (рис. 10,3);
Итак, справедливы следующие равенства:
Вспомним, что благодаря симметричности распределения справедливы равенства:
Теперь из (10.4) с учетом (10.5) найдем требуемый объем выборки:
Для конкретных значений данного примера:
Подставим эти значения в (10.6) и получим значение необходимою объема выборки . Таким образом, объем выборки должен быть равен или больше пятидесяти двух. Область принятия гипотезы определяется соответствующими границами (верхней и нижней (10.2)):
Математическая статистика основные определения и вычисления
Основные задачи математической статистики:
Математическая статистика — это раздел математики, который изучает методы обработки и классификации статистических данных для получения научно обоснованных выводов и принятия решений.
Примером статистических данных служит последовательность значений случайной величины, полученных в результате некоторого наблюдения, эксперимента (опыта). Так, последовательность чисел, которые получаются в результате неоднократного измерения некоторой величины, скажем, взвешивания некоторого тела на
аналитических весах, является простейшим примером статистических данных. Рассмотрим еще один пример. Электрическая лампочка считается стандартной, если она горит не менее 1400 часов. Каким образом определить, в какой степени партия лампочек, выпущенная заводом, соответствует установленному стандарту? Очевидно, что испытывать все лампочки бессмысленно. Поэтому выбирают случайным образом некоторое количество лампочек для испытания. Последовательность полученных данных о продолжительности горения отобранных лампочек представляет собой статистические данные, которые, будучи обработаны методами математической статистики, позволяют делать выводы о качестве данной партии продукции.
В связи с тем, что статистические данные зависят от случайных факторов, математическая статистика тесно связана с теорией вероятностей, которая является ее теоретической основой.
Как мы уже знаем, теория вероятностей устанавливает правила нахождения вероятностей более сложных событий (суммы, произведения событий) и вычисления различных числовых характеристик случайных величин (математического ожидания, дисперсии) по заданным вероятностям исходных событий. На практике же редко встречаются задачи, в которых вероятности
рассматриваемых событий были бы заранее известны. В таких случаях методами математической статистики можно получить сведения о случайной величине путем изучения небольшого набора наблюденных значений случайной величины, содержащего как можно больше нужных сведении о случайной величине.
Основные задачи математической статистики могут быть сформулированы следующим образом:
а) оценка неизвестных параметров случайной величины (вероятности случайного события, математического ожидания случайной величины, дисперсии, функции распределения);
б) статистическая проверка гипотез, т. е. проверка предположений, сделанных относительно некоторых случайных событий, случайных величин (о вероятности события, о законе распределения случайной величины и т. д. );
в) принятие решений (сюда относятся, в частности, задачи оптимального выбора момента настройки или замены действующей аппаратуры, например, определения срока замены двигателя самолета, отдельных деталей станков и т. д.).
В настоящее время математическая статистика продолжает бурно развиваться; при этом все больше расширяется круг ее задач и методов исследования с широким применением ЭВМ.
Так, разрабатываются статистические методы распознавания образов, определения характеристик элементов системы автоматического управления и т. д.
Математическая и прикладная статистика используется при планировании и организации производства, при анализе технологических процессов при предупредительном и приемочном контроле качества продукции и в других практических задачах.
Основные понятия математической статистики
Пусть требуется изучить множество значений случайной величины или совокупности объектов относительно некоторого признака. Например, требуется определить процент изделий, выпускаемых одним и тем же оператором, параметры которых отличаются от
номинальных.
Если число элементов в совокупности не очень большое, обследование объекта не связано с его уничтожением или не требует больших затрат, то можно исследовать каждый элемент в отдельности, фиксировать значение исследуемого признака и соответствующей обработкой результатов сделать тот или иной вывод о наблюдаемом или измеряемом признаке.
Если же совокупность состоит из очень большого числа объектов, или исследование связано с уничтожением объекта, или оно дорого стоит, то сплошное обследование невозможно. Невозможно, например,
исследовать на долговечность всю партию электрических
лампочек, так как в результате исследуемые лампочки сгорают и вся партия уничтожилась бы. В этих случаях выводы об исследуемом признаке делаются на основе изучения ограниченного числа
объектов, должным образом отобранных из общей совокупности. Основными понятиями математической статистики являются генеральная и выборочная совокупности.
Множество всех значений некоторой изучаемой величины или, другими словами, совокупность всех объектов, которая подлежит изучению, носит название генеральной совокупности, а специальным образом отобранная группа объектов — выборочной совокупности или выборки. Например, партия всех электрических
лампочек, которая подлежит изучению, является генеральной совокупностью, а множество лампочек, взятых для обследования, составляет выборочную совокупность.
Число объектов совокупности (генеральной или выборочной) называется объемом данной совокупности (выборки). Например, если цех выпустил 2000 деталей, а для обследования отобрано 150 деталей, то объем генеральной совокупности равен 2000 (N = 2000), а объем
выборки— 150 (п = 150).
Сейчас можно сказать, что основная задача математической статистики состоит в получении обоснованных выводов о свойствах генеральной совокупности по известным свойствам извлеченной из нее выборки.
Рассмотрим теперь основные виды выборок. Различают выборки с возвращением и без возвращения. Если после фиксирования значения параметра объект возвращается в генеральную совокупность и, таким образом, он может многократно повторяться в выборке, то говорят о выборке с возвращением или с повторением. Если же раз отобранный объект обратно не возвращается и он не может больше, чем один раз, повторяться в выборке, то такая выборка называется выборкой без возвращения или без повторения. Заметим, что когда объем выборки намного меньше объема генеральной
совокупности, то различие между выборкой с возвращением и без возвращения практически исчезает.
Говорят, что выборка репрезентативна (представительна), если она достаточно «хорошо» представляет изучаемые признаки генеральной совокупности.
Важным условием обеспечения репрезентативности выборки является соблюдение случайности отбора, т. е. все объекты генеральной совокупности должны иметь равные вероятности попасть в выборку.
С целью обеспечения репрезентативности выборки в зависимости от конкретных условий применяются различные способы отбора: простой, типический, механический, серийный.
Простым называется отбор, при котором из генеральной совокупности случайным образом извлекается по одному элементу с возвращением или без возвращения. Например, для изучения белых медведей экспедиция ловит- случайным образом попавшихся ей белых медведей, измеряет исследуемые параметры и отпускает
на волю или сдает в зоопарк в зависимости от целей, которые стоят перед ней.
Типическим называется отбор, при котором объекты случайным образом отбираются из каждой «типической» части генеральной совокупности…
Например, если детали изготовляются разными цехами, то для обеспечения репрезентативности выборки отбор производится случайным образом с соблюдением пропорций из продукции каждого цеха. Типическим отбором пользуются тогда, когда исследуемый признак существенно колеблется в различных частях генеральной совокупности.
Механическим называется отбор, при котором объекты отбираются через определенный интервал, скажем, каждый пятый, двадцатый, сотый и т. д. Механическим отбором надо пользоваться осторожно.
Например, если резец заменяется после тридцати обработанных
деталей, то нельзя составлять выборку, отбирая каждую десятую или пятнадцатую детали. Отметим, что в таких случаях целесообразно, чтобы номер отбираемой детали и период ритма работы были взаимно простыми числами. Тогда в выборку попадут объекты со всех точек периода ритма.
Серийным называется отбор, при котором выборка состоит из целой серии объектов. Этим способом пользуются в тех случаях, когда исследуемый признак в генеральной совокупности колеблется незначительно.
Например, если квалификация всех рабочих цеха, качество технических средств и сырья существенно не изменяются в течение недели, то для проверки недельной продукции данного цеха можно провести сплошную проверку продукции одного дня.
На практике для обеспечения репрезентативности выборки пользуются сочетанием вышеуказанных способов отбора.
Если отбор объектов из генеральной совокупности и образование выборки невозможны непосредственным манипулированием самими объектами ввиду их громоздкости, труднодоступности или по другим причинам, то объектам генеральной совокупности присваиваются номера, которые записываются, например, на отдельных карточках, удобных для перемешивания и осуществления отбора. Путем случайного отбора карточек образуется выборка заданного объема, а впоследствии из генеральной совокупности отбираются те объекты номера которых совпадают с номерами карточек, попавших в выборку. Описанным способом поступают,
например, при составлении тиражей выигрышных билетов в денежно-вещевых лотереях, облигаций трехпроцентного займа и др.
В научных исследованиях для формирования выборок чаще всего пользуются так называемыми таблицами случайных чисел, которые могут быть получены при помощи случайного выбора карточек или
специальными алгоритмами на ЭВМ. Существуют таблицы случайных чисел четырехзначные, пятизначные и т. д. Если надо, например, образовать выборку объема n из генеральной совокупности объема N = 100 000, то берем пятизначную таблицу случайных чисел и выписываем любую группу из n последовательных ее чисел. Обследованию подвергаются те объекты генеральной совокупности, номера которых совпадают с выписанными числами из таблицы случайных чисел.
Выборочные ряды распределения
Группировка статистических данных. Определение
статистических (выборочных) распределений
Для установления закономерностей массовых случайных явлений изучаются статистические данные, т. е. сведения, полученные путем наблюдений или экспериментов о значениях интересующего нас признака. Примеры статистических данных были приведены в § 1. Рассмотрим здесь еще один пример. Экономист, интересующийся
тарифным разрядом рабочих некоторого подразделения завода, выбрал документы 100 рабочих и выписал из них последовательность разрядов 5, 1, 4, 5, 4, 3, 6 и т. д. Эта последовательность представляет собой статистические данные, которые подлежат обработке.
Изучение статистических данных обычно начинается с их группировки в порядке возрастания значения признака. Пусть в нашем примере после упорядочения по возрастанию статистических данных мы получили ряд из 100 чисел
где 1 повторяется 4 раза, 2 — 6 раз, 3—12 раз, 4 — 16 раз (для экономии места мы не выписали этот ряд полностью), 5 — 44 раза и 6— 18 раз.
Наблюдаемые значения рассматриваемого признака называются вариантами, а последовательность вариант, записанных в возрастающем порядке, называется выборочным или вариационным рядом.
Условимся обозначать через значения вариант в данной выборке, Если — вариационный ряд, т. е. — это наименьшее значение признака,
— наибольшее значение признака в данной выборке, а разность называется размахом выборки. В нашем примере
Пусть из генеральной совокупности отобрана выборка, в которой значение признака X наблюдалось раз, значение раз, …, значение раз. Если объем выборки равен n, то
Числа .., называются частотами, а их отношения к объему выборки, т, е. — относительными частотами соответствующих вариант.
Рассматривается еще накопленная или кумулятивная частота , которая показывает, сколько наблюдалось элементов выборки со значениями признака, меньшими . Отношение накопленной частоты к общему объему выборки называется относительной накопленной частотой,
Определение:
Статистическим распределением выборки называется перечень вариант и соответствующих им частот или относительных частот.
В теории вероятностей изучается аналогичное понятие, именно закон распределения или просто распределение случайной величины. При этом под распределением случайной величины понимается соответствие между возможными значениями случайной величины и их вероятностями. Для дискретной случайной величины X, принимающей значения с вероятностями , закон распределения записывается, как правило, в виде таблицы
В первой строке этой таблицы указаны значения случайной величины, во второй соответствующие вероятности Аналогичным образом, статистическое распределение выборки можно записать в виде таблицы, в первой строке которой указываются значения вариант выборки, во второй строке — значения частот:
или значения относительных частот (которые легко вычисляются по известным частотам и объему выборки):
Так, статистическое распределение выборки рассмотренного выше примера, запишется в виде
или
Можно свести обе эти характеристики выборки в одну таблицу:
Таблица 6
Пример:
Дано статистическое распределение выборки
Найти относительные частоты, накопленные частоты накопленные относительные частоты.
Решение:
Вычислим объем выборки n = 3 + 10 + 7 = 20. Тогда
Пример:
Найти вариационный ряд, частоты, относительные частоты для выборки, полученной при измерении электрической емкости двадцати пластин пьезоэлементов в пикофарадах по следующим результатам:
Решение:
Вариационный ряд для данной выборки будет:
Здесь каждая варианта встречается по одному разу, следовательно, для всех Равными будут также и относительные частоты, причем .
Теперь мы можем следующим образом уточнить понятие репрезентативности выборки: выборка является репрезентативной, если относительные частоты выборки близки к соответствующим относительным частотам генеральной совокупности (по всем вариантам генеральной совокупности).
Пример:
Исследовать репрезентативность выборки
для генеральной совокупности, заданной таблицей 6.
Решение:
Вычислим относительные частоты для нашей выборки (обозначим их через ):
Из этих подсчетов делаем вывод, что данную выборку можно считать репрезентативной.
При большом числе наблюдений и большом числе
вариант, удобно варианты группировать по отдельным интервалам их значений. Для этого шкала интересующего нас признака разделяется на некоторое число интервалов, и вместо отдельных вариант рассматриваются группы значений вариант, попавших в последовательно расположенные интервалы. Число m таких интервалов, как правило, берется в пределах от 10 до 20. Ширина
интервалов определяется путем деления размаха выборки на количество интервалов: . В таких случаях составляется статистическое распределение выборки по частотам интервалов (интервальное статистическое распределение выборки). При этом частота интервала равна сумме частот вариант, попавших
в данный интервал.
Пример:
Для выборки примера 2 составить таблицу статистического распределения, по интервалам, беря число интервалов m = 10.
Решение:
Вычисляем ширину интервалов:
Следовательно, имеем интервалы (точнее, — промежутки):
[7,0; 7,5], ]7,5; 8,0], ]8,0; 8,5], ]8,5; 9,0], ]9,0; 9,5], ]9,5; 10,0], ]10,0; 10,5], ]10,5; 11,0], ]11,0; 11,5], ]11,5; 12,0]. Используя данные примера 2, получаем следующую таблицу статистического распределения
выборки по интервалам:
Геометрическая интерпретация статистических распределений выборки
Если на оси абсцисс прямоугольной системы координат расположить варианты а на оси ординат — соответствующие им частоты, то в плоскости получим точки . Соединим точки отрезками прямых. Полученная ломаная линия называется
полигоном частот.
Пример:
Построить полигон частот для статистического распределения выборки, заданной таблицей 6.
Решение:
См. рис. 148
Полигоном относительних частот называют ломаную, отрезки которой соединяют точки , , построенные в системе координат так, что на оси абсцисс расположены варианты а на оси ординат — относительные частоты . Так как , то ординаты точек получаются из ординат точек уменьшением их в n раз.
Следовательно, полигон частот будет представлять полигон относительных частот в системе координат, у которой масштаб на оси ординат увеличен в n раз.
Пример:
Построить полигон относительных частот для статистического распределения выборки, заданной таблицей 6.
Решение:
См. рис. 149.
Если статистическое распределение выборки задается в виде
последовательности интервалов значений вариант и их частот, то геометрическое изображение дается при помощи гистограммы
частот (очевидно, что в этом случае нельзя построить полигон частот).
Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, построенных на частичных интервалах с длиной d и высотой, равной отношению (плотность частоты на данном интервале).
Площадь i-го частичного прямоугольника равна Следовательно, площадь гистограммы частот равна сумме всех частот, т. е. объему выборки.
Гистограммы относительных частот строятся аналогичным образом, только в качестве высот прямоугольников берется отношение (плотность относительной частоты на данном интервале).
Гистограмма относительных частот может быть получена из гистограммы частот сжатием вдоль оси ординат в n раз, или увеличением масштаба на оси ординат в n раз.
Легко видеть, что площадь гистограммы относительных частот равна единице.
Пример:
По данным изучения выработки на одного рабочего в отчетном году в процентах по отношению к предыдущему году было составлено интервальное статистическое распределение в виде таблицы 7 для выборки объема n = 117, извлеченной из всей
совокупности рабочих завода. Построить гистограмму статистического распределения данной выборки.
Таблица 7
Решение:
См. рис. 150.
Можно построить и график кумулятивной частоты или кумулятивной относительной частоты — кумулятивную кривую.
Пример:
Построить кумулятивную кривую частот для статистического распределения выборки, заданной таблицей 6.
Решение:
См. рис. 151.
Заметим, что кумулятивная кривая частот сыграничена сверху числом n, а кумулятивная кривая относительных частот ограничена сверху единицей.
Теоретико-вероятностные аналоги статистических распределений
Сопоставляя известные нам определения вероятности и данное выше определение относительной частоты выборки, легко заметить, что между ними имеется числовая связь. Однако следует подчеркнуть, что между этими двумя понятиями имеется и принципиальное различие. Это различие состоит в том, что вероятность события определяется до испытания, исходя из равновозможности элементарных событий, а относительная частота выборки — после испытания (отбора выборки). Обычно о равновозможности элементарных событий судят, исходя из. соображений симметрии, однородности и т. д., т. е. из теоретических соображений. Так, исходя из того, что игральная кость имеет форму куба, состоит из однородного материала, заключают, что вероятность появления какого-нибудь определенного числа очков, например 4, равна 1/6, причем такова же вероятность появления 1, 2, ».., 6 очков.
Определение же относительной частоты может быть получено только после того как испытания были фактически произведены. Так,
если при 100-кратном бросании игральной кости мы получили варианты
то относительные частоты будут
в то время как вероятность любого из указанных исходов равна . Хотя численные значения этих величин и близки, они не совпадают. Однако если из теоретических соображений нам известно значение вероятности, то, как это следует из закона больших чисел, при большом объеме выборки относительная частота варианты
будет близкой к его вероятности. На практике же случаи, в которых можно определить вероятность, исходя из теоретических соображений, встречаются весьма редко. Поэтому на практике, учитывая закон больших чисел, в качестве приближенного значения вероятности случайной величины принимают относительную частоту репрезентативной выборки.
В силу такой тесной связи между понятиями вероятности и относительной частоты имеет место много аналогий между основными понятиями и теоремами теории вероятностей и математической статистики.
В математической статистике большую роль играют понятия, аналогичные понятиям математического ожидания, дисперсии, среднего квадратичного отклонения, известные нам из теории вероятностей.
Сводные числовые характеристики выборки
Как мы уже говорили выше, одной из основных задач математической статистики является оценка параметров генеральной совокупности (случайной величины) при помощи соответствующих параметров выборки. Пусть дана случайная величина X, принимающая значения
Определение:
Выборочным средним выборки объема n со статистическим распределением
называется «среднее взвешенное» значений признака выборки, т. е.
Если рассмотренная выборка является генеральной совокупностью объема N со статистическим распределением
то получаем генеральное среднее:
Вероятность того, что случайная величина X получает значение , будет Вычислим математическое ожидание M(X) случайной величины X:
Таким образом,
Генеральное среднее (а следовательно, и математическое ожидание случайной величины) может быть оценено при помощи выборочной средней той или иной выборки. Точность таких оценок зависит от степени репрезентативности данной выборки.
Пример:
Вычислить генеральное среднее для генеральной совокупности, заданной таблицей 6.
Решение:
Пример:
Оценить генеральное среднее генеральной совокупности примера 1 при помощи выборочного среднего выборки
Решение:
Следовательно, можно принять , что близко к истинному значению (см. пример 1).
Пример:
По данным таблицы 7 оценить среднюю выработку на одного рабочего завода в отчетном году в процентах к предыдущему году (в качестве вариант берутся середины соответствующих интервалов).
Решение:
Оценим среднюю выработку при помощи выборочного среднего :
Определение:
Выборочной дисперсией которой выборки называется среднее взвешенное квадратов отклонений значений признака от выборочной средней .
Если варианты выборки объема n.
имеют частоты то
Если рассматриваемая выборка является генеральной совокупностью, то получаем генеральную дисперсию Пусть X — случайная величина, значения которой предоставлены генеральной совокупностью объема N со статистическим распределением
Тогда
Вычислим дисперсию случайной величины X:
Множество значений случайной величины представляет собой генеральную совокупность объема N с вариантами с частотами следовательно, для ее математического ожидания имеем:
Таким образом.
Генеральная дисперсия генеральной совокупности (а следовательно, и дисперсия случайной величины) может быть оценена при помощи выборочной дисперсии той или иной выборки. Точность такой оценки зависит от степени репрезентативности данной выборки.
Напомним, что дисперсия является характеристикой рассеяния значений признака вокруг своего среднего значения.
Часто рассматривается еще величина которая называется средним квадратическим отклоненнием выборки.
Пример:
Вычислить генеральную дисперсию генеральной совокупности, заданной таблицей 6.
Решение:
Из примера 1 имеем . Тогда
Пример:
Оценить генеральную дисперсию генеральной совокупности, заданной таблицей 6, при помощи выборочной дисперсии выборки из примера 2.
Решение:
Из примера 2 имеем .
Тогда
Следовательно, можно принять , что близко к истинному значению (см. пример 4),
Пример:
По данным таблицы 7 оценить дисперсию средней выработки на одного рабочего завода и среднее квадратическое отклонение.
Решение:
Из примера 3 имеем . Тогда
Отсюда
Понятие об аппроксимации распределений
Пусть дано статистическое распределение частот некоторой выборки объема n случайной величины X. Пусть — накопленная частота выборки. Очевидно, что зависит от варианты поэтому, для
простоты, обозначим ее через т. е. Аналогично,
относительную накопленную частоту обозначим через . Ясно, что относительная частота события равна Обозначая через x текущую варианту, можем сказать, что является функцией от x. Обозначим эту функцию через :
и назовем ее функцией распределения выборки. Поскольку значения функции определяются из опыта, то называется эмпирической функцией распределения выборки. Функция распределения генеральной совокупности, которая может оставаться неизвестной или может быть выведена из теоретических результатов теории вероятностей, называется теоретической функцией распределения.
Из теоремы Бернулли следует, что относительная частота события стремится по вероятности к вероятности этого события. В силу этого числа мало различаются между собой, т. е. . Следовательно, эмпирическая функция распределения выборки может быть
использована для приближенного представления теоретической функции распределения генеральной совокупности или соответствующей случайной величины.
Пример:
Построить эмпирическую функцию распределения по данному, распределению выборки:
Решение:
Вычислим объем выборки:
Наименьшая варианта равна 2, следовательно,
Значение равно 12, так как событие наблюдается 12 раз. Тогда при имеем
Значение равно 23, так как событие . наблюдается 12 + 11 = 23 раза. Тогда при имеем:
Значение равно 20 так как событие наблюдается 12 + 11 + 3 = 26 раз. Тогда при имеем
Наконец, так как — наибольшая варианта, то Следовательно, при X > 7 имеем:
Следовательно, искомая эмпирическая функция распределения дается формулой
График этой функции изображен на рис. 152
Таким образом, если дана генеральная совокупность (или случайная величина), закон распределения которой неизвестен, то извлекают репрезентативную выборку и вычисляют эмпирическую функцию распределения для данной выборки и оценивают распре
деление генеральной совокупности при помощи эмпирической функции распределения выборки Иногда удобно поступить и обратным путем. Для многих распространенных случайных величин из теоретико-вероятностных соображений известен характер их
закона распределения. Многие Случайные величины, а следовательно, и генеральные совокупности, имеют нормальный закон распределения с функцией распределения
где параметры a и имеют вполне конкретный вероятностный смысл: а — математическое ожидание, — дисперсия случайной величины. Отметим еще, что существуют случайные величины с показательным законом распределения с функцией распределения
где а — математическое ожидание случайной величины, случайные величины с биномиальным законом распределения и др.
Допустим, что нам известен вид функции распределения генеральной совокупности, например, что генеральная совокупность имеет нормальное распределение, показательное распределение или какой-либо другой вид распределения. Рассмотрим некоторую выборку,
которая извлечена из данной генеральной совокупности.
Определяем по вариантам данной выборки значения параметров, входящих в формулу теоретической функции распределения. Заменяя найденные значения параметров в формулах функции распределения, получим конкретную функцию, которая является
аппроксимацией выборочных распределений теоретическими
распределениями. Таким образом, распределения конкретных выборок аппроксимируются теоретическими.
Совместные распределения случайных величин
1. Статистическая зависимость. Во многих случаях возникает необходимость совместного изучения двух или нескольких случайных величин. Две случайные величины могут быть независимыми, либо зависимыми, при этом зависимость может быть функциональной или статистической (во втором случае говорят еще — вероятностная, или стохастическая зависимость). В теории вероятностей и математической статистике изучаются статистические (стохастические) зависимости.
Зависимость между двумя случайными величинами называется статистической, если при изменении одной го величин изменяется закон распределения другой величины.
Пусть, например, Y — вес мужчин одного возраста, a X — их рост. Зависимость между Y и X не является функциональной, так как вес разных мужчин одного и того же роста различный, но изменение величины X ведет к изменению закона распределения величины Y — веса. Зависимость между Y и X является статистической.
Статистическая зависимость, у которой при изменении одной из величин изменяется среднее значение другой величины, называется корреляционной.
Пусть, например, Y — урожай участка, X — количество внесенных удобрений. Зависимость между Y и X не является функциональной, так как на равных участках земли при равном количестве удобрений снимают все же различный урожай. Это связано с тем, что урожай
зависит от многих случайных факторов. Тем не менее, опыт показывает, что средний урожай зависит от количества удобрений. Следовательно, случайные величины — урожай и количество внесенных удобрений — связаны корреляционной зависимостью.
Понятие о корреляции и регрессии
Рассмотрим две случайные величины Y и X. Допустим, что каждому значению X соответствует несколько значений Y, например при = 2 величина Y принимает значения
Среднее арифметическое значений величины Y при называется условным средним и обозначается . В нашем примере имеем
Как мы уже отметили, зависимость Y от X называется корреляционной зависимостью, если условная средняя функционально зависит от x:
Уравнение (1) называется уравнением регрессии Y на X; называется регрессией Y на X, а ее график — линией регрессии Y на X.
Аналогично определяется корреляционная зависимость X от Y, .
Различаются две основные задачи теории корреляции. Первая — установить вид функции регрессии (1) (линейная, квадратическая, показательная и т. д.). Вторая — определить величину рассеяния значений Y вокруг условного среднего , т. е. оценить силу
зависимости Y от X.
3. Выборочное уравнение. Пусть X и Y — две случайные величины, связанные корреляционной зависимостью. Для отыскания уравнения этой зависимости проведено n независимых испытаний; в результате
получены n пар чисел:
Множество пар (2) является случайной выборкой из генеральной совокупности всех возможных пар (x; у) значений величин X и Y. Распределение выборки (2) называется выборочным распределением пары случайных величин X и Y. В связи с этим уравнение (1),
определенное по данным выборки (2), называется выборочным уравнением регрессии Y на X.
Нахождение уравнений выборочной регрессии методом наименьших квадратов
Будем искать выборочное уравнение регрессии
по выборке
в виде линейного уравнения — одного из самых распространенных случаев. При этом будем считать, что в данной выборке каждому значению x признака X соответствует единственное значение у признака Y. Тогда , т. е. можем считать, что заданы средние
значения величины Y для каждого значения X.
Рассмотрим линейную функцию
и поставим задачу определить параметры и b так, чтобы линейная функция давала наилучшее приближение в смысле квадратического отклонения функции регрессии (1). Полученную линейную функцию назовем прямой линии регрессии Y на X. Угловой
коэффициент прямой линии регрессии Y на X называется выборочным коэффициентом регрессии Y на X и обозначается через
Таким образом, выборочное уравнение прямой линии регрессии Y на X будем искать в виде
Если a — наблюдаемое значение Y, соответствующее , то разности . называются отклонениями значений Y. Подберем параметры и b так, чтобы сумма квадратов отклонений , которая равна
или
была минимальной.
Для отыскания минимума приравняем нулю соответствующие частные производные
Отсюда находим:
Умножая уравнение (5) на n и (6) на — получим:
Сложив полученные уравнения, имеем
Отсюда
Аналогично находим
Пример:
Найти выборочное уравнение прямой линии регрессии Y на X по данным n = 5 наблюдений:
Решение:
Составим расчетную таблицу дли вычисления и b по формулам (7) и (8). В результате вычислений найдем линейную функцию регрессии:
Математическая статистика — решение заданий и задач по всем темам с вычислением
Статистический материал и его обработка
1°. Результаты наблюдений массовых явлений, случайных величин составляют статистические данные, или статистический материал. Выборкой объема n называется совокупность n случайно отобранных объектов. Множество всех объектов, из которых производится выборка, называется генеральной совокупностью (ГС).
Выборочный метод состоит в том, что на основании изучения некоторого количественного признака X у некоторой части статистической совокупности (выборки), полученной в результате случайного отбора, можно сделать вывод о характере распределения этого признака по всей статистической совокупности (генеральной совокупности).
Результаты наблюдений выборки объема n записываются, в частности, в виде статистической совокупности:
i: 1, 2, …. n — номера наблюдений, измерений,
— значения наблюденной величины. При больших значениях n и различных значениях необозримую статистическую совокупность подвергают специальным видам статистической обработки.
2°. Расположим значения которые называются вариантами, в порядке возрастания и обозначим Величина R = b — а называется размахом статистической совокупности. Среди значений , могут быть одинаковые. Пусть значение наблюдалось раз, наблюдалось раз, …, наблюдалось раз. Тогда общий объем выборки равен
Число , показывающее, сколько раз встречается варианта (значение) называется частотой , а число относительной частотой варианты
Имеем
Последовательность записанная в порядке возрастания с указанием частот и (или) относительных частот, называется вариационным рядом, который может быть представлен в виде таблицы (варианты вариационного ряда различны):
Геометрическим изображением вариационного ряда является эмпирический полигон распределения, являющийся аналогом плотности распределения случайной величины X, — ломаная с вершинами
Вариационный ряд обозрим при небольших значениях В противном случае его (или первоначальную статистическую совокупность) подвергают интервальной обработке.
3°. Все варианты принадлежат отрезку (см. п. 2°). Пусть к некоторое (не больше 20) натуральное число. Отрезок [а; b] разобьем на к равных частей длины h =(b — a)/k. Обозначим эти промежутки следующим образом:
Через обозначим число вариант Х, попавших в интервал Если некоторые значения совпадают с то половину их количества отнесем к левому интервалу, а половину — к правому (в случае нечетного числа таких значений одно из них можно отнести к тому или иному интервалу произвольно). Положим еще Числа можно отнести также к середине интервала, Полученные данные занесем в таблицу, называемую интервальной обработкой ряда, или статистической совокупности.
Три последние строки этой таблицы составляют вариационный ряд, которым можно заменить вариационный ряд предыдущего пункта (в случае, если число его вариант велико). В качестве новых вариант можно принять середины интервалов.
Геометрическим изображением интервальной обработки служит гистограмма. Гистограммой частот называется множество прямоугольников с основаниями и высотами Площадь гистограммы равна объему выборки n.
Нормированной гистограммой называется множество прямоугольников с основаниями и высотами Площадь этой гистограммы (ступенчатой фигуры) равна 1. По гистограмме легко построить эмпирический полигон, и наоборот.
4°. Эмпирической функцией распределения выборки объема n называется функция F(x), определяющая для каждого х относительную частоту события X < х:
— число вариант меньших чем х.
Функция F(x) обладает свойствами (здесь )
1)
2) F(x) = 0 при x < a, F(x) = 1 при x > b.
3) F(x) — монотонно неубывающая, непрерывная слева функция.
Пример обработки статистического материала.
Признак X — объем товарооборота (в млн. руб.) группы обследованных магазинов в течение месяца. Результаты обследования 50 магазинов следующие: 32, 17, 22, 15, 22, 17, 20, 26, 27, 32, 17, 32, 17, 22, 15, 26, 17, 22, 15, 20, 26, 32, 22, 32, 37, 22, 15, 20, 27, 26, 32, 37, 22, 20, 27, 32, 37, 22, 32, 37, 26, 32, 17, 32, 22, 15, 20, 26, 22; 32.
1) Вариационный ряд имеет вид:
2) Полигон распределения (рис. 8.1):
3) Для удобства интервальной обработки расширим интервал, на котором расположены варианты х. Положим а = 14, b = 38 и разобьем интервал (14,38) на к = 4 равных интервала. Часть совпадающих значений отнесем к левым, а часть их — к правым интервалам.
Гистограмма частот (рис. 8.2) — набор внешних прямоугольников. Нормированная гистограмма — нижняя, внутренняя.
4) Эмпирическая функция распределения и ее график (рис. 8.3):
Числовые характеристики законов распределения эмпирических величин
1°. Одна из задач математической статистики состоит в установлении закона распределения случайной величины X (генеральной совокупности) и оценке параметров этого закона.
Вид закона выбирается из каких-либо теоретических или практических соображений, а параметры следует вычислять, исходя из имеющейся выборки.
Например, для нормального закона нужно определить математическое ожидание а и среднее квадратическое отклонение а для распределения Пуассона достаточно одного параметра
2°. Обозначим через параметр, подлежащий определению, а через его оценку. Оценки параметров должны удовлетворять следующим условиям:
1) несмещенности — математическое ожидание оценки параметра должно совпадать с самим параметром;
2) эффективности — при данном объеме выборки оценка должна иметь наименьшую дисперсию;
3) состоятельности — предел по вероятности при последовательности таких оценок равен искомому параметру, т.е. вероятность того, что стремится к нулю при .
3°. Оценка называется точечной, если она определяется лишь одним числом, и интервальной, если она определяется двумя числами — концами интервала.
Число называется точностью оценки, если имеет место неравенство — Если это неравенство имеет место с некоторой вероятностью , то число называется надежностью оценки, или уровнем надежности. Наиболее употребительными уровнями надежности являются
Интервал в котором (с заданным уровнем надежности) находится параметр называется доверительным интервалом оценки.
4°. Выборочной средней называется арифметическое среднее СВ X по выборочной совокупности объема n:
Выборочная средняя служит несмещенной оценкой математического ожидания признака X или генеральной совокупности.
5°. Выборочная дисперсия — среднее арифметическое квадратов отклонений наблюденных значений от выборочной средней:
— смещенная дисперсия СВ X, а в качестве несмещенной оценки дисперсии генеральной совокупности X принимают величину
S — несмещенная дисперсия.
6°. Мода выборки — варианта с наибольшей частотой, медиана Me — варианта, делящая ряд на две равные части: если n = 2k + 1, то а если n = 2к, то
7°. Начальные эмпирические моменты Мk (к = 1,2,3,4) и центральные эмпирические моменты определяются формулами:
8°. Варианты , составляющие арифметическую прогрессию, называются равноотстоящими.
Для упрощения вычислений начальных моментов равноотстоящих вариант удобно переходить к так называемым условным, или центрированным вариантам: где с — новое начало отсчета, а — разность (шаг) прогрессии.
Центральные моменты первых четырех порядков равноотстоящей выборки выражаются через начальные моменты условных вариант по формулам:
Асимметрия выборки: эксцесс:
В вычислениях можно указать индексом варианту, для которой вычисляются соответствующие моменты (например, )
9°. Предположим, что признак X генеральной совокупности распределен нормально со средним квадратическим отклонением Имеет место формула доверительной вероятности Тогда с надежностью можно утверждать, что математическое ожидание случайной величины X принадлежит доверительному интегралу
Значение t следует найти в табл. 1 приложения по значению функции
Доверительный интервал с надежностью а для оценки среднего квадратического отклонения сто нормального распределения по несмещенной оценке S определяется из неравенства:
где определяется из табл. 5 приложения, в которой приведены значения функции по доверительной вероятности и объему выборки n.
10°. Если признак X распределен по биномиальному закону с относительной частотой то при больших n доверительным интервалом неизвестной вероятности р с надежностью будет интервал
Задачи с решениями
Задача:
Дан статистический ряд — число дней в году, пропущенных по болезни сотрудниками лаборатории.
Определить среднее число дней на одного человека, пропущенных по болезни, и разброс этого числа около среднего.
Решение:
Определим среднее выборки объема n = 30 (k = 7) по формуле (1):
Дисперсию и среднее квадратическое отклонение вычислим по формуле (2):
Имеем
Округляя до целых, получаем, что среднее число (математическое ожидание) пропусков в году на одного человека составляет 4 дня, разброс 3 дня.
Задача:
Выборка, приведенная в следующей таблице, соответствует времени обслуживания (в минутах) покупателя магазина:
Привести прогноз времени обслуживания магазином и среднее квадратическое отклонение этого времени. Найти моду вариационного ряда.
Решение:
От интервальной таблицы переходим к вариационному ряду, заменяя интервал времени центром этого интервала:
Мода — варианта с максимальной частотой;
Числа вариационного ряда не удобны для вычислений, т.к. они большие, поэтому переходим к условным вариантам с новым центром с = 48 и шагом (разностью) h = 4. Положим
Вычислим выборочное среднее и дисперсию для новой варианты. Для удобства приводим таблицу с промежуточными вычислениями.
При помощи сумм в последней строке таблицы вычислим:
Обратный переход к вариантам х осуществляется по формулам, которые следуют из формул п. 8°:
Получаем:
Прогноз обслуживания: мин, разброс мин.
Задача:
Случайная величина X — число семян сорняков в пробе зерна, распределена по закону Пуассона. В таблице
приведено распределение числа семян сорняков в n = 1000 пробах зерна. В первой строке — количество сорняков в одной пробе, во второй — число проб, содержащих семян сорняков. Найти точечную оценку неизвестного параметра распределения Пуассона.
Решение:
Закон Пуассона имеет вид где m — число испытаний, произведенных в одном опыте, — число наступлений события в i-м опыте. Для закона Пуассона математическое ожидание совпадает с параметром С другой стороны, несмещенной оценкой М(Х) принимается среднее выборки
Вычисляем по формуле п. 4°:
Ответ.
Задача:
Время работы элемента радиоустройства подчиняется закону
В таблице
приведено эмпирическое распределение среднего времени работы
n = 200 элементов: — среднее время работы элемента в часах, — количество элементов, проработавших ч. Найти
Решение:
Как известно, для показательного закона математическое ожидание М(Х) равно Следовательно, точечной оценкой служит Вычислим
Следовательно,
Ответ
Задача:
Дан вариационный ряд признака X:
Найти начальные и центральные моменты первых четырех порядков признака X, а также определить асимметрию и эксцесс.
Решение:
Вычисления проводим по формулам п. 7° для и п. 8° для h = 1.
Задача:
По данным выборочного обследования 7, 3, 0, 7, 2, 1, 2, 4, 5, 3 определить несмещенную выборочную дисперсию и среднее квадратическое отклонение.
Решение:
Составим сначала вариационный ряд:
Вычислим выборочное среднее
Вычислим теперь выборочную дисперсию
Несмещенная оценка дисперсии имеет вид
Несмещенное среднее квадратическое отклонение:
Задача:
Найти с надежностью 0,99 доверительный интервал для оценки неизвестного математического ожидания нормально распределенного признака X генеральной совокупности, если
= 20,5; n = 36 и = 3.
Решение:
Согласно п. 9° доверительным интервалом неизвестного математического ожидания является интервал , где
Определим сначала t из равенства 2Ф(t) = 0,99, т.е Ф(t) = 0,495. Из табл. 1 приложения находим
Далее, Наконец,
Ответ. 19,21 < а < 21,79.
Задача:
Найти доверительный интервал для оценки с надежностью 0,99 неизвестной вероятности р биномиального закона распределения, если в 400 испытаниях событие наступило 140 раз.
Решение:
Согласно п. 10° искомый доверительный интервал имеет вид:
Находим также
Наконец,
Ответ.
Задача:
Из текущей продукции токарного автомата был произведен выбор 250 валов. Результаты измерений отклонения диаметра валов от номинала приведены в таблице:
Требуется:
1) найти оценки математического ожидания, дисперсии и среднего квадратического отклонения случайной величины X — отклонения диаметра вала от номинала;
2) определить доверительные интервалы неизвестного математического ожидания и неизвестного среднего квадратического отклонения случайной величины X. Предполагается, что случайная величина X имеет нормальное распределение. Доверительную вероятность принять равной 0,95.
Решение:
1) Составляем вариационный ряд, принимая в качестве вариант середины соответствующих интервалов:
В третьей строке таблицы записаны произведения а в четвертой — произведения
Последний столбец содержит суммы чисел соответствующих строк. Таким образом,
2) Согласно п.9°
Из равенства Ф(t) =и табл. 1 приложения находим
t = 1,96.
Далее,
3) Доверительный интервал для оценки нормального распределения по несмещенной оценке 5 определяется из неравенства (см. п. 9°):
где определяется из табл. 5 приложения, в которой приведены значения функции по доверительной вероятности и объему выборки n.
Имеем
При и n = 250 в табл. 5 приложения находим
t(0,95; 250) = 0,089.
Следовательно,
Значит,
Построение теоретического закона распределения и его согласование с эмпирическими данными
1°. Предположим, что выборка объема n из генеральной совокупности значений случайной величины X задана в виде вариационного ряда. Требуется определить вид теоретического закона распределения СВ X и установить, насколько этот закон согласуется с данной выборкой.
Вид теоретического закона выбирается интуитивно, исходя из вида эмпирического полигона, а его параметры вычисляются по методике, изложенной ранее, в предыдущих параграфах.
2°. Согласование теоретического закона с эмпирическими данными произведем на основании критерия Пирсона «хи квадрат», который заключается в оценке вероятности величины
где — теоретическая частота варианты
Если вероятность велика (больше 0,5), то расхождения между эмпирическими и теоретическими частотами считаются случайными и полученный закон принимается (не отвергается). Для вероятностей имеются специальные таблицы.
Мы будем пользоваться табл. 3 приложения. В ней приводятся критические значения соответствующие данному уровню значимости а и числу степеней свободы критерия r = k — m — 1, где k — число групп выборки, m — число параметров используемого теоретического закона.
Наиболее употребительными уровнями значимости являются:
Значение в таблице находится на пересечении строки r и столбца .
Если то теоретический закон принимается, а если то закон отвергается.
Проверка гипотезы о нормальном распределении генеральной совокупности
Предположим, что выборка случайной величины X задана в виде вариационного ряда с равноотстоящими вариантами.
Правило. Для того, чтобы при данном уровне значимости проверить гипотезу о нормальном распределении генеральной совокупности, необходимо:
1) вычислить
2) вычислить теоретические частоты где n — объем выборки, — шаг ряда, и,
(значения даны в табл. 2 приложения);
3) вычислить значение
4) в табл. 3 приложения найти значение по уровню значимости а и числу степеней свободы r = k — 3 (k — число групп выборки);
5) сравнить если полученный закон признается верным, а если полученный закон отвергается.
Примечание. Малочисленные интервалы следует объединить, а соответствующие частоты, как эмпирические, так и теоретические — сложить.
Задачи с решениями
Задача:
Построить теоретический закон распределения генеральной совокупности СВ Х, заданной в виде выборки объема
n = 100 вариант при помощи вариационного ряда
Используя критерий Пирсона при уровне значимости установить, согласуется ли полученный закон с данной выборкой. Найти также асимметрию и эксцесс эмпирического распределения и дать им надлежащее толкование.
Решение:
Первую рабочую таблицу (с. 349) используем для вычисления эмпирических начальных и центральных моментов данного вариационного ряда. Для этого переходим к центрированным вариантам (с = 11, h = 3); в качестве центра с новых вариант можно брать моду (Мо) или медиану (Me) исходного вариационного ряда. В данном случае
При помощи таблицы находим последовательно:
При помощи и находим и
Построим эмпирический полигон (рис. 8.4) и, исходя из его внешнего вида, выдвигаем гипотезу: генеральная совокупность распределена по нормальному закону с параметрами
Для проверки этой гипотезы воспользуемся новой рабочей таблицей (с. 350), в которой
— целое число), — функция Лапласа.
Из таблицы находим а при и числе степеней свободы k = 7 — 2 — 1 = 4 ( k7 — число групп выборки, m = 2 — число параметров задачи) из табл. 3 приложения имеем
Следовательно, выдвинутая гипотеза о нормальном распределении генеральной совокупности не отвергается. График теоретической функции плотности изображен на рис. 8.4 пунктиром. Сравнивая теоретический и эмпирический графики, видим, что эмпирический полигон скошен вправо (что соответствует As = 0,13) и «слегка низковершинный» (что согласуется с Еk = — 0,71).
Задача:
Дан вариационный ряд случайной величины X с n = 150 вариантами:
Построить теоретический закон распределения СВ X. Используя критерий Пирсона при уровне значимости установить, согласуется или нет построенный закон с эмпирическими данными.
Решение:
Сначала объединим малочисленные варианты, переходя к новому вариационому ряду с k = 10 различными вариантами и объемом выборки n = 150 Новый вариационный ряд имеет вид:
Построив полигон этого вариационного ряда (рис 8.5), замечаем, что он напоминает график нормального распределения, поэтому можно выдвинуть гипотезу о нормальном распределении данной СВ X. Параметры и закона вычислим при помощи рабочей таблицы. В ней отражены варианты , их частоты, центрированные варианты где с = 5,5 — это варианта с наибольшей частотой (мода), a h = 0,5 есть шаг равноотстоящих вариант
Из таблицы получаем выборочное средние и среднее квадратическое отклонение СВ и
Соответствующие параметры для СВ X находим по формулам перехода
Тем самым теоретический закон имеет вид (принимаем )
выпишем теоретические частоты, отклонения теоретических и эмпирических частот и определим
Положим (принимаем )
В таблице критических точек распределения (табл. 3 приложения) находим при уровне значимости значение (имеем r = 10 — 3 = 7 степеней свободы). Значение
Гипотеза о том, что данное распределение нормально, отвергается при уровне значимости . Вместе с тем гипотеза о нормальном распределении СВ X не отвергается при уровнях значимости
Таким образом, уровень значимости представляет собой уровень точности (близости) полученного закона к стандартному, каноническому.
Анализ экспериментальных данных позволяет найти причину того, что полученный закон не является нормальным в каноническом смысле. Этому мешает частота что приводит к островершинности распределения (предлагаем найти As и Ek и посмотреть, насколько они отличаются от стандартных As = 0 и Ek = 0)
Задача:
Используя критерий Пирсона при уровне значимости 0,05, проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200:
Решение:
Рекомендуем построить самостоятельно эмпирический полигон и сделать предположение о виде теоретического закона.
Непосредственные вычисления параметров нормального распределения дают следующие результаты:
Дальнейшие вычисления поместим в расчетную таблицу. Отметим только, что
(результаты для округляем, ибо — целые числа).
Последнее число 24,045 и есть В табл. 3 приложения находим, что при r = k — 2 — 1 = 9 — 3 = 6.
Гипотеза о нормальном распределении генеральной совокупности признака X отвергается, т.к
Проверка гипотезы о распределении генеральной совокупности по биномиальному закону
1°. Произведены п опытов. Каждый опыт состоит из N независимых испытаний, в каждом из которых вероятность события А равна
р = р(А). Регистрируется число наступлений события А в каждом опыте.
Для случайной величины X — числа появлений события А в одном опыте — получена таблица
Требуется, используя критерий Пирсона, проверить гипотезу о распределении X по биномиальному закону.
2°. Правило. Для того, чтобы при уровне значимости а проверить гипотезу о том, что дискретная случайная величина X распределена по биномиальному закону, необходимо (q = 1 — р):
1) вычислить вероятности по формуле Бернулли
2) вычислить теоретические частоты
3) сравнить эмпирические и теоретические частоты по критерию Пирсона при уровне значимости и степеней свободы
( — число групп выборки), если р = р(А) неизвестна, либо степеней свободы, если р = р(А) известна, т.е. дана в условиях задачи.
Задачи с решениями
Задача:
Произведены n = 100 опытов. Каждый опыт состоит из 10 испытаний. Вероятность появления события А в каждом испытании равна р = 0,3. В результате регистрации опытов получено эмпирическое распределение (— число наступлений А в одном опыте, — число опытов, в которых А произошло раз):
Требуется установить при уровне значимости 0,05, согласуется ли с этими данными гипотеза о том, что СВ X — число появлений А — распределена по биномиальному закону.
Решение:
Построим полигон распределения (рис. 8.6). Применим правило п. 2°.
2) Вычислим теперь теоретические
В табл. 3 приложения по уровню значимости и r = 6 — 2 = = 4 (k = 6 — число групп в выборке) находим
Ответ. Гипотеза верна.
Задача:
Отдел технического контроля проверил n=100 партий по N = 10 изделий в каждой партии, и в результате этого получена таблица распределений случайной величины X — числа нестандартных изделий в одной партии:
Требуется при уровне значимости проверить гипотезу о том, что X распределена по биномиальному закону.
Решение:
Вероятность р = р(А) вычисляем по выборке:
р = 0,4. В табл. 3 приложения находим по и числу степеней свободы r = 8 — 2 = 6: Далее вычисляем теоретические частоты: 0,6; 4,0; 12,2; 25,1; 11,2; 4,4 и получаем
Ответ. Гипотеза верна.
Проверка гипотезы о распределении генеральной совокупности по закону Пуассона
Правило. Для того, чтобы при уровне значимости а проверить гипотезу о том, что СВ X распределена по закону Пуассона, необходимо:
1) вычислить параметр
2) вычислить по закону Пуассона или по таблицам;
3) вычислить теоретические частоты
4) применить критерий Пирсона при данном и числу r = k — 2 степеней свободы, где k — число групп выборки
Задача с решением
Задача:
Отдел технического контроля проверил n = 200 партий одинаковых изделий и получил следующее эмпирическое распределение количества нестандартных изделий:
Требуется при уровне значимости проверить гипотезу о том, что число X нестандартных изделий распределено по закону Пуассона.
Решение:
Построим полигон распределения (рис. 8.7).
Закон Пуассона имеет вид:
Применим правило (см. выше).
1) Имеем
Принимаем
2) Вычислим вероятности
Находим: р(0) = 0,549; р(1) = 0,329; р(2) = 0,098; р(3) = 0,019; р(4) = 0,003.
3) Вычислим (округляя до целого числа) теоретические частоты
4) Вычислим теперь Частоты (ввиду их малости) объединим в одну:
В табл. 3 приложения при и r = 4 — 2 = 2 находим Гипотеза подтверждается.
Проверка гипотезы о распределении генеральной совокупности по показательному закону
Правило. Для того, чтобы при уровне значимости проверить гипотезу о том, что данное интервальное распределение подчиняется показательному закону, необходимо:
1) вычислить и принять в качестве параметра показательного распределения число
2) найти вероятности попадания X в частичные интервалы:
3) вычислить теоретические частоты
4) применить критерий Пирсона при данном и r = k — 2 степеней свободы, где к — число первоначальных интервалов выборки.
Задача с решением
Задача:
Дано интервальное распределение:
Требуется при уровне значимости , применяя критерий Пирсона подтвердить или опровергнуть гипотезу о том, что данное распределение подчиняется показательному закону.
Решение:
1) Эмпирическое выборочное среднее вычислим по центрам интервалов:
Принимаем
Таким образом, плотность показательной функции распределения имеет вид:
2) Вычислим
Получаем:
Аналогично,
3) Вычислим теоретические частоты
4) Применим критерий Пирсона (частоты 4 + 2 + 1 объединим в одну; соответствующая теоретическая частота равна 6,3 + 2,3 + 0,8 = 9,4).
Получаем
После объединения трех интервалов число степеней свободы стало
r = 4 — 2 = 2. Из табл. 3 приложения берем
Ответ. Гипотеза подтверждается.
Линейная корреляция случайных величин
1°. Корреляционная зависимость между случайными величинами (признаками) X и У обычно задается с помощью корреляционной таблицы:
Здесь
— середины интервалов или признаков X и Y, a — соответствующие частоты, — частота, с которой встречается пара
2°. Заданная таблицей корреляционная зависимость между признаками X и У может быть заменена функциональной зависимостью, если каждому значению признака X поставить в соответствие условное среднее признака У, т.е. величину
— среднее значение Y.
Если теперь точки выровнять по методу наименьших квадратов вдоль кривой
то последняя называется линией регрессии У на X, а ее уравнение — уравнением регрессии Y на X. Аналогично определяется линия регрессии X на У.
Наиболее простыми и важными случаями линий регрессии являются прямые линии.
3°. Если обе линии регрессии У на X и X на У — прямые линии, то величины У и X называют линейно коррелированными.
4°. Выборочное уравнение прямой линии регрессии У на X имеет вид:
где — групповое среднее,
— выборочные средние признаков У и X,
— выборочные средние квадратические отклонения,
— выборочный коэффициент корреляции.
5°. Аналогичный вид имеет выборочное уравнение прямой линии регрессии X на Y:
6°. Величину называют остаточной дисперсией случайной величины У относительно случайной величины X; она характеризует величину ошибки, которая возникает при замене У линейной функцией. Аналогично величину
г) называют остаточной дисперсией величины X относительно У. При остаточная дисперсия равна нулю, т.е. при представлении У в виде линейной функции от X не возникает ошибки, а У и X связаны линейной функциональной зависимостью.
7°. При необходимости, для облегчения вычислений, целесообразно переходить к условным (центрированным) вариантам: где — новые начала координат, — шаги вариант величин X и Y.
Величины вычисляются по формулам
Наконец,
Задача с решением
Задача:
Найти выборочное уравнение прямой линии регрессии Y на X по данным, приведенным в корреляционной таблице, вычислить остаточную дисперсию:
Решение:
Берем
Построим корреляционную таблицу для U, V:
Вычисления:
Однофакторный дисперсионный анализ
Задачей дисперсионного анализа является изучение влияния одного или нескольких факториальных признаков на результативный признак.
Например, если измерения некоторой величины производятся на к различных приборах, то можно исследовать влияние фактора «прибор» на результаты измерений, т.е. ответить на вопрос, имеют ли различные приборы одну и ту же систематическую ошибку (проверяется гипотеза о равенстве средних). ‘
Предположим, что на количественный признак X, распределенный нормально, воздействует фактор F, который имеет р уровней На каждом уровне произведено по q испытаний. Результаты испытаний определяются числовой матрицей
номер испытания, j = 1,2, …, р — номер уровня фактора ). Данные заносим в таблицу (с. 365).
Требуется: при условии значимости а проверить гипотезу о равенстве групповых средних при условии, что групповые генеральные дисперсии одинаковы, хотя они и неизвестны.
Эта задача решается по следующей схеме.
1) Вычислить общую среднюю
2) Вычислить сумму квадратов отклонений групповых средних от общей средней
Имеет место формула:
3) Вычислить факторную сумму квадратов отклонений групповых средних от общей средней (рассеяние между группами)
Имеет место формула:
4) Вычислить остаточную сумму квадратов отклонений значений группы от своей групповой средней (рассеяние внутри групп)
5) Вычислить факторную и остаточную дисперсии
и величину
6) Величина распределена по закону Фишера-Снедекора. Поэтому следует сравнить
используя табл. 4 приложения:
если то различие групповых средних незначимое; в этом таком случае можно сказать также, что фактор оказывает незначительное воздействие на результаты испытаний и его не следует учитывать;
если то различие групповых средних значимое; в таком случае фактор оказывает существенное влияние на результаты испытаний и его следует учитывать.
Примечания. 1 Если то гипотеза о равенстве групповых средних справедлива, и критерий Фишера-Снедекора можно не применять.
2.Если — десятичные дроби с m знаками после запятой, то целесообразно перейти к нормированным и центрированным вариантам При этом факторная и остаточная дисперсии увеличатся в раз каждая.
Задачи с решениями
Задача:
Произведено по 4 испытания на каждом из трех уровней фактора F. Методом дисперсионного анализа при уровне значимости 0,05 проверить гипотезу о равенстве групповых средних. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями:
Решение:
Поскольку данные варианты являются дробными числами, то для упрощения вычислений переходим к новым, целым и центрированным вариантам, полагая
(общее среднее арифметическое значений равно 0,29). Новые варианты заносим в расчетную таблицу:
А теперь реализуем схему, описанную выше.
6) В табл.4 приложения находим
Неравенство означает, что гипотезу о равенстве групповых средних данных совокупностей отвергаем.
Задача:
В трех филиалах одного банка были организованы три уровня различных услуг для клиентов. После этого в течение шести месяцев измерялись объемы вкладов X (тыс. руб.). Методом
дисперсионного анализа проверить нулевую гипотезу о существенном влиянии организации услуг на объем вкладов при уровне значимости 0,05. Данные измерений приведены в таблице
(с. 367).
Решение:
Имеем р = 3, q = 6, значения вариант — целые числа.
1) Находим групповые и общие средние:
2) Для расчета составим таблицу квадратов.
Вычислим по второй формуле п. 2) схемы:
3) Вычислим по второй формуле п. 3) схемы:
4) Факторная, остаточная дисперсии и равны:
5) В табл. 4 приложения находим
Неравенство можно трактовать так: нулевая гипотеза о существенном влиянии организации услуг на объем вкладов принимается.
Обработка результатов измерений (анализ данных)
Основные определения:
Научная дисциплина, разрабатывающая и систематизирующая понятия, приемы, математические методы и модели, предназначенные для организации сбора, систематизации и обработки данных с целью их интерпретации и получения выводов, называется анализом данных.
Пусть проводится некоторый опыт (рассматривается некоторое явление). Все возможные результаты опыта образуют так называемую генеральную совокупность. Если в данной серии опытов получено несколько результатов, то эта совокупность данных называется выборкой. Количество объектов в генеральной совокупности или в выборке называется ее объемом. Свойства и характеристики генеральной совокупности обычно не известны. Необходимо, исследуя данные выборки, как можно точнее оценить свойства и характеристики генеральной совокупности. Решение такого рода задач — предмет рассмотрения дисциплины, называемой математической статистикой. Отметим, что она применима только к массовым явлениям, имеющим вероятностную природу.
При составлении выборки используют разные методы отбора. Прежде всего, отбор может быть повторным, при котором выбранный объект возвращается в генеральную совокупность, и бесповторным, при котором объект не возвращается. Кроме того, отбор может проводиться с расчленением генеральной совокупности на части и без такого расчленения,. При раз-
бивании генеральной совокупности на части используют:
■ типический отбор, при котором объекты выбираются из каждой типической части генеральной совокупности; •
■ механический отбор, при котором генеральная совокупность формально делится на столько групп, сколько элементов в выборке и из каждой группы берут один элемент;
■ серийный отбор, при котором объекты выбираются сериями.
Если генеральная совокупность не разбивается на части, то используют простой случайный бесповторный отбор и простой случайный повторный отбор, при которых элементы выбираются из всей совокупности.
При любых способах отбора необходимо, чтобы выборка правильно отражала пропорции генеральной совокупности, т. е. выборка должна быть репрезентативной. Выборка будет репрезентативной, если ее осуществлять случайно. Если объем выборки велик, то разность между повторной и бесповторной выборкой стираются.
Существует множество ситуаций, когда полученные данные, даже если их и много, характеризуют не все, а только некоторые объекты, т. е. нарушено требование репрезентативности. В таких случаях мы не вправе распространять результаты обработки данных на другие (не рассмотренные) объекты. Например, проведено обследование приморских городов страны. Полученные характеристики будут справедливы только для этих городов и не могут быть в полной мере распространены на города, расположенные в глубинных районах. Другой пример: проведено исследование населения городов с числом жителей более миллиона. Полученные данные нельзя использовать для прогнозирования ситуации в населенных пунктах с другой численностью населения. Или, в 12 часов дня проведен опрос населения по домашним телефонам, хотя в это время основная масса трудоспособного населения не находится дома. Данные опроса нельзя распространить на всех жителей города.
Другой пример: рассматриваются произведения поэтов «серебряного века». Цель рассмотрения — выявление групп поэтов,
близких по стилю построения стихов, их размеру, тематической направленности и т.д. Полученные при этом результаты будут справедливы только для рассматриваемой группы поэтов (только для данной выборки). Надо понимать, что данные такого типа имеют другую, не вероятностную природу. Отличительной особенностью таких данных является то, что они уникальны и многократное повторение анализа (опытов) не принесет существенно новой информации. Анализу данных, имеющих не вероятностную природу, посвящены методы кластерного анализа, распознавания образов и т.п. Но, тем не менее, и для анализа данных, имеющих не вероятностную природу, широко применяются методы статистической обработки наблюдений.
Элементы математической статистики
Основной целью применения аппарата математической статистики является определение ряда числовых характеристик случайной величины, например, математического ожидания и дисперсии или ее закона распределения в целом с тем, чтобы иметь возможность при решении прикладных задач применять аппарат теории вероятностей.
Поскольку рассматривается только выборка (а не генеральная совокупность), при решении задач математической статистики всегда присутствует элемент случайности, и результаты получаются лишь с некоторой степенью уверенности.
Существуют три основные задачи математической статистики:
• Определение вида закона распределения исследуемой случайной величины (задача сглаживания экспериментальных зависимостей).
• Определение неизвестных параметров распределения.
• Проверка правдоподобия гипотез.
Первичная обработка данных
Решение любой задачи математической статистики предваряет первичная обработка наблюдений. Пусть в результате проведения в одинаковых условиях независимых опытов получено n значения исследуемой случай-
ной величины X. Расположенные в виде таблицы полученные данные,
где результат i-го опыта, называют простой статистической совокупностью, сами величины называют вариантами. Простая статистическая совокупность — первичная форма записи статистического материала. Если объем данных невелик, то их располагают в порядке возрастания. Последовательность вариант, записанная в возрастающем порядке, называют вариационным рядом. Для каждой варианты определяют частоту число ее появлений в простой совокупности, и относительную частоту (здесь и далее знак * говорит о том, что это статистический аналог соответствующего понятия теории вероятностей).
Если получено большое число данных, а в статистике оперируют, как правило, сотнями и тысячами значений, то их преобразуют в так называемый статистический ряд. Для этого весь диапазон полученных значений случайной величины X разбивают на разряды (подинтервалы). Для удобства обычно вводят разрядов (большее число разрядов сложно анализировать, а при малом их числе происходит излишнее огрубление исследуемых зависимостей). Для каждого разряда подсчитывается число попавших в него значений из совокупности (4.36). Если каждое из этих значений разделить на общее количество имеемых данных n, то получим относительные частоты попадания в соответствующий разряд Полученные таким образом данные образуют таблицу, называемую статистическим рядом
Графическое изображение статистического ряда называется гистограммой, (см. рис. 4.6 а). Данные статистического ряда можно использовать для построения статистической функции распределения
График этой функции, изображенной на рис. 4.6 б, всегда представляет собой характерную ступенчатую функцию. Полученные в результате первичной обработки данные используются для решения задач математической статистики.
Пример:
Изготавливается тираж книги, один из размеров которой должен быть равен 20 см. Выбрано и измерено 100 готовых экземпляров. Результаты измерений сведены в таблицу, где отклонение от заданного размера в мм i-той книги
Построить статистический ряд, гистограмму и статистическую функцию распределения.
Решение:
Из анализа данных таблицы можно сделать вывод о том, что целесообразно разбить интервал наблюденных отклонений на семь разрядов и построить следующий статистический ряд
Гистограмма, построенная на основе этого статистического ряда, представлена на рис. 4.7.
Статистическая функция распределения данной выборки имеет следующий вид:
Определение неизвестных параметров закона распределения
Полученные характеристики являются лишь статистическими аналогами параметров исследуемой случайной величины, и им в большей или меньшей мере присущи черты случайности. Так, гистограмма дает наглядное представление о том, как часто случайная величина в проведенных опытах принимала значения из соответствующего разряда. Очевидно, что при увеличении числа опытов и увеличении числа разрядов, гистограмма для непрерывной случайной величины X будет приближаться к кривой плотности вероятности этой случайной величины. Аналогично, статистическая функция при увеличении числа проведенных опытов и разрядов приближается к универсальному закону — функции распределения.
Задача заключается в подборе математической модели — закона распределения исследуемой случайной величины X. При этом модель должна в некотором смысле слова наилучшим образом описывать свойства этой величины и отражать лишь существенные стороны ее распределения. Сложность задачи заключается в том, чтобы найти сглаживающую кривую только на основании имеющегося экспериментального материала. Формально эта задача является неопределенной, поскольку слова «наилучшим образом» могут пониматься по-разному. На
практике класс сглаживаемых функции получают на основании априорных сведений о характере исследуемой величины X. Так, если речь идет об измерениях, то сглаживающая кривая для гистограммы, как правило, есть кривая нормального закона распределения, если речь идет о времени телефонного разговора, то это кривая экспоненциального закона распределения и т.п. При большом объеме экспериментальных данных и значительном числе разрядов форма гистограммы и статистической функции распределения могут служить основанием для выбора типа сглаживающей функции.
Высказанная гипотеза о виде сглаживающей кривой еще не дает возможности применять количественные методы теории вероятностей. Так, например, если установлено, что X имеет нормальный закон распределения
то для нахождения вероятности попадания в интервал (а,b) необходимо знать математическое ожидание ш и среднеквадра-тическое отклонение случайной величины X. Определение неизвестных параметров — следующая основная задача математической статистики. Решение этой задачи часто осуществляется при помощи метода моментов. Согласно этому методу, неизвестные параметры выбираются таким образом, чтобы числовые характеристики X были равны их статистическим аналогам.
Для математического ожидания статистическим аналогом является среднее арифметическое (среднее выборочное)
где середины соответствующих интервалов, относительные частоты.
Для дисперсии — статистическая дисперсия (выборочная дисперсия)
Отсюда находится, статистическое среднеквадратическое отклонение
Для разобранного ранее примера можно выдвинуть гипотезу о том, что распределение размера книги подчинено нормальному закону. Параметры этого закона при помощи метода моментов можно определить, используя данные ряда распределения:
Теперь можно сказать, что средний размер выпускаемых книг равен приблизительно 20,72 см и разброс размеров в обе стороны (по правилу «три сигма») практически не превысит 0,27 см.
Проверка правдоподобия гипотез
Предположим, что сформулирована гипотеза Н о законе распределения исследуемой случайной величиной X (ее будем называть теоретическим распределением). Требуется проверить, не противоречит ли эта выдвинутая гипотеза имеющимся выборочным данным.
Чтобы иметь основания принять или опровергнуть гипотезу, необходимо выработать некоторый критерий, позволяющий делать корректные выводы. В математической статистике при проверке гипотез выбрать критерий — значит задать некоторое критическое значение вероятности ошибочного отклонения проверяемой гипотезы. Эта вероятность называется уровнем значимости и обозначается Чем весомее для нас потери от ошибочного отклонения гипотезы Н, тем меньше Обычно эта величина имеет одно из стандартных значений: 0,1,0,05 или 0,01. Выбрав, например, мы в среднем десять раз из ста будем отбрасывать верную гипотезу. Если же выбрать то
из ста случаев мы (в среднем) только один раз отбросим верную гипотезу.
Основная идея проверки гипотез заключается в следующем Выбирается уровень значимости и задается некоторая мера расхождения U, характеризующая степень расхождения теоретического и статистического распределений. В предположении, что гипотеза верна, вычисляется вероятность того, что только за счет чисто случайных причин (связанных с ограниченностью числа проведенных опытов) мера расхождения U (критерий согласия) окажется не меньше, чем вычисленная по результатам наблюдений величина этой меры u, т.е. Если эта вероятность не меньше , то говорят, что экспериментальные данные не противоречат выдвинутой гипотезе. По такой схеме проводится проверка практически любых статистических гипотез.
Для проверки гипотезы о законе распределения исследуемой случайной величины применяют различные критерии. Чаще других применяется критерий согласия Пирсона. Здесь в качестве меры рассогласования U выбирается величина (обозначаемая которая вычисляется по формуле
где теоретическая вероятность, т.е. вероятность попадания в i-ый разряд, вычисленная по гипотетическому закону; статистическая (вычисленная по выборке) частота попадания в i-ый разряд.
Вычисленная по такой формуле величина рассогласования (называемая «хи-квадрат») является хорошо изученной случайной величиной, для распределения которой построены таблицы.
Схема применения критерия согласия следующая:
1.По формуле (4.36) вычисляется мера рассогласования .
2.Вычисляется число степеней свободы
где k — число разрядов, на которое разбит диапазон наблюденных значений величины X; s — число параметров теоретического закона распределения, которые определены по выбор-
ке. Например, для гипотезы о нормальном законе: если известно среднее значение х известно, то (надо вычислять статистическую , если ни один параметр закона не известен заранее,
3.По таблице распределения «хи-квадрат» для найденных и r определяется вероятность Р. Если эта вероятность не больше заранее выбранного уровня значимости , то гипотеза отбрасывается как неправдоподобная. Если же то говорят, что гипотеза не противоречит экспериментальным данным.
Для примера проверим гипотезу о том, что размеры книги имеют нормальное распределение. Используя формулы приведенной функции Лапласа для интервалов, выбранных при формировании гистограммы, представленной на рис. 4.7, и найденных ранее найдем теоретические вероятности Затем по формуле (4.3) определим значение величины , которая равна 2,7. Поскольку выбрано 7 разрядов и из выборки найдены оценки математического ожидания и среднеквадратического отклонения Теперь по таблице распределения «хи-квадрат» находим вероятность что существенно больше, чем Следовательно, можно констатировать, что гипотеза о нормальном распределении ошибки размера книги не противоречит экспериментальным данным.
Методы анализа статистических зависимостей
Рассмотренные выше методы позволяют определять статистические характеристики результатов опыта: Однако важным является нахождение и анализ статистических зависимостей между наблюдаемыми результирующими величинами й факторами, их вызывающими.
Основные задачи анализа статистических зависимостей
Наблюдаемая результирующая величина y может зависеть от нескольких характеризующих ее величин (факторов)
На практике можно встретить самые разнообразные формы причинно-следственных связей между результирующей величиной и величинами, ее вызывающими. Рассмотрим наиболее распространенные схемы зависимостей между факторами и результатом у.
Схема А — зависимость между неслучайными параметрами. Здесь связь у с факторами детерминированная, и задача состоит в том, чтобы восстановить по значениям факторов значения результирующих величин, т.е. установить вид функции f:
Схема В — регрессионная зависимость. Зависимость случайного результирующего показателя от неслучайных факторов ( — случайная реализация у)
Данная схема реализуется в том случае, если у связана со случайными обстоятельствами регистрации или с наличием неучтенных случайных факторов. Предполагается, что случайный компонент обладает следующими свойствами
1.Его математическое ожидание равно нулю
2.Его дисперсия конечна
Схема С — корреляционная зависимость. Зависимость случайного результирующего показателя от случайных факторов случайная реализация ):
Существует и целый ряд других зависимостей. Выбор схемы исследуемых зависимостей в первую очередь определяется сущностью решаемой задачи, ее смысловой направленности и глубиной рассмотрения вопроса. Приведем ряд примеров. Классический пример схемы А — установление зависимости между возрастом дерева (у) и числом колец х на срезе его ствола. Сейчас всем, наверное, известно, что в данном случае
Если рассматривается вопрос о числе гласных букв (у) в словах с различным количеством букв являющихся различны-
ми частями речи то эта ситуация, скорее всего, подходит под схему В. Если искать связь между чистотой хлопка и качеством выпускаемой пряжи, целесообразно принять схему С. Таким образом, выбор схемы искомой зависимости определяется поставленной задачей и является прерогативой исследователя.
Методы исследования зависимостей функций вида
которые описывают поведение условных средних результирующего показателя (вычисленного при зафиксированном уровне ) в зависимости от изменения X и называются функциями регрессии (см. главу 4.4).
Можно рассматривать качественные и количественные факторы. Если свойство объекта рассмотрения не выражается числовым показателем, то это качественный показатель. Например: квалификация наблюдателя, социальное положение опрашиваемого, материал, из которого изготовлено изделие — качественные факторы, но температура воздуха, скорость автомобиля, этажность зданий — количественные факторы.
Некоторые факторы в зависимости от точки зрения исследователя можно рассматривать и как качественные, и как количественные. Примером может явиться возраст людей. Если результат наблюдения рассматривается как функция от возраста людей, то возраст выступает как количественный фактор. Однако результаты наблюдения можно рассматривать для различных возрастных групп населения (дети, молодежь, пенсионеры и т.д.). Здесь возраст — качественный фактор.
Анализ статистических зависимостей проводится в рамках тех или иных теорий. Так, если все факторы относятся к качественному виду, то анализ зависимостей проводится в рамках дисперсионного и факторного анализа. Когда все факторы количественные, то приложимы методы регрессионного анализа. В рамках корреляционного анализ’а возможно исследование наборов факторов, относящихся к различным типам.
Сформулируем следующую задачу. По результатам опытов получена определенная информация. Исходя из сути рассмат-
риваемых процессов, выбрана схема зависимости. Необходимо проанализировать полученные данные и получить характеристики причинно-следственной связи. Такой анализ сводится, как минимум, к поиску ответов на следующие вопросы:
1.Действительно ли у зависит от факторов
2.Если у зависит от , то какова степень этой зависимости?
3.Каков вид имеет причинно-следственная зависимость между у и X, в частности, каков между ними вид аппроксимационной зависимости f?
Рассмотрим кратко наиболее простые и распространенные методы анализа статистической зависимости. .
Дисперсионный анализ
Установление зависимости у от качественного фактора х. Будем считать, что результирующая величина у зависит только от одного фактора х. Требуется, исходя из результатов наблюдений, определить наличие (или отсутствие) влияния х на у.
Предположим, что фактор х может принимать ряд значений, называемых уровнями При каждом заданном уровне i проводится группа из опытов и в каждом j-м опыте измеряется значение величины у, обозначаемое Общее количество опытов N. Результаты этих опытов сведены в таблицу следующего вида
Из анализа данных обычно следует, что при одном и том же значении фактора имеются различные значения результата Поскольку значения величин в одной и той же строке получены при одних и тех же уровнях фактора х, то различие
между в одной строке обусловлено чисто случайными обстоятельствами. Но различия в значениях результатов, стоящих в различных строках могут быть обусловлены или той же причиной (тогда у их независимы), или они связаны также и с изменением значения фактора, т.е. имеется зависимость у от х. Предположение о независимости значений результатов от значений уровней фактора называется нулевой гипотезой Если оказывается, что эта гипотеза не противоречит результатам проведенных опытов, то есть основания считать, что у не зависит от х.
Задача о проверке гипотезы может быть решена в рамках так называемого дисперсионного анализа. Сущность дисперсионного анализа состоит в разложении по специальным правилам дисперсии результата наблюдения на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора на результат опыта. Рассмотрим модель однофакторного дисперсионного анализа. Отклонение случайной величины от своего математического ожидания может быть
представлено следующим образом:
где — отклонение, вызываемое фактором х; — отклонение, вызываемое другими неучтенными факторами.
В однофакторном дисперсионном анализе приняты следующие допущения: ошибка распределена по нормальному закону с и для различных уровней факторов она имеет одинаковую дисперсию. Сравнение дисперсий, характеризующих вклад в рассеивание получаемых результатов, позволяет судить о зависимости или независимости у и х. Введем следующие виды дисперсий. Общая дисперсия характеризует рассеивание результатов наблюдений относительно общего математического ожидания
Ее оценка имеет следующий вид:
где — количество данных в i-той строке. Если все равны, т.е. для любого i, то
Групповая дисперсия характеризует рассеивание результатов наблюдений относительно группового математического ожидания (оценка группового математического ожидания есть среднее по результатам серии опытов для фиксированного уровня i):
Оценка этой дисперсии вычисляется по формуле:
Межгрупповая дисперсия характеризует рассеивание, обусловленное исключительно фактором и может быть оценена по формуле:
где количество факторов
Если для всех j,
Внутригрупповая дисперсия характеризует различия в результатах наблюдения, обусловленных влиянием неучтенных факторов, определяется как средневзвешенная по объемам групп
и, если для всех j, а для всех i, то может быть оценена по формуле:
Из сравнения введенных оценок дисперсии следует
Рассмотрим методику проверки существенности влияния фактора х на результаты наблюдения.
1.Выдвигается гипотеза о несущественности фактора х (гипотеза ). Содержательно понятно, если эта гипотеза верна, то математические ожидания в различных группах (при различных значениях фактора, т.е. средние по строкам) должны совпадать
При этом условии оценка межгрупповой дисперсии должна быть значительно меньше, чем оценка внутригрупповой дисперсии. В этой связи величина
может выступать в качестве меры непротиворечивости выдвинутой гипотезы, характеристикой справедливости гипотезы .
2.По формуле (4.42), исходя из полученных результатов опытов, вычисляется экспериментальное значение величины u.
Показано, что такая величина и распределена по закону распределения Фишера со степенями свободы и Распределение Фишера табулировано и его таблицы приведены во многих учебниках. Заметим, что таблицы этого распределения составлены при условии, что числитель в отношениях типа (4.42) больше знаменателя. Если это не так, то за экспериментальное значение показателя рассогласованности выбирается обратная величина
3.По таблицам распределения Фишера находится теоретическая величина показателя uс выбранным уровнем значимости (обычно 0,1, 0,05 или 0,01) и указанными степенями свободы.
4.Гипотеза не противоречит экспериментальным данным, если выполняется условие
Выполнение этого неравенства свидетельствует о том, что влияние фактора несущественно и все наблюдаемые различия обусловлены не изменением значения фактора х, а какими то другими обстоятельствами. Следовательно, можно сказать, что гипотеза не противоречит опытным данным. Невыполнение же условия (4.43) означает, что у скорее всего зависит от х и возможна постановка вопроса о нахождении уровня фактора, в наибольшей мере влияющего на рассматриваемый результат, что требует более подробного анализа.
Анализ существенности влияния (тесноты связи) количественных факторов на результаты наблюдений
Рассмотрим наиболее простой случай: результирующая величина у зависит только от одного фактора х. Требуется, исходя из результатов наблюдений, определить степень тесноты связи х и у. Решение этой задачи осуществляется в рамках корреляционного анализа (см. главу 4.4).
Пусть проведена первичная обработка результатов опытов и получены оценки необходимых математических ожиданий и дисперсий. Существенность влияний х на y может быть определена, если будет указано, какая доля степени изменчивости
интересующего нас результата обусловлена изменчивостью описывающей его функции f от контролируемого нами аргумента х. Количественной мерой этой доли может выступать отношение оценки межгрупповой дисперсии к оценке общей дисперсии
Величина называется корреляционным отношением зависимой переменной у от независимой переменной х и является универсальной характеристикой тесноты их связи. Из (4.45) следует, что Если то налицо однозначная функциональная (жесткая) связь между х и у, т.е. корреляционная зависимость отсутствует. Наоборот, при приходится констатировать, что усредненные по группе значения результирующего признака (оценки групповых математических ожиданий) не зависят от х и наблюдаемая зависимость — следствие других неконтролируемых факторов. Промежуточные значения и есть количественная мера тесноты исследуемой связи.
В частном случае, когда связь между у и х является линейной, для оценивания степени зависимости используется оценка коэффициента корреляции , которая находится следующим образом. Пусть в результате n опытов получены следующие значения, представленные таблицей
Оценка коэффициента корреляции определяется с помощью соотношения
Оценка определена на основе выборки результатов наблюдения, поэтому является величиной случайной. Следовательно, неравенство полученной оценки нулю еще не означает, что между х и у есть линейная зависимость, т.к. это может быть следствием чисто случайных обстоятельств, вызванных недостаточно большим числом опытов. В этой связи необходима проверка значимости оценки.
Решение этой задачи проводится по следующей методике.
1.Вычисляется мера согласованности гипотезы об отсутствии линейной зависимости у от х с наблюденными значениями
2.По таблицам распределения Стьюдента с степенями свободы (такое распределение имеет величина u) при выбранном уровне значимости находится теоретически «допустимая» с уровнем а мера согласованности u. (Таблицы распределения Стьюдента имеются практически в любом учебнике по математической статистике.)
3.Если окажется, что то гипотеза об отсутствии линейной связи между у и х не противоречит опытным данным и на практике обычно принимается. В противном случае полученную оценку можно считать значимой, и между х и у скорее всего существует линейная связь.
Определение причинно-следственной зависимости между результатом и влияющими на него факторами
Пусть рассматривается некоторая случайная результирующая переменная (случайные реализации у), зависящая от неслучайных факторов Значения величины случайным образом распределяются около неизвестного уровня . При этом отклонения значений от представляют собой значения некоторой случайной ошибки т.е.
Случайный характер величины требует выбора подходящей характеристики. Такой характеристикой обычно выступает ее условное среднее, которое ввиду того, что имеет вид
Зависимость (4.47) называется регрессионной, что определило название методов определения причинно-следственных зависимостей: регрессионный анализ.
Для установления причинно-следственной связи f необходимо:
1.Выбрать класс функций, в рамках которого целесообразно искать общий вид функции
2.Подобрать подходящие параметры определяющие конкретный вид функции f.
Первая из этих задач не решается формальными методами. Обычно класс функций определяется на основе знаний о предметной области и в каждом конкретном случае вид функции f конструируется индивидуально. Следует подчеркнуть, что неверный выбор класса функций приводит обычно к ошибкам, которые невозможно устранить подбором коэффициентов в (4.48).
В рамках регрессионного анализа для подбора неизвестных параметров обычно используется метод наименьших квадратов (МНК). Суть этого метода заключается в подборе параметров функции (4.48), обеспечивающих минимум суммы квадратов отклонений наблюденных значений т.е. решении задачи:
Выбор в (4.49) функционала именно такого вида в большинстве случаев практики имеет серьезное теоретико-вероятностное обоснование (реализуется принцип максимального правдоподобия), чем и обусловлена распространенность МНК. Покажем схему реализации МНК на примере функции одной пере-
менной Пусть имеется таблица опытных данных и выбран вид функции Задача состоит в выборе параметров так, чтобы выполнить условие типа (4.49). С точки зрения математики это стандартная задача на безусловный экстремум (см. следующий раздел). Функция, стоящая в левой части (4.49), может иметь минимум лишь в точках, в которых выполняются условия равенства нулю всех ее производных от варьируемых переменных (в данном случае ):
Система уравнений (4.50) состоит из k уравнений. Решив эту систему относительно неизвестных , в соответствии с (4.48) определим искомую функцию связи f.
Пример:
Результирующая величина у измерена при помощи четырех разнотипных приборов, причем каждым прибором было осуществлено по пять измерений. Результаты измерений сведены в таблицу
Требуется определить, существенно ли зависят измерения от типа прибора, если приборы имеют одинаковую погрешность измерения.
Решение:
Тип прибора относится к качественным факторам, поэтому решение этой задачи целесообразно вести в рамках дисперсионного анализа с числом уровней 4.
Для решения задачи дисперсионного анализа необходимо по данным таблицы определить оценки межгрупповой и внутригрупповой дисперсией. В соответствии с формулами (4.40а) и (4.41а)
Показатель согласованности, согласно (4.42), следующий
Поскольку то перейдем к обратному показателю согласованности Число степеней свободы: Принимая уровень значимости по таблицам распределения Фишера, находим теоретический уровень рассогласованности
Поскольку то гипотеза о несущественности типа прибора может быть принята.
Пример:
Произведенные 20 измерений системы двух случайных величин х и у сведены в таблицу
Требуется определить тесноту связи между x и у.
Решение:
Вначале определим корреляционное отношение между измеряемыми величинами. Используя формулу (4.45), найдем
Следовательно, между х и у существует достаточно сильная статистическая связь.
Рассмотрим вопрос о степени линейной зависимости между х и y. Для этого вычислим величину u, связанную с оценкой коэффициента корреляции и распределенную по закону Стьюдента:
Для доверительной вероятности 0,95 и 18 степеней свободы по таблице распределения Стьюдента находим Поскольку
мы не можем принять гипотезу о линейной связи х с у. Однако близость значений показателей согласованности позволяет в итоге сделать следующий вывод: между х и у, скорее всего, стохастическая нелинейная связь.
Пример:
Проведены измерения величины растворяемой в данном объеме воды некоторой соли при различных температурах.
Определить зависимость объема растворяемой соли как функцию температуры.
Решение:
Если нанести полученные значения на плоскость, то можно увидеть, что искомую зависимость можно считать линейной, т.е. Найдем неизвестные параметры а и b методом наименьших квадратов.
Система уравнений в данном случае имеет вид
Решение этой системы дает такие результаты:
Следовательно, искомая зависимость имеет следующий вид
Математическая статистика и ее формулы и теоремы
Статистика как раздел науки об управлении государством, сборе,
классификации и обсуждении сведений о состоянии общества и
государства зародилась в XVII в. Однако статистический учет
существовал еще в глубокой древности. Так, за аять тысяч лет до нашей эры проводились переписи населения в Китае, велся учет имущества граждан в Древнем Риме и т.д.
В современном понимании статистика — это регистрация, описание и
анализ экспериментальных данных, получаемых в результате наблюдения массовых случайных явлений.
В настоящее время статистические методы используются не
только для описания состояния общества и государства, но также в
технике, физике и т.д.
Наука, занимающаяся общими вопросами, связанными с собиранием и классификацией числовых данных и сведений, называется
математической статистикой.
Важнейшей задачей статистики является определение закона
распределения случайной величины (системы случайных величин)
по статистическим данным. Закономерности, наблюдаемые в
массовых случайных явлениях, проявляются тем точнее, чем больше
объем статистической информации. На практике, как правило, мы
имеем ограниченное количество экспериментальных данных,
поэтому при определении закона распределения возникает
необходимость расчета уровня доверия к нему. Отсюда следует задача проверки правдоподобия гипотез, предполагающая выявление в статистических закономерностях элементов случайности. В частности, может быть проверена гипотеза о том, что данная случайная величина подчиняется заданному закону распределения.
При обработке статистических данных часто возникает задача
определения параметров закона распределения, а не самого закона.
Генеральная совокупность и выборка
Генеральной совокупностью называются все возможные наблюдения интересующего нас показателя, все исходы испытания или вся совокупность реализаций случайной величины X .
В генеральной совокупности обычно интересуются признаком,
имеющем качественный или количественный характер. Примером
генеральной совокупности может быть все население страны. Такая
совокупность иногда изучается путем переписи населения. В этой
совокупности нас могут интересовать, например, доходы жителей —
количественный признак совокупности. Другим примером
генеральной совокупности являются все изготовленные на данном
станке детали. Эти детали могут быть бракованными и годными.
Данный признак деталей является качественным.
Выборкой называется выбор части объектов из генеральной совокупности, причем выбор отдельных объектов происходит независимо один от другого.
Примером выборки объема и может являться независимый
выбор из всех изготовленных на данном станке деталей в количестве
n штук. Результатом выборки объема n является совокупность значений признака.
Обычно под целью математической статистики понимают
определение закона распределения или его характеристик по выборке.
Гистограмма. Статистическая функция распределения
Предположим, что изучается некоторая величина X. Пусть закон
распределения X нам неизвестен. Требуется определить данный
закон опытным путем. С этой целью над случайной величиной X
производится ряд независимых наблюдений. В результате получим
выборку из генеральной совокупности с признаком X.
При большом числе наблюдений простая выборка становится
слишком громоздкой и неудобной для анализа. Для придания ей
большей наглядности строится статистический ряд. Для этого
разделим весь диапазон полученных в результате опыта значений на интервалы и подсчитаем количество значений приходящихся на каждый j-й. интервал. Найдем частоту попадания случайной величины в j-й интервал по формуле
Эта величина называется также статистикой. Вообще говоря,
статистика — это любое число, вычисленное по выборке.
Занесем полученные данные в табл. 12.1, в которой интервалы
расположены в порядке их возрастания вдоль оси абсцисс.
Таблица 12.1
Здесь — интервал вдоль оси абсцисс под номером j; k —
число интервалов; — границы интервалов под номерами j
и j +1; k +1 — число границ.
Статистический ряд, представленный в табл. 12.1, называется
интервальным. Если частота задана для дискретной случайной
величины, то ряд называется дискретным.
Очевидно, что
Пример:
Произведено 500 измерений диаметра детали,
изготовленной на данном станке. После предварительной обработки этой выборки отклонения диаметра от номинала (в микрометрах) сведены в табл. 12.2 (две первые строки). Определить частоты попадания ошибки в заданные интервалы.
Решение:
Результаты расчета по формуле (12.1) представлены в
последней строке табл. 12.2. ►
Таблица 12.2
Если экспериментальные значения случайной величины X
находятся в точности на границе двух интервалов, то чисто условно
можно рекомендовать одну половину этих значений прибавить к
предыдущему интервалу, а другую — к последующему. Можно
также граничные значения целиком отнести как к предыдущему, так и к последующему интервалу.
Статистический ряд можно представить в виде графика,
называемого гистограммой. При этом по оси абсцисс откладываются
интервалы и на каждом из них строится прямоугольник, площадь
которого равна частоте данного интервала. При увеличении числа
опытов можно выбирать все более и более мелкие интервалы. При
этом гистограмма приближается к некоторой кривой, являющейся
плотностью распределения величины X.
Пример:
Построить гистограмму для данных примера 12.1.
Решение:
Гистограмма представлена на рис. 12.1. ►
По статистическому ряду можно приближенно построить
статистическую (выборочную) функцию распределения случайной
величины X. Соотношения для расчета выборочной функции
распределения по статистическому ряду удобно представить в виде:
Пример:
Для условий примера 12.1 построить таблицу и
график статистической функции распределения.
Решение:
Статистическая функция распределения,
рассчитанная по формулам (12.2), представлена в табл. 12.3. График данной функции показан на рис. 12.2. ►
Таблица 12.3
При увеличении числа опытов и уменьшении интервала
статистическая функция распределения приближается к функции
распределения генеральной совокупности.
Числовые характеристики выборочного распределения
Каждой числовой характеристике случайной величины X
соответствует ее выборочная аналогия. Для математического ожидания случайной величины X в качестве аналогии используют среднее арифметическое полученных в результате опыта значений, вычисляемое по формуле
где — значение случайной величины, зарегистрированное в i-м
опыте; n — число опытов.
При неограниченном увеличении числа опытов среднее
арифметическое сходится к математическому ожиданию.
Значение от выборки к выборке будет изменяться. Поэтому
также является случайной величиной. Ее математическое
ожидание равно математическому ожиданию случайной величины X:
Оценка любой характеристики случайной величины X, проведенная по выборке, называется несмещенной, если ее математическое ожидание равно оцениваемому параметру.
Из определения несмещенной оценки и соотношения (12.4)
следует, что выборочное среднее является несмещенной оценкой
для генерального среднего Если существует, то имеет асимптотически нормальное распределение с дисперсией
при
Выборочные дисперсии рассчитываются по одной из следующих
формул:
Величину s называют выборочным стандартным отклонением. Величины и являются случайными и имеют математические ожидания
Поскольку есть несмещенная оценка для генеральной дисперсии то она применяется чаще, чем .
Если выборка задана в виде статистического ряда, то формулы (12.3), (12.5), (12.6) удобно представить в виде:
где среднее значение случайной величины X в j-м интервале; — частота попадания случайной величины в j-й интервал; k — число интервалов.
Для дискретного статистического ряда значения и k относятся к соответствующему значению случайной величины, полученному в результате опыта.
Иногда используются и другие моменты выборки.
Пример:
Для условий примера 12.1 определить выборочные среднюю и дисперсию.
Решение:
В табл. 12.2 для частот попадания ошибки в заданные интервалы вместо интервалов введем среднее значение случайной величины X j-м интервале. Результаты представим в табл. 12.4.
Таблица 12.4
Для расчета выборочных среднего и дисперсии используем формулы (12.3′) и (12.6′):
Основные статистические распределения
Статистические распределения, с одной стороны, играют роль
эталона при определении закона распределения случайной
величины, а с другой, используются для оценки правдоподобия
выдвигаемых гипотез. Среди известных распределений в статистике
используются закон равномерной плотности, закон Пуассона, нормальный закон распределения. Большое значение в статистике играют также распределение и t-распределение Стьюдента.
распределение. Пусть — выборка из генеральной
совокупности случайной величины X. Рассмотрим статистику
где — дисперсия случайной величины X; а — ее математическое
ожидание.
Распределение случайной величины называется -распределением с v = n степенями свободы.
Плотность распределения случайной величины X при х>0
определяется соотношением
Это распределение достигает максимума при имеет
математическое ожидание и дисперсию
Графики распределения представлены на рис. 12.3.
t-распределение Стьюдента. Пусть X — случайная нормально распределенная величина с параметрами а и Имеем выборку наблюдений данной случайной величины. В качестве оценок математического ожидания а и дисперсии принимаем
Величина
называется отношением Стьюдента.
Выборочное распределение данной величины называется t-распределением Стьюдента с v = n-1 степенями свободы.
Функция плотности распределения отношения Стьюдента определяется соотношением
Математическое ожидание t-распределения а дисперсия при v > 2 . Функция плотности распределения отношения Стьюдента симметрична относительно оси ординат. Она качественно напоминает функцию плотности нормального распределения (рис. 12.4), но отличается более «массивными» хвостами. Этот эффект сильнее выражен для меньших значений v, а для значений v, превышающих 40, данное распределение близко к нормальному.
Доверительные интервалы и доверительные пределы
Доверительным интервалом параметра распределения случайной величины X с уровнем доверия р , порожденным выборкой называется интервал с границами и которые являются реализациями случайных величин и таких, что Граничные точки доверительного интервала называются доверительными пределами.
Доверительный интервал для математического ожидания нормального распределения
Вначале рассмотрим доверительный интервал для математического ожидания нормального распределения при известном значении дисперсии.
Пусть — реализация случайной величины X, распределенной нормально и имеющей параметры а и Дисперсия известна. По выборке нужно определить математическое ожидание а. В качестве математического ожидания обычно принимают среднее арифметическое
Среднее арифметическое , являющееся реализацией случайной
величины X, также является случайной величиной,
распределенной по нормальному закону с параметрами а и
Отсюда можно построить доверительный интервал для заданного
уровня доверительной вероятности F, в котором находится
математическое ожидание а . Данный интервал определяется выражением
где t — коэффициент доверия, от которого зависит доверительная вероятность F.
Некоторые значения доверительной вероятности для нормального закона распределения, соответствующие тому или иному уровню доверия, приведены в табл. 12.5.
Таблица 12.5
Пример:
Для изучения размера крестьянских хозяйств проведена выборка, в результате которой получены следующие данные: обследовано 100 участков, =10 га. Определить доверительный интервал, в котором с вероятностью 0,9545 находится среднее значение земельных участков при дисперсии = 16 .
Решение:
Для требуемой доверительной вероятности из таблиц находим t = 2. Тогда Отсюда доверительный интервал, в котором с заданной вероятностью находится среднее значение земельных участков:
Если дисперсия неизвестна и выборка невелика (n < 40), то доверительный интервал вычисляют с помощью t-распределения Стьюдента по формуле
где — коэффициент доверия, от которого зависит доверительная
вероятность. При расчете используются таблицы. Необходимо помнить, что в различных источниках таблицы представлены в разной форме.
Интеграл вероятности для t-распределения Стьюдента имеет вид
где — функция плотности распределения вероятности Стьюдента с v степенями свободы. Графически значение интеграла вероятности представлено на рис. 12.5.
В рассматриваемом случае табулируются значения для
различных значений и v. Графически доверительный интервал
можно представить так, как показано на рис. 12.6.
Заштрихованная на рис. 12.6 площадь является доверительной
вероятностью F.
Таким образом, расчет производится по следующему алгоритму:
1.Находят и S по формулам
2.Задаются доверительной вероятностью F.
3.Рассчитывают по формуле
4.При известном количестве степеней свободы v = n -1 по
таблицам находят .
5.Определяют доверительные пределы по формуле
Иногда таблицы t-распределения Стьюдента представлены в
виде критических точек. В этих таблицах для различных значений
уровня значимости
и разных значений степеней свободы v = n -1 приведены данные
для . В этом случае расчет проводится по следующей методике:
1.Находят и S.
2.Задаются уровнем значимости .
3.Рассчитывают F по формуле
F = —.
4.По заданному уровню значимости а и известному
количеству степеней свободы v = n -1 по таблицам находят .
5.Определяют доверительные пределы по формуле (12.11).
Пример:
Для условий примеров 12.1 и 12.4 определить
доверительный интервал математического ожидания для доверительных вероятностей и
Решение:
В примере 12.4 были определены = 0,168 и S = 1,448 .
Уровни значимости для поставленных условий:
Значения коэффициентов доверия находим из таблиц (см., например, [9], с. 626):
и
По полученным данным определяем доверительные пределы и
интервалы:
1.При
2.
Доверительный интервал для дисперсии нормального распределения
Пусть — выборка из нормальной генеральной
совокупности с математическим ожиданием а и дисперсией . Тогда при статистика является случайной величиной, распределенной по закону с v = n -1 степенями свободы. Доверительная вероятность этого распределения определяется соотношением (рис. 11.7)
На рис. 12.7 доверительная вероятность равна заштрихованной
площади. Значения b и с определяются по таблицам из условия
симметричного вероятностного интервала:
Тогда с вероятностью F имеем
Это равносильно неравенствам
Для среднего квадратического отклонения
Расчет производится по следующему алгоритму:
1.Находят и S по формулам
2.Задаются доверительной вероятностью F.
3.По таблицам при известных
находят b и с.
4.Определяют доверительный интервал для дисперсии и
среднего квадратического отклонения по формулам (12.12) и (12.13).
Пример:
Произведено 101 измерение диаметра детали,
изготовленной на данном станке. После обработки установлено, что среднее арифметическое этой выборки =0,168, а выборочное квадратическое отклонение = 1,448. Определить доверительный интервал среднего квадратичного отклонения для доверительной вероятности F = 0,99 .
Решение:
Количество степеней свободы для рассматриваемого
случая v = n -1 = 100. Находим по формулам
Используя таблицу распределения (см., например, [11, с. 440])
находим для v = 100 величины с = 140,169 и b = 67,3276.
Подставляя полученные значения в (12.13), найдем доверительный
интервал среднего квадратического отклонения:
Определение закона распределения случайной величины
Обычно закон распределения случайной величины неизвестен и имеется ограниченное число наблюдений (выборка). При его определении задаются некоторым известным законом распределения и затем проверяют эту гипотезу на значимость.
Простейшим методом проверки гипотезы о законе распределения является визуальный. Он заключается в построении гистограммы по выборке и анализу ее внешнего вида, однако данный метод неточен. Наиболее полная и точная проверка соответствия выбранного распределения реальному производится с помощью критерия Карла Пирсона.
Статистика Карла Пирсона имеет вид
где n — количество полученных в результате наблюдения значений
случайной величины X (объем выборки);
k — число интервалов;
— теоретическая вероятность попадания случайной величины в
j-й интервал;
— ожидаемое (теоретическое) количество попаданий случайной
величины в j-й интервал;
— количество попаданий случайной величины в j-й интервал в
результате опыта.
Теоретическая вероятность попаданий случайной величины в
j -й интервал для исследуемой плотности распределения f(x)
рассчитывается по формуле
Разделив числитель и знаменатель статистики Карла Пирсона
(12.14) на n и учитывая (12.1), получим
Рассчитывать значение можно как по формуле (12.14), так и по формуле (12.15).
Выборочное распределение является (приблизительно) -распределением с числом степеней свободы
v = k-b-1,
где k — число интервалов;
b — число параметров вероятностной модели, которые должны быть оценены по тем же данным.
Отклонение от проверяемой модели всегда будет приводить к увеличению значения
Значимость выбранного закона распределения определяется сравнением рассчитанного и табличного (теоретического) значений с v степенями свободы. Уровень значимости а определяется выражением
Геометрический смысл теоретического значения поясняется на рис. 12.8, на котором по оси абсцисс отложены значения . Индекс v свидетельствует о том, что на рис. 12.8 приведен график плотности распределения для функции с v степенями свободы. Отмеченная на оси абсцисс точка означает, что площадь под кривой плотности распределения на интервале
равна уровню значимости
Таким образом, если при том же числе степеней
свободы и заданном уровне значимости , то вероятность
соответствия закона распределения исследуемой случайной величины выбранному закону распределения будет больше или равно .
Если ожидаемые частоты слишком малы для использования
-распределения, то их надо объединить в один более крупный
интервал. Значений частот не должно быть меньше 5—10. При
объединении необходимо учитывать и то, что число интервалов не должно быть слишком малым.
Пример:
Для условий примеров 12.1 и 12.4 определить
значимость соответствия закона распределения исследуемой случайной величины нормальному.
Решение:
Используя результаты решения примера 12.4,
запишем функцию плотности распределения исследуемой случайной
величины в виде
Результаты обработки выборки табл. 12.2 (пример 12.1) представлены в первых трех строках табл. 12.6 Здесь же представлены результаты
остальных расчетов.
Таблица 12.6
Теоретические значения вероятности попадания случайной
величины в j-й интервал для заданной плотности распределения
рассчитывается по формуле
Интеграл вероятности
находим по таблицам. Его значения записаны в третьей и четвертой строках табл. 12.6. Теоретические значения вероятности попадания случайной величины в j-й интервал представлены в пятой строке данной таблицы. Расчет статистики Карла Пирсона проведем по формуле (12.14), слагаемые которой представлены в последней строке:
Уровень значимости определяется по формуле
при количестве степеней свободы v = k —b —1 = 8 — 2 —1 = 5. Уровни
значимости в зависимости от заданного значения находим по таблицам (см., например, [9], с. 74). Имеем = 3 при = 0,7,
=4,35 при = 0,5.
Принимаем зависимость от на интервале от 0,5 до 0,7
линейной (рис. 12.9).
Из подобия прямоугольных треугольников находим:
Отсюда определяем уровень значимости:
Таким образом, гипотеза о том, что случайная величина
распределена по нормальному закону с вероятностью 0,61 принимается. ►
Исследование случайных зависимостей
Любой закон природы или общественное явление могут быть
выражены в виде описания взаимосвязей, существующих между
показателями данного закона или явления. Статистика изучает
связи между показателями, часть из которых являются случайными.
Функционирование изучаемого объекта можно описать набором
переменных. Эти переменные подразделяют на:
■ независимые (экзогенные, предикаторные, объясняющие),
которые не обязательно являются случайными величинами;
■ зависимые (эндогенные, результирующие, объясняемые), которые обязательно являются случайными величинами.
Задача измерения связи между переменными решается на
эмпирическом материале, представляющем собой выборку объема n из (k+ 1)-мерной совокупности наблюдений или матрицы размером
(k + 1)хn (табл. 12.7).
Таблица 12.7
Если количество независимых переменных больше двух, то
исследуемая модель называется многофакторной. В табл. 12.7
представлена k-факторная модель.
Корреляционно-регрессионный анализ
В обычном смысле термин «регрессия» понимается как
«обратное движение, возврат к исходной точке или месту». Этот термин был введен в статистику в XIX в. в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека. При этом
обнаружили, что сыновья высоких отцов хотя и имеют больший рост по сравнению с сыновьями низких отцов, но разброс в росте сыновей
был меньше, чем разброс в росте отцов. Таким образом, была
замечена тенденция возврата сыновей к среднему росту, т.е. регресс.
Большинство исследуемых явлений зависит от действия
множества факторов. Обычно отбирают те факторы, которые наиболее существенно влияют на явление. В перечне отобранных факторов не исключено наличие таких, которые слабо влияют на изучаемый показатель. Их отсев осуществляется в ходе построения
многофакторной модели путем многошагового регрессионного анализа. Вначале строят уравнение регрессии по максимально возможному количеству факторов. Затем с помощью определенных критериев (например t-критерия Стьюдента) исключают те факторы, которые оказывают статистически несущественное влияние. Такой отсев по одному фактору на каждом шаге проводится до тех пор, пока в уравнении регрессии с точки зрения выбранного критерия не
останется незначимых факторов.
Важнейшим этапом построения многофакторной регрессионной
модели является выбор формы связи (функции регрессии). Форму
связи можно определить путем перебора функций разных типов,
что сопряжено со значительным количеством лишних расчетов.
Обычно для этих целей используются наиболее известные функции.
Широкое применение получила линейная функция. Это связано,
во-первых, с ее простотой. Во-вторых, путем замены переменных
или логарифмирования многие используемые для этих целей
функции можно свести к линейным.
Если форма связи случайной величины у (см. табл. 12.7)
является линейной, то функция регрессии имеет вид
После выбора формы связи определяют коэффициенты
функции регрессии так, чтобы она (с точки зрения заданного критерия) лежала ближе всех других к исследуемым точкам.
Функция регрессии зависимой случайной величины у и
случайная переменная этой величины будут связаны
соотношением
Случайная переменная называется возмущением. Ее значение
изменяется для каждого наблюдения
Для однофакторной модели линейная функция регрессии
приобретает вид
Проверка предпосылок регрессионного анализа
В регрессионном анализе делаются следующие основные
предположения:
1.Возмущающая переменная является случайной величиной.
В силу этого также является случайной величиной с
распределением того же вида, что и .
2.Случайная величина имеет математическое ожидание,
равное нулю. Значения случайных переменных
независимы между собой.
3.Случайная величина имеет нормальное распределение с
постоянной дисперсией , не зависящей от
При нарушении нормальности возмущения при оценке по
методу наименьших квадратов остатки остаются наилучшими и
сохраняют свойство несмещенности и состоятельности, но становятся неустойчивыми (малоэффективными). Существуют методы получения устойчивых (робастных) оценок.
Постоянство дисперсии называется гомоскедастичностью (или
условием однородности).
Если это условие не выполняется, то эти наблюдения
неоднородны (гетероскедастичны). Это может возникнуть, например, при исключении из модели переменной, коррелированной с любой из оставшихся переменных, влияние которой приписывается
случайному возмущению . В этом случае можно исключить эффекты гетероскедастичности простой заменой переменных.
4.Наблюдения должны быть независимыми при изменении
j от 1 до к .
5.На значения параметров не накладывается никаких
ограничений, т.е. предварительно об их значениях ничего не известно.
6.Матрица значений независимых переменных не содержит
линейно связанных столбцов.
7.Число наблюдений n должно превышать число параметров k.
Выполнение рассмотренных предпосылок обеспечивает
возможность проведения классического регрессионного анализа.
Однако часто эти предпосылки не полностью удовлетворяются. Для
устранения этого недостатка разработаны различные методы
обработки. Например, робастные (устойчивые) методы допускают
нарушение предпосылок, но требуют, чтобы эти нарушения
находились в определенных пределах.
Оценка качества регрессионной модели
Построенная регрессионная модель нуждается в проверке ее
соответствия реальным статистическим данным. В качестве
показателя степени согласованности расчетных значений и фактических значений переменной у является коэффициент детерминации. При оценке качества функции регрессии проверяется также значимость коэффициентов уравнения, степень тесноты взаимосвязи исследуемых случайных величин, качество подбора формы кривой.
Для расчета коэффициента детерминации и проведения
дисперсионного анализа потребуются приведенные ниже статистики. Эти статистики могут быть использованы также при проведении многофакторного анализа.
1.Общая девиация, являющаяся суммой квадратов отклонений
признака от средней арифметической,
2.Общая выборочная дисперсия
3.Девиация регрессии, равная сумме квадратов отклонения
функции регрессии от средней арифметической,
4.Выборочная дисперсия функции регрессии
где m = k +1 — число коэффициентов в исследуемой функции
регрессии (см. табл. 12.7).
5.Остаточная девиация, равная сумме квадратов отклонений
зависимой переменной от функции регрессии,
6.Выборочная остаточная дисперсия
Сумма числа степеней свободы остаточной дисперсии и
дисперсии регрессии равна числу степеней свободы общей дисперсии:
(n-m) + (m-1) = n-1.
Справедливо также соотношение
Действительно, подставив сюда (12.24) и (12.23), получим
(12.20)
Чем больше второе слагаемое и меньше первое, тем меньше
разброс у относительно среднего, т.е. тем больше коэффициент
детерминации, вычисляемый по формуле
Так как (см. (12.26)), то можно записать
Чем больше тем лучше выбранная функция аппроксимирует фактические данные. При этом вид функции регрессии определен тем лучше, чем меньше величина . Мерой неопределенности регрессии служит величина
Отсюда следует, что
Корень квадратный из коэффициента детерминации называется выборочным коэффициентом корреляции .
Величина коэффициента корреляции используется как характеристика качества полученной модели любой формы связи (не обязательно линейной).
Значимость рассчитанного коэффициента корреляции проверяется при помощи F-критерия Фишера. Рассчитывают
Значения и при этом определяются по формулам (12.23) и (12.25). Если то коэффициент корреляции признается значимым с доверительной вероятностью F = 1 —, где — уровень значимости.
Качество подбора функции регрессии можно оценить путем сравнения остаточной и общей дисперсий. Если то говорят, что модель некорректна, или страдает неадекватностью. Если то регрессионная модель адекватна фактическим данным.
Значимость коэффициентов регрессии модели может быть проверена по t-критерию Стьюдента:
где
a — стандартное отклонение для коэффициента . Значение выбирается из таблицы t-критерия Стьюдента для доверительной вероятности F = 1 — и числа степеней свободы n — m. При выполнении неравенства (12.29) коэффициент считается значимым с вероятностью F. Здесь — уровень значимости.
Доверительным интервалом коэффициента называют интервал с границами
где — коэффициент доверия распределения Стьюдента с v = n-m степенями свободы.
В указанном интервале с наперед заданной вероятностью F = 1 — заключено истинное значение исследуемого коэффициента
Для линейной однофакторной модели
Остаточную дисперсию для линейной однофакторной модели находят из (12.24) при m = 2:
Проверка адекватности регрессионной модели может быть дополнена корреляционным анализом. Теснота взаимосвязи линейной однофакторной модели проверяется при помощи коэффициента корреляции
Используя обозначения
получим
Коэффициент корреляции лежит в пределах
При значении коэффициента корреляции, близком к 1 или — 1, связь сильная, при значении, близком к нулю, — слабая. Отрицательное значение коэффициента корреляции указывает на обратную связь, положительное — на прямую.
Квадрат линейного коэффициента корреляции называется линейным коэффициентом детерминации .
Факт совпадения и говорит о наличии линейной
связи. При разности между и менее 0,1 гипотезу о линейной связи можно принять. Если данные величины не совпадают, то связь между ними не является линейной.
Чем больше , тем лучше функция регрессии аппроксимирует
фактические данные.
Значимость коэффициента корреляции с доверительной
вероятностью определяется с помощью t-критерия Стьюдента по формуле
где Количество степеней свободы v = n — 2 .
Качество подбора формы кривой оценивается по критерию Дарбина—Уотсона. Для этого проводится анализ остатков (12.18)
Если модель функции регрессии адекватна форме подобранной
кривой, то соседние значения остатков независимы друг от друга. Эта
независимость проверяется с помощью критерия Дарбина—Уотсона
По таблице Дарбина—Уотсона для заданной доверительной
вероятности определяют критические границы,
позволяющие вынести суждение о наличии автокорреляции (рис. 12.10). Задавшись уровнем значимости и зная количество комбинаций n, находят из таблицы значения
При и автокорреляция имеет место. Если обнаружена существенная автокорреляция остатков, то следует пересмотреть форму выбранной кривой.
Однофакторный корреляционно-регрессионный анализ
Корреляционно-регрессионный анализ целесообразно начинать
с изучения однофакторной модели. Исходными данными для
построения модели является выборка n наблюдений зависимой переменной и соответствующей ей независимой переменной , где i — номер наблюдения, изменяющийся от 1 до n. Полученную
выборку можно представить в виде
где — детерминированная функция независимой переменной х
(функция регрессии);
— возмущение, определяемое действием случайных факторов.
Так как каждое значение является случайной величиной, то
значение в точке является математическим ожиданием
данной случайной величины.
Построить корреляционно-регрессионную модель явления — значит найти функцию регрессии и характеристики случайных отклонений от нее, позволяющие определить доверительный интервал, в границах которого с заданной доверительной вероятностью должна находиться исследуемая величина.
Модель явления строится по следующему алгоритму:
1.На основе качественного и количественного анализа
исходных данных выбирают вид функции регрессии, наилучшим образом описывающий данное явление.
2.Для выбранной функции подбирают параметры по какому-
либо критерию оптимизации.
3.Оценивают качество подобранной кривой по совокупности
критериев и делают вывод о ценности данной модели для
практического использования.
Явление может быть описано некоторой функцией или
комбинацией функций. На практике используются линейная функция, парабола, многочлен, гипербола, экспонента и др. Наиболее часто для этих целей используется линейная функция по причинам, описанным в § 12.11.
Для вычисления параметров уравнения регрессии будем использовать метод наименьших квадратов. При этом минимизируется cумма квадратов остатков
Рассмотрим метод наименьших квадратов на примере линейной
функции регрессии
В этом случае сумма квадратов остатков приобретает вид
Найдем частные производные по коэффициентам и
Приравняв эти производные нулю и сгруппировав слагаемые,
получим систему из двух уравнений для искомых коэффициентов:
Решение этой системы имеет вид
где
Используя полученную регрессионную модель, можно
прогнозировать появление зависимой случайной величины. Так как
процесс подвержен случайным воздействиям, то прогноз может быть
сделан лишь в виде доверительного интервала. Средним значением
прогноза является линия регрессии. Пусть нас интересует прогноз в
точке (рис. 12.11). Тогда границы доверительного интервала для
прогнозируемой точки будут определяться по формуле
где — коэффициент доверия распределения Стьюдента для
доверительной вероятности и числа степеней свободы v=n-2 .
Общая дисперсия фактического значения у в точке
вычисляется по формуле
Доверительный интервал расширяется при удалении координаты х от ее среднего значения и при увеличении доверительной вероятности
Пример:
Дана выборка производительности труда у рабочего в зависимости от стажа его работы х (два первых столбца табл. 12.8). Данные ранжированы по стажу.
Рассчитать линию регрессии, определить ее адекватность и значимость, сделать прогноз производительности труда для рабочих со стажем 5,5 и 12 лет.
Решение:
Для уточнения формы связи между рассматриваемыми признаками используем графический метод. Значения, полученные в результате выборки, нанесены в виде точек в прямоугольной системе координат на рис. 12.12.
Таблица 12.8
Анализируя ломаную линию, можно предположить, что возрастание производительности труда идет равномерно, пропорционально стажу работы. Видимо, в основе этой зависимости лежит прямолинейная связь
Из табл. 12.8 следует, что
По формулам (12.20) находим
Таким образом, функция регрессии имеет вид
Для определения адекватности и значимости модели необходимо рассчитать ряд статистик. Результаты расчета сведены в табл. 12.9.
Таблица 12.9
Проверим точность построения модели производительности труда с помощью дисперсионного анализа:
Коэффициент детерминации
Отсюда заключаем, что 92,5% производительности труда обусловлено стажем работы.
Мера неопределенности
т.е. только 7,5% общей вариации производительности труда нельзя объяснить стажем работы.
Выборочный коэффициент корреляции Это свидетельствует о том, что связь между изучаемыми признаками весьма тесная.
Рассмотрим существенность связи по критерию Фишера:
При уровне значимости и числах степеней свободы и в таблице распределения Фишера находим Так как то коэффициент корреляции с вероятностью признается значимым.
Оценим качество подбора функции регрессии с помощью сравнения общей и остаточной дисперсий. Так как то регрессионная модель адекватна фактическим данным.
Значимость коэффициентов регрессии проверим по t-критерию Стьюдента:
По таблице распределения Стьюдента для находим при
числе степеней свободы n —2 = 8
Так как в обоих случаях то и признаются
значимыми.
Доверительные интервалы коэффициентов и определяем по
формуле
Предварительно находим
Отсюда
Найдем коэффициент корреляции по формуле (12.33). Для этого определим
Результат практически совпал с вычисленным ранее
коэффициентом корреляции Это подтверждает факт наличия прямолинейной связи.
Проверим значимость линейного коэффициента корреляции на
основе t-критерия Стьюдента:
Табличное значение Для числа степеней свободы n — 2 = 8
Так как , то коэффициент корреляции значим, и связь
между производительностью труда и стажем работы существует с
вероятностью
По критерию Дарбина—Уотсона оценим качество подбора формы
кривой. Для этих целей найдем по формуле (12.35)
Ближайшие табличные значения критических границ в таблице
Дарбина—Уотсона для заданной доверительной вероятности
определены для n = 15 (см., например, [12], с. 78). Эти критические границы, позволяющие вынести суждение о наличии автокорреляции, отмечены на рис. 12.13. Учитывая, что медленно изменяется при уменьшении n, будем считать, что наличие автокорреляционных остатков не подтверждается.
Таким образом, построенная регрессионная модель в виде функции
связи
определена в целом, и выводы, полученные по результатам, хотя и
малой выборки, можно с достаточной вероятностью распространить на всю гипотетическую генеральную совокупность.
Средняя величина прогноза выработки рабочего со стажем 5,5 лет
составляет
а со стажем 12 лет —
Доверительный интервал выборки этих рабочих определяется
границами, рассчитанными по формуле
где
Для доверительной вероятности F = 0,99 имеем Так
как то
Отсюда следует
Таким образом,
Для доверительной вероятности F = 0,95 имеем Отсюда
Тогда
Многофакторный корреляционно-регрессионный анализ
Функция регрессии
В рассматриваемом случае зависимая переменная является случайной функцией нескольких независимых переменных где j — номер переменной, изменяющейся от 1 до k. В каждом отдельном наблюдении i получают совокупность значений независимой переменной и соответствующие им значения зависимой переменной . Все наблюдения могут быть представлены в таблиц це (см., например, табл. 12.7). В общем виде функция регрессии может быть представлена в виде
На практике часто сталкиваются с моделью линейной регрессий (12.17)
Для каждого наблюдения i можно записать
где возмущающая переменная является случайной величиной.
Для линейной модели наблюдение i можно представить в виде
Отсюда
Для расчета параметров уравнения (12.17) применим метод наименьших квадратов. При этом минимизируется сумма
Для этого находят частные производные по каждому коэффициенту , приравнивают их нулю и решают k +1 уравнений относительно k+1 коэффициентов. Частные производные по коэффициентам имеют вид
Приравнивая данные производные нулю и проводя суммирование, получим искомую систему уравнений. Первое уравнение системы при дифференцировании по т.е. при j = 0, имеет вид
При j = 1, 2, 3, …, k запишем уравнения системы в общем виде:
Перепишем эту систему уравнений в более привычном виде:
Подобную систему линейных уравнений можно решить,
например, методом Крамера или с помощью теории матриц.
Для математической модели линейной регрессии представим:
■ неизвестные параметры а — матрицей-вектором размера mх1 в
виде где j = 0,1, 2,…, k, при условии m = 1 + k:
■ независимые переменные — матрицей размера nхm в виде
■ зависимые переменные — матрицей-вектором размера nх1 в виде где i = 0,1, 2,…, n:
Тогда систему линейных уравнений (12.39) в матричной форме
можно представить в виде
где — транспонированная матрица матрицы X.
Чтобы показать соответствие формулы (12.40) системе (12.39),
найдем вначале произведение матриц
Затем найдем
Отсюда следует, что при перемножении трех матриц получаем матрицу-столбец левых частей уравнений системы (12.39).
При перемножении двух матриц
получаем матрицу-столбец правых частей уравнений системы
(12.39).
Таким образом, система уравнений (12.39) соответствует
формуле (12.40).
Решение (12.40) можно записать в виде
Это выражение позволяет произвести расчет всех
коэффициентов линейного уравнения множественной регрессии.
Пример:
Оценить взаимосвязь зависимой переменной у
и двух независимых переменных и на основе выборки,
приведенной в первых четырех столбцах табл. 12.10.
Таблица 12.10
Решение:
Матрицы X и Y имеют вид
Произведение двух матриц
Элементы матрицы произведения находятся по формуле
Отсюда следует, что
Произведение двух матриц
так как
Обратной матрицей по отношению к матрице
называется матрица
где — алгебраическое дополнение элемента в определителе матрицы транспонированной к матрице
Определитель матрицы
Обратная матрица равна
В результате находим
Таким образом, уравнение регрессии имеет вид
Значения рассчитанные по этой формуле для приведенных в
выборке и представлены в пятом столбце табл. 12.10,
соответствующие возмущения — в шестом столбце табл. 12.10. ►
Коэффициент множественной корреляции
Как указывалось ранее, взаимосвязь зависимой переменной у с
рядом независимых переменных х измеряется с помощью
коэффициента множественной корреляции
Чем теснее экспериментальные данные прилегают к функции регрессии, тем больше эта величина.
Пример:
Для данных примера 12.10 определить коэффициент множественной корреляции.
Решение:
Данные для расчета коэффициента множественной корреляции приведены в табл. 12.11.
Таблица 12.11
Необходимые данные для расчета коэффициента множественной корреляции представлены в третьем и четвертом столбцах табл. 12.11:
Такое значение коэффициента множественной корреляции
свидетельствует о том, что связь между изучаемыми признаками весьма тесная. ►
Значимость коэффициента множественной корреляции
Существенность связи, или значимость рассчитанного
коэффициента множественной корреляции , проверяется при помощи F-критерия Фишера. Рассчитывают
Значения выборочной дисперсии функции регрессии и
выборочной остаточной дисперсии определяются по формулам (12.23) и (12.25). Если то коэффициент корреляции признается значимым с доверительной вероятностью F = 1 — , где — уровень значимости. находят в таблице распределения Фишера при заданных уровне значимости , числе степеней свободы остаточной дисперсии и дисперсии регрессии
Пример:
Для данных примера 12.10 определить значимость
коэффициента множественной корреляции, рассчитанного в примере 12.11.
Решение:
Данные для определения значимости коэффициента
множественной корреляции приведены в табл. 12.11. Найдем дисперсии:
Находим
При коэффициенте значимости = 0,05, т.е. для доверительной
вероятности F -1 — = 0,95, и при степенях свободы и по таблице распределения Фишера находим
Так как то связь существенна. ►
Матрица ковариаций
Рассмотрим k-факторную модель, в которой зависимая
переменная X определяется k независимыми переменными , где
j = 1, 2,…, k. Наблюдению над объектом под номером i присвоены
некоторые скалярные численные значения В
качестве объектов могут выступать, например, люди, а в качестве
факторов — их вес, рост, возраст и т.д. Зависимую переменную X
и наблюдения над объектом под номером i можно представить как
матрицы-столбцы
Выборка объемом n из k-мерной совокупности содержит n
наблюдений (матриц-столбцов) по одному на каждый объект в
выборке:
Эти наблюдения удобно представить в виде выборочной матрицы
Среднее значение j-й компоненты, например среднее значение роста опрошенных людей, определяется по формуле
Среднее всей выборки можно представить в виде матрицы-
столбца
Подставив в (12.45) формулу (12.44), получим
Учитывая (12.42), это соотношение можно записать в виде
Таким образом, матрица-столбец среднего всей выборки равна сумме матриц-столбцов наблюдений, деленной на количество наблюдений.
Введем матрицу А с элементами
где j,s = 1,2,…,k.
По определению Эту матрицу можно записать в виде
Она является симметричной матрицей размера kхk. Ее можно
представить также через матрицу S. Действительно,
(В этой и других формулах в транспонированных матрицах
номер столбца обозначен буквой s.)
Сопоставляя две последние формулы с (12.47) и с (12.48),
можно записать
Это соотношение часто записывают в виде
Действительно, используя (12.42) и (12.45), найдем
Тогда (12.50) приобретает вид
После проведения суммирования матриц получим
Сопоставляя это с (12.47) и (12.48), видим, что соотношение
(12.50) действительно имеет место.
Выборочные дисперсии и ковариации находятся по формулам
Таким образом, выборочная ковариационная (дисперсионно-
ковариационная) матрица является симметричной матрицей
размера kхk, определяемой как
Иногда формулу (12.51) записывают в виде
где М — оператор математического ожидания, х — матрица-столбец.
Значимость коэффициентов регрессии
Значимость коэффициентов регрессии определяется при
помощи t-критерия Стьюдента (12.30):
где — стандартное отклонение для коэффициента .
Дисперсиями параметров являются элементы главной
диагонали матрицы ковариации для матрицы а. В соответствии с
(12.52) имеем
Выше показано, что матрица а определяется соотношением
(12.41). При использовании для X и Y обозначений п. 12.15.1
формула для зависимой случайной величины (12.18) приобретает
следующий матричный вид:
где
Найдем произведение двух матриц:
Сложив две матрицы, найдем
Отсюда следует справедливость соотношения (12.54).
Подставив в (12.41) соотношение (12.54), найдем
Отсюда
Учитывая следующие свойства матриц:
найдем
Тогда перепишем (12.53) в виде
Отсюда найдем
Раскроем
Эта матрица является диагональной, так как все ее элементы, не лежащие на главной диагонали, равны нулю в силу того, что остатки не коррелированы между собой
Все остатки имеют одинаковую дисперсию, которую заменим на выборочную дисперсию (12.25):
С учетом сказанного можно записать:
Подставив это в (12.56), найдем
Из соотношения (12.57) следует, что дисперсия коэффициентов
регрессии определяется по формуле
где — диагональные элементы матрицы
Пример:
Для данных примера 12.10 определить значимость
коэффициентов регрессии.
Решение:
Уравнение регрессии, остаточная дисперсия и
обратная матрица определены в примере 12.10:
Отсюда находим
Значимость коэффициентов регрессии найдем при помощи t-критерия Стьюдента (12.30):
Для числа степеней свободы 10 — 3 = 7 и вероятности находим Поскольку то коэффициент принимается значимым с вероятностью 0,99. Для
коэффициента имеем при Поэтому принимается значимым с вероятностью 0,85. Для имеем при
Таким образом, коэффициент принимается несущественным. ►
Обычно, если проверка параметров приводит к тому, что один
или несколько из них оказываются несущественными, то они
исключаются из регрессии. Оценивание параметров повторяется уже для нового набора независимых переменных.
Оценка степени линейной независимости факторов друг от друга
В хорошей модели зависимость факторов друг от друга не
должна быть существенной. Для проверки степени линейной
зависимости факторов друг от друга рассчитывают попарно
коэффициенты корреляции
где
Эти коэффициенты можно представить в виде таблицы (матрицы)
В идеальном случае все парные коэффициенты корреляции при должны быть равны нулю. На практике они отличны от нуля.
Их значимость проверяется с помощью t-критерия Стьюдента
где m = k +1. Если то коэффициент корреляции признается значимым.
Пример:
Для данных примера 12.10 определить степень линейной зависимости факторов друг от друга и значимость полученного коэффициента корреляции.
Решение:
Для определения коэффициента корреляции между первым и вторым фактором проведены расчеты, результаты которых сведены в табл. 12.12.
Подставив данные из табл. 12.12 в формулу (12.59), найдем:
Значение этого коэффициента велико, поэтому связь между факторами сильная.
По формуле (12.60) находим
Таблица 12.12
Для числа степеней свободы 10—3=7 и вероятности
находим Поскольку то значение коэффициента корреляции, равное 0,965, принимается с вероятностью 0,99.
Так как связь между факторами очень сильная, то структура
уравнения регрессии должна быть пересмотрена. В данном случае должен быть исключен фактор ►
Оценка степени линейной взаимосвязи между зависимой переменной и каждым из факторов
Зависимость у с каждым из факторов в модели регрессии
должна быть существенной. Эта зависимость проверяется при
помощи коэффициента корреляции
где
Значимость коэффициентов корреляции может быть проверена
с помощью t-критерия Стьюдента:
где m = k +1. Если то коэффициент корреляции признается значимым.
Пример:
Для данных примера 12.10 определить степень
линейной зависимости зависимой переменной от каждого из факторов и значимость полученных коэффициентов корреляции.
Для данных примера 12.10 определить степень
линейной зависимости зависимой переменной от каждого из факторов и значимость полученных коэффициентов корреляции.
Решение:
Для определения коэффициентов корреляции между
первым и вторым факторами воспользуемся данными табл. 12.11, 12.12. Подставив эти данные в формулу (12.61), найдем
Значение этих коэффициентов велико, поэтому связь между
зависимой переменной и факторами сильная.
По формуле (12.62) находим
Для числа степеней свободы 10 — 3 = 7 и вероятности имеем Поскольку то значения коэффициентов корреляции принимаются с вероятностью 0,99. ►
Автокорреляция остатков
Отсутствие автокорреляции соседних значений остатков оценивается с помощью критерия Дарбина—Уотсона
По таблице Дарбина—Уотсона для заданной доверительной вероятности определяют критические границы, позволяющие вынести суждение о наличии автокорреляции (рис. 12.14). Задавшись уровнем значимости и зная количество комбинаций n, находят из таблицы значения и
При автокорреляция остатков отсутствует. При и автокорреляция имеет место. Если обнаружена существенная автокорреляция остатков, то следует пересмотреть форму функции регрессии.
Пример:
Для данных примера 12.10 провести исследование автокорреляции остатков.
Решение:
Воспользовавшись данными табл. 12.10 и 12.11, по формуле (12.63) найдем
Ближайшее табличное значение d определено при n = 15 и k = 2 Поэтому прямое сопоставление с табличными данными невозможно. Однако, учитывая, что расчетное значение оказалось близким к 2, можно полагать, что наличие автокорреляции остатков не подтверждается. ►
Доверительные интервалы регрессии и ошибка прогноза
Пусть прогнозируемое значение у определяется по уравнению регрессии с полученными выше параметрами
Пусть
— матрица-столбец заданных значений независимых переменных, подстановкой которой в определяется прогнозируемое значение у . Для определения доверительного интервала найдем дисперсию у в точке
Используя теорему о дисперсии суммы зависимых величин, получим
где — ковариация случайных параметров и
В матричной записи выражение для дисперсии выглядит
следующим образом:
где — матрица ковариаций параметров а уравнения регрессии (см. (12.57)). Тогда
Границы доверительного интервала для прогнозируемой точки
будут определяться по формуле
Вероятность попадания прогнозируемого значения в
доверительный интервал зависит от коэффициента доверия . Значения и доверительная вероятность определяются по таблицам Стьюдента для степеней свободы n-m, где m = 1 + k .
Пример:
Для данных примера 12.10 найти доверительные
границы в точке и при доверительной вероятности F = 0,95, т.е. при
Решение:
В примере 12.10 нашли
Подставив сюда и , найдем прогнозируемое значение у:
Значения обратной матрицы определено в примере 12.13:
Произведение матриц под корнем в (12.64) равно:
Умножение матриц является ассоциативной операцией, т.е.
Таким образом,
Отсюда следует, что границы доверительного интервала для
прогнозируемой точки согласно (12.64):
Значение остаточной дисперсии получено в примере 12.12:
= 1,1954.
Тогда
Вероятность попадания прогнозируемого значения в доверительный
интервал зависит от коэффициента доверия . Значение при
доверительной вероятности F = 0,95 для степеней свободы n-m = 7
находим по таблице Стьюдента: = 2,364 .
Таким образом,
Введение в математическую статистику
Цель: Освоить понятие статистическая гипотеза. По знакомиться с методами статистической проверки гипотез.
В задачу математической статистики входит изучение массовых явлений в природе, обществе и технике и их научное обоснование. Везде, где приходится иметь дело с обработкой
экспериментальных результатов, необходимыми и незаменимыми вспомогательными средствами являются методы математической статистики.
Зарождение математической статистики было связано со сбором данных и графическим представлением полученных результатов измерений. Так возникли первые сводки рождаемости, бракосочетаний и смертности в демографической статистике.
В 20-е годы нашего столетия, главным образом в США и Англии, были разработаны математико-статистические методы научной обработки результатов измерений, основанные на закономерностях теории вероятностей (К. Пирсон, Р.А. Фишер, Дж. Нейман, А. Вальд).
Генеральная совокупность (популяция) W – полный набор объектов, с которыми связана данная проблема. Эти объекты могут быть людьми, животными, изделиями и так далее. С каждым объектом связана величина (или величины), называемая исследуемым признаком
Основной целью статистического анализа является выяснение некоторых свойств рассматриваемой генеральной совокупности. Если генеральная совокупность конечна, то наилучшая процедура – рассмотрение каждого ее элемента. Однако в большинстве задач используются либо бесконечные генеральные совокупности, либо конечные, но трудно обозримые. В этой ситуации необходимо отобрать из генеральной совокупности подмножество из n элементов, называемое выборкой объема n, исследовать его свойства, а затем обобщить эти результаты на всю генеральную совокупность. Это обобщение называется статистическим выводом.
Способы получения различных выборок и оценка их представительности будут рассмотрены в лабораторном практикуме.
Различные значения признака, наблюдающиеся у членов генеральной совокупности (или выборки), называются вариантами, а
числа, показывающие сколько раз встречается каждый вариант, частотами.
В данном определении предполагается дискретное изменения признака. Однако, если измерять непрерывную величину, то точность измерения и количество измерений в единицу времени
тоже дадут некий дискретный набор.
Мы предполагаем, что измеряемый или исследуемый признак изменяется некоторым случайным образом. Произведя серию измерений, получим набор данных, которые, скорее всего,
будут случайной выборкой из генеральной совокупности. Чтобы
провести первичную обработку этой выборки, необходимо построить экспериментальное распределение данных по частотам
или (если данные имеют явно непрерывный характер) по интервалам частот.
Выборочные функции
Для любой случайной величины Х существует (теоретическая) функция распределения F(x), или по-другому “Генеральная совокупность имеет теоретическое распределение F(x)”.
Вероятностный закон генеральной совокупности на практике почти всегда неизвестен. Единственным источником информации о нем служит взятая из этой совокупности выборка объема n, элементы которой являются реализациями Х; по ней рассчитывается эмпирическое распределение и статистические параметры (еще говорят – статистики числовых характеристик): среднее арифметическое, дисперсия, моменты высших порядков и др.
Эмпирическое распределение выборки рассматривается в
качестве оценки теоретической функции распределения F(x) генеральной совокупности.
Пусть дана выборка значений случайной величины из неизвестного совместного распределения
F(x). Тогда любое утверждение, касающееся природы F(x), называется статистической гипотезой. Гипотезы различают по виду предположений, содержащихся в них:
Статистическая гипотеза, однозначно определяющая распределение F(x), то есть где какой-то конкретный закон, называется простой.
Статистическая гипотеза, утверждающая принадлежность
распределения F(x) к некоторому семейству распределений, то
есть вида , где F – семейство распределений, называется сложной.
Например, для экспоненциального распределения гипотеза
– простая, – сложная, состоящая из
бесконечного числа простых гипотез вида λ = с, где с – любое число, большее 3.
На практике обычно требуется проверить какую-то конкретную и как правило простую гипотезу . Такую гипотезу принято называть нулевой. При этом параллельно рассматривается противоречащая ей гипотеза , называемая конкурирующей или альтернативной.
Различают две группы математико-статистических методов:
- статистическая проверка гипотез (статистические тесты);
- статистическая оценка параметров распределения.
Статистическая проверка гипотез предполагает выдвижение
определенных допущений (гипотез) относительно неизвестных
параметров F(x). Правильность этих гипотез проверяется затем по числовым значениям, полученным из выборки, и, в зависимости от результата проверки, гипотезы принимаются или отвергаются.
Примеры непараметрических гипотез
где F0(x) может быть функцией нормального распределения с определенными установленными параметрами и то есть Закон распределения выборочной совокупности является нормальным
закон распределения выборочной совокупности не является нормальным.
связь между ущербом в случае аварии и размером страхуемой машины отсутствует;
связь между ущербом в случае аварии и размером машины существует.
Статистическая оценка параметров распределения предусматривает получение оценок (для отдельных значений или интервалов) неизвестных параметров вероятностного закона генеральной совокупности по параметрам выборки.
При статистической оценке параметров распределения и проверке гипотез используются числовые характеристики, рассчитанные по n наблюдениям выборки.
Пример параметрической гипотезы
Пусть дана независимая выборка из нормального распределения, где – неизвестный параметр. Тогда , где – фиксированная константа, является простой параметрической гипотезой, а конкурирующая с ней — сложная параметрическая гипотеза.
Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами, поэтому гипотезу называют статистической. Для проверки гипотезы используют критерии, позволяющие принять или опровергнуть гипотезу.
Статистической гипотезой называется любое предположение о
виде неизвестного распределения или о параметрах известного
распределения.
Статистическая проверка гипотез
Под статистической гипотезой понимают всякое высказывание о генеральной совокупности (случайной величине), проверяемое по выборке (по результатам наблюдений).
Располагая выборочными данными и руководствуясь конкретными условиями рассматриваемой задачи, формулируют гипотезу Но, которую называют основной или нулевой, и гипотезу конкурирующую с гипотезой
Термин «конкурирующая» означает, что являются противоположными следующие два события:
Гипотезу называют также альтернативной. Например, если нулевая гипотеза такова: математическое ожидание равно 5, то альтернативная гипотеза может быть следующей: математическое ожидание меньше 5, что записывается следующим образом:
Основная гипотеза:
Конкурирующая гипотеза:
Статистическая проверка гипотез применяется для того, чтобы использовать полученную по выборке информацию для суждения о законе распределения генеральной совокупности. При этом имеется определенное представление о неизвестном вероятностном законе F(x) и его параметрах, которое формулируется в виде статистической гипотезы, обозначаемой символом Н или (нулевая, или основная, гипотеза).
Целесообразным оказался следующий способ записи: это означает допущение (“гипотезу”) о том, что
есть функция распределения генеральной совокупности. Например, может быть функцией нормального распределения с определенными установленными параметрами то есть
С помощью статистических методов или критериев для проверки гипотезы устанавливается, соответствуют ли взятые из выборки данные выдвинутой гипотезе или нет, то есть нужно ли принять или отвергнуть гипотезу.
Если вид функции распределения F(x) задан отдельными параметрами и, если гипотеза строится именно по этим неизвестным параметрам, то говорят о параметрических гипотезах.
Например, допущение о неизвестном параметре нормального
распределения является такой параметрической гипотезой.
– математическое ожидание случайной величины или “средняя
арифметическая величина” по выборке.
В противоположность этому статистические гипотезы общего порядка называются непараметрическими, а методы их проверки – непараметрическими тестами. Они, естественно, являются более общими, чем параметрические гипотезы и методы их проверки, так как не требуют дополнительных предположений о виде функции F(x). С другой стороны, они менее эффективны, чем соответствующие критерии параметрических гипотез.
Этапы проверки статистических гипотез
1. Формулировка основной гипотезы и конкурирующей гипотезы . Гипотезы должны быть чётко формализованы в математических терминах.
2. Задание вероятности , называемой уровнем значимости и
отвечающей ошибкам первого рода, на котором в дальнейшем и
будет сделан вывод о правдивости гипотезы.
3. Расчёт статистики критерия такой, что:
- её величина зависит от исходной выборки
- по её значению можно делать выводы об истинности
гипотезы ; - сама статистика должна подчиняться какому-то известному закону распределения, т.к. сама является случайной в силу случайности .
4. Построение критической области. Из области значений
выделяется подмножество таких значений, по которым можно
судить о существенных расхождениях с предположением. Его
размер выбирается таким образом, чтобы выполнялось равенство . Это множество и называется критической областью.
5. Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику и по попаданию (или непопаданию) в критическую область выносится решение об отвержении (или принятии) выдвинутой гипотезы
Параметрические критерии
В группу параметрических критериев методов математической статистики входят методы для вычисления описательных статистик, построения графиков на нормальность распределения, проверка гипотез о принадлежности двух выборок одной совокупности. Эти методы основываются на предположении о том, что распределение выборок подчиняется нормальному (гауссовому) закону распределения. Среди параметрических критериев статистики нами будут рассмотрены критерий Стьюдента и Фишера.
Критерий Стьюдента (t-критерий)
Критерий позволяет найти вероятность того, что оба средних
значения в выборке относятся к одной и той же совокупности.
Данный критерий наиболее часто используется для проверки
гипотезы: «Средние двух выборок относятся к одной и той же
совокупности».
При использовании критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно.
Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными.
Случай независимых выборок
Статистика критерия для случая несвязанных, независимых
выборок равна:
где – средние арифметические в экспериментальной и
контрольной группах; – стандартная ошибка разности
средних арифметических, которая находится из формулы:
где и соответственно величины первой и второй выборки.
Если то стандартная ошибка разности средних арифметических будет считаться по формуле:
где n величина выборки.
Подсчет числа степеней свободы осуществляется по формуле:
При численном равенстве выборок k = 2n – 2.
Далее необходимо сравнить полученное значение с теоретическим значением t–распределения Стьюдента (см. приложение к учебникам статистики). Если то гипотеза принимается, в противном случае нулевая гипотеза отвергается и принимается альтернативная гипотеза. Рассмотрим пример использования t-критерия Стьюдента для несвязных и неравных по численности выборок.
Пример:
В двух группах учащихся – экспериментальной и
контрольной – получены следующие результаты по учебному
предмету (см. табл. 13).
Общее количество членов выборки:
Расчет средних арифметических:
Стандартное отклонение:
По формуле (2) рассчитываем стандартную ошибку разности арифметических средних:
Считаем статистику критерия:
Сравниваем полученное в эксперименте значение t с табличным значением с учетом степеней свободы, равных по формуле (4) числу испытуемых минус два.
Табличное значение равняется 2,1 при допущении
возможности риска сделать ошибочное суждение в пяти случаях
из ста (уровень значимости или 0,05).
Если полученное в эксперименте эмпирическое значение t превышает табличное, то есть основания принять альтернативную гипотезу о том, что учащиеся экспериментальной группы показывают в среднем более высокий уровень знаний. В
эксперименте t=3,981, табличное t=2,10, 3,981>2,10, откуда следует вывод о преимуществе экспериментального обучения.
Здесь могут возникнуть такие вопросы:
- Что если полученное в опыте значение t окажется меньше
табличного? Тогда надо принять нулевую гипотезу. - Доказано ли преимущество экспериментального метода?
Не столько доказано, сколько показано, потому что с самого начала допускается риск ошибиться в пяти случаях из ста (р=0,05). Наш эксперимент мог быть одним из этих пяти случаев. Но 95% возможных случаев говорит в пользу альтернативной гипотезы, а это достаточно убедительный аргумент в статистическом доказательстве. - Что если в контрольной группе результаты окажутся выше, чем в экспериментальной? Поменяем, например, местами,
сделав средней арифметической экспериментальной группы а — контрольной:
Отсюда следует вывод, что новый метод пока не проявил себя с хорошей стороны по разным, возможно, причинам. Поскольку абсолютное значение 3,9811>2,1, принимается вторая альтернативная гипотеза о преимуществе традиционного
метода.
Случай связанных выборок
В случае связанных выборок с равным числом измерений в каждой можно использовать более простую формулу t-критерия Стьюдента. Вычисление значения t осуществляется по формуле:
где – разности между соответствующими значениями переменной X и переменной У, а — среднее этих разностей, а Sd вычисляется по следующей формуле;
Число степеней свободы k определяется по формуле k=n-1.
Рассмотрим пример использования t-критерия Стьюдента для
связных и, очевидно, равных по численности выборок.
Если то нулевая гипотеза принимается, в противном случае принимается альтернативная.
Пример:
Изучался уровень ориентации учащихся на художественно-эстетические ценности. С целью активизации формирования этой ориентации в экспериментальной группе проводились беседы, выставки детских рисунков, были организованы
посещения музеев и картинных галерей, проведены встречи с музыкантами, художниками и др. Закономерно встает вопрос:
какова эффективность проведенной работы? С целью проверки
эффективности этой работы до начала эксперимента и после давался тест. Из методических соображений в табл. 14 приводятся результаты небольшого числа испытуемых.
Таблица 14
Вначале произведем расчет по формуле:
Затем применим формулу (6), получим:
И, наконец, следует применить формулу (5). Получим:
Число степеней свободы: k=10-1=9 и по таблице находим экспериментальное t=6,678, откуда следует возможность принятия альтернативной гипотезы о достоверных различиях средних арифметических, т.е. делается вывод об эффективности экспериментального воздействия.
В терминах статистических гипотез полученный результат
будет звучать так: на 5%-м уровне гипотеза отклоняется и
принимается гипотеза .
Критерий Фишера
F – критерий Фишера используют для сравнения дисперсий
двух вариационных рядов. Он вычисляется по формуле:
где – большая выборочная дисперсия, – меньшая выборочная дисперсия. По двум выборкам объемами n1 и n2 строят
выборочные функции:
Если предположить, что соответствующие генеральные совокупности распределены нормально с параметрами и и что, кроме того, выполняется соотношение то существует теорема: выборочная функция имеет непрерывную функцию распределения и ее плотность вероятности:
Данное распределение названо в честь Р.А. Фишера F -распределением с степенями свободы. Если вычисленное значение критерия F больше критического для определенного уровня значимости и соответствующих чисел степеней свободы для числителя и знаменателя, то дисперсии считаются различными.
Число степеней свободы числителя определяется по формуле: где – число вариант для большей дисперсии.
Число степеней свободы знаменателя определяется по формуле: где – число вариант для меньшей дисперсии.
Рассмотрим пример расчета критерия Фишера
Известны результаты женской эстафеты 5-го этапа Кубка мира 2010 г. по биатлону, прошедшей в Рупольдинге (в Германии).
– дисперсии времени прохождения дистанции спортсменками команд России и Швеции (двух генеральных
совокупностей равны).
– дисперсии времени прохождения дистанции спортсменками команд России и Швеции существенно различаются.
По таблице критических точек распределения Фишера-Снедекора можно найти критическую точку для F-критерия при известных степенях свободы, равных: k= 4 – 1 = 3. Получаем
Поскольку, следовательно, можно утверждать, что нулевая гипотеза принимается на 5%-м уровне значимости, а конкурирующая гипотеза в этом случае отвергается. Исследователь может сделать вывод, что по степени однородности показателя времени прохождения дистанции различие между двумя командами незначительные.
Непараметрические тесты
Чтобы определить, имеем ли мы дело с нормальным распределением, можно применять следующие методы.
1) В пределах осей можно нарисовать полигон частоты
(эмпирическую функцию распределения) и кривую нормального
распределения на основе данных исследования. Исследуя формы кривой нормального распределения и графика эмпирической функции распределения, можно выяснить те параметры, которыми последняя кривая отличается от первой.
2) Вычисляется среднее, медиана и мода и на основе этого
определяется отклонение от нормального распределения. Если
мода, медиана и среднее арифметическое друг от друга значительно не отличаются, мы имеем дело с нормальным распределением. Если медиана значительно отличается от среднего, то мы имеем дело с асимметричной выборкой.
3) Эксцесс кривой распределения должен быть равен 0.
Кривые с положительным эксцессом значительно круче кривой нормального распределения. Кривые с отрицательным эксцессом являются более покатистыми по сравнению с кривой нормального распределения.
4) Правило трех сигм. После определения среднего значения распределения частоты и стандартного отклонения находят следующие четыре интервала распределения сравнивают их
с действительными данными ряда:
а) – к интервалу должно относиться около 25%
частоты совокупности,
б) – к интервалу должно относиться около 50%
частоты совокупности,
в) – к интервалу должно относиться около 75%
частоты совокупности,
г) – к интервалу должно относиться около 100%
частоты совокупности.
Проверка гипотез о законе распределения по критерию (хи-квадрат)
Проверка гипотез о законе распределения по критерию
(хи-квадрат)
Численным методом оценки того, принадлежит ли данная
выборка генеральной совокупности с нормальным распределением, является критерий разработанный К. Пирсоном. Согласно этому методу, наблюдаемое эмпирическое распределение выборки, выраженное абсолютными, относительными или относительными накопленными частотами сгруппированного ряда измерений, сравнивается с гипотетическим теоретическим распределением соответствующей генеральной совокупности. Для этого выдвигается гипотеза о неизвестной функции распределения F(x) генеральной совокупности, которая сопоставляется с подходящей выборочной функцией и, в зависимости от величины отклонения эмпирического распределения от теоретического, выдвинутая гипотеза принимается или отвергается. Так как статистическая гипотеза относится к неизвестной функции распределения F(x), а не к отдельным ее параметрам, мы говорим о непараметрическом методе проверки, или о критерии подобия.
Критерий и представляет собой один из таких критериев подобия.
Критерий часто используют также для сравнения между собой двух выборок из некоторой генеральной совокупности.
Пусть в результате n наблюдений получен вариационный
ряд с опытными частотами Тогда их сумма равна.
Анализируя опытные данные, выбираем некоторый закон теоретического распределения для рассматриваемого признака. По
опытным данным найдем параметры этого закона (гипотеза). С помощью теоретического закона вычислим теоретические частоты соответствующие эмпирическим частотам.
Сумма теоретических частот также должна быть равна объему
выборки – n (соглашение).
В качестве меры расхождения теоретического и эмпирического рядов частот возьмем величину:
s – число параметров теоретического закона, найденного с помощью этого распределения или число связей теоретического и эмпирического распределений. Например, если мы нашли –
среднее арифметическое и – дисперсию, используя данные
опытного распределения и установили, сумма частот опытного
распределения равна сумме частот теоретического распределения, то число связей s = 3.
Если же эмпирическое распределение не использовалось для
нахождения параметров теоретического закона и теоретических
частот, а эмпирические частоты не связаны никакими дополнительными соотношениями, то k равно числу групп эмпирического распределения. Количество частот в группе должно быть больше 5. Если количество меньше, то соседние группы следует
объединить.
Выборочная совокупность. Вариационный ряд
Цель: изучение типов выборок, методов анализа выборочной совокупности. Получение представлений о статистической
оценке параметров и интервалов вариационного ряда.
Основной целью статистического анализа является выяснение некоторых свойств рассматриваемой генеральной совокупности. Если генеральная совокупность конечна, то наилучшая процедура – рассмотреть каждый ее элемент.
Однако чаще всего на практике приходится ограничиваться
выборочными значениями из генеральной совокупности. Основное требование к выборке – хорошо представлять (быть репрезентативной, представительной) генеральную совокупность.
Обычно считается, что чтобы иметь право судить о генеральной совокупности по выборке, выборка должна быть образована случайно. Это можно достичь различными способами (наиболее распространенными):
- собственно-случайная выборка;
- механическая;
- типическая;
- серийная.
Собственно-случайная выборка
Существует два подхода к решению данной задачи:
Простая случайная выборка с возвращением – объект извлекается из генеральной совокупности случайным образом, и перед извлечением следующего, возвращается обратно. Например, после отбора деталей на анализ соответствия стандарту из большой партии, их снова возвращают назад и партию перемешивают.
Выборка без возвращения – извлеченный объект не возвращается в генеральную совокупность, а значит, может появиться в выборке только один раз. Например, отбор деталей производится с конвейера и после деструктивного анализа (разрушающего), возврат уже не возможен.
Если генеральная совокупность бесконечна, то процедуры
выборки как с возвращением, так и без него, дают простую случайную выборку. Если генеральная совокупность конечна и велика по сравнению с размером выборки, то процедура извлечения без возвращения дает приблизительно простую случайную выборку. Если генеральная совокупность конечна и объем выборки составляет заметную долю от размера генеральной совокупности, то различие между этими двумя методами становится заметным.
Механическая выборка
Механической называется выборка, в которую объекты из
генеральной совокупности отбираются через определенный интервал (рис. 24).
Например, если объем выборки должен составлять 5 % объема генеральной совокупности, то отбирается каждый двадцатый объект генеральной совокупности. Опасность, которая подстерегает исследователя при использовании этого метода – попасть в период циклически изменяющейся случайной величины.
Типическая выборка
Если генеральную совокупность предварительно разбить на непересекающиеся группы, а затем образовать собственнослучайные выборки элементов (с возвратом или без) изкаждой группы и все отобранные объекты считать попавшими в выборку, то получим выборочную совокупность, называемую типической выборкой. Считается, что типическая выборка с большей
достоверностью воспроизводит однородную генеральную совокупность.
Серийная выборка
Если генеральную совокупность предварительно разбить на
непересекающиеся серии, а затем, рассматривая серии как элементы некой мегасовокупности, выбрать случайным образом несколько серий и все объекты отобранных серий поместить в выборку, то получим выборочную совокупность, которая называется серийной.
Всякая случайная выборка возникает из генеральной совокупности в результате случайного отбора, ее можно описать с
помощью n-мерного случайного вектора составляющая которого дает случайную величину Х в i-м наблюдении
Можно говорить о выборке объема n из распределенной согласно F(x) генеральной совокупности, когда случайные компоненты независимы друг от друга и имеют ту же функцию распределения, что и X, а именно F(x).
Закон распределения случайного вектора
в этом случае полностью определяется формулой: Эта формула получается из условий: F(x) – вероятность, – независимые события. Здесь мы вторгаемся в область многомерных случайных величин и функций.
Отсюда следует, что каждая из рассчитанных по наблюдениям данной выборки числовая характеристика, например среднее арифметическое , есть реализация случайной величины, которая от выборки к выборке может принимать различные значения.
Такая случайная величина называется выборочной функцией и в общем случае обозначается как
Такая запись означает зависимость выборочной функции от случайных компонент вектора
Так как выборочная функция Т является случайной величиной, то она имеет закон распределения, зависящий от закона распределения случайной величины X в генеральной совокупности. Для построения математико-статистических методов
оценки параметров и проверки гипотез необходимо знание закона распределения, поэтому его расчет по распределению Х для различных выборочных функций образует основную техническую проблему математической статистики.
Распределение среднего арифметического значения используется достаточно часто. Если из генеральной совокупности, распределение которой имеет математическое ожидание и
дисперсию (при этом закон распределения генеральной совокупности не обязательно должен быть нормальным) последовательно отбирать ряд выборок объема n, то каждая выборка даст реализацию величины . В итоге получается ряд средних арифметических для которых можно установить эмпирическое распределение и вычислить числовые характеристики. Тогда распределение частот с увеличением объема выборки n все более
приближается по форме к нормальной кривой. Можно математически строго доказать, что имеет (для больших n) асимптотически нормальное распределение с математическим ожидание и дисперсией
Некоторые важные распределения выборочных функций
Все приведенные ниже теоремы предполагают, что n компонент случайного вектора независимы и имеют
нормальное распределение с математическим ожиданием и
дисперсией , то есть имеем выборку объема n из нормально
распределенной генеральной совокупности.
Теорема:
Выборочная функция
распределена нормально согласно
Величина также приближенно распределена нормально согласно если соответствующая генеральная совокупность удовлетворяет произвольному распределению с математическим ожиданием и дисперсией . Приближение тем лучше, чем больше n.
Теорема:
Выборочная функция (нормированная) удовлетворяет нормированному (стандартному) нормальному распределению с параметрами N(0; 1).
Теорема:
Образованная с помощью эмпирической дисперсии (деление на n-1 дает несмещенную оценку) выборочная функция удовлетворяет непрерывной функции распределения с плотностью для х>0 при m = n-1.
Значение зависит только от m, но не от x, и его следует выбирать так, чтобы выполнялось условие нормирования для плотности распределения (). Определенная здесь плотность распределения называется распределением (хи-квадрат) с m = n-1 степенями свободы. При этом n и m являются параметрами.
Плотность распределения хи-квадрат асимметрична, но при приближается к плотности нормального распределения с математическим ожиданием m=n-1 и дисперсией 2m = 2(n- 1).
Теорема:
Если из выборочных функций и образовать новую функцию
то для нее доказано, что эта выборочная функция непрерывна, а ее плотность равна:
константа, зависимая только от m.
Эта плотность вероятности получена У. С. Гассетом и названа по его псевдониму – Student. Распределение Стьюдента или t-распределение с m=n-1 степенями свободы.
Кривая плотности вероятности тем более полога, чем меньше m, и при переходит в плотность вероятности нормированного (стандартного) распределения.
Статистические оценки параметров распределения
Цель: получение представлений о статистической оценке
параметров и интервалов выборочного распределения.
Точечные оценки параметров распределения
Пусть требуется изучить количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Возникает задача оценки параметров, которыми определяется это распределение.
Обычно в распоряжении исследователя имеются лишь данные выборки, полученные в результате n наблюдений (здесь и далее наблюдения предполагаются независимыми). Через эти данные и выражают оцениваемый параметр. Рассматривая значения количественного признака как независимые случайные величины, можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения – это значит найти функцию от наблюдаемых случайных величин, которая и дает приближенное значение оцениваемого параметра.
Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин.
Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определенным требованиям: оценка должна быть несмещенной, эффективной и состоятельной.
Несмещенной называют статистическую оценку Q*, математическое ожидание которой равно оцениваемому параметру Q при любом объеме выборки, т. е.
M(Q*) = Q.
Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру.
Эффективной называют статистическую оценку, которая (при заданном объеме выборки n) имеет наименьшую возможную дисперсию.
При рассмотрении выборок большого объема (n велико!) к
статистическим оценкам предъявляется требование состоятельности.
Состоятельной называют статистическую оценку, которая при стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при
стремится к нулю, то такая оценка оказывается и состоя-
тельной.
Рассмотрим точечные оценки параметров распределения,
т.е. оценки, которые определяются одним числом где — выборка.
Генеральная средняя
Пусть изучается генеральная совокупность относительно
количественного признака Х.
Генеральной средней называют среднее арифметическое значений признака генеральной совокупности.
Если все значения признака различны, то
Если значения признака распределены по частотам:
Выборочная средняя
Пусть для изучения генеральной совокупности относительно количественного признака Х извлечена выборка объема n.
Выборочной средней называют среднее арифметическое
значение признака выборочной совокупности.
Если все значения признака выборки различны, то
а если же все значения имеют частоты то
Выборочная средняя является несмещенной и состоятельной оценкой генеральной средней. Замечание: Если выборка
представлена интервальным вариационным рядом, то за принимают середины частичных интервалов.
Генеральная дисперсия
Для того чтобы охарактеризовать рассеяние значений количественного признака Х генеральной совокупности вокруг
своего среднего значения, вводят сводную характеристику – генеральную дисперсию.
Генеральной дисперсией называют среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения. Если все значения признака генеральной совокупности объема N различны, то
Если же значения признака имеют соответственно частоты
Кроме дисперсии для характеристики рассеяния значений признака генеральной совокупности вокруг своего среднего значения пользуются сводной характеристикой – средним квадратическим отклонением.
Генеральным средним квадратическим отклонением (стандартом) называют квадратный корень из генеральной дисперсии.
Выборочная дисперсия
Для того, чтобы наблюдать рассеяние количественного признака значений выборки вокруг своего среднего значения, вводят сводную характеристику- выборочную дисперсию.
Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения.
Если все значения признака выборки различны, то
если же все значения имеют частоты то
Для характеристики рассеивания значений признака выборки вокруг своего среднего значения пользуются сводной характеристикой – средним квадратическим отклонением.
Генеральным средним квадратическим отклонением называют квадратный корень из генеральной дисперсии:
Выборочным средним квадратическим отклонением называют квадратный корень из выборочной дисперсии:
Вычисление дисперсии – выборочной или генеральной, можно упростить, используя формулу:
Замечание: если выборка представлена интервальным вариационным рядом, то за xi принимают середины частичных интервалов.
Исправленная дисперсия
Выборочная дисперсия является смещенной оценкой генеральной дисперсии, т.е. математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дисперсии, а равно
Для исправления выборочной дисперсии достаточно умножить ее на дробь
получим исправленную дисперсию Исправленная дисперсия является несмещенной оценкой. В качестве оценки генеральной
дисперсии принимают исправленную дисперсию.
Для оценки среднего квадратического генеральной совокупности используют исправленное среднее квадратическое отклонение
Замечание: формулы для вычисления выборочной дисперсии и исправленной дисперсии отличаются только знаменателями. При достаточно больших n выборочная и исправленная дисперсии мало отличаются, поэтому на практике исправленной дисперсией пользуются, если n<30.
Вычислим выборочные характеристики по выборкам, рассмотренным в табл. 16.
Пример:
Для дискретного вариационного ряда:
Среднее выборочное
Выборочная дисперсия
Выборочное среднее квадратическое отклонение
Исправленная дисперсия
Рассмотрим пример расчета точечных оценок параметров
интервального вариационного ряда (табл. 17).
За примем середины частичных интервалов:
Для вычисления выборочной дисперсии воспользуемся формулой
Тогда выборочная дисперсия равна
Выборочное среднее квадратическое отклонение:
Интервальные оценки параметров распределения
Интервальной называют оценку, которая определяется двумя числами – концами интервала. Интервальные оценки позволяют установить точность и надежность оценок.
Пусть найденная по данным выборки статистическая характеристика Q* служит оценкой неизвестного параметра Q.
Будем считать Q постоянным числом (Q может быть и случайной величиной). Ясно, что Q* тем точнее определяет параметр Q, чем меньше абсолютная величина разности |Q- Q*|. Другими словами, если и , то чем меньше , тем оценка точнее.
Таким образом, положительное число характеризует точность оценки. Однако статистические методы не позволяют категорически утверждать, что оценка Q* удовлетворяет неравенству ; можно лишь говорить о вероятности с которой это неравенство осуществляется.
Надежностью (доверительной вероятностью) оценки называют вероятность , с которой осуществляется неравенство
.
Обычно надежность оценки задается наперед, причем в качестве берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.
Пусть вероятность того, что, |Q- Q*| <d равна
Заменив неравенство, равносильным ему двойным неравенством получим:
Это соотношение следует понимать так: вероятность того, что интервал Q* – d < Q < Q* +d заключает в себе (покрывает) неизвестный параметр Q, равна .
Интервал называется доверительным интервалом, который покрывает неизвестный параметр с надежностью .
Интервальные оценки параметров нормального распределения
Доверительный интервал для оценки математического ожидания при известном среднем квадратичном отклонении
Пусть количественный признак генеральной совокупности распределен нормально. Известно среднее квадратическое отклонение этого распределения Требуется оценить математическое ожидание a по выборочной средней. Найдем доверительный интервал, покрывающий математическое ожидание a с надежностью . Выборочную среднюю будем рассматривать как случайную величину (она изменяется от выборки к выборке), выборочные значения признака – как одинаково распределенные независимые случайные величины с математическим ожиданием a и средним квадратическим отклонением Примем без доказательства, что если величина Х распределена нормально, то и выборочная средняя тоже распределена нормально с параметрами
Потребуем, чтобы выполнялось равенство
Заменив Х и , получим
Задача решена. Число t находят по таблице функции Лапласа Ф(х).
Пример:
Случайная величина Х распределена нормально и
Найти доверительный интервал для оценки математического ожидания по выборочным средним, если n = 36 и задана надежность
Из соотношения 2Ф(t)= 0,95 , откуда Ф(t) = 0,475 по таблице найдем
t =1,96. Точность оценки
Доверительный интервал
Пример:
Найти минимальный объем выборки, который обеспечивает заданную точность и надежность если СВХ распределена нормально и
Из равенства
подставим значения и получим минимальный объем выборки
n=80.
Доверительный интервал для оценки математического ожидания при неизвестном среднем квадратичном отклонении
Поскольку мы не знакомы с законами распределения случайной величины, которые используются при выводе формулы, то примем ее без доказательства.
В качестве неизвестного параметра используют исправленную дисперсию . Заменяя на s, t на величину
Значение этой величины зависит от надежности и объема выборки n и определяется по таблице значений Итак:
и доверительный интервал имеет вид
Пример:
Найти доверительный интервал для оценки математического ожидания с надежностью 0,95, если объем выборки n =16, среднее выборочное и исправленная дисперсия соответственно равны 20,2 и 0,8.
По таблице приложения найдем по заданной надежности и n= 16: Подставим в формулу s =0,8 и , вычислим границы доверительного интервала:
откуда получим доверительный интервал (19,774; 20,626).
Смысл полученного результата: если взять 100 различных
выборок, то в 95 из них математическое ожидание будет находиться в пределах данного интервала, а в 5 из них – нет.
Пример:
Измеряют диаметры 25 корпусов электродвигателей. Получены выборочные характеристики
Необходимо найти вероятность (надежность) того, что интервал: является доверительным интервалом оценки математического ожидания при нормальном распределении.
Из условия задачи найдем точность d, составив и решив систему:
Откуда d =10. Из равенства
откуда По таблице для найденного и n= 25 находим
Доверительный интервал для оценки дисперсии и среднего квадратического отклонения
Требуется оценить неизвестную генеральную дисперсию и генеральное среднее квадратическое отклонение по исправленной дисперсии, т.е. найти доверительные интервалы, покрывающие параметры D и с заданной надежностью .
Потребуем выполнения соотношения
Раскроем модуль и получим двойное неравенство:
Преобразуем:
Обозначим d/s = q (величина q находится по «Таблице значений q» и зависит от надежности и объема выборки), тогда доверительный интервал для оценки генерального среднего квадратического отклонения имеет вид:
Замечание:
Так как s >0, то если q >1 , левая граница
интервала равна 0:
0< s < s ( 1 + q ).
Пример:
По выборке объема n = 25 найдено «исправленное» среднее квадратическое отклонение s = 0,8. Найти до- верительный интервал, покрывающий генеральное среднее квадратическое отклонение с надежностью 0,95. По таблице приложения по данным n =25 , находим q = 0,32.
Искомый доверительный интервал 0,8(1- 0,32)< s < 0,8(1+ 0,32) или 0,544 < s <0,056.
Пример:
По выборке объема n = 10 найдено s = 0,16.
Найти доверительный интервал, покрывающий генеральное среднее квадратическое отклонение с надежностью 0,999.
Искомый доверительный интервал 0< s <0,16(1+1,8) или 0< s <0,448.
Так как дисперсия есть квадрат среднего квадратического
отклонения, то доверительный интервал, покрывающий генеральную дисперсию с заданной надежностью , имеет вид:
Линейный корреляционный анализ
Цель: изучение связей между величинами, носящими случайный характер. Проверка гипотез о линейной и нелинейной корреляции величин.
Исключительный интерес для широкого класса задач представляет обнаружение взаимных связей между двумя и более случайными величинами. Например, существует ли связь между курением и ожидаемой продолжительностью жизни или между умственными способностями и успеваемостью. В инженерных применениях такие задачи обычно сводятся к установлению связи между некоторым предполагаемым возбуждением и наблюдаемым откликом изучаемой физической системы.
Корреляционный анализ (термин “корреляция” происходит
от лат. correlatio – соотношение, связь) измеряет степень взаимосвязи между двумя переменными – например, ценой товара
на рынке и объемом спроса на этот товар. Величина, характеризующая наличие связи – коэффициент корреляции показывает, приведут ли изменения одной переменной, например, цены к изменениям другой – спроса.
При корреляционном анализе двух переменных одна из них называется «зависимая», а другая – «независимая». Цель анализа
– определить, приведут ли изменения независимой переменной
к изменениям зависимой.
Из математики нам известно понятие функции, которая описывает зависимость значения величины Y от значения независимой переменной Х, называемой аргументом. Однозначная зависимость между переменными величинами Y и X называется функциональной, т.е. Y = f(X) (“игрек есть функция от икс”).
Например, в функции Y = -3X+5 каждому значению X соответствует значение Y. В функции каждому значению X соответствует Y , равный кубу X. Но такого рода однозначные или функциональные связи между переменными величинами встречаются не всегда. Известно, например, что между ростом и массой человека существует положительная связь: более высокие индивиды имеют обычно и большую массу, чем индивиды низкого роста. То же наблюдается и в отношении качественных признаков: блондины, как правило, имеют голубые, а брюнеты –карие глаза. Однако из этого правила имеются исключения, когда сравнительно низкорослые индивиды оказываются тяжелее высокорослых, и среди людей встречаются кареглазые блондины и голубоглазые брюнеты. Причина таких “исключений” в том, что каждый биологический признак, выражаясь математическим языком, является функцией многих переменных; на его величине сказывается влияние и генетических, и средовых факторов, в том числе и случайных, что вызывает варьирование признаков. Отсюда зависимость между ними приобретает не функциональный, а статистический характер, когда определенному значению одного признака, рассматриваемого в качестве независимой переменной, соответствует не одно и то же числовое значение, а целая гамма распределяемых в вариационный ряд числовых значений другого признака, рассматриваемого в качестве независимой переменной. Такого рода зависимость между переменными величинами называется корреляционной.
Если функциональные связи одинаково легко обнаружить и на
единичных, и на групповых объектах, то этого нельзя сказать о
связях корреляционных, которые изучаются только на групповых объектах методами математической статистики.
Задача корреляционного анализа сводится к установлению
направления и формы связи между признаками, измерению ее
тесноты и к оценке достоверности выборочных показателей корреляции.
Для двух случайных величин х и y коэффициент корреляции определяется по формуле:
где — ковариация х и у, определяемая по формуле, а и –
средние квадратичные отклонения по выборкам.
Коэффициент корреляции Браве–Пирсона по выборочным
данным можно оценить по формуле:
Выборочный коэффициент корреляции лежит между -1 и +1
и принимает одно из граничных значений только при наличии
идеальной линейной связи между наблюдениями. Нелинейная
связь и (или) разброс данных, вызванный ошибками измерения
или же неполной коррелированностью случайных величин, приводит к уменьшению абсолютного значения
Данный коэффициент впервые использовал Карл Пирсон
(1857–1936), английский математик, разработавший статистический аппарат для проверки теории Ч.Дарвина. Статистические
методики Пирсона широко используются в психологии и педагогике.
Расчет коэффициента корреляции правомерно проводить в том случае, когда случайные величины могут быть измерены в числовой шкале, при этом возможно вычисление средних значений. Приведём пример, когда нахождение коэффициента корреляции некорректно именно по причине измерения случайных величин в качественной шкале. Любые измеряемые величины соотносят с одной из измерительных шкал. Обычно выделяют две качественные шкалы: номинальную и порядковую. Номинальная позволяет только качественно отличить один объект от другого, например черное – белое, Марина – Пётр – Саша. Порядковая или ранговая шкала позволяет установить порядок увеличения или уменьшения какого-либо качества: низкий – средний – высокий, плохо – удовлетворительно – хорошо – отлично и т.д.
Количественные шкалы – интервалов и отношений, позволяют сравнивать величины между собой и выражать различие числом. Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами и графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называют также диаграммой рассеивания или корреляционным полем (рис. 25).
Данная модель двумерного нормального распределения
(корреляционное поле) позволяет дать наглядную графическую
интерпретацию коэффициента корреляции, т.к. распределение в
совокупности зависит от пяти параметров: – средние значения (математические ожидания); – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.
Если р = 0, то значения, полученные из двумерной
нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью. В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.
Пример:
Определить достоверность взаимосвязи между по-
казателями веса и количеством подтягиваний на перекладине у
11 исследуемых с помощью расчета нормированного коэффициента корреляции, если данные выборок таковы:
Решение:
1.Расчет коэффициента корреляции Пирсона:
2.Для расчетов создать вспомогательную таблицу
3.Рассчитать число степеней свободы по формуле:
4.Сравнить рассчитанное значение нормированного
коэффициента корреляции с табличным значением
для К =9 при a = 5 % и сделать вывод.
Вывод
1) так как то между данными выборок наблюдается обратная отрицательная взаимосвязь, то есть с увеличением показателей веса у исследуемых снижается их результат в количестве подтягиваний на перекладине;
2) поскольку для K = 10 при то с
уверенностью можно говорить о том, что выявленная
зависимость недостоверна.
Основы дисперсионного анализа
Цель: познакомиться с теорией дисперсионного анализа.
Дисперсионный анализ (от латинского Dispersio – рассеивание) – статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Р. Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.
Целью дисперсионного анализа является проверка значимости различия средних арифметических на основе сравнения
дисперсий нескольких групп. Дисперсию измеряемого признака
разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.
Например, проводя опросы по поводу потребления какого-
либо товара в различных регионах страны, необходимо сделать
выводы на: сколько данные опроса отличаются или не отличаются друг от друга. Сопоставлять отдельные показатели не имеет смысла и поэтому процедура сравнения и последующей оценки производится по некоторым усредненным значениям и отклонениям от этой усредненной оценки. Изучается вариация
признака. За меру вариации принимается дисперсия. На практике часто возникают задачи более общего характера – задачи проверки существенности различий средних выборочных нескольких совокупностей.
Например, требуется оценить влияние различного сырья на качество производимой продукции, решить задачу о влиянии количества удобрений на урожайность с/х продукции.
Дисперсионный анализ включает в себя проверку гипотез, связанных с оценкой выборочной дисперсии. Можно выделить три основных вида гипотез:
1) значимо ли различие между двумя дисперсиями?
2) одна дисперсия значимо больше другой?
3) значимо ли различие между несколькими дисперсиями?
Гипотезой для дисперсионного анализа может служить и
такая гипотеза: выборки, по которым определены оценки дисперсии, получены из генеральных совокупностей, обладающих
одинаковыми дисперсиями.
Иногда дисперсионный анализ применяется, чтобы установить однородность нескольких совокупностей. Дисперсии этих совокупностей одинаковы по предположению; если дисперсионный анализ покажет, что и математические ожидания одинаковы, то в этом смысле совокупности однородны. Однородные же совокупности можно объединить в одну и тем самым
получить о ней более полную информацию, следовательно, и
более надежные выводы.
В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Вариацию, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая дисперсия Она является мерой вариации частных средних по группам вокруг общей средней и определяется по формуле:
где p – число групп; n – число уровней фактора; – общая средняя.
Вариацию, характеризующую рассеяние между группами, описывает межгрупповая дисперсия:
Остаточная сумма квадратов отклонений наблюдаемых
значений группы от своего группового среднего, характеризует
рассеяние внутри групп:
Между общей дисперсией межгрупповой дисперсией и внутригрупповой дисперсией существует соотношение:
Внутригрупповая дисперсия объясняет влияние неучтенных при группировке факторов, а межгрупповая дисперсия объясняет влияние факторов группировки на среднее значение по группе. Разделив суммы квадратов на соответствующее число степеней свободы, получим общую, факторную и остаточную дисперсии:
Если справедлива гипотеза , то все эти дисперсии являются несмещенными оценками генеральной дисперсии. Покажем, что проверка нулевой гипотезы сводится к сравнению факторной и остаточной дисперсии по критерию Фишера-Снедекора.
1.Пусть гипотеза правильна. Тогда факторная и остаточная дисперсии являются несмещенными оценками неизвестной генеральной дисперсии и, следовательно, различаются незначимо. Поэтому результат оценки по критерию Фишера-Снедекора F покажет, что нулевая гипотеза принимается. Таким образом, если верна гипотеза о равенстве математических ожиданий генеральных совокупностей, то верна и гипотеза о равенстве факторной и остаточной дисперсий.
2. Если нулевая гипотеза неверна, то с возрастанием расхождения между математическими ожиданиями увеличивается и факторная дисперсия, а вместе с ней и отношение
Поэтому в результате окажется больше и гипотеза о равенстве дисперсий будет отвергнута. Следовательно, если гипотеза о равенстве математических ожиданий генеральных совокупностей ложна, то ложна и гипотеза о равенстве факторной и остаточной дисперсий.
Итак, метод дисперсионного анализа состоит в проверке по критерию F нулевой гипотезы о равенстве факторной и остаточной дисперсий.
Если факторная дисперсия окажется меньше остаточной, то гипотеза о равенстве математических ожиданий генеральных
совокупностей верна. При этом нет необходимости использовать критерий F.
При обработке данных эксперимента наиболее разработанными и поэтому распространенными считаются две модели. Их различие обусловлено спецификой планирования самого эксперимента. В модели дисперсионного анализа с фиксированными эффектами исследователь намеренно устанавливает строго определенные уровни изучаемого фактора. Термин «фиксированный эффект» в данном контексте имеет тот смысл, что самим исследователем фиксируется количество уровней фактора и различия между ними. При повторении эксперимента он или другой исследователь выберет те же самые уровни фактора. В модели со случайными эффектами уровни значения фактора выбираются исследователем случайно из широкого диапазона значений фактора, и при повторных экспериментах, естественно, этот диапазон будет другим.
Таким образом, данные модели отличаются между собой способом выбора уровней фактора, что, очевидно, в первую очередь влияет на возможность обобщения полученных экспериментальных результатов. Для дисперсионного анализа однофакторных экспериментов различие этих двух моделей не столь существенно, однако в многофакторном дисперсионном анализе оно может оказаться весьма важным.
При проведении дисперсионного анализа должны выполняться следующие статистические допущения: независимо от уровня фактора величины отклика имеют нормальный закон распределения и одинаковую дисперсию. Такое равенство дисперсий называется гомогенностью. Таким образом, изменение способа обработки сказывается лишь на положении случайной величины отклика, которое характеризуется средним значением или медианой. Поэтому все наблюдения отклика принадлежат сдвиговому семейству нормальных распределений.
Говорят, что техника дисперсионного анализа является «робастной». Этот термин, используемый статистиками, означает, что данные допущения могут быть в некоторой степени нарушены, но, несмотря на это, технику можно использовать. При неизвестном законе распределения величин отклика используют непараметрические (чаще всего ранговые) методы анализа.
Пример использования однофакторного дисперсионного анализа
В четырех группах испытуемых, по 17 человек в каждой, проводилось изучение времени реакции на звуковой стимул.
Интенсивность стимула составила 40, 60, 80 и 100 дБ, причем в
каждой группе предъявлялись стимулы только одной интенсивности.
Среднее время реакции уменьшается по мере увеличения громкости звука. В этой задаче регулируемым фактором
является сила звука, а её уровни рассматриваются как градации
фактора. Таким образом, фактор «сила звука» выступает как независимая переменная, а время реакции как результативный
признак, или как зависимая переменная. Проверяется гипотеза
, согласно которой средние и дисперсии в группах обусловлены случайными влияниями и не зависят от действия регулируемого фактора.
Среднее время реакции увеличивается по мере увеличения громкости звука.
Представим исходные данные для работы с однофакторным дисперсионным анализом в виде табл. 20, в которую внесены некоторые дополнительные расчетные данные.
Сравнивая F экс и F таб, можно сделать вывод, что F экс больше критического табличного значения, а это значит, что нулевую гипотезу об отсутствии различий следует отвергнуть, а
принять гипотезу . Психолог может быть уверенным, что при
увеличении силы звука скорость реакции значительно увеличивается. Или регулируемый фактор – сила звука оказывает существенное влияние на независимую переменную – скорость реакции.
Факторный анализ
Цель: освоить методику применения факторного анализа для исследования экспериментальных данных.
Множество явлений и процессов в окружающем нас мире связаны между собой. Изучение взаимных зависимостей между составляющими явлений и процессов порождает множество вопросов: о силе связей, об их закономерностях, о причинах, породивших определенную структуру связей. Сложные зависимости системы факторов, влияющих на процесс, сложно интерпретировать, поскольку в большинстве ситуаций существуют скрытые параметры, влияющие на коррелированные признаки.
Часто изменения взаимосвязанных признаков происходит
согласованно, т.е. признаки дублируются. Стремление объяснить совокупность признаков через введение более глубинных
характеристик явления, определяющих его структуру, приводит
к модели факторного анализа.
Факторный анализ – многомерный статистический метод, применяемый для изучения взаимосвязей между значениями переменных.
Реализация факторного анализа представляет собой постепенный переход от исходной факторной системы к конечной факторной системе, изучение влияния полного набора прямых, количественно измеряемых факторов, оказывающих влияние на изменение результативного показателя.
Условия выполнения факторного анализа:
- факторный анализ выполняется над взаимосвязанными
переменными; - изучаемые признаки должны быть количественными;
- число признаков должно быть в два раза больше числа переменных;
- выборка должна быть однородна.
По характеру взаимосвязи между показателями различают методы детерминированного и стохастического факторного анализа.
Детерминированный факторный анализ представляет собой методику исследования влияния факторов, связь которых с результативным показателем носит функциональный характер.
Основные свойства детерминированного подхода к анализу:
- построение детерминированной модели путем логического
анализа; - наличие полной (жесткой) связи между показателями;
- невозможность разделения результатов влияния одновременно действующих факторов, которые не поддаются объединению в одной модели;
- изучение взаимосвязей в краткосрочном периоде.
Различают четыре типа детерминированных моделей:
Аддитивные модели представляют собой алгебраическую сумму показателей и имеют вид
К таким моделям, например, относятся показатели себестоимости во взаимосвязи с элементами затрат на производство и со статьями затрат; показатель объема производства продукции в его взаимосвязи с объемом выпуска отдельных изделий или объема выпуска в отдельных подразделениях.
Мультипликативные модели в обобщенном виде могут быть представлены формулой
Примером мультипликативной модели является двухфакторная модель объема реализации
где X – среднесписочная численность работников;
Pr – средняя выработка на одного работника.
Кратные модели:
Примером кратной модели служит показатель срока оборачиваемости товаров (в днях) . Т ОБ.Т:
где ЗТ – средний запас товаров; ОР – однодневный объем реализации.
Смешанные модели представляют собой комбинацию перечисленных выше моделей и могут быть описаны с помощью
специальных выражений:
Примерами таких моделей служат показатели затрат на 1 руб. товарной продукции, показатели рентабельности и др.
Алгоритмы применения детерминированного факторного анализа для различных моделей
- Модель вида
2. Модель вида
3. Модель вида
4. Модель вида
Построение факторной модели – первый этап детерминированного анализа. Далее определяют способ оценки влияния факторов.
Способы оценки влияния факторов
- Способ цепных подстановок
- Способ относительных разниц
- Способ абсолютных разниц
Способ цепных подстановок заключается в определении ряда промежуточных значений обобщающего показателя путем
последовательной замены базисных значений факторов на отчетные. Данный способ основан на исключении воздействия
всех факторов на величину результативного показателя, кроме
одного. При этом исходя из того, что все факторы изменяются
независимо друг от друга, т.е. сначала изменяется один фактор, а все остальные остаются без изменения, потом изменяются два при неизменности остальных и т.д.
В общем виде применение способа цепных постановок можно описать следующим образом:
где – базисные значения факторов, оказывающих влияние на обобщающий показатель у; – фактические значения факторов; – промежуточные изменения результирующего показателя, связанного с изменением факторов а, b,соответственно.
Общее изменение складывается из суммы изменений результирующего показателя за счет изменения каждого фактора при фиксированных значениях остальных факторов:
Проведем факторный анализ влияния на объем товарной продукции количества работников и их выработки описанным выше способом на основе данных табл.21.
Зависимость объема товарной продукции от данных факторов можно описать с помощью мультипликативной модели:
Тогда влияние изменения величины количества работников на обобщающий показатель можно рассчитать по формуле:
Далее определим влияние изменения выработки работников на обобщающий показатель
Суммарное влияние двух факторов:
Таким образом, на изменение объема товарной продукции
отрицательное влияние оказало изменение на 32 человека чис-
ленности работников, что вызвало снижение объема продукции
на 2720 тыс. руб. и отрицательное влияние оказало снижение
выработки на 13 тыс. руб., что вызвало снижение объема на
1274 тыс. руб. Суммарное влияние двух факторов привело к
снижению объема продукции на 3994 тыс. руб.
Способ абсолютных разниц является модификацией способа цепной подстановки. Изменение результативного показателя за счет каждого фактора способом разниц определяется как произведение отклонения изучаемого фактора на базисное или отчетное значение другого фактора в зависимости от выбранной последовательности подстановки:
Способ относительных разниц применяется для измерения влияния факторов на прирост результативного показателя в мультипликативных и смешанных моделях вида у = (а – b) * с.
Он используется в случаях, когда исходные данные содержат определенные ранее относительные отклонения факторных показателей в процентах.
Для мультипликативных моделей типа у = abc методика анализа следующая: находят относительное отклонение каждого факторного показателя:
затем определяют отклонение результативного показателя у за счет каждого фактора
Пример:
Воспользовавшись данными табл. 21, проведем анализ способом относительных разниц. Относительные отклонения рассматриваемых факторов составят:
Рассчитаем влияние на объем товарной продукции каждого фактора.
Количества работников:
Выработки продукции каждым работником:
Линейный регрессионный анализ
Цель: Используя методы регрессионного анализа, научиться строить прямые регрессии и оценивать полученные данные (прогноз) в заданном доверительном интервале.
Корреляционный анализ позволяет установить степень взаимосвязи двух и более случайных величин. Однако наряду с
этим желательно иметь модель этой связи, которая дала бы возможность предсказывать значения одной случайной величины
по конкретным значениям другой. Методы решения подобных
задач носят наименование регрессионный анализ.
В линейный регрессионный анализ входит широкий круг задач, связанных с построением (восстановлением) зависимостей между группами числовых переменных
Предполагается, что Х – независимые переменные (факторы, объясняющие переменные) влияют на значения Y – зависимых переменных (откликов, объясняемых переменных). По имеющимся эмпирическим данным требуется построить функцию f (X), которая приближенно описывала бы изменение Y при изменении X
Рассмотрим простой случай двух коррелированных случайных величин х и у. Линейная связь между двумя случайными величинами означает, что прогноз значения величины у по данному значению х имеет вид
где А и В – это соответственно отрезок оси ординат, отсекаемой прямой, и ее наклон. Если данные связаны идеальной линейной
зависимостью (функциональная или сильная связь – в других
терминах) то предсказанное значение будет в точности равняться наблюденному значению при любом данном Однако на практике обычно отсутствует идеальная линейная зависимость между данными. Как правило, внешние случайные воздействия приводят к разбросу данных, и, кроме того, возможны искажения за счет присутствия нелинейных эффектов. Тем не менее, если все же предположить существование линейной связи и наличие неограниченной выборки, то можно подобрать такие значения А и В, которые дадут возможность предсказать ожидаемое значение для любого данного . Это означает, что не обязательно совпадает с наблюдаемым значением , соответствующим данному однако оно будет равно среднему значению всех таких наблюдаемых значений.
Метод наименьших квадратов
Общепринятая процедура определения коэффициентов уравнения состоит в выборе таких значений А и В, которые минимизируют сумму квадратов отклонений наблюдаемых значений от предсказанного значения у. Эта процедура называется методом наименьших квадратов. Поскольку отклонения наблюдаемых значений от предсказанных равны
то сумма квадратов отклонений имеет вид
Следовательно, наилучшее согласие в смысле наименьших квадратов обеспечивают значения А и В, для которых частные
производные равны нулю:
Частные производные по коэффициентам А и В, так как они являются не константами в общем смысле, а некоторыми переменными величинами.
На практике обычно имеется ограниченная выборка из N пар наблюдений значений х и у. Это означает, что уравнение даст всего лишь оценки А и В; обозначим их через
а и b соответственно. Для отыскания минимума приравняем к
нулю частные производные:
Решая систему уравнений относительно оценок величин А и В, получим:
Оценки А и В можно также подсчитать по формулам:
или в обозначениях коэффициента корреляции и выборочных
дисперсий:
Эти значения можно использовать для построения регрессионной модели, позволяющей предсказывать неизвестное у по заданному х:
Прямая линия, задаваемая указанным уравнением называется прямой линейной регрессии у на х. Ясно, что коэффициенты а и b, определенные формулами, приведенными выше, являются случайными функциями, имеющими свои распределения. Следовательно, необходимо оценить, насколько точно (или по другому – какой разброс) значения а и b мы получим.
Доверительные интервалы
Для анализа экспериментальных данных часто рассчитываются значения числовых характеристик случайных величин.
Это способ служит для оценки параметров и дает их точечные
оценки. Числовые характеристики выборки не позволяют судить о степени близости к соответствующим параметрам генеральной совокупности, поскольку каждый вариант выборки дает свои значения параметров. Более содержательны процедуры оценивания параметров, связанные не с получением точечного
значения, а с построением интервала, который накрывает оцениваемый параметр с известной степенью достоверности.
Пусть, например, выборочное среднее арифметическое, вычисленное по n независимым наблюдениям случайной величины х, используется в качестве оценки среднего
Обычно представляет интерес оценить в терминах некоторого интервала , в который попадает с заданной степенью достоверности. Такие интервалы можно построить, если известны выборочные распределения рассматриваемой оценки.
Относительно значения выборочного среднего можно сделать следующее вероятностное утверждение:
где Ф(х) – стандартная функция распределения; где – называется вероятностью ошибки, или уровнем значимости.
Обычно вероятность ошибки измеряется в пределах от 0,10 до 0,0001 или в процентах от 1 %, 5 % или 10 % .
Значение – статистическая достоверность. S измеряют часто в процентах и говорят, например, о 95%-м доверительном интервале
По мере уменьшения (увеличения интервала, заключенного между разумно считать, что вероятность Р скорее равна единице, чем нулю. Иначе говоря, если производится много выборок, и для каждой из них вычисляется , то можно ожидать, что она будет попадать в указанный интервал с относительной частотой, примерно равной При таком подходе можно утверждать, что существует интервал, в который величина попадает с большой степенью достоверности. Такие утверждения называют доверительными. Интервал, относительно которого делается доверительное утверждение, называется доверительным интервалом. Степень доверия, сопоставляемая доверительному утверждению, называется уровнем доверия.
При оценивании среднего значения доверительный интервал для среднего можно построить по выборочному значению x :
Если — неизвестна, то доверительный интервал для
можно построить по выборочным значениям и s (среднеквадратичное отклонение для выборки). В этом случае
используется t-распределение Стьюдента:
где n = N-1 — степени свободы для распределения Стьюдента, N — выборка. Интервалам соответствует уровень доверия
Точность оценки параметров линии регрессии
Точность оценок параметров а, b и значения предсказанной
функции мы определим в предположении о нормальности
распределения y при данном значении х (рис. 26).
Выборочные распределения указанных параметров связаны с
t-распределением соотношениями:
Распределение при конкретном значении представляет особый интерес ( — значение, вычисленное по уравнению регрессии, — оценочное интервальное значение):
Значение будет определять границы интервала для заданного
значения В формулах величина — выборочное стандартное
отклонение наблюдаемого значения от предсказанного равное:
Множественный регрессионный анализ
Цель: используя множественную регрессионную модель, научиться строить регрессионную зависимость.
Общее назначение множественной регрессии (этот термин был впервые использован в работе К. Пирсона – Pearson, 1908) состоит в анализе связи между несколькими независимыми переменными называемыми также регрессорами или предикторами) и зависимой переменной. Например, агент по продаже недвижимости мог бы вносить в каждый элемент реестра размер дома (в квадратных футах), число спален, средний доход населения в этом районе в соответствии с данными переписи и субъективную оценку привлекательности дома. Как только эта информация собрана для различных домов, было бы интересно посмотреть, связаны ли и каким образом эти характеристики дома с ценой, по которой он был продан.
Например, могло бы оказаться, что число спальных комнат
является лучшим предсказывающим фактором (предиктором)
для цены продажи дома в некотором специфическом районе,
чем «привлекательность» дома (субъективная оценка). Могли бы
также обнаружиться и «выбросы», т.е. дома, которые могли бы
быть проданы дороже, учитывая их расположение и
характеристики.
Как только эта так называемая линия регрессии определена, аналитик оказывается в состоянии построить график ожидаемой (предсказанной) оплаты труда и реальных обязательств компании по выплате жалования. Таким образом, аналитик может определить, какие позиции недооценены (лежат ниже линии регрессии), какие оплачиваются слишком высоко (лежат выше линии регрессии), а какие оплачены адекватно.
В общественных и естественных науках процедуры множественной регрессии чрезвычайно широко используются в
исследованиях. В общем, множественная регрессия позволяет
исследователю задать вопрос (и, вероятно, получить ответ) о том, «что является лучшей посылкой для…». Например, исследователь в области образования мог бы пожелать узнать, какие факторы являются лучшими условиями успешной учебы в средней школе. А психолога мог бы заинтересовать вопрос, какие индивидуальные качества позволяют лучше предсказать степень социальной адаптации индивида. Социологи, вероятно, хотели бы найти те социальные индикаторы, которые лучше других предсказывают результат адаптации новой иммигрантской группы и степень ее слияния с обществом.
Заметим, что термин «множественная» указывает на наличие
нескольких предикторов или регрессоров, которые используются в модели.
Множественная корреляция имеет второе название —множественное предсказание. Цель множественного
предсказания — оценивание зависимой переменной Y по
линейной (или нелинейной) комбинации m независимых
переменных
Термин »множественная регрессия» объясняется тем, что
анализу подвергается зависимость одного признака (результирующего) от набора независимых (факторных) признаков.
Разделение признаков на результирующий и факторные осуществляется исследователем на основе содержательных представлений об изучаемом явлении (процессе). Все признаки должны быть количественными (хотя допускается и использование дихотомических признаков, принимающих лишь два значения, например 0 и 1). Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и
необходимо учитывать влияние нескольких факторов.
Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.
Различие линейных и нелинейных регрессий
Линейная регрессия описывается уравнением:
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.
Примеры регрессий, нелинейных по объясняющим переменным, но линейных по оцениваемым параметрам:
- равносторонняя гипербола
Примеры нелинейных регрессий, по оцениваемым параметрам:
- степенная
- показательная
- экспоненциальная
Наиболее часто применяются следующие модели регрессий:
- прямой
- гиперболы
- параболы
- показательной функции
- степенной функции
Чаще всего исследователи ограничиваются линейной
регрессией, т.е. зависимостью вида:
где Y – результирующий признак; – факторные
признаки; – коэффициенты регрессии; а – свободный
член уравнения; – »ошибка» модели.
Это уравнение представляет собой многомерное предсказание переменной Y по аналогии с одномерным случаем.
Уравнение (1) называется линейным, поскольку b-коэффициенты входят туда в первой степени. Уравнение (1) само по себе не представляет особой ценности; должна быть установлена процедура, посредством которой для выбирают “хорошие” (близкие к достоверным, наиболее вероятные) значения.
Как и в случае парной регрессии, построение уравнения
множественной регрессии осуществляется в два этапа:
- определение модели;
- оценка параметров выбранной модели.
Определение модели включает в себя решение двух задач:
1) отбор p факторов наиболее влияющих на величину y;
2) выбор вида уравнения регрессии
Включение в уравнение множественной регрессии того или иного набора факторов связано, прежде всего, с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями.
1) Факторы, включаемые во множественную регрессию,
должны отвечать следующим требованиям.
2) Факторы должны быть количественными. Добавление
в модель качественного фактора, требует присвоения ему количественного значения (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости недвижимости районам присваиваются ранги).
3) Число включаемых факторов должно быть в 6–7 раз меньше объема совокупности, по которой строится регрессия. Факторы не должны быть взаимозависимы. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результат, и параметры уравнения регрессии не будут адекватно интерпретироваться.
Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором из р факторов, то для нее рассчитывается показатель детерминации , который фиксирует долю
объясненной вариации результативного признака за счет рассматриваемых в регрессии р факторов. Влияние других, не учтенных в модели, факторов оценивается как с соответствующей остаточной дисперсией
При дополнительном включении в регрессию (р + 1) – фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться, т. е.
Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включаемый в анализ фактор хp+1 не улучшает модель и является лишним. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по t-критерию Стьюдента.
Отбор факторов производится на основе качественного анализа и обычно осуществляется в две стадии:
- на первой подбираются факторы исходя из сущности проблемы;
- на второй – на основе матрицы показателей корреляции оп-
ределяют t-статистики для параметров регрессии.
Коэффициенты корреляции между объясняющими переменными позволяют исключать из модели дублирующие факторы. Считается, что две переменные находятся между собой в линейной зависимости, если
Если факторы явно коллинеарны, то они дублируют друг друга и один из них нужно исключить из регрессии. Предпочтение отдается тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.
Пусть, например, при изучении зависимости y = f (х, z, v)
матрица парных коэффициентов корреляции оказалась следую-
щей:
Очевидно, что факторы q и z дублируют друг друга, поскольку связь между ними В анализ целесообразно включить фактор z, а не q, поскольку корреляция z с результатом у сильнее, чем корреляция фактора q и у, и слабее межфакторная корреляция между z и Поэтому в данном случае в уравнение множественной регрессии включаются факторы z и x.
Выбор формы уравнения регрессии
Как и в парной зависимости, возможны разные виды уравнений множественной регрессии: линейные и нелинейные. Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции.
В уравнении линейной множественной регрессии
параметры при хi называются коэффициентами «чистой» регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизмененном значении других факторов, закрепленных на среднем уровне.
Предположим, например, что зависимость расходов на
продукты питания по совокупности семей характеризуется следующим уравнением:
где у – расходы семьи за месяц, тыс. руб.;
– месячный доход на одного члена семьи, тыс. руб.;
– размер семьи, человек;
– коммунальные платежи на одного члена семьи, тыс. руб.
Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс. руб. расходы на питание возрастут в среднем на 330 руб. при том же среднем размере семьи. Иными словами, 33 % дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на 420 руб. Увеличение коммунальных платежей при тех же ее доходах предполагает дополнительный рост расходов на 250 руб.
Оценка параметров уравнения множественной регрессии
Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). Для линейных уравнений регрессии (и нелинейных уравнений, приводимых к линейным) строится система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии. В случае линейной множественной регрессии
система нормальных уравнений имеет следующий вид:
Для определения значимости факторов и повышения точности результата используется уравнение множественной регрессии в стандартизованном масштабе:
где – стандартизованные переменные, рассчитываемые по формулам:
для которых среднее значение равно нулю а среднее
квадратическое отклонение равно единице
Величины βi называются стандартизованными коэффициентами регрессии. К уравнению множественной регрессии в
стандартизованном масштабе применим МНК. Стандартизованные коэффициенты регрессии (β-коэффициенты) определяются
из следующей системы уравнений:
либо из системы уравнений
Стандартизованные коэффициенты регрессии показывают, на сколько сигм (средних квадратических отклонений) изменится в среднем результат, если соответствующий фактор хi изменится на одну сигму при неизменном среднем уровне других факторов. В силу того, что все переменные заданы как центрированные и нормированные, стандартизованные коэффициенты регрессии βi сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия на результат. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от коэффициентов «чистой» регрессии, которые несравнимы между собой.
В парной зависимости стандартизованный коэффициент
регрессии β есть не что иное, как линейный коэффициент корреляции ryx.
Связь коэффициентов множественной регрессии bi со стандартизованными коэффициентами βi описывается соотношением
Параметр а определяется из соотношения:
Средние коэффициенты эластичности для линейной множественной регрессии рассчитываются по формуле
и показывают, на сколько процентов в среднем по совокупности изменится результат у от своей величины при изменении фактора х на 1 % от своего значения при неизменных значениях других факторов.
Предположим, что по ряду регионов множественная регрессия величины импорта на определенный товар относительно
отечественного его производства , изменения запасов и потребления на внутреннем рынке оказалась следующей
При этом средние значения для рассматриваемых признаков составили:
На основе данной информации могут быть найдены средние по совокупности показатели эластичности. Для данного примера они окажутся равными:
1) С ростом величины отечественного производства на 1 % размер импорта в среднем по совокупности регионов возрастет на 1,06 % при неизменных запасах и потреблении семей; 2) с ростом изменения запасов на 1 % при неизменном производстве и внутреннем потреблении величина импорта увеличивается в среднем на
0,056 %; 3) при неизменном объеме производства и величины запасов с увеличением внутреннего потребления на 1 % импорт товара возрастает в среднем по совокупности регионов на 1,987 %.
Средние показатели эластичности можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат. В рассматриваемом примере наибольшее воздействие на величину импорта оказывает размер внутреннего потребления товара , а наименьшее – изменение запасов
Дополнительные лекции:
- Случайные события и их вероятности
- Случайные величины
- Функции случайных величин
- Числовые характеристики случайных величин
- Законы больших чисел
- Статистические оценки
- Статистическая проверка гипотез
- Статистическое исследование зависимостей
- Теории игр
- Вероятность события
- Теорема умножения вероятностей
- Формула полной вероятности
- Теорема о повторении опытов
- Нормальный закон распределения
- Определение законов распределения случайных величин на основе опытных данных
- Системы случайных величин
- Нормальный закон распределения для системы случайных величин
- Вероятностное пространство
- Классическое определение вероятности
- Геометрическая вероятность
- Условная вероятность
- Схема Бернулли
- Многомерные случайные величины
- Предельные теоремы теории вероятностей
- Оценки неизвестных параметров
- Генеральная совокупность
Среднее выборки или выборочное среднее (sample average, mean) представляет собой среднее арифметическое всех значений выборки .
В MS EXCEL для вычисления среднего выборки можно использовать функцию СРЗНАЧ() . В качестве аргументов функции нужно указать ссылку на диапазон, содержащий значения выборки .
Выборочное среднее является «хорошей» (несмещенной и эффективной) точечной оценкой математического ожидания случайной величины (см. ниже ), т.е. среднего значения исходного распределения, из которого взята выборка .
Примечание : О вычислении доверительных интервалов при оценке математического ожидания можно прочитать, например, в статье Доверительный интервал для оценки среднего (дисперсия известна) в MS EXCEL .
Некоторые свойства среднего арифметического :
- Сумма всех отклонений от среднего значения равна 0:
- Если к каждому из значений x i прибавить одну и туже константу с , то среднее арифметическое увеличится на такую же константу;
- Если каждое из значений x i умножить на одну и туже константу с , то среднее арифметическое умножится на такую же константу.
Математическое ожидание
Среднее значение можно вычислить не только для выборки, но для случайной величины, если известно ее распределение . В этом случае среднее значение имеет специальное название — Математическое ожидание. Математическое ожидание характеризует «центральное» или среднее значение случайной величины.
Примечание : В англоязычной литературе имеется множество терминов для обозначения математического ожидания : expectation, mathematical expectation, EV (Expected Value), average, mean value, mean, E[X] или first moment M[X].
Если случайная величина имеет дискретное распределение , то математическое ожидание вычисляется по формуле:
где x i – значение, которое может принимать случайная величина, а р(x i ) – вероятность, что случайная величина примет это значение.
Если случайная величина имеет непрерывное распределение , то математическое ожидание вычисляется по формуле:
где р(x) – плотность вероятности (именно плотность вероятности , а не вероятность, как в дискретном случае).
Для каждого распределения, из представленных в MS EXCEL, Математическое ожидание можно вычислить аналитически, как функцию от параметров распределения (см. соответствующие статьи про распределения ). Например, для Биномиального распределения среднее значение равно произведению его параметров: n*p (см. файл примера ).
Свойства математического ожидания
E[a*X]=a*E[X], где а — const
E[E[X]]=E[X] — т.к. величина E[X] — является const
E[X+Y]=E[X]+E[Y] — работает даже для случайных величин не являющихся независимыми.
СОВЕТ : Про другие показатели распределения — Дисперсию и Стандартное отклонение, можно прочитать в статье Дисперсия и стандартное отклонение в MS EXCEL .
Среднее арифметическое в Excel
Среднее арифметическое значение — самый известный статистический показатель. В этой заметке рассмотрим его смысл, формулы расчета и свойства.
Средняя арифметическая как оценка математического ожидания
Теория вероятностей занимается изучением случайных величин. Для этого строятся различные характеристики, описывающие их поведение. Одной из основных характеристик случайной величины является математическое ожидание, являющееся своего рода центром, вокруг которого группируются остальные значения.
Формула матожидания имеет следующий вид:
где M(X) – математическое ожидание
xi – это случайные величины
То есть, математическое ожидание случайной величины — это взвешенная сумма значений случайной величины, где веса равны соответствующим вероятностям.
Математическое ожидание суммы выпавших очков при бросании двух игральных костей равно 7. Это легко подсчитать, зная вероятности. А как рассчитать матожидание, если вероятности не известны? Есть только результат наблюдений. В дело вступает статистика, которая позволяет получить приблизительное значение матожидания по фактическим данным наблюдений.
Математическая статистика предоставляет несколько вариантов оценки математического ожидания. Основное среди них – среднее арифметическое.
Среднее арифметическое значение рассчитывается по формуле, которая известна любому школьнику.
где xi – значения переменной,
n – количество значений.
Среднее арифметическое – это соотношение суммы значений некоторого показателя с количеством таких значений (наблюдений).
Свойства средней арифметической (математического ожидания)
Теперь рассмотрим свойства средней арифметической, которые часто используются при алгебраических манипуляциях. Правильней будет вновь вернутся к термину математического ожидания, т.к. именно его свойства приводят в учебниках.
Матожидание в русскоязычной литературе обычно обозначают как M(X), в иностранных учебниках можно увидеть E(X). Встречается обозначение греческой буквой μ (читается «мю»). Для удобства предлагаю вариант M(X).
Итак, свойство 1. Если имеются переменные X, Y, Z, то математическое ожидание их суммы равно сумме их математических ожиданий.
M(X+Y+Z) = M(X) + M(Y) + M(Z)
Допустим, среднее время, затрачиваемое на мойку автомобиля M(X) равно 20 минут, а на подкачку колес M(Y) – 5 минут. Тогда общее среднее арифметическое время на мойку и подкачку составит M(X+Y) = M(X) + M(Y) = 20 + 5 = 25 минут.
Свойство 2. Если переменную (т.е. каждое значение переменной) умножить на постоянную величину (a), то математическое ожидание такой величины равно произведению матожидания переменной и этой константы.
К примеру, среднее время мойки одной машины M(X) 20 минут. Тогда среднее время мойки двух машин составит M(aX) = aM(X) = 2*20 = 40 минут.
Свойство 3. Математическое ожидание постоянной величины (а) есть сама эта величина (а).
Если установленная стоимость мойки легкового автомобиля равна 100 рублей, то средняя стоимость мойки нескольких автомобилей также равна 100 рублей.
Свойство 4. Математическое ожидание произведения независимых случайных величин равно произведению их математических ожиданий.
Автомойка за день в среднем обслуживает 50 автомобилей (X). Средний чек – 100 рублей (Y). Тогда средняя выручка автомойки в день M(XY) равна произведению среднего количества M(X) на средний тариф M(Y), т.е. 50*100 = 500 рублей.
Формула среднего значения в Excel
Среднее арифметическое чисел в Excel рассчитывают с помощью функции СРЗНАЧ. Выглядит примерно так.
У этой формулы есть замечательное свойство. Если в диапазоне, по которому рассчитывается формула, присутствуют пустые ячейки (не нулевые, а именно пустые), то они исключается из расчета.
Вызвать функцию можно разными способами. Например, воспользоваться командой автосуммы во вкладке Главная:
После вызова формулы нужно указать диапазон данных, по которому рассчитывается среднее значение.
Есть и стандартный способ для всех функций. Нужно нажать на кнопку fx в начале строки формул. Затем либо с помощью поиска, либо просто по списку выбрать функцию СРЗНАЧ (в категории «Статистические»).
Средняя арифметическая взвешенная
Рассмотрим следующую простую задачу. Между пунктами А и Б расстояние S, которые автомобиль проехал со скоростью 50 км/ч. В обратную сторону – со скоростью 100 км/ч.
Какова была средняя скорость движения из А в Б и обратно? Большинство людей ответят 75 км/ч (среднее из 50 и 100) и это неправильный ответ. Средняя скорость – это все пройденное расстояние, деленное на все потраченное время. В нашем случае все расстояние – это S + S = 2*S (туда и обратно), все время складывается из времени из А в Б и из Б в А. Зная скорость и расстояние, время найти элементарно. Исходная формула для нахождения средней скорости имеет вид:
Теперь преобразуем формулу до удобного вида.
Правильный ответ: средняя скорость автомобиля составила 66,7 км/ч.
Средняя скорость – это на самом деле среднее расстояние в единицу времени. Поэтому для расчета средней скорости (среднего расстояния в единицу времени) используется средняя арифметическая взвешенная по следующей формуле.
где x – анализируемый показатель; f – вес.
Аналогичным образом по формуле средневзвешенной средней рассчитывается средняя цена (средняя стоимость на единицу продукции), средний процент и т.д. То есть если средняя считается по другим усредненным значениям, нужно применить среднюю взвешенную, а не простую.
Формула средневзвешенного значение в Excel
Обычная функция среднего значения в Excel СРЗНАЧ, к сожалению, считает только среднюю простую. Готовой формулы для среднего взвешенного значения в Excel нет. Однако расчет несложно сделать подручными средствами.
Самый понятный вариант создать дополнительный столбец. Выглядит примерно так.
Имеется возможность сократить количество расчетов. Есть функция СУММПРОИЗВ. С ее помощью можно рассчитать числитель одним действием. Разделить на сумму весов можно в этой же ячейке. Вся формула для расчета среднего взвешенного значения в Excel выглядит так:
Интерпретация средней взвешенной такая же, как и у средней простой. Средняя простая – это частный случай взвешенной, когда все веса равны 1.
Физический смысл средней арифметической
Представим, что имеется спица, на которой в разных местах нанизаны грузики различной массы.
Как отыскать центр тяжести? Центр тяжести – это такая точка, за которую можно ухватиться, и спица при этом останется в горизонтальном положении и не будет переворачиваться под действием силы тяжести. Она должна быть в центре всех масс, чтобы силы слева равнялись силам справа. Для нахождения точки равновесия следует рассчитать среднее арифметическое взвешенное расстояний от начала спицы до каждого грузика. Весами будут являться массы грузиков (mi), что в прямом смысле слова соответствует понятию веса. Таким образом, среднее арифметическое расстояние – это центр равновесия системы, когда силы с одной стороны точки уравновешивают силы с другой стороны.
И последнее. В русском языке так сложилось, что под словом «средний» обычно понимают именно среднее арифметическое. То есть моду и медиану как-то не принято называть средним значением. А вот на английском языке слово «средний» (average) может трактоваться и как среднее арифметическое (mean), и как мода (mode), и как медиана (median). Так что при чтении иностранной литературы следует быть бдительным.
Формула математическое ожидания в MS Excel – расчет по шагам
Среднее выборки или выборочное среднее (sample average, mean) представляет собой среднее арифметическое всех значений выборки.
В MS EXCEL для вычисления среднего выборки можно использовать функцию СРЗНАЧ() . В качестве аргументов функции нужно указать ссылку на диапазон, содержащий значения выборки.
Выборочное среднее является «хорошей» (несмещенной и эффективной) точечной оценкой математического ожидания случайной величины (см. ниже), т.е. среднего значения исходного распределения, из которого взята выборка.
Примечание: О вычислении доверительных интервалов при оценке математического ожидания можно прочитать, например, в статье Доверительный интервал для оценки среднего (дисперсия известна) в MS EXCEL.
Некоторые свойства среднего арифметического:
- Сумма всех отклонений от среднего значения равна 0:
- Если к каждому из значений xi прибавить одну и туже константу с, то среднее арифметическое увеличится на такую же константу;
- Если каждое из значений xi умножить на одну и туже константу с, то среднее арифметическое умножится на такую же константу.
Математическое ожидание
Среднее значение можно вычислить не только для выборки, но для случайной величины, если известно ее распределение. В этом случае среднее значение имеет специальное название – Математическое ожидание. Математическое ожидание характеризует «центральное» или среднее значение случайной величины.
Примечание: В англоязычной литературе имеется множество терминов для обозначения математического ожидания: expectation, mathematical expectation, EV (Expected Value), average, mean value, mean, E[X] или first moment M[X].
Если случайная величина имеет дискретное распределение, то математическое ожидание вычисляется по формуле:
где xi – значение, которое может принимать случайная величина, а р(xi) – вероятность, что случайная величина примет это значение.
Если случайная величина имеет непрерывное распределение, то математическое ожидание вычисляется по формуле:
где р(x) – плотность вероятности (именно плотность вероятности, а не вероятность, как в дискретном случае).
Для каждого распределения, из представленных в MS EXCEL, Математическое ожидание можно вычислить аналитически, как функцию от параметров распределения (см. соответствующие статьи про распределения). Например, для Биномиального распределения среднее значение равно произведению его параметров: n*p (см. файл примера ).
Функция СРОТКЛ в Excel используется для анализа числового ряда, передаваемого в качестве аргумента, и возвращает число, соответствующее среднему значению, рассчитанному для модулей отклонений относительно среднего арифметического для исследуемого ряда.
Примеры методов анализа числовых рядов в Excel
Смысл данной функции становится предельно ясен после рассмотрения примера. Допустим, на протяжении суток каждые 3 часа фиксировались показатели температуры воздуха. Был получен следующий ряд значений: 16, 14, 17, 21, 25, 26, 22, 18. С помощью функции СРЗНАЧ можно определить среднее значение температуры – 19,88 (округлим до 20).
Для определения отклонения каждого значения от среднего необходимо вычесть из него полученное среднее значение. Например, для первого замера температуры это будет равно 16-20=-4. Получаем ряд значений: -4, -6, -3, 1, 5, 6, 2, -2. Поскольку СРОТКЛ по определению работает с модулями отклонений, итоговый ряд значений имеет вид: 4, 6, 3, 1, 5, 6, 2, 2. Теперь нужно получить среднее значение для данного ряда с помощью функции СРЗНАЧ – примерно 3,63. Именно таков алгоритм работы рассматриваемой функции.
Таким образом, значение, вычисляемое функцией СРОТКЛ, можно рассчитать с помощью формулы массива без использования этой функции. Допустим, перечисленные результаты замеров температур записаны в столбец (ячейки A1:A8). Тогда для определения среднего значения отклонений можно использовать формулу =СРЗНАЧ(ABS(A1:A8-СРЗНАЧ(A1:A8))). Однако, рассматриваемая функция значительно упрощает расчеты.
Пример 1. Имеются два ряда значений, представляющих собой результаты наблюдений одного и того же физического явления, сделанные в ходе двух различных экспериментов. Определить, среднее отклонение от среднего значения результатов для какого эксперимента является максимальным?
Вид таблицы данных:
Используем следующую формулу:
Сравниваем результаты, возвращаемые функцией СРОТКЛ для первого и второго ряда чисел с использованием функции ЕСЛИ, возвращаем соответствующий результат.
В результате мы получили среднее отклонение от среднего значения. Это весьма интересная функция для технического анализа финансовых рынков, прогнозов курсов валют и даже позволяет повысить шансы выигрышей в лотереях.
Формула расчета линейного коэффициента вариации в Excel
Пример 2. Студенты сдали экзамены по различным предметам. Определить число студентов, которые удовлетворяют следующему критерию успеваемости – линейный коэффициент вариации оценок не превышает 15%.
Вид таблицы данных:
Линейный коэффициент вариации определяется как отношение среднего отклонения к среднему значению. Для расчета используем следующую формулу:
Растянем ее вниз по столбцу и получим следующие значения:
Для определения числа неуспешных студентов по указанному критерию используем функцию:
Правила использования функции СРОТКЛ в Excel
Функция имеет следующий синтаксис:
=СРОТКЛ( число1 ;[число2];. )
- число1 – обязательный, принимает числовое значение, характеризующее первый член ряда значений, для которых необходимо определить среднее отклонение от среднего;
- [число2];… – необязательный, принимает второе и последующие значения из исследуемого числового ряда.
- При использовании функции СРОТКЛ удобнее задавать первый аргумент в виде ссылки на диапазон ячеек, например =СРОТКЛ(A1:A8) вместо перечисления (=СРОТКЛ(A1;A2:A3…;A8)).
- В качестве аргумента функции может быть передана константа массива, например =СРОТКЛ(<2;5;4;7;10>).
- Для получения достоверного результата необходимо привести все значения ряда к единой системе измерения величин. Например, если часть длин указана в мм, а остальные – в см, результат расчетов будет некорректен. Необходимо преобразовать все значения в мм или см соответственно.
- Если в качестве аргументов функции переданы нечисловые данные, которые не могут быть преобразованы к числам, функция вернет код ошибки #ЧИСЛО!. Если хотя бы одно значение из ряда является числовым, функция выполнит расчет, не возвращая код ошибки.
- Не преобразуемые к числам текстовые строки и пустые ячейки не учитываются в расчете. Если ячейка содержит значение 0 (нуль), оно будет учтено.
- Логические данные автоматически преобразуются к числовым: ИСТИНА – 1, ЛОЖЬ – 0 соответственно.
1. Вычислить математическое ожидание:
1) Пуск > Все программы > Microsoft Office > Microsoft Excel
2) Так как функция математического ожидания – это т оже самое, что и функция среднего арифметического, то: в пустой ячейке вводим «=», далее нажимаем fx, выбираем функцию СРЗНАЧ, выделяем числовые данные нашей исходной таблицы.
2. Вычислить дисперсию:
Вводим =, далее – fx, “Статистические” – “ДИСП”, выделить числовые данные нашей исходной таблицы.
3. Среднее квадратичесое отклонение (не смещённое):
Вводим =, далее – fx, “Статистические” – “СТАНДТОТКЛОН”, выделить числовые данные нашей исходной таблицы.
4. Среднее квадратическое отклонение (смещённое):
Вводим =, далее – fx, “Статистические” – “СТАНДТОТКЛОН”, выделить числовые данные нашей исходной таблицы.
Вывод: Microsoft Excel является одной из самых удобных компьютерных программ, с помощью которых можно высчитать статические данные. В этом я убедился, когда высчитывал вышеуказанные данные.