Как по среднему значению найти исходные значения

Как найти число зная среднее арифметическое

Среднее арифметическое — это число, равное сумме всех чисел множества, делённой на их количество.

Среднее арифметическое двух чисел вычисляется по формуле:

Xср — среднее арифметическое 2-х чисел;
X1 — первое число;
X2 — второе число.

Быстро выполнить эту математическую операцию можно с помощью нашей онлайн программы. Для этого необходимо в соответствующее поле ввести исходное значение и нажать кнопку.

На этой странице представлен самый простой онлайн калькулятор расчета среднего арифметического двух чисел (среднее между двумя числами). С помощью этого калькулятора вы в один клик сможете рассчитать среднее арифметическое 2-х чисел, если известны исходные числа.

Среднее арифметическое — статистический показатель, который демонстрирует среднее значение заданного массива данных. Такой показатель рассчитывается как дробь, в числителе которой стоит сумма всех значений массива, а в знаменателе — их количество. Среднее арифметическое — важный коэффициент, который находит применение в бытовых расчетах.

Смысл коэффициента

Среднее арифметическое — элементарный показатель для сравнения данных и подсчета приемлемого значения. К примеру, в разных магазинах продается банка пива конкретного производителя. Но в одном магазине она стоит 67 рублей, в другом — 70 рублей, в третьем — 65 рублей, а в последнем — 62 рубля. Довольно большой разбег цен, поэтому покупателю будет интересна средняя стоимость банки, чтобы при покупке товара он мог сравнить свои расходы. В среднем банка пива по городу имеет цену:

Средняя цена = (67 + 70 + 65 + 62) / 4 = 66 рублей.

Зная среднюю цену, легко определить где выгодно покупать товар, а где придется переплатить.

Среднее арифметические постоянно используется в статистических расчетах в случаях, если анализируется однородный набор данных. В примере выше — это цена банки пива одной марки. Однако мы не можем сравнить цену на пиво разных производителей или цены на пиво и лимонад, так как в этом случае разброс значений будет больше, средняя цена будет смазана и недостоверна, а сам смысл расчетов исказится до карикатурного «средняя температура по больнице». Для расчета разнородных массивов данных используется среднее арифметическое взвешенное, когда каждое значение получает свой весовой коэффициент.

Подсчет среднего арифметического

Формула для вычислений предельно проста:

P = (a1 + a2 + … an) / n,

где an – значение величины, n – общее количество значений.

Для чего может использоваться данный показатель? Первое и очевидное его применение — это статистика. Практически в каждом статистическом исследовании используется показатель среднего арифметического. Это может быть средний возраст вступления в брак в России, средняя оценка по предмету у школьника или средние траты на продукты в день. Как уже говорилось выше, без учета весов подсчет средних значений может давать странные или абсурдные значения.

К примеру, президент Российской Федерации сделал заявление, что по статистике, средняя зарплата россиянина составляет 27 000 рублей. Для большинства жителей России такой уровень зарплаты показался абсурдным. Не мудрено, если при расчете учитывать размер доходов олигархов, руководителей промышленных предприятий, крупных банкиров с одной стороны и зарплаты учителей, уборщиков и продавцов с другой. Даже средние зарплаты по одной специальности, например, бухгалтера, будут иметь серьезные отличия в Москве, Костроме и Екатеринбурге.

Как считать средние для разнородных данных

В ситуациях с подсчетом заработной платы важно учитывать вес каждого значения. Это означает, что зарплаты олигархов и банкиров получили бы вес, например, 0,00001, а зарплаты продавцов — 0,12. Это цифры с потолка, но они приблизительно иллюстрируют распространенность олигархов и продавцов в российском обществе.

Таким образом, для подсчета среднего средних или среднего значения в разнородном массиве данных, требуется использовать среднее арифметическое взвешенное. Иначе вы получите среднюю зарплату по России на уровне 27 000 рублей. Если же вы хотите узнать свою среднюю оценку по математике или среднее количество забитых шайб выбранного хоккеиста, то вам подойдет калькулятор среднего арифметического.

Наша программа представляет собой простой и удобный калькулятор для расчета среднего арифметического. Для выполнения расчетов вам понадобится ввести только значения параметров.

Рассмотрим пару примеров

Расчет средней оценки

Многие учителя используют метод среднего арифметического для определения годовой оценки по предмету. Давайте представим, что ребенок получил следующие четвертные отметки по математике: 3, 3, 5, 4. Какую годовую оценку ему поставит учитель? Воспользуемся калькулятором и посчитаем среднее арифметическое. Для начала выберете соответствующее количество полей и введите значения оценок в появившиеся ячейки:

(3 + 3 + 5 + 4) / 4 = 3,75

Учитель округлит значение в пользу ученика, и школьник получит за год твердую четверку.

Расчет съеденных конфет

Давайте проиллюстрируем некоторую абсурдность среднего арифметического. Представим, что у Маши и Вовы было 10 конфет. Маша съела 8 конфет, а Вова — всего 2. Сколько конфет в среднем съел каждый ребенок? При помощи калькулятора легко вычислить, что в среднем дети съели по 5 конфет, что совершенно не соответствует действительности и здравому смыслу. Этот пример показывает, что показатель среднего арифметического важно считать для осмысленных наборов данных.

Заключение

Расчет среднего арифметического широко используется во многих научных сферах. Этот показатель популярен не только в статистических расчетах, но и в физике, механике, экономике, медицине или финансах. Используйте наши калькуляторы в качестве помощника для решения задач на вычисление среднего арифметического.

Что такое среднее арифметическое

Средним арифметическим нескольких величин является отношение суммы этих величин к их количеству.

Среднее арифметическое определенного ряда чисел называется сумма всех этих чисел, поделенная на количество слагаемых. Таким образом, среднее арифметическое является средним значением числового ряда.

Чему равно среднее арифметическое нескольких чисел? А равно они сумме этих чисел, которая поделена на количество слагаемых в этой сумме.

Как найти среднее арифметическое число

В вычислении или нахождении среднего арифметического нескольких чисел, нет ничего сложного, достаточно сложить все представленные числа, а полученную сумму разделить на количество слагаемых. Полученный результат и будет средним арифметическим этих чисел.

Рассмотрим этот процесс более подробно. Что же нам нужно сделать для вычисления среднего арифметического и получения конечного результата этого числа.

Во-первых, для его вычисления нужно определить набор чисел или их количество. В этот набор могут входить большие и маленькие числа, и их количество может быть каким угодно.

Во-вторых, все эти числа нужно сложить и получить их сумму. Естественно, если числа несложные и их небольшое количество, то вычисления можно произвести, записав от руки. А если же набор чисел впечатляющий, то лучше воспользоваться калькулятором или электронной таблицей.

И, в-четвертых, полученную от сложения сумму необходимо разделить на количество чисел. В итоге мы получим результат, который и будет средним арифметическим числом этого ряда.

Для чего нужно среднее арифметическое

Среднее арифметическое может пригодиться не только для решения примеров и задач на уроках математики, но для других целей, необходимых в повседневной жизни человека. Такими целями может служить подсчет среднего арифметического для расчета среднего расхода финансов в месяц, или для подсчета времени, которое вы тратите на дорогу, также для того чтобы узнать посещаемость, производительность, скорость движения, урожайность и много другого.

Так, например, давайте попробуем рассчитать, сколько времени вы тратите на дорогу в школу. Идя в школу или возвращаясь, домой вы каждый раз тратите на дорогу разное время, так как когда вы спешите, то вы идете быстрее, и поэтому дорога занимает меньше времени. А вот, возвращаясь, домой вы можете идти не спеша, общаясь с одноклассниками, любуясь природой и поэтому времени на дорогу займет больше.

Поэтому, точно определить время, затраченное на дорогу у вас не получиться, но благодаря среднему арифметическому вы сможете приблизительно узнать время, которое вы тратите на дорогу.

Припустим, что в первый день после выходных, вы потратили на путь от дома до школу пятнадцать минут, на второй день ваш путь занял двадцать минут, в среду вы прошли расстояние за двадцать пять минут, за такое же время составил ваш путь и в четверг, а в пятницу вы никуда не торопились и возвращались целых пол часа.

Давайте найдем среднее арифметическое, прибавив время, за все пять дней. Итак,

15 + 20 + 25 + 25 + 30 = 115

Теперь разделим эту сумму на количество дней

Благодаря такому способу вы узнали, что путь от дома до школы вы приблизительно тратите двадцать три минуты своего времени.

Домашнее задание

1.Путем нехитрых вычислений найдите среднее арифметическое число посещаемости учеников вашего класса за неделю.

2. Найдите среднее арифметическое:

3. Решите задачу:

Тема среднего арифметического и среднего геометрического входит в программу математики 6-7 классов. Так как параграф довольно прост для понимания, его быстро проходят, и к завершению учебного года школьники его забывают. Но знания в базовой статистике нужны для сдачи ЕГЭ, а также для международных экзаменов SAT. Да и для повседневной жизни развитое аналитическое мышление никогда не помешает.

Как вычислить среднее арифметическое и среднее геометрическое чисел

Допустим, имеется ряд чисел: 11, 4, и 3. Средним арифметическим называется сумма всех чисел, поделенная на количество данных чисел. То есть в случае чисел 11, 4, 3, ответ будет 6. Как образом получается 6?

Решение: (11 + 4 + 3) / 3 = 6

В знаменателе должно стоять число, равное количеству чисел, среднее которых нужно найти. Сумма делится на 3, так как слагаемых три.

Теперь надо разобраться со средним геометрическим. Допустим, есть ряд чисел: 4, 2 и 8.

Средним геометрическим чисел называется произведение всех данных чисел, находящееся под корнем со степенью, равной количеству данных чисел.То есть в случае чисел 4, 2 и 8 ответом будет 4. Вот каким образом это получилось:

Решение: ∛(4 × 2 × 8) = 4

В обоих вариантах получились целые ответы, так как для примера были взяты специальные числа. Так происходит отнюдь не всегда. В большинстве случаев ответ приходится округлять или оставлять под корнем. Например, для чисел 11, 7 и 20 среднее арифметическое ≈ 12,67, а среднее геометрическое — ∛1540. А для чисел 6 и 5 ответы, соответственно, будут 5,5 и √30.

Может ли так произойти, что среднее арифметическое станет равным среднему геометрическому?

Конечно, может. Но только в двух случаях. Если имеется ряд чисел, состоящий только либо из единиц, либо из нулей. Примечательно также то, что ответ не зависит от их количества.

Доказательство с единицами: (1 + 1 + 1) / 3 = 3 / 3 = 1 (среднее арифметическое).

∛(1 × 1 × 1) = ∛1 = 1(среднее геометрическое).

Доказательство с нулями: (0 + 0) / 2=0 (среднее арифметическое).

√(0 × 0) = 0 (среднее геометрическое).

Другого варианта нет и быть не может.

Под понятием среднего арифметического чисел подразумевается результат несложной последовательности расчётов средней величины для ряда чисел, определённых заранее. Необходимо отметить, что такое значение в данное время широко применяется специалистами ряда отраслей. Например, известны формулы при проведении расчётов экономистами или работниками статистической отрасли, где требуется иметь значение данного типа. Кроме этого, этот показатель активно используют и в ряде других отраслей, которые являются смежными с вышеуказанными.

Одной из особенностей расчётов данного значения является простота процедуры. Провести расчёты сможет любой желающий. Для этого не надо иметь специальное образование. Часто нет необходимости применять и вычислительную технику.

В качестве ответа на вопрос как найти среднее арифметическое рассмотрим ряд ситуаций.

Самым простым вариантом расчёта данной величины есть подсчёт её для двух чисел. Процедура проведения расчёта в этом случае является очень простой:

  1. Первоначально требуется провести операцию сложения выбранных чисел. Это часто можно сделать, как говорится, вручную, не используя электронную технику.
  2. После того как сложение произведено и получен его результат необходимо произвести деление. Данная операция подразумевает разделение суммы двух сложенных чисел на два – количество сложенных чисел. Именно такое действие и позволит получить требуемую величину.

Формула

Таким образом, формула для подсчёта требуемой величины в случае с двумя будет выглядеть следующим образом:

В этой формуле применяется следующее обозначение:

А и В – это заранее выбранные числа, для которых необходимо находить значение.

Нахождение значения для трёх

Проведение расчёта данной величины в ситуации, когда выбраны три числа, не будет сильно отличаться от предыдущего варианта:

  1. Для этого следует выбрать числа, необходимые в расчёте, и сложить их для получения общей суммы.
  2. После того как данная сумма трёх будет найдена, требуется опять совершить процедуру деления. При этом полученную сумму надо разделить уже на три, что соответствует количеству выбранных чисел.

Формула

Тем самым формула, необходимая при проведении расчётов арифметического трёх, будет выглядеть так:

В данной формуле принято следующее обозначение:

А, В и С – это числа, к которым необходимо будет находить среднее арифметическое.

Вычисление среднего арифметического четырёх

Как уже видно по аналогии с предыдущими вариантами вычисление данного значения для количества, равного четырём, будет носить следующий порядок:

  1. Выбираются четыре цифры, для которых надо вычислить среднее арифметическое значение. Далее производится суммирование и нахождение конечного результата этой процедуры.
  2. Теперь чтобы получить окончательный результат, следует взять полученную сумму четырёх и разделить её на четыре. Полученные данные и будут требуемым значением.

Формула

Из описанной выше последовательности действий по нахождению среднего арифметического для четырёх, можно получить следующую формулу:

В данной формуле переменные имеют следующее значение:

А, В, С и Е – это те, к которым необходимо найти значение среднего арифметического.

Применяя данную формулу, всегда можно будет вычислять требуемое значение для данного количества чисел.

Подсчёт среднего арифметического пяти

Выполнение данной операции потребует проведения определённого алгоритма действий.

  1. Прежде всего, надо выбрать пять чисел, для которых будет проходить вычисление среднего арифметического. После данного подбора эти числа, как и в предыдущих вариантах, необходимо просто сложить и получить конечную сумму.
  2. Полученную сумму надо будет поделить по их количеству на пять, что и позволит получить требуемое значение.

Формула

Тем самым аналогично с ранее рассмотренными вариантами получаем такую формулу для подсчёта среднего арифметического:

В данной формуле переменные имеют такое обозначение:

А, В, С, Е и Р – это числа, для которых необходимо получить среднее арифметическое.

Универсальная формула вычисления

Проводя рассмотрение различных вариантов формул для вычисления среднего арифметического , можно обратить внимание на то, что у них есть общая закономерность.

Поэтому практичнее будет применять общую формулу для нахождения среднего арифметического. Ведь бывают ситуации, когда количество и величина расчётов может быть очень большой. Поэтому разумнее будет использовать универсальную формулу и не выводить каждый раз индивидуальную технологию для расчёта данной величины.

Главным при определении формулы является принцип расчёта среднего арифметическог о.

Данный принцип как было видно из приведённых примеров, выглядит таким образом:

  1. Производится подсчёт количества чисел, которые заданы для получения требуемого значения. Эта операция может быть проведена как вручную при небольшом количестве чисел, так и при помощи вычислительной техники.
  2. Проводится суммирование выбранных чисел. Эта операция в большинстве ситуаций выполняется при помощи вычислительной техники, так как числа могут состоять из двух, трёх и более цифр.
  3. Сумма, которая получена в результате сложения выбранных чисел, должна быть поделена на их количество. Данная величина определяется на первоначальном этапе расчёта среднего арифметического.

Таким образом, общая формула для расчёта среднего арифметического ряда подобранных чисел будет выглядеть следующим образом:

Данная формула содержит следующие переменные:

А и В – это числа, которые выбраны заранее для расчёта их среднего арифметического.

N – это количество чисел, которые были взяты с целью проведения расчёта требуемого значения.

Подставляя каждый раз в данную формулу выбранные числа, мы всегда сможем получить требуемое значение среднего арифметического.

Как видно, нахождение среднего арифметического является несложной процедурой. Однако надо внимательно относиться к проводимым вычислениям и проводить проверку полученного результата. Такой подход объясняется тем, что даже в самых простых ситуациях существует вероятность получения ошибки, которая может повлиять потом на дальнейшие расчёты. В связи с этим рекомендуется применять вычислительную технику, которая способна произвести подсчёты любой сложности.

В математике среднее арифметическое значение чисел (или просто среднее) — это сумма всех чисел в данном наборе, разделенная на их количество. Это наиболее обобщенное и распространенное понятие средней величины. Как вы уже поняли, чтобы найти нужно суммировать все данные вам числа, а полученный результат разделить на количество слагаемых.

Что такое среднее арифметическое?

Давайте рассмотрим пример.

Пример 1 . Даны числа: 6, 7, 11. Нужно найти их среднее значение.

Для начала найдем сумму всех данных чисел.

Теперь разделим получившуюся сумму на количество слагаемых. Так как у нас слагаемых три, соответственно, мы будем делить на три.

Следовательно, среднее значение чисел 6, 7 и 11 — это 8. Почему именно 8? Да потому, что сумма 6, 7 и 11 будет такая же, как трех восьмерок. Это отлично видно на иллюстрации.

Среднее значение чем-то напоминает «выравнивание» ряда чисел. Как видите, кучки карандашей стали одного уровня.

Рассмотрим еще один пример, чтобы закрепить полученные знания.

Пример 2. Даны числа: 3, 7, 5, 13, 20, 23, 39, 23, 40, 23, 14, 12, 56, 23, 29. Нужно найти их среднее арифметическое значение.

3 + 7 + 5 + 13 + 20 + 23 + 39 + 23 + 40 + 23 + 14 + 12 + 56 + 23 + 29 = 330

Делим на количество слагаемых (в этом случае — 15).

Следовательно, среднее значение данного ряда чисел равно 22.

Теперь рассмотрим отрицательные числа. Вспомним, как их суммировать. Например, у вас есть два числа 1 и -4. Найдем их сумму.

Зная это, рассмотрим еще один пример.

Пример 3. Найти среднее значение ряда чисел: 3, -7, 5, 13, -2.

Находим сумму чисел.

3 + (-7) + 5 + 13 + (-2) = 12

Так как слагаемых 5, разделим получившуюся сумму на 5.

Следовательно, среднее арифметическое значение чисел 3, -7, 5, 13, -2 равно 2,4.

В наше время технологического прогресса гораздо удобнее использовать для нахождения среднего значения компьютерные программы. Microsoft Office Excel — одна из них. Искать среднее значение в Excel быстро и просто. Тем более, эта программа входит в пакет программ от Microsoft Office. Рассмотрим краткую инструкцию, значение с помощью этой программы.

Для того чтобы посчитать среднее значение ряда чисел, необходимо использовать функцию AVERAGE. Синтаксис для этой функции:
= Average (argument1, argument2, . argument255)
где argument1, argument2, . argument255 — это либо числа, либо ссылки на ячейки (под ячейками подразумеваются диапазоны и массивы).

Чтобы было более понятно, опробуем полученные знания.

  1. Введите числа 11, 12, 13, 14, 15, 16 в ячейки С1 — С6.
  2. Выделите ячейку С7, нажав на нее. В этой ячейке у нас будет отображаться среднее значение.
  3. Щелкните на вкладке «Формулы».
  4. Выберите More Functions > Statistical для того, чтобы открыть
  5. Выберите AVERAGE. После этого должно открыться диалоговое окно.
  6. Выделите и перетащите туда ячейки С1-С6, чтобы задать диапазон в диалоговом окне.
  7. Подтвердите свои действия клавишей «ОК».
  8. Если вы все сделали правильно, в ячейке С7 у вас должен появиться ответ — 13,7. При нажатии на ячейку C7 функция (= Average (C1: C6)) будет отображаться в строке формул.

Очень удобно использовать эту функцию для ведения учета, накладных или когда вам просто нужно найти среднее значение из очень длинного ряда чисел. Поэтому ее часто используют в офисах и крупных компаниях. Это позволяет сохранять порядок в записях и дает возможность быстро посчитать что-либо (например, средний доход за месяц). Также с помощью Excel можно найти среднее значение функции.

Ответ: каждому досталось по 4 груши.

Пример 2. На курсы английского языка в понедельник пришло 15 человек, во вторник — 10, в среду — 12, в четверг — 11, в пятницу — 7, в субботу — 14, в воскресенье — 8. Найти среднюю посещаемость курсов за неделю.
Решение: Найдем среднее арифметическое:

15 + 10 + 12 + 11 + 7 + 14 + 8 77 7 7

Ответ: в среднем на курсы английского языка приходило 11 человек в день.

Пример 3. Гонщик ехала два часа со скоростью 120 км/ч и час со скоростью 90 км/ч. Найдите среднюю скорость автомобиля во время гонки.
Решение: Найдем среднее арифметическое скоростей автомобиля за каждый час пути:

Ответ: средняя скорость автомобиля во время гонки была 110 км/ч.

Пример 4. Среднее арифметическое 3 чисел равно 6, а среднее арифметическое 7 других чисел равно 3. Чему равно среднее арифметическое этих десяти чисел?
Решение: Так как среднее арифметическое 3-х чисел равно 6 то их сумма равна 6 · 3 = 18, аналогично сумма оставшихся 7-ми чисел равна 7 · 3 = 21.
Значит сумма всех 10-ти чисел будет 18 + 21 = 39, а среднее арифметическое равно

Помогите пожалуйста, как найти 3 число если известно среднее арифметическое и первые 2 числа?

Помогите пожалуйста, как найти 3 число если известно среднее арифметическое и первые 2 числа.

Среднее арифметическое чисел — это сумма всех чисел, делённая на их количество — — — — — — — — — — — — — — — — —

1) Среднее арифметическое умножаем на 3 = сумма трёх чисел ;

2) Из суммы трёх чисел вычитаем сумму известных двух чисел = третье число.

Задача?

Первое число на 40% больше второго, а их среднее арифметическое равно 36.

Найти эти числа.

Найти неизвестное число, если число известное равняется 7, 4, а их средне арифметическое — 8, 1?

Найти неизвестное число, если число известное равняется 7, 4, а их средне арифметическое — 8, 1.

Среднее арифметическое двух чисел равно 15?

Среднее арифметическое двух чисел равно 15.

Найди эти числа, если известно, что первое число составляет 50 % от второго числа.

Среднее арифметическое двух чисел равно 6, 4?

Среднее арифметическое двух чисел равно 6, 4.

Известно, что первое число составляет 450% второго числа.

Найдите эти числа.

Как найти среднее арифметическое числа?

Как найти среднее арифметическое числа?

Первое число составляет 70% от второго, а третье число — 50% от второго?

Первое число составляет 70% от второго, а третье число — 50% от второго.

Найти эти числа, если их среднее арифметическое равно 44, 88.

С пасибо, заранее.

Как найти 2 — ое число если известно среднее арифметическое и 1 — ое число?

Как найти 2 — ое число если известно среднее арифметическое и 1 — ое число.

Первое число составляет 70% от второго, а третье число — 50% от второго?

Первое число составляет 70% от второго, а третье число — 50% от второго.

Найти эти числа, если их среднее арифметическое равно 44, 88.

Среднее арифметическое двух чисел равно 6, 4?

Среднее арифметическое двух чисел равно 6, 4.

Известно, что первое число составляет 450% второго числа.

Найдите эти числа.

ПОМОГИТЕ СРОЧНО среднее арифметическое 2х чисел первое число 96 найти второе число?

ПОМОГИТЕ СРОЧНО среднее арифметическое 2х чисел первое число 96 найти второе число.

Вы перешли к вопросу Помогите пожалуйста, как найти 3 число если известно среднее арифметическое и первые 2 числа?. Он относится к категории Математика, для 5 — 9 классов. Здесь размещен ответ по заданным параметрам. Если этот вариант ответа не полностью вас удовлетворяет, то с помощью автоматического умного поиска можно найти другие вопросы по этой же теме, в категории Математика. В случае если ответы на похожие вопросы не раскрывают в полном объеме необходимую информацию, то воспользуйтесь кнопкой в верхней части сайта и сформулируйте свой вопрос иначе. Также на этой странице вы сможете ознакомиться с вариантами ответов пользователей.

Как найти числа если известно их среднее арефметическое и что второе на 1,5 больше первого, третье на 1,2 больше первого

Три числа из четырех согласно условиям задачи связаны с величиной четвертого, соответственно, запишем формулу среднего арифметического четырех чисел, введем переменную и решим уравнение.

S4 = (a1 + a2 + a3 + a4)/4;

Пусть x — первое число, (x + 1,5) — второе число, (x + 1,2) — третье число, (x + 1,8) — четвертое число.

Подставим выражения чисел и величину среднего арифметического в формулу:

2,75 = (x + x + 1,5 + x + 1,2 + x + 1,8)/4;

Ответ: Первое число — 1,625, второе — 3,125, третье — 2,825, четвертое — 3,425.

Индекс материала
Математические методы обработки психологических данных
Шкалы измерений
Табулирование данных
Квантиль
Меры центральной тенденции
Меры изменчивости
Нормальное распределение
Предварительный анализ выборки
Сравнение средних значений
Сравнение дисперсий
Значимость коэффициента корреляции
Коэффициент ранговой корреляции Кендалла
Бисериальный коэффициент корреляции (БКК)
Однофакторный анализ (ОФА)
Двухфакторный анализ
Проверка нормальности распределения исходных данных
Все страницы

Страница 9 из 16

16. СРАВНЕНИЕ СРЕДНИХ ЗНАЧЕНИЙ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ ДВУХ ЗАВИСИМЫХ (СВЯЗАННЫХ) ВЫБОРОК

Иногда нам приходится измерять один и тот же признак (показатель) для одной и той же группы лиц, но в различные моменты времени. Например, до проведения эксперимента и после эксперимента. В результате в качестве исходных данных мы получаем две выборки одинакового объема х1, х2, …, хn и у1, у2, …, уn (одни и те же люди). Причем элементы выборки, стоящие на одном и том же месте в каждой из выборок должны соответствовать измененному показателю для одного и того же лица. Поэтому такие выборки часто называются связанными. Они являются зависимыми, т.к. значения элементов второй выборки зависят от значений элементов первой выборки. Исходные данные в рассматриваемом примере называются типа «до – после». Связанными выборками могут рассматриваться также данные типа «брат – сестра» (в 1 выборке показываем мальчиков, во второй – девочек), «муж – жена». Для таких данных можно рассмотреть задачу сравнения средних значений двух выборок, для решения которой применяется общая схема проверки статистической гипотезы.
1 и 2 этапы – см. 15.
3 этап – вычисляем наблюдаемое значение статистики критерия. Для этого сначала из двух исходных выборок получаем одну выборку разностей, которую будем обозначать d1, d2, …, dn, где di = xi – yi. По полученной
n
выборке разностей вычисляем среднее значение d = di : n, а также
n 2 i=1
стандартное отклонение Sd = (di – d) : (n – 1), тогда наблюдаемое
i=1
значение статистики критерия вычисляется по следующей формуле:
tнабл. = n d/Sd
4 этап – находим критическое значение статистики критерия. В нашем случае статистика критерия имеет t-распределение Стьюдента с числом степеней свободы = n – 1, поэтому для нахождения t-критического необходимо воспользоваться статистической таблицей распределения Стьюдента (см 4 этап 15 параграфа).
5 этап – делаем вывод о правильности той или иной гипотезы по следующему правилу:
1) если –tкр < tнабл. < tкр, то принимается нулевая гипотеза, т.е. делаем вывод о том, что средние значения ГС статистически одинаковы или, другими словами, проведенный эксперимент не оказал влияния на средние значения изучаемого показателя.
2) если tнабл. < – tкр или tнабл. > tкр, то принимается альтернативная гипотеза, т.е. мы делаем вывод о том, что средние значения рассматриваемых ГС статистически различны или, другими словами, эксперимент привел к изменению среднего значения изучаемого показателя. Для того, чтобы выяснить, в какую сторону произошло изменение среднего значения (стало больше или меньше), необходимо сравнить среднее значение двух исходных выборок х и у (арифметически).

формула20

Примечание. 1) рассмотренный критерий должен применяться для выборок, извлеченных из ГС, имеющих нормальное распределение с одинаковыми дисперсиями. 2) если эти условия не выполняются, то необходимо воспользоваться критерием, рассмотренным далее в параграфе 18. 3) рассмотренный в данном параграфе критерий в литературе обычно называется парным t-критерием.

Пример: Был проведен эксперимент по исследованию влияния процесса обучения на уровень знаний студентов колледжа. 100 первокурсникам был предложен тест из 60 вопросов, этот же тест был предложен этим же студентам, но уже выпускникам (когда они уже отучились). В качестве измеряемого показателя рассматривалось количество правильных ответов. Проверить гипотезу о наличии либо отсутствии влияния процесса обучения в колледже на уровень знаний. Решение. В нашем эксперименте исходные данные представляют собой 100 пар значений типа «до – после», т.е. две связанные выборки х1, х2, …, х100 и у1, у2, …, у100. Выбираем уровень значимости = 0,01. По исходным выборкам была вычислена выборка разности, по которой было найдено d = – 7,02 Sd = 8,02 (стандартное отклонение) n = 100 tнабл. = 100 (- 7,02:8,02) = – 8,75. Будем искать по таблице tкр. /2 = 0,01:2 = 0,005 = n – 1 = 100 – 1 = 99.

формула21

Т.е. мы делаем вывод, что процесс обучения в колледже приводит к изменению среднего уровня знаний. d = – 7,02 < 0 d = х – у < 0 = х < у. Таким образом, средний уровень знаний за время обучения в колледже повысился.

17. СРАВНЕНИЕ СРЕДНИХ ЗНАЧЕНИЙ РАНЖИРОВАННЫХ ПРИЗНАКОВ ДВУХ НЕЗАВИСИМЫХ ВЫБОРОК

Как уже говорилось ранее, если исходные выборки извлечены не из нормальных ГС, то критерий Стьюдента не применим, им нельзя пользоваться. В этом случае используется не параметрический критерий Манна-Уитни. (параметр. – ср. знач. дисперсии; не параметр. – параметры выборки не интересуют). Этот же критерий можно использовать, когда наши исходные данные проранжированы, т.е. измерены в порядковой (ранговой) шкале. Данный критерий позволяет проверить гипотезы о равенстве средних значений двух ГС, когда в качестве исходных данных рассматриваются две независимые выборки. Для решения такой задачи воспользуемся общей схемой проверки статистической гипотезы.
1 этап. Выдвигаются две статистические гипотезы: основная нулевая Н0 о том, что средние значения двух рассмотренных ГС статистически одинаковы и альтернативная Н1 о том, что эти средние значения статистически различны:
Н0: х= у
Н1: х/= у
2 этап. Выбираем уровень значимости .
3 этап. Вычисляем необходимое значение статистики критерия. Для этого сначала две исходные независимые выборки (необязательно одинакового объема) х1, х2, …, хn и у1, у2, …, уm объединяем в одну выборку. Полученную объединенную выборку ранжируем, т.е. присваиваем каждому элементу объединенной выборки ранг, который соответствует порядковому номеру этого элемента в упорядоченной объединенной выборке. После этого вычисляем сумму рангов элементов первой выборки, которую обозначим R1 и сумму рангов элементов второй выборки R2. Затем вычисляем промежуточные величины u1=nm+1/2n(n+1) – R1

формула22

Примечания: 1) не имеет значения как ранжируются элементы выборки: по возрастающей или по убывающей. 2) если два или более элемента выборки имеют одинаковое значение, то они называются совпадающие. В этом случае каждому из этих элементов присваивают ранг, равный среднему значению из тех рангов, которые были бы присвоены этим совпадающим значениям в случае их несовпадения.
Пример: у 26 юношей в возрасте от 18 до 24 лет был измерен уровень невербального интеллекта с помощью методики Векслера. 14 юношей были студентами физического факультета, а 12 – психологического факультета. Можно ли утверждать, что одна из групп превосходит другую по уровню невербального интеллекта? Решение:

Физики (хi)

Ранги физ.

Психологи (уi)

Ранги пс.

111
104
107
90
115
107
106
107
95
116
127
115
102
99

15,5
6,5
11,5
1
20,5
11,5
9
11,5
2
22
26
20,5
4,5
3

113
107
123
122
117
112
105
108
111
114
102
104

18
11,5
25
24
23
17
8
14
15,5
19
4,5
6,5

R1=165

R2=186

1 этап. Решаем задачу двух независимых выборок методом Манна-Уитни, т.к. имеются две группы студентов физ. И псих. Факультетов. х1, х2, …, х14 и у1, у2, …, у12. Необходимо сравнить группы по уровню невербального интеллекта, что означает сравнить средние значения. Чтобы не проводить проверку данных на нормальность, мы воспользуемся рассмотренным критерием Манна-Уитни.

n =14 m=12

102 : (4+5) : 2 = 4,5 104 : (6+7) : 2 = 6,5 107 : (10+11+12+13) : 4 = 11,5 111 : (15+16) :2 = 15,5. Для проверки правильности ранжирования мы должны вычислить величину R = ((n+m)(n+m+1)) : 2. Если мы правильно проранжировали, то эта величина R должна равняться сумме R1+R2.
R = R1 + R2 . В нашем случае R1 – сумма рангов элементов первой выборки = 165; R2 – второй выборки = 186 R1+R2=351 R = ((14+12)(14+12+1)) : 2 =351
3 этап. Вычисляем u1=14 12+1/2 14 (14+1) – 165 = 108 u2= 14 12+1/2 12 (12+1) – 186 = 80 Отсюда имеем, что u=108. Zнабл. = (108 – ½ 14 12) : (14 12 (14+12+1)) : 12 = 1,23.
4 этап. = 0,05 1 – /2 = 1 – 0,05/2 = 0,975. Из таблицы находим, что Zкр = 1,96 (был использован метод Манна-Уитни и был получен результат Zнабл. = 1,23 Zкр = 1,96)

формула23

Так как Zнабл. < Zкр, то мы принимаем нулевую гипотезу Н0, т.е. делаем вывод о том, что по среднему уровню невербального интеллекта студенты-физики не отличаются от студентов-психологов на уровне значимости 0,05.

18. СРАВНЕНИЕ СРЕДНИХ ЗНАЧЕНИЙ РАНЖИРОВАННЫХ ПРИЗНАКОВ ДВУХ СВЯЗАННЫХ ВЫБОРОК

Если исходные данные в виде двух связанных выборок извлечены не из нормальных ГС, то парные критерии из параграфа 16 не применимы. В этом случае используется критерий Уилкоксона. Этот же критерий может использоваться, когда исходные данные измерены в порядковой шкале. Исходные выборки в нашем случае должны быть связаны (зависимы), например: данными типа «до – после». Для решения задачи сравнения средних значений воспользуемся общей схемой проверки статистической гипотезы.
!. Выдвигаются две статистические гипотезы: основная нулевая о том, что средние значения двух рассматриваемых ГС статистически одинаковы на уровне значимости и альтернативная гипотеза о том, что эти средние значения статистически различны Н0 : х = у Н1 : у /= х.
2. Выбираем уровень значимости .
3. Вычисляем наблюдаемое значение статистики критерия. До этого по двум исходным выборкам одинакового объема х1, х2, …, хn и у1, у2, …, уn получаем одну выборку разностей d1,d2,…,dn, где di=xi=yi. В полученной выборке разностей ранжируем абсолютные величины в возрастающем порядке. После этого каждому рангу приписываем знак его разности. Вычисляем сумму положительных рангов, которую обозначают , тогда наблюдаемое значение статистики критерия вычисляются по следующей формуле: Zнабл. = (N – (n(n+1) : 4) : (n(n+1)(2n+1) : 24).
4. Находим критическое значение статистического критерия. В нашем случае статистика критерия имеет стандартное нормальное распределение, поэтому для нахождения критического значения Zкр необходимо воспользоваться статистической таблицей стандартного нормального распределения (см.4 этап параграфа 17).
5. Делаем вывод о правильности той или иной гипотезы по следующему правилу: 1) если – Zкр < Zнабл. < Zкр, то принимается Н0, т.е. делается вывод о том, что среднее значение двух рассматриваемых ГС статистически одинаковы на уровне значения , или, другими словами, в результате эксперимента не произошло изменений среднего значения исследуемого признака. 2) если Zнабл. < – Zкр или Zнабл. > Zкр, то принимается гипотеза Н1, т.е. делаем вывод о том, что эти средние значения статистики различны на уровне значимости или, другими словами, в результате эксперимента произошли изменения среднего значения исследуемого признака.
Примечания: 1) нулевые разности игнорируются. В этом случае необходимо уменьшить соответствующим образом величину n. 2) если в выборке разностей встречаются абсолютные величины, то в этом случае в качестве ранга совпадающим значениям присваивается ранг, равный среднему значению тех рангов, которые получили бы эти величины в случае их несовпадения.
Пример: два сорта пшеницы сравнивают по урожайности. Сорт «а» – обычной разновидности, сорт «б» – новый гибрид. Для этого выбирают 10 участков, каждый из которых делят пополам. На каждом отдельном участке условия роста и созревания одинаковы, случайным образом выбирают одну половину участка и засевают ее сортом «а», а вторую – «б». Результаты сбора урожая приведены в соответствующей таблице. Есть ли подтверждение того, что урожайность сорта «б» выше урожайности сорта «а»?

Сорт «а»

yi

Сорт «б»
xi

Разности «б»-«а»
di=xi-yi

ранги

36,9
35,2
31,2
34,1
36,1
34,1
37,2
36,8
29,6
35,4

36,8
37,1
31,2
34,1
35,9
35,2
37,9
37,2
30,2
36,5

  • 0,1

1,9
0,2
0

  • 0,2

1,1
0,7
0,4
0,6
1,1

  • 1

9
2,5

  • 2,5

7,5
6
4
5

n=9 N=9+2,5+7,5+6+4+5+7,5=41,5
Zнабл.= (41,5 – (9(9+1) : 4)) : (9(9+1)(2 9+1) : 24) = 2,26
=0,05 1 – /2 Zкр = 1,96

формула24

Принимается гипотеза Н1, т.е. средние урожайности сортов «а» и «б» статистически различны на уровне значимости 0,05. Для окончательного ответа на поставленный задачей вопрос необходимо вычислить среднее значение по данным для сорта «б», а также среднее значение по данным для сорта «а». После чего сравнить арифметически эти вычисленные средние значения. В нашем случае, т.к. положительных разностей гораздо больше и они сравнимы по величине с отрицательными, то действительно средняя урожайность сорта «б» выше средней урожайности сорта «а».

Важнейшее
свойство средней заключается в том, что
она отражает то общее, что присуще всем
единицам исследуемой совокупности.
Значения признака отдельных единиц
совокупности варьируют под влиянием
множества факторов, среди которых могут
быть, как основные, так и случайные.
Сущность средней в том и заключается,
что в ней взаимокомпенсируются отклонения
значений признака, которые обусловлены
действием случайных факторов, и
накапливаются (учитываются) изменения,
вызванные действием основных факторов.
Это позволяет средней отражать типичный
уровень признака и абстрагироваться
от индивидуальных особенностей, присущих
отдельным единицам.

Для
того, чтобы средний показатель был
действительно типизирующим, он должен
рассчитываться с учетом определенных
принципов.

Основные принципы
применения средних величин.

  1. Средняя
    должна определяться для совокупностей,
    состоящих из качественно однородных
    единиц.

  2. Средняя
    должна исчисляться для совокупности,
    состоящей из достаточно большого числа
    единиц.

  3. Средняя
    должна рассчитываться для совокупности
    в стационарных условиях (когда влияющие
    факторы не меняются или меняются не
    значительно).

  4. Средняя
    должна вычисляться с учетом экономического
    содержания исследуемого показателя.

Расчет
большинства конкретных статистических
показателей основан на использовании:

  • средней
    агрегатной;

  • средней
    степенной
    (гармонической, геометрической,
    арифметической, квадратической,
    кубической);

  • средней
    хронологической
    (см. раздел ).

Все
средние, за исключением средней
агрегатной, могут рассчитываться в двух
вариантах – как взвешенные или
невзвешенные.

Средняя
агрегатная.
Используется формула:

,

где
wi=xi*fi;

xi

i-й
вариант осредняемого признака;

fi,
– вес i

го варианта.

Средняя
степенная.
В общем виде формула для расчета:

,

где
степень k

вид средней степенной.

Значения
средних рассчитанных на основании
средних степенных для одних и тех же
исходных данных – не одинаковы. С
увеличением показателя степени k,
увеличивается и соответствующая средняя
величина:

Cредняя
хронологическая.
Для моментного динамического ряда с
равными интервалами
между датами, рассчитывается по формуле:

,

где
х1
и хn
значение показателя на начальную и
конечную дату.

Формулы расчета
степенных средних

Вид степенной

средней

Показатель

степени (k)

Формула расчета

Простая

Взвешенная

Гармоническая

-1

Геометрическая

0

Арифметическая

1

Квадратическая

2

Кубическая

3

Пример.
По
данным табл. 2.1 требуется рассчитать
среднюю заработную плату в целом по
трем предприятиям.

Таблица 2.1

Заработная плата
предприятий АО

Предприятие

Численность
промышленно-производственного
персонала (ППП),
чел.

Месячный
фонд
заработной платы, руб.

Средняя заработная
плата, руб.

А

1

2

3

1

270

564840

2092

2

121

332750

2750

3

229

517540

2260

Итого

620

1415130

?

Конкретная
расчетная формула зависит от того, какие
данные табл. 7 являются исходными.
Соответственно возможны варианты:
данные столбцов 1 (численность ППП) и 2
(месячный ФОТ); либо – 1 (численность ППП)
и 3 (средняя ЗП); или 2 (месячный ФОТ) и 3
(средняя ЗП).

Если
имеются только данные столбцов 1 и 2
.
Итоги этих граф содержат необходимые
величины для расчета искомой средней.
Используется формула средней агрегатной:

Если
имеются только данные столбцов 1 и 3
,
то известен знаменатель исходного
соотношения, но не известен его числитель.
Однако фонд заработной платы можно
получить умножением средней заработной
платы на численность ППП. Поэтому общая
средняя может быть рассчитана по формуле
средней
арифметической взвешенной
:

Необходимо
учитывать, что вес (fi)
в отдельных случаях может представлять
собой произведение двух или даже трех
значений.

Кроме
того, в статистической практике находит
применение и средняя арифметическая
невзвешенная
:

.

где
n
– объем совокупности.

Эта
средняя используется тогда, когда веса
(fi)
отсутствую (каждый вариант признака
встречается только один раз) или равны
между собой.

Если
имеются только данные столбцов 2 и 3.
,
т. е. известен числитель исходного
соотношения, но не известен его
знаменатель. Численность ППП каждого
предприятия можно получить делением
ФОТ на среднюю ЗП. Тогда расчет средней
ЗП в целом по трем предприятиям проводится
по формуле средней
гармонической взвешенной
:

При
равенстве весов (fi)
расчет среднего показателя может быть
произведен по средней
гармонической невзвешенной:

.

В
нашем примере использовались разные
формы средних, но получили один и тот
же ответ. Это обусловлено тем, что для
конкретных данных каждый раз реализовывалось
одно и то же исходное соотношение
средней.

Средние
показатели могут рассчитываться по
дискретным и интервальным вариационным
рядам. При этом расчет производится по
средней арифметической взвешенной. Для
дискретного ряда данная формула
используется так же, как и в приведенном
выше примере. В интервальном же ряду
для расчета определяются середины
интервалов.

Пример.
По данным табл. 2.2 определим величину
среднедушевого денежного дохода за
месяц в условном регионе.

Таблица 2.2

Исходные данные
(вариационный ряд)

Среднедушевой
денежный доход
в среднем за месяц,
х, руб.

Численность
населения, % к итогу/

До 400

30,2

400 – 600

24,4

600 – 800

16,7

800 – 1000

10,5

1000-1200

6,5

1200 – 1600

6,7

1600 – 2000

2,7

2000 и выше

2,3

Итого

100

Среднедушевой
денежный доход 688,5 руб.

Среднее
гармоническое
рассчитывается в тех случаях, когда:

  • среднее
    арифметическое по имеющимся данным
    рассчитать невозможно;

  • расчет
    средних гармонических более удобен
    ,
    где
    Х
    варианты осредняемого признака.

Пример.
Требуется исчислить производительность
труда рабочей силы, если 1-ому рабочему
требуется для изготовления единицы
продукции 0,25 часа, второму 1/3 часа, а
третьему 1/2 часа. Получаем:

.

Расчёт средней
гармонической взвешенной:

,
где

Эта
формула используется в тех случаях,
когда значение признака и вес даны в
виде сомножителя.

Пример.
По трём сахарным заводам имеется
следующие данные.

Заводы

Затраты
времени на переработку 1000 ц.
сахарной свеклы дней. Х

Затраты
времени на переработку всей свеклы
дней.
Х*
f

1

50,3

59171,6

2

58,8

74400,8

3

68,5

42245,3

Вычислить
средние затраты времени на переработку
1000 ц свеклы по трём заводам в целом.

В данной задаче
для расчетов применяется среднее
гармоническое взвешенное.

.

Критерием
правильности применения средней
гармоническое взвешенной является то,
что деление затрат времени на переработку
всей свеклы на величину Х
затрат времени, необходимых для
переработки 1000ц. свеклы даёт количество
переработанной свеклы вообще.

Пример.
Оценка знаний: первый вопрос – 2 бала,
второй – 5. Рассчитать средние.

2,8<=3,05<=3,8<=4,05

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Математическая статистика — это раздел математики, посвященный методам сбора, анализа и обработки статистических данных для научных и практических целей.

Статистические данные представляют собой данные, полученные в результате обследования большого числа объектов или явлений; следовательно, математическая статистика имеет дело с массовыми явлениями.

Методы анализа массовых явлений — предмет многих научных дисциплин; но только в том случае, когда для анализа привлекаются формальные (абстрактные) математические модели, эти методы становятся статистическими.

Современная математическая статистика подразделяется на две обширные области: описательную и аналитическую статистику. Описательная статистика охватывает методы описания статистических данных, представления их в форме таблиц, распределений и пр.

Аналитическая статистика называется также теорией статистических выводов. Ее предметом является обработка данных, полученных в ходе эксперимента, и формулировка выводов, имеющих прикладное значение для самых различных областей человеческой деятельности. Теория статистических выводов тесно связана с другой математической наукой — теорией вероятностей и базируется на ее математическом аппарату.

Содержание:

Введение в математическую статистику

Трудно найти современную область научных исследований, где бы не использовались методы математической статистики. В последнее время они нашли широкое применение в медицине, биологии, социологии, и спорте, т. е. в областях, сравнительно недавно считавшихся далекими от математики.

Чтобы понять роль математической статистики, достаточно рассмотреть типичную схему эксперимента. Специалист, занимающийся исследованиями в конкретной области (воспользуемся здесь термином «исследователь», обращаясь к деятельности научного работника), который предложил новый подход к решению определенной задачи, например новую методику, должен доказать справедливость своей рабочей гипотезы. Чаще всего единственное, что он может сделать для этой цели, — провести хорошо организованный эксперимент, результаты которого убедительно доказывают его предположения.

Традиционная схема эксперимента заключается в том, что набираются две группы испытуемых: контрольная и экспериментальная, примерно одинаковые по всем факторам, имеющим важное значение для цели исследования (пол, возраст, квалификация и т. п.). Контрольная группа подготавливается по традиционной методике, а экспериментальная — с применением предлагаемых нововведений. После определенного этапа подготовки проводится контрольное обследование и по его результатам судят об эффективности предлагаемой методики.

Конечно, на этапе формирования конкретных целей и задач эксперимента исследователь не нуждается в методах математической статистики. Здесь он является специалистом в своей области и оперирует принятыми там понятиями. Но уже на этапе отбора в контрольную и экспериментальную группы ему приходится сталкиваться с целым рядом новых для него вопросов. Какова должна быть численность групп и как должны отбираться кандидаты в эти группы? Можно ли утверждать, что по уровню подготовленности спортсмены в обеих группах одинаковы или уже на этапе отбора одна из групп существенно отличается от другой?

Дело в том, что исследователь обычно хочет знать, насколько достоверно результаты эксперимента, полученные им на группах ограниченного объема, можно обобщить для всех спортсменов данной квалификации. Интуитивно он понимает, что чем больше численность групп, тем убедительнее должны быть результаты эксперимента. Но увеличение численности групп связано с возрастанием организационных, материальных, временных и других затрат, поэтому понятно стремление уменьшить эти затраты. В общем виде ответить на вопрос о достаточности групп нельзя без анализа целей эксперимента, но, как правило, в каждом конкретном случае найти решение этой задачи можно с помощью формальных методов математической статистики. При отборе претендентов в контрольную и экспериментальную группы также применяются статистические методы, позволяющие исключить предвзятость и произвол и тем самым повысить достоверность результатов.

После проведения контрольных наблюдений исследователь получает фактический материал, представляющий собой, как правило, большой объем чистовых данных. Массив этих чисел трудно обозрим, и сделать какие-то конкретные выводы непосредственно по ним невозможно. Здесь используются методы описательной статистики, позволяющие провести классификацию первичных данных, представить их в наиболее наглядной форме и получить некоторые обобщающие показатели, которые дают возможность сравнивать между собой различные данные и делать определенные выводы.

В качестве обобщающих числовых показателей используются средние значения и характеристики варьирования (рассеяния) экспериментальных данных. Получив эти показатели для контрольной и экспериментальной групп, исследователь видит, что они различаются. Но возникает следующий вопрос: насколько достоверны эти различия? Можно ли объяснить наблюдаемое различие действием предложенных нововведений или это различие — случайность, обусловленная малым объемом фактических данных и сильной вариативностью испытуемых? Здесь не обойтись без применения математических методов проверки статистических гипотез..

Перечисленными вопросами не исчерпывается круг задач, решаемых при конкретных исследованиях с использованием методов математической статистики. Очень часто целью исследования является установление наличия и степени связи между спортивным результатом и определенными показателями тренированности, между силой мышц и скоростью их сокращения, между спортивным достижением в одном и другом видах спорта и т. п. Подобные задачи решаются методами корреляционного и регрессионного анализа.

Генеральная совокупность и выборка

Экспериментальные данные обычно представляют собой результаты измерения некоторых признаков (спортивный результат. и пр.) объектов, выбранных из большой совокупности объектов.

Часть объектов исследования, определенным образом выбранная из более обширной совокупности, называется выборкой, а исходная совокупность, из которой взята выборка, — генеральной (основной) совокупностью.

Всегда необходимо четко определять, что понимается под генеральной совокупностью. Ее состав и численность зависят от объектов и целей проводимого исследования. Объектами исследования, составляющими генеральную совокупность, являются в спорте обычно отдельные спортсмены. Если, например, самостоятельной задачей является обследование лиц, поступающих в данный институт в текущем году, то генеральная совокупность — все абитуриенты института этого года. Если мы хотим получить подобные данные для всех институтов страны, то абитуриенты данного института — уже выборка из более широкой генеральной совокупности — всех абитуриентов физкультурных вузов этого года.

Исследования, в которых участвуют все без исключения объекты, составляющие генеральную совокупность, называются сплошными исследованиями. Такие исследования нетипичны для спорта, где обычно используется выборочный метод. Суть его в том, что для обследования привлекается лишь выборка из генеральной совокупности, но по результатам этого обследования судят о свойствах всей генеральной совокупности. Конечно, для этого к выборке должны предъявляться определенные требования. Эти требования, а также правила отбора объектов генеральной совокупности в выборку обсуждаются в гл. 5.

Статистическая совокупность и статистические признаки

Все объекты (элементы), составляющие генеральную совокупность, должны иметь хотя бы один общий признак, позволяющий классифицировать объекты, сравнивать их друг с другом (пол, возраст, спортивная квалификация и т. п.). Наличие общего признака является основой для образования статистической совокупности. Таким образом, статистическая совокупность представляет собой результаты описания или измерения общих признаков объектов исследования.

Если статистическая совокупность получена в результате выборочного исследования, то она называется выборочной совокупностью, или просто выборкой. Под генеральной (статистической) совокупностью тогда подразумевается совокупность всех возможных значений признака в данном исследовании.

Важнейшая характеристика выборки — объем выборки, т. е. число элементов в ней. Объем выборки принято обозначать символом n. Относительно объема генеральной совокупности, обозначаемого N, как правило, делается предположение, что он бесконечно велик, т. е. выборка получается из бесконечной генеральной совокупности.

По одним признакам элементы генеральной совокупности могут полностью совпадать, значения же других признаков изменяются от одного элемента к другому. Например, объектами исследования могут быть представители одного вида спорта, одинаковой квалификации, одного пола и возраста, но различающиеся по силе мышц, быстроте реакции, показателям систем дыхания и кровообращения и т. д. Предметом изучения в статистике являются именно изменяющиеся (варьирующие) признаки, которые иногда называют статистическими признаками. Они делятся на качественные и количественные.

Качественные признаки — это признаки, которыми объект обладает либо не обладает. Они не поддаются непосредственному измерению (например, спортивная специализация, квалификация, национальность, территориальная принадлежность и т. п.).

Количественные признаки представляют собой результаты подсчета или измерения. В соответствии с этим они делятся на дискретные и непрерывные.

Дискретные признаки могут принимать лишь отдельные значения из некоторого ряда чисел, например число подтягиваний на перекладине, число попаданий и промахов при серии выстрелов и т. п.

Непрерывные признаки могут принимать любые значения в определенном интервале. Например, время прохождения дистанции, скорость движения, угол в суставе.

Отдельные числовые значения варьирующего признака называются вариантами. Варианты принято обозначать строчными латинскими буквами из конца алфавита: х, у, z.

Причины варьирования признаков

Признаки варьируют под воздействием большого числа различных факторов. Лишь небольшую часть этих факторов удается контролировать в процессе исследования. Пусть, например, изучаемым признаком в нашем исследовании является спортивный результат в каком-либо виде спорта. Основные факторы, определяющие спортивный результат испытуемых, нам известны (контролируются), в противном случае наше исследование лишено смысла. К числу контролируемых факторов относятся пол, возраст, спортивная квалификация, программа специальной подготовки и ряд других. Но всегда остается большое число факторов, не поддающихся контролю (влияние погодных условий, эмоциональное состояние испытуемых, мотивация и т. п.). Предсказать влияние таких неучтенных факторов на спортивный результат невозможно, поэтому наблюдаемые значения результатов оказываются случайными, а факторы, обусловливающие случайное поведение изучаемого признака, называются случайными факторами. Все перечисленные факторы (контролируемые и случайные) естественным образом определяют значение спортивного результата, поэтому их можно назвать естественными причинами варьирования результатов.

Помимо естественных причин варьирования результатов на их значения оказывают влияние ошибки измерения, которые складываются из систематических погрешностей измерительных приборов, личных ошибок исследователя (описки, пропуски и т. п.) и случайных ошибок измерения. Природа и величина случайных ошибок могут быть различными в зависимости от физических принципов, используемых в измерительных приборах. Систематические приборные погрешности могут быть в принципе уменьшены до пренебрежимо малого уровня с помощью совершенных измерительных средств. Личные ошибки исследователя зависят от его опыта и внимания и принципиально также могут быть исключены.

Случайные ошибки остаются и вместе с естественными факторами варьирования сказываются на значениях признака.

Однако, как правило, в практике спортивных измерений случайные ошибки измерения существенно меньше величины естественного варьирования признака, поэтому будем считать, что варьирование результатов измерения признака обусловлено только естественным варьированием изучаемого признака.

Эмпирические распределения

В этой лекции рассматриваются методы построения эмпирических распределений, т. е. распределений элементов выборки по значениям изучаемого признака. Построение эмпирических распределений — необходимый этап применения статистических методов.

Здесь и далее выборочные исследования будем называть «эксперимент». При рассмотрении конкретных примеров суть эксперимента будет поясняться. Выборочные данные, полученные в ходе эксперимента, будут соответственно экспериментальными (эмпирическими) данными.

По эмпирическим данным, представляющим собой выборку из некоторой генеральной совокупности, оцениваются параметры, позволяющие описать всю генеральную совокупность, определяется интервал, в котором с заданным уровнем доверия находится истинное значение оцениваемого параметра, а затем проверяются те или иные утверждения и делаются выводы о свойствах всей генеральной совокупности.

Эти методы будут рассмотрены в последующих лекциях, и, как мы увидим, их применение всегда связано с выбором подходящей математической модели для описания свойств генеральной совокупности. Правомерность использования любого статистического метода основана на предположении, что генеральная совокупность соответствует выбранной математической модели. Это предположение должно быть сделано до проведения эксперимента, однако, как правило, для обоснованного предположения не хватает информации, и тогда выбор математической модели производится на основе построения и анализа эмпирических распределений. Поэтому необходимо прежде всего уметь строить эмпирические распределения, чтобы правильно применять методы математической статистики.

Табличное представление экспериментальных данных. Вариационные ряды

Как правило, необработанные (первичные) экспериментальные данные представлены в виде неупорядоченного набора чисел, записанных исследователем в порядке их поступления. Этот набор данных трудно обозрим, и сделать по ним какие-то выводы невозможно. Поэтому первичные данные нуждаются в обработке, которая всегда начинается с их группировки.

Группировка представляет собой процесс систематизации, или упорядочения, первичных данных с целью извлечения содержащейся в них информации. Группировка выполняется различными методами в зависимости от целей исследования, вида изучаемого признака и количества экспериментальных данных (объема выборки), но наиболее часто группировка сводится к представлению данных в виде статистических таблиц.

Рассмотрим группировку на конкретном примере.

В табл. 2.1 приведены экспериментальные данные, представляющие собой результаты в беге на 100 м, показанные группой школьников — юношей IX классов (50 человек).Математическая статистика - примеры с решением заданий и выполнение задач

В этом примере выборка представляет собой 50 измеренных значений признака (результатов в беге на 100 м), т.е. объем выборки n =50. Как видим, уже при таком сравнительно небольшом объеме выборки таблица исходных данных становится трудно обозримой, поэтому и используется группировка как прием систематизации экспериментальных данных.

Группировка заключается в распределении вариант выборки по группам, или интервалам группировки, каждый из которых содержит некоторый диапазон значений изучаемого признака.

Первая задача, которую необходимо решить при группировке, состоит в том, чтобы разбить весь диапазон варьирования признака в выборке (между минимальной й максимальной вариантами выборки) на интервалы группировки. Эта задача требует определения числа интервалов группировки и ширины каждого из них. Обычно предпочтительны интервалы одинаковой ширины, а при выборе числа интервалов исходят из следующих соображений.

Группировка производится для того, чтобы построить эмпирическое распределение и сформировать с его помощью предположения о форме распределения изучаемого признака в генеральной совокупности, из которой взята выборка.

При увеличении числа интервалов группировки и, следовательно, при сужении каждого из них уменьшается число экспериментальных данных, попадающих в каждый интервал. Поскольку выборочные значения случайны, они случайным образом распределяются по интервалам группировки, поэтому картина эмпирического распределения будет содержать много случайных деталей, что мешает установить общие закономерности варьирования признака.

И наоборот, при чрезмерно широких интервалах группировки нельзя получить детальной картины распределения, поэтому возникает опасность упустить важные закономерные подробности формы распределения.

Поэтому вопрос о выборе числа и ширины интервалов группировки приходится решать в каждом конкретном случае исходя из целей исследования, объема выборки и степени варьирования признака в выборке. Однако приближенно число интервалов k можно оценить исходя только из объема выборки n. Делается это одним из следующих способов:

1) по формуле Стерджеса:

Математическая статистика - примеры с решением заданий и выполнение задач

2) с помощью табл. 2.2.

Математическая статистика - примеры с решением заданий и выполнение задач

Вернемся к нашему примеру и воспользуемся рекомендациями табл. 2.2 для выбора числа интервалов группировки. Для объема выборки n = 50 принимаем k — 7. Заметим, что расчет по формуле Стерджеса дает k = 6,6.

Если число интервалов выбрано, то ширина каждого из них определяется по следующей формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

где h — ширина интервалов;Математическая статистика - примеры с решением заданий и выполнение задач — максимальная и минимальная варианты выборки.

Математическая статистика - примеры с решением заданий и выполнение задачнаходятся непосредственно по таблице исходных данных (табл. 2.1.).

Для рассматриваемого примера

Математическая статистика - примеры с решением заданий и выполнение задач

Поскольку исходные данные определены с точностью 0,1 с, то нет никакого смысла в более точном вычислении h, поэтому округлим найденное значение ширины интервалов с учетом требуемой точности. Обычно округление производится в сторону увеличения, чтобы не уменьшать общий диапазон варьирования признака. С учетом этих замечаний принимаем h = 0,8 с.

Теперь остается наметить границы интервалов группировки. Нижняя граница первого интервала выбирается так, чтобы минимальная варианта выборки Математическая статистика - примеры с решением заданий и выполнение задач попадала примерно в середину этого интервала. Отсюда нижняя граница первого интервала определяется как

Математическая статистика - примеры с решением заданий и выполнение задач

О 8

Для нашего примера Математическая статистика - примеры с решением заданий и выполнение задач

Прибавив к этой величине ширину интервала, найдем нижнюю границу второго интервалаМатематическая статистика - примеры с решением заданий и выполнение задач Это будет одновременно и верхняя граница Математическая статистика - примеры с решением заданий и выполнение задач предыдущего (первого) интервала.

Аналогично находим Математическая статистика - примеры с решением заданий и выполнение задач и т. д. для всех семи интервалов.

После того как намечены границы всех интервалов, остается распределить по этим интервалам выборочные варианты. Однако при этом возникает следующий вопрос: как поступать в тех случаях, если какая-либо из вариант попадает точно на границу соседних интервалов группировки, т. е. варианта совпадает с нижней границей одного и верхней границей соседнего с ним интервала? Такие варианты могут быть с одинаковыми основаниями отнесены к любому из соседних интервалов, и, чтобы исключить неопределенность такой ситуации, уменьшим верхние границы всех интервалов на величину, равную точности измерения признака (в нашем примере на 0,1 с).

Для удобства последующей обработки сгруппированных данных вычислим срединные значения интервалов группировки Математическая статистика - примеры с решением заданий и выполнение задач, которые отстоят от нижних границ на величину, равную половине ширины интервалов, т. е.Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач — нижняя граница Математическая статистика - примеры с решением заданий и выполнение задач-го интервала.

Теперь можно приступать к заполнению статистической таблицы. Для этого заготовим таблицу, состоящую из 8 столбцов, назначение которых поясним по ходу изложения (табл. 2.3).

Заполняем вначале 3 первых столбца таблицы. В первом столбце содержится номер интервала группировки, во втором —.границы, а в третьем — срединные значения интервалов.

Далее на основании таблицы первичных данных (см. табл. 2.1) заполняем четвертый столбец. Этот столбец необязателен, но он обеспечивает удобство составления статистической таблицы и позволяет избежать возникающих при этом ошибок. Его назначение в том, чтобы упростить распределение вариант выборки по интервалам группировки. Имея перед собой таблицу исходных данных (табл. 2.1), условными значками, например черточками, отмечаем повторяемость вариант в каждом интервале, т. е. по порядку для каждого из чисел, представленных в таблице исходных данных, ставим условный значок в строке табл. 2.3, соответствующей интервалу группировки, в который это число попадает. Для удобства последующего подсчета условные значки по мере накопления объединяем в группы (в табл. 2.3 принято объединение в группы по 5).

После того как исходные данные будут исчерпаны, остается подсчитать число условных значков в каждой строке табл. 2.3. Получившиеся числа записываем в пятый столбец таблицы. Они имеют в статистике определенное название. Числа, показывающие, сколько раз варианты, относящиеся к каждому интервалу группировки, встречаются в выборке, называются частотами интервалов.

Обозначим частоты символом Математическая статистика - примеры с решением заданий и выполнение задач. Общая сумма всех частот всегда равна объему выборки п, что можно использовать для проверки правильности составления статистической таблицы.

Прежде чем продолжить заполнение статистической таблицы, дадим ряд определений.

Накопленная частота интервала — это число, полученное последовательным суммированием частот в направлении от первого интервала к последнему, до того интервала включительно, для которого определяется накопленная частота. Накопленные частоты обозначим Математическая статистика - примеры с решением заданий и выполнение задач

Частостью (относительной частотой) называется отношение частоты к объему выборки. Обозначим частости символом Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Накопленной частостью называется отношение накопленной частоты к объему выборки.

Обозначив накопленную частность как Математическая статистика - примеры с решением заданий и выполнение задач-, получаем:

Математическая статистика - примеры с решением заданий и выполнение задач

Сумма всех частостей всегда равна 1.

Накопленные частоты для рассматриваемого примера приведены в столбце 6 табл. 2.3, частости — в столбце 7, а накопленные частости — в столбце 8.

Следует отметить, что в таком полном виде статистическая таблица необходима далеко не всегда. Часто бывает достаточным ограничиться подсчетом частот. Но остальные данные Математическая статистика - примеры с решением заданий и выполнение задач бывают полезны при последующем анализе результатов эксперимента, о чем речь пойдет ниже.

Табличное представление данных о результатах в беге на 100 мМатематическая статистика - примеры с решением заданий и выполнение задач

В заключение этого раздела дадим очень важное определение вариационного ряда.

Вариационным рядом называется двойной числовой ряд, показывающий, каким образом численные значения изучаемого признака связаны с их повторяемостью в выборке. Вариационные ряды имеют большое значение при статистической обработке экспериментальных данных, поскольку дают наглядное представление о характерных особенностях варьирования признака.

Вариационные ряды бывают интервальными и безынтервальными.

В интервальном вариационном ряду частоты (или частости), характеризующие повторяемость вариант в выборке, распределяются по интервалам группировки. В рассмотренном выше примере интервальный вариационный ряд представлен столбцами 3 и 5 (или 3 и 7) табл. 2.3. Интервальный вариационный ряд строится, если изучаемый признак варьирует непрерывно, но используется и для дискретно варьирующих признаков в тех случаях, когда признак варьирует в широких пределах.

В безынтервальном вариационном ряду частоты (или частости) распределяются непосредственно по значениям варьирующего признака. Для построения безынтервального вариационного ряда необходимо варианты выборки расположить в порядке возрастания или убывания (проранжировать) и затем подсчитать, сколько раз каждая из них встречается в выборке. Безынтервальный вариационный ряд применяется в тех случаях, когда исследуемый признак варьирует дискретно и слабо.

Пусть, например, при подсчете количества подтягиваний на перекладине для группы испытуемых получены данные, значения которых лежат в диапазоне от 10 до 15. Таким образом, данная выборка содержит всего шесть вариант: 10, 11, 12, 13, 14, 15. В этом случае сами варианты играют роль интервалов группировки и остается только подсчитать, сколько раз каждая из них встречается в выборке.

Графическое представление экспериментальных данных

Для повышения наглядности эмпирических распределений используется их графическое представление. Наиболее распространенными способами графического представления являются гистограмма, полигон частот и полигон накопленных частот (кумулята).

Гистограмма

Гистограмма используется для графического представления распределений непрерывно варьирующих признаков и состоит из примыкающих друг к другу прямоугольников, как показано на рис. 2.1. Основание каждого прямоугольника равно ширине интервала группировки, а высота его такова, что площадь прямоугольника пропорциональна частоте (или частости) попадания в данный интервал. Таким образом, высоты прямоугольников должны быть пропорциональны величинам

Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач,-—частота Математическая статистика - примеры с решением заданий и выполнение задач-го интервала группировки; hi — ширина Математическая статистика - примеры с решением заданий и выполнение задач-ro интервала группировки.

На графике гистограммы основание прямоугольников откладывается по оси абсцисс (х), а высота — по оси ординат (у) прямоугольной системы координат.

Однако в тех случаях, когда ширина всех интервалов группировки одинакова, вид гистограммы не изменится, если по оси ординат откладывать не величины Математическая статистика - примеры с решением заданий и выполнение задач, а частоты интервалов Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

На рис. 2.1, а представлена гистограмма распределения результатов в беге на 100 м, построенная по данным табл. 2.3. При группировке в табл. 2.3 были приняты интервалы одинаковой ширины, поэтому на гистограмме по оси ординат отложены частоты интервалов Математическая статистика - примеры с решением заданий и выполнение задач Заметим, что в табл. 2.3 мы искусственно уменьшили верхние границы всех интервалов группировки на 0,1 с единственной целью — исключить неоднозначность в распределении вариант, попадающих точно на границы соседних интервалов. При графическом представлении распределений в таком уменьшении верхних границ уже нет никакого смысла, поэтому на гистограмме рис. 2.1, а верхние границы интервалов совпадают с нижними границами соседних интервалов.

Продемонстрируем построение гистограммы для случаев, когда ширина некоторых интервалов группировки неодинакова. Объединим в табл. 2.3 два интервала, имеющих границы (14,8—15,6) и (15,6—16,4). Ширина такого объединенного интервала будет вдвое больше ширины остальных интервалов. Поэтому, чтобы не нарушить принцип построения гистограммы (площади прямоугольников пропорциональны частотам интервалов), по оси ординат уже нельзя откладывать частоты, а высоты прямоугольников должны быть пропорциональны отношениямМатематическая статистика - примеры с решением заданий и выполнение задач . Гистограмма, полученная в результате такого объединения интервалов, приведена на рис. 2.1, б.

Полигон частот

Другим распространенным способом графического представления является полигон частот.

Полигон частот образуется ломаной линией, соединяющей точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов,

Срединные значения откладываются по оси х, а частоты — по оси у.

Из сравнения двух рассмотренных способов графического представления эмпирических распределений следует, что для получения полигона частот из построенной гистограммы нужно середины вершин прямоугольников, образующих гистограмму, соединить отрезками прямых. Полигон частот для рассмотренного выше примера с результатами в беге на 100 м (данные табл. 2.3) представлен на рис. 2.2.

Математическая статистика - примеры с решением заданий и выполнение задач

Полигон частот используется для представления распределений как непрерывных, так и дискретных признаков. В случае непрерывного распределения полигон частот является более предпочтительным способом графического представления, чем гистограмма, если график эмпирического распределения описывается плавной зависимостью.

Полигон накопленных частот

Полигон накопленных частот (к у м у-л я т а) получается при соединении отрезками прямых точек, координаты которых соответствуют верхним границам интервалов группировки и накопленным частотам. Если по оси ординат откладывать накопленные частости, то полученный график называется полигоном на. полигон накопленных частот результатов в беге на 100 м (данные табл. 2.3) приведен на рис. 2.3.

На практике полигон накопленных частот используется в основном для представления дискретных данных. Ему свойственна более плавная форма, чем у гистограммы или полигона частот.

Математическая статистика - примеры с решением заданий и выполнение задач

Данное свойство и позволяет иногда отдавать предпочтение этому способу графического представления эмпирических распределений.

Числовые характеристики выборки

Вариационные ряды и графики эмпирических распределений дают наглядное представление о том, как варьирует признак в выборочной совокупности. Но они недостаточны для полной характеристики выборки, поскольку содержат много деталей, охватить которые невозможно без применения обобщающих числовых характеристик.

Числовые характеристики выборки дают количественное представление об эмпирических данных и позволяют сравнивать их между собой. Наибольшее практическое значение имеют характеристики положения, рассеяния и асимметрии эмпирических распределений.

В этой лекции рассматриваются характеристики положения и рассеяния, а также практические методы их вычисления. Характеристики асимметрии будут рассмотрены в гл. 6 применительно к проверке гипотез о виде распределения генеральной совокупности.

Характеристики положения

В этом разделе рассмотрены характеристики положения, определяющие положение центра эмпирического распределения. Чаще всего употребляются такие характеристики положения, как среднее арифметическое, медиана и мода.

Среднее арифметическое

Среднее арифметическое, или просто среднее, — одна из основных характеристик выборки. Оно представляет собой такое значение признака, сумма отклонений от которого выборочных значений признака равна нулю (с учетом знака отклонения).

Если воспользоваться геометрической интерпретацией, то среднее арифметическое можно определить как точку на оси х, которая является абсциссой центра масс гистограммы.

Среднее принято обозначать той же буквой, что и варианты выборки, с той лишь разницей, что над буквой ставится символ усреднения — черта. Например, если обозначить исследуемый признак через X, а его числовые значения — через Математическая статистика - примеры с решением заданий и выполнение задач то среднее арифметическое имеет обозначение х.

Среднее арифметическое, как и другие числовые характеристики выборки, может вычисляться как по необработанным первичным данным, так и по результатам группировки этих данных. Точность вычисления по необработанным данным всегда выше, но процесс вычисления оказывается трудоемким при большом объеме выборки.

Для несгруппированных данных среднее арифметическое определяется по следующей формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

где n — объем выборки; Математическая статистика - примеры с решением заданий и выполнение задач — варианты выборки; Математическая статистика - примеры с решением заданий и выполнение задач обозначение суммы n чисел Математическая статистика - примеры с решением заданий и выполнение задач, где индекс i (порядковый номер) суммируемых чисел пробегает значения от 1 до п (1, 2, …, n).

Если данные сгруппированы, то

Математическая статистика - примеры с решением заданий и выполнение задач

где n — объем выборки; k — число интервалов группировки;Математическая статистика - примеры с решением заданий и выполнение задач — частоты интервалов; Математическая статистика - примеры с решением заданий и выполнение задач— срединные значения интервалов.

Среднее арифметическое, вычисленное по формуле (3.2), называют также взвешенным средним, подчеркивая этим, что в формуле (3.2) Математическая статистика - примеры с решением заданий и выполнение задач суммируются с коэффициентами (весами), равными частотам попадания в интервалы группировки.

Пример 3.1.

В качестве одного из тестов для оценки уровня физической подготовленности студентов 1-го курса технического вуза были выбраны прыжки в длину с места. Результаты контрольной группы студентов в количестве 15 человек оказались следующими (в см):

  • 212 223 225 208 230 216 241 202
  • 235 225 228 252 237 246 219

Математическая статистика - примеры с решением заданий и выполнение задач

Требуется определить средний результат в контрольной группе.

По формуле (3.1) находим

Математическая статистика - примеры с решением заданий и выполнение задач

В приведенном примере значение среднего арифметического вычислено приближенно, с округлением до значащей цифры, соответствующей точности измерения признака. Вопрос о том, с какой же точностью необходимо вычислять среднее, здесь подробно рассматривать не будем.).

Пример 3.2.

Вычислим среднее арифметическое результатов в беге на 100 м для экспериментальных данных, сгруппированных в табл. 2.3. Для наглядности промежуточные результаты расчетов приведены в табл. 3.1.

Среднее, рассчитанное по формуле (3.2), оказывается равным

Математическая статистика - примеры с решением заданий и выполнение задач

Медиана

Медианой (Me) называется такое значение признака X, когда одна половина значений экспериментальных данных меньше ее, а вторая половина — больше.

Собственно, этим и ограничивается смысловое значение медианы. Широкое использование этой характеристики на практике объясняется простотой ее вычисления и независимостью от формы распределения эмпирических данных.

Если данных немного (объем выборки невелик), медиана вычисляется очень просто. Для этого выборку ранжируют, т. е. располагают данные в порядке возрастания или убывания, и в ранжированной выборке, содержащей n членов, ранг R (порядковый номер) медианы определяется как

Математическая статистика - примеры с решением заданий и выполнение задач

Пусть, например, имеется ранжированная выборка, содержащая нечетное число членов n = 9: 12 14 14 18 20 22 22 26 28. Тогда ранг медианы и медиана, обозначаемая символом Me, совпадает с пятым членом ряда: Me = 20.

Математическая статистика - примеры с решением заданий и выполнение задач

Если выборка содержит четное число членов, то медиана не может быть определена столь однозначно. Например, получен ряд из 10 членов: 6 8 10 12 14 16 18 20 22 24.

Ранг медианы оказывается равным

Математическая статистика - примеры с решением заданий и выполнение задач

Медианой в этом случае может быть любое число между 14 и 16 (5-м и 6-м членами ряда). Для определенности принято считать в качестве медианы среднее арифметическое этих значений, т. е.

Математическая статистика - примеры с решением заданий и выполнение задач

Если необходимо найти медиану для сгруппированных данных, то поступают следующим образом.

Вначале находят интервал группировки, в котором содержится медиана, путем подсчета накопленных частот или накопленных частостей. Медианным будет тот интервал, в котором накопленная частота впервые окажется больше n/2 (n — объем выборки) или накопленная частость — больше 0,5. Внутри медианного интервала медиана определяется по следующей формуле:Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач — нижняя граница медианного интервала; Математическая статистика - примеры с решением заданий и выполнение задач— половина объема выборки; h — ширина интервалов группировки; Математическая статистика - примеры с решением заданий и выполнение задач — накопленная частота интервала, предшествующего медианному; Математическая статистика - примеры с решением заданий и выполнение задач— частота медианного интервала.

В качестве примера найдем медиану для экспериментальных данных, представленных в табл. 2.3. Медиана содержится в интервале (14,8; 15,6), которому соответствует накопленная частота 27 n/2 = 25. По формуле (3.3) находим

Математическая статистика - примеры с решением заданий и выполнение задач

Определив медиану, мы тем самым нашли, что в группе испытуемых одна половина бегунов показала результат лучше 15,5 с, а другая — хуже.

Как видим, медиана несколько отличается от ранее найденного среднего арифметического. Так бывает всегда, когда имеет место несимметричная форма эмпирического распределения.

Для тех случаев, когда эмпирическое распределение оказывается сильно асимметричным, среднее арифметическое теряет свою практическую ценность, поскольку при этом значительно большая часть значений признака оказывается выше или ниже среднего арифметического. В этой ситуации медиана представляет собой лучшую характеристику центра распределения.

Мода

Мода (Мо) представляет собой значение признака, встречающееся в выборке наиболее часто.

Интервал группировки с наибольшей частотой называется модальным.

Для определения моды используется следующая формула:Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач— нижняя граница модального интервала; h — ширина интервала группировки; Математическая статистика - примеры с решением заданий и выполнение задач — частота модального интервала; Математическая статистика - примеры с решением заданий и выполнение задач —частота интервала, предшествующего модальному;Математическая статистика - примеры с решением заданий и выполнение задач—частота интервала, следующего за модальным.

Для данных табл. 2.3 имеем: Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач с, т. е. наибольшее число бегунов в исследуемой группе показали результат, близкий к 15,7 с.

На рис. 3.1 представлена гистограмма распределения результатов в беге на 100 м с нанесенными на нее средним арифметическим, медианой и модой. Из приведенного графика видно, что указанные характеристики положения отличаются друг от друга. Это свидетельствует об асимметрии эмпирического распределения. Вообще, среднее, медиана и мода совпадают только в том случае, если распределение унимодальное (с одним максимумом) и симметричное. Чем больше распределение отличается от симметричного, тем сильнее различие между этими характеристиками.

Математическая статистика - примеры с решением заданий и выполнение задач

Характеристики рассеяния

Средние значения не дают полной информации о варьирующем признаке. Нетрудно представить себе два эмпирических распределения, у которых средние одинаковы, но при этом у одного из них значения признака рассеяны в узком диапазоне вокруг среднего, а у другого — в широком. Поэтому наряду со средними значениями вычисляют и характеристики рассеяния выборки. Рассмотрим наиболее употребительные из них.

Размах вариации

Размах вариации вычисляется как разность между максимальной и минимальной вариантами выборки:

Математическая статистика - примеры с решением заданий и выполнение задач

Как видим, размах вычисляется очень просто, и в этом его главное и единственное достоинство. Информативность этого показателя невелика. Можно привести очень много распределений, сильно отличающихся по форме, но имеющих одинаковый размах. Не будем здесь подробно останавливаться на особенностях применения данного показателя, укажем лишь, что размах вариации используется иногда в практических исследованиях при малых (не более 10) объемах выборки. Например, по размаху вариации легко оценить, насколько различаются лучший и худший результаты в группе спортсменов. При больших объемах выборки к его использованию надо относиться с осторожностью.

Дисперсия и стандартное отклонение

Дисперсия и стандартное отклонение являются важнейшими характеристиками рассеяния.

Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического. Дисперсия, вычисляемая по выборочным данным, называется выборочной дисперсией и обознача-ется Математическая статистика - примеры с решением заданий и выполнение задач

Выборочную дисперсию вычисляют по приведенным ниже формулам:

Для несгруппированных даных:

Математическая статистика - примеры с решением заданий и выполнение задач

В этой формуле Математическая статистика - примеры с решением заданий и выполнение задач— сумма квадратов отклонений значений признака Х{ от среднего арифметического х. Для получения среднего квадрата отклонений эта сумма поделена на объем выборки n.

Для сгруппированных в интервальный вариационный ряд данных:

Математическая статистика - примеры с решением заданий и выполнение задач

Здесь Математическая статистика - примеры с решением заданий и выполнение задач ~ срединные значения интервалов группировки;

а

Математическая статистика - примеры с решением заданий и выполнение задач—взвешенная сумма квадратов отклонений.

На практике выборочная дисперсия в виде (3.5) или (3.6) вычисляется редко, а вместо этих формул используются следующие.

Для несгруппированных данных:

Математическая статистика - примеры с решением заданий и выполнение задач

Для данных, сгруппированных в интервалы:

Математическая статистика - примеры с решением заданий и выполнение задач

Различие этих формул лишь в том, что в последних деление сумм квадратов отклонений производится не на объем выборки п, как того требует вычисление среднего квадрата, а на n — 1. Смысл этого уточнения будет ясен из гл. 5 (см. замечание 1 к гл. 5).

Стандартным отклонением (или средним квадратическим отклонением) называется положительный корень квадратный из дисперсии:

Математическая статистика - примеры с решением заданий и выполнение задач

Размерность стандартного отклонения в отличие от размерности дисперсии совпадает с единицами измерения варьирующего признака, поэтому в практической статистике для характеристики рассеяния используют обычно стандартное отклонение, а не дисперсию.

Вычисление дисперсии и стандартного отклонения непосредственно по формулам (3.7) — (3.9) неудобно по следующим причинам:

  1. При вычислении суммы квадратов отклонений приходится каждый раз вычитать из значений признака (или срединных значений интервалов) Математическая статистика - примеры с решением заданий и выполнение задач предварительно вычисленное х, а затем возводить полученные разности в квадрат. При ручных методах вычислений это вызывает трудности, особенно в случаях многоразрядных значений xi.
  2. Среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задач, входящее в эти формулы, обычно вычисляется с некоторой погрешностью округления. Она приводит к накоплению ошибки округления результатов (дисперсии и стандартного отклонения). Опасность существенных ошибок округления увеличивается с увеличением объема выборки.

Поэтому на практике используют другие расчетные формулы, более удобные как для ручных расчетов, так и для вычислений на ЭВМ.

Для несгруппированных данных Математическая статистика - примеры с решением заданий и выполнение задач

или

Математическая статистика - примеры с решением заданий и выполнение задач

Соответственно, если данные сгруппированы

Математическая статистика - примеры с решением заданий и выполнение задач

Приведенные формулы легко получаются из исходных выражений (3.7), (3.8), если в последних раскрыть квадрат разности под знаком суммы. Читателю предлагается проверить справедливость формул (3.10) — (3.13) самостоятельно.

Формулы (3.10) и (3.12) применяются для определения дисперсии, если среднее арифметическое уже вычислено. При этом следует иметь в виду, что при подстановке х в эти формулы его значение не следует округлять, иначе результат может получиться с большой ошибкой.

Формулы (3.11) и (3.13) используются в тех случаях, когда среднее и дисперсия вычисляются одновременно.

Пример 3.3.

Рассмотрим вначале пример вычисления характеристик рассеяния по несгруппированным первичным данным. Воспользуемся данными примера 3.1 и найдем дисперсию и стандартное отклонение результатов в прыжках в длину с места для контрольной группы студентов.

Таблица 3.3Математическая статистика - примеры с решением заданий и выполнение задач

По формуле (3.11) получаем:Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач

Стандартное отклонение составит:Математическая статистика - примеры с решением заданий и выполнение задач

Промежуточные расчеты приведены в табл. 3.3.

Пример3.4

Математическая статистика - примеры с решением заданий и выполнение задач

В качестве примера расчета для сгруппированных данных найдем дисперсию и стандартное отклонение результатов в беге на 100 м по данным табл. 2.3.

Взвешенная сумма квадратов срединных значений интервалов группировки на основании расчетов в табл. 3.4 составит:

Математическая статистика - примеры с решением заданий и выполнение задач

Взвешенная сумма срединных значений Математическая статистика - примеры с решением заданий и выполнение задач По формуле (3.13) Математическая статистика - примеры с решением заданий и выполнение задач Отсюда стандартное отклонение Математическая статистика - примеры с решением заданий и выполнение задач

Коэффициент вариации

Стандартное отклонение выражается в тех же единицах измерения, что и характеризуемый им признак. Если требуется сравнить между собой степень варьирования признаков, выраженных в разных единицах измерения, возникают определенные неудобства. Пусть, например, результаты в беге на 100 м, показанные группой IX классов, имеют стандартное отклонение 0,9 с (данные примера 3.4), а исследование роста тех же учащихся показывает, что его стандартное отклонение составляет 6 см (при среднем росте 168 см). Какой из признаков варьирует сильнее? Очевидно, что только на основании сравнения стандартных отклонений на этот вопрос ответить нельзя. Требуется сопоставить стандартные отклонении со средними арифметическими этих признаков. Поэтому вводится относительный показатель называемый коэффициентом вариации.

Математическая статистика - примеры с решением заданий и выполнение задач

Обычно он выражается в процентном отношении:

Математическая статистика - примеры с решением заданий и выполнение задач

Коэффициент вариации является относительной мерой рассеяния признака.

Для рассматриваемых примеров:

Математическая статистика - примеры с решением заданий и выполнение задач

Как видим, результаты в беге на основании полученных выборочных данных варьируют сильнее, чем рост учащихся.

Коэффициент вариации используется и как показатель однородности выборочных наблюдений. По данным 18], считается, что если коэффициент вариации не превышает 10%, то выборку можно считать однородной, т. е. полученной из одной генеральной совокупности.

Однако к использованию коэффициента вариации нужно подходить с осторожностью. Продемонстрируем возможные ошибки на следующем примере. Если на основании многолетних наблюдений среднее арифметическое среднесуточных температур 8 марта составляет в какой-либо местности 0°С, то по формуле (3.14) получим бесконечный коэффициент вариации независимо от разброса температур. Поэтому в данном случае коэффициент вариации не применим в качестве показателя рассеяния температур, а специфику явления более объективно оценивает стандартное отклонение S.

Коэффициент вариации можно использовать как относительную меру рассеяния только в тех случаях, когда значения признака измерены в шкале с абсолютным нулем.

Практически коэффициент вариации применяется в основном для сравнения выборок из однотипных генеральных совокупностей.

Упрощенные методы вычисления среднего арифметического, дисперсии и стандартного отклонения

В тех случаях, когда экспериментальные данные х, представлены большим числом значащих цифр, вычисление среднего арифметического, и особенно дисперсии и стандартного отклонения, усложняется наличием громоздких операций над многоразрядными числами (см. примеры 3.3 и 3.4). Конечно, эти трудности становятся несущественными, если для статистических расчетов применяются ЭВМ. Но в тех случаях, когда возникает необходимость в ручных вычислениях, полезно помнить элементарные правила, позволяющие существенно упростить расчеты. Кроме того, рассмотренные ниже методы позволяют упростить обработку данных и при использовании вычислительных средств за счет упрощения процедуры ввода данных с клавиатуры ЭВМ или калькулятора. Это уменьшает затраты времени и число допускаемых при вводе ошибок.

Эти методы основаны на следующих математических свойствах среднего арифметического и дисперсии.

1. Если вычесть из всех выборочных значений Математическая статистика - примеры с решением заданий и выполнение задач любое постоянное число хо, т. е. заменить исходные данные Математическая статистика - примеры с решением заданий и выполнение задач на новые значения Математическая статистика - примеры с решением заданий и выполнение задач путем преобразования

Математическая статистика - примеры с решением заданий и выполнение задач

и найти среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задач и дисперсию Математическая статистика - примеры с решением заданий и выполнение задач для преобразованных данных Математическая статистика - примеры с решением заданий и выполнение задач то эти характеристики будут связаны со средним арифметическим х и дисперсией Математическая статистика - примеры с решением заданий и выполнение задач для исходных данных следующим образом:

Математическая статистика - примеры с решением заданий и выполнение задач

Следовательно, можно вместо непосредственного определения выборочных характеристик х и Математическая статистика - примеры с решением заданий и выполнение задач вначале вычесть из выборочных данных Математическая статистика - примеры с решением заданий и выполнение задач некоторое постоянное число Математическая статистика - примеры с решением заданий и выполнение задач а затем найти среднее арифметическое и дисперсию по преобразованным таким образом данным. При этом, как следует из формул (3.15) и (3.16), чтобы найти среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задач нужно добавить Математическая статистика - примеры с решением заданий и выполнение задач к среднему арифметическому Математическая статистика - примеры с решением заданий и выполнение задач определенному по преобразованным данным, а дисперсии Математическая статистика - примеры с решением заданий и выполнение задач для исходных и преобразованных данных будут равны между собой.

Смысл предварительного преобразования исходных данныхМатематическая статистика - примеры с решением заданий и выполнение задачсостоит в том, чтобы упростить расчеты, заменив исходные данные более простыми числами Математическая статистика - примеры с решением заданий и выполнение задач Обычно в качестве Математическая статистика - примеры с решением заданий и выполнение задач выбирается варианта, находящаяся примерно в середине ранжированного ряда выборочных значений Математическая статистика - примеры с решением заданий и выполнение задач, поэтому рассматриваемый метод называется в литературе методом условного среднего.

2. Если разделить выборочные значения х-, на постоянный коэффициент С, т. е. использовать преобразование

Математическая статистика - примеры с решением заданий и выполнение задач числовые характеристикиМатематическая статистика - примеры с решением заданий и выполнение задач вычисленные по преобразованным данным, будут связаны с искомыми Математическая статистика - примеры с решением заданий и выполнение задачследующим образом: Математическая статистика - примеры с решением заданий и выполнение задач

Этот прием во многих случаях позволяет упростить вычисления, если удается путем деления на постоянный коэффициент преобразовать исходные данные в целые числа или уменьшить разрядность исходных данных. Пусть, например, исходные данные измерены с точностью 0,5 единицы (…11,5, 12,0, 12,5 13,5…). Тогда естественным упрощением будет деление этих значений на С = = 0,5, в результате чего получим преобразованные данные (… 23 24 25 27…), оперировать которыми проще.

3. Иногда полезным оказывается совместное использование двух рассмотренных выше приемов, например, преобразование вида: В этом случае Математическая статистика - примеры с решением заданий и выполнение задач

Такое преобразование исходных данных всегда позволяет достичь существенного упрощения, если выборочные среднее арифметическое и дисперсия вычисляются по сгруппированным в интервальный вариационный ряд данным. В качестве условного среднего Математическая статистика - примеры с решением заданий и выполнение задач выбирается срединное значение примерно в центре вариационного ряда, а постоянный коэффициент С берется равным ширине интервалов группировки h. При этом любые исходные данные всегда преобразуются в натуральные числа 1, 2, 3, 4…, и вычисление выборочных характеристик для преобразованных данных сводится к элементарным операциям. Искомые характеристикиМатематическая статистика - примеры с решением заданий и выполнение задач в соответствии с (3.19) и (3.20) вычисляются по следующим формулам:

Математическая статистика - примеры с решением заданий и выполнение задач

гдеМатематическая статистика - примеры с решением заданий и выполнение задач преобразованные срединные значения:

Математическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач — частоты интервалов группировки.

Пример 3.5.

Определим методом условного среднего среднее арифметическое и стандартное отклонение результатов в прыжках в длину с места, показанных контрольной группой студентов I курса (данные примера 3.1). Для этого ранжируем исходные данные, располагая их в порядке возрастания (столбец 2 табл. 3.5).

Та6лица 3.5 Вычисление среднего арифметического и дисперсии результатов в прыжках в длину с места методом условного среднего

Математическая статистика - примеры с решением заданий и выполнение задач

Расчет среднего арифметического и дисперсии результатов в беге на 100 м методом условного среднего Математическая статистика - примеры с решением заданий и выполнение задач

В качестве условного среднего выбираем значение Математическая статистика - примеры с решением заданий и выполнение задач 225, находящееся примерно в середине ранжированного ряда.

По формулам (3.15) и (3.16) находим:

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Отсюда стандартное отклонение Математическая статистика - примеры с решением заданий и выполнение задач

Промежуточные расчеты приведены в табл. 3.5. Разумеется, получены те же значения выборочных характеристик, что и в примерах 3.1 и 3.3 при вычислении прямым методом, но сравнение табл. 3.5 с табл. 3.3 показывает, что промежуточные вычисления упростились.

Пример 3.6.

Продемонстрируем применение упрощенных методов для сгруппированных в интервальный вариационный ряд данных. Воспользуемся приведенными выше в примерах 3.2 и 3.4 данными о результатах в беге на 100 м группы школьников.

На основании приведенных в п. 3 настоящего раздела рекомендаций выбираем условное среднее Математическая статистика - примеры с решением заданий и выполнение задач=16,0 и коэффициент С = 0,8.

По формулам (3.21) и (3.22) находим:

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Промежуточные расчеты приведены в табл. 3.6 и наглядно демонстрируют упрощение, достигаемое при использовании метода условного среднего (сравните с табл. 3.2 и 3.4).

Задачи к гл. 2.3

1. Ниже приведены результаты (в см), показанные группой школьников (70 человек) в тесте «Прыжок в высоту с места». Математическая статистика - примеры с решением заданий и выполнение задач

A. Выполните группировку данных при числе интервалов группировки к = 8, используя рекомендации гл. 2; для исключения неопределенности при распределении вариант, приходящихся на границы интервалов группировки, верхние границы интервалов уменьшаются на величину, равную точности измерения признака.

Б. Сгруппируйте данные, увеличив для исключения указанной неопределенности нижние границы интервалов группировки на величину, равную точности измерения.

B. Постройте для обоих методов группировки гистограмму, полигон частот и полигон накопленных частот. Наблюдается ли различие в форме распределений?

Г. Определите для двух случаев группировки среднее арифметическое и стандартное отклонение. Прокомментируйте результаты, полученные в п.п. «А», и «Г».

2. Ниже приведены результаты (в см) измерения длины бегового шага для 43 спринтеров в зоне 20 м от линии финиша на дистанции 100 м:

Математическая статистика - примеры с решением заданий и выполнение задач

А. Составьте интервальный вариационный ряд, постройте гистограмму, полигон частот и полигон накопленных частот.

Б. Найдите среднее арифметическое и стандартное отклонение прямым методом и методом условного среднего с помощью преобразования исходных данных: Математическая статистика - примеры с решением заданий и выполнение задач .

3. Группа юных спортсменов в количестве 50 человек для оценки уровня общефизической подготовки тестировалась но числу подтягиваний на перекладине. Результаты распределились следующим образом: Математическая статистика - примеры с решением заданий и выполнение задач

А. Постройте полигон частот и полигон накопленных частот.

Б. Определите среднее арифметическое и стандартное отклонение прямым методом и методом условного среднего с помощью преобразования: Математическая статистика - примеры с решением заданий и выполнение задач

4. Ниже приведены результаты (в мл) исследования жизненной емкости легких (ЖЕЛ) 20 школьников:

Математическая статистика - примеры с решением заданий и выполнение задач

Определите среднее арифметическое и стандартное отклонение результатов прямым методом и методом условного среднего.

5. Найдите Me и Мо по данным задач 2 и 3.

6. Ниже приведены результаты (в кГ), показанные группой студентов (65 человек), динамометрии правой руки. Математическая статистика - примеры с решением заданий и выполнение задач

А. Найдите среднее арифметическое и медиану для представленных данных. Какие выводы о форме распределения можно сделать из сопоставления среднего и медианы?

Б. Постройте гистограмму распределения. Рассчитайте коэффициент вариации. Какие предположения можно сделать относительно однородности выборки (однородности состава обследуемой группы студентов)?

Элементы теории вероятностей

В предыдущих двух лекциях были рассмотрены эмпирические распределения и методы вычисления их числовых характеристик. Но обработка экспериментальных данных не ограничивается рассмотренными методами. Обычно исследователь, получив данные эксперимента на одной или нескольких группах испытуемых и определив по ним некоторые обобщающие числовые характеристики (среднее, стандартное отклонение и др.), пытается найти ответ на следующие вопросы: насколько точно полученные результаты можно обобщить для более широкой совокупности (например, на всех спортсменов данного возраста и квалификации)? Как хорошо его данные согласуются с данными других исследователей? Насколько достоверно различие экспериментальных данных, полученных в разных группах испытуемых или в одной и той же группе, но в разные промежутки времени? Существует ли связь между различными признаками, изучаемыми в проводимом исследовании, и если да, то насколько она сильна?

В ряде случаев исследователь пытается установить некую экспериментальную зависимость между изучаемыми признаками, чтобы по значениям одного из них, легко поддающегося измерению, установить значение другого, измерить который трудно или невозможно.

Конечно, в зависимости от целей конкретного исследования задачи могут быть различными и не ограничиваются приведенным перечнем.

Методы математической статистики, с помощью которых можно получить ответы на поставленные выше вопросы, рассматриваются в гл. 5—7. Чаще всего эти методы основаны на использовании тех или иных согласующихся с условиями проводимого эксперимента математических моделей, разработанных теорией вероятностей.

В данной лекции рассматриваются некоторые ее элементарные. положения в том минимальном объеме, который необходим для дальнейшего изложения.

Статистический подход к определению вероятности

Испытание, событие, случайная величина

Под испытанием (случайным испытанием) в теории вероятностей принято понимать наблюдение какого-либо явления при соблюдении определенного комплекса условий, который должен каждый раз строго выполняться при повторении данного испытания. Если то же самое явление наблюдается при другом комплексе условий, то это уже другое испытание.

Результаты испытаний можно охарактеризовать качественно и количественно.

Качественная характеристика заключается в регистрации какого-либо явления, которое может наблюдаться или не наблюдаться при данном испытании. Любое из этих явлений называется в теории вероятностей событием.

Когда речь идет о соблюдении комплекса условий данного испытания, имеется в виду постоянство значений всех факторов, контролируемых в данном испытании. Но при этом, как правило, имеет место большое число неконтролируемых факторов, которые трудно или невозможно учесть. Значения неконтролируемых факторов могут быть различными при каждом повторении испытания, поэтому результаты испытания оказываются случайными. Событие может произойти или не произойти.

Теория вероятностей рассматривает именно такие случайные события. При этом предполагается, что испытание может быть повторено неограниченное (по крайней мере, теоретически) число раз. Например, выполнение штрафного броска в баскетболе есть испытание, а попадание в кольцо — событие.

Другим примером события, часто приводимым в учебниках по теории вероятностей, является выпадение определенного числа очков (от 1 до 6) при бросании игральной кости.

События в теории вероятностей принято обозначать начальными прописными латинскими буквами А, В, С, …

Количественная характеристика испытания состоит в определении значений некоторых величин, которыми интересуются при данном испытании (например, число подтягиваний на перекладине или время на беговой дистанции). В силу действия большого числа неконтролируемых факторов эти величины могут принимать различные значения в результате испытания. Причем до испытания невозможно предсказать значение величины, поэтому она называется случайной величиной.

Вероятность событий

Будем фиксировать число испытаний, в результате которых появилось некоторое событие А. Пусть было проведено N испытаний, в результате которых событие А появилось ровно Математическая статистика - примеры с решением заданий и выполнение задач раз. Тогда число Математическая статистика - примеры с решением заданий и выполнение задач называется частотой события, а отношениеМатематическая статистика - примеры с решением заданий и выполнение задач — частостью (относительной частотой) события.

Замечательным экспериментальным фактом является то, что частость события при большом числе повторений испытания начинает мало изменяться и стабилизируется около некоторого определенного значения, в то время как при малом числе повторений она принимает различные, совершенно случайные значения. Поэтому интуитивно ясно, что если при неограниченном повторении испытания частость события будет стремиться к вполне определенному числовому значению, то это значение можно принять в качестве объективной характеристики события А. Такое число Р(A), связанное с событием А, называется вероятностью события А.

Математически неограниченное число повторений испытания записывается в виде пределаМатематическая статистика - примеры с решением заданий и выполнение задач при N, стремящемся к бесконечности Математическая статистика - примеры с решением заданий и выполнение задач;

Математическая статистика - примеры с решением заданий и выполнение задач

ПосколькуМатематическая статистика - примеры с решением заданий и выполнение задач никогда не может превзойти N, то вероятность оказывается заключенной в интервале Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Следует отметить, что приведенное определение вероятности является абстрактным, оно не может быть экспериментально проверено, так как на практике нельзя реализовать бесконечно большое число повторений испытания.

Действия над событиями

В этом разделе приводятся основные правила операций над событиями с использованием для наглядности их графического изображения в виде диаграмм.

Вначале введем понятие «поле событий» как совокупности всех случайных событий данного испытания, для которых определены вероятности. На рис. 4.1 поле событий изображено в виде заштрихованного прямоугольника.

1. Сумма (объединение) событий (рис. 4.2) представляет собой сложное событие, состоящее в появлении хотя бы одного из событий A и B. Объединение событий обозначается какМатематическая статистика - примеры с решением заданий и выполнение задач

2. Произведением (пересечением) событий А и В называется их совместное появление (рис. 4.3). Обозначается произведение событий как Математическая статистика - примеры с решением заданий и выполнение задач, или АВ,

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

3. Достоверным событием называется событие, которое обязательно происходит в результате данного испытания (рис. 4.4). Оно обозначается обычно как Е.

4. Невозможное событие — событие, которое не может произойти в результате данного испытания. Принятое обозначение — Математическая статистика - примеры с решением заданий и выполнение задач.

5. Несовместными называются события, которые в результате данного испытания не могут произойти вместе (рис. 4.5). Примеры несовместных событий: попадание и промах при выстреле, выпадение двух и трех очков при бросании игральной кости. Рис. 4.5 наглядно показывает, что для несовместных событий АВ=- Математическая статистика - примеры с решением заданий и выполнение задач.

6. Противоположным к А событием называется событие, состоящее в непоявлении события А (рис. 4.6). Обозначается противоположное событие символом А. Примеры противоположных событий: промах и попадание при выстреле, выпадение герба или цифры при одном подбрасывании монеты.

Исчисление вероятностей

Непосредственное определение вероятностей

В некоторых простейших случаях вероятности событий могут быть легко определены непосредственно исходя из условий испытаний.

Представим себе общую схему таких испытаний.

Пусть испытание имеет n возможных исходов, т. е. отдельных событий, могущих появиться в результате данного испытания; причем при каждом повторении испытания возможен один и только один из этих исходов. Таким образом, все n исходов испытания несовместны. Кроме того, по условиям испытания нет никаких оснований предполагать, что один из исходов появляется чаще других, т. е. все исходы являются равновозможными.

Допустим теперь, что при п равновозможных исходах интерес представляет некоторое событие А, появляющееся при каждом из т исходов и не появляющееся при остальных n —m исходах. Тогда принято говорить, что в данном испытании имеется п случаев, из которых m благоприятствуют появлению события А.

Вероятность события А в такой схеме равна отношению числа случаев, благоприятствующих событию А, к общему числу всех равновозможных несовместных случаев:Математическая статистика - примеры с решением заданий и выполнение задач

Формула (4.1) представляет собой так называемое классическое определение вероятности по Лапласу, пришедшее из области азартных игр, где теория вероятностей применялась для определения перспективы выигрыша.

Рассмотрим несколько примеров на вычисление вероятностей по формуле (4.1).

Пример 4.1

Испытание состоит в подбрасывании игральной кости, на каждой из граней которой проставлено число очков (от 1 до 6). Какова вероятность того, что: 1) выпадает 2 очка? 2) выпадает нечетное число очков?

В данном испытании имеется 6 равновозможных случаев (выпадение 1, 2, 3, 4, 5, 6 очков), так как нет оснований предполагать, что появление какого-то определенного числа очков более вероятно (если, конечно, кость симметрична). Поэтому вероятность выпадения любого числа очков, в том числе и 2, при одном подбрасывании 1 равна —Математическая статистика - примеры с решением заданий и выполнение задач

Событию А, заключающемуся в появлении нечетного числа очков, благоприятствуют три случая (выпадение 1, 3 и 5), поэтому по формуле (4.1) получаем

Математическая статистика - примеры с решением заданий и выполнение задач

Пример 4.2

В урне 5 белых и 10 черных шаров. Шары тщательно перемешивают и затем наугад вынимают 1 шар. Какова вероятность того, что вынутый шар окажется белым?

В этом примере имеется 15 случаев, причем ожидаемому событию (появлению белого шара) благоприятствуют 5 из них, поэтому искомая вероятность составит

Математическая статистика - примеры с решением заданий и выполнение задач

Основные правила вычисления вероятностей сложных событий

Ниже приведены основные правила, позволяющие определить вероятность появления сложного события на основании известных вероятностей составляющих его более простых событий.

1. Вероятность достоверного события равна единице:

Математическая статистика - примеры с решением заданий и выполнение задач

2. Вероятность объединения (суммы) несовместных событий равна сумме их вероятностей:

Математическая статистика - примеры с решением заданий и выполнение задач

Эти два равенства являются аксиомами теории вероятностей, т. е. принимаются в качестве исходных, но требующих доказательства свойств вероятностей. На их основе строится вся теория вероятностей.

Все остальные, приведенные ниже без доказательств формулы могут быть выведены из принятых аксиом.

3. Вероятность невозможного события равна нулю:

Математическая статистика - примеры с решением заданий и выполнение задач

4. Вероятность события, противоположного событию А, равна

Математическая статистика - примеры с решением заданий и выполнение задач

Формула (4.5) оказывается полезной на практике в тех случаях, когда вычисление вероятности непосредственно события А затруднительно, в то время как вероятность противоположного события находится просто.

5. Теорема сложения вероятностей. Вероятность объединения произвольных событий равна сумме их вероятностей за вычетом вероятности произведения событий:

Математическая статистика - примеры с решением заданий и выполнение задач

Для несовместных событий Р(АВ) = 0 и формула (4.6) переходит в (4.2).

6. Условная вероятность. Если требуется найти вероятность события В при условии, что произошло некоторое другое событие А, то такую ситуацию характеризуют с помощью условной вероятности Математическая статистика - примеры с решением заданий и выполнение задач Условная вероятность равна отношению вероятности произведения событий А и В к вероятности события А:

Математическая статистика - примеры с решением заданий и выполнение задач

В тех случаях, когда события А и В несовместны, Р(АВ) = 0 и соответственно Математическая статистика - примеры с решением заданий и выполнение задач

Определение условной вероятности в виде (4.7) дает возможность записать следующую формулу для вычисления вероятности произведения событий:

Математическая статистика - примеры с решением заданий и выполнение задач

Последняя формула носит название теоремы умножения вероятностей.

7. Вероятности для независимых событий. Два события называются независимыми, если появление одного из них не изменяет вероятности другого, иначе говоря, появление одного из них не содержит никакой информации о другом.

Для независимых событий A и В:

Математическая статистика - примеры с решением заданий и выполнение задач

Поскольку вероятность события Л (или В) для независимых событий по определению не изменяется при появлении другого события, то условная вероятность Р(А В) совпадает с вероятностью события Л, а условная вероятность Математическая статистика - примеры с решением заданий и выполнение задач — с Р(В). Вероятности Р(А) и Р(В) в отличие от условных вероятностей называются безусловными.

Теорема умножения вероятностей для независимых событий записывается следующим образом:Математическая статистика - примеры с решением заданий и выполнение задач

т. е. вероятность произведения независимых событий равна произведению их вероятностей.

Пример 4.3

В урне 5 белых, 4 черных и 8 красных шаров. Какова вероятность того, что первый наугад вынутый шар окажется черным или красным?

Здесь имеется всего 17 случаев, из которых появлению черного шара благоприятствует 4, а появлению красного — 8. Поэтому вероятность события Л — появление черного шара:

Математическая статистика - примеры с решением заданий и выполнение задач

а вероятность события В — появление красного шара:

Математическая статистика - примеры с решением заданий и выполнение задач

Поскольку события A и В несовместны (вынимается всего один шар), то по формуле (4.2) сложения вероятностей несовместных событий получаем:

Математическая статистика - примеры с решением заданий и выполнение задач

Пример 4.4

В студенческой группе 25 человек. Какова вероятность того, что дни рождения хотя бы у двоих совпадают?

Вероятность того, что дни рождения у двух произвольно взятых людей совпадают, равна .Математическая статистика - примеры с решением заданий и выполнение задач(Считаем, что попадание дня рождения на любой день в году — равновозможные случаи). Тогда вероятность того, что дни рождения двух людей не совпадают, по формуле (4.5) для вероятности противоположного события равна Математическая статистика - примеры с решением заданий и выполнение задачВероятность того, что день рождения третьего отличается от дней рождения двух предыдущих, составит Математическая статистика - примеры с решением заданий и выполнение задач (363 случая из 365 благоприятствуют этому событию). Рассуждая аналогично, находим, что для 25-го члена группы эта вероятность равна Математическая статистика - примеры с решением заданий и выполнение задач

Теперь найдем вероятность того, что дни рождения всех 25 членов группы не совпадают. Поскольку все эти события (несовпадение дня рождения каждого очередного члена группы с днями рождения предыдущих) независимы, то по формуле (4.10) умножения вероятностей независимых событий получаем: Математическая статистика - примеры с решением заданий и выполнение задач Мы нашли вероятность того, что дни рождения у всех 25 человек не совпадают. Вероятность противоположного события будет вероятностью того, что хотя бы у двоих дни рождения совпадают, т. е. искомой вероятностью.

Определяем ее по формуле Математическая статистика - примеры с решением заданий и выполнение задач

Пример 4.5

В урне 3 белых и 7 черных шаров. Какова вероятность того, что два подряд наугад вытянутых шара окажутся белыми?

Нас интересует вероятность произведения двух событий: Математическая статистика - примеры с решением заданий и выполнение задач — при первом испытании вынут белый шар и Математическая статистика - примеры с решением заданий и выполнение задач— при втором испытании вынут белый шар. По формуле (4.8) вероятность такого события равна Математическая статистика - примеры с решением заданий и выполнение задач= Математическая статистика - примеры с решением заданий и выполнение задачВероятность события Математическая статистика - примеры с решением заданий и выполнение задач составит:

Математическая статистика - примеры с решением заданий и выполнение задач После первого испытания в урне осталось 9 шаров, из которых 2 белых, поэтому условная вероятность

Математическая статистика - примеры с решением заданий и выполнение задач

Отсюда искомая вероятность равна:

Математическая статистика - примеры с решением заданий и выполнение задач

Случайные величины

Выше мы уже дали интуитивное определение случайной величины, характеризующей количественные результаты испытания и способной в одних и тех же условиях испытания под воздействием случайных причин принимать различные значения.

Изучение случайных величин в теории вероятностей требует связи этих величин с определенными событиями, которые заключаются в попадании случайной величины в некоторый интервал и для которых определены вероятности. Иначе говоря, необходимо связать случайную величину с полем событий данного испытания (см. определение поля событий в разделе 4.3).

Для формального определения случайной величины можно поступить следующим образом: пусть при измерении определенного признака объекта получается некоторая величина X, выражаемая действительными числами. Определим событие А как событие, состоящее в том, что величина X меньше или равна заданному числовому значению Математическая статистика - примеры с решением заданий и выполнение задачВ последовательности испытаний, т. е. при измерениях на некоторой последовательности объектов, событие А может появиться или не появиться. Тогда, если для любого заданного х определена вероятность Математическая статистика - примеры с решением заданий и выполнение задач X называется случайной величиной.

Обычно рассматриваются два типа случайных величин: дискретные и непрерывные.

Дискретные случайные величины принимают в результате испытания одно из дискретного множества значений. Они хорошо подходят для описания результатов измерений, связанных с подсчетом и выражаемых целыми числами.

Примеры дискретных случайных величин: число подтягиваний на перекладине, число попаданий в кольцо в серии из 10 штрафных бросков и т. п.

Вероятность принятия дискретной случайной величиной каждого из возможных ее значений больше нуля. Эта вероятность может быть записана как

Математическая статистика - примеры с решением заданий и выполнение задач

Здесь X — обозначение случайной величины; Математическая статистика - примеры с решением заданий и выполнение задач — конкретные числовые значения, принимаемые дискретной случайной величиной; Математическая статистика - примеры с решением заданий и выполнение задач — вероятности этих значений.

Индекс i может в общем случае пробегать значения от —Математическая статистика - примеры с решением заданий и выполнение задач

Функция Математическая статистика - примеры с решением заданий и выполнение задач связывающая значения дискретной случайной величины с их вероятностями, называется ее распределением (законом распределения).

Непрерывные случайные величины в результате испытания могут принимать любые значения из некоторого интервала.

Примеры непрерывных случайных величин: спортивный результат в беге или прыжках, рост и масса тела человека, сила мышц и др.

Строго говоря, при практических измерениях результаты всегда получаются с точностью до некоторого значения (например, 0, 01 с при измерении времени на беговой дистанции), поэтому их можно было бы описывать, пользуясь моделью дискретных случайных величин, так как они принимают дискретные значения из некоторого интервала: результат в беге—10,12; 10,13; 10,14; …. рост человека —171, 172, 173 Но число возможных значений, как правило, настолько велико, что гораздо удобнее оказывается модель непрерывных случайных величин, хотя она и является в данном случае математической идеализацией.

Поскольку число возможных значений непрерывной случайной величины бесконечно велико и чаще всего нет оснований предположить, что одни значения появляются существенно чаще других, то вероятность принятия непрерывной случайной величиной каждого отдельного значения оказывается равной нулю. По этой причине нельзя описать распределение непрерывной случайной величины в виде вероятностей ее отдельных значений, как в случае дискретных случайных величин. Здесь необходимы другие подходы, которые будут рассмотрены в разделах 4.6 и 4.7.

Функция распределения

Рассмотрим вероятность того, что случайная величина X окажется меньше или равной некоторому заданному числу х, т. е.Математическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач

Эта вероятность, рассматриваемая как функция переменной х, называется функцией распределения случайной величины X. Она используется для записи распределений как дискретных, так и непрерывных случайных величин.

Обратимся вначале к дискретной случайной величине и поясним построение функции распределения на конкретном примере.

Пусть баскетболист выполняет серию из 10 штрафных бросков, причем вероятность попадания в кольцо для каждой из попыток равна 0,5. Определим вероятность того, что в данной серии баскетболист поразит кольцо ровно 0; 1; 2; …; 10 раз.

Вероятность попадания с одной попытки обозначим как Р = 0,5. Тогда вероятность промаха составит q = 1—Р = 0,5.

Этот пример подходит под общую схему, известную в теории вероятностей как схема Бернулли, описываемая биномиальным распределением: если р — вероятность «успеха» в данном испытании, a q— 1 — р — вероятность «неуспеха», тогда вероятность того, что в п испытаниях «успех» наступит ровно х раз, определяется следующим выражением:Математическая статистика - примеры с решением заданий и выполнение задач

гдеМатематическая статистика - примеры с решением заданий и выполнение задач — биномиальные коэффициенты (число возможных сочетаний из п элементов по х).

Биномиальное распределение широко используется в математической статистике, таблицы биномиальных вероятностей Математическая статистика - примеры с решением заданий и выполнение задачприведены в [4].

Для нашего примера вероятности попадания в кольцо ровно 0; 1; 2; …; 10 раз равны: Математическая статистика - примеры с решением заданий и выполнение задач

Случайная величина (число попаданий в серии из 10 бросков) обозначается через X. События, состоящие в том, что случайная величина X принимает каждое из возможных значений X = 0, X = 1, …, X = 10, являются несовместными, так как случайная величина X может принимать в данной серии испытаний только одно значение.

Определим теперь функцию распределения Математическая статистика - примеры с решением заданий и выполнение задач случайной величины и рассмотрим ее поведение на графике (рис. 4.7).

Математическая статистика - примеры с решением заданий и выполнение задач

Рис. 4.7 Функция распределения дискретной случайной величины При Математическая статистика - примеры с решением заданий и выполнение задач значение Математическая статистика - примеры с решением заданий и выполнение задач равно нулю, так как случайная величина X не может принимать значения меньше 0. При Математическая статистика - примеры с решением заданий и выполнение задач

В интервале от 0 до Математическая статистика - примеры с решением заданий и выполнение задач не изменяется, поскольку случайная величина X не принимает значений в этом диапазоне.

Рассмотрим интервал Математическая статистика - примеры с решением заданий и выполнение задач. Событие Математическая статистика - примеры с решением заданий и выполнение задач для этого интервала представляет собой сумму двух событий: X — 0 и X — 1, и поскольку эти события несовместны, то по теореме сложения вероятностей (4.2)

Математическая статистика - примеры с решением заданий и выполнение задач

Аналогично для интервалаМатематическая статистика - примеры с решением заданий и выполнение задач +Математическая статистика - примеры с решением заданий и выполнение задач, для интервала Математическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач и т. д.

Таким образом, функция распределения Математическая статистика - примеры с решением заданий и выполнение задач остается постоянной на интервалах между значениями Математическая статистика - примеры с решением заданий и выполнение задач которые может принимать случайная величина X. И только в этих точках Математическая статистика - примеры с решением заданий и выполнение задач она скачком меняет свое значение на величину, равную вероятности Математическая статистика - примеры с решением заданий и выполнение задач, т. е. функция распределения дискретной случайной величины является ступенчатой функцией. Это свойство является общим для всех дискретных случайных величин.

Если известна функция распределения, легко найти вероятность показания случайной величины в заданный интервал:

Математическая статистика - примеры с решением заданий и выполнение задач

т. e. вероятность того, что случайная величина X окажется меньше или равной Математическая статистика - примеры с решением заданий и выполнение задачно больше Математическая статистика - примеры с решением заданий и выполнение задач определяется как разность значений функции распределения в точках Математическая статистика - примеры с решением заданий и выполнение задач

Например, нужно найти для рассматриваемого примера вероятность того, что баскетболист в серии из 10 штрафных бросков наберет число очков меньше 8, но больше 3. По формуле (4.13) получаем: Математическая статистика - примеры с решением заданий и выполнение задач

Перейдем теперь к непрерывным случайным величинам. Как было сказано ранее, вероятность принятия непрерывной случайной величиной какого-либо конкретного значения равна 0. Следовательно, функция распределения не может иметь скачков, как для дискретной случайной величины. Функция распределения непрерывной случайной величины будет гладкой (непрерывной) функцией (рис. 4.8).

Для непрерывной случайной величины важную роль играет вероятность попадания ее в заданный интервал, которая по известной функции распределения находится какМатематическая статистика - примеры с решением заданий и выполнение задач В этом выражении совершенно не обязательно записывать интервал таким образом. Можно было бы записать Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задачпри этом вероятность попадания случайной величины в интервал не изменится. Это связано с тем, что, как уже отмечалось, функция распределения случайной непрерывной величины не имеет скачков ни при каких значениях х.

Функция распределения представляет собой теоретический аналог полигона накопленных частот, рассмотренного в разделе 2.3.

Математическая статистика - примеры с решением заданий и выполнение задач

Плотность распределения вероятностей

Для непрерывных случайных величин вводится понятие «плотность распределения вероятное-т е й», или «плотность вероятностей», играющее исключительно важную роль при их описании.

Плотность вероятностей — это производная от функции распределения непрерывной случайной величины, т. е.

Математическая статистика - примеры с решением заданий и выполнение задач

Более подробно при рассмотрении конкретных непрерывных распределений об этой функции рассказано в разделе 4.9. Вид плотности вероятностей показан на рис. 4.9. Математическая статистика - примеры с решением заданий и выполнение задач

Рис. 4.9. Вид плотности распределения вероятностей Вероятность попадания непрерывной случайной величины в интервал между значениями Х и х2 пропорциональная площади под кривой плотности вероятностей, заключенной между точками Математическая статистика - примеры с решением заданий и выполнение задач Эта вероятность математически записывается в виде интеграла отМатематическая статистика - примеры с решением заданий и выполнение задач в пределах Математическая статистика - примеры с решением заданий и выполнение задач:

Математическая статистика - примеры с решением заданий и выполнение задач

Плотность вероятностей является теоретическим аналогом гистограммы, рассмотренной в разделе 2.3 гл. 2.

Числовые характеристики случайных величин

Распределение случайной величины, заданное в виде функции распределения или плотности вероятностей, полностью ее характеризует. Однако такая исчерпывающая характеристика случайной величины сложна и далеко не всегда необходима. Для решения многих практических задач не нужно знать распределение случайной величины, а достаточно иметь лишь некоторые обобщающие числовые характеристики этого распределения.

Математическое ожидание

Для более наглядного определения математического ожидания (среднего значения) случайной величины рассмотрим подход к этому понятию на конкретном примере.

Пусть имеется дискретная случайная величина X с возможными значениями Математическая статистика - примеры с решением заданий и выполнение задач и вероятностями этих значений Математическая статистика - примеры с решением заданий и выполнение задач В качестве X рассмотрим уже знакомую случайную величину — число попаданий в серии из 10 штрафных бросков в баскетболе. Если баскетболист с достаточными для отдыха промежутками времени, чтобы условия испытания не изменялись, выполняет большое число (n) таких серий из 10 бросков, то каждое из значений Математическая статистика - примеры с решением заданий и выполнение задач (попал 0; 1; …. 10 раз) будет наблюдаться некоторое число раз. Обозначим эти числа черезМатематическая статистика - примеры с решением заданий и выполнение задач Очевидно, что сумма Математическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач

Таким образом, имеем n наблюдений случайной величины X, т. е. выборку объема n. Определим по формуле (3.2) выборочное среднее арифметическое:

Математическая статистика - примеры с решением заданий и выполнение задач

Здесь индекс n при x обозначает, что среднее арифметическое вычислено по п наблюдениям.

Теперь представим, что испытание, состоящее в серии из 10 бросков, повторяется неограниченное число раз. Здесь, абстрагируясь от физической реализуемости такого эксперимента, будем считать, что наблюдению доступна вся теоретически бесконечная генеральная совокупность значений случайной величины X.

Согласно первоначальному определению вероятности, данному в разделе 4.2.2, относительные частоты событий стремятся к их вероятностям при неограниченном повторении испытания.

Поэтому в пределе при Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Таким образом, выборочное среднее арифметическое случайной величины X стремится при неограниченном повторении испытания (при неограниченном увеличении объема выборки) к некоторому постоянному числу, так как в последней сумме Математическая статистика - примеры с решением заданий и выполнение задач — постоянные числа. Это число носит название математического ожидания (среднего значения) случайной величины.

Математическое ожидание обозначает как М (X) или Математическая статистика - примеры с решением заданий и выполнение задач

Математическое ожидание дискретной случайной величины равно сумме всех ее возможных значений, умноженных на вероятности этих значений:

Математическая статистика - примеры с решением заданий и выполнение задач

В этой записи Математическая статистика - примеры с решением заданий и выполнение задач означает, что суммирование производится по всем возможным i.

Только что рассмотренный пример показывает, что математическое ожидание — абстрактное понятие. Оно является теоретическим аналогом выборочного среднего арифметического.

Математическое ожидание равно среднему значению генеральной совокупности.

Для непрерывных случайных величин математическое ожидание определяется с помощью плотности вероятностей по формуле:Математическая статистика - примеры с решением заданий и выполнение задач

Дисперсия и стандартное отклонение

Точно так же, как математическое ожидание, являющееся теоретическим аналогом среднего арифметического, можно ввести теоретические аналоги всех числовых характеристик выборки, рассмотренных в гл. 3. Для этого нужно в соответствующих формулах для выборочных характеристик заменить все средние арифметические на математические ожидания.

Дисперсией случайной величины X называется математическое ожидание квадрата отклонений случайной величины от ее математического ожидания (сравните с определением п. 3.4.2). Дисперсия обозначается как Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Для дискретных случайных величин

Математическая статистика - примеры с решением заданий и выполнение задач

т. е. дисперсия дискретной случайной величины равна сумме квадратов отклонений отдельных значений случайной величины от ее математического ожидания, умноженных на вероятности этих значений.

Для непрерывных случайных величин Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач

Положительный корень квадратный из дисперсии называется средним квадратическим (стандартным) отклонением случайной величины.

Эта величина обозначается, как ах

Математическая статистика - примеры с решением заданий и выполнение задач

Дисперсия и стандартное отклонение характеризуют изменчивость (вариативность) случайной величины. Чем сильнее случайная величина отклоняется от своего математического ожидания, тем больше величины Математическая статистика - примеры с решением заданий и выполнение задач и Математическая статистика - примеры с решением заданий и выполнение задач Последнюю Математическая статистика - примеры с решением заданий и выполнение задач использовать удобнее, так как его размерность совпадает с размерностью случайной величины (например, см. с, кг и др.).

Пример 4.6

Определим в качестве примера математическое ожидание и стандартное отклонение случайной величины X, представляющей собой число попаданий в серии из 10 штрафных бросков в баскетболе при вероятности попадания с одного броска р — 0,5.

Как мы уже знаем, наша случайная величина имеет биномиальное распределение (4.12). Если подставить значения биномиальных вероятностей (4.12) в формулы (4.16) и (4.18), то после соответствующих преобразований, которые здесь не приводятся, получим:

Математическая статистика - примеры с решением заданий и выполнение задач

В этих выражениях п — число повторений испытания в серии испытаний, т. е. в этом примере число бросков в серии Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач

Моменты

Математическое ожидание и дисперсия представляют собой частные случаи общих числовых характеристик случайной величины, называемых моментами.

Ниже кратко рассматриваются лишь так называемые центральные моменты случайной величины.

K-м центральным моментом случайной величины X называется математическое ожидание k-й степени отклонения случайной величины от ее математического ожидания: Математическая статистика - примеры с решением заданий и выполнение задач В частности, при k = 2 второй центральный момент случайной величины есть дисперсия.

На практике часто используются также третий и четвертый центральные моменты, позволяющие судить о симметричности и остроте вершины кривой распределения случайной величины.

Если Математическая статистика - примеры с решением заданий и выполнение задач = 0, то распределение симметрично относительно математического ожидания, еслиМатематическая статистика - примеры с решением заданий и выполнение задач>0, то преобладают положительные отклонения от математического ожидания, если Математическая статистика - примеры с решением заданий и выполнение задач<0 — отрицательные. Для удобства применяется так называемый коэффициент асимметрии, который является безразмерной величиной и определяется как Математическая статистика - примеры с решением заданий и выполнение задач Об остроте вершины кривой распределения судят по коэффициенту эксцесса: Математическая статистика - примеры с решением заданий и выполнение задач Если Математическая статистика - примеры с решением заданий и выполнение задач>0, то распределение имеет острый пик, если Математическая статистика - примеры с решением заданий и выполнение задач<0 (минимальное значение Математическая статистика - примеры с решением заданий и выполнение задач = — 2), то распределение имеет плосковершинную форму по сравнению с рассмотренным ниже нормальным распределением, для которого Математическая статистика - примеры с решением заданий и выполнение задач = 0.

Нормальное распределение

Большинство экспериментальных исследований, в том числе и в области спорта, связано с измерениями, результаты которых могут принимать практически любые значения в заданном интервале и, как уже было отмечено, описываются моделью непрерывных случайных величин. Поэтому в дальнейшем будут рассматриваться в основном непрерывные случайные величины и связанные с ними непрерывные распределения.

Одним из непрерывных распределений, имеющим основополагающую роль в математической статистике, является нормальное, или гауссово*, распределение.

Нормальное распределение является самым важным в статистике. Это объясняется целым рядом причин.

1. Прежде всего, многие экспериментальные наблюдения можно успешно описать с помощью нормального распределения. Следует сразу же отметить, что не существует распределений эмпирических данных, которые были бы в точности нормальными, поскольку (как будет показано ниже) нормально распределенная случайная величина находится в пределах от —Математическая статистика - примеры с решением заданий и выполнение задач до Математическая статистика - примеры с решением заданий и выполнение задач, чего никогда не бывает на практике. Однако нормальное распределение очень часто хорошо подходит как приближение.

Проводятся ли измерения роста, силы мышц, спортивного результата в беге, прыжках, метаниях, ряда физиологических параметров — везде на результаты оказывает влияние очень большое число случайных факторов (естественные причины и ошибки измерения). Причем, как правило, действие каждого из этих факторов незначительно. Опыт показывает, что результаты именно в таких случаях будут распределены приближенно нормально.

2. Нормальное распределение хорошо подходит в качестве аппроксимации (приближенного описания) других распределений (например, биномиального).

3. Многие распределения, связанные со случайной выборкой, при увеличении объема последней переходят в нормальное.

4. Нормальное распределение обладает рядом благоприятных математических свойств, во многом обеспечивших его широкое применение в статистике.

В то же время следует отметить, что в природе встречается много экспериментальных распределений, для описания которых модель нормального распределения малопригодна. Для этого в математической статистике разработан ряд методов, некоторые из которых приводятся в следующих лекциях.

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Плотность вероятностей нормально распределенной случайной величины записывается следующим образом:

Математическая статистика - примеры с решением заданий и выполнение задач

График плотности (нормальная кривая) представлен на рис. 4.10.

Укажем основные свойства нормального распределения.

1. Нормальная кривая имеет колоколообразную форму, симметричную относительно точки х —Математическая статистика - примеры с решением заданий и выполнение задач, с точками перегиба, абсциссы которых отстоят от Математическая статистика - примеры с решением заданий и выполнение задач

2. Для нормального распределения математическое ожидание Математическая статистика - примеры с решением заданий и выполнение задач, дисперсия Математическая статистика - примеры с решением заданий и выполнение задачи стандартное отклонение равно Математическая статистика - примеры с решением заданий и выполнение задач

3. Как видно из выражения (4.23), нормальное распределение полностью определяется двумя параметрами: р и 0— математическим ожиданием и стандартным отклонением.

График плотности вероятности нормального распределения показывает, что для нормально распределенной случайной величины вероятность отклонения от среднего значения Математическая статистика - примеры с решением заданий и выполнение задач быстро уменьшается с ростом величины отклонения.

4. Медиана и мода нормального распределения совпадают и равны математическому ожиданию р.

5. Коэффициенты асимметрии и эксцесса нормального распределения равны нулю Математическая статистика - примеры с решением заданий и выполнение задач

Последнее свойство (5) используется для проверки предположения о нормальности распределения генеральной совокупности (гл. 6).

Нормированное нормальное распределение

Формула (4.23) описывает целое семейство нормальных кривых, зависящих, как было сказано выше, от двух параметров — Математическая статистика - примеры с решением заданий и выполнение задач которые могут принимать любые значения, поэтому возможно бесконечно много нормально распределенных совокупностей.

Чтобы избежать неудобств, связанных с расчетами для каждого конкретного случая по достаточно сложной формуле (4.23), используют так называемое нормированное (или’стандартное) нормальное распределение, для которого составлены подробные таблицы.

Нормированное нормальное распределение имеет параметрыМатематическая статистика - примеры с решением заданий и выполнение задач Это распределение получается, если пронормировать нормально распределенную величину X по формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

Плотность распределения вероятностей нормированного нормального распределения записывается в виде:

Математическая статистика - примеры с решением заданий и выполнение задач

На кривой нормированного нормального распределения (рис. 4.11) указаны в процентах доли площадей, соответствующих отмеченным значениям нормированного отклонения и, по отношению Математическая статистика - примеры с решением заданий и выполнение задач общей площади под кривой, равной 1 (100%). Эти площади определяют вероятности попадания случайной величины в соответствующие интервалы.

 Математическая статистика - примеры с решением заданий и выполнение задач

Таблица значений Математическая статистика - примеры с решением заданий и выполнение задач — ординат нормальной кривой приведена в Приложении (табл. 2). Значения Математическая статистика - примеры с решением заданий и выполнение задач для некоторых характерных нормированных отклонений представлены в табл. 4.1.

Математическая статистика - примеры с решением заданий и выполнение задач

Вероятность попадания в заданный интервал

Очень часто исследователя интересует вопрос: какова вероятность того, что изучаемый признак генеральной совокупности находится в заданных границах (например, вероятность того, что результат в беге на 100 м для группы испытуемых окажется в пределах 11,5—12,5 с)? Если предполагается нормальное распределение признака в генеральной совокупности, то получить ответ на этот вопрос очень просто. Как говорилось ранее, вероятность попадания нормально распределенной случайной величины в заданный интервал Математическая статистика - примеры с решением заданий и выполнение задачможно определить по функции распределения: Математическая статистика - примеры с решением заданий и выполнение задач

Если использовать функцию нормированного нормального распределения, эту вероятность можно записать следующим образом:

Математическая статистика - примеры с решением заданий и выполнение задач1),

где Ф — принятое обозначение для функции нормированного нормального распределения; Математическая статистика - примеры с решением заданий и выполнение задач—параметры исходного распределения.

Функция нормированного нормального распределения имеет следующий вид:

Математическая статистика - примеры с решением заданий и выполнение задач

Интеграл, входящий в это выражение, не выражается в элементарных функциях, поэтому для вычисления функции Ф(и) используют вспомогательную функцию — функцию Лапласа (интеграл вероятностей):

Математическая статистика - примеры с решением заданий и выполнение задач

В Приложении приведена табл. 1 удвоенных значений функции Лапласа Математическая статистика - примеры с решением заданий и выполнение задач

Чтобы найти вероятность попадания нормально распределенной случайной величины в заданный интервал Математическая статистика - примеры с решением заданий и выполнение задачс помощью функции Лапласа, используется следующая формула:

Математическая статистика - примеры с решением заданий и выполнение задач

Функция Лапласа является нечетной, т. е. Математическая статистика - примеры с решением заданий и выполнение задач = Математическая статистика - примеры с решением заданий и выполнение задач

Часто представляет интерес вероятность попадания в симметричный относительно среднего значения р, интервал. При этом

Математическая статистика - примеры с решением заданий и выполнение задач

Учитывая нечетность функции Лапласа, получаем:

Математическая статистика - примеры с решением заданий и выполнение задач

Отсюда ясен смысл того, что в табл. 1 Приложения приведены удвоенные значения функции Лапласа.

В табл. 4.2 приведены полученные по формуле (4.28) вероятности того, что нормально распределенная случайная величина отклонится от своего среднего значения Математическая статистика - примеры с решением заданий и выполнение задач не более, чем на Математическая статистика - примеры с решением заданий и выполнение задач

Таблица 4.2 Вероятности попадания нормально распределенной случайной величины в заданный интервал

Из табл. 4.2 следует, что Математическая статистика - примеры с решением заданий и выполнение задач

Это выражение известно в статистике как «правило трех сигм». Оно означает, что с вероятностью 0,9973 (практически с единичной) нормально распределенная случайная величина окажется в пределах Математическая статистика - примеры с решением заданий и выполнение задач от среднего значения. Иначе говоря, отклонения от среднего больше Математическая статистика - примеры с решением заданий и выполнение задач можно ожидать примерно в I случае из 370 испытаний.

Некоторые специальные непрерывные распределения

Нормальное распределение широко применяется как математическая модель для описания экспериментальных данных. В этом разделе будут рассмотрены три распределения, которые играют очень важную роль при обработке результатов, связанных со случайной выборкой объема n, и составляют основу применения критериев значимости и проверки статистических гипотез. Примеры использования этих распределений приводятся в гл. б, посвященной указанным статистическим методам.

X распределение

Если Математическая статистика - примеры с решением заданий и выполнение задач независимые случайные величины, каждая из которых имеет нормированное нормальное распределение с параметрами Математическая статистика - примеры с решением заданий и выполнение задачто сумма квадратов этих величин имеет так называемое Математическая статистика - примеры с решением заданий и выполнение задач (хи-квадрат)-распределение.

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Его плотность вероятностей представлена на рис. 4.12 и зависит от единственного параметра — числа степеней свободы V.

Кривая Математическая статистика - примеры с решением заданий и выполнение задач-распределения имеет положительную асимметрию. С ростом числа степеней свободы v она становится все более симметричной и при Математическая статистика - примеры с решением заданий и выполнение задачпереходит в нормальное.

Таблицы Математическая статистика - примеры с решением заданий и выполнение задач-распределения приводятся в табл. 5 Приложения. В этой таблице содержатся значения х, соответствующие вероятностям Р— 1 — а, при а, равном 0,05; 0,01 и 0,001 для различного числа степеней свободы v.

t-распределение Стьюдента

Вторым из широко используемых специальных распределений является t-распределение Стьюдента, или просто t-распределение. Это распределение случайной величины:

Математическая статистика - примеры с решением заданий и выполнение задач

где U — случайная величина, имеющая нормированное нормальное распределение; V — случайная величина с распределением Математическая статистика - примеры с решением заданий и выполнение задач с v степенями свободы, t-распределение применяется при проверке статистических гипотез при малом объеме выборки. Эти вопросы рассмотрены в гл. 6. Форма t-распределения полностью определяется одним параметром — числом степеней свободы v.

Вид кривой плотности t-распределения показан на рис. 4.13. /-распределение симметрично при любом v и Математическая статистика - примеры с решением заданий и выполнение задач

при Математическая статистика - примеры с решением заданий и выполнение задач переходит в нормальное с параметрами Математическая статистика - примеры с решением заданий и выполнение задачи Математическая статистика - примеры с решением заданий и выполнение задач

F-распределение

Если случайные величины U и V независимы и каждая из них распределена как Математическая статистика - примеры с решением заданий и выполнение задач с Математическая статистика - примеры с решением заданий и выполнение задач степенями свободы соответственно, то величина Математическая статистика - примеры с решением заданий и выполнение задач подчиняется так называемому F-распределению, которое зависит от двух параметров — Математическая статистика - примеры с решением заданий и выполнение задач называемых числами степеней свободы. F-распределение применяется в основном в задачах, связанных с дисперсиями.

Оценка генеральных параметров

Материал, содержащийся в предыдущих лекциях, можно рассматривать как минимальный набор сведений, необходимых для использования основных статистических методов, объединенных в теории статистических выводов.

Перейдем теперь к рассмотрению этих методов. Для этого необходимо определить их место в рамках единого подхода к решению конкретных задач статистических исследований в области спорта.

Основная задача, решаемая с помощью методов математической статистики, — получение информации о закономерностях изменения изучаемого признака для большой совокупности объектов исследования, объединенных по этому признаку. В терминах математической статистики это означает, что делаются выводы о свойствах генеральной совокупности.

Для описания генеральной совокупности используются математические модели теории вероятностей. Исчерпывающую информацию о генеральной совокупности дает распределение вероятностей. Чаще всего используется модель нормально распределенной генеральной совокупности. И в этом случае распределение полностью определено всего двумя параметрами:

  • средним значением (математическим ожиданием) и стандартным отклонением.

Следовательно, чтобы полностью описать нормальную генеральную совокупность, нужно знать значения двух генеральных параметров: среднего значения и стандартного отклонения. Так, если интерес вызывают спортивные результаты, то это средний результат всех спортсменов данной категории и стандартное отклонение результата. Эти параметры неизвестны и предположительно находятся в каких-то пределах. Единственное, что можно сделать, чтобы их определить — это провести эксперимент. Эксперимент для всей генеральной совокупности нереализуем или неоправдан, поэтому применяется выборочный метод.

На основании данных, полученных по выборке, делается вывод относительно всей генеральной совокупности. Используемые для этого методы теории статистических выводов обычно подразделяются на два класса: оценка параметров и проверка гипотез.

Задача оценки параметров состоит в получении наилучших в определенном смысле оценок параметров распределения генеральной совокупности на основании выборочных данных.

Проверка гипотез охватывает методы использования выборочных данных для проверки предположений относительно распределения и параметров распределения генеральной совокупности, которые делаются до получения выборочных данных.

В данной лекции будут рассмотрены основные положения теории оценок.

Случайная выборка из генеральной совокупности

Чтобы по выборке можно было делать выводы о свойствах всей генеральной совокупности, она должна быть представительной (репрезентативной). Это обеспечивается в тех ситуациях, когда выборка является случайной. Модель случайной выборки предъявляет к ней следующие требования: 1) каждый из объектов, составляющих генеральную совокупность, должен иметь одинаковую вероятность быть представленным в выборке; 2) все п измерений, образующих выборку, должны быть независимыми, т. е. результаты каждого измерения не должны зависеть от предыдущих измерений.

Существует два основных метода отбора объектов из генеральной совокупности в выборку: повторный и бес-повторный.

При повторном отборе каждый объект после измерения значения признака возвращается в генеральную совокупность. При этом состояние генеральной совокупности перед каждым новым измерением восстанавливается и требование независимости всегда выполняется.

При бесповторном отборе после измерения объект не возвращается в генеральную совокупность. В этом случае соотношение значений признака в оставшейся части генеральной совокупности меняется, и, следовательно, проводимые измерения не являются независимыми, т. е. бесповоротный отбор не является случайным. На практике бесповоротный отбор используется чаще. Когда проводится измерение каких-то признаков, относящихся к спортсменам, выборка составляется таким образом, что после того, как очередной спортсмен принял участие в измерениях, он уже не участвует в следующих измерениях.

Но, как правило, можно считать, что объем генеральной совокупности настолько велик, что при исключении из нее относительно малого числа единиц, составляющих выборку, состояние генеральной совокупности практически не меняется. При бесконечной генеральной совокупности различие между повторным и бесповторным отбором исчезает.

На практике используется несколько способов получении случайных выборок.

1. Истинно случайной будет выборка, полученная способом жеребьевки. Если, например, нужно отобрать группу в 20 человек из генеральной совокупности, включающей 500 человек, то можно заготовить карточки, из которых 20 определенным образом пометить, а остальные оставить пустыми. Затем всем предлагается вытянуть карточку, и таким образом получается необходимая выборка.

Организационно проще случайная выборка получается методом случайных чисел. Суть этого метода заключается в использовании таблицы случайных чисел. Последние располагаются в таблице в случайном порядке, и вероятности появления цифр от 0 до 9 в каждом разряде чисел одинаковы. Фрагмент таблицы случайных чисел представлен в табл. 5.1. Более подробные таблицы можно найти в [3, 4, 7, 13].

Все объекты генеральной совокупности нумеруются. Если объектов 500, то им присваиваются номера от 001 до 500. Затем в таблице случайных чисел произвольным образом выбирается любое число. Например, первое число второго столбца в табл. 5.1 33 834. Это число пятиразрядное, а нам нужны трехразрядные номера, поэтому отбрасываем два любых разряда числа, например последние. Получим 338, и объект с таким номером включаем в выборку. Далее берем следующее число из таблицы, двигаясь слева направо. Поступая аналогичным образом, получаем число 542. Это число больше 500, поэтому оно пропускается. Далее двигаемся по таблице до числа меньше 500, еще не встречавшегося ранее. Это будет 344, затем 448 и т. д. до тех пор, пока не наберем нужное количество номеров. Объекты с полученными номерами включаем в выборку.

Принцип случайности выборки не исключает плановости отбора объектов в нее. При этом планируется отбор по тем признакам объектов, которые не подлежат измерению в проводимом эксперименте. Существуют следующие виды планового отбора.

2. Механический отбор. Генеральная совокупность делится на группы, число которых равно объему выборки, а затем из каждой группы случайным образом выбирается один объект. В других случаях отбирается каждый 10-й, каждый 100-й и т. д. экземпляр генеральной совокупности или ее представительной части. -Например, в группу включается каждый 10-й юный спортсмен ДЮСШ.

3. Типический отбор. Генеральная совокупность делится на типические участки, например по районному принципу, и в каждой из полученных групп случайным образом отбирается одинаковое число объектов.

4. Серийный отбор. Генеральная совокупность делится на группы, называемые сериями, а затем из общего числа серий отбирается нужное число для сплошного исследования. Например, предполагается получить данные о физическом развитии младших школьников города. Если имеется 50 начальных классов средних школ, то при планируемом обследовании шести классов эти классы отбираются случайным образом.

При проведении выборочных исследований предполагается, что выборка является однородной. Это означает, что она получена из одной генеральной совокупности, т. е. в исходной совокупности отсутствуют объекты, резко выделяющиеся по значениям изучаемого признака. Предположение об однородности выборки на практике обычно основывается на предварительном изучении условий эксперимента. Так, обычно есть уверенность в том, что полученные выборочные данные представляют собой результаты измерений для спортсменов одного возраста, квалификации, спортивной специализации и т, п.

Точечные оценки

Под термином «о ц е н к а» в теории оценок понимаются как сами значения параметров генеральной совокупности, полученные по выборке, так и процесс получения этих значений, т. е. правило, по которому они получены.

Определения и требования к оценкам

Оценки подразделяются на два класса: точечные и интервальные.

Точечные оценки представляют собой определенные значения параметров генеральной совокупности, полученные по выборочным данным. Эти значения должны быть максимально близки к значениям соответствующих параметров генеральной совокупности, которые являются истинными значениями оцениваемых параметров.

При формировании интервальных оценок определяют границы интервалов, между которыми с большой вероятностью находятся истинные значения параметров.

Начнем с точечных оценок и рассмотрим оценку произвольного параметра (среднего, дисперсии или какого-то другого) генеральной совокупности, который обозначим Математическая статистика - примеры с решением заданий и выполнение задач. Оценивая параметр Математическая статистика - примеры с решением заданий и выполнение задач по выборке, находим такую величину Математическая статистика - примеры с решением заданий и выполнение задач, которую принимаем за точечную оценку параметра Математическая статистика - примеры с решением заданий и выполнение задач. Естественно, при этом стремимся, чтобы оценка была в определенном смысле наилучшей, поэтому к ней предъявляется ряд требований:

1. Состоятельность. Точечная оценка Математическая статистика - примеры с решением заданий и выполнение задач называется состоятельной, если при неограниченном увеличении объема выборки Математическая статистика - примеры с решением заданий и выполнение задач она стремится к истинному значению параметра Математическая статистика - примеры с решением заданий и выполнение задач.

В математической статистике показывается, что состоятельной оценкой генерального среднего значения Математическая статистика - примеры с решением заданий и выполнение задач является выборочное среднее арифметическое х, а состоятельной оценкой генеральной дисперсии Математическая статистика - примеры с решением заданий и выполнение задач — выборочная дисперсия Математическая статистика - примеры с решением заданий и выполнение задач. Методы вычисления этих выборочных характеристик были рассмотрены в гл. 3.

2. Несмещенность. Оценка называется несмещенной, если она не содержит систематической ошибки, т. е. среднее значение оценки, определенное по многократно повторенной выборке объема n из одной и той же генеральной совокупности, стремится к истинному значению соответствующего генерального параметра.

Выборочное среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задач является несмещенной оценкой генерального среднего Математическая статистика - примеры с решением заданий и выполнение задач.

Несмещенной оценкой генеральной дисперсии Математическая статистика - примеры с решением заданий и выполнение задач является выборочная дисперсия, вычисляемая по формуле: Математическая статистика - примеры с решением заданий и выполнение задач

Замечание 1

При определении выборочной дисперсии как среднего квадрата отклонений значений признака от среднего арифметического была приведена ее формула:

Математическая статистика - примеры с решением заданий и выполнение задач

Было отмечено, что эта формула редко используется, а вместо нее применяется выражение

Математическая статистика - примеры с решением заданий и выполнение задач

Теперь поясним смысл такого изменения формулы.

Одним из свойств выборочного среднего арифметического является то, что сумма квадратов отклонений значений признака от среднего арифметического меньше, чем сумма квадратов отклонений от любой другой величины (в том числе и от генерального среднего Математическая статистика - примеры с решением заданий и выполнение задач, т. е. Математическая статистика - примеры с решением заданий и выполнение задач для любой выборки. Поэтому вычисление оценки дисперсии по формуле Математическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач будет содержать систематическую ошибку, и такая оценка будет смещенной.

Можно показать, что если использовать оценку Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задачто она будет несмещенной, т. е. при неограниченном повторении выборки из генеральной совокупности и усреднении выборочной дисперсии, полученной на основании этой формулы, по всем выборкам получается истинное значение генеральной дисперсии.

3. Эффективность. Несмещенная оценка является эффективной, если она имеет наименьшую дисперсию по сравнению с другими несмещенными оценками того же параметра генеральной совокупности.

Это надо понимать так: полученные по выборке оценки Математическая статистика - примеры с решением заданий и выполнение задач — случайные величины, так как случайны сами выборочные значения. Поэтому можно говорить о математическом ожидании и дисперсии оценок Математическая статистика - примеры с решением заданий и выполнение задач Эффективность этих оценок означает, что их дисперсии Математическая статистика - примеры с решением заданий и выполнение задач меньше дисперсий любых других несмещенных оценок среднего значения и дисперсии генеральной совокупности.

Итак, наилучшими в указанном смысле оценками генерального среднего значения и генеральной дисперсии являются выборочные характеристики:

Математическая статистика - примеры с решением заданий и выполнение задач

Стандартная ошибка среднего арифметического

Оценки Математическая статистика - примеры с решением заданий и выполнение задач полученные по выборке, как правило, не совпадают с истинными значениями параметров Математическая статистика - примеры с решением заданий и выполнение задач генеральной совокупности. Экспериментально проверить это утверждение невозможно, поскольку не известны истинные значения этих параметров. Но если брать повторные выборки нз одной и той же генеральной совокупности с параметрами р, и с2 и каждый раз вычислять их оценки Математическая статистика - примеры с решением заданий и выполнение задачто окажется, что эти оценки для разных выборок не совпадают, хотя все это из одних и тех же генеральных параметров.

Отклонения оценок генеральных параметров от истинных значений этих параметров называются статистическими ошибками, или ошибками репрезентативности. Их происхождение не имеет ничего общего с ошибками измерения, а возникают они только потому, что не все объекты генеральной совокупности представлены в выборке.

Величины статистических ошибок оценивают по среднему квадратическому (стандартному) отклонению выборочных характеристик. Здесь рассматривается только стандартное отклонение выборочного среднего арифметического.

Если взять очень много независимых выборок объема n из одной и той же генеральной совокупности и определить для каждой из них среднее арифметическое, то окажется, что полученные средние арифметические варьируют вокруг своего среднего значения (равного Математическая статистика - примеры с решением заданий и выполнение задачв –Математическая статистика - примеры с решением заданий и выполнение задач раз меньше, чем отдельные варианты выборки. Следовательно, стандартное отклонение выборочного среднего арифметического будет равно Математическая статистика - примеры с решением заданий и выполнение задач гдеМатематическая статистика - примеры с решением заданий и выполнение задач — стандартное отклонение генеральной совокупности.

В качестве оценки стандартного отклонения выборочного среднего используется величина Математическая статистика - примеры с решением заданий и выполнение задач называемая стандартной ошибкой среднего арифметического. В формуле (5.1) S — выборочное стандартное отклонение Математическая статистика - примеры с решением заданий и выполнение задач

Величина Si показывает, какая ошибка в среднем допускается, если использовать вместо генерального среднего Математическая статистика - примеры с решением заданий и выполнение задач его выборочную оценку Математическая статистика - примеры с решением заданий и выполнение задач Поэтому вычисленное среднее арифметическое часто указывают в виде

Математическая статистика - примеры с решением заданий и выполнение задач

чтобы оценить точность оценки Математическая статистика - примеры с решением заданий и выполнение задач

Из формулы (5.1) видно, как зависит стандартная ошибка Математическая статистика - примеры с решением заданий и выполнение задачот объема выборки n: с увеличением объема выборки п стандартная ошибка Математическая статистика - примеры с решением заданий и выполнение задач уменьшается пропорционально корню квадратному из n.

Пример 5.1

Найдем стандартную ошибку среднего арифметического результатов в беге на 100 м для данных примера 3.4. Рассчитанные в примере_3.4 значения выборочных характеристик составляют: Математическая статистика - примеры с решением заданий и выполнение задач=15,4 с и S = Математическая статистика - примеры с решением заданий и выполнение задач 0,94 (с). Объем выборки n = 50, отсюда стандартная ошибка среднего арифметического Математическая статистика - примеры с решением заданий и выполнение задач 0,13 (с).

Замечание 2

Теперь можно вернуться к вопросу, который был оставлен открытым при вычислении выборочных характеристик в гл. 3: с такой точностью нужно вычислять выборочные характеристики?

Как мы только что убедились, при ограниченном объеме выборки п истинное значение генерального среднего р, не может быть определено сколь угодно точно, поэтому при вычислении Математическая статистика - примеры с решением заданий и выполнение задачоставлять большое число значащих цифр не имеет смысла. Существует эмпирическое правило, согласно которому в окончательном результате положение последней значащей цифры должно соответствовать положению первой значащей цифры в величине Математическая статистика - примеры с решением заданий и выполнение задач Чтобы избежать накопления ошибок, связанных с округлением, промежуточные результаты нужно вычислять с точностью на один порядок больше, чем точность окончательных результатов.

Для рассмотренного выше примера Математическая статистика - примеры с решением заданий и выполнение задач = 0,13/3 = = 0,04 (с). Следовательно, значение Математическая статистика - примеры с решением заданий и выполнение задач надо было бы вычислять с точностью до сотых долей секунды, если, конечно, позволяет точность измерения исходных данных.

В этом примере значения признака измерены с точностью до десятых долей секунды, поэтому в более точном вычислении Математическая статистика - примеры с решением заданий и выполнение задач и его стандартной ошибки Математическая статистика - примеры с решением заданий и выполнение задач нет смысла. Окончательный результат следует проводить в виде

Математическая статистика - примеры с решением заданий и выполнение задач

Интервальные оценки

По известной величине выборочной характеристики Математическая статистика - примеры с решением заданий и выполнение задач или S и др.) можно определить интервал, в котором с той или иной вероятностью определяется значение параметра генеральной совокупности, оцениваемого по этой выборочной характеристике.

Вероятности, признанные достаточными для того, чтобы уверенно судить о генеральных параметрах на основании выборочных характеристик, называются доверительными.

Обычно в качестве доверительных вероятностей выбирают значения 0,95, 0,99 или 0,999 (их принято выражать в процентах). Перечисленным значениям соответствуют 95, 99 и 99,9 %. Выбор той или иной доверительной вероятности производится исследователем исходя из практических соображений о той ответственности, с какой делаются выводы о генеральных параметрах.

Замечание 3

Как правило, в научных исследованиях в области спорта считается достаточной доверительная вероятность 0,95 (95 %). В некоторых случаях, когда уточняются результаты предыдущих исследований или когда выводы, сделанные в данном исследовании, связаны с большой ответственностью (например, предлагается в корне пересмотреть программу тренировок или рацион питания сборной команды), применяются более высокие уровни доверительной вероятности: 99 или 99,9%.

Интервал, в котором с заданной доверительной вероятностью находится оцениваемый генеральный параметр, называется доверительным интервалом.

В соответствии с доверительными вероятностями на практике используются 95-, 99-, 99,9-процентные доверительные интервалы.

В литературе по математической статистике обычно говорят о 100 (1 —а)-процентном доверительном интервале, где (1 — а) — доверительная вероятность, а а — некоторое малое число (а — 0,05; 0,01; 0,001), задающее вероятность того, что оцениваемый генеральный параметр выходит за границы доверительного интервала.

Теперь рассмотрим формирование доверительного интервала для среднего (математического ожидания) Математическая статистика - примеры с решением заданий и выполнение задачнормально распределенной генеральной совокупности. Пронормируем значение среднего арифметического Математическая статистика - примеры с решением заданий и выполнение задач найденного по выборке объема n из этой генеральной совокупности, по формуле: Математическая статистика - примеры с решением заданий и выполнение задач где Математическая статистика - примеры с решением заданий и выполнение задач — оцениваемый параметр — среднее значение генеральной совокупности; Математическая статистика - примеры с решением заданий и выполнение задач — стандартная ошибка выборочного среднего арифметического.

Величина t имеет t-распределение Стьюдента (определенное в гл. 4) с v = n — 1 степенями свободы.

Необходимо определить доверительный интервал, в котором с доверительной вероятностью 100(1 —а) % находится истинное значение оцениваемого параметра ц. Для этого задается значение а (например, 0,05). Доверительная вероятность будет соответствовать площади под кривой t-распределения Стьюдента, заключенной между точками — Математическая статистика - примеры с решением заданий и выполнение задач (рис. 5.1). Следовательно, доверительный интервал можно записать как

Математическая статистика - примеры с решением заданий и выполнение задач Преобразуем это выражение к виду Математическая статистика - примеры с решением заданий и выполнение задач Это и есть стандартная форма записи доверительного интервала.

Учитывая формулу (5.1) приходим к окончательному выражению: Математическая статистика - примеры с решением заданий и выполнение задач

т. е. истинное значение Математическая статистика - примеры с решением заданий и выполнение задач с вероятностью 100 (1 — а) % лежит в границах Математическая статистика - примеры с решением заданий и выполнение задач ЗначенияМатематическая статистика - примеры с решением заданий и выполнение задач для стандартных значений а (0,05, 0,01 и 0,001) и различных значений параметра v t-распределения (v = n — 1) приведены в табл. 4 Приложения.

Чтобы найти границы доверительного интервала для среднего значения генеральной совокупности, действуем в следующем порядке:

  1. по полученной выборке объема n вычисляем среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задач и стандартное отклонение S. Методы вычислений рассмотрены в гл. 3;
  2. задаемся доверительной вероятностью 1 — а (например, 0,95) исходя из целей исследования;
  3. по таблице t-распределения Стьюдента находим граничные значения Математическая статистика - примеры с решением заданий и выполнение задач В силу симметричности t-распределения достаточно знать только положительное значение Математическая статистика - примеры с решением заданий и выполнение задач. Например, если объем выборки п — 12, то число степеней свободы t-распределения v = 12— 1 = 11, и по табл. 4 Приложения определяем для а = 0,05: Математическая статистика - примеры с решением заданий и выполнение задач = 2,20;
  4. находим границы доверительного интервала по формуле (5.3). Для а= 0,05 и n = 12:

Математическая статистика - примеры с решением заданий и выполнение задач

Как было отмечено в гл. 4, при больших объемах выборки (практически при n > 30) t-распределение Стьюдента переходит в нормальное. Поэтому для определения границ доверительного интервала для Математическая статистика - примеры с решением заданий и выполнение задач при больших объемах выборки можно пользоваться таблицами нормированного нормального распределения (табл. 1 Приложения).

Доверительный интервал для Математическая статистика - примеры с решением заданий и выполнение задачпри n > 30 записывается в следующем виде:

Математическая статистика - примеры с решением заданий и выполнение задач

где ua — процентные точки нормированного нормального распределения, определяемые по табл. 1 Приложения.

Для стандартных доверительных вероятностей (95, 99, 99,9%) значенияМатематическая статистика - примеры с решением заданий и выполнение задач приведены в таблице 5.2.

Математическая статистика - примеры с решением заданий и выполнение задач

Чтобы найти доверительный интервал для среднего значения генеральной совокупности при больших объемах выборки (n >30), поступаем следующим образом:

  1. По выборочным данным находим среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задач и стандартное отклонение S, как показано в гл. 3.
  2. Задаемся доверительной вероятностью I—а (например, 0,95).
  3. По табл. 5.2 находим значение Математическая статистика - примеры с решением заданий и выполнение задач соответствующее заданной доверительной вероятности Математическая статистика - примеры с решением заданий и выполнение задач= 1,96).
  4. Определяем границы доверительного интервала по формуле (5.4). Для а = 0,05 получаем:

Математическая статистика - примеры с решением заданий и выполнение задач

Как видно из сравнения найденного доверительного интервала с доверительным интервалом, полученный выше по t-распределению, при малых объемах выборки границы первого интервала шире Математическая статистика - примеры с решением заданий и выполнение задач 1,96). Это понят но из простых физических соображений: при малом объеме выборки получается меньше ин-форгиации о свойствах генеральной совокупности.

Пример 5.2

Определим границы 95 %-ного доверительного интервала для среднего результата в беге на 100 м по данным обследования группы из 50 школьников, приведенным в табл. 2.1.

Объем выборки n= 50, т. е. для определения доверительного интервала можно использовать рекомендации для большого объема выборки. Действуем в указанном выше порядке:

  1. Среднее арифметическое и стандартное отклонение для рассматриваемого примера вычислены в примере 3:4: Математическая статистика - примеры с решением заданий и выполнение задач — 15,4 с, S = 0,94 с.
  2. Задаемся доверительной вероятностью 95%.
  3. Из табл. 5.2 находим Математическая статистика - примеры с решением заданий и выполнение задач — 1,96.
  4. По формуле (5.4) определяем границы доверительного интервала:

Математическая статистика - примеры с решением заданий и выполнение задач

Таким образом, истинное значение среднего времени на дистанции 100 м для школьников этой группы находится в интервале (15,1 с, 15,7 с) с вероятностью 0,95 (95%).

Сделаем еще одно замечание по поводу доверительных интервалов.

Среднее значение р генеральной совокупности является хотя и неизвестным, но фиксированным параметром, а границы доверительного интервала, полученные по случайной выборке объема n, будут также случайными величинами. Когда говорится о 95-процентной доверительной вероятности, это означает, что примерно в 95 % случаев фиксированное, но неизвестное значение Математическая статистика - примеры с решением заданий и выполнение задач окажется в границах доверительного интервала.

Образная трактовка доверительных интервалов приведена в книге «Статистика и планирование эксперимента в технике и науке»*. «Доверительный интервал и связанные с ним понятия похожи на то, с чем мы сталкиваемся при игре с набрасыванием подковы на кол. Кол здесь играет роль оцениваемого параметра (его положение никогда не изменяется)… Подкова выступает в роли доверительного интервала. Если при 100 набрасываниях подковы удается в среднем 90 раз набросить ее на кол, то имеется 90 %-ная гарантия (или уровень доверия) набросить подкову на кол. Доверительный интервал, подобно подкове, меняет свое положение. При любом броске (или при построении некоторой интервальной оценки) кол (или параметр) может как попасть внутрь подковы (интервала), так и оказаться вне ее. Таким образом, делается вероятностное утверждение относительно переменных величин, характеризующих положение подковы».

Оценку параметра Математическая статистика - примеры с решением заданий и выполнение задач найденную в форме доверительного интервала, часто записывают в виде Математическая статистика - примеры с решением заданий и выполнение задач. Чтобы избежать неоднозначности в толковании результатов (перепутывания с записью результата как Математическая статистика - примеры с решением заданий и выполнение задач запись доверительного интервала необходимо сопровождать пояснением. Например 95 %-ный доверительный интервал для среднего результата (15,4 ±0,3 с).

Определение необходимого объема выборки для получения оценок заданной точности

Обычно исследователя интересует вопрос: какой минимальный объем выборки необходим для того, чтобы оценка (чаще всего выборочное среднее арифметическоеМатематическая статистика - примеры с решением заданий и выполнение задач отличалась от истинного значения среднего значения генеральной совокупности не более чем на заданную величину?

Ответить на этот вопрос можно, если ввести доверительную вероятность и выбрать объем выборки n таким образом, чтобы доверительный интервал имел заданный размер.

Если генеральная совокупность предполагается нормально распределенной и ее дисперсия Математическая статистика - примеры с решением заданий и выполнение задач известна, то доверительный интервал для среднего значения р записывается следующим образом:

Математическая статистика - примеры с решением заданий и выполнение задач

где «а для стандартных доверительных вероятностей определены в табл. 5.2.

Пусть требуется, чтобы выборочное среднее Математическая статистика - примеры с решением заданий и выполнение задач отличалось от генерального Математическая статистика - примеры с решением заданий и выполнение задач не более чем на заданную величину d. Это означает, что половина ширины доверительного интервала должна быть равна d, т. е. половика от

Математическая статистика - примеры с решением заданий и выполнение задач должна равняться d:

Математическая статистика - примеры с решением заданий и выполнение задач Отсюда требуемый объем выборки определяется следующим образом:

Математическая статистика - примеры с решением заданий и выполнение задач

Истинное значение параметра о генеральной совокупности обычно неизвестно, но при больших объемах выборки Математическая статистика - примеры с решением заданий и выполнение задач можно использовать его выборочную оценку S. Тогда Математическая статистика - примеры с решением заданий и выполнение задач

В качестве примера найдем минимальный объем выборки, необходимый для того, чтобы выборочное среднее значение результата в беге на 100 м, определяемое для группы школьников, отличалось от истинного значения среднего результата не более чем на d = 0,1 с.

По результатам выборочного исследования (пример 5.2) выборочное стандартное отклонение, определенное при n = 50, составляет 0,94 с. Задаемся доверительной вероятностью 95% Математическая статистика - примеры с решением заданий и выполнение задач— 1,96) и по формуле (5.6) находим Математическая статистика - примеры с решением заданий и выполнение задач Таким образом, при объеме выборки n — 339 существует 95 %-ная вероятность того, что выборочное среднее арифметическое будет отличаться от генерального среднего не более чем на 0,1 с.

Критерии значимости и проверка гипотез

В этой лекции рассматривается группа статистических методов, которые получили наибольшее распространение в статистических исследованиях, связанных с практикой спорта. Эти методы применяются всегда, когда предстоит проверить какие-то теоретические предположения, связанные с эффективностью мероприятий, направленных на совершенствование тренировочного процесса. Исследователь выдвигает предположения исходя из анализа конкретного явления с позиций спортивной педагогики, физиологии, медицины, психологии или другой области знаний, представителем которой он является. Затем справедливость предположений проверяется на основании данных соответствующего эксперимента, условия, которого контролируются.

Нулевая гипотеза (нуль-гипотеза) и альтернатива (альтернативная гипотеза)

Статистической гипотезой (или просто гипотезой) называется утверждение о распределении генеральной совокупности, соответствующее некоторым представлениям об изучаемом явлении. В частном случае это может быть утверждение о значениях параметровМатематическая статистика - примеры с решением заданий и выполнение задач нормально распределенной генеральной совокупности.

Предположим, что в эксперименте участвуют две группы юных спортсменов — прыгунов в высоту. Одна из них (контрольная) тренируется по традиционной программе, а для второй (экспериментальная) используется новый комплекс специальных упражнений. Действенность нового комплекса оценивается по различию результатов, показанных в этих группах после определенного тренировочного цикла. По полученным данным необходимо проверить следующие утверждения:

  1. 1. Среднее значение результатов не изменилось, т. е. Математическая статистика - примеры с решением заданий и выполнение задач Здесь Математическая статистика - примеры с решением заданий и выполнение задач — средние значения соответствующих генеральных совокупностей (результатов всех прыгунов данного класса, которые могли бы тренироваться по традиционной Математическая статистика - примеры с решением заданий и выполнение задач и новой Математическая статистика - примеры с решением заданий и выполнение задач программам).
  2. Вариативность результатов возросла: Z Математическая статистика - примеры с решением заданий и выполнение задач Здесь Математическая статистика - примеры с решением заданий и выполнение задач — так же, как и в п. 1, значения соответствующих генеральных параметров.
  3. Средний результат возрос на 3 см: Математическая статистика - примеры с решением заданий и выполнение задач

Это три различные статистические гипотезы. Конечно, возможные утверждения не ограничиваются приведенным списком. Гипотезы предстоит проверить с помощью какого-то метода — критерия.

Статистические гипотезы обычно рассматривают две генеральные совокупности, одна из которых может представлять собой теоретическую модель (например, нормальное распределение), а о второй судят по выборке из нее. В других случаях обе генеральные совокупности представлены выборками.

При проверке статистических гипотез принят следующий подход. Считается, что получение в результате эксперимента любых новых данных об изучаемом явлении, не согласующихся с данными, имеющимися до проведения эксперимента,— маловероятное событие. В то же время, если взять две выборки, представляющие собой результаты измерения одного и того же признака, и сравнить между собой их характеристики (среднее арифметическое, стандартное отклонение и др.), то окажется, что они практически всегда различаются. Это различие можно рассматривать как обусловленное только действием случайностей. Поэтому первоначально гипотезу всегда можно сформулировать таким образом: между двумя генеральными совокупностями нет ожидаемого различия. Такая гипотеза называется нулевой гипотезой, или нуль-гипотезой. Обратное ей утверждение о том, что в действительности между генеральными совокупностями есть различие, называется альтернативной гипотезой, или альтернативой.

Итак, вначале выдвигается нулевая гипотеза о том, что различие между генеральными совокупностями равно нулю. Затем получают выборку или несколько выборок, и если выборочные данные не противоречат нулевой гипотезе, т. е. различие можно объяснить только случайностью выборки, то нулевая гипотеза сохраняется (принимается). Если же полученные результаты не удается объяснить только действием случайных факторов, то нулевая гипотеза отвергается, а принимается альтернативная гипотеза.

Нулевую гипотезу принято обозначать, как Математическая статистика - примеры с решением заданий и выполнение задач а альтернативную — Математическая статистика - примеры с решением заданий и выполнение задач

Пусть, например, оценивается эффективность нового комплекса упражнений для юных спортсменов — прыгунов в высоту по среднему значению спортивного результата в контрольной и экспериментальной группах. Тогда нулевую гипотезу Математическая статистика - примеры с решением заданий и выполнение задач можно сформулировать так: среднее значение результатов не изменилось, т. е. Математическая статистика - примеры с решением заданий и выполнение задач Для краткости это записывается так: Математическая статистика - примеры с решением заданий и выполнение задач: Математическая статистика - примеры с решением заданий и выполнение задач

Если заранее нельзя сказать, к чему приведет новый комплекс упражнений — к увеличению или уменьшению результатов, то альтернативная гипотеза Математическая статистика - примеры с решением заданий и выполнение задач будет состоять в том, что средние значения генеральных совокупностей неодинаковы: Математическая статистика - примеры с решением заданий и выполнение задач

Ошибки при проверке гипотез

Ошибки, допускаемые при проверке гипотез, удобно разделить на два типа: L) отклонение гипотезы Математическая статистика - примеры с решением заданий и выполнение задач когда она верна, — ошибка первого рода; 2) принятие гипотезы Математическая статистика - примеры с решением заданий и выполнение задач когда в действительности верна какая-то другая гипотеза, — ошибка второго рода.

Вероятность ошибки первого рода обозначается а. Величина а называется уровнем значимости критерия, по которому проверяется справедливость гипотезы Но.

Вероятность ошибки второго рода обозначается Математическая статистика - примеры с решением заданий и выполнение задач Ее величина зависит от альтернативной гипотезы Математическая статистика - примеры с решением заданий и выполнение задач Рассмотрим для приведенного выше примера следующие две ситуации: 1) в действительности средний результат возрос на 3 см, 2) средний результат увеличился на 30 см. Ясно, что для одних и тех же условий эксперимента и одинакового уровня значимости а вероятность ошибки второго рода Математическая статистика - примеры с решением заданий и выполнение задач (принять гипотезу об отсутствии различия) для второй из альтернатив будет меньше.

Вероятности а и Математическая статистика - примеры с решением заданий и выполнение задач удобно представить, как это сделано в табл. 6.1.Математическая статистика - примеры с решением заданий и выполнение задач

Наглядным способом интерпретации ошибок является их графическое представление.

Предположим, что проверяется гипотеза Математическая статистика - примеры с решением заданий и выполнение задач о равенстве среднего значении генеральной совокупности заданной величине Математическая статистика - примеры с решением заданий и выполнение задач (известной, например, из предыдущих экспериментов).

Для этого берется выборка объема b, находится ее среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задач и по его величине судят о справедливости гипотезы Математическая статистика - примеры с решением заданий и выполнение задач.

Распределение среднего арифметического Математическая статистика - примеры с решением заданий и выполнение задач при условии, что верна гипотеза Математическая статистика - примеры с решением заданий и выполнение задач, будет Математическая статистика - примеры с решением заданий и выполнение задач Это распределение чисто качественно представлено на рис. 6.1.

Распределение среднего арифметического х при условии, что верна альтернативная гипотеза Математическая статистика - примеры с решением заданий и выполнение задач будет уже другим — Математическая статистика - примеры с решением заданий и выполнение задач

Будем считать, что гипотеза Математическая статистика - примеры с решением заданий и выполнение задачотвергается, если выборочное среднее арифметическоеМатематическая статистика - примеры с решением заданий и выполнение задач окажется больше некоторого значения К, т. е. Математическая статистика - примеры с решением заданий и выполнение задачкак показано на рис. 6.1.

Математическая статистика - примеры с решением заданий и выполнение задач

Область непринятия гипотезы Математическая статистика - примеры с решением заданий и выполнение задач называется критической областью критерия. Она показана на рис. 6.1 наклонной штриховкой. Уровень значимости будет соответствовать площади критической области.

Вероятность ошибки второго рода Математическая статистика - примеры с решением заданий и выполнение задач будет равна площади под кривой распределения Математическая статистика - примеры с решением заданий и выполнение задач показанной на рис. 6.1. вертикальной штриховкой.

Величина 1—Математическая статистика - примеры с решением заданий и выполнение задач называется мощностью критерия.

Следует особо подчеркнуть, что любая гипотеза должка формулироваться, а уровень значимости а задаваться исследователем всегда до получения экспериментальных данных, по которым эта гипотеза будет проверяться.

При выборе уровня значимости а исследователь исходит из практических соображений, отвечая на вопрос: какую вероятность ошибки он считает допустимой для его конкретной задачи?

Обычно считают достаточным а =0,05 (5%), иногда а =0,01, редко а= 0,001. Здесь можно руководствоваться соображениями, изложенными в замечании 3 гл. 5 при выборе доверительной вероятности.

Между стандартными статистическими критериями и стандартными доверительными интервалами существует тесная связь: если принимается гипотеза о том, что значение параметра (р,, с?) нормально распределенной генеральной совокупности равно фиксированному значению (ро, ао) с уровнем значимости а, то это эквивалентно заданию 100 (1—а%-ного доверительного интервала для данного параметра нормального распределения. Поэтому оба подхода — доверительные интервалы и критерии значимости — в данном случае равноценны. Преимущество доверительных интервалов в том, что они дают представление об истинном значении параметра генеральной совокупности, а недостаток в том, что их трудно построить в более сложных случаях, например при анализе дисперсий (стандартных отклонений).

Критерии значимости

В рассмотренном выше примере (см. п. 6.2.2) при проверке гипотезы об отсутствии различия среднего результата спортсменов в контрольной и экспериментальной группах можно было бы поступить следующим образом:

вычислить средние арифметические результаты в группах после этапа тренировки и сравнить их между собой. Если окажется, что различие средних арифметических больше, например, 5 см, то можно утверждать, что новый комплекс упражнений оказался эффективным. Но при этом неизвестно, какие ошибки допускаются при таком утверждении, поэтому невозможно точно доказать наличие или отсутствие различий.

Методы, которые для каждой выборки формально точно определяются, удовлетворяют выборочные данные нулевой гипотезы или нет, называются критериями значимости.

Процедура проверки гипотез обычно сводится к тому, что по выборочным данным вычисляется значение некоторой величины, называемой статистикой критерия, или просто критерием, который имеет известное стандартное распределение (нормальное, t-распределение Стьюдента и т. п.), поэтому вычислительная работа упрощается. Найденное значение критерия сравнивается с критическим (граничным) значением крите-терия, взятым из соответствующих таблиц, и по результатам сравнения делается вывод: принять гипотезу или отвергнуть.

Если вычисленное по выборке значение критерия не превосходит граничного значения, то гипотеза Математическая статистика - примеры с решением заданий и выполнение задач принимается на заданном уровне значимости а. В этом случае наблюдаемое по экспериментальным данным различие генеральных совокупностей можно объяснить только случайностью выборки. Однако принятие гипотезы Но совсем не означает доказательства равенства параметров генеральных совокупностей. Просто имеющийся в распоряжении статистический материал не дает оснований для отклонения гипотезы о том, что эти параметры одинаковы. Возможно, появится другой экспериментальный материал, на основании которого эта гипотеза будет отклонена.

Когда вычисленное значение критерия оказывается больше граничного (критического) значения при заданном уровне значимости а, то наблюдаемое различие генеральных совокупностей уже нельзя объяснить только случайностями. В этом случае гипотеза Математическая статистика - примеры с решением заданий и выполнение задач отклоняется в пользу гипотезы Математическая статистика - примеры с решением заданий и выполнение задачпри данном уровне значимости а, и говорят, что наблюдаемое различие значимо (статистически значимо) на уровне значимости а.

Следует подчеркнуть разницу между статистической значимостью и практической значимостью. Заключение о практической значимости всегда делается человеком, изучающим данное явление. И здесь истинным критерием является опыт и интуиция исследователя, а статистические критерии значимости — лишь формально точный инструмент, используемый в исследовании. Чем больше исследователь знает об изучаемом явлении, тем точнее будет сформулированная им гипотеза и тем точнее будут выводы, сделанные с помощью критериев значимости.

Замечание 1

Ранее уже подчеркивалось, что уровень значимости ос должен выбираться исследователем до получения экспериментальных данных, по которым будет проверяться гипотеза. Но часто с предварительным выбором возникают затруднения. Обычно говорят, что для научных исследований (в том числе и в спорте) достаточен уровень значимости а = 0,05, но если выводы, которые предстоит сделать по результатам проверки гипотез, связаны с большой ответственностью, то рекомендуется выбирать а = 0,01 или а =0,001.

Как установить ответственность в трактовке результатов эксперимента и тот риск, который связан с выбором уровня значимости а? Чтобы не давать прямых ответов на эти непростые вопросы, часто поступают следующим образом: уровень значимости до эксперимента точно не устанавливается, а по экспериментальным данным вычисляется вероятность Р того, что критерий (статистика критерия) выйдет за пределы значения, рассчитанного по выборке. Таким образом, Р — это экспериментальный уровень значимости. Точное значение Р обычно не указывают, а окончательные результаты приводят в следующем виде: 1) если вычисленное значение критерия не превосходит критического значения на уровне значимости а =0,05, то различие считается статистически незначимым; 2) если вычисленное по выборке значение критерия превышает критические значения при а=0,05, а=0,01 или а= 0,001, то записывают Р<0,05, Р<0,01 или Р<0,001. Это означает, что наблюдаемые различия статистически значимы на уровнях значимости 0,05, 0,01 или 0,001.

Критерии значимости подразделяются на три типа:

  1. Критерии значимости, которые служат для проверки гипотез о параметрах распределений генеральной совокупности (чаще всего нормального распределения). Эти критерии называются параметрическими.
  2. Критерии, которые для проверки гипотез не используют предположений о распределении генеральной совокупности. Эти критерии не требуют знания параметров распределений, поэтому называются непараметрически м и.
  3. Особую группу критериев составляют критерии согласия, служащие для проверки гипотез о согласии распределения генеральной совокупности, из которой получена выборка, с ранее принятой теоретической моделью (чаще всего нормальным распределением).

Односторонние и двусторонние критерии

Остановимся на одном важном обстоятельстве, которое часто не учитывается в спортивных приложениях математической статистики. Если цель исследования в том, чтобы выявить различие параметров двух генеральных совокупностей, которые соответствуют различным естественным условиям (условия тренировки, возраст испытуемых и т.п.), то часто неизвестно, какой из этих параметров будет больше, а какой меньше. Например, если интересуются вариативностью результатов в контрольной и экспериментальной группах, то, как правило, нет уверенности в знаке различия дисперсий или стандартных отклонений результатов, по которым оценивается вариативность. В этом случае нулевая гипотеза состоит в том, что дисперсии равны между собой Математическая статистика - примеры с решением заданий и выполнение задач а цель исследования — доказать обратное Математическая статистика - примеры с решением заданий и выполнение задачт. е. наличие различия между дисперсиями. При этом допускается, что различие может быть любого знака. Такие гипотезы называются двусторонними.

Но иногда задача состоит в том, чтобы доказать увеличение или уменьшение параметра; например, средний результат в экспериментальной группе выше, чем в контрольной. При этом уже не допускается, что различие может быть другого знака. Тогда альтернативная гипотеза Математическая статистика - примеры с решением заданий и выполнение задач (или Математическая статистика - примеры с решением заданий и выполнение задач а обратное ей утверждение Математическая статистика - примеры с решением заданий и выполнение задач Такие гипотезы называются односторонними.

Критерии значимости, служащие для проверки двусторонних гипотез, называются двусторонними, а для односторонних — односторонними.

Возникает вопрос о том, какой из критериев следует выбирать в том или ином случае. Ответ на этот вопрос находится за пределами формальных статистических методов и полностью зависит от целей исследования. Ни в коем случае нельзя выбирать тот или иной критерий после проведения эксперимента на основе анализа экспериментальных данных, поскольку это может привести к неверным выводам. Если до проведения эксперимента допускается, что различие сравниваемых параметров может быть как положительным, так и отрицательным, то следует использовать двусторонний критерий. Если же есть дополнительная информация, например, из предшествующих экспериментов, на основании которой можно сделать предположение, что один из параметров больше или меньше другого, то используется односторонний критерий. Когда имеются основания дли применения одностороннего критерия, его следует предпочесть двустороннему, потому что односторонний критерий полнее использует информацию об изучаемом явлении и поэтому чаще дает правильные результаты.

Например, необходимо доказать различие средних значений генеральных совокупностей (средних значений спортивного результата) при двух различных методиках тренировки по результатам в контрольной и экспериментальной группах. Если есть данные, что экспериментальная группа покажет в среднем лучший результат, то нужно выдвинуть нулевую гипотезу Математическая статистика - примеры с решением заданий и выполнение задач против двусторонней альтернативы Математическая статистика - примеры с решением заданий и выполнение задач Различие доказывается по разности средних арифметических результатов в контрольной и экспериментальной группах Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач Распределение разности Математическая статистика - примеры с решением заданий и выполнение задачпри условии, что верна нулевая гипотеза Математическая статистика - примеры с решением заданий и выполнение задач схематично представлено на рис. 6.2, а.

Решение об отклонении гипотезы Математическая статистика - примеры с решением заданий и выполнение задач принимается в том случае, если разность Математическая статистика - примеры с решением заданий и выполнение задач выходит за пределы некоторого значения Математическая статистика - примеры с решением заданий и выполнение задач (допустимы отклонения в обе

Математическая статистика - примеры с решением заданий и выполнение задач

Рис. 6.2. Уровни значимости при двустороннем (а) и одностороннем (б) критериях стороны от нуля). Ошибка, которая при этом допускается, равна, как известно, уровню значимости а. Но поскольку отклонения возможны в обе стороны, то при симметричном распределении вероятности отклонении, больших Математическая статистика - примеры с решением заданий и выполнение задач и меньших Математическая статистика - примеры с решением заданий и выполнение задач будут одинаковы и составят а/ 2.

Нели предположить, что в экспериментальной группе будут показаны в среднем более высокие результаты, то можно выдвинуть одностороннюю альтернативу Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задачВ этом случае при той же нулевой гипотезе Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задачраспределение разности Математическая статистика - примеры с решением заданий и выполнение задач будет таким же, как и для двустороннего критерия (см. рис. 6.2, б). Математическая статистика - примеры с решением заданий и выполнение задач теперь представляют интерес только положительные значения разности Математическая статистика - примеры с решением заданий и выполнение задач Решение об отклонении Математическая статистика - примеры с решением заданий и выполнение задач принимается, когда Математическая статистика - примеры с решением заданий и выполнение задач окажется больше некоторого Математическая статистика - примеры с решением заданий и выполнение задачПри том же уровне значимости а Математическая статистика - примеры с решением заданий и выполнение задач будет всегда меньше Математическая статистика - примеры с решением заданий и выполнение задач поэтому нулевая гипотеза будет при одностороннем критерии отклоняться чаще.

Таким образом, двусторонние критерии оказываются более консервативными, чем односторонние.

Критерии, основанные на нормальном распределении

Если необходимо проверить гипотезу о том, что две независимые выборки получены из генеральных совокупностей X и У с одинаковыми дисперсиямиМатематическая статистика - примеры с решением заданий и выполнение задач то можно использовать Математическая статистика - примеры с решением заданий и выполнение задач-критерий Фишера.

Сравнение двух выборочных дисперсий из нормальных совокупностей

Условия применения F-критерия: обе выборки независимы и получены из нормально распределенных генеральных совокупностей с параметрами Математическая статистика - примеры с решением заданий и выполнение задач

  • Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач
  • Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач

Известно, что это двусторонняя гипотеза, поэтому следует применять двусторонний критерий. Если же предположить, что одна из генеральных совокупностей имеет большую дисперсию (обозначим ее Математическая статистика - примеры с решением заданий и выполнение задач чем другая Математическая статистика - примеры с решением заданий и выполнение задач то можно сформулировать одностороннюю гипотезу Математическая статистика - примеры с решением заданий и выполнение задач и тогда применяется односторонний F-крите-рий.

Уровень значимости критерия задается а.

Порядок применения F-критерия следующий:

1. Принимается предположение о нормальности распределения генеральных совокупностей, формулируется гипотеза и альтернатива, назначается уровень значимости а, как указано выше.

2. Получают две независимые выборки из совокупностей X и У объемом Математическая статистика - примеры с решением заданий и выполнение задачу соответственно.

3. Рассчитываются значения выборочных дисперсийМатематическая статистика - примеры с решением заданий и выполнение задач (методы расчета рассмотрены в гл. 3). Большую из дисперсий Математическая статистика - примеры с решением заданий и выполнение задачобозначаютМатематическая статистика - примеры с решением заданий и выполнение задач, меньшую Математическая статистика - примеры с решением заданий и выполнение задач

4. Вычисляется значение F-критерия по формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

5. Сравнивается вычисленное значение F с критическим значением F-критерия при заданном уровне значимости а и числе степеней свободы Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач1. Критические значения Математическая статистика - примеры с решением заданий и выполнение задач при уровнях значимости а, равных 0,05, 0,01, 0,001.

Отметим, что в табл. 3 Приложения приведены критические значения одностороннего F-критерия. Поэтому если цель исследования доказать, что одна дисперсия больше другой Математическая статистика - примеры с решением заданий и выполнение задач то критические значения берутся непосредственно из этой таблицы. Если же применяется двусторонний критерийМатематическая статистика - примеры с решением заданий и выполнение задач, то критические значения, взятые из табл. 3 Приложения, соответствуют удвоенным уровням значимости: 0,01, 0,02 и 0,002.

6. Делается вывод: если вычисленное значение F-критерия больше или равно критическому, то дисперсии различаются значимо на заданном уровне значимости. В противном случае нет оснований для отклонения нулевой гипотезы о равенстве двух дисперсий.

Пример 6.1

Одна группа школьников Математическая статистика - примеры с решением заданий и выполнение задач шестых классов взята из обычной школы, а другаяМатематическая статистика - примеры с решением заданий и выполнение задач — из школы со специальной спортивной подготовкой. В обеих группах измерены результаты в беге на 100 м. Предстоит проверить утверждение о том, что по вариативности результатов школьники при обеих системах подготовки не отличаются.

Действуем в порядке, указанном выше.

1. Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач. Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач, т. е. используем двусторонний критерий, поскольку заранее не уверены в том, что какая-либо из генеральных дисперсий больше другой.

Задаемся уровнем значимости а = 0,02 (такой «нестандартный» уровень значимости выбран из желания воспользоваться данными табл. 3 Приложения). Критические значения для двустороннего F-критерия содержатся в [8].

Принимаем предположение о нормальности распределения обеих генеральных совокупностей. Вопросы, связанные с тем, чем можно обосновать такое предположение, рассмотрены ниже в п. 6.4.

2—3. Пусть рассчитанные выборочные стандартные отклонения результатов составили: Математическая статистика - примеры с решением заданий и выполнение задач ОбозначаемМатематическая статистика - примеры с решением заданий и выполнение задач

4. Вычисляем значение F-критерия по формуле (6.1):

Математическая статистика - примеры с решением заданий и выполнение задач

5. Из табл. 3 Приложения при а= 0,02; Математическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач находимМатематическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач

6. Вывод: посколькуМатематическая статистика - примеры с решением заданий и выполнение задачто на уровне значимости а= 0,02 различие дисперсий статистически незначимо, т. е. можно считать, что школьники при обеих системах подготовки не отличаются по признаку вариативности результатов.

Хотя наблюдаемое в эксперименте различие выборочных стандартных отклонений и кажется большим, но имеющиеся статистические данные не дают оснований для отклонения гипотезы о том, что для генеральных совокупностей (всех школьников шестых классов обычных школ и школ со спортивной подготовкой) дисперсии (а значит, и стандартное отклонение) различаются на уровне значимости 0,02.

Следует отметить, что F-критерий очень чувствителен к отклонениям от нормальности распределения генеральной совокупности. Если предположение о нормальном распределении не может быть принято (см. п.п. 6.4), то F-критерий применять не следует. В этом случае используются непараметрические методы, рассмотренные в [3, 4).

F-критерий используется для малых и средних объемов выборки (n < 100). Для больших объемов выборки (n > 100) при проверке гипотезы о равенстве дисперсий применяется «-критерий. В этом случае вычисляется величина

Математическая статистика - примеры с решением заданий и выполнение задач

и сравнивается с критическими значениями Математическая статистика - примеры с решением заданий и выполнение задачвзятыми из таблиц нормированного нормального распределения (табл. 1 Приложения). Для стандартных уровней значимости значения Математическая статистика - примеры с решением заданий и выполнение задач приведены в табл. 6.2 (см. п. 6,3.2).

Сравнение выборочного среднего арифметического со средним значением генеральной совокупности

Рассмотрим, как с помощью статистических критериев решить вопрос: значимо ли отличие выборочного среднего значения от среднего значения генеральной совокупности, из которой предположительно взята выборка, или наблюдаемое различие является случайным? Такая постановка вопроса типична для выборочного контроля качества продукции в промышленности, но и в спортивных исследованиях такой вопрос часто возникает, когда предстоит решить, значимо ли отличается среднее значение признака, полученное по выборке, от среднего значения, известного по результатам многочисленных предыдущих экспериментов.

Применяемый для этих целей t-критерий Стьюдента также основан на предположении о нормальности распределения генеральной совокупности, но результаты проверки гипотез удовлетворяют по точности и при небольших отклонениях от нормальности распределения (см. п. 6.4).

Условия применения t-критерия: выборка получена из генеральной совокупности, имеющей приближенно нормальное распределение с параметрами Математическая статистика - примеры с решением заданий и выполнение задач

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач— среднее значение р, генеральной совокупности, из которой получена выборка, равно заданному значению Математическая статистика - примеры с решением заданий и выполнение задач (известному, например, из предыдущих экспериментов).

АльтернативаМатематическая статистика - примеры с решением заданий и выполнение задач (двусторонний критерий применяется тогда, когда допускаются отклонения в обе стороны от Математическая статистика - примеры с решением заданий и выполнение задач).

Уровень значимости: а.

Порядок применения T-критерия:

1. Принимается предположение о нормальности, формулируются гипотезыМатематическая статистика - примеры с решением заданий и выполнение задач задается уровень значимости а.

2. Получают выборку объема n.

3. Вычисляется выборочное среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задачи выборочное стандартное отклонение Математическая статистика - примеры с решением заданий и выполнение задач методами, изложенными в гл. 3.

4. Определяется значение t-критерия по формуле: Математическая статистика - примеры с решением заданий и выполнение задач Здесь |.| означает абсолютную величину разности Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач (без учета знака).

Величина t имеет при справедливости гипотезы Математическая статистика - примеры с решением заданий и выполнение задач t-распределение Стьюдента (определенное в гл. 4) с v = n — 1 степенями свободы.

5. По табл. 4 Приложения находится критическое значение t-критерия при уровне значимости а и числе степеней свободы v = n — 1. Табл. 4 Приложения содержит критические значения Математическая статистика - примеры с решением заданий и выполнение задач для двустороннего критерия.

6. Делается вывод: если Математическая статистика - примеры с решением заданий и выполнение задач то выборочное среднее значимо отличается от Математическая статистика - примеры с решением заданий и выполнение задач на уровне значимости а, и в этой ситуации отклоняется гипотеза Математическая статистика - примеры с решением заданий и выполнение задач т. е. считается, что выборка взята из другой генеральной совокупности, для которой Математическая статистика - примеры с решением заданий и выполнение задач Если Математическая статистика - примеры с решением заданий и выполнение задач, то на заданном уровне различие незначимо и сохраняется гипотеза Математическая статистика - примеры с решением заданий и выполнение задач

Пример 6.2

Цель исследования — проверить на основании результатов соревнований по спринтерскому бегу известное утверждение о том, что среднее различие между показаниями ручного и электронного хронометража составляет 0,25 с. На соревнованиях результаты фиксировались одновременно системой электронного хронометража и бригадой судей-хронометристов. Допустим, что есть результаты 30 спринтеров, пришедших на финиш первыми в своих забегах (для них, как правило, обеспечена наивысшая точность ручного хронометража, поскольку их результаты фиксируются несколькими хронометристами).

Используем t-критерий и действуем в указанном выше порядке.

1. Предполагаем, что распределение результатов в спринте приближенно нормальное (можно отметить, что справедливость этого предположения подтверждена исследованиями, проведенными в лаборатории спортивной радиоэлектроники ЛЭТИ им. В. И. Ульянова (Ленина) на большом статистическом материале).

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач

Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач

Уровень значимости а= 0,01 (задается такой малый уровень значимости, поскольку цель — уточнить результаты, являющиеся общепринятыми).

2. Мы получили выборку объема n — 30 (разности

30 результатов по ручному и электронному хронометражу).

3. Допустим, например, что вычисленные выборочные характеристики оказались равными: х = 0,48 с, S = 0,39 с.

4. Вычисляем значение t-критерия по формуле (6.2):

Математическая статистика - примеры с решением заданий и выполнение задач

5. По табл. 4 Приложения при а = 0,01 и v = 30 — 1 = 29 находим критическое значение /-критерия: /о,о! = 2,756.

6. Вывод. ПосколькуМатематическая статистика - примеры с решением заданий и выполнение задач то на уровне значимости 0,01 мы отклоняем гипотезу Математическая статистика - примеры с решением заданий и выполнение задач т. е. среднее значение различий показаний ручного и электронного хронометража статистически значимо отличается от известного значения 0,25 с (вероятность ошибки Р<0,01).

Значит ли это, что значение 0,25 с вообще неверно? Конечно, нет. Основываясь только на полученных результатах, мы не должны даже подозревать этого. Скорее всего наши данные получены из какой-то менее обширной генеральной совокупности, в которой среднее значение отличается от 0,25 с. Математическая статистика - примеры с решением заданий и выполнение задач чтобы уверенно ответить на поставленный нами основной вопрос, мы должны провести многочисленные повторные эксперименты с целью получить значительно больший статистический материал и исключить влияние на результат многих важных факторов, не учтенных в эксперименте (квалификация судей, их эмоциональное состояние, состояние зоны финиша, освещенность и т. п.).

При больших объемах выборки Математическая статистика - примеры с решением заданий и выполнение задач как указано в гл. 4, t-распределение переходит в нормированное нормальное распределение, поэтому при проверке гипотезы вместо t-критерия можно использовать «-критерий, основанный на нормированном нормальном распределении статистики критерия.

Математическая статистика - примеры с решением заданий и выполнение задач

В этом случае вычисляют величину

Математическая статистика - примеры с решением заданий и выполнение задач

и сравнивают ее с критическими значениями иа нормированного нормального распределения. Для стандартных уровней значимости значения иа приведены в табл. 6.2.

Математическая статистика - примеры с решением заданий и выполнение задач = 2,756, их различие при n — 30 уже незначительно, но при n <30 это различие существенно, поэтому при малых выборках и используется t-критерий.

Сравнение двух выборочных средних значений для независимых выборок

В этом разделе рассматривается очень важный для практики спорта критерий математической статистики, позволяющий получить ответ на вопрос: значимо ли различаются средние значения, полученные по двум независимым выборкам (например, по результатам в контрольной и экспериментальной группах)? Здесь также применяется t-критерий Стьюдента, основанный на предположении, что выборки получены из генеральных совокупностей, имеющих приближенно нормальное распределение. Кроме того, применение t-критерия отличается при различных предположениях относительно дисперсий этих генеральных совокупностей. В математической статистике обычно рассматриваются случаи известных и неизвестных генеральных дисперсий, но, поскольку на практике генеральные дисперсии, как правило, неизвестны, здесь описывается только случай неизвестных дисперсий. При этом возможны следующие варианты предположений: 1) обе дисперсии неизвестны, но предполагается, что они равны между собой; 2) обе дисперсии неизвестны, и предположение о их равенстве не делается.

Как выбрать подходящий вариант? Конечно, если нет уверенности в равенстве дисперсий, нужно использовать второй вариант, потому что в этом случае требуется меньше знаний о распределении генеральных совокупностей, но всегда платой за это является меньшая точность выводов.

Поэтому обычно поступают следующим образом: вначале по имеющимся выборочным данным проверяют гипотезу о равенстве дисперсий, используя F-критерий, а затем уже выбирают тот или иной вариант t-критерия. Строго говоря, это некорректно с точки зрения математической статистики, поскольку, как уже неоднократно подчеркивалось, критерий должен выбираться до получения экспериментальных данных, и правильнее было бы выбрать предположение о равенстве или неравенстве дисперсий по другим, предварительно полученным экспериментальным данным.

При описанном выше подходе t-критерий применяется следующим образом.

Условия применения: обе выборки независимы и получены из генеральных совокупностей X и Y, имеющих нормальное распределение с параметрами Математическая статистика - примеры с решением заданий и выполнение задач

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач

Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач в зависимости от того, что требуется доказать: простое различие средних значений или то, что одно из них больше другого.

Уровень значимости: а.

Порядок применения:

1. Принимается предположение о нормальности, формулируются гипотеза Математическая статистика - примеры с решением заданий и выполнение задач и альтернатива Математическая статистика - примеры с решением заданий и выполнение задач задается уровень значимости а.

2. Получают две независимые выборки из совокупностей X и Y объемом Математическая статистика - примеры с решением заданий и выполнение задач

3. Вычисляются выборочные характеристики Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач методами, рассмотренными в гл. 3.

4. Используется F-критерий для проверки гипотезы о равенстве генеральных дисперсий, как показано в разделе 6.3.1.

5. По результатам применения F-критерия принимается или не принимается предположение о равенстве дисперсий.

6. Вычисляются значение t-критерия и число степеней свободы v. Применяемые для этого формулы приведены в табл. 6.3, они различаются в зависимости от предположения о дисперсиях и соотношения между объемами выборок Математическая статистика - примеры с решением заданий и выполнение задач

7. Из табл. 4 Приложения находится критическое значение t-критерия при заданном уровне значимости а и числе степеней свободы v.

8. Делается вывод: еслиМатематическая статистика - примеры с решением заданий и выполнение задач то выборочные средние значимо различаются на уровне значимости а (вероятность ошибки Математическая статистика - примеры с решением заданий и выполнение задач В противном случае различие статистически незначимо.

Пример 6.3

Две группы юных баскетболистов, занимающихся на базе одной ДЮСШ, в течение годичного цикла тренировки занимались но разным программам специальной подготовки (традиционной и новой). Эффективность новой программы оценивалась по уровню общефизической подготовки в конце цикла, и одним из контрольных упражнений был бег на 100 м. Численность групп одинакова и составляет n — 10.

Результаты на дистанции 100 м (в с):

Математическая статистика - примеры с решением заданий и выполнение задач

Используем t-критерий Стьюдента в указанной выше последовательности:

1. Принимаем предположение о нормальности распределения генеральных совокупностей, из которых получены результаты.

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач

Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач (берется двусторонний критерий, если нет оснований предполагать, что новая программа специальной подготовки приведет к улучшению результатов на 100 м).

Выбираем уровень значимости а — 0,05.

2. Получаем две выборки, независимость которых обеспечивается планированием эксперимента (результаты, показанные в одной группе, не зависят от результатов другой).

3. Рассчитываем выборочные характеристики по формулам (3.1) и (3.11) гл. 3. Расчеты дают:

Математическая статистика - примеры с решением заданий и выполнение задач 4. Применяем F-критерий для проверки гипотезы о равенстве дисперсий. Выбираем уровень значимости двустороннегоF-критерия: а ~ 0,02.

Математическая статистика - примеры с решением заданий и выполнение задач поэтому обозначим Математическая статистика - примеры с решением заданий и выполнение задач Значение ^-критерия выводим по формуле (6.1): Математическая статистика - примеры с решением заданий и выполнение задач Критическое значение Математическая статистика - примеры с решением заданий и выполнение задач двустороннего F-критерия находим из табл. 3 Приложения Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

5. ПосколькуМатематическая статистика - примеры с решением заданий и выполнение задач принимаем предположение о равенстве генеральных дисперсий Математическая статистика - примеры с решением заданий и выполнение задач

6. Вычисляем значение t-критерия: нашему случаю соответствует формула (1) из табл. 6.3. Поэтому Математическая статистика - примеры с решением заданий и выполнение задач 7. Из табл. 4 Приложения находим критическое значение t-критерия при a= 0,05 и v = 18: Математическая статистика - примеры с решением заданий и выполнение задач 8. Вывод: поскольку Математическая статистика - примеры с решением заданий и выполнение задач то на уровне значимости 0,05 принимаем гипотезу Математическая статистика - примеры с решением заданий и выполнение задач Нет оснований для заключения о том, что новая программа но изучаемому признаку (бег на 100 м) эффективнее традиционной.

Примечание. Если бы до проведения эксперимента было принято предположение, что новая программа обеспечивает прирост результатов в беге на 100 м, и нужно было бы доказать это, мы выдвинули бы одностороннюю альтернативу Математическая статистика - примеры с решением заданий и выполнение задач В этом случае следует применять односторонний t-критерий.

Последовательность действий точно такая же, за исключением того, что на этапе 7 при использовании табл. 4 Приложения нужно иметь в виду, что в ней содержатся критические значения двустороннего критерия. В случае одностороннего критерия данные табл. 4 соответствуют удвоенным уровням значимости. Таким образом, если для одностороннего критерия устанавливается уровень значимости а = 0,05, то в табл. 4 Приложения находим значение для а = 0,1.

Для этого примера имеем Математическая статистика - примеры с решением заданий и выполнение задач

Теперь уже результат проверки гипотезы будет противоположным. ПосколькуМатематическая статистика - примеры с решением заданий и выполнение задач то делаем вывод о статистически значимом различии средних значений в беге на 100 м.

В этом нет никакого противоречия или доказательства несостоятельности статистических методов. Просто в первом случае, используя двустороннюю гипотезу, мы допускали и отрицательный эффект новой программы. В такой ситуации выводы должны быть более осторожными, чем в случае односторонней гипотезы, когда имеется дополнительная информация, позволяющая сделaть предположeние о положительном эффекте новой программы, что, естественно, дает возможность сделать более точный вывод. Правда, следует отметить, что превышение критического значения в рассмотренном примере столь незначительно, что в достоверности вывода о наличии положительного эффекта можно усомниться. В такой ситуации следует провести дополнительные исследования.

Сравнение двух выборочных средних значений для связанных выборок

Существует много практических задач, в которых две сравниваемые выборки взаимосвязаны в силу особенностей организации эксперимента или просто потому, что этой взаимосвязи нельзя избежать.

В практике медицинских, биологических и педагогических исследований часто используются так называемые парные сравнения. Один из методов таких сравнений заключается в том, что измерения проводятся для одной и той же группы испытуемых до и после применения интересующих исследователя воздействий. Результаты парных сравнений всегда точнее, чем сравнения на независимых группах, и объясняется это тем, что разброс результатов внутри группы испытуемых всегда больше, чем разброс разностей результатов, полученных при повторных измерениях для одних и тех же индивидуумов. Это можно пояснить на следующем простом примере. Допустим, необходимо но частоте сердечных сокращений (ЧСС) установить влияние на спортсменов какого-то вида тренировочной нагрузки. Конечно, можно было бы провести такой эксперимент на двух независимых однородных группах: в одной из них определить среднее значение ЧСС в покое, а в другой после тренировочной нагрузки. Математическая статистика - примеры с решением заданий и выполнение задач и без точных математических доказательств ясно, что выводы будут точнее, если измерения ЧСС провести у одних и тех же спортсменов до и после тренировочной нагрузки. Поэтому парные сравнения всегда выгодно использовать, конечно, если удается организовать эксперимент так, что будет устранено влияние мешающих факторов {усталость, эффект обучения и т. п.).

При парных сравнениях нельзя использовать рассмотренные выше методы для независимых выборок, поскольку это приведет к большим ошибкам.

Для сравнения средних значений здесь используется модификация t-критерия для связанных выборок. Особенность его в том, что гипотеза формулируется в отношении разностей Математическая статистика - примеры с решением заданий и выполнение задач сопряженных пар наблюдений.

Условия применения: Математическая статистика - примеры с решением заданий и выполнение задач — разность связанных пар результатов измерения. Делается предположение о нормальном распределении этих разностей в генеральной совокупности с параметрами Математическая статистика - примеры с решением заданий и выполнение задач

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач

Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач (для двустороннего критерия) . Можно сформулировать и одностороннюю альтернативу, например, Математическая статистика - примеры с решением заданий и выполнение задач

Уровень значимости: а.

Порядок применения:

1. Делается предположение о нормальном распределении разностей dМатематическая статистика - примеры с решением заданий и выполнение задачформулируется гипотеза Математическая статистика - примеры с решением заданий и выполнение задач и альтернатива Математическая статистика - примеры с решением заданий и выполнение задач выбирается уровень значимости а.

2. Получают две выборки объема n, представляющие собой ряды связанных пар наблюдений.

3. Вычисляются среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задач и выборочное стандартное отклонение Математическая статистика - примеры с решением заданий и выполнение задач по формулам гл. 3.

4. Определяется значение t-критерия: Математическая статистика - примеры с решением заданий и выполнение задач 5. Из табл. 4 Приложения находятся критические значенияМатематическая статистика - примеры с решением заданий и выполнение задач-критерия при уровне значимости а и числе степеней свободы Математическая статистика - примеры с решением заданий и выполнение задач

6. Делается вывод: если Математическая статистика - примеры с решением заданий и выполнение задач то наблюдаемое различие значимо на уровне значимости а (Р < а), в противном случае различие статистически незначимо.

Пример 6.4

Группа школьников (n = 10) в течение летних каникул находилась в спортивном лагере. До и после сезона у них измерили жизненную емкость легких (ЖЕЛ). По результатам измерений нужно определить, значимо ли изменился этот показатель под влиянием интенсивных физических упражнений.

До эксперимента Математическая статистика - примеры с решением заданий и выполнение задач

3400 3600 3000 3500 2900 3100 3200 3400 3200 3400

После эксперимента Математическая статистика - примеры с решением заданий и выполнение задач

3800 3700 3300 3600 3100 3200 3200 3300 3500 3600

Действуем в указанном выше порядке:

1. Принимаем предположение о нормальности распределения разностейМатематическая статистика - примеры с решением заданий и выполнение задач

Г ипотеза Математическая статистика - примеры с решением заданий и выполнение задач

Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач

Выбираем уровень значимости: а = 0,05.

2. Имеем две связанные выборки объема n =10.

3. Вычисляем выборочные характеристики: значения разностей: Математическая статистика - примеры с решением заданий и выполнение задач 400 100 300 100 200 100 0— 100 300 200, Математическая статистика - примеры с решением заданий и выполнение задач

4. Значение t-критерия, определяемое по формуле (6.3), равно Математическая статистика - примеры с решением заданий и выполнение задач 5. Из табл. 4 Приложения для а = 0,05 и v = 9 находим Математическая статистика - примеры с решением заданий и выполнение задач= 2,262.

6. Вывод: поскольку Математическая статистика - примеры с решением заданий и выполнение задач наблюдаемое различие по показателю ЖЕЛ является статистически значимым на уровне значимости 0,05 (вероятность ошибки Р < 0,05).

При больших выборках (для пМатематическая статистика - примеры с решением заданий и выполнение задач) вместо t-критерия можно использовать u-критерий. В этом случае вычисленное значение t сравнивается с критическим значением Математическая статистика - примеры с решением заданий и выполнение задач нормированного нормального распределения (см. табл. 6.2).

Критерии согласия

Все рассмотренные выше критерии значимости являются оптимальными, т. е. обеспечивают наивысшую достоверность статистических выводов только в тех случаях, когда выборки получены из нормально распределенной генеральной совокупности. При отклонениях от нормального распределения точность оптимальных критериев существенно падает, поэтому, чтобы уверенно применять оптимальные критерии, необходимо проверить предположение о нормальном распределении генеральной совокупности. Для этого используются критерии согласия. Здесь нулевая гипотеза Математическая статистика - примеры с решением заданий и выполнение задач представляет собой утверждение о том, что распределение генеральной совокупности, из которой получена выборка, не отличается от нормального. Существует несколько разновидностей критериев согласия. Рассмотрим те из них, которые получили наибольшее распространение на практике.

Предварительная проверка соответствия нормальному распределению

Критерии согласия требуют достаточно большой вычислительной работы, поэтому целесообразно перед тем, как их использовать, проверить с помощью более простых методов соответствие имеющихся экспериментальных данных нормальному распределению. Эти методы, естественно, обладают меньшей мощностью и позволяют установить только значительные расхождения с нормальным распределением, но если такие расхождения будут установлены, то необходимость в применении более точных, но более сложных критериев, как правило, отпадает.

Для предварительной проверки эмпирического распределения на нормальность можно использовать основные свойства нормального распределения, изложенные в гл. 4. При этом эмпирическое распределение представляется в виде вариационного ряда или гистограммы (см. гл. 2). Если в качестве параметров Математическая статистика - примеры с решением заданий и выполнение задач и о нормального распределения принять их выборочные оценки Математическая статистика - примеры с решением заданий и выполнение задач и S, то для проверки можно использовать следующие свойства нормального распределения: 1) практически все отклонения от среднего значения (99,7 %) должны быть меньше ±3S; 2) примерно 2/3 всех отклонений (68,3 %) должны быть меньше ±S; 3) половина всех отклонений от среднего значения должна быть меньше Математическая статистика - примеры с решением заданий и выполнение задач 4) можно использовать такое свойство нормального распределения, что его коэффициенты асимметрии Математическая статистика - примеры с решением заданий и выполнение задач и эксцесса Математическая статистика - примеры с решением заданий и выполнение задач равны нулю.

Для проверки по этому свойству необходимо вычислить выборочные оценки этих параметров по формулам: Математическая статистика - примеры с решением заданий и выполнение задач гдеМатематическая статистика - примеры с решением заданий и выполнение задач — частоты интервалов группировки; k — число интервалов группировки; S — выборочное стандартное отклонение.

Значения коэффициентов As и Ех сравниваются с критическими значениями на уровне значимости а, и если критические значения превышены, то делается вывод о том, что распределение генеральной совокупности, из которой получена выборка, не согласуется с нормальным. В противном случае модель нормального распределения может быть принята. Таблица критических значений Математическая статистика - примеры с решением заданий и выполнение задач содержится в [7, 8,14]. Здесь не будем подробно останавливаться на этих приближенных критериях. Отметим лишь еще раз, что они могут использоваться только совместно с более точными критериями, рассмотренными ниже.

Критерий согласия x2 (хи-квадрат)

Критерий согласия Математическая статистика - примеры с решением заданий и выполнение задач разработан лучше других критериев и чаще других используется. Он основан на сравнении эмпирических частот интервалов группировки с теоретическими (ожидаемыми) частотами, рассчитываемыми по формулам нормального распределения.

Условия применения: объем выборки Математическая статистика - примеры с решением заданий и выполнение задач выборочные данные сгруппированы в интервальный вариационный ряд с числом интервалов не менее 7, ожидаемые (теоретические) частоты интервалов не должны быть меньше 5.

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач) — плотность распределения Математическая статистика - примеры с решением заданий и выполнение задач генеральной совокупности, из которой взята выборка, соответствует теоретической модели Математическая статистика - примеры с решением заданий и выполнение задач нормального распределения.

Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач

Уровень значимости: а.

Порядок применения:

1. Формулируется гипотеза, выбирается уровень значимости а.

2. Получается выборка объема Математическая статистика - примеры с решением заданий и выполнение задач независимых наблюдений и представляется эмпирическое распределение в виде интервального вариационного ряда, как показано в гл. 2.

3. Рассчитываются выборочные характеристики Математическая статистика - примеры с решением заданий и выполнение задач и S (методы расчета изложены в гл. 3). Их используют в качестве генеральных параметров Математическая статистика - примеры с решением заданий и выполнение задач и аМатематическая статистика - примеры с решением заданий и выполнение задачнормального распределения, с которым предстоит сравнить эмпирическое распределение.

4. Вычисляются значения теоретических частотМатематическая статистика - примеры с решением заданий и выполнение задач попадания в i-й интервал группировки. Для этого необходимо вероятность попадания в этот интервал, определенную по формуле (4.27), умножить на объем выборки n:

Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач — функции Лапласа (см. табл. 1 Приложения); Математическая статистика - примеры с решением заданий и выполнение задач — верхняя и нижняя граниты Математическая статистика - примеры с решением заданий и выполнение задач интервала группировки.

Если окажется, что вычисленные ожидаемые частоты п’ некоторых интервалов группировки меньше 5, то соседние интервалы объединяются так, чтобы сумма их ожидаемых частот была больше или равна 5. Соответственно складываются и эмпирические частоты объединяемых интервалов.

5. Значение Математическая статистика - примеры с решением заданий и выполнение задач-критерия рассчитывается по формуле: Математическая статистика - примеры с решением заданий и выполнение задач где Математическая статистика - примеры с решением заданий и выполнение задач— эмпирические частоты; Математическая статистика - примеры с решением заданий и выполнение задач — ожидаемые (теоретические) частоты; k — число интервалов группировки после объединения.

6. Из табл. 5 Приложения находится критическое значение Математическая статистика - примеры с решением заданий и выполнение задачкритерия для уровня значимости а и числа степеней свободы v = k — 3.

7. Вывод: если Математическая статистика - примеры с решением заданий и выполнение задачто эмпирическое распределение не соответствует нормальному распределению на уровне значимости а, в противном случае нет оснований отрицать это соответствие.

Пример 6.5

Воспользуемся данными табл. 2.3, где представлены результаты в беге на 100 м группы школьников (n = 50) для проверки соответствия эмпирического распределения нормальному распределению.

Исходные данные помещены в графы 2, 3 табл. 6.4 (графа 2 — границы интервалов группировки, графа 3 — эмпирические частоты интервалов). В табл. 2.3 верхние границы были уменьшены на 0,1 с для удобства подсчета частот. В табл. 6.4 верхние границы оставлены без изменений.

1. Формулируем гипотезуМатематическая статистика - примеры с решением заданий и выполнение задач выбираем уровень значимости а = 0,05.

2. Получаем выборку объема n = 50, строим интервальный вариационный ряд с числом интервалов к— 7 (см. табл. 2.3).

3. Выборочные характеристики по этим данным рассчитаны в примере 3.6:

х — 15,4 с, S — 0,9 с.

4. Вычисляем значения теоретических частот по формуле (6.4) с использованием табл. 1 Приложения. Предварительно нормируем границы интервалов группировки:

Математическая статистика - примеры с решением заданий и выполнение задач

Нормированные границы занесены в графу 4, а вычисленные теоретические частоты — в графу 5 табл. 6.4.

Поскольку для интервалов с номерами 1, 2, 7 теоретические частоты оказались меньше 5, объединяем интервалы 1 и 2 с 3-м, а интервал 7 с 6-м интервалами. Суммируем эмпирические и ожидаемые частоты интервалов, которые мы объединили. После объединения получилось k = 4 интервала. Таблица 6.4 Математическая статистика - примеры с решением заданий и выполнение задач 5. Значение критерия Математическая статистика - примеры с решением заданий и выполнение задач определяемое по формуле (6.5), равно:

Математическая статистика - примеры с решением заданий и выполнение задач

Промежуточные расчеты отражены в графах 6 и 7 табл. 6.4.

6. Из табл. 5 Приложения находим для уровня значимости а = 0,05 и числа степеней свободы v = 4— 3= 1:

Математическая статистика - примеры с решением заданий и выполнение задач

7. Вывод: поскольку Математическая статистика - примеры с решением заданий и выполнение задач считаем, что эмпирическое распределение соответствует нормальному на уровне значимости 0,05.

Критерий X (лямбда)

Другим критерием, часто используемым для проверки гипотезы о нормальности распределения, является критерий Математическая статистика - примеры с решением заданий и выполнение задач Колмогорова — Смирнова. Здесь гипотеза Математическая статистика - примеры с решением заданий и выполнение задач формулируется по отношению к функциям распределенияМатематическая статистика - примеры с решением заданий и выполнение задач — функция распределения генеральной совокупности, из которой получена выборка, a F'(x) — функция непрерывного теоретического распределения (нормального распределения).

Колмогорова — Смирнова

Условия применения: объем выборки Математическая статистика - примеры с решением заданий и выполнение задачэмпирическое распределение представлено в виде интервального вариационного ряда.

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач

Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач

Уровень значимости: а.

Порядок применения:

1. Формулируется гипотеза Математическая статистика - примеры с решением заданий и выполнение задач назначается уровень значимости а.

2. Получают выборку объема Математическая статистика - примеры с решением заданий и выполнение задач независимых наблюдений, она группируется в интервальный вариационный ряд, как показано в гл. 2.

3. Вычисляются выборочные характеристики Математическая статистика - примеры с решением заданий и выполнение задач и S по формулам гл. 3.

4. Рассчитываются значения эмпирических накопленных частот Математическая статистика - примеры с решением заданий и выполнение задач как показано в гл. 2, и теоретических накопленных частот Математическая статистика - примеры с решением заданий и выполнение задач по формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

где n — объем выборки; Математическая статистика - примеры с решением заданий и выполнение задач — функция Лапласа (см. табл. 1 Приложения); Математическая статистика - примеры с решением заданий и выполнение задач— срединные значения интервалов группировки.

5. Вычисляются значения критерия Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач — максимальное значение модуля (абсолютной величины) разности между эмпирическими Математическая статистика - примеры с решением заданий и выполнение задач и теоретическими Математическая статистика - примеры с решением заданий и выполнение задач накопленными частотами.

6. Определяется критическое значение Математическая статистика - примеры с решением заданий и выполнение задач критерия Колмогорова — Смирнова при уровне значимости а. Для стандартных уровней значимости критические значения равны:

Математическая статистика - примеры с решением заданий и выполнение задач

Они соответствуют рассматриваемому варианту применения критерия Колмогорова — Смирнова, когда для вычисления теоретических накопленных частот используются выборочные характеристики Математическая статистика - примеры с решением заданий и выполнение задач и S в качестве параметров Математическая статистика - примеры с решением заданий и выполнение задач нормального распределения.

7. Вывод: если Математическая статистика - примеры с решением заданий и выполнение задачто эмпирическое распределение не соответствует нормальному на уровне значимости а, в противном случае принимается гипотеза о согласии распределения генеральной совокупности с нормальным распределением.

Пример 6.6

Воспользуемся данными предыдущего примера (6.5) для проверки их соответствия нормальному распределению по критерию Колмогорова — Смирнова.

В табл. 6.5 в столбцах 2, 3 приведены срединные значения интервалов группировки и эмпирические накопленные частоты, взятые из табл. 2.3.

1. Формулируем гипотезу Математическая статистика - примеры с решением заданий и выполнение задач и выбираем уровень значимости а = 0,05.

Математическая статистика - примеры с решением заданий и выполнение задач

2. Имеем выборку объема n — 50, сгруппированную в интервальный вариационный ряд с семью интервалами.

3. Выборочные характеристики рассчитаны в предыдущем примере: Математическая статистика - примеры с решением заданий и выполнение задач

4. Эмпирические накопленные частоты приведены в графе 3, а теоретические, рассчитанные по формуле (6.6) — в графе 5.

5. Значение критерия Математическая статистика - примеры с решением заданий и выполнение задач составляет Математическая статистика - примеры с решением заданий и выполнение задач 6. Критическое значение для а = 0,05 равно Математическая статистика - примеры с решением заданий и выполнение задач = 0,895.

7. Вывод: поскольку Математическая статистика - примеры с решением заданий и выполнение задач мы вынуждены отклонить гипотезу о том, что выборка взята из нормально распределенной генеральной совокупности.

Оба рассмотренных критерия — Математическая статистика - примеры с решением заданий и выполнение задач Колмогорова — Смирнова применимы в одних и тех же условиях Математическая статистика - примеры с решением заданий и выполнение задач Сравнение мощностей этих критериев для общего случая затруднительно, но из опыта известно, что критерий Математическая статистика - примеры с решением заданий и выполнение задач Колмогорова — Смирнова является более мощным (чаще обнаруживает отклонения от нормальности), если среднее и дисперсия теоретического нормального распределения оцениваются по выборке. Рассмотренные выше примеры 6.5 и 6.6 подтверждают это: для одних и тех же данных на одинаковом уровне значимости критерий Математическая статистика - примеры с решением заданий и выполнение задач Колмогорова — Смирнова обнаружил несоответствие нормальному распределению, а Математическая статистика - примеры с решением заданий и выполнение задач-критерий позволяет принять гипотезу о нормальности.

Критерий W Шапиро — Уилки

Два рассмотренных выше критерия применяются при больших выборках Математическая статистика - примеры с решением заданий и выполнение задачЕсли объем выборки меньше, то более точные выводы дает критерий Шапиро — Уилки, позволяющий обнаружить отклонения от нормальности распределения уже приМатематическая статистика - примеры с решением заданий и выполнение задач. Ниже его применение рассматривается на конкретном примере.

Пример 6.7

Проверим на соответствие нормальному распределению данные примера 6.3 — результаты в беге на 100 м одной из групп (например, контрольной) юных баскетболистов.

Эти результаты представлены в графе 2 табл. 6.6.

Порядок применения:

1. Формулируем гипотезу Математическая статистика - примеры с решением заданий и выполнение задач о соответствии распределения генеральной совокупности, из которой получены данные, нормальному распределению. Назначим уровень значимости а = 0,05.

2. Получаем выборку объема n = 10 независимых измерений.

3. Рассчитываем значение выборочной дисперсии. Из примера 6.З: Математическая статистика - примеры с решением заданий и выполнение задач = 0,37.

Таблица 6.6

Математическая статистика - примеры с решением заданий и выполнение задач

4. Ранжируем выборку, т. е. располагаем выборочные значения в возрастающем порядке, как показано в графе 2 табл. 6.6.

5. Образуем разности Математическая статистика - примеры с решением заданий и выполнение задач для чего из максимального значения Математическая статистика - примеры с решением заданий и выполнение задач вычитаем наименьшее Математическая статистика - примеры с решением заданий и выполнение задач затем из Математическая статистика - примеры с решением заданий и выполнение задач вычитаем Математическая статистика - примеры с решением заданий и выполнение задачи т. д. Если n — четное, то число разностей

k = n/2, если n— нечетное, то Математическая статистика - примеры с решением заданий и выполнение задачпри этом

центральная варианта выборки в образовании разностей не участвует.

Номера разностей k приведены в графе 3, а значения разностей Математическая статистика - примеры с решением заданий и выполнение задач — в графе 4 табл. 6.6.

6. По табл. 6 Приложения находим значение коэффициентов Математическая статистика - примеры с решением заданий и выполнение задач критерия W Шапиро — Уилки, соответствующие объему выборки n = 10 и номерам разностей k. Эти значения помещены в графе 5 табл. 6.6.

7. Находим произведения Математическая статистика - примеры с решением заданий и выполнение задачЭти произведения

занесены в графу 6 табл. 6.6. . 8. Вычисляем величину Математическая статистика - примеры с решением заданий и выполнение задач 9. Рассчитываем значение критерия W по формуле:Математическая статистика - примеры с решением заданий и выполнение задач

10. Из табл. 7 Приложения находим критическое значение критерия Шапиро — Уилки для уровня значимости а = 0,05:

Математическая статистика - примеры с решением заданий и выполнение задач

11. Вывод: посколькуМатематическая статистика - примеры с решением заданий и выполнение задачможно говорить о соответствии эмпирических данных нормальному распределению на уровне значимости 0,05.

Заметим, что критерий W Шапиро — Уилки строится таким образом, что гипотеза Математическая статистика - примеры с решением заданий и выполнение задач принимается при Математическая статистика - примеры с решением заданий и выполнение задач в отличие от остальных критериев, для которых гипотеза Математическая статистика - примеры с решением заданий и выполнение задач принимается, если значение критерия меньше критического.

Непараметрические критерии

Применение рассмотренных в разделе 6.3 параметрических критериев было связано с целым рядом допущений. Например, сравнивая выборочные средние значения с помощью t-критерия, принимались следующие предположения: обе выборки являются случайными, т. е. каждая из них получена в результате независимых измерений; обе выборки получены из генеральных совокупностей, имеющих нормальное распределение; дисперсии генеральных совокупностей равны между собой.

На практике эти предположения строго никогда не выполняются, поэтому применение параметрических критериев всегда связано с опасностью ошибочных выводов, возникающей из-за нарушения принятых допущений. В последнее время в математической статистике по этой причине интенсивно разрабатываются непараметрические методы, которые строятся так, чтобы их применение зависело от возможно меньшего числа допущений.

Отметим в связи с этим еще одно важное обстоятельство. Параметрические критерии значимости применимы только для сравнения выборочных данных, представляющих собой результаты измерений, выраженные в единицах метрических шкал (метры, килограммы, секунды и т. п.). Но в спортивных исследованиях часто приходится иметь дело с данными, выраженными в шкалах наименований или порядка, например произвольная нумерация игроков футбольной команды, места, запятые спортсменами на соревнованиях и т. д. Такие данные нельзя сравнивать с помощью параметрических критериев, а непараметрические критерии могут быть успешно применены и к данным этого типа.

Если рассматривать только те случаи, когда выборки можно считать полученными ид нормально распределенных совокупностей, непараметрические критерии всегда проигрывают соответствующим параметрическим критериям, оптимальным в этих случаях, потому что применение непараметрических критериев обычно связано с потерей части информации об измеренных значениях признаков. Поэтому вводится показатель эффективности критерия (E). Он представляет собой отношение объема выборки параметрического критерия к объему выборки непараметрического критерия при одинаковой мощности критериев в условиях нормального распределения генеральной совокупности. Этим показателем и принято оценивать эффективность непараметрических критериев.

Важную группу непараметрических критериев составляют ранговые критерии. Они хорошо разработаны, и эффективность их оказывается очень высокой (для большинства из них при больших объемах выборки эффективность близка к единице). В то же время они очень просты в пользовании и не требуют сложных математических вычислений.

Ниже рассматриваются некоторые из ранговых критериев. Математическая статистика - примеры с решением заданий и выполнение задач предварительно следует познакомиться с понятием «р а н г», играющим здесь ключевую роль.

Ранги

Если расположить выборочные данные в порядке возрастания или убывания (точнее, в неубывающем или невозрастающем порядке, потому что некоторые данные могут совпадать), то получается ранжированная выборка. Порядковый номер выборочного значения в ней называется рангом этого значения.

Ранг однозначно определен порядковым номером, если в выборке нет совпадающих значений. Если же они есть, то их ранги определяются как среднее арифметическое порядковых номеров совпадающих значений. Пусть, например, получена выборка объема n — 10, которая после ранжирования выглядит следующим образом:

Математическая статистика - примеры с решением заданий и выполнение задач

Значения с порядковыми номерами 3, 4, 5 и 8, 9 совпали, поэтому их ранги R определяются как Математическая статистика - примеры с решением заданий и выполнение задач

Таким образом, ранг не обязательно будет целым числом.

Для остальных, не совпадающих элементов выборки их ранги равны порядковым номерам. Ранги R, представленных выборочных значений равны: Математическая статистика - примеры с решением заданий и выполнение задач

В ранговых критериях точные значения признаков заменяются их рангами, поэтому информация о них теряется.

Рангами могут быть представлены данные, выраженные в порядковой шкале, в том числе результаты наблюдения качественных признаков, когда невозможно измерить точное численное значение признака, но можно определить очередность значений по принципу «больше— меньше» (например, места в спортивных состязаниях, результаты судейства в баллах, отметки за экзамен и т. п.).

Сравнение двух независимых выборок

К сравнению двух независимых выборок сводится очень широкий круг практических задач, которые в математической статистике часто называются задачами об эффекте обработки. Под «обработкой» здесь понимается любой процесс из конкретной области исследования, например методика или программа тренировки, тактические приемы соревновательной деятельности и др. Об эффекте обработки судят по результатам выборочных исследований. Если эксперимент организован так, что экспериментальный способ обработки сравнивается со стандартным (контрольным), то сопоставляются данные, представляющие собой две независимые выборки: одна получена из контрольной генеральной совокупности (результаты контрольной группы), а вторая — из экспериментальной (результаты экспериментальной группы).

Нулевая гипотеза Математическая статистика - примеры с решением заданий и выполнение задач — это утверждение об отсутствии эффекта обработки, а цель исследования — доказать его наличие. Когда принимается предположение о нормальном распределении обеих генеральных совокупностей, для решения этой задачи применяется t-критерий Стью-дента, который был рассмотрен в разделе 6.3. Но если предварительный анализ эмпирического распределения не позволяет принять предположение о нормальности или к такому выводу приходят в результате проверки гипотезы о нормальности распределения генеральной совокупности по стандартным критериям согласия (см. раздел 6.4), то использовать t-критерий нельзя.

Для таких случаев разработано несколько параметрических критериев. Рассмотрим один из них — критерий Вилкоксона для независимых выборок (критерий иногда называют также критерием Уайта). Это самый простой ранговый критерий.

Применение критерия Вилкоксона основано на единственном предположении: выборки получены из однотипных непрерывных распределений. При этом вид распределения генеральных совокупностей X и Y никак не оговаривается. Допущение о непрерывности распределений может быть ыриннто, когда исследуемый признак имеет большое число возможных градаций.

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач — это утверждение о том, что функции распределения обеих генеральных совокупностей одинаковы. Иначе говоря, обе выборки получены из одной и той же генеральной совокупности, и эффект обработки отсутствует.

Поясним это более подробно. Поскольку функции распределения F (х) и F {у) равны, то, следовательно, равны и характеристики положения этих распределений (среднее значение и медиана). Поэтому если эффект оценивается по различию средних арифметических двух выборок, то нулевую гипотезу можно было бы записать в виде Математическая статистика - примеры с решением заданий и выполнение задач. В этом случае критерий Вилкоксона является непараметрическbм аналогом t-критерия для независимых выборок. Но, как было отмечено в гл. 3, если эмпирическое распределение получается сильно асимметричным, то среднее арифметическое теряет свою практическую ценность (оно плохо отражает среднее значение признака), и в этих случаях более подходящей характеристикой положения является медиана Математическая статистика - примеры с решением заданий и выполнение задач

Одним из ценных свойств ранговых критериев является и то, что они могут применяться к данным, выраженным в шкале порядков или в шкале наименований. Для таких данных вычисление среднего арифметического не имеет смысла, а в качестве характеристики положения также используется Математическая статистика - примеры с решением заданий и выполнение задач Поэтому гипотезу Математическая статистика - примеры с решением заданий и выполнение задач для непараметрических критериев обычно записывают в виде

Математическая статистика - примеры с решением заданий и выполнение задач

Эта запись относится к медианам генеральных совокупностей, хотя здесь используется тот же символ Me, что и для выборочной медианы. В частном случае, когда распределение симметричное (нормальное), эта запись эквивалентна Математическая статистика - примеры с решением заданий и выполнение задачтак как для симметричных распределений среднее значение и Me совпадают.

Альтернатива— Математическая статистика - примеры с решением заданий и выполнение задач(это двусторонняя альтернатива). Ее, как обычно, применяют тогда, когда нет уверенности в знаке ожидаемого различия (допускается как положительный, так и отрицательный эффект обработки). Можно сформулировать и одностороннюю альтернативу, например,Математическая статистика - примеры с решением заданий и выполнение задачесли нужно доказать, что результаты в экспериментальной группе выше, чем в контрольной.

Ниже рассматривается применение критерия Вилкок-сона на конкретном примере.

Пример 6.8

Воспользуемся данными примера 6.3, где приведены результаты в беге на 100 м контрольной и экспериментальной групп юных баскетболистов. В примере 6.3 принималось предположение о нормальном распределении совокупностей, из которых получены выборки. Здесь такого предположения не делается.

Объем выборки для контрольной группы —Математическая статистика - примеры с решением заданий и выполнение задач = 10 и для экспериментальной — Математическая статистика - примеры с решением заданий и выполнение задач = 10.

Проверим гипотезу Математическая статистика - примеры с решением заданий и выполнение задач против двусторонней альтернативы Математическая статистика - примеры с решением заданий и выполнение задач По-прежнему выбираем уровень значимости а = 0,05.

Порядок применения критерия Вилкоксона:

1. Объединяем обе выборки в одну. Объем объединенной выборки будет Математическая статистика - примеры с решением заданий и выполнение задач Ранжируем объединенную выборку, располагая данные в порядке возрастания, как показано в графе 1 табл. 6.7. При этом отмечаем данные, относящиеся к одной из выборок (все равно какой), например второй.

2. Находим ранги Математическая статистика - примеры с решением заданий и выполнение задач, объединенной выборки, как показано в разделе 6.5.1. Отмечаем ранги, относящиеся ко второй выборке. Они приведены в графе 3 табл. 6.7.

3. Суммируем по отдельности ранги, относящиеся к первой и второй выборкам, т. е. находим суммы: Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Суммы рангов: Математическая статистика - примеры с решением заданий и выполнение задач

Контроль: Математическая статистика - примеры с решением заданий и выполнение задач

Для проверки правильности этих операций можно использовать тот факт, что сумма всех рангов

Математическая статистика - примеры с решением заданий и выполнение задач

4. Меньшую из сумм рангов Математическая статистика - примеры с решением заданий и выполнение задач принимаем в качестве значения критерия W.

Для нашего примера W = Математическая статистика - примеры с решением заданий и выполнение задач — 82,5.

5. Из табл. 8 Приложения находим критическое значение Математическая статистика - примеры с решением заданий и выполнение задач критерия Вилкоксона при уровне значимости а = 0,05 и при объемах выборки Математическая статистика - примеры с решением заданий и выполнение задач = 10 и Математическая статистика - примеры с решением заданий и выполнение задач — 10 (в табл. 8 Математическая статистика - примеры с решением заданий и выполнение задач— меньший и больший объемы выборки из Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

6. Вывод: если Математическая статистика - примеры с решением заданий и выполнение задач нулевая гипотеза отбрасывается, т. е. различие считается статистически значимым на уровне значимости а. В противном случае различие статистически незначимо.

Для нашего примера Математическая статистика - примеры с решением заданий и выполнение задачпоэтому на основании имеющихся данных мы не можем отклонить гипотезу Математическая статистика - примеры с решением заданий и выполнение задач об отсутствии различия двух выборок. К такому же выводу мы пришли и в примере 6.3, используя t-критерий в предположении нормальности распределений.

Математическая статистика - примеры с решением заданий и выполнение задач

Как видно из примера 6,8, применение критерия Вил-коксона основано на очень простых вычислениях сумм рангов. Это характерно для всех ранговых критериев. В то же время эффективность этого критерия довольно высока. Если он применяется для сравнения выборок из нормальных генеральных совокупностей, то при неограниченном увели-нении объема выборок эффективность его равна 0,95. Это означает, что при n = 1000 критерий Вилкоксона имеет такую же мощность (т. е. с такой же вероятностью правильно обнаруживает различие), как и оптимальный для этого случая t-критерий при пn— 950. Если же распределения несимметричны, то эффективность критерия Вилкоксона может быть и значительно больше 1.

В табл. 8 Приложения критические значения Математическая статистика - примеры с решением заданий и выполнение задачприведены только для объемов выборок Математическая статистика - примеры с решением заданий и выполнение задач. Если Математическая статистика - примеры с решением заданий и выполнение задач больше 10, можно приближенно использовать u-критерий. Для этого рассчитывается значение Математическая статистика - примеры с решением заданий и выполнение задач по следующей приближенной формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач — объем выборки с меньшей суммой рангов; Математическая статистика - примеры с решением заданий и выполнение задач — объем второй выборки; n — объем объединенной выборки; W — значение критерия Вилкоксона, определяемое по указанному выше порядку.

Удобнее пользоваться выражением

Математическая статистика - примеры с решением заданий и выполнение задач

Вычисленное по этой формуле значение w сравнивается с критическим значением Математическая статистика - примеры с решением заданий и выполнение задач приведенным в табл. 6.8. ЕслиМатематическая статистика - примеры с решением заданий и выполнение задачгипотеза Математическая статистика - примеры с решением заданий и выполнение задач отвергается, если Математическая статистика - примеры с решением заданий и выполнение задачпринимается.

Сравнение двух связанных выборок

Здесь будет рассмотрено применение непараметрических методов в тех случаях, когда требуется доказать различие двух связанных выборок, т. е. выборок, полученных при парных сравнениях (например, при повторных измерениях на одной и той же группе испытуемых спортсменов). В предположении нормальности распределения разностей результатов парных измерений используется t-критерий для связанных выборок (см. раздел G.3.4). Теперь же предположение о нормальности не делается.

Наиболее часто применяемый непараметрический критерий в таких случаях — критерий Вилкоксона для связанных выборок, являющийся непараметрическим аналогом упомянутого t-критерия.

Нулевая гипотеза Математическая статистика - примеры с решением заданий и выполнение задач в данном случае — это утверждение о том, что распределение разностей Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач связанных пар наблюдений Математическая статистика - примеры с решением заданий и выполнение задач является симметричным относительно нуля. Вид распределения при этом не имеет значения. Это означает, что медиана распределения разностей — Математическая статистика - примеры с решением заданий и выполнение задач и среднее значениеМатематическая статистика - примеры с решением заданий и выполнение задач (если оно может быть определено) равны нулю, т. е.Математическая статистика - примеры с решением заданий и выполнение задач

Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач в двустороннем случае, когда допускается как положительный, так и отрицательный эффект обработки. Можно сформулировать и одностороннюю альтернативу, например, Математическая статистика - примеры с решением заданий и выполнение задач

Ниже приводится пример использования критерия Вилкоксона.

Пример 6.9

Воспользуемся данными примера 6.4, в котором представлены результаты измерения ЖЕЛ У школьников до и после пребывания в спортивном лагере. Применим непараметрический критерий Вилкоксона для доказательства различия связанных пар наблюдений Математическая статистика - примеры с решением заданий и выполнение задач

Зададимся уровнем значимости а = 0,05.

Исходные данные х: и У( помещены в столбцах 2 и 3 табл. 6.9.

Порядок применения:

1. Отбрасываем пары с одинаковыми значениями Математическая статистика - примеры с решением заданий и выполнение задач иМатематическая статистика - примеры с решением заданий и выполнение задач и для дальнейших расчетов объем выборки сокращаем на число отброшенных пар.

В нашем примере отбрасывается пара 3200, 3200, и объем выборки будет n = 10 — 1 Математическая статистика - примеры с решением заданий и выполнение задач 9.

2. Из оставшихся пар образуем разности Математическая статистика - примеры с решением заданий и выполнение задач Эти разности приведены в графе 4 табл. 6.9.

3. Находим рангиМатематическая статистика - примеры с решением заданий и выполнение задач абсолютных значений разностей Математическая статистика - примеры с решением заданий и выполнение задач как показано в разделе 6.5.1. Ранги записаны •в графе 5 табл. 6.9.

Математическая статистика - примеры с решением заданий и выполнение задач

4. Отмечаем ранги, относящиеся к положительным и отрицательным значениям разностей.

В графе 5 ранги обозначены (+) и (—).

5. Находим по отдельности суммы рангов отрицательных^ положительных разностей R(—) и R(+).

6. Меньшую из сумм рангов принимаем в качестве значения критерия W. Для нашего примераМатематическая статистика - примеры с решением заданий и выполнение задач 2,5.

7. Из табл. 9 Приложения находим критическое значение Математическая статистика - примеры с решением заданий и выполнение задач критерия Вилкоксоиа при уровне значимости а= 0,05 и объеме выборки n = 10:

Математическая статистика - примеры с решением заданий и выполнение задач

В табл. 9 Приложения приведены критические значения двустороннего критерия Вилкоксоиа. Если используется односторонний критерий, то значения этой таблицы соответствуют удвоенным уровням значимости, т. е.

Математическая статистика - примеры с решением заданий и выполнение задач

8. Вывод: если Математическая статистика - примеры с решением заданий и выполнение задач то нулевая гипотеза отбрасывается и наблюдаемое различие связанных выборок является статистически значимым на уровне значимости а. В противном случае различия статистически незначимы.

Для рассматриваемого примера Математическая статистика - примеры с решением заданий и выполнение задач поэтому различия статистически значимы на уровне значимости а = 0,05 (P <0,05).

К такому же выводу мы пришли и в примере 6.4 при использовании t-критерия для нормального распределения разностей Математическая статистика - примеры с решением заданий и выполнение задач

Если объем выборок достаточно великМатематическая статистика - примеры с решением заданий и выполнение задач можно использовать Математическая статистика - примеры с решением заданий и выполнение задач-критерий, основанный на следующем приближенном выражении:

Математическая статистика - примеры с решением заданий и выполнение задач

где W — значение критерия Вилкоксона, определяемое как указано выше.

Вычисленное по этой формуле значение и сравнивается с критическимМатематическая статистика - примеры с решением заданий и выполнение задачвзятым из табл. 6.2, и если оказывается, что Математическая статистика - примеры с решением заданий и выполнение задач гипотеза Математическая статистика - примеры с решением заданий и выполнение задач отбрасывается, если Математическая статистика - примеры с решением заданий и выполнение задач гипотеза Математическая статистика - примеры с решением заданий и выполнение задач принимается.

Регрессионный и корреляционный анализ

В предыдущих лекциях были рассмотрены простейшие ситуации, когда в ходе исследования измерялись значения только одного варьирующего признака генеральной совокупности. Остальные признаки либо считались постоянными для данной совокупности, либо относились к случайным факторам, определяющим варьирование исследуемого признака. Как правило, исследования в спорте значительно сложнее и носят комплексный характер. Например, при контроле за ходом тренировочного процесса измеряется спортивный результат и одновременно может оцениваться целый ряд биомеханических, физиологических, биохимических и других параметров (скорость и ускорения общего центра масс и отдельных звеньев тела, углы в суставах, сила мышц, показатели систем дыхания и кровообращения, объем физической нагрузки и энергозатраты организма на ее выполнение и т. д.).

При этом часто возникает вопрос о взаимосвязи отдельных признаков. Например, как зависит спортивный результат от некоторых элементов техники спортивных движений? как связаны энергозатраты организма с объемом физической нагрузки определенного вида? насколько точно по результатам выполнения некоторых стандартных упражнений можно судить о потенциальных возможностях человека в конкретном виде спортивной ‘ деятельности? и т. п. Во всех этих случаях внимание исследователя привлекает зависимость между различными величинами, описывающими интересующие его признаки.

Иногда значение одной величины однозначно определяет значение другой, связанной с ней величины. В этих случаях имеет место функциональная зависимость между величинами. Например, средняя скорость Математическая статистика - примеры с решением заданий и выполнение задач на отрезке L дистанции функционально связана с временем l на этом отрезке (Математическая статистика - примеры с решением заданий и выполнение задач = L/T), пульсовая стоимость (ПС) 1 м пути однозначно определяется скоростью Математическая статистика - примеры с решением заданий и выполнение задач и частотой сердечных сокращений (ЧСС) на данном участке пути (ПС = ЧСС/Математическая статистика - примеры с решением заданий и выполнение задач) и т. п.

Но чаще исследователя интересуют зависимости другого рода, когда при фиксированном значении одной величины другая величина имеет некоторую свободу и

может принимать различные значения. Так, средняя скорость на фиксированном отрезке пути будет различной для разных спортсменов, пульсовая стоимость 1 м пути при одной и той же скорости отличается для разных испытуемых.

Если в такой ситуации рассматривать одну величину как независимую (контролируемую), а вторую — как зависимую от первой, то зависимая величина ведет себя как случайная и ее можно описать некоторым вероятностным распределением. В то же время интерес вызывает то, что это распределение (или его параметры: среднее значение, стандартное отклонение) закономерно изменяется при изменении значений независимой величины. Например, среднее значение пульсовой стоимости 1 м пути для группы испытуемых будет закономерно изменяться при изменении скорости движения. В таких ситуациях говорят о стохастической (или вероятностной) зависимости между величинами.

При изучении стохастических зависимостей различают регрессию и корреляцию.

Регрессия — это зависимость среднего значения (точнее, математического ожидания) случайной величины Y от величины х. При этом принято говорить: «регрессия Y на х». Независимая величина х может быть не обязательно случайной, поэтому она обозначается здесь строчной буквой, прописные буквы используются обычно для случайных величин.

Корреляция — это зависимость между двумя случайными величинами Y и X, характеризуемая с помощью коэффициентов корреляции.

В соответствии с этим различают регрессионный и корреляционный анализы.

Регрессионный анализ устанавливает формы зависимости между случайной величиной Y и значениями одной или нескольких переменных величин, причем значения последних считаются точно заданными. Такая зависимость обычно определяется некоторой математической моделью (уравнением регрессии), содержащей несколько неизвестных параметров. Вначале на основании выборочных данных находят оценки этих параметров. Далее определяются статистические ошибки оценок или границы доверительных интервалов И проверяется соответствие (адекватность) примятой математической модели экспериментальным данным.

Корреляционный анализ состоит в определении степени связи между двумя случайными величинами X и Y. В качестве меры связи используется коэффициент корреляции. Коэффициент корреляции оценивается по выборке объема n связанных пар наблюденийМатематическая статистика - примеры с решением заданий и выполнение задач из совместной генеральной совокупности X и Y. Далее проверяются гипотезы или устанавливаются границы доверительного интервала для генерального коэффициента корреляции. Существует несколько типов коэффициентов корреляции, применение которых зависит от предположений о совместном распределении величин X и Y.

Теперь перейдем к более подробному рассмотрению методов регрессионного и корреляционного анализа.

Регрессионные модели

Самый важный этап регрессионного анализа — это выбор подходящей регрессионной модели, т. е. математического выражения, связывающего значения зависимой случайной величины Y и значения независимой величины х. Так же как и в рассмотренных выше статистических методах, мы относим эту абстрактную математическую модель к некоторой генеральной совокупности, в которой между значениями Y и х действительно существует зависимость, определенная выбранной моделью, и считаем, что экспериментальные данные получены именно из такой генеральной совокупности.

В простейшем случае предполагается линейная зависимость, выраженная уравнением:

Математическая статистика - примеры с решением заданий и выполнение задач

Запись Математическая статистика - примеры с решением заданий и выполнение задач означает, что математическое ожидание т случайной величины Y определяется при фиксированном значении величины х.

Это уравнение задает прямую линию в прямоугольной системе координат Математическая статистика - примеры с решением заданий и выполнение задачпоказанную на рис. 7.1. Регрессионная прямая пересекает ось у в точке у = а, а параметр Математическая статистика - примеры с решением заданий и выполнение задач представляет собой тангенс угла наклона (у) прямой относительно горизонтальной оси х.

Регрессия, выраженная таким уравнением, называется простой линейной регрессией, потому что она учитывает зависимость только от одной контролируемой переменной х.

Иногда не удается объяснить поведение зависимой случайной величины Y влиянием только одной независи- Математическая статистика - примеры с решением заданий и выполнение задач

мой переменной х. Тогда часто используется модель множественной линейной регрессии:

Математическая статистика - примеры с решением заданий и выполнение задач

Здесь среднее значение случайной величины У определяется уже значениями k независимых переменных:Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач

Величины Математическая статистика - примеры с решением заданий и выполнение задачмогут быть любыми функциями от других величин, в том числе и друг от друга. Термин «линейная регрессия» означает линейность по отношению к параметрамМатематическая статистика - примеры с решением заданий и выполнение задач а не к переменным Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач

Частным случаем множественной линейной регрессии является полиномиальная регрессия, выражаемая полиномом степени k:

Математическая статистика - примеры с решением заданий и выполнение задач

Рассмотренные уравнения регрессии определяют функциональную зависимость среднего значенияМатематическая статистика - примеры с решением заданий и выполнение задач зависимой случайной величины У от независимой переменной х (или переменных Математическая статистика - примеры с решением заданий и выполнение задач). Чтобы указать, как зависят отдельные значенияМатематическая статистика - примеры с решением заданий и выполнение задач случайной величины Y от значений Математическая статистика - примеры с решением заданий и выполнение задач величины х, нужно ввести в регрессионную модель случайные факторы, которые наряду с зависимостью от величины х влияют на значения Математическая статистика - примеры с решением заданий и выполнение задач Для простой линейной регрессии это записывается следующим образом:

Математическая статистика - примеры с решением заданий и выполнение задач

В этом выражении Математическая статистика - примеры с решением заданий и выполнение задач — случайные величины, определяющие для каждого значения Математическая статистика - примеры с решением заданий и выполнение задач случайный характер значенийМатематическая статистика - примеры с решением заданий и выполнение задач

Во всех регрессионных моделях на случайные величиныМатематическая статистика - примеры с решением заданий и выполнение задач накладываются определенные ограничения, которые будут подробно рассмотрены ниже на примере простой линейной регрессии.

Итак, регрессионная модель описывает зависимость случайной величины Y от независимой величины х в генеральной совокупности Y. Но поскольку вся генеральная совокупность У недоступна для наблюдений, то истинное уравнение регрессии неизвестно, и любая регрессионная модель будет лишь приближением к действительности.

Как выбрать наилучщую регрессионную модель? Математическая статистика по этому поводу говорит, что выбор модели — искусство и правильность выбора целиком зависит от опыта и интуиции исследователя. Обычно при выборе модели исходят из предметного анализа явления (какую форму связи можно ожидать?), и если имеющейся информации недостаточно, то, как правило, помогает графическое представление экспериментальных данных в виде диаграммы рассеяния (этот график называют также корреляционным полем, потому что при корреляционном анализе применяется точно такое же графическое представление данных). Для каждого значения х; независимой переменной измеренные значения Математическая статистика - примеры с решением заданий и выполнение задач наносятся на график в координатах (х, у), как показано на рис. 7.2 для некоторых гипотетических данных.

Если удается «на глазок» провести прямую линию так, что все значения Математическая статистика - примеры с решением заданий и выполнение задач будут достаточно близки к ней, то можно ожидать, что модель простой линейной регрессии окажется в данном случае адекватной (согласующейся с экспериментальными данными).

Примеры регрессионных задач в спорте

Рассмотрим несколько простых примеров, цель которых — показать, почему регрессионный анализ находит широкое применение а статистических исследованиях в области спорта.

Пример 7.1

В табл. 7.1 приведены данные о мировых рекордах в прыжках с шестом за период с 1957 по 1981 г.*. Математическая статистика - примеры с решением заданий и выполнение задач

Нанесем эти данные на график (рис. 7.3), где по оси х отложим годы, а по оси у — рекордные результаты.

График демонстрирует тенденцию к возрастанию рекордных результатов по годам. Более тонкий анализ позволяет сделать предположения, что начиная с 1965 г. наблюдалось приблизительное линейное возрастание результатов, а в более ранний период зависимость имеет, по-видимому, и более сложный характер. Для первой грубой оценки общей картины можно попытаться представить зависимость в виде прямой линии (ее примерный ход намечен на графике), и тогда имеется заманчивая возможность прогнозировать рекордные результаты на какой-то период времени вперед. (Интересно нанести на этот график более свежие данные и посмотреть, как они вписываются в наш «прямолинейный» прогноз).

Математическая статистика - примеры с решением заданий и выполнение задач

Рис. 7.3. График зависимости мировых рекордов в прыжках с шестом от времени установления

Спортивное прогнозирование — одна из важных областей применения регрессионного анализа в спортивных исследованиях*.

Пример 7.2

Другая важная область применения регрессионного анализа в спортивных исследованиях также связана с прогнозированием, но в несколько другом понимании этого термина. Очень часто предметом исследования является такой признак, который непосредственно измерить затруднительно или невозможно. Это особенно характерно для исследований в области спортивной физиологии, медицины, психологии. В то же время известно, что изучаемый признак связан с другими признаками, которые измеряются сравнительно просто. Тогда пытаются подобрать модель предполагаемой зависимости и по этой модели прогнозировать значения неизмеряемого зависимого признака, основываясь на значениях других, легко измеряемых признаков. Прогнозируемые таким образом значения неизмеряемых признаков называются в статистике предикторами. Здесь также используются регрессионные модели, потому что оцениваемая величина является случайной: помимо контролируемых факторов, влияние которых учитывается значениями измеряемых признаков, она зависит и от множества других случайных факторов, которые контролировать не удается.

Например, часто интересуются энергозатратами организма человека при выполнении той или иной фиксированной физической нагрузки. Известно (опять же на основании регрессионного анализа!), что энергозатраты закономерно связаны с потреблением кислорода Математическая статистика - примеры с решением заданий и выполнение задач и ЧСС. Но измерить эти показатели во время выполнения реальных тренировочных заданий тоже достаточно сложно, поэтому пытаются прогнозировать их на основании более простых измерений (например, измерений средней скорости при беге или ходьбе).

Предположим, что цель исследований состоит в оценке энергозатрат организма спортсмена при выполнении стандартной нагрузки: бег на тредбане в течение определенного времени с заданной скоростью.

Математическая статистика - примеры с решением заданий и выполнение задач

 Энергозатраты оцениваются по ЧСС, и далее определяется пульсовая стоимость 1 м пути (ПС — ЧСС/Математическая статистика - примеры с решением заданий и выполнение задач). В эксперименте участвует однородная по составу группа спортсменов. Средние значения ПС, вычисленные по результатам измерений для всех спортсменов группы, при различных скоростях бега в диапазоне 2,0—5,0 м/с приведены на рис. 7.4. Данные носят иллюстративный характер, но приближенно отражают истинное положение дел*.

Анализ графика (см. рис. 7.4) показывает, что в эксперименте также наблюдается некоторая закономерная связь скорости и ПС, но в этом случае зависимость является уже более сложной и не может быть описана уравнением прямой линии. Можно попытаться использовать полиномиальную модель регрессии (более подробно эти вопросы рассмотрены в специальной литературе). Если в результате регрессионного анализа окажется, что выбранная модель хорошо согласуется с экспериментальными данными, то можно использовать ее для прогнозирования энергозатрат по скорости бега, не прибегая каждый раз к достаточно сложным измерениям ЧСС.

Пример 7.3

Довольно часто интерес вызывает связь между двигательными достижениями в различных видах спортивных упражнений. Это особенно важно при подборе тестов, по результатам которых судят о возможных достижениях в том или ином виде спорта. Как правило, при этом пытаются установить просто наличие достоверной взаимосвязи между результатами теста и результатами в том упражнении, которое по общему признанию объективно отражает возможности человека в конкретном виде спорта. Это делается с помощью корреляционного анализа, но, как мы скоро увидим, чтобы корректно использовать коэффициент корреляции, также необходимо знать предполагаемую форму связи между результатами в двух видах спортивных упражнений.

Рассмотрим следующий пример. В табл. 7.2 приведены результаты, показанные группой школьников (n = 10) в беге на дистанциях 30 и 100 м. Математическая статистика - примеры с решением заданий и выполнение задач

На рис. 7.5 эти данные представлены в графической форме. Результаты в беге на 100 мМатематическая статистика - примеры с решением заданий и выполнение задач при фиксированных значениях результатов в беге на 30 мМатематическая статистика - примеры с решением заданий и выполнение задачобразовали на графике некоторое «облако» точек. Анализ графика показывает, что в качестве первого приближения здесь можно предположить, что в среднем результат в беге на 100 м для данной категории испытуемых линейно зависит от результатов, показанных на дистанции 30 м (т. е. принимаем модель простой линейной регрессии).

Отметим существенное отличие этого примера от двух предыдущих. В первых двух примерах независимая величина (время и скорость) не является случайной, а ее значения произвольно устанавливаются исследователем в определенном диапазоне. В последнем примере обе величины (и зависимая, и независимая) являются случайными, а их значения получаются по случайной выборке из генеральной совокупности. Исследователь по своему усмотрению вправе считать одну из этих величин зависимой, а другую — независимой.

Математическая статистика - примеры с решением заданий и выполнение задач

Это две различные ситуации, рассматриваемые в регрессионном анализе. Методы его одинаковы в обоих случаях, а различие состоит в том, что в ситуациях, описываемых в первых двух примерах, нельзя оценить значимость корреляции между двумя величинами методами корреляционного анализа, рассмотренными ниже (хотя формально вычислить коэффициент корреляции можно и здесь).

Простая линейная регрессия

Из-за ограниченности объема книги мы не сможем рассмотреть многие вопросы регрессионного анализа, и для углубленного знакомства с ним следует обратиться к специальной литературе. В этом разделе излагается простейший, но очень важный для практики спорта случай — простая линейная регрессия.

Предположения регрессионного анализа

Выше было показано, что модель простой линейной регрессии, отражающая зависимость значений Математическая статистика - примеры с решением заданий и выполнение задач зависимой величины У от значений Математическая статистика - примеры с решением заданий и выполнение задач независимой переменной х в генеральной совокупности, описывается уравнением:

Математическая статистика - примеры с решением заданий и выполнение задач

В этом уравнении Математическая статистика - примеры с решением заданий и выполнение задач — неизвестные параметры уравнения регрессии,Математическая статистика - примеры с решением заданий и выполнение задач— случайные ошибки, представляющие собой случайные отклонения значений Математическая статистика - примеры с решением заданий и выполнение задач от линии регрессии:

Математическая статистика - примеры с решением заданий и выполнение задач

Применение модели линейной регрессии основано на следующих предположениях:

1. В генеральной совокупности, из которой получены экспериментальные данные, действительно существует линейная регрессия, т. е. среднее значение Математическая статистика - примеры с решением заданий и выполнение задач зависимой случайной величины Y для любого значения независимой величины х является линейной функцией от х:

Математическая статистика - примеры с решением заданий и выполнение задач

2. Нет никаких факторов, существенно влияющих на

связь между величинами У и х. Это два самых важных предположения, определяющих практическую полезность линейного регрессионного анализа.

3. В генеральной совокупности все остаткиМатематическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач взаимно независимы. Другими словами, требуется, чтобы все наблюдаемые (измеренные) значения Математическая статистика - примеры с решением заданий и выполнение задач случайной величины Y были статистически независимыми при всех значениях Математическая статистика - примеры с решением заданий и выполнение задач независимой переменной х.

Если это предположение не выполняется, то невозможно оценить точность приближенного описания экспериментально наблюдаемых зависимостей с помощью регрессии. Это предположение обычно справедливо в тех случаях, когда выборочные данные, по которым строится линия регрессии, представляют собой результаты измерения для разных индивидов. Поэтому эти результаты можно считать независимыми друг от друга.

4. В генеральной совокупности, из которой получены выборочные данные, при любом значении независимой переменной х случайные величины Математическая статистика - примеры с решением заданий и выполнение задач имеют нормальное распределение со средним значением Математическая статистика - примеры с решением заданий и выполнение задач и одинаковыми дисперсиями Математическая статистика - примеры с решением заданий и выполнение задач

Это предположение является необходимым при проверке значимости линейной регрессии и определении границ доверительных интервалов для параметров а и Математическая статистика - примеры с решением заданий и выполнение задач

Оценка параметров уравнения регрессии

Истинное уравнение регрессииМатематическая статистика - примеры с решением заданий и выполнение задач обычно неизвестно, потому что не имеется возможности наблюдать всю генеральную совокупность. Единственное, что можно сделать, чтобы построить линию регрессии, — это провести выборочное исследование и по экспериментальным данным оценить генеральные параметры а и Математическая статистика - примеры с решением заданий и выполнение задач Пусть получена выборка объема n наблюдений Математическая статистика - примеры с решением заданий и выполнение задач зависимой случайной величины Y, соответствующих значениям Математическая статистика - примеры с решением заданий и выполнение задачнезависимой переменной х.

Оценки параметров а и Математическая статистика - примеры с решением заданий и выполнение задач которые получаются по выборочным данным, обозначаются соответственно а и b. Для определения оценок a и b чаще всего применяется метод наименьших квадратов. Суть этого метода в том, что отыскиваются такие значения а и b, которые обеспечивают минимум суммы квадратов отклонений измеренных значений Математическая статистика - примеры с решением заданий и выполнение задач от прямой линии, задаваемой параметрами а и b, т. е.

Математическая статистика - примеры с решением заданий и выполнение задач

Таким образом, по методу наименьших квадратов получаем эмпирическое уравнение некоторой прямой: Математическая статистика - примеры с решением заданий и выполнение задач

Здесь Математическая статистика - примеры с решением заданий и выполнение задач — принятое обозначение для оценки величины Y при заданном значении х.

Оценка по методу наименьших квадратов является наилучшей в том смысле, что она дает уравнение такой прямой, для которой ошибка (сумма квадратов отклонений измеренных значений у; от этой прямой) будет наименьшей по сравнению с любой другой прямой линией (в том числе и с неизвестной истинной линией регрессии). В то же время, если каждому значениюМатематическая статистика - примеры с решением заданий и выполнение задачсоответствует несколько измеренных значений Математическая статистика - примеры с решением заданий и выполнение задач то прямая, полученная по методу наименьших квадратов, обеспечивает минимум отклонений средних арифметических Математическая статистика - примеры с решением заданий и выполнение задач при любом значении независимой переменной х, т. е. прямая наименьших квадратов является одновременно и оценкой истинной линии регрессии:

Математическая статистика - примеры с решением заданий и выполнение задач

Значения а и b по методу наименьших квадратов находятся из решения системы так называемых нормальных уравнений: Математическая статистика - примеры с решением заданий и выполнение задач

Решения этой системы уравнений можно записать в следующем, удобном для расчетов виде:

Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач— выборочные средние арифметические

Математическая статистика - примеры с решением заданий и выполнение задач

Обычно b называют коэффициентом регрессии, a — свободным членом уравнения регрессии.

Пример 7.4

Найдем значения коэффициента регрессии (b) и свободного члена уравнения регрессии (а) для данных примера 7.3, т. е. построим прямую линию, устанавливающую приближенную зависимость результатов в беге на 100 м от результатов в беге на 30 м.

1. По данным табл. 7.2 находим значения промежуточных сумм, входящих в формулу (7.4):

Математическая статистика - примеры с решением заданий и выполнение задач

2. Определим значения средних арифметических:

Математическая статистика - примеры с решением заданий и выполнение задач

3. По формуле (7.4) вычисляем коэффициент регрессии: Математическая статистика - примеры с решением заданий и выполнение задач 4. По формуле (7.5) находим свободный член уравнения регрессии:

Математическая статистика - примеры с решением заданий и выполнение задач

Таким образом, уравнение регрессии имеет вид:

Математическая статистика - примеры с решением заданий и выполнение задач

Прямая, построенная по этому уравнению, показана на рис. 7.6 вместе с исходными данными. Эта прямая является наилучшей линейной оценкой уравнения регрессии, полученной по имеющимся данным. Но это не означает, что нельзя построить оценку регрессии в виде какой-то другой зависимости (нелинейной), которая будет лучше соответствовать экспериментальным данным, чем прямая линия.

Полученное эмпирическое уравнение регрессии можно использовать для прогнозирования результатов на дистанции 100 м по результатам дистанции 30 м. Например, если в группе школьников, которая участвовала в эксперименте, будет показан результат 5,2 с на дистанции 30 м, то можно ожидать, что результат на дистанции 100 м будет: Математическая статистика - примеры с решением заданий и выполнение задач

И это будет наилучшим прогнозом, который можно сделать, используя модель линейной регрессии.

Стандартная ошибка предсказания

Мерой качества приближенного описания реальной зависимости между величинами Y и х с помощью уравнения линейной регрессии является стандартное отклонение значений Математическая статистика - примеры с решением заданий и выполнение задачот регрессионной прямой, вычисляемое по формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач является мерой точности предсказания значений случайной величины Y по заданным значениям величины х, поэтому Математическая статистика - примеры с решением заданий и выполнение задач называют также стандартной ошибкой предсказания.

Пример 7.4 (продолжение)

Определим стандартную ошибку предсказания для данных примера с результатами в беге на 100 и 30 м. Для этого найдем значение промежуточной суммы Математическая статистика - примеры с решением заданий и выполнение задач входящей в формулу (7.6):

Математическая статистика - примеры с решением заданий и выполнение задач

Подставив эти значения в формулу (7.6) и используя найденные ранее значения остальных составляющих формулы (7.6), получим: Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Две прямые линии, отстоящие от прямой регрессии наМатематическая статистика - примеры с решением заданий и выполнение задач ограничивают зону околорегрессионной прямой, в которую с вероятностью 0,683 попадают экспериментальные значенияМатематическая статистика - примеры с решением заданий и выполнение задач т. е. примерно 68,3 % всех значенийМатематическая статистика - примеры с решением заданий и выполнение задачоказываются в этой зоне.

Зона, определяемая стандартной ошибкой предсказания, показана на рис. 7.6 штриховыми линиями.

Проверка адекватности линейной модели

Проверка адекватности линейной модели может быть произведена с помощью стандартного F-критерия. Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач в этом случае представляет собой утверждение о том, что регрессия в генеральной совокупности линейна, а альтернатива — обратное ей утверждение.Математическая статистика - примеры с решением заданий и выполнение задач F-критерий может быть применен в том случае, если каждому значению Математическая статистика - примеры с решением заданий и выполнение задач соответствует несколько измеренных значений Математическая статистика - примеры с решением заданий и выполнение задач. Порядок применения критерия описан в литературе [1, 4, 8]. Здесь не будем подробно на нем останавливаться, а рассмотрим простой и наглядный графический способ проверки адекватности.

Проверка адекватности линейной модели производится по графику остатков: Математическая статистика - примеры с решением заданий и выполнение задач где Математическая статистика - примеры с решением заданий и выполнение задач — измеренные значения величиныМатематическая статистика - примеры с решением заданий и выполнение задач, соответствующие значениям Математическая статистика - примеры с решением заданий и выполнение задач оценкаМатематическая статистика - примеры с решением заданий и выполнение задач по уравнению регрессии.

Если остатки Математическая статистика - примеры с решением заданий и выполнение задач сконцентрированы в горизонтальной полосе вдоль оси абсцисс, то линейную модель можно считать адекватной. Если зона, где расположены остатки, расширяется, это означает, что нарушено предположение 4 регрессионного анализа (см. раздел 7.4.1): дисперсии неодинаковы при различных значениях Математическая статистика - примеры с решением заданий и выполнение задач. Это требует изменения регрессионной модели. Если остатки имеют тенденцию закономерно изменяться, то нарушено предположение 2, т. е. не учтены какие-то факторы, существенно влияющие на связь между величинами Y и х. В этом случае также нужно изменить модель и ввести в нее неучтенные факторы. Предположение 4 о нормальности распределения может быть проверено с помощью стандартных критериев согласия (см. раздел 6.4), примененных к эмпирическому распределению остатковМатематическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Следует отметить, что регрессионный анализ в полном объеме достаточно сложен даже для простой линейной модели. Здесь не обойтись без помощи ЭВМ. Для универсальных ЭВМ существуют стандартные программы регрессионного анализа*.

Здесь нет возможности уделить этому внимание, поэтому рассматриваются лишь простейшие методы, при которых для расчетов вполне достаточно обычных микрокалькуляторов.

В заключение построим график остатков для примера 7.4. Этот график приведен на рис. 7.7.

Как следует из рис. 7.7, остатки Математическая статистика - примеры с решением заданий и выполнение задач распределились в основном в горизонтальной полосе вблизи нуля, поэтому приближенно можно считать, что в рассмотренном примере линейная модель регрессии является адекватной.

Проверка значимости коэффициента регрессии

Если в результате проведенной проверки нет оснований сомневаться в адекватности линейной модели, то необходимо проверить гипотезу о том, что в действительности в генеральной совокупности отсутствует линейная регрессия, а то, что полученный коэффициент регрессии b отличен от нуля,, объясняется только случайностью выборки.

Если данных много, то необходимость в такой проверке, как правило, отпадает, потому что зависимость явно прослеживается при графическом представлении данных (см., например, рис. 7.3). Но если выборка невелика, то такaя проверка полезна.

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач проверяется с помощью стандартного t-критерия Стьюдента, рассмотренного в гл. 6. Значение t-критерия определяется по формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач— абсолютная величина коэффициента регрессии, Математическая статистика - примеры с решением заданий и выполнение задач— стандартная ошибка предсказания, определяемая формулой (7.6).

t-критерий применяется обычным образом, как показано в гл. 6. Вычисленное по формуле (7.7) значение критерия сравнивается с критическим значением Математическая статистика - примеры с решением заданий и выполнение задач при уровне значимости а и числе степеней свободы v= n — 2. Критические значения /« приведены в табл. 4 Приложения.

Заметим, что здесь a-уровень значимости, его не следует путать со свободным членом уравнения регрессии Математическая статистика - примеры с решением заданий и выполнение задач для которого также принято обозначение а.

Если значение критерияМатематическая статистика - примеры с решением заданий и выполнение задач то нулевая гипотеза отклоняется, и можно сделать вывод, что линейная регрессия значима на уровне значимости а. В противном случае гипотеза Математическая статистика - примеры с решением заданий и выполнение задач принимается.

Пример 7.4 (продолжение)

Оценим значимость коэффициента регрессии b = 3,0, рассчитанного для данных нашего примера. Зададимся уровнем значимости а=0,05.

Подставим найденные ранее значения в формулу

(7.7) и определим значение t-критерия:

Математическая статистика - примеры с решением заданий и выполнение задач

Из табл. 4 Приложения находим при а = 0,05 и v = 10-2 = 8:

Математическая статистика - примеры с решением заданий и выполнение задач

Поскольку Математическая статистика - примеры с решением заданий и выполнение задач то на уровне значимости 0,05 отклоняем нипотезуМатематическая статистика - примеры с решением заданий и выполнение задач т. е. коэффициент регрессии b = 3,0 является статистически значимым.

Полиномиальная регрессия

Часто зависимость между двумя величинами, которую можно предположить, анализируя графическое представление экспериментальных данных или опираясь на предметный анализ явлений, оказывается достаточно сложной, и модель линейной регрессии плохо подходит. Тогда прибегают к более сложным моделям, начиная обычно с самой простой из них — полиномиальной регрессии. Эти модели описываются выражением, содержащим, кроме линейного члена (1-й степени х) более высокие степени переменной хМатематическая статистика - примеры с решением заданий и выполнение задач. Редко используется полином выше 3-й степени, поэтому модель полиномиальной регрессии можно представить в следующем виде:Математическая статистика - примеры с решением заданий и выполнение задач

Все предположения, которые принимаются при регрессионном анализе с использованием такой модели, полностью соответствуют предположениям, которые были сделаны в случае простой линейной регрессии.

Оценка параметров полиномиальной модели Математическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задачпо выборочным даннымМатематическая статистика - примеры с решением заданий и выполнение задач также производится по методу наименьших квадратов. Система нормальных уравнений в этом случае имеет вид:

Математическая статистика - примеры с решением заданий и выполнение задач

Решая совместно эти уравнения, находим коэффициенты Математическая статистика - примеры с решением заданий и выполнение задач.

Можно получить эти решения в готовом виде, и они приведены вМатематическая статистика - примеры с решением заданий и выполнение задач, но выражения получаются громоздкими и плохо пригодны для вычислений на калькуляторе, где приходится Применять такие сложные операции, что затраты времени становятся неоправданными. Поэтому, если возникнет необходимость использовать полиномиальную регрессию, лучше обратиться за помощью к специалисту и выполнить расчеты на ЭВМ. Можно надеяться, что в ближайшем будущем положение в корне изменится с появлением общедоступных и простых персональных ЭМ, и что не менее важно, специальных программ статистического анализа для них, по которым неискушенный в программировании человек сможет выполнить необходимые расчеты в режиме понятного диалога с ЭВМ. Тогда вычислительные трудности перестанут быть для многих определяющими при выборе статистических методов анализа.

Коэффициент корреляции

Как уже отмечалось в начале этой лекции, при исследовании корреляции двух признаков обе величины X и Y, описывающие поведение этих признаков, рассматриваются как случайные величины, которые представлены совместным вероятностным распределением. Для двух случайных величин совместное распределение называется двумерным.

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (Математическая статистика - примеры с решением заданий и выполнение задач) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двух рядов связанных между собой значений Математическая статистика - примеры с решением заданий и выполнение задач. При большом количестве данных их запись в виде двойного ряда значений Математическая статистика - примеры с решением заданий и выполнение задач, становится трудно обозримой, и тогда, как и в случае одномерного распределения, данные группируют, а двумерное эмпирическое распределение представляют в виде корреляционной таблицы, в которой для каждой области группировки, задаваемой интервалами группировки по признакам X и Y, записывается частота совместного попадания значений х, и у, в данную область группировки. Анализ корреляции с использованием корреляционных таблиц подробно изложен в литературе [4, 7, 8, 9, 10, Математическая статистика - примеры с решением заданий и выполнение задачи здесь рассматриваться не будет.

Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения Математическая статистика - примеры с решением заданий и выполнение задач

Когда исследуется корреляция между количественными признаками, значение которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т. п.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Плотность вероятностей двумерного нормального распределения имеет вид Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Это распределение зависит от пяти параметров, четыре из которых нам уже знакомы:Математическая статистика - примеры с решением заданий и выполнение задач— средние значения (математические ожидания); Математическая статистика - примеры с решением заданий и выполнение задач— стандартные отклонения случайных величин X и У. Пятый параметр р носит название «коэффициент корреляции» и является мерой связи между случайными величинами X и У.

Модель двумерного нормального распределения позволяет дать наглядную графическую интерпретацию коэффициента корреляции.

Если р — 0, то значения Математическая статистика - примеры с решением заданий и выполнение задачполученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рис. 7.8, а). В этом случае между случайными величинами X и У отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин X и Y.

Если р= I или р= — 1, то между случайными величинами X и У существует линейная функциональная зависимость (У = с + dX). В этом случае говорят о полной корреляции. При р = 1 значения Математическая статистика - примеры с решением заданий и выполнение задач( определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением Математическая статистика - примеры с решением заданий и выполнение задач значения Математическая статистика - примеры с решением заданий и выполнение задачтакже увеличиваются), при р = — 1 прямая имеет отрицательный наклон (рис. 7.8, б).

В промежуточных случаях Математическая статистика - примеры с решением заданий и выполнение задач точки, соответствующие значениямМатематическая статистика - примеры с решением заданий и выполнение задачпопадают в область, ограниченную некоторым эллипсом (рис. 7.8, в, а), причем при р>0 имеет место положительная корреляция (с увеличением Математическая статистика - примеры с решением заданий и выполнение задачзначенияМатематическая статистика - примеры с решением заданий и выполнение задач имеют тенденцию к возрастанию), при р<0 корреляция отрицательная. Чем ближе р к ±1, тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии.

Таким образом, коэффициент корреляции является мерой линейной связи между случайными величинами.

В двумерном нормальном распределении существуют две линии регрессии: регрессия У на X и регрессия X на У (в зависимости от того, какую из величин X или У считать независимой, а какую — зависимой). Причем для нормального распределения регрессия всегда линейна, т. е. среднее значение одной случайной величины линейно зависит от значений другой случайной величины. Поэтому для двумерного нормального распределения коэффициент корреляции является мерой взаимосвязи двух случайных величин.

Это справедливо только для двумерного нормального распределения. При произвольном распределении корреляция является мерой только линейной связи. Пусть, например, две случайные величины связаны функциональной квадратичной зависимостью Математическая статистика - примеры с решением заданий и выполнение задач и случайная величина X равномерно распределена на интервале значений (—х, х), т. е. вероятности ее попадания в любой сколь угодно малый интервал внутри общего интервала (—х, х) одинаковы. В этом случае оказывается, что коэффициент корреляции равен 0, хотя имеет место функциональная зависимость. Это нужно иметь в виду при использовании коэффициента корреляции в качестве меры связи двух случайных величин. Поэтому, когда определяется коэффициент корреляции, обычно предполагается, что экспериментальные данные получены из генеральной совокупности, имеющей двумерное нормальное распределение.

Если нет оснований предполагать двумерное нормальное распределение, в качестве меры связи часто используется коэффициент ранговой корреляции Спирмена, для которого вид распределения случайных величин X и Y не имеет значения. Коэффициент ранговой корреляции является мерой любой монотонной (неубывающей или невозрастаюшей) зависимости между случайными величинами. Его применение рассмотрено в разделе 7.7

Если исследуется корреляционная зависимость между качественными признаками, которые не поддаются непосредственному измерению, то такая зависимость называется сопряженностью. В качестве меры зависимости используются коэффициенты сопряженности, рассмотренные в разделе 7.8.

Оценка коэффициента корреляции

Коэффициент корреляции р для генеральной совокупности, как правило, неизвестен, поэтому он оценивается по экспериментальным данным, представляющим собой выборку объема n пар значений Математическая статистика - примеры с решением заданий и выполнение задач полученную при совместном измерении двух признаков X и Y. Коэффициент корреляции, определяемый по выборочным данным, называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции). Его принято обозначать символом r.

В качестве оценки генерального коэффициента корреляции р используется коэффициент корреляции r Бра-ве — Пирсона. Для его определения принимается предположение о двумерном нормальном распределении генеральной совокупности, из которой получены экспериментальные данные. Это предположение может быть проверено с помощью соответствующих критериев значимости. Следует отметить, что если по отдельности одномерные эмпирические распределения значений Математическая статистика - примеры с решением заданий и выполнение задач согласуются с нормальным распределением,, то из этого еще не следует, что двумерное распределение будет нормальным. Для такого заключения необходимо еще проверить предположение о линейности связи между случайными величинами X и Y. Строго говоря, для вычисления коэффициента корреляции достаточно только принять предположение о линейности связи между случайными величинами, и вычисленный коэффициент корреляции будет мерой этой линейной связи. Но тогда нельзя оценить достоверность найденного коэффициента корреляции с помощью стандартных критериев значимости, которые рассмотрены ниже. Для этого требуется принять предположение о двумерном нормальном распределении.

Коэффициент корреляции r Браве — Пирсона вычис ляется по формуле: Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач— выборочные средние арифметические, n — объем выборки.

Для практических расчетов более удобна следующая формула: Математическая статистика - примеры с решением заданий и выполнение задач

В этой формуле все суммы также вычисляются для i от 1 до n. Удобство формулы (7.9) в том, что она оперирует непосредственно с исходными данными Математическая статистика - примеры с решением заданий и выполнение задачпоэтому вычисления производятся более точно, чем по формуле (7.8), в которой присутствуютМатематическая статистика - примеры с решением заданий и выполнение задач, которые всегда содержат ошибки округления.

Важным свойством коэффициента корреляции является то, что он не изменяет своего значения при любом линейном преобразовании исходных данных Математическая статистика - примеры с решением заданий и выполнение задач. Например, если заменить Математическая статистика - примеры с решением заданий и выполнение задачс помощью преобразований:Математическая статистика - примеры с решением заданий и выполнение задач

то значение Математическая статистика - примеры с решением заданий и выполнение задач, выведенное по преобразованным данным, совпадает с Математическая статистика - примеры с решением заданий и выполнение задач выведенным по исходным данным.

Это свойство позволяет существенно упростить вычисление коэффициента корреляции в тех случаях, когда значения Математическая статистика - примеры с решением заданий и выполнение задач представлены многоразрядными числами.

Между коэффициентом корреляции r и коэффициентами регрессии Математическая статистика - примеры с решением заданий и выполнение задач (коэффициенты регрессии У на X и X на У) существует простая взаимосвязь:

Математическая статистика - примеры с решением заданий и выполнение задач

Зная коэффициент корреляции, можно легко определить коэффициент регрессии: Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач — выборочные стандартные отклонения.

Квадрат коэффициента корреляции называется коэффициентом детерминации (d):Математическая статистика - примеры с решением заданий и выполнение задач

Коэффициент детерминации является мерой определенности линейной регрессии. Чем больше коэффициент детерминации, тем меньше наблюдаемые значенияМатематическая статистика - примеры с решением заданий и выполнение задач при каждом значении Математическая статистика - примеры с решением заданий и выполнение задач отклоняются от линии регрессии У на X, тем точнее определена линия регрессии. Так, например, если r = 0,9, то d = 0,81 и 81 % общего рассеяния значений Математическая статистика - примеры с решением заданий и выполнение задач (характеризуемого дисперсией Математическая статистика - примеры с решением заданий и выполнение задач можно объяснить линейной связью с изменяющимися значениямиМатематическая статистика - примеры с решением заданий и выполнение задач

Пример 7.5

Определим, существует ли связь между результатами в беге на 30 и на 100 м для данных примера 7.4, полученных для группы школьников.

Исходные данные Математическая статистика - примеры с решением заданий и выполнение задач (результаты в беге на 30 м) и Математическая статистика - примеры с решением заданий и выполнение задач (результаты бега на 100 м) приведены в столбцах 2 и 3 табл. 7.3. Корреляционный анализ производится в следующем порядке:

1. Наносим исходные данныеМатематическая статистика - примеры с решением заданий и выполнение задач на график корреляционного поля, отображая каждую пару значений (Математическая статистика - примеры с решением заданий и выполнение задач) в виде точки с координатами Математическая статистика - примеры с решением заданий и выполнение задачв прямоугольной системе координат. Этот график построен на рис. 7.5.

Анализ графика позволяет сделать предположение о линейной связи между результатами в беге на 30 и 100 м для данной категории испытуемых. Силу этой связи можно оценить по коэффициенту корреляции r Браве — Пирсона.

2. Вычисляем значения промежуточных сумм, входящих в формулу (7.9), для коэффициента корреляции:

Математическая статистика - примеры с решением заданий и выполнение задач

Промежуточные расчеты приведены в столбцах 2—6 табл. 7.3.

3. По формуле (7.9) вычисляем коэффициент корреляции:

Математическая статистика - примеры с решением заданий и выполнение задач

Такое значение коэффициента корреляции свидетельствует о наличии сильной положительной корреляции между результатами в беге на 30 и 100 м. Математическая статистика - примеры с решением заданий и выполнение задач

4, Находим коэффициент детерминации

Математическая статистика - примеры с решением заданий и выполнение задач

93,5% рассеяния результатов в беге на 100 м может быть объяснено изменением результатов в беге на 30 м. Иными словами, на оба исследуемых признака (результаты в беге на 30 и 100 м) действуют общие факторы, вызывающие варьирование этих признаков, и доля общих факторов составляет 93,5 %. Остальные 6,5 % приходятся на долю факторов, действующих на исследуемые признаки избирательно.

Пример 7.6

Исследовалась группа спортсменок I разряда, специализирующихся в беге на 400 м. Цель исследования состояла в том, чтобы выявить влияние времени на первой половине дистанции на время пробегания последних 200 м. На соревнованиях для 20 спортсменок измерены результаты на обеих половинах дистанции 400 м. Эти данные приведены в столбцах 2 и 3 табл. 7.4: Математическая статистика - примеры с решением заданий и выполнение задач — результаты на первой,Математическая статистика - примеры с решением заданий и выполнение задач — на второй половине дистанции.

Проведем корреляционный анализ экспериментальных данных. Математическая статистика - примеры с решением заданий и выполнение задач

1. Построим график корреляционного поля (рис. 7.9). Анализ графика показывает, что в данном случае можно предположить существование линейной корреляции между исследуемыми признаками, причем здесь корреляция отрицательная для данной категории испытуемых, т. е. при более быстром пробегании первой половины дистанции время на последних 200 м имеет тенденцию к возрастанию.

Вычислим коэффициент корреляции Математическая статистика - примеры с решением заданий и выполнение задачБраве — Пирсона для полученных экспериментальных данных.

Как показал предыдущий пример 7.5, расчет коэффициента корреляции достаточно громоздкий. Можно ожидать, что в данном примере расчеты будут еще сложнее, потому что данных вдвое больше. Чтобы упростить вычисления, воспользуемся линейным преобразованием исходных данных (7.10). Это не изменит значения коэффициента корреляции, но позволит существенно упростить расчеты при правильном выборе линейного преобразования. Применим следующие преобразования:

Математическая статистика - примеры с решением заданий и выполнение задач

Значения Математическая статистика - примеры с решением заданий и выполнение задач = 25,8 и Математическая статистика - примеры с решением заданий и выполнение задач — 30,5 выбраны примерно в центре рядов Математическая статистика - примеры с решением заданий и выполнение задач а множитель с — 10 выбран с целью преобразовать данные в целочисленные значения.

Преобразованные данные приведены в столбцах-4 и Математическая статистика - примеры с решением заданий и выполнение задач

5 табл. 7.4. Далее порядок вычислений ничем не отличается от рассмотренного в примере 7.5.

2. Находим значения промежуточных сумм: Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач

По формуле (7.9) определяем:

Математическая статистика - примеры с решением заданий и выполнение задач

Полученный результат говорит о наличии сильной отрицательной корреляции.

4. Коэффициент детерминации равен

Математическая статистика - примеры с решением заданий и выполнение задач

В данном случае 64 % рассеяния результатов на последних 200 м объясняется изменением результатов на первой половине дистанции.

Критерий значимости и доверительные интервалы для коэффициента корреляции

Основываясь только на значении выборочного коэффициента корреляции, особенно если это значение не очень близко к ±1, нельзя сделать вывод о достоверности корреляции между признаками. Этот вывод может быть сделан с помощью соответствующих критериев значимости корреляции. Такие критерии служат для проверки гипотезы Математическая статистика - примеры с решением заданий и выполнение задач о том, что в генеральной совокупности отсутствует корреляция, а отличие от нуля выборочного коэффициента корреляции объясняется только случайностью выборки. Альтернатива Математическая статистика - примеры с решением заданий и выполнение задачможет быть двустороннейМатематическая статистика - примеры с решением заданий и выполнение задач если не известен знак корреляции, или одностороннейМатематическая статистика - примеры с решением заданий и выполнение задач когда знак корреляции может быть заранее определен.

Применение стандартных критериев значимости корреляции основано на предположении о двумерном нормальном распределении генеральной совокупности, из которой получены экспериментальные данные.

Если принять предположение о наличии линейной связи между исследуемыми признаками, то гипотезу о двумерном нормальном распределении можно проверить с помощью стандартных критериев согласия (см. раздел 6.4), примененных к одномерным эмпирическим распределениям признаков X и Y.

Если предположение о двумерном нормальном распределении принимается, то могут быть использованы следующие критерии значимости корреляции:

t-критерий. При использовании t-критерия Стыодента-вычисляется значение критерия по формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

где r — выборочный коэффициент корреляции; n — объем выборки.

Вычисленное по формуле (7.13) значение t-критерия сравнивается с критическим значениемМатематическая статистика - примеры с решением заданий и выполнение задач при заданном уровне значимости и числе степеней свободы Математическая статистика - примеры с решением заданий и выполнение задач = n — 2.

Чтобы упростить применение t-критерия, составлена таблица критических значений Математическая статистика - примеры с решением заданий и выполнение задач коэффициента корреляции (см. табл. 10 Приложения). При наличии этой таблицы отпадает необходимость в вычислениях по формуле (7.13). Достаточно просто сравнить выборочный

коэффициент корреляции r с критическим значением Математическая статистика - примеры с решением заданий и выполнение задач при уровне значимости а и объеме выборки n. Если окажется, чтоМатематическая статистика - примеры с решением заданий и выполнение задач то гипотеза Математическая статистика - примеры с решением заданий и выполнение задачпринимается и делается вывод об отсутствии значимой корреляции. Если Математическая статистика - примеры с решением заданий и выполнение задачгипотеза Математическая статистика - примеры с решением заданий и выполнение задач отклоняется. Для двустороннего критерия это означает, что коэффициент корреляции статистически значимо отличается от 0 на уровне значимости а, для одностороннего критерия делается вывод о наличии значимой положительной или отрицательной корреляции. Заметим, что табл. 10 Приложения содержит критические значения для двустороннего критерия, Математическая статистика - примеры с решением заданий и выполнение задачкритерий, основанный на Z-преобразовании. Другой критерий значимости корреляции основан на Z-преобра-зовании Фишера: Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач Перевод значений коэффициента корреляции r в значении Z может быть выполнен по табл. 11 Приложения. Эта таблица содержит только положительные значения r, но можно воспользоваться тем фактом, что Z-преобра-зование симметрично, и Z для отрицательного r равно значению Z для соответствующего положительного r, взятого со знаком минус.

Величина Z имеет приближенно нормальное распределение со средним значением

Математическая статистика - примеры с решением заданий и выполнение задач

и стандартным отклонением Математическая статистика - примеры с решением заданий и выполнение задач

Z-преобразование можно применять приМатематическая статистика - примеры с решением заданий и выполнение задач Критерий значимости применяется следующим образом:

1. Вычисляем значение Математическая статистика - примеры с решением заданий и выполнение задач 2. Сравниваем значение Математическая статистика - примеры с решением заданий и выполнение задач с критическим значениемМатематическая статистика - примеры с решением заданий и выполнение задач нормированного нормального распределения при заданном уровне значимости а. Критические значения Математическая статистика - примеры с решением заданий и выполнение задач для стандартных уровнен значимости приведены в табл. 6.2.

3. ЕслиМатематическая статистика - примеры с решением заданий и выполнение задач то гипотеза Математическая статистика - примеры с решением заданий и выполнение задач принимается, и делаем вывод об отсутствии значимой корреляции. ПриМатематическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач отклоняется. Для двустороннего критерия делаем вывод о том, что коэффициент корреляции значимо (7.14)

отличается от 0. Для одностороннего критерия отклонениеМатематическая статистика - примеры с решением заданий и выполнение задач означает, что существует статистически значимая положительная или отрицательная корреляция.

Доверительный интервал для коэффициента корреляции

Z-преобразование удобно тем, что с его помощью можно определить границы доверительного интервала для генерального коэффициента корреляции p. Доверительный интервал строится следующим образом:

1. Вычисляем значение Z по формуле (7.14) или с помощью табл. 11 Приложения и стандартное отклонение Математическая статистика - примеры с решением заданий и выполнение задач по формуле Математическая статистика - примеры с решением заданий и выполнение задач

2. Задаемся доверительной вероятностью 1 — а и определяем граничные значения Математическая статистика - примеры с решением заданий и выполнение задач нормированного нормального распределения, соответствующие этой доверительной вероятности. Граничные значения равны критическим значениям Математическая статистика - примеры с решением заданий и выполнение задач двустороннего Математическая статистика - примеры с решением заданий и выполнение задач-критерия, поэтому для их определения можно пользоваться табл. 6.2.

3. Находим границы доверительного интервала для среднего значения Математическая статистика - примеры с решением заданий и выполнение задачвеличины Z:

Математическая статистика - примеры с решением заданий и выполнение задач

4. С помощью обратного преобразования Фишера переходим к доверительному интервалу для коэффициента корреляции р. Для этого по табл. 12 Приложения’ находим значения r, соответствующие значениям Z Математическая статистика - примеры с решением заданий и выполнение задач Это и будут границы доверительного интервала для р.

Пример 7.6 (продолжение)

Оценим значимость корреляции на уровне значимости a = 0,05 и границы 95 %-ного доверительного интервалу для коэффициента корреляции для данных примера 7.6, представляющих собой результаты на первой и второй половине дистанции 400 м для спортсменок I разряда.

Действуем в таком порядке:

1. Вначале проверим гипотезу о том, что экспериментальные данные получены из двумерной нормальной совокупности.

Значения критерия W Шапиро — Уилки (см. раздел 6.4.4) для рядов Математическая статистика - примеры с решением заданий и выполнение задачсоответственно равны:Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач Промежуточные расчеты здесь не приводятся, и предоставляется возможность выполнить их самостоятельно.

Критическое значение Математическая статистика - примеры с решением заданий и выполнение задач для уровня значимости a = 0,05 и объема выборки n= 20 находим по табл. 7 Приложения:

Математическая статистика - примеры с решением заданий и выполнение задач

Поскольку Математическая статистика - примеры с решением заданий и выполнение задач превышают Математическая статистика - примеры с решением заданий и выполнение задач то одномерные распределения значений Математическая статистика - примеры с решением заданий и выполнение задач согласуются с нормальным распределением на уровне значимости 0,05. Кроме того, принято предположение о линейной связи величин X и Y, поэтому можно считать обоснованным предположение о двумерном нормальном распределении и применить стандартные критерии значимости корреляции.

2. Оценим значимость корреляции путем сравнения с критическим значением коэффициента корреляции. Ранее вычисленный выборочный коэффициент корреляцииМатематическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач По табл. 10 Приложения находим при Математическая статистика - примеры с решением заданий и выполнение задач и n — 20 критическое значениеМатематическая статистика - примеры с решением заданий и выполнение задач = 0,468.

Поскольку Математическая статистика - примеры с решением заданий и выполнение задач, то делаем вывод о статистической значимости коэффициента корреляции на уровне значимости 0,05. Между результатами на первой и второй половине дистанции 400 м существует значимая корреляция. Вероятность ошибки такого вывода Математическая статистика - примеры с решением заданий и выполнение задач так как r превышает критическое значение Математическая статистика - примеры с решением заданий и выполнение задач

Воспользуемся Z-преобразованием для проверки значимости корреляции. Отметим, что для рассматриваемого примера данный критерий можно не применять, так как выборочный коэффициент корреляции значительно превышает критическое значение, и использование еще одного критерия вряд ли изменит в такой ситуации вывод о значимости корреляции. Но Z-преобразование потребуется нам для определения доверительного интервала для коэффициента корреляции.

По табл. 11 Приложения при r =0,802 находим Z = 1,099.

Стандартное отклонение Математическая статистика - примеры с решением заданий и выполнение задач

Значение ц-критерия по формуле (7.15) составляет:

Математическая статистика - примеры с решением заданий и выполнение задач

При уровне значимости а — 0,05 по табл. 6.2 находим критическое значение Математическая статистика - примеры с решением заданий и выполнение задачдвустороннего Математическая статистика - примеры с решением заданий и выполнение задач-критерия:

Математическая статистика - примеры с решением заданий и выполнение задач

Поскольку Математическая статистика - примеры с решением заданий и выполнение задач вывод о наличии значимой корреляции подтверждается.

4. Определим границы доверительного интервала для генерального коэффициента корреляции р.

Границы 95 %-ного доверительного интервала для Математическая статистика - примеры с решением заданий и выполнение задач по формуле (7.16) равны:

Математическая статистика - примеры с решением заданий и выполнение задач

По табл. 12 Приложения находим значения r, соответствующие границам доверительного интервала для р: 0,558 и 0,917.

Следовательно, 95 %-ный доверительный интервал для р будет: —0,917<р<—0,558.

Здесь мы учли, что выборочный коэффициент корреляции отрицательный.

Коэффициент ранговой корреляции Спирмена

Если потребуется установить связь между двумя признаками, значения которых в генеральной совокупности распределены не по нормальному закону, т. е. предположение о том, что двумерная выборкаМатематическая статистика - примеры с решением заданий и выполнение задач получена из двумерной нормальной генеральной совокупности, не принимается, то можно воспользоваться коэффициентом ранговой корреляции Спирмена Математическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач В этом выражении Математическая статистика - примеры с решением заданий и выполнение задач— разность рангов Математическая статистика - примеры с решением заданий и выполнение задач пары значений Математическая статистика - примеры с решением заданий и выполнение задачОпределение рангов было дано выше в разделе 6.5.1.

Формула (7.17) получается непосредственно из формулы (7.8) для коэффициента корреляции Браве — Пирсона, если в последнюю вместоМатематическая статистика - примеры с решением заданий и выполнение задач; подставить их ранги.

Коэффициент ранговой корреляции также имеет пределы 1 и —1. Если ранги одинаковы для всех значений Математическая статистика - примеры с решением заданий и выполнение задач то все разности рангов Математическая статистика - примеры с решением заданий и выполнение задач Если ранги Математическая статистика - примеры с решением заданий и выполнение задач расположены в обратном порядке, Математическая статистика - примеры с решением заданий и выполнение задачТаким образом, коэффициент ранговой корреляции является мерой совпадения рангов значений Математическая статистика - примеры с решением заданий и выполнение задач и Математическая статистика - примеры с решением заданий и выполнение задач

Когда ранги всех значенийМатематическая статистика - примеры с решением заданий и выполнение задач строго совпадают или расположены строго в обратном порядке, между случайными величинами X и Y существует функциональная зависимость, причем эта зависимость не обязательно линейная, как в случае с коэффициентом линейной корреляции Браве — Пирсона, а может быть любой монотонной зависимостью (т. е. постоянно возрастающей

или постоянно убывающей зависимостью). Если зависимость монотонно возрастающая, то ранги значений Математическая статистика - примеры с решением заданий и выполнение задач– совпадают и Математическая статистика - примеры с решением заданий и выполнение задач = 1; если зависимость монотонно убывающая, то ранги обратны и Математическая статистика - примеры с решением заданий и выполнение задач = — 1. Следовательно, коэффициент ранговой корреляции является мерой любой монотонной зависимости между случайными величинами X и Y.

В тех случаях, когда в рядах Математическая статистика - примеры с решением заданий и выполнение задач встречаются одинаковые, совпадающие между собой значения, формула (7.17) дает несколько завышенный результат. Для более точных расчетов применяется следующая формула:Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач — число совпадающих значений Математическая статистика - примеры с решением заданий и выполнение задач (или рангов значений Математическая статистика - примеры с решением заданий и выполнение задач) в каждой из групп, где эти значения совпадают.

При небольшом числе совпадающих значений формула (7.17)обеспечивает практически приемлемую точность и можно не усложнять расчеты вычислениемМатематическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач

Коэффициент ранговой корреляции Спирмена вычисляется значительно проще, чем коэффициент корреляции Браве — Пирсона при одних и тех же исходных данных, поскольку при вычислении используются ранги, представляющие собой обычно целые числа.

Коэффициент ранговой корреляции целесообразно использовать в следующих случаях:

1. Если экспериментальные данные представляют собой точно измеренные значения признаков X и Y и требуется быстро найти приближенную оценку коэффициента корреляции. Тогда даже в случае двумерного нормального распределения генеральной совокупности можно воспользоваться коэффициентом ранговой корреляции вместо точного коэффициента корреляции Браве — Пирсона. Вычисления будут существенно проще, а точность оценки генерального параметра р с помощью коэффициента Математическая статистика - примеры с решением заданий и выполнение задач при больших объемах выборки составляет 91,2% по отношению к точности оценки по коэффициенту корреляции r.

2. Когда значения Математическая статистика - примеры с решением заданий и выполнение задач и (или) Математическая статистика - примеры с решением заданий и выполнение задач заданы в порядковой шкале (например, оценки судей в баллах, места на соревнованиях, количественные градации качественных признаков), т. е. когда признаки не могут быть точно измерены, но их наблюдаемые значения могут быть расставлены в определенном порядке.

Пример 7.7.

Воспользуемся данными примера 7.5 и определим коэффициент ранговой корреляции между результатами школьников в беге на 30 и 100 м. Исходные данные приведены в столбцах 2 и 3 табл. 7.5.

Расчет производится в следующем порядке:

1. Находим ранги Математическая статистика - примеры с решением заданий и выполнение задач значений Математическая статистика - примеры с решением заданий и выполнение задач как показано в разделе 6.5.1.

Ранги приведены в столбцах 4 и 5 табл. 7.5. 2 3 4Математическая статистика - примеры с решением заданий и выполнение задач

2. Вычисляем разности рангов Математическая статистика - примеры с решением заданий и выполнение задач(столбец 6). Для проверки правильности вычисления рангов можно использовать тот факт, что сумма всех разностей di должна быть равна нулю. 3. Возводим разности Математическая статистика - примеры с решением заданий и выполнение задачв квадрат и находим сумму:

Математическая статистика - примеры с решением заданий и выполнение задач 4. В рядах Математическая статистика - примеры с решением заданий и выполнение задачвстречаются совпадающие значения, поэтому для вычисления коэффициента ранговой корреляции нужно пользоваться формулой (7.18).

Предварительно найдем значения Математическая статистика - примеры с решением заданий и выполнение задач В ряду Математическая статистика - примеры с решением заданий и выполнение задач имеются 3 группы совпадающих значений: первая группа содержит два значения (4,6; 4,6), вторая и третья — по 3 значения. Поэтому

Математическая статистика - примеры с решением заданий и выполнение задач

В ряду Математическая статистика - примеры с решением заданий и выполнение задач всего одна группа из двух совпадающих значений, следовательно,

Математическая статистика - примеры с решением заданий и выполнение задач

5. По формуле (7.18) находим Математическая статистика - примеры с решением заданий и выполнение задач. Заметим, что если не учитывать наличия совпадающих значений, а воспользоваться формулой (7.17), то получим значение Математическая статистика - примеры с решением заданий и выполнение задачЭто подтверждает сделанное выше замечание о том, что при небольшом числе совпадающих значений можно не учитывать их наличия.

Как видим, коэффициент ранговой корреляцииМатематическая статистика - примеры с решением заданий и выполнение задач0,975 несущественно отличается от вычисленного ранее коэффициента корреляции Браве — Пирсона (r = 0,967), но получен путем значительно более простых расчетов.

Пример 7.8

Выясним, существует ли связь между результатами в Математическая статистика - примеры с решением заданий и выполнение задач

прыжках в длину с места и местами, занятыми на соревнованиях, для гимнастов 11—12 лет. Данные, полученные по наблюдениям за 10 гимнастами этой возрастной категории, приведены в столбцах 2 и 3 табл. 7.6.

Данный пример соответствует второму случаю применения коэффициента ранговой корреляции Спирмена. Здесь значения Математическая статистика - примеры с решением заданий и выполнение задач (места на соревнованиях) выражены в порядковой шкале. К таким данным коэффициент корреляции Браве — Пирсона не применим, а взаимосвязь может быть установлена только с помощью коэффициента ранговой корреляции.

Порядок расчета полностью соответствует рассмотренному выше в примере 7.7, за исключением того, что в данном примере отсутствуют совпадающие значения Математическая статистика - примеры с решением заданий и выполнение задач и Математическая статистика - примеры с решением заданий и выполнение задач поэтому нет необходимости вычислятьМатематическая статистика - примеры с решением заданий и выполнение задач

Коэффициент ранговой корреляции по формуле (7.17) составляет Математическая статистика - примеры с решением заданий и выполнение задач

Значимость коэффициента ранговой корреляции

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач(генеральный коэффициент ранговой корреляции равен 0) может быть проверена путем сравнения выборочного коэффициента ранговой корреляции Математическая статистика - примеры с решением заданий и выполнение задачс критическим значением Математическая статистика - примеры с решением заданий и выполнение задач. Критические значения для стандартных уровней значимости приведены в табл. 13 Приложения. Содержащиеся в этой таблице критические значения соответствуют одностороннему критерию (альтернатива Математическая статистика - примеры с решением заданий и выполнение задач т. е. при использовании этого критерия должна быть уверенность в знаке предполагаемой корреляции. Если такой уверенности нет, следует применять двусторонний критерий (альтернатива Математическая статистика - примеры с решением заданий и выполнение задач. при этом уровни значимости, приведенные в табл. 13 Приложения, следует удвоить.

Если Математическая статистика - примеры с решением заданий и выполнение задачто коэффициент ранговой корреляции статистически незначим на уровне значимости а; еслиМатематическая статистика - примеры с решением заданий и выполнение задач делаем вывод о наличии значимой корреляции.

Табл. 13 Приложения содержит критические значения для объемов выборки Математическая статистика - примеры с решением заданий и выполнение задач. Если объем выборки больше или подобной таблицы нет под рукой, то при Математическая статистика - примеры с решением заданий и выполнение задач можно

приближенно воспользоваться t-критерием, значение которого вычисляется следующим образом: Математическая статистика - примеры с решением заданий и выполнение задач

Это значение сравнивается с критическим значением Математическая статистика - примеры с решением заданий и выполнение задач t-распределения Стьюдента при числе степеней свободы v = n — 2. Критические значения Математическая статистика - примеры с решением заданий и выполнение задачприведены в табл. 4 Приложения.

Пример 7.7 (продолжение)

Выборочный коэффициент ранговой корреляции, определенный для данных примера7.7, составляет Математическая статистика - примеры с решением заданий и выполнение задач — 0,975. Для уровня значимости а = 0,05 и объема выборки n = 10 из табл. 13 Приложения находим критическое значение:

Математическая статистика - примеры с решением заданий и выполнение задач

ПосколькуМатематическая статистика - примеры с решением заданий и выполнение задач гипотеза Математическая статистика - примеры с решением заданий и выполнение задач отклоняется на уровне значимости 0,05. Между результатами школьников в беге на 30 и на 100 м существует статистически значимая положительная корреляция. (Делаем вывод именно о положительной корреляции, потому что был использован односторонний критерий.) Ошибка утверждения о значимости положительной корреляции Р<0,001, поскольку Математическая статистика - примеры с решением заданий и выполнение задач превышает и критическое значение Математическая статистика - примеры с решением заданий и выполнение задач= 0,8667).

Пример 7.8 (продолжение)

Для данных примера 7.8 выборочный коэффициент ранговой корреляции Математическая статистика - примеры с решением заданий и выполнение задач = 0, 539. Его сравнение с Математическая статистика - примеры с решением заданий и выполнение задач 0,5512 свидетельствует об отсутствии статистически значимой положительной корреляции между результатами гимнастов 11 —12 лет в прыжках в длину с места и местами, занятыми на соревнованиях, несмотря на то, что выборочный коэффициент корреляции кажется сравнительно высоким. Имеющийся у нас объем экспериментальных данных (n=10) не позволяет отклонить гипотезу Математическая статистика - примеры с решением заданий и выполнение задач об отсутствии корреляции даже при значении выборочного коэффициента ранговой корреляцииМатематическая статистика - примеры с решением заданий и выполнение задач 0,539.

Сопряженность качественных признаков

Если требуется выявить связь (сопряженность) между качественными признаками, которые не поддаются непосредственному измерению, для этого используются коэффициенты сопряженности.

Здесь рассматривается только простейший случай: связь между двумя альтернативными признаками. Мерой альтернативных признаков является наличие или отсутствие их у объектов исследования. Например, человек может заниматься или не заниматься спортом, заболеть или не заболеть простудным заболеванием, сдать или не сдать зачет по математической статистике, установить или не установить мировой рекорд в плавании, легкой атлетике и т. д.

Математическая статистика - примеры с решением заданий и выполнение задач

При исследовании сопряженности двух альтернативных признаков исходные экспериментальные данные представляют в виде четырехклеточной таблицы сопряженности признаков (табл. 7.7). В этой таблице содержатся частоты а, b, с и d, соответствующие для выборки объема n наличию (+) или отсутствию (—) каждого из признаков «1» или «2» у испытуемых.

Взаимосвязь между двумя альтернативными признаками устанавливается с помощью тетрахорического коэффициента сопряженности (или коэффициента ассоциации) Пирсона Математическая статистика - примеры с решением заданий и выполнение задач

Рассмотрим его применение на примере.

Пример 7.9

Пусть, например, было проведено исследование влияния занятий спортом на утомляемость в течение рабочего дня у молодых выпускников технического вуза. Обследование проводилось с помощью анкетного опроса, и 200 ответов на вопросы анкеты «Занимаетесь ли вы спортом систематически?», «Чувствуете ли вы состояние психического или физического утомления к концу рабочего дня?» распределились, как показано в табл. 7.8.

Математическая статистика - примеры с решением заданий и выполнение задач

Тетрахорический коэффициент сопряженности Математическая статистика - примеры с решением заданий и выполнение задач определяется по следующей формуле:

Математическая статистика - примеры с решением заданий и выполнение задач Этой формулой можно пользоваться, если все частоты а, b, с и d не меньше 5.

Для данных рассматриваемого примера Математическая статистика - примеры с решением заданий и выполнение задач Это значение дает основание предполагать, что при систематических занятиях спортом состояние утомления в течение рабочего дня наблюдается реже.

Для проверки нулевой гипотезы о независимости признаков (об отсутствии сопряженности) используется Математическая статистика - примеры с решением заданий и выполнение задач Пирсона (см. раздел 6.4). Значения критерияМатематическая статистика - примеры с решением заданий и выполнение задач определяются по формуле: Математическая статистика - примеры с решением заданий и выполнение задач Вычисленное значениеМатематическая статистика - примеры с решением заданий и выполнение задач сравнивается с критическим значением Математическая статистика - примеры с решением заданий и выполнение задачПРИ числе степеней свободы v=l. ЕслиМатематическая статистика - примеры с решением заданий и выполнение задачто гипотеза об отсутствии сопряженности между признаками принимается. ЕслиМатематическая статистика - примеры с решением заданий и выполнение задач делается вывод о наличии статистически значимой связи между признаками. В данном случае, как правило, используется двусторонний критерий, т. е. знак предполагаемой сопряженности заранее не устанавливается.

Для рассматриваемого примера значение Математическая статистика - примеры с решением заданий и выполнение задач-кРитерия составляетМатематическая статистика - примеры с решением заданий и выполнение задач

Зададимся уровнем значимости а =0,05 и по табл. 5 Приложения находим критические значения Математическая статистика - примеры с решением заданий и выполнение задач-кРитеРия с одной степенью свободы: Математическая статистика - примеры с решением заданий и выполнение задач

Поскольку Математическая статистика - примеры с решением заданий и выполнение задач можно сделать вывод о наличии статистически значимой связи между занятиями спортом и утомляемостью к концу рабочего дня для данной категории испытуемых. Ошибка такого вывода Р<0,001, посколькуМатематическая статистика - примеры с решением заданий и выполнение задач превышает и критическое значение Математическая статистика - примеры с решением заданий и выполнение задач-критерия на уровне значимости 0,001 Математическая статистика - примеры с решением заданий и выполнение задач

Приложение

Удвоенные значения функции Лапласа

Удвоенные значения функции Лапласа:

Математическая статистика - примеры с решением заданий и выполнение задач

(площадь под кривой нормального распределения между точками —u, u)

Математическая статистика - примеры с решением заданий и выполнение задач

Ординаты нормальной кривой

Ординаты нормальной кривойМатематическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Критические значения одностороннего F-критерия Фишера

Критические значения одностороннего F-критерия Фишера (верхние числа в строке соответствуют уровню значимости 0,05; средние — 0,01; нижние — 0,001) Таблица 3

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Критические значения двустороннего t-критерия Стьюдента

Критические значения двустороннего t-критерия Стьюдента

(v — число степеней свободы) Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Вспомогательные коэффициенты для проверки нормальности

Вспомогательные коэффициенты Математическая статистика - примеры с решением заданий и выполнение задач для проверки нормальности распределения по критерию W Шапиро — Уилки (n — объем совокупности, k — номер сравниваемой пары)

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Лекции по предметам:

  1. Математика
  2. Алгебра
  3. Линейная алгебра
  4. Векторная алгебра
  5. Геометрия
  6. Аналитическая геометрия
  7. Высшая математика
  8. Дискретная математика
  9. Математический анализ
  10. Теория вероятностей
  11. Математическая логика

Учебник онлайн:

  1. Точечные оценки, свойства оценок
  2. Доверительный интервал для вероятности события
  3. Проверка гипотезы о равенстве вероятностей
  4. Доверительный интервал для математического ожидания
  5. Доверительный интервал для дисперсии
  6. Проверка статистических гипотез
  7. Регрессионный анализ
  8. Корреляционный анализ
  9. Статистические решающие функции
  10. Случайные процессы
  11. Выборочный метод
  12. Статистическая проверка гипотез
  13. Статистические оценки
  14. Теория статистической проверки гипотез
  15. Линейный регрессионный анализ
  16. Вариационный ряд
  17. Законы распределения случайных величин
  18. Дисперсионный анализ
  19. Математическая обработка динамических рядов
  20. Корреляция – определение и вычисление
  21. Элементы теории ошибок
  22. Методы математической статистики

В статистике используют различные виды средних величин, которые делятся на два больших класса:

Степенные средние (средняя гармоническая, средняя геометрическая, средняя арифметическая, средняя квадра-тическая, средняя кубическая);

Структурные средние (мода, медиана).

Для вычисления степенных средних
необходимо использовать все имеющиеся значения признака. Мода
и медиана
определяются лишь структурой распределения, поэтому их называют структурными, позиционными средними. Медиану и моду часто используют как среднюю характеристику в тех совокупностях, где расчет средней степенной невозможен или нецелесообразен.

Самый распространенный вид средней величины – средняя арифметическая. Под средней арифметической
понимается такое значение признака, которое имела бы каждая единица совокупности, если бы общий итог всех значений признака был распределен равномерно между всеми единицами совокупности. Вычисление данной величины сводится к суммированию всех значений варьирующего признака и делению полученной суммы на общее количество единиц совокупности. Например, пять рабочих выполняли заказ на изготовление деталей, при этом первый изготовил 5 деталей, второй – 7, третий – 4, четвертый – 10, пятый– 12. Поскольку в исходных данных значение каждого варианта встречалось только один раз, для опреде-

ления средней выработки одного рабочего следует применить формулу простой средней арифметической:

т. е. в нашем примере средняя выработка одного рабочего равна

Наряду с простой средней арифметической изучают среднюю арифметическую взвешенную.
Например, рассчитаем средний возраст студентов в группе из 20 человек, возраст которых варьируется от 18 до 22 лет, где xi
– варианты осредняемого признака, fi
– частота, которая показывает, сколько раз встречается i-е
значение в совокупности (табл. 5.1).

Таблица 5.1

Средний возраст студентов

Применяя формулу средней арифметической взвешенной, получаем:

Для выбора средней арифметической взвешенной существует определенное правило: если имеется ряд данных по двум показателям, для одного из которых надо вычислить

среднюю величину, и при этом известны численные значения знаменателя ее логической формулы, а значения числителя неизвестны, но могут быть найдены как произведение этих показателей, то средняя величина должна высчитывать-ся по формуле средней арифметической взвешенной.

В некоторых случаях характер исходных статистических данных таков, что расчет средней арифметической теряет смысл и единственным обобщающим показателем может служить только другой вид средней величины – средняя гармоническая.
В настоящее время вычислительные свойства средней арифметической потеряли свою актуальность при расчете обобщающих статистических показателей в связи с повсеместным внедрением электронно-вычислительной техники. Большое практическое значение приобрела средняя гармоническая величина, которая тоже бывает простой и взвешенной. Если известны численные значения числителя логической формулы, а значения знаменателя неизвестны, но могут быть найдены как частное деление одного показателя на другой, то средняя величина вычисляется по формуле средней гармонической взвешенной.

Например, пусть известно, что автомобиль прошел первые 210 км со скоростью 70 км/ч, а оставшиеся 150 км со скоростью 75 км/ч. Определить среднюю скорость автомобиля на протяжении всего пути в 360 км, используя формулу средней арифметической, нельзя. Так как вариантами являются скорости на отдельных участках xj
= 70 км/ч и Х2
= 75 км/ч, а весами (fi) считаются соответствующие отрезки пути, то произведения вариантов на веса не будут иметь ни физического, ни экономического смысла. В данном случае смысл приобретают частные от деления отрезков пути на соответствующие скорости (варианты xi), т. е. затраты времени на прохождение отдельных участков пути (fi/
xi). Если отрезки пути обозначить через fi, то весь путь выразиться как?fi, а время, затраченное на весь путь, – как? fi/
xi ,
Тогда средняя скорость может быть найдена как частное от деления всего пути на общие затраты времени:

В нашем примере получим:

Если при использовании средней гармонической веса всех вариантов (f) равны, то вместо взвешенной можно использовать простую (невзвешенную) среднюю гармоническую:

где xi – отдельные варианты; n
– число вариантов осредняемого признака. В примере со скоростью простую среднюю гармоническую можно было бы применить, если бы были равны отрезки пути, пройденные с разной скоростью.

Любая средняя величина должна вычисляться так, чтобы при замене ею каждого варианта осредняемого признака не изменялась величина некоторого итогового, обобщающего показателя, который связан с осредняемым показателем. Так, при замене фактических скоростей на отдельных отрезках пути их средней величиной (средней скоростью) не должно измениться общее расстояние.

Форма (формула) средней величины определяется характером (механизмом) взаимосвязи этого итогового показателя с осредняемым, поэтому итоговый показатель, величина которого не должна изменяться при замене вариантов их средней величиной, называется определяющим показателем.
Для вывода формулы средней нужно составить и решить уравнение, используя взаимосвязь осредняемого показателя с определяющим. Это уравнение строится путем замены вариантов осредняемого признака (показателя) их средней величиной.

Кроме средней арифметической и средней гармонической в статистике используются и другие виды (формы) средней величины. Все они являются частными случаями степенной средней.
Если рассчитывать все виды степенных средних величин для одних и тех же данных, то значения

их окажутся одинаковыми, здесь действует правило мажо-рантности
средних. С увеличением показателя степени средних увеличивается и сама средняя величина. Наиболее часто применяемые в практических исследованиях формулы вычисления различных видов степенных средних величин представлены в табл. 5.2.

Таблица 5.2

Виды степенных средних

Средняя геометрическая применяется, когда имеется n
коэффициентов роста, при этом индивидуальные значения признака представляют собой, как правило, относительные величины динамики, построенные в виде цепных величин, как отношение к предыдущему уровню каждого уровня в ряду динамики. Средняя характеризует, таким образом, средний коэффициент роста. Средняя геометрическая простая
рассчитывается по формуле

Формула средней геометрической взвешенной
имеет следующий вид:

Приведенные формулы идентичны, но одна применяется при текущих коэффициентах или темпах роста, а вторая – при абсолютных значениях уровней ряда.

Средняя квадратическая
применяется при расчете с величинами квадратных функций, используется для измерения степени колеблемости индивидуальных значений признака вокруг средней арифметической в рядах распределения и вычисляется по формуле

Средняя квадратическая взвешенная
рассчитывается по другой формуле:

Средняя кубическая
применяется при расчете с величинами кубических функций и вычисляется по формуле

средняя кубическая взвешенная:

Все рассмотренные выше средние величины могут быть представлены в виде общей формулы:

где – средняя величина; – индивидуальное значение; n
– число единиц изучаемой совокупности; k
– показатель степени, определяющий вид средней.

При использовании одних и тех же исходных данных, чем больше k
в общей формуле степенной средней, тем больше средняя величина. Из этого следует, что между величинами степенных средних существует закономерное соотношение:

Средние величины, описанные выше, дают обобщенное представление об изучаемой совокупности и с этой точки зрения их теоретическое, прикладное и познавательное значение бесспорно. Но бывает, что величина средней не совпадает ни с одним из реально существующих вариантов, поэтому кроме рассмотренных средних в статистическом анализе целесообразно использовать величины конкретных вариантов, занимающие в упорядоченном (ранжированном) ряду значений признака вполне определенное положение. Среди таких величин наиболее употребительными являются структурные,
или описательные, средние
– мода (Мо) и медиана (Ме).

Мода
– величина признака, которая чаще всего встречается в данной совокупности. Применительно к вариационному ряду модой является наиболее часто встречающееся значение ранжированного ряда, т. е. вариант, обладающий наибольшей частотой. Мода может применяться при определении магазинов, которые чаще посещаются, наиболее распространенной цены на какой-либо товар. Она показывает размер признака, свойственный значительной части совокупности, и определяется по формуле

где х0 – нижняя граница интервала; h
– величина интервала; fm
– частота интервала; fm_
1 – частота предшествующего интервала; fm+
1 – частота следующего интервала.

Медианой
называется вариант, расположенный в центре ранжированного ряда. Медиана делит ряд на две равные части таким образом, что по обе стороны от нее находится одинаковое количество единиц совокупности. При этом у одной половины единиц совокупности значение варьирующего признака меньше медианы, у другой – больше ее. Медиана используется при изучении элемента, значение которого больше или равно или одновременно меньше или равно половине элементов ряда распределения. Медиана дает общее представление о том, где сосредоточены значения признака, иными словами, где находится их центр.

Описательный характер медианы проявляется в том, что она характеризует количественную границу значений варьирующего признака, которыми обладает половина единиц совокупности. Задача нахождения медианы для дискретного вариационного ряда решается просто. Если всем единицам ряда придать порядковые номера, то порядковый номер медианного варианта определяется как (п +1) / 2 с нечетным числом членов п. Если же количество членов ряда является четным числом, то медианой будет являться среднее значение двух вариантов, имеющих порядковые номера n
/ 2 и n
/ 2 + 1.

При определении медианы в интервальных вариационных рядах сначала определяется интервал, в котором она находится (медианный интервал). Этот интервал характерен тем, что его накопленная сумма частот равна или превышает полусумму всех частот ряда. Расчет медианы интервального вариационного ряда производится по формуле

где X0
– нижняя граница интервала; h
– величина интервала; fm
– частота интервала; f
– число членов ряда;

M-1
– сумма накопленных членов ряда, предшествующих данному.

Наряду с медианой для более полной характеристики структуры изучаемой совокупности применяют и другие значения вариантов, занимающих в ранжированном ряду вполне определенное положение. К ним относятся квартили
и децили.
Квартили делят ряд по сумме частот на 4 равные части, а децили – на 10 равных частей. Квартилей насчитывается три, а децилей – девять.

Медиана и мода в отличие от средней арифметической не погашают индивидуальных различий в значениях варьирующего признака и поэтому являются дополнительными и очень важными характеристиками статистической совокупности. На практике они часто используются вместо средней либо наряду с ней. Особенно целесообразно вычислять медиану и моду в тех случаях, когда изучаемая совокупность содержит некоторое количество единиц с очень большим или очень малым значением варьирующего признака. Эти, не очень характерные для совокупности значения вариантов, влияя на величину средней арифметической, не влияют на значения медианы и моды, что делает последние очень ценными для экономико-статистического анализа показателями.

В вычислении среднего значения теряется.

Среднее значение
набора чисел равно сумме чисел S, деленной на количество этих чисел. То есть получается, что среднее
значение
равно: 19/4 = 4.75.

Обратите внимание

Если потребуется найти среднее геометрическое всего для двух чисел, то инженерный калькулятор вам не понадобится: извлечь корень второй степени (квадратный корень) из любого числа можно при помощи самого обычного калькулятора.

Полезный совет

В отличие от среднего арифметического, на геометрическое среднее не так сильно влияют большие отклонения и колебания между отдельными значениями в исследуемом наборе показателей.

Источники:

  • Онлайн-калькулятор, рассчитывающий среднее геометрическое
  • среднее геометрическое формула

Среднее
значение – это одна из характеристик набора чисел. Представляет собой число, которое не может выходить за пределы диапазона, определяемого наибольшим и наименьшим значениями в этом наборе чисел. Среднее
арифметическое значение – наиболее часто используемая разновидность средних.

Инструкция

Сложите все числа множества и разделите их на количество слагаемых, чтобы получить среднее арифметическое значение. В зависимости от конкретных условий вычисления иногда проще делить каждое из чисел на количество значений множества и суммировать результат.

Используйте, например, входящий в состава ОС Windows , если вычислить среднее арифметическое значение в уме не представляется возможным. Открыть его можно с помощью диалога запуска программ. Для этого нажмите «горячие клавиши» WIN + R или щелкните кнопку «Пуск» и выберите в главном меню команду «Выполнить». Затем напечатайте в поле ввода calc и нажмите на Enter либо щелкните кнопку «OK». Это же можно сделать через главное меню – раскройте его, перейдите в раздел «Все программы» и в секции «Стандартные» и выберите строку «Калькулятор».

Введите последовательно все числа множества, нажимая после каждого из них (кроме последнего) клавишу «Плюс» или щелкая соответствующую кнопку в интерфейсе калькулятора. Вводить числа тоже можно как с клавиатуры, так и щелкая соответствующие кнопки интерфейса.

Нажмите клавишу с косой (слэш) или щелкните этот в интерфейсе калькулятора после ввода последнего значения множества и напечатайте количество чисел в последовательности. Затем нажмите знак равенства, и калькулятор рассчитает и покажет среднее арифметическое значение.

Можно для этой же цели использовать табличный редактор Microsoft Excel. В этом случае запустите редактор и введите в соседние ячейки все значения последовательности чисел. Если после ввода каждого числа вы будете нажимать Enter или клавишу со стрелкой вниз или вправо, то редактор сам будет перемещать фокус ввода в соседнюю ячейку.

Щелкните следующую за последним введенным числом ячейку, если вам не достаточно только увидеть среднее арифметическое значение. Раскройте выпадающий с изображением греческой сигма (Σ) команд «Редактирование» на вкладке «Главная». Выберите в нем строку «Среднее
» и редактор вставит нужную формулу для вычисления среднеарифметического значения в выделенную ячейку. Нажмите клавишу Enter, и значение будет рассчитано.

Среднее арифметическое – одна из мер центральной тенденции, широко используемая в математике и статистических расчетах. Найти среднее арифметическое число для нескольких значений очень просто, но у каждой задачи есть свои нюансы, знать которые для выполнения верных расчетов просто необходимо.

Что такое среднее арифметическое число

Среднее арифметическое число определяет усредненное значение для всего исходного массива чисел. Другими словами, из некоторого множества чисел выбирается общее для всех элементов значение, математическое сравнение которого со всеми элементами носит приближенно равный характер. Среднее арифметическое число используется, преимущественно, при составлении финансовых и статистических отчетов или для расчетов результатов проведенных подобных опытов.

Как найти среднее арифметическое число

Поиск среднего арифметического числа для массива чисел следует начинать с определения алгебраической суммы этих значений. К примеру, если в массиве присутствуют числа 23, 43, 10, 74 и 34, то их алгебраическая сумма будет равна 184. При записи среднее арифметическое обозначается буквой μ (мю) или x
(икс с чертой). Далее алгебраическую сумму следует разделить на количество чисел в массиве. В рассматриваемом примере чисел было пять, поэтому среднее арифметическое будет равно 184/5 и составит 36,8.

Особенности работы с отрицательными числами

Если в массиве присутствуют отрицательные числа, то нахождение среднего арифметического значения происходит по аналогичному алгоритму. Разница имеется только при рассчетах в среде программирования, или же если в задаче есть дополнительные условия. В этих случаях нахождение среднего арифметического чисел с разными знаками сводится к трем действиям:

1. Нахождение общего среднего арифметического числа стандартным методом;
2. Нахождение среднего арифметического отрицательным чисел.
3. Вычисление среднего арифметического положительных чисел.

Ответы каждого из действий записываются через запятую.

Натуральные и десятичные дроби

Если массив чисел представлен десятичными дробями, решение происходит по методу вычисления среднего арифметического целых чисел, но сокращение результата производится по требованиям задачи к точности ответа.

При работе с натуральными дробями их следует привести к общему знаменателю, который умножается на количество чисел в массиве. В числителе ответа будет сумма приведенных числителей исходных дробных элементов.

  • Инженерный калькулятор.

Инструкция

Учитывайте, что в общем случае среднее геометрическое чисел находится путем перемножения этих чисел и извлечения из них корня степени, которая соответствует количеству чисел. Например, если нужно найти среднее геометрическое пяти чисел, то из произведения нужно будет извлекать корень степени.

Для нахождения среднего геометрического двух чисел используйте основное правило. Найдите их произведение, после чего извлеките из него квадратный корень, поскольку числа два, что соответствует степени корня. Например, для того чтобы найти среднее геометрическое чисел 16 и 4, найдите их произведение 16 4=64. Из получившегося числа извлеките квадратный корень √64=8. Это и будет искомая величина. Обратите внимание на то, что среднее арифметическое этих двух чисел больше и равно 10. Если корень не извлекается нацело, произведите округление результата до нужного порядка.

Чтобы найти среднее геометрическое более чем двух чисел, тоже используйте основное правило. Для этого найдите произведение всех чисел, для которых нужно найти среднее геометрическое. Из полученного произведения извлеките корень степени, равной количеству чисел. Например, чтобы найти среднее геометрическое чисел 2, 4 и 64, найдите их произведение. 2 4 64=512. Поскольку нужно найти результат среднего геометрического трех чисел, что из произведения извлеките корень третей степени. Сделать это устно затруднительно, поэтому воспользуйтесь инженерным калькулятором. Для этого в нем есть кнопка “x^y”. Наберите число 512, нажмите кнопку “x^y”, после чего наберите число 3 и нажмите кнопку “1/х”, чтобы найти значение 1/3, нажмите кнопку “=”. Получим результат возведения 512 в степень 1/3, что соответствует корню третьей степени. Получите 512^1/3=8. Это и есть среднее геометрическое чисел 2,4 и 64.

С помощью инженерного калькулятора можно найти среднее геометрическое другим способом. Найдите на клавиатуре кнопку log. После этого возьмите логарифм для каждого из чисел, найдите их сумму и поделите ее на количество чисел. Из полученного числа возьмите антилогарифм. Это и будет среднее геометрическое чисел. Например, для того чтобы найти среднее геометрическое тех же чисел 2, 4 и 64, сделайте на калькуляторе набор операций. Наберите число 2, после чего нажмите кнопку log, нажмите кнопку “+”, наберите число 4 и снова нажмите log и “+”, наберите 64, нажмите log и “=”. Результатом будет число, равное сумме десятичных логарифмов чисел 2, 4 и 64. Полученное число разделите на 3, поскольку это количество чисел, по которым ищется среднее геометрическое. Из результата возьмите антилогарифм, переключив кнопку регистра, и используйте ту же клавишу log. В результате получится число 8, это и есть искомое среднее геометрическое.

В большинстве случаев данные концентрируются вокруг некоей центральной точки. Таким образом, чтобы описать любой набор данных, достаточно указать средне значение. Рассмотрим последовательно три числовые характеристики, которые используются для оценки среднего значения распределения: среднее арифметическое, медиана и мода.

Среднее арифметическое

Среднее арифметическое (часто называемое просто средним) – наиболее распространенная оценка среднего значения распределения. Она является результатом деления суммы всех наблюдаемых числовых величин на их количество. Для выборки, состоящей из чисел Х 1 , Х 2 , …, Х
n
, выборочное среднее (обозначаемое символом
) равно = (Х 1 + Х 2 + … + Х
n
) /
n
,
или

где – выборочное среднее, n
– объем выборки, X
i
– i-й элемент выборки.

Скачать заметку в формате или , примеры в формате

Рассмотрим вычисление среднего арифметического значения пятилетней среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска (рис. 1).

Рис. 1. Среднегодовая доходность 15 взаимных фондов с очень высоким уровнем риска

Выборочное среднее вычисляется следующим образом:

Это хороший доход, особенно по сравнению с 3–4% дохода, который получили вкладчики банков или кредитных союзов за тот же период времени. Если упорядочить значения доходности, то легко заметить, что восемь фондов имеют доходность выше, а семь – ниже среднего значения. Среднее арифметическое играет роль точки равновесия, так что фонды с низкими доходами уравновешивают фонды с высокими доходами. В вычислении среднего задействованы все элементы выборки. Ни одна из других оценок среднего значения распределения не обладает этим свойством.

Когда следует вычислять среднее арифметическое.
Поскольку среднее арифметическое зависит от всех элементов выборки, наличие экстремальных значений значительно влияет на результат. В таких ситуациях среднее арифметическое может исказить смысл числовых данных. Следовательно, описывая набор данных, содержащий экстремальные значения, необходимо указывать медиану либо среднее арифметическое и медиану. Например, если удалить из выборки доходность фонда RS Emerging Growth, выборочное среднее доходности 14 фондов уменьшится почти на 1% и составит 5,19%.

Медиана

Медиана представляет собой срединное значение упорядоченного массива чисел. Если массив не содержит повторяющихся чисел, то половина его элементов окажется меньше, а половина – больше медианы. Если выборка содержит экстремальные значения, для оценки среднего значения лучше использовать не среднее арифметическое, а медиану. Чтобы вычислить медиану выборки, ее сначала необходимо упорядочить.

Эта формула неоднозначна. Ее результат зависит от четности или нечетности числа n
:

  • Если выборка содержит нечетное количество элементов, медиана равна (n+1)/2
    -му элементу.
  • Если выборка содержит четное количество элементов, медиана лежит между двумя средними элементами выборки и равна среднему арифметическому, вычисленному по этим двум элементам.

Чтобы вычислить медиану выборки, содержащей данные о доходности 15 взаимных фондов с очень высокий уровнем риска, сначала необходимо упорядочить исходные данные (рис. 2). Тогда медиана будет напротив номера среднего элемента выборки; в нашем примере №8. В Excel есть специальная функция =МЕДИАНА(), которая работает и с неупорядоченными массивами тоже.

Рис. 2. Медиана 15 фондов

Таким образом, медиана равна 6,5. Это означает, что доходность одной половины фондов с очень высоким уровнем риска не превышает 6,5, а доходность второй половины – превышает ее. Обратите внимание на то, что медиана, равная 6,5, ненамного больше среднего значения, равного 6,08.

Если удалить из выборки доходность фонда RS Emerging Growth, то медиана оставшихся 14 фондов уменьшится до 6,2%, то есть не так значительно, как среднее арифметическое (рис. 3).

Рис. 3. Медиана 14 фондов

Мода

Термин был впервые введен Пирсоном в 1894 г. Мода – это число, которое чаще других встречается в выборке (наиболее модное). Мода хорошо описывает, например, типичную реакцию водителей на сигнал светофора о прекращении движения. Классический пример использования моды – выбор размера выпускаемой партии обуви или цвета обоев. Если распределение имеет несколько мод, то говорят, что оно мультимодально или многомодально (имеет два или более «пика»). Мультимодальность распределения дает важную информацию о природе исследуемой переменной. Например, в социологических опросах, если переменная представляет собой предпочтение или отношение к чему-то, то мультимодальность может означать, что существуют несколько определенно различных мнений. Мультимодальность также служит индикатором того, что выборка не является однородной и наблюдения, возможно, порождены двумя или более «наложенными» распределениями. В отличие от среднего арифметического, выбросы на моду не влияют. Для непрерывно распределенных случайных величин, например, для показателей среднегодовой доходности взаимных фондов, мода иногда вообще не существует (или не имеет смысла). Поскольку эти показатели могут принимать самые разные значения, повторяющиеся величины встречаются крайне редко.

Квартили

Квартили – это показатели, которые чаще всего используются для оценки распределения данных при описании свойств больших числовых выборок. В то время как медиана разделяет упорядоченный массив пополам (50% элементов массива меньше медианы и 50% – больше), квартили разбивают упорядоченный набор данных на четыре части. Величины Q 1 , медиана и Q 3 являются 25-м, 50-м и 75-м перцентилем соответственно. Первый квартиль Q 1 – это число, разделяющее выборку на две части: 25% элементов меньше, а 75% – больше первого квартиля.

Третий квартиль Q 3 – это число, разделяющее выборку также на две части: 75% элементов меньше, а 25% – больше третьего квартиля.

Для расчета квартилей в версиях Excel до 2007 г. использовалась функция =КВАРТИЛЬ(массив;часть). Начиная с версии Excel2010 применяются две функции:

  • =КВАРТИЛЬ.ВКЛ(массив;часть)
  • =КВАРТИЛЬ.ИСКЛ(массив;часть)

Эти две функции дают немного различные значения (рис. 4). Например, при вычислении квартилей выборки, содержащей данные о среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска Q 1 = 1,8 или –0,7 для КВАРТИЛЬ.ВКЛ и КВАРТИЛЬ.ИСКЛ, соответственно. Кстати функция КВАРТИЛЬ, использовавшаяся ранее соответствует современной функции КВАРТИЛЬ.ВКЛ. Для расчета квартилей в Excel с помощью вышеприведенных формул массив данных можно не упорядочивать.

Рис. 4. Вычисление квартилей в Excel

Подчеркнем еще раз. Excel умеет рассчитывать квартили для одномерного дискретного ряда
, содержащего значения случайной величины. Расчет квартилей для распределения на основе частот приведен ниже в разделе .

Среднее геометрическое

В отличие от среднего арифметического среднее геометрическое позволяет оценить степень изменения переменной с течением времени. Среднее геометрическое – это корень n
-й степени из произведения n
величин (в Excel используется функция =СРГЕОМ):


G
= (X 1 * X 2 * … * X n) 1/n

Похожий параметр – среднее геометрическое значение нормы прибыли – определяется формулой:

G = [(1 + R 1) * (1 + R 2) * … * (1 + R n)] 1/n – 1,

где R i
– норма прибыли за i
-й период времени.

Например, предположим, что объем вложенных средств в исходный момент времени равен 100 000 долл. К концу первого года он падает до уровня 50 000 долл., а к концу второго года восстанавливается до исходной отметки 100 000 долл. Норма прибыли этой инвестиции за двухлетний период равна 0, поскольку первоначальный и финальный объем средств равны между собой. Однако среднее арифметическое годовых норм прибыли равно = (–0,5 + 1) / 2 = 0,25 или 25%, поскольку норма прибыли в первый год R 1 = (50 000 – 100 000) / 100 000 = –0,5, а во второй R 2 = (100 000 – 50 000) / 50 000 = 1. В то же время, среднее геометрическое значение нормы прибыли за два года равно: G = [(1–0,5) * (1+1)] 1/2 – 1 = ½ – 1 = 1 – 1 = 0. Таким образом, среднее геометрическое точнее отражает изменение (точнее, отсутствие изменений) объема инвестиций за двухлетний период, чем среднее арифметическое.

Интересные факты.
Во-первых, среднее геометрическое всегда будет меньше среднего арифметического тех же чисел. За исключением случая, когда все взятые числа равны друг другу. Во-вторых, рассмотрев свойства прямоугольного треугольника, можно понять, почему среднее называется геометрическим. Высота прямоугольного треугольника, опущенная на гипотенузу, есть среднее пропорциональное между проекциями катетов на гипотенузу, а каждый катет есть среднее пропорциональное между гипотенузой и его проекцией на гипотенузу (рис. 5). Это даёт геометрический способ построения среднего геометрического двух (длин) отрезков: нужно построить окружность на сумме этих двух отрезков как на диаметре, тогда высота, восставленная из точки их соединения до пересечения с окружностью, даст искомую величину:

Рис. 5. Геометрическая природа среднего геометрического (рисунок из Википедии)

Второе важное свойство числовых данных – их вариация
, характеризующая степень дисперсии данных. Две разные выборки могут отличаться как средними значениями, так и вариациями. Однако, как показано на рис. 6 и 7, две выборки могут иметь одинаковые вариации, но разные средние значения, либо одинаковые средние значения и совершенно разные вариации. Данные, которым соответствует полигон В на рис. 7, изменяются намного меньше, чем данные, по которым построен полигон А.

Рис. 6. Два симметричных распределения колоколообразной формы с одинаковым разбросом и разными средними значениями

Рис. 7. Два симметричных распределения колоколообразной формы с одинаковыми средними значениями и разным разбросом

Существует пять оценок вариации данных:

  • размах,
  • межквартильный размах,
  • дисперсия,
  • стандартное отклонение,
  • коэффициент вариации.

Размах

Размахом называется разность между наибольшим и наименьшим элементами выборки:

Размах = Х
Max – Х
Min

Размах выборки, содержащей данные о среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска, можно вычислить, используя упорядоченный массив (см. рис. 4): Размах = 18,5 – (–6,1) = 24,6. Это значит, что разница между наибольшей и наименьшей среднегодовой доходностью фондов с очень высоким уровнем риска равна 24,6% .

Размах позволяет измерить общий разброс данных. Хотя размах выборки является весьма простой оценкой общего разброса данных, его слабость заключается в том, что он никак не учитывает, как именно распределены данные между минимальным и максимальным элементами. Этот эффект хорошо прослеживается на рис. 8, который иллюстрирует выборки, имеющие одинаковый размах. Шкала В демонстрирует, что если выборка содержит хотя бы одно экстремальное значение, размах выборки оказывается весьма неточной оценкой разброса данных.

Рис. 8. Сравнение трех выборок, имеющих одинаковый размах; треугольник символизирует опору весов, и его расположение соответствует среднему значению выборки

Межквартильный размах

Межквартильный, или средний, размах – это разность между третьим и первым квартилями выборки:

Межквартильный размах = Q 3 – Q 1

Эта величина позволяет оценить разброс 50% элементов и не учитывать влияние экстремальных элементов. Межквартильный размах выборки, содержащей данные о среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска, можно вычислить, используя данные на рис. 4 (например, для функции КВАРТИЛЬ.ИСКЛ): Межквартильный размах = 9,8 – (–0,7) = 10,5. Интервал, ограниченный числами 9,8 и –0,7, часто называют средней половиной.

Следует отметить, что величины Q 1 и Q 3 , а значит, и межквартильный размах, не зависят от наличия выбросов, поскольку при их вычислении не учитывается ни одна величина, которая была бы меньше Q 1 или больше Q 3 . Суммарные количественные характеристики, такие как медиана, первый и третий квартили, а также межквартильный размах, на которые не влияют выбросы, называются устойчивыми показателями.

Хотя размах и межквартильный размах позволяют оценить общий и средний разброс выборки соответственно, ни одна из этих оценок не учитывает, как именно распределены данные. Дисперсия и стандартное отклонение
лишены этого недостатка. Эти показатели позволяют оценить степень колебания данных вокруг среднего значения. Выборочная дисперсия
является приближением среднего арифметического, вычисленного на основе квадратов разностей между каждым элементом выборки и выборочным средним. Для выборки Х 1 , Х 2 , … Х n выборочная дисперсия (обозначаемая символом S 2 задается следующей формулой:

В общем случае выборочная дисперсия – это сумма квадратов разностей между элементами выборки и выборочным средним, деленная на величину, равную объему выборки минус один:

где
– арифметическое среднее, n
– объем выборки, X i
i
-й элемент выборки X
. В Excel до версии 2007 для расчета выборочной дисперсии использовалась функция =ДИСП(), с версии 2010 используется функция =ДИСП.В().

Наиболее практичной и широко распространенной оценкой разброса данных является стандартное выборочное отклонение
. Этот показатель обозначается символом S и равен квадратному корню из выборочной дисперсии:

В Excel до версии 2007 для расчета стандартного выборочного отклонения использовалась функция =СТАНДОТКЛОН(), с версии 2010 используется функция =СТАНДОТКЛОН.В(). Для расчета этих функций массив данных может быть неупорядоченным.

Ни выборочная дисперсия, ни стандартное выборочное отклонение не могут быть отрицательными. Единственная ситуация, в которой показатели S 2 и S могут быть нулевыми, – если все элементы выборки равны между собой. В этом совершенно невероятном случае размах и межквартильный размах также равны нулю.

Числовые данные по своей природе изменчивы. Любая переменная может принимать множество разных значений. Например, разные взаимные фонды имеют разные показатели доходности и убытков. Вследствие изменчивости числовых данных очень важно изучать не только оценки среднего значения, которые по своей природе являются суммарными, но и оценки дисперсии, характеризующие разброс данных.

Дисперсия и стандартное отклонение позволяют оценить разброс данных вокруг среднего значения, иначе говоря, определить, сколько элементов выборки меньше среднего, а сколько – больше. Дисперсия обладает некоторыми ценными математическими свойствами. Однако ее величина представляет собой квадрат единицы измерения – квадратный процент, квадратный доллар, квадратный дюйм и т.п. Следовательно, естественной оценкой дисперсии является стандартное отклонение, которое выражается в обычных единицах измерений – процентах дохода, долларах или дюймах.

Стандартное отклонение позволяет оценить величину колебаний элементов выборки вокруг среднего значения. Практически во всех ситуациях основное количество наблюдаемых величин лежит в интервале плюс-минус одно стандартное отклонение от среднего значения. Следовательно, зная среднее арифметическое элементов выборки и стандартное выборочное отклонение, можно определить интервал, которому принадлежит основная масса данных.

Стандартное отклонение доходности 15 взаимных фондов с очень высоким уровнем риска равно 6,6 (рис. 9). Это значит, что доходность основной массы фондов отличается от среднего значения не более чем на 6,6% (т.е. колеблется в интервале от – S
= 6,2 – 6,6 = –0,4 до + S
= 12,8). Фактически в этом интервале лежит пятилетняя среднегодовая доходность 53,3% (8 из 15) фондов.

Рис. 9. Стандартное выборочное отклонение

Обратите внимание на то, что в процессе суммирования квадратов разностей элементы выборки, лежащие дальше от среднего значения, приобретают больший вес, чем элементы, лежащие ближе. Это свойство является основной причиной того, что для оценки среднего значения распределения чаще всего используется среднее арифметическое значение.

Коэффициент вариации

В отличие от предыдущих оценок разброса, коэффициент вариации является относительной оценкой. Он всегда измеряется в процентах, а не в единицах измерения исходных данных. Коэффициент вариации, обозначаемый символами CV, измеряет рассеивание данных относительно среднего значения. Коэффициент вариации равен стандартному отклонению, деленному на среднее арифметическое и умноженному на 100%:

где S
– стандартное выборочное отклонение,
– выборочное среднее.

Коэффициент вариации позволяет сравнить две выборки, элементы которых выражаются в разных единицах измерения. Например, управляющий службы доставки корреспонденции намеревается обновить парк грузовиков. При погрузке пакетов следует учитывать два вида ограничений: вес (в фунтах) и объем (в кубических футах) каждого пакета. Предположим, что в выборке, содержащей 200 пакетов, средний вес равен 26,0 фунтов, стандартное отклонение веса 3,9 фунтов, средний объем пакета 8,8 кубических футов, а стандартное отклонение объема 2,2 кубических фута. Как сравнить разброс веса и объема пакетов?

Поскольку единицы измерения веса и объема отличаются друг от друга, управляющий должен сравнить относительный разброс этих величин. Коэффициент вариации веса равен CV W = 3,9 / 26,0 * 100% = 15%, а коэффициент вариации объема CV V = 2,2 / 8,8 * 100% = 25% . Таким образом, относительный разброс объема пакетов намного больше относительного разброса их веса.

Форма распределения

Третье важное свойство выборки – форма ее распределения. Это распределение может быть симметричным или асимметричным. Чтобы описать форму распределения, необходимо вычислить его среднее значение и медиану. Если эти два показателя совпадают, переменная считается симметрично распределенной. Если среднее значение переменной больше медианы, ее распределение имеет положительную асимметрию (рис. 10). Если медиана больше среднего значения, распределение переменной имеет отрицательную асимметрию. Положительная асимметрия возникает, когда среднее значение увеличивается до необычайно высоких значений. Отрицательная асимметрия возникает, когда среднее значение уменьшается до необычайно малых значений. Переменная является симметрично распределенной, если она не принимает никаких экстремальных значений ни в одном из направлений, так что большие и малые значения переменной уравновешивают друг друга.

Рис. 10. Три вида распределений

Данные, изображенные на шкале А, имеют отрицательную асимметрию. На этом рисунке виден длинный хвост и перекос влево, вызванные наличием необычно малых значений. Эти крайне малые величины смещают среднее значение влево, и оно становится меньше медианы. Данные, изображенные на шкале Б, распределены симметрично. Левая и правая половины распределения являются своими зеркальными отражениями. Большие и малые величины уравновешивают друг друга, а среднее значение и медиана равны между собой. Данные, изображенные на шкале В, имеют положительную асимметрию. На этом рисунке виден длинный хвост и перекос вправо, вызванные наличием необычайно высоких значений. Эти слишком большие величины смещают среднее значение вправо, и оно становится больше медианы.

В Excel описательные статистики можно получить с помощью надстройки Пакет анализа
. Пройдите по меню Данные
Анализ данных
, в открывшемся окне выберите строку Описательная статистика
и кликните Ok
. В окне Описательная статистика
обязательно укажите Входной интервал
(рис. 11). Если вы хотите увидеть описательные статистики на том же листе, что и исходные данные, выберите переключатель Выходной интервал
и укажите ячейку, куда следует поместить левый верхний угол выводимых статистик (в нашем примере $C$1). Если вы хотите вывести данные на новый лист или в новую книгу, достаточно просто выбрать соответствующий переключатель. Поставьте галочку напротив Итоговая статистика
. По желанию также можно выбрать Уровень сложности,
k-й наименьший и
k-й наибольший
.

Если на вкладе Данные
в области Анализ
у вас не отображается пиктограмма Анализ данных
, нужно предварительно установить надстройку Пакет анализа
(см., например, ).

Рис. 11. Описательные статистики пятилетней среднегодовой доходности фондов с очень высоким уровнями риска, вычисленные с помощью надстройки Анализ данных
программы Excel

Excel вычисляет целый ряд статистик, рассмотренных выше: среднее, медиану, моду, стандартное отклонение, дисперсию, размах (интервал
), минимум, максимум и объем выборки (счет
). Кроме того, Excel вычисляет некоторые новые для нас статистики: стандартную ошибку, эксцесс и асимметричность. Стандартная ошибка
равна стандартному отклонению, деленному на квадратный корень объема выборки. Асимметричность
характеризует отклонение от симметричности распределения и является функцией, зависящей от куба разностей между элементами выборки и средним значением. Эксцесс представляет собой меру относительной концентрации данных вокруг среднего значения по сравнению с хвостами распределения и зависит от разностей между элементами выборки и средним значением, возведенных в четвертую степень.

Вычисление описательных статистик для генеральной совокупности

Среднее значение, разброс и форма распределения, рассмотренные выше, представляют собой характеристики, определяемые по выборке. Однако, если набор данных содержит числовые измерения всей генеральной совокупности, можно вычислить ее параметры. К числу таких параметров относятся математическое ожидание, дисперсия и стандартное отклонение генеральной совокупности.

Математическое ожидание
равно сумме всех значений генеральной совокупности, деленной на объем генеральной совокупности:

где µ
– математическое ожидание, X
i
i
-е наблюдение переменной X
, N
– объем генеральной совокупности. В Excel для вычисления математического ожидания используется та же функция, что и для среднего арифметического: =СРЗНАЧ().

Дисперсия генеральной совокупности
равна сумме квадратов разностей между элементами генеральной совокупности и мат. ожиданием, деленной на объем генеральной совокупности:

где σ 2
– дисперсия генеральной совокупности. В Excel до версии 2007 для вычисления дисперсии генеральной совокупности используется функция =ДИСПР(), начиная с версии 2010 =ДИСП.Г().

Стандартное отклонение генеральной совокупности
равно квадратному корню, извлеченному из дисперсии генеральной совокупности:

В Excel до версии 2007 для вычисления стандартного отклонения генеральной совокупности используется функция =СТАНДОТКЛОНП(), начиная с версии 2010 =СТАНДОТКЛОН.Г(). Обратите внимание на то, что формулы для дисперсии и стандартного отклонения генеральной совокупности отличаются от формул для вычисления выборочной дисперсии и стандартного отклонения. При вычислении выборочных статистик S 2
и S
знаменатель дроби равен n – 1
, а при вычислении параметров σ 2
и σ
– объему генеральной совокупности N
.

Эмпирическое правило

В большинстве ситуаций крупная доля наблюдений концентрируется вокруг медианы, образуя кластер. В наборах данных, имеющих положительную асимметрию, этот кластер расположен левее (т.е. ниже) математического ожидания, а в наборах, имеющих отрицательную асимметрию, этот кластер расположен правее (т.е. выше) математического ожидания. У симметричных данных математическое ожидание и медиана совпадают, а наблюдения концентрируются вокруг математического ожидания, формируя колоколообразное распределение. Если распределение не имеет ярко выраженной асимметрии, а данные концентрируются вокруг некоего центра тяжести, для оценки изменчивости можно применять эмпирическое правило, которое гласит: если данные имеют колоколообразное распределение, то приблизительно 68% наблюдений отстоят от математического ожидания не более чем на одно стандартное отклонение, приблизительно 95% наблюдений отстоят от математического ожидания не более чем на два стандартных отклонения и 99,7% наблюдений отстоят от математического ожидания не более чем на три стандартных отклонения.

Таким образом, стандартное отклонение, представляющее собой оценку среднего колебания вокруг математического ожидания, помогает понять, как распределены наблюдения, и идентифицировать выбросы. Из эмпирического правила следует, что для колоколообразных распределений лишь одно значение из двадцати отличается от математического ожидания больше, чем на два стандартных отклонения. Следовательно, значения, лежащие за пределами интервала µ ± 2σ
, можно считать выбросами. Кроме того, только три из 1000 наблюдений отличаются от математического ожидания больше чем на три стандартных отклонения. Таким образом, значения, лежащие за пределами интервала µ ± 3σ
практически всегда являются выбросами. Для распределений, имеющих сильную асимметрию или не имеющих колоколообразной формы, можно применять эмпирическое правило Бьенамэ-Чебышева.

Более ста лет назад математики Бьенамэ и Чебышев независимо друг от друга открыли полезное свойство стандартного отклонения. Они обнаружили, что для любого набора данных, независимо от формы распределения, процент наблюдений, лежащих на расстоянии не превышающем k
стандартных отклонений от математического ожидания, не меньше (1 – 1/
k 2)*100%
.

Например, если k
= 2, правило Бьенамэ-Чебышева гласит, что как минимум (1 – (1/2) 2) х 100% = 75% наблюдений должно лежать в интервале µ ± 2σ
. Это правило справедливо для любого k
, превышающего единицу. Правило Бьенамэ-Чебышева носит весьма общий характер и справедливо для распределений любого вида. Оно указывает минимальное количество наблюдений, расстояние от которых до математического ожидания не превышает заданной величины. Однако, если распределение имеет колоколообразную форму, эмпирическое правило более точно оценивает концентрацию данных вокруг математического ожидания.

Вычисление описательных статистик для распределения на основе частот

Если исходные данные недоступны, единственным источником информации становится распределение частот. В таких ситуациях можно вычислить приближенные значения количественных показателей распределения, таких как среднее арифметическое, стандартное отклонение, квартили.

Если выборочные данные представлены в виде распределения частот, приближенное значение среднего арифметического можно вычислить, предполагая, что все значения внутри каждого класса сосредоточены в средней точке класса:

где
– выборочное среднее, n
– количество наблюдений, или объем выборки, с
– количество классов в распределении частот, m j
– средняя точка j
-гo класса, f
j
– частота, соответствующая j
-му классу.

Для вычисления стандартного отклонения по распределению частот также предполагается, что все значения внутри каждого класса сосредоточены в средней точке класса.

Чтобы понять, как определяются квартили ряда на основе частот, рассмотрим расчет нижнего квартиля на основе данных за 2013 г. о распределении населения России по величине среднедушевых денежных доходов (рис. 12).

Рис. 12. Доля населения России со среднедушевыми денежными доходами в среднем за месяц, рублей

Для расчета первого квартиля интервального вариационного ряда можно воспользоваться формулой:

где Q1 – величина первого квартиля, хQ1 – нижняя граница интервала, содержащего первый квартиль (интервал определяется по накопленной частоте, первой превышающей 25%); i – величина интервала; Σf – сумма частот всей выборки; наверное, всегда равна 100%; SQ1–1 – накопленная частота интервала, предшествующего интервалу, содержащему нижний квартиль; fQ1 – частота интервала, содержащего нижний квартиль. Формула для третьего квартиля отличается тем, что во всех местах вместо Q1 нужно использовать Q3, а вместо ¼ подставить ¾.

В нашем примере (рис. 12) нижний квартиль находится в интервале 7000,1 – 10 000, накопленная частота которого равна 26,4%. Нижняя граница этого интервала – 7000 руб., величина интервала – 3000 руб., накопленная частота интервала, предшествующего интервалу, содержащему нижний квартиль – 13,4%, частота интервала, содержащего нижний квартиль – 13,0%. Таким образом: Q1 = 7000 + 3000 * (¼ * 100 – 13,4) / 13 = 9677 руб.

Ловушки, связанные с описательными статистиками

В этой заметке мы рассмотрели, как описать набор данных с помощью различных статистик, оценивающих его среднее значение, разброс и вид распределения. Следующим этапом является анализ и интерпретация данных. До сих пор мы изучали объективные свойства данных, а теперь переходим к их субъективной трактовке. Исследователя подстерегают две ошибки: неверно выбранный предмет анализа и неправильная интерпретация результатов.

Анализ доходности 15 взаимных фондов с очень высоким уровнем риска является вполне беспристрастным. Он привел к совершенно объективным выводам: все взаимные фонды имеют разную доходность, разброс доходности фондов колеблется от –6,1 до 18,5, а средняя доходность равна 6,08. Объективность анализа данных обеспечивается правильным выбором суммарных количественных показателей распределения. Было рассмотрено несколько способов оценки среднего значения и разброса данных, указаны их преимущества и недостатки. Как же выбрать правильную статистику, обеспечивающую объективный и беспристрастный анализ? Если распределение данных имеет небольшую асимметрию, следует ли выбирать медиану, а не среднее арифметическое? Какой показатель более точно характеризует разброс данных: стандартное отклонение или размах? Следует ли указывать на положительную асимметрию распределения?

С другой стороны, интерпретация данных является субъективным процессом. Разные люди приходят к разным выводам, истолковывая одни и те же результаты. У каждого своя точка зрения. Кто-то считает суммарные показатели среднегодовой доходности 15 фондов с очень высоким уровнем риска хорошими и вполне доволен полученным доходом. Другим может показаться, что эти фонды имеют слишком низкую доходность. Таким образом, субъективность следует компенсировать честностью, нейтральностью и ясностью выводов.

Этические проблемы

Анализ данных неразрывно связан с этическими вопросами. Следует критически относиться к информации, распространяемой газетами, радио, телевидением и Интерентом. Со временем вы научитесь скептически относиться не только к результатам, но и к целям, предмету и объективности исследований. Лучше всего об этом сказал известный британский политик Бенджамин Дизраэли: «Существуют три вида лжи: ложь, наглая ложь и статистика».

Как было отмечено в заметке этические проблемы возникают при выборе результатов, которые следует привести в отчете. Следует публиковать как положительные, так и отрицательные результаты. Кроме того, делая доклад или письменный отчет, результаты необходимо излагать честно, нейтрально и объективно. Следует различать неудачную и нечестную презентации. Для этого необходимо определить, каковы были намерения докладчика. Иногда важную информацию докладчик пропускает по невежеству, а иногда – умышленно (например, если он применяет среднее арифметическое для оценки среднего значения явно асимметричных данных, чтобы получить желаемый результат). Нечестно также замалчивать результаты, которые не соответствуют точке зрения исследователя.

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 178–209

Функция КВАРТИЛЬ оставлена для совмещения с более ранними версиями Excel

Каждый человек в современном мире, планируя взять кредит или делая запасы овощей на зиму, периодически сталкивает с таким понятием, как «средняя величина». Давайте узнаем: что это такое, какие ее виды и классы существуют и зачем она применяется в статистике и других дисциплинах.

Средняя величина – это что такое?

Подобное название (СВ) носит обобщенная характеристика совокупности однородных явлений, определяемая по какому-либо одному количественному варьируемому признаку.

Однако люди далекие, от столь заумных определений, понимают это понятие, как среднее количество чего-то. Например, прежде чем взять кредит, сотрудник банка обязательно попросит потенциального клиента предоставить данные о среднем доходе за год, то есть общую сумму зарабатываемых человеком средств. Она вычисляется путем суммирования заработанного за весь год и разделения на количество месяцев. Таким образом, банк сможет определить, сумеет ли его клиент отдать долг в срок.

Зачем она используется?

Как правило, средние величины широко применяются для того, чтобы дать итоговую характеристику определенных общественных явлений, носящих массовый характер. Также они могут быть использованы для менее масштабных расчетов, как в случае с кредитом, в приведенном выше примере.

Однако чаще всего средние величины все же применяются для глобальных целей. В качестве примера одного из них можно привести вычисление количества потребляемой гражданами электроэнергии на протяжении одного календарного месяца. На основе полученных данных в дальнейшем устанавливаются максимальные нормы для категорий населения, пользующихся льготами от государства.

Также с помощью средних величин разрабатывается гарантийный срок службы тех или иных бытовых приборов, автомобилей, зданий и т. п. На основе собранных таким способом данных когда-то были разработаны современные нормы труда и отдыха.

Фактически любое явление современной жизни, носящее массовый характер, тем или иным образом обязательно связано с рассматриваемым понятием.

Сферы применения

Данное явление широко применяется практически во всех точных науках, особенно носящих экспериментальный характер.

Поиск среднего имеет огромное значение в медицине, инженерных дисциплинах, кулинарии, экономике, политике и т. п.

Основываясь на данных, полученных от подобных обобщений, разрабатывают лечебные препараты, учебные программы, устанавливают минимальные прожиточные минимумы и зарплаты, строят учебные графики, производят мебель, одежду и обувь, предметы гигиены и многое другое.

В математике данный термин именуется «средним значением» и применяется для осуществления решений различных примеров и задач. Наиболее простыми из них являются сложение и вычитание с обычными дробями. Ведь, как известно, для решения подобных примеров необходимо привести обе дроби к общему знаменателю.

Также в царице точных наук часто применяется близкий по смыслу термин «значение среднее случайной величины». Большинству он более знаком как «математическое ожидание», чаще рассматриваемое в теории вероятности. Стоит отметить, что подобное явление также применяется и при произведении статистических вычислений.

Средняя величина в статистике

Однако чаще всего изучаемое понятие используется в статистике. Как известно, эта наука сама по себе специализируется на вычислении и анализе количественной характеристики массовых общественных явлений. Поэтому средняя величина в статистике используется в качестве специализированного метода достижения ее основных задач – сбора и анализа информации.

Суть данного статистического метода заключается в замене индивидуальных уникальных значений рассматриваемого признака определенной уравновешенной средней величиной.

В качестве примера можно привести знаменитую шутку о еде. Итак, на неком заводе по вторникам на обед его начальство обычно ест мясную запеканку, а простые рабочие – тушеную капусту. На основе этих данных можно сделать вывод, что в среднем коллектив завода по вторникам обедает голубцами.

Хотя данный пример слегка утрирован, однако он иллюстрирует главный недостаток метода поиска средней величины – нивелирование индивидуальных особенностей предметов или личностей.

В средних величин применяются не только для анализа собранной информации, но и для планирования и прогнозирования дальнейших действий.

Также с его помощью производится оценка достигнутых результатов (например, выполнение плана по выращиванию и сбору урожая пшеницы за весенне-летний сезон).

Как правильно рассчитать

Хотя в зависимости от вида СВ существуют разные формулы ее вычисления, в общей теории статистики, как правило, применяется всего один способ расчета средней величины признака. Для этого нужно сначала сложить вместе значения всех явлений, а затем разделить получившуюся сумму на их количество.

При произведении подобных вычислений стоит помнить, что средняя величина всегда имеет ту же размерность (или единицы измерения), что и отдельная единица совокупности.

Условия правильного вычисления

Рассмотренная выше формула весьма проста и универсальна, так что ошибиться в ней практически невозможно. Однако всегда стоит учитывать два аспекта, иначе полученные данные не будут отражать реальную ситуацию.

Классы СВ

Найдя ответы на основные вопросы: “Средняя величина – это что такое?”, “Где применяется она?” и “Как можно вычислить ее?”, стоит узнать, какие классы и виды СВ существуют.

Прежде всего это явление делится на 2 класса. Это структурные и степенные средние величины.

Виды степенных СВ

Каждый из вышеперечисленных классов, в свою очередь, делится на виды. У степенного класса их четыре.

  • Средняя арифметическая величина – это наиболее распространенный вид СВ. Она являет собою среднее слагаемое, при определении коего общий объем рассматриваемого признака в совокупности данных поровну распределяется между всеми единицами данной совокупности.

    Этот вид делится на подвиды: простая и взвешенная арифметическая СВ.

  • Средняя гармоническая величина – это показатель, обратный средней арифметической простой, вычисляемый из обратных значений рассматриваемого признака.

    Она применяется в тех случаях, когда известны индивидуальные значения признака и произведение, а данные частоты – нет.

  • Средняя геометрическая величина чаще всего применима при анализе темпов роста экономических явлений. Она дает возможность сохранять в неизменном виде произведение индивидуальных значений данной величины, а не сумму.

    Также бывает простой и взвешенной.

  • Средняя квадратическая величина используется при расчете отдельных показателе показателей, таких как коэффициент вариации, характеризующего ритмичность выпуска продукции и т. п.

    Также с ее помощью вычисляются средние диаметры труб, колес, средние стороны квадрата и подобных фигур.

    Как и все остальные виды средних СВ, среднеквадратическая бывает простой и взвешенной.

Виды структурных величин

Помимо средних СВ, в статистике довольно часто используются структурные виды. Они лучше подходят для расчета относительных характеристик величин варьирующего признака и внутреннего строения рядов распределения.

Таких видов существует два.

Средние величины относятся к обобщающим статистическим показателям, которые дают сводную (итоговую) характеристику массовых общественных явлений, так как строятся на основе большого количества индивидуальных значений варьирующего признака. Для выяснения сущности средней величины необходимо рассмотреть особенности формирования значений признаков тех явлений, по данным которых исчисляют среднюю величину.

Известно, что единицы каждого массового явления обладают многочисленными признаками. Какой бы из этих признаков мы ни взяли, его значения у отдельных единиц будут различными, они изменяются, или, как говорят в статистике , варьируют от одной единицы к другой. Так, например, заработная плата работника определяется его квалификацией, характером труда, стажем работы и целым рядом других факторов, поэтому изменяется в весьма широких пределах. Совокупное влияние всех факторов определяет размер заработка каждого работника, тем не менее можно говорить о среднемесячной заработной плате работников разных отраслей экономики . Здесь мы оперируем типичным, характерным значением варьирующего признака, отнесенным к единице многочисленной совокупности.

Средняя величина отражает то общее,
что характерно для всех единиц изучаемой совокупности. В то же время она уравновешивает влияние всех факторов, действующих на величину признака отдельных единиц совокупности, как бы взаимно погашая их. Уровень (или размер) любого общественного явления обусловлен действием двух групп факторов. Одни из них являются общими и главными, постоянно действующими, тесно связанными с природой изучаемого явления или процесса, и формируют то типичное
для всех единиц изучаемой совокупности, которое и отражается в средней величине. Другие являются индивидуальными,
их действие выражено слабее и носит эпизодический, случайный характер. Они действуют в обратном направлении, обусловливают различия между количественными признаками отдельных единиц совокупности, стремясь изменить постоянную величину изучаемых признаков. Действие индивидуальных признаков погашается в средней величине. В совокупном влиянии типичных и индивидуальных факторов, которое уравновешивается и взаимно погашается в обобщающих характеристиках, проявляется в общем виде известный из математической статистики фундаментальный закон больших чисел.

В совокупности индивидуальные значения признаков сливаются в общую массу и как бы растворяются. Отсюда и средняя величина
выступает как «обезличенная», которая может отклоняться от индивидуальных значений признаков, не совпадая количественно ни с одним из них. Средняя величина отражает общее, характерное и типичное для всей совокупности благодаря взаимопогашению в ней случайных, нетипичных различий между признаками отдельных ее единиц, так как ее величина определяется как бы общей равнодействующей из всех причин.

Однако для того, чтобы средняя величина отражала наиболее типичное значение признака, она должна определяться не для любых совокупностей, а только для совокупностей, состоящих из качественно однородных единиц. Это требование является основным условием научно обоснованного применения средних величин и предполагает тесную связь метода средних величин и метода группировок в анализе социально-экономических явлений. Следовательно, средняя величина – это обобщающий показатель, характеризующий типичный уровень варьирующего признака в расчете на единицу однородной совокупности в конкретных условиях места и времени.

Определяя, таким образом, сущность средних величин, необходимо подчеркнуть, что правильное исчисление любой средней величины предполагает выполнение следующих требований:

  • качественная однородность совокупности, по которой вычислена средняя величина. Это означает, что исчисление средних величин должно основываться на методе группировок, обеспечивающем выделение однородных, однотипных явлений;
  • исключение влияния на вычисление средней величины случайных, сугубо индивидуальных причин и факторов. Это достигается в том случае, когда вычисление средней основывается на достаточно массовом материале, в котором проявляется действие закона больших чисел, и все случайности взаимно погашаются;
  • при вычислении средней величины важно установить цель ее расчета и так называемый определяющий показа-телъ
    (свойство), на который она должна быть ориентирована.

Определяющий показатель может выступать в виде суммы значений осредняемого признака, суммы его обратных значений, произведения его значений и т. п. Связь между определяющим показателем и средней величиной выражается в следующем: если все значения осредняемого признака заменить средним значением, то их сумма или произведение в этом случае не изменит определяющего показателя. На основе этой связи определяющего показателя со средней величиной строят исходное количественное отношение для непосредственного расчета средней величины. Способность средних величин сохранять свойства статистических совокупностей называют определяющим свойством.

Средняя величина, рассчитанная в целом по совокупности, называется общей средней;
средние величины, рассчитанные для каждой группы, – групповыми средними.
Общая средняя отражает общие черты изучаемого явления, групповая средняя дает характеристику явления, складывающуюся в конкретных условиях данной группы.

Способы расчета могут быть разные, поэтому в статистике различают несколько видов средней величины, основными из которых являются средняя арифметическая, средняя гармоническая и средняя геометрическая.

В экономическом анализе использование средних величин является основным инструментом для оценки результатов научно-технического прогресса, социальных мероприятий, поиска резервов развития экономики. В то же время следует помнить о том, что чрезмерное увлечение средними показателями может привести к необъективным выводам при проведении экономико-статистического анализа. Это связано с тем, что средние величины, будучи обобщающими показателями, погашают, игнорируют те различия в количественных признаках отдельных единиц совокупности, которые реально существуют и могут представлять самостоятельный интерес.

Виды средних величин

В статистике используют различные виды средних величин, которые делятся на два больших класса:

  • степенные средние (средняя гармоническая, средняя геометрическая, средняя арифметическая, средняя квадра-тическая, средняя кубическая);
  • структурные средние (мода, медиана).

Для вычисления степенных средних
необходимо использовать все имеющиеся значения признака. Мода
и медиана
определяются лишь структурой распределения, поэтому их называют структурными, позиционными средними. Медиану и моду часто используют как среднюю характеристику в тех совокупностях, где расчет средней степенной невозможен или нецелесообразен.

Самый распространенный вид средней величины – средняя арифметическая. Под средней арифметической
понимается такое значение признака, которое имела бы каждая единица совокупности, если бы общий итог всех значений признака был распределен равномерно между всеми единицами совокупности. Вычисление данной величины сводится к суммированию всех значений варьирующего признака и делению полученной суммы на общее количество единиц совокупности. Например, пять рабочих выполняли заказ на изготовление деталей, при этом первый изготовил 5 деталей, второй – 7, третий – 4, четвертый – 10, пятый- 12. Поскольку в исходных данных значение каждого варианта встречалось только один раз, для определения средней выработки одного рабочего следует применить формулу простой средней арифметической:

т. е. в нашем примере средняя выработка одного рабочего равна

Наряду с простой средней арифметической изучают среднюю арифметическую взвешенную.
Например, рассчитаем средний возраст студентов в группе из 20 человек , возраст которых варьируется от 18 до 22 лет, где xi
– варианты осредняемого признака, fi
– частота, которая показывает, сколько раз встречается i-е
значение в совокупности (табл. 5.1).

Таблица 5.1

Средний возраст студентов

Применяя формулу средней арифметической взвешенной, получаем:

Для выбора средней арифметической взвешенной существует определенное правило: если имеется ряд данных по двум показателям, для одного из которых надо вычислить

среднюю величину, и при этом известны численные значения знаменателя ее логической формулы, а значения числителя неизвестны, но могут быть найдены как произведение этих показателей, то средняя величина должна высчитывать-ся по формуле средней арифметической взвешенной.

В некоторых случаях характер исходных статистических данных таков, что расчет средней арифметической теряет смысл и единственным обобщающим показателем может служить только другой вид средней величины – средняя гармоническая.
В настоящее время вычислительные свойства средней арифметической потеряли свою актуальность при расчете обобщающих статистических показателей в связи с повсеместным внедрением электронно-вычислительной техники. Большое практическое значение приобрела средняя гармоническая величина, которая тоже бывает простой и взвешенной. Если известны численные значения числителя логической формулы, а значения знаменателя неизвестны, но могут быть найдены как частное деление одного показателя на другой, то средняя величина вычисляется по формуле средней гармонической взвешенной.

Например, пусть известно, что автомобиль прошел первые 210 км со скоростью 70 км/ч, а оставшиеся 150 км со скоростью 75 км/ч. Определить среднюю скорость автомобиля на протяжении всего пути в 360 км, используя формулу средней арифметической, нельзя. Так как вариантами являются скорости на отдельных участках xj
= 70 км/ч и Х2
= 75 км/ч, а весами (fi) считаются соответствующие отрезки пути, то произведения вариантов на веса не будут иметь ни физического, ни экономического смысла. В данном случае смысл приобретают частные от деления отрезков пути на соответствующие скорости (варианты xi), т. е. затраты времени на прохождение отдельных участков пути (fi/
xi). Если отрезки пути обозначить через fi, то весь путь выразиться как Σfi, а время, затраченное на весь путь, – как Σ fi/
xi ,
Тогда средняя скорость может быть найдена как частное от деления всего пути на общие затраты времени:

В нашем примере получим:

Если при использовании средней гармонической веса всех вариантов (f) равны, то вместо взвешенной можно использовать простую (невзвешенную) среднюю гармоническую:

где xi – отдельные варианты; n
– число вариантов осредняемого признака. В примере со скоростью простую среднюю гармоническую можно было бы применить, если бы были равны отрезки пути, пройденные с разной скоростью.

Любая средняя величина должна вычисляться так, чтобы при замене ею каждого варианта осредняемого признака не изменялась величина некоторого итогового, обобщающего показателя, который связан с осредняемым показателем. Так, при замене фактических скоростей на отдельных отрезках пути их средней величиной (средней скоростью) не должно измениться общее расстояние.

Форма (формула) средней величины определяется характером (механизмом) взаимосвязи этого итогового показателя с осредняемым, поэтому итоговый показатель, величина которого не должна изменяться при замене вариантов их средней величиной, называется определяющим показателем.
Для вывода формулы средней нужно составить и решить уравнение, используя взаимосвязь осредняемого показателя с определяющим. Это уравнение строится путем замены вариантов осредняемого признака (показателя) их средней величиной.

Кроме средней арифметической и средней гармонической в статистике используются и другие виды (формы) средней величины. Все они являются частными случаями степенной средней.
Если рассчитывать все виды степенных средних величин для одних и тех же данных, то значения

их окажутся одинаковыми, здесь действует правило мажо-рантности
средних. С увеличением показателя степени средних увеличивается и сама средняя величина. Наиболее часто применяемые в практических исследованиях формулы вычисления различных видов степенных средних величин представлены в табл. 5.2.

Таблица 5.2

Средняя геометрическая применяется, когда имеется n
коэффициентов роста, при этом индивидуальные значения признака представляют собой, как правило, относительные величины динамики, построенные в виде цепных величин, как отношение к предыдущему уровню каждого уровня в ряду динамики. Средняя характеризует, таким образом, средний коэффициент роста. Средняя геометрическая простая
рассчитывается по формуле

Формула средней геометрической взвешенной
имеет следующий вид:

Приведенные формулы идентичны, но одна применяется при текущих коэффициентах или темпах роста, а вторая – при абсолютных значениях уровней ряда.

Средняя квадратическая
применяется при расчете с величинами квадратных функций, используется для измерения степени колеблемости индивидуальных значений признака вокруг средней арифметической в рядах распределения и вычисляется по формуле

Средняя квадратическая взвешенная
рассчитывается по другой формуле:

Средняя кубическая
применяется при расчете с величинами кубических функций и вычисляется по формуле

средняя кубическая взвешенная:

Все рассмотренные выше средние величины могут быть представлены в виде общей формулы:

где – средняя величина; – индивидуальное значение; n
– число единиц изучаемой совокупности; k
– показатель степени, определяющий вид средней.

При использовании одних и тех же исходных данных, чем больше k
в общей формуле степенной средней, тем больше средняя величина. Из этого следует, что между величинами степенных средних существует закономерное соотношение:

Средние величины, описанные выше, дают обобщенное представление об изучаемой совокупности и с этой точки зрения их теоретическое, прикладное и познавательное значение бесспорно. Но бывает, что величина средней не совпадает ни с одним из реально существующих вариантов, поэтому кроме рассмотренных средних в статистическом анализе целесообразно использовать величины конкретных вариантов, занимающие в упорядоченном (ранжированном) ряду значений признака вполне определенное положение. Среди таких величин наиболее употребительными являются структурные,
или описательные, средние
– мода (Мо) и медиана (Ме).

Мода
– величина признака, которая чаще всего встречается в данной совокупности. Применительно к вариационному ряду модой является наиболее часто встречающееся значение ранжированного ряда, т. е. вариант, обладающий наибольшей частотой. Мода может применяться при определении магазинов, которые чаще посещаются, наиболее распространенной цены на какой-либо товар. Она показывает размер признака, свойственный значительной части совокупности, и определяется по формуле

где х0 – нижняя граница интервала; h
– величина интервала; fm
– частота интервала; fm_
1 – частота предшествующего интервала; fm+
1 – частота следующего интервала.

Медианой
называется вариант, расположенный в центре ранжированного ряда. Медиана делит ряд на две равные части таким образом, что по обе стороны от нее находится одинаковое количество единиц совокупности. При этом у одной половины единиц совокупности значение варьирующего признака меньше медианы, у другой – больше ее. Медиана используется при изучении элемента, значение которого больше или равно или одновременно меньше или равно половине элементов ряда распределения. Медиана дает общее представление о том, где сосредоточены значения признака, иными словами, где находится их центр.

Описательный характер медианы проявляется в том, что она характеризует количественную границу значений варьирующего признака, которыми обладает половина единиц совокупности. Задача нахождения медианы для дискретного вариационного ряда решается просто. Если всем единицам ряда придать порядковые номера, то порядковый номер медианного варианта определяется как (п +1) / 2 с нечетным числом членов п. Если же количество членов ряда является четным числом, то медианой будет являться среднее значение двух вариантов, имеющих порядковые номера n
/ 2 и n
/ 2 + 1.

При определении медианы в интервальных вариационных рядах сначала определяется интервал, в котором она находится (медианный интервал). Этот интервал характерен тем, что его накопленная сумма частот равна или превышает полусумму всех частот ряда. Расчет медианы интервального вариационного ряда производится по формуле

где X0
– нижняя граница интервала; h
– величина интервала; fm
– частота интервала; f
– число членов ряда;

∫m-1 – сумма накопленных членов ряда, предшествующих данному.

Наряду с медианой для более полной характеристики структуры изучаемой совокупности применяют и другие значения вариантов, занимающих в ранжированном ряду вполне определенное положение. К ним относятся квартили
и децили.
Квартили делят ряд по сумме частот на 4 равные части, а децили – на 10 равных частей. Квартилей насчитывается три, а децилей – девять.

Медиана и мода в отличие от средней арифметической не погашают индивидуальных различий в значениях варьирующего признака и поэтому являются дополнительными и очень важными характеристиками статистической совокупности. На практике они часто используются вместо средней либо наряду с ней. Особенно целесообразно вычислять медиану и моду в тех случаях, когда изучаемая совокупность содержит некоторое количество единиц с очень большим или очень малым значением варьирующего признака. Эти, не очень характерные для совокупности значения вариантов, влияя на величину средней арифметической, не влияют на значения медианы и моды, что делает последние очень ценными для экономико-статистического анализа показателями.

Показатели вариации

Целью статистического исследования является выявление основных свойств и закономерностей изучаемой статистической совокупности. В процессе сводной обработки данных статистического наблюдения строят ряды распределения.
Различают два типа рядов распределения – атрибутивные и вариационные, в зависимости от того, является ли признак, взятый за основу группировки, качественным или количественным.

Вариационными
называют ряды распределения, построенные по количественному признаку. Значения количественных признаков у отдельных единиц совокупности не постоянны, более или менее различаются между собой. Такое различие в величине признака носит название вариации.
Отдельные числовые значения признака, встречающиеся в изучаемой совокупности, называют вариантами значений.
Наличие вариации у отдельных единиц совокупности обусловлено влиянием большого числа факторов на формирование уровня признака. Изучение характера и степени вариации признаков у отдельных единиц совокупности является важнейшим вопросом всякого статистического исследования. Для описания меры изменчивости признаков используют показатели вариации.

Другой важной задачей статистического исследования является определение роли отдельных факторов или их групп в вариации тех или иных признаков совокупности. Для решения такой задачи в статистике применяются специальные методы исследования вариации, основанные на использовании системы показателей, с помощью которых измеряется вариация. В практике исследователь сталкивается с достаточно большим количеством вариантов значений признака, что не дает представления о распределении единиц по величине признака в совокупности. Для этого проводят расположение всех вариантов значений признака в возрастающем или убывающем порядке. Этот процесс называют ранжированием ряда.
Ранжированный ряд сразу дает общее представление о значениях, которые принимает признак в совокупности.

Недостаточность средней величины для исчерпывающей характеристики совокупности заставляет дополнять средние величины показателями, позволяющими оценить типичность этих средних путем измерения колеблемости (вариации) изучаемого признака. Использование этих показателей вариации дает возможность сделать статистический анализ более полным и содержательным и тем самым глубже понять сущность изучаемых общественных явлений.

Самыми простыми признаками вариации являются минимум
и максимум –
это наименьшее и наибольшее значение признака в совокупности. Число повторений отдельных вариантов значений признаков называют частотой повторения.
Обозначим частоту повторения значения признака fi,
сумма частот, равная объему изучаемой совокупности будет:

где k
– число вариантов значений признака. Частоты удобно заменять частостями – wi. Частость
– относительный показатель частоты – может быть выражен в долях единицы или процентах и позволяет сопоставлять вариационные ряды с различным числом наблюдений. Формально имеем:

Для измерения вариации признака применяются различные абсолютные и относительные показатели. К абсолютным показателям вариации относятся среднее линейное отклонение, размах вариации, дисперсия, среднее квадратическое отклонение.

Размах вариации
(R) представляет собой разность между максимальным и минимальным значениями признака в изучаемой совокупности: R
= Xmax – Xmin. Этот показатель дает лишь самое общее представление о колеблемости изучаемого признака, так как показывает разницу только между предельными значениями вариантов. Он совершенно не связан с частотами в вариационном ряду, т. е. с характером распределения, а его зависимость может придавать ему неустойчивый, случайный характер только от крайних значений признака. Размах вариации не дает никакой информации об особенностях исследуемых совокупностей и не позволяет оценить степень типичности полученных средних величин. Область применения этого показателя ограничена достаточно однородными совокупностями, точнее, характеризует вариацию признака показатель, основанный на учете изменчивости всех значений признака.

Для характеристики вариации признака нужно обобщить отклонения всех значений от какой-либо типичной для изучаемой совокупности величины. Такие показатели

вариации, как среднее линейное отклонение, дисперсия и среднее квадратическое отклонение, основаны на рассмотрении отклонений значений признака отдельных единиц совокупности от средней арифметической.

Среднее линейное отклонение
представляет собой среднюю арифметическую из абсолютных значений отклонений отдельных вариантов от их средней арифметической:

Абсолютное значение (модуль) отклонения варианта от средней арифметической; f-
частота.

Первая формула применяется, если каждый из вариантов встречается в совокупности только один раз, а вторая – в рядах с неравными частотами.

Существует и другой способ усреднения отклонений вариантов от средней арифметической. Этот очень распространенный в статистике способ сводится к расчету квадратов отклонений вариантов от средней величины с их последующим усреднением. При этом мы получаем новый показатель вариации – дисперсию.

Дисперсия
(σ 2) – средняя из квадратов отклонений вариантов значений признака от их средней величины:

Вторая формула применяется при наличии у вариантов своих весов (или частот вариационного ряда).

В экономико-статистическом анализе вариацию признака принято оценивать чаще всего с помощью среднего квадратического отклонения. Среднее квадратическое отклонение
(σ) представляет собой корень квадратный из дисперсии:

Среднее линейное и среднее квадратическое отклонения показывают, на сколько в среднем колеблется величина признака у единиц исследуемой совокупности, и выражаются в тех же единицах измерения, что и варианты.

В статистической практике часто возникает необходимость сравнения вариации различных признаков. Например, большой интерес представляет сравнение вариаций возраста персонала и его квалификации, стажа работы и размера заработной платы и т. д. Для подобных сопоставлений показатели абсолютной колеблемости признаков – среднее линейное и среднее квадртическое отклонение – не пригодны. Нельзя, в самом деле, сравнивать колеблемость стажа работы, выражаемую в годах, с колеблемостью заработной платы, выражаемой в рублях и копейках.

При сравнении изменчивости различных признаков в совокупности удобно применять относительные показатели вариации. Эти показатели вычисляются как отношение абсолютных показателей к средней арифметической (или медиане). Используя в качестве абсолютного показателя вариации размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, получают относительные показатели колеблемости:

Наиболее часто применяемый показатель относительной колеблемости, характеризующий однородность совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33 % для распределений, близких к нормальному.

Добавить комментарий