Как найти средний ранг

Средний ранг
определяется для таких признаков, для
которых еще не найдены способы
количественного измерения. По степени
проявления таких признаков объекты
могут быть ранжированы, т. е. расположены
в порядке усиления (или ослабления)
выраженности признака. Порядковый номер
объекта в таком ряду называется его
рангом.

Пример

В зверосовхозе,
разводящем голубых норок, получено от
двух самцов и одной и той же группы самок
20 щенков с различной окраской меха: от
почти белого до темно-голубого. Требовалось
выяснить, какой из производителей дает
в потомстве более темную окраску меха.
Затруднением при этом служит то
обстоятельство, что нет способа числового
измерения интенсивности окраски волоса
у норок. Все потомки оцениваемых
производителей были распределены в
ранжированный ряд в порядке усиления
серого цвета, причем при каждом порядковом
номере (ранге) такого ряда был поставлен
номер отца (I, II; таблица 6.1).

Таблица 6.1 –
Ранжированный ряд

Ранг

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Отец

I

II

I

II

I

I

II

I

I

I

II

I

II

II

II

II

I

II

II

II

На основе такого
ряда можно рассчитать средние ранги
окраски в потомстве каждого производителя
и по этим показателям сравнить их:


;

Вывод

Второй производитель
дает в потомстве более темную окраску
меха.

17.2Взвешенная средняя арифметическая

Обычно, чтобы
рассчитать среднюю арифметическую,
складывают все значения признака и
полученную сумму делят на число вариантов.
В этом случае каждое значение, входя в
сумму, увеличивает ее на полную свою
величину. Но не всегда это возможно.
Иногда значения признака должны входить
в сумму с неодинаковой поправкой. Эта
поправка, выраженная определенным
множителем, называется математическим
весом значения.

Средняя, рассчитанная
для значений признака с неодинаковыми
весами, называется взвешенной средней.
Взвешенная средняя арифметическая
рассчитывается по следующей формуле:


, (6.4)

где:

Xi – значение
признака, варианта;

p – математический
вес усредняемого значения.

Чтобы рассчитать
взвешенную среднюю арифметическую,
необходимо каждое значение признака
помножить на его вес, все эти произведения
сложить и полученную сумму разделить
на сумму весов.

Пример

Имеются результаты
двух исследований длины хоботка пчел:
в одном случае получена средняя длина
хоботка 6,6 мм, в другом – 6,0 мм. Требуется
получить общую среднюю, причем известно,
что в первом исследовании были измерены
хоботки у 100 пчел, во втором – у 20.

В данном случае
значениями признака являются средние
μ1 = 6,6 и μ2 = 6,0 мм; их весами
– численности групп n1 = 100 и n2
= 20. Взвешенная средняя арифметическая
рассчитывается следующим образом:


.

Пример

В 100 кг кормовой
смеси содержатся следующие количества
отдельных кормов:

сена 50 кг, с
содержанием белка 3%

молотой овсяной
соломы 10 кг, с содержанием белка 1%

жмыха подсолнечного
20 кг, с содержанием белка 33%

отрубей пшеничных
грубых 20 кг, с содержанием белка 11%

Требуется определить
содержание белка в данной смеси.

Для решения этой
задачи необходимо рассчитать взвешенную
среднюю арифметическую. Значениями
признака будет содержание белка в
отдельных кормах: 3; 1; 33 и 11%, а их
математическими весами — физические
веса кормов, входящих в смесь: 50; 10; 20 и
20 кг. Содержание в смеси переваримого
белка:


,

т. е. в каждом
килограмме смеси содержится 104 г
переваримого белка.

Таким же способом
рассчитываются среднее выхода продукта
по нескольким партиям сырья.

Пример

Проведены три
независимых наблюдения числа сокращений
пульсирующей вакуоли у амебы в определенной
среде. В первом наблюдении зарегистрировано
24 сокращения в 1 час, во втором – 16 и в
третьем – 23, причем первое наблюдение
длилось 2, второе – 6 и третье –1 час. Для
определения среднего числа сокращений
в час необходимо найти взвешенную
среднюю арифметическую. Значениями
признака будут наблюдавшиеся количества
сокращений в час (24, 16 и 23), их весами –
продолжительность отдельных наблюдений
(2, 6 и 1 час). Следовательно,


.

Простая средняя
в данном случае:

даст завышенную характеристику.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

А   Б   В   Г   Д   Е   Ж   З   И   К   Л   М   Н   О   П   Р   С   Т   У   Ф   Х   Ц   Ч   Ш   Щ   Э   Ю   Я

Средний ранг

Пусть имеется выборка из n наблюдений . Упорядочим выборку по возрастанию: . Предположим, что наблюдение имеет ту же величину, что и (совпадающие с ним) некоторые из остальных Z наблюдений.

Средний ранг в ранжировке наблюдений есть среднее арифметическое из рангов, которые были бы назначены и остальным значениям Z, таким же, что и , если бы равные наблюдения оказались различными.

Пример. Ранжируем выборку из пяти наблюдений (11,12,14,14,14). Значение «14» встречается в ней 3 раза. Если бы равные наблюдения мы считали различными, то набор рангов для этой выборки был бы (1,2,3,4,5). Поскольку все значения «14» равноправны, присваиваем им усреднённый ранг (3+4+5)/3=4 и получаем набор рангов (1,2,4,4,4).

Синоним: midrank – средний ранг, срединный ранг.

Связанные определения:
Ранг
Ранжирование

Ранги. Во многих случаях имеющиеся в нашем распоряжении числовые данные (например, значения элементов выборки) носят в той или иной мере условный характер. Например, эти данные могут быть тестовыми баллами, экспертными оценками, данными о вкусовых или политических предпочтениях опрошенных людей и т. д. Анализ таких данных требует особой осторожности, поскольку многие предпосылки классических статистических методов (например, предположения о каком-либо конкретном, скажем нормальном, законе распределения) для них не выполняются. Твердую основу для выводов здесь дают только соотношения между наблюдениями типа «больше-меньше», так как они не меняются при изменении шкалы измерений. Например, при анализе анкет с данными о симпатиях избирателей к политическим деятелям мы можем сказать, что политик, получивший больший балл в анкете, более симпатичен отвечавшему на вопросы человеку (респонденту), чем политик, получивший меньший балл. Но на сколько (или во сколько раз) он более симпатичен, сказать нельзя, так как для предпочтений нет объективной единицы измерения.

В подобных случаях (которые мы будем более подробно рассматривать в последующих главах), имеет смысл вообще отказаться от анализа конкретных значений данных, а исследовать только информацию об из взаимной упорядоченности. Для этого от исходных числовых данных осуществляют переход к их Рангам.

Определение. Рангом наблюдения называют тот номер, который получит это наблюдение в упорядоченной совокупности всех данных — после их упорядочения по определенному правилу (например, от меньших значений к большим или наоборот).

Чаще всего упорядочение чисел (набор которых составляют упомянутые выше данные) производят по величине — от меньших к большим. Именно такое упорядочение и связанное с ним ранжирование (присвоение рангов) мы будем иметь в виду в дальнейшем.

Пример. Пусть выборка состоит из чисел 6, 17, 14,5, 12. Тогда рангом числа 6 оказывается 2, рангом 17 будет 5 и т. д.

Определение. Процедура перехода от совокупности наблюдений к последовательности их рангов называется ранжированием. Результат ранжирования называется ранжировкой.

Статистические методы, в которых мы делаем выводы о данных на основании их рангов, называются ранговыми. Они получили широкое распространение, так как надежно работают при очень слабых предположениях об исходных данных (не требуя, например, чтобы эти данные имели какой-либо конкретный закон распределения). В последующих главах этой книги мы рассмотрим применение ранговых методов в наиболее распространенных практических задачах.

Средние ранги. Трудности в назначении рангов возникают, если среди элементов выборки встречаются совпадающие. (Так часто бывает, когда данные регистрируются с округлением.) В этом случае обыкновенно используют Средние ранги.

Средние ранги вводятся так. Предположим, что наблюдение , имеет ту же величину, что и некоторые другие из общего числа П Наблюдений. (Эту совокупность одинаковых наблюдений из набора называют Связкой, количество таких одинаковых наблюдений в данной связке называют ее размером.) Средний ранг , в ранжировке наблюдений есть среднее арифметическое тех рангов, которые были бы назначены и всем остальным элементам связки, если бы одинаковые наблюдения оказались различны.

В качестве примера рассмотрим выборку 6, 17, 12, 6, 12. Ее ранжировка равна .

Покажем на примерах, как может проходить математическая формализация практических задач и как сформулированные на естественном языке вопросы превращаются в статистические гипотезы.

Тройной тест. Рассмотрим распространенный в психологии тройной тест (его другое название — тест дегустатора). Он состоит из серии одинаковых опытов, в каждом из которых испытуемому предъявляют одновременно три стимула. Два из них идентичны, а третий несколько отличается. Испытуемый, ориентируясь на свои ощущения, должен указать этот отличающийся стимул. Например, испытуемому могут быть предложены три стакана с жидкостью: два с чистой водой, а третий — со слабым раствором сахара, либо наоборот — два стакана подслащенных, а третий — с чистой водой. Задание для испытуемого — указать стакан, отличающийся от двух других.

Опыты стараются организовать так, чтобы они проходили в одинаковых условиях и чтобы в каждом из них испытуемый мог полагаться только на свои ощущения. В результате подобного однократного эксперимента можно получить как правильный, так и неправильный ответ.

При слабой концентрации раствора, когда его трудно отличить от воды, из одного ответа нельзя сделать определенного заключения о способности испытуемого чувствовать данную концентрацию. Испытуемый может случайно ошибиться, даже если в целом он способен отличать данную концентрацию сахара от чистой воды. С другой стороны, правильный ответ не исключает того, что испытуемый его просто угадал, не отличая раствора от воды.

Эти свойства эксперимента мы можем перечислить в виде следующих допущений:

• в каждом испытании ответ испытуемого случаен;

• существует вероятность правильного ответа, которая неизменна во все время испытаний;

• результаты отдельных испытаний статистически независимы.

Коротко это выражается так: статистической моделью эксперимента служит схема Бернулли.

Сформулировав математическую модель явления, перейдем к выдвижению статистических гипотез. Интересующая нас способность испытуемого характеризуется вероятностью правильного ответа, которую мы обозначим Р. В этом опыте она нам неизвестна. Естественно, эта вероятность зависит от степени концентрации сахара. Если концентрация очень мала и не воспринимается, то у испытуемого нет оснований для выбора. Он «наудачу» будет указывать один из трех стаканов. В этих условиях вероятность правильного ответа .

Предположим, что экспериментатора интересует, начиная с каких концентраций испытуемый отличает раствор от воды. Тогда для данной концентрации экспериментатор может выдвинуть предположение, что испытуемый ее ощутить не в состоянии. В изложенной модели это предположение превращается в статистическую гипотезу о том, что . Примем следующую форму записи статистической гипотезы: . Если же экспериментатор предполагает, что испытуемый может ощутить наличие сахара, то соответствующая статистическая гипотеза состоит в том, что , т. е. . Возможна и гипотеза о том, что , она соответствует тому, что испытуемый способен отличить раствор от воды, но принимает одно за другое.

Экспериментатор может выдвигать и другие гипотезы о способности испытуемого к различению концентраций. Например, возможна такая гипотеза: испытуемый способен ощутить присутствие сахара, ошибаясь один раз из десяти. В этом случае вероятность правильного ответа равна 0.9 и гипотеза примет вид: Н : р = 0.9.

Заметим, что с чисто математической точки зрения гипотеза вида проще, чем или . Действительно, при мы имеем дело с одним (полностью заданным) биномиальным распределением, а в других случаях перед нами семейство распределений. Ясно, что с одним распределением иметь дело проще.

Сейчас мы не будем рассматривать процесс проверки этих гипотез (он описан в п. 4), а вместо этого приведем еще один пример перевода естественнонаучной задачи на статистический язык, т. е. построения статистической модели явления и выдвижения гипотезы для проверки.

Парные наблюдения. На практике часто бывает необходимо сравнить два способа действий по их результатам. Речь может идти о сравнении двух методик обучения, эффективности двух лекарств, производительности труда при двух технологиях и т. д. В качестве конкретного примера рассмотрим эксперимент, в котором выясняется, на какой из сигналов человек реагирует быстрее: на свет или на звук.

Эксперимент был организован следующим образом. Каждому из семнадцати испытуемых в случайном порядке поочередно подавались два сигнала: световой и звуковой. Интенсивность сигналов была неизменна в течение всего эксперимента. Увидев или услышав сигнал, испытуемый должен был нажать на кнопку. Время между сигналом и реакцией испытуемого регистрировал прибор. Результаты эксперимента приведены в табл. 1.

Таблица 1

Время реакции на свет и на звук, в миллисекундах

I

Xi

Yi

1

223

181

2

104

194

3

209

173

4

183

153

5

180

168

6

168

176

7

215

163

8

172

152

9

200

155

10

191

156

11

197

178

12

183

160

13

174

164

14

176

169

15

155

155

16

115

122

17

163

144

I — номер испытуемого, I = 1,…, 17; Xi — время его реакции на звук, YI — время его реакции на свет.

Вместо поставленного выше вопроса о том, на какой из сигналов человек отвечает быстрее, выдвинем другой: можно ли считать, что время реакции человека на свет и на звук одинаковы? Логически эти вопросы тесно связаны: если мы отвечаем отрицательно на второй из них, мы тем самым признаем, что различия есть. После этого уже не трудно понять, когда время реакции меньше. Если же на второй вопрос мы отвечаем положительно, то первый после этого просто снимается. С математической же точки зрения второй вопрос проще, как мы увидим из дальнейшего обсуждения.

Итак, время реакции на звук, X, и время реакции на свет, Y, различно у разных людей, несмотря на то, что во время опыта они находились в одинаковых условиях. Ясно, что наблюдаемый разброс во времени реакции не связан с изучаемым явлением (различием двух действий). По-видимому, этот разброс можно объяснить различиями между испытуемыми и/или нестабильностью времени отклика на сигнал у каждого испытуемого. Как бы то ни было, эти колебания не имеют отношения к той закономерности, что нас интересует. Поэтому мы объявляем их случайными. Так сделан первый шаг к статистической модели: переменные Xi и Yi признаны реализациями случайных величин, скажем Xi и Yi. Поскольку каждый испытуемый решал свои задачи самостоятельно, не взаимодействуя с другими испытуемыми и не испытывая с их стороны влияния, мы будем считать случайные величины X1, Y1,…, Х17, Y17 Независимыми (в теоретико-вероятностном смысле).

Выбор статистической модели. Дальнейшее уточнение статистической модели в подобных задачах может идти различными путями, в зависимости от природы эксперимента и наших знаний о ней. Один путь связан с предположением о том, что случайные величины XI и Yi имеют некоторые конкретные законы распределения. Например, мы можем предположить, что Xi и Yi — независимы и имеют нормальные распределения с одной и той же дисперсией (обозначим ее ). Тогда, если ввести для средних значений обозначения: где I = 1,…, 17, то можно сформулировать наши допущения так: случайные величины Xi, Yi подчиняются нормальным распределениям Соответственно, где параметры нам неизвестны. При этих обозначениях выдвинутый вопрос о равном времени реакции на свет и на звук может быть сформулирован как статистическая гипотеза:

Если экспериментатор уверен, что группа испытуемых достаточно однородна, он может дополнительно предположить, что и . Если обозначить общие значения параметров через A и B соответственно, то статистическую модель в этом случае можно сформулировать так: случайные величины независимы и распределены по закону ; случайные величины тоже независимы, не зависят от и распределены по закону . Параметры A, B и неизвестны. Тогда гипотезу о равном времени реакции можно записать следующим образом:

Ясно, что задача с меньшим числом неопределенных параметров, как во второй постановке, в принципе должна давать более точные ответы. При проверке гипотез это означает, что мы сможем принять или отвергнуть проверяемую гипотезу с большей степенью уверенности. Но следует помнить, что уменьшение количества параметров в модели является следствием принятия дополнительных предположений об имеющихся данных. Так, в приведенном выше примере мы предположили, что и , что и дало нам возможность уменьшить количество параметров в модели с 35 до 3. Но если сделанные дополнительные предположения являются неправомерными, то использование полученной математической модели может привести к неверному заключению. Например, при обработке наших данных по однородной схеме можно получить неверный ответ, если фактически эти данные однородными не являются.

Итак, при построении статистической модели постоянно приходится вводить упрощающие математические предположения и одновременно оценивать, насколько они приемлемы с содержательной точки зрения. И часто надо быть готовым к тому, чтобы отказаться от недопустимых предположений или заменить их чем-то другим.

Другой путь построения статистической модели — так называемый Непараметрический. Здесь мы не делаем предположений о том, что наблюдаемые случайные переменные имеют какой-либо параметрический закон распределения. В этом случае мы делаем меньше математических допущений, а значит, здесь меньше опасности принять неоправданное предположение. Зато при этом мы используем не всю информацию об имеющихся данных, а только ту ее часть, которая не зависит от конкретного вида распределения исходных данных. Например, при проверке гипотезы о равном времени реакции на свет и звук мы должны будем использовать не сами значения времен реакций Xi и Yi, а их Ранги В объединенной выборке Xi и Yi. По сравнению с параметрическим методом (если предположения о параметрическом характере случайных событий справедливы), мы получим при этом несколько менее точные выводы, но зато непараметрический метод имеет гораздо более широкую область применимости.

Итак, при построении статистической модели приходится делать ряд предположений. Большую часть этих предположений мы не проверяем (и часто даже и не можем проверить). Некоторые предположения мы Выбираем для проверки их совместимости со статистическим материалом и называем такие предположения статистическими гипотезами. НиЖе Мы расскажем, как осуществляется проверка статистических гипотез.

< Предыдущая   Следующая >

Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 28 ноября 2019 года; проверки требует 1 правка.

Статистика — измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения элементов выборки.

Определение[править | править код]

Пусть задана случайная выборка x^{m}=(x_{1},ldots ,x_{m}) наблюдений x_{i}in X. Как правило, поскольку речь идёт о задачах математической статистики, распределение элементов этой выборки известно исследователю не полностью (например, содержит неизвестные числовые параметры).

Статистикой называется произвольная измеримая функция выборки
T:X^{m}to {mathbb  {R}}, которая не зависит от неизвестных параметров распределения.

Условие измеримости статистики означает, что эта функция является случайной величиной, то есть определены вероятности её попадания в интервалы и другие борелевские множества на прямой.

Наиболее содержательный аспект данного понятия, отличающий его от прочих случайных величин, зависящих от выборки, заключается в том, что от неизвестных параметров эта функция не зависит, то есть исследователь может по имеющимся в его распоряжении данным найти значение этой функции, а, следовательно — основывать на этом значении оценки и прочие статистические выводы.

Пример[править | править код]

Предположим, что имеется числовая выборка {displaystyle x^{m}=(x_{1},x_{2},ldots ,x_{m})}, элементы которой имеют нормальное распределение {displaystyle {mathcal {N}}(a,sigma )}. Допустим, что значение параметра a (математического ожидания) известно, то есть это некоторое конкретное число, а значение среднеквадратичного отклонения sigma неизвестно (и его требуется оценить). Для этого может быть использована следующая статистика:

T={frac  {1}{m}}sum _{{i=1}}^{m}(x_{i}-a)^{2}.

Однако если значение параметра a также неизвестно, то данная функция не является статистикой. В этом случае её по-прежнему можно исследовать теоретически (например, доказывать, что математическое ожидание T равно sigma ^{2}), однако вычислить её числовое значение нельзя, поэтому для получения непосредственных статистических выводов она не может быть использована. В этом случае оценка параметра sigma строится другим способом (см. ниже).

Ниже приведены примеры некоторых часто используемых статистик.
Все они предполагают, что наблюдения x_{i} являются числовыми, X={mathbb  {R}}.

В последние годы активно развивается также статистика объектов нечисловой природы.

Статистики, используемые для оценки моментов (выборочные моменты)[править | править код]

Выборочный коэффициент асимметрии[править | править код]

Выборочный коэффициент асимметрии:

{displaystyle gamma _{1}={frac {{overset {bullet }{M}}_{3}}{{overset {bullet }{M}}_{2}^{3/2}}}={frac {sqrt {m(m-1)}}{m-2}}left({frac {{overset {circ }{M}}_{3}}{{overset {circ }{M}}_{2}^{3/2}}}right)}.

Если плотность распределения симметрична, то gamma _{1}=0. Если левый хвост распределения «тяжелее», то gamma _{1}>0, если «тяжелее» правый хвост — то gamma _{1}<0.

Выборочный коэффициент асимметрии используется для проверки распределения на симметричность, а также для грубой предварительной проверки на нормальность.
Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Выборочный коэффициент эксцесса[править | править код]

Выборочный коэффициент эксцесса:

{displaystyle gamma _{2}={frac {{overset {bullet }{M}}_{4}}{{overset {bullet }{M}}_{2}^{2}}}-3={frac {m^{2}-1}{(m-2)(m-3)}}left({frac {{overset {circ }{M}}_{4}}{{overset {circ }{M}}_{2}^{2}}}-3+{frac {6}{m+1}}right)}.

Нормальное распределение имеет нулевой эксцесс: gamma _{2}=0.

Если хвосты распределения «легче», а пик «острее», чем у нормального распределения, то gamma _{2}>0.

Если хвосты распределения «тяжелее», а пик более «приплюснутый», чем у нормального распределения, то gamma _{2}<0.

Выборочный коэффициент эксцесса часто используется для грубой предварительной проверки на нормальность.
Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Статистики, связанные с эмпирическим распределением[править | править код]

Эмпирическое распределение случайной величины x, построенное по случайной выборке x^{m}, есть функция:

{displaystyle displaystyle F_{m}(x)={frac {1}{m}}sum _{i=1}^{m}left[x_{i}<xright]}.

При любом фиксированном ain {mathbb  {R}} значение F_{m}(a) можно рассматривать как статистику.

Порядковые статистики[править | править код]

Порядковые статистики основаны на вычислении вариационного ряда,
который получается из исходной выборки
x^{m}=(x_{1},ldots ,x_{m})
путём упорядочивания её элементов по возрастанию:

{displaystyle x^{(1)}leqslant x^{(2)}leqslant cdots leqslant x^{(m)}}.

Значение x^{{(k)}} называется k-й порядковой статистикой.

Ранговые статистики[править | править код]

Значение r_{i} называется рангом элемента выборки x_{i}, если x_{i}=x^{{(r_{i})}}.

Ранговой статистикой называется любая статистика, которая является функцией от рангов элементов r_{i}, а не от их значений x_{i}.
Переход от значений к их рангам позволяет строить непараметрические статистические критерии, которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем параметрические статистические критерии.

Средний ранг[править | править код]

Аналогом выборочного среднего является средний ранг:

R={frac  1m}sum _{{i=1}}^{m}r_{i}.

Линейные ранговые статистики[править | править код]

Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при mtoinfty.
Линейная ранговая статистика в общем случае имеет вид:

{displaystyle T=sum _{i=1}^{m}a(i,r_{i})},

где a(i,j) — произвольная заданная числовая матрица размера m times m.

Литература[править | править код]

  • Вероятность и математическая статистика: Энциклопедия / Под ред. Ю. В. Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
  • Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
  • Лекционные курсы НОЦ/ Математический институт им. В. А. Стеклова РАН (МИАН). – М.: МИАН, 2009. Вып. 14: Лекции по асимптотической теории ранговых критериев / Чибисов Д. М. – 176 с.
  • Левин Б.Р. Теоретические основы статистической радиотехники. –3-е изд. перераб. и доп.- М.: Радио и связь, 1989. – 656с.: ил. ISBN 5-256-00264-3

Ссылки[править | править код]

  • Статистика: функция выборки

Добавить комментарий