Как найти общее количество измерений

    1. Выбор числа измерений

Цель
любого измерения – это получение
результата измерений с оценкой истинного
значения измеряемой величины. Для чего
проводится обработка результатов
измерений. В большинстве случаев
обработка результатов измерений
проводится с помощью вероятностно –
статистических методов, известных из
курсов теории вероятности и математической
статистики.

Вопрос,
сколько измерений необходимо произвести,
чтобы считать их результаты вполне
надежными, однозначного решения не
имеет. Все зависит от целей организуемых
измерений, ответственности их результатов
для оценки состояния объекта измерений,
а также от степени исключения
систематических погрешностей измерений.
Здесь возможны четыре варианта.

1
Однократные измерения (1 – 3 измерения)
допустимы только в порядке исключения,
так как они по существу не позволяют
судить о достоверности измерительной
информации.

2
Если принять, что в погрешности результата
измерений роль систематической
погрешности пренебрежимо мала по
сравнению со случайной погрешностью,
то при определении необходимого
количества измерений следует исходить
из возможности проведения статистической
обработки результатов измерений. Уже
при 25 … 30 измерениях оценки их результатов
являются достоверными.

3
Если метрологически объект измерений
предварительно не исследовался, и кроме
расчетных значений величин о нем мало
что известно, то число измерений должно
быть увеличено до 50 … 100.

4
Если необходимо установить закон
распределения оцениваемых величин
число измерений необходимо увеличить
на порядок (500 … 1000).

Главная
цель увеличения числа измерений состоит
в уменьшении случайности результата
измерений, и следовательно, в наилучшем
приближении результата к истинному
значению величины. Но увеличивать число
измерений с целью нахождения истинного
значения величины бессмысленно, так
как оно не зависит от организации
измерений, а существует независимо от
того, проводятся они или нет.

2.9 Статистические параметры распределения результатов измерений. Законы распределения случайных величин

Производя
оценку истинного значения измеряемой
величины по результатам измерений, мы
пользуемся методами теории вероятностей,
применяемыми для оценки неизвестных
параметров функции распределения
случайной величины. Основными
статистическими параметрами распределения
случайных величин являются: среднее
арифметическое значение измеряемой
величины
,
диапазон рассеянияR,
дисперсия и среднее квадратическое
отклонение sх.

Среднее
арифметическое значение
– это сумма действительных значений,
деленная на их число:

,
(2)

где
x1,
x2,….xn
действительные
значения измеряемой величины;

n
– число измерений.

Среднее арифметическое
значение определяет положение центра
группирования и является оценкой
математического ожидания.

Диапазон
распределения значений измеряемой
величины R
– разность между наибольшим и наименьшим
значениями:

,
(3)

где
xmax
и
xmin
– набольшее
и наименьшее значения измеряемой
величины.

Диапазон
распределения значений измеряемой
величины характеризует только разброс
значений около центра группирования.

Другая
статистическая характеристика
распределения значе­ний измеряемой
величины показывает, как тесно группируются
отдельные значения вокруг средней
арифметической или как они рассеиваются
вокруг этой средней. За меру рассе­яния
принимают сумму квадратов отклонений
отдельных значений от сред­него
арифметического, деленную на число
измерений, уменьшенное на еди­ницу.
Эту меру называют дисперсией и обозначают
через
.

.
(4)

Вместо
дисперсии
часто применяют среднее квадратическое
отклонение (СКО)sх.
Оно имеет ту же размерность, что и средняя
арифметичес­кая и определяется по
фор­муле:

(5)

И дисперсия и СКО
являются характеристиками рассеивания.
СКО характеризует ширину области
рассеивания значений случайной величины.
Чем меньше ширина области рассеивания,
тем точнее проведены измерения, и
наоборот.

Наглядное
представление о характере распределения
дают так называемые кривые распределения,
которые в зависимости от способа
построения делятся на гистограммы
распределения, эмпирические кривые или
полигоны распределения и теоретические
кривые распределения (рис. 6).

При
построении кривых распределения по оси
абсцисс откладывают или сам результат
измерения xi
или его
отклонения Δxi
от среднего
арифметического
.
По оси ординат для построения гистограмм
и полигонов распределения откладывают
относительную частоту, равную

,
(6)

где
nxi
– частота
или число измерений, попадающих в один
и тот же интервал; N
общее
число измерений.

Рисунок
6 – Гистограмма (1), полигон (3) и

теоретическая
кривая (2) распределения

При
построении теоретической кривой
распределения по оси ординат откладывают
плотность вероятности y
случайной величины. Таким образом,
теоретическая кривая отражает закон
распределения вероятности случайной
величины. Законом распределения
вероятности случайной величины называется
всякое соотношение, устанавливающее
связь между возможными значениями
случайной величины и соответствующими
им вероятностями.

На
гистограмме или полигоне распределения
площадь в пределах интервала равна
относительной частоте, а на теоретической
кривой – вероятности появления результата
измерения в данном интервале.

Под
вероятностью какого-либо события
(например, попадания случайной величины
в пределы от а
до в)
понимается количественная оценка
возможности возникновения данного
события. Вероятность может принимать
значения от 0 до 1. Вероятность, равная
0, соответствует заведомо недостоверному
событию. Вероятность, равная 1, заведомо
достоверному событию.

Помимо
кривой распределения закон распределения
может представляться аналитически в
виде функции распределения.

Закон распределения
обладает рядом свойств. Рассмотрим два
из них:

1
Вероятность появления значения случайной
величины в заданном интервале численно
равна площади под кривой распределения
в том же интервале, т.е.

P
(a < x < b)

=
(7)

2
Полная площадь под кривой распределения,
охватывающая всю совокупность случайных
величин численно равна 1.

P
(-< x <
+)
=
=
1
(8)

Математическое
ожидание случайной величины представляет
собой абсциссу центра тяжести фигуры,
лежащей под кривой распределения.
Математическое ожидание определяется
по уравнению

Мx
=

(9)

При
практических расчетах пользуются
теоретическими кривыми распределения,
полученными аппроксимацией гистограмм
или эмпирических кривых распределения.
Для аппроксимации наиболее часто
используют следующие законы распределения.

1
Закон нормального распределения (закон
Гаусса)
(рис.7).

Рисунок 7- Закон
нормального распределения

Нормальный
закон распределения величины х
представляется
плотностью распределения

(10)

Это
наиболее распространенный закон
распределения случайных величин имеет
место, когда из большого числа факторов
ни один не является доминирующим, а
каждый играет относительно малую роль
в общей совокупности. Закон нормального
распределения часто имеет место при
обработке деталей, особенно на
станках-автоматах, а также при измерении
размеров универсальными средствами
измерения.

Для
определенного распределения М(х)
и σ
— величины постоянные. Они являются
параметрами гауссовского распределения.
Как видно, кривая распределения имеет
характерную колоколообразную форму.
Максимальная ордината кривой, равная
,
соответствует точкеx
=
M(x)
центру
распределения. Точка перегиба кри­вой
располагается на расстоянии
от центра распределения (как показано
на рис. 7а). По мере удаления от точкиМ(х)
плотность распределения умень­шается,
и при

кривая асимптотически приближается к
оси абсцисс.

Площадь
под кривой Гаусса равна 1, или 100 % всех
значений случайной величины в генеральной
совокупности. Так как площадь под кривой
всегда должна оста­ваться равной
единице, то при увеличении
кривая опускается вниз, одно­временно
растягиваясь вдоль оси абсцисс. Напротив,
при уменьшениикри­вая вытягивается вверх, одновременно
сжимаясь с боков.

Между
трехсигмовыми границами [М(х)-3;
М(х)+3
]
находится 99,73 % всех измерений, т.е.
практически все значения. Только 0,27 %
значений лежит за этими границами. Это
означает, что при проведении 270 измерений
в среднем 1 измерение будет лежать за
трехсигмовыми границами. Поэтому, зная
стандартное отклонение и математи­ческое
ожидание случайной величины, подчиняющейся
гауссовскому закону распределения,
можно ориентировочно указать интервал
ее практически воз­можных минимальных
и максимальных значений. И если какое-либо
значе­ние появляется за пределами
трехсигмового участка, то с большой
вероятно­стью его можно считать чисто
случайным. Так как вероятность появления
такого события очень мала (1/270), то следует
считать, что рассматриваемое событие
является практически невозможным. Такой
способ оценки диапазо­на возможных
значений случайной величины известен
в математической ста­тистике под
названием правила
трех сигм.

2
Закон равной вероятности.
Он
характерен для случайных величин, на
которые оказывает влияние резко
доминирующий фактор, равномерно
изменяющийся в пространстве или во
времени (рис. 8а). Описывается следующим
уравнением

.
(11)

3
Закон равнобедренного треугольника
или Симпсона.
Этому
закону подчиняются случайные величины,
на которые оказывают суммарное влияние
два резко доминирующих фактора (рис.
8б).

а
б

Рисунок 8 – Законы
распределения случайных величин:

а – закон Симпсона;
б – закон равной вероятности

При
аппроксимации тот или иной закон выбирают
как из общих соображений о законе
распределения, так и исходя из формы
изображений эмпирического распределения,
которая может помочь в предварительном
выборе теоретической кривой распределения.
Окончательное заключение о правильности
выбора закона распределения случайной
величины, делают после определения
соответствия экспериментальной и
теоретической кривых распределения по
одному из критериев согласия, согласно
ГОСТ 11.006 – 74 «Прикладная статистика.
Правила проверки согласия опытного
распределения с теоретическим».

Соседние файлы в папке МСС1

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Дата публикации: 09 апреля 2017.

Урок и презентация на тему: “Математическая статистика, элементы статистики”

Дополнительные материалы
Уважаемые пользователи, не забывайте оставлять свои комментарии, отзывы, пожелания! Все материалы проверены антивирусной программой.


Скачать:
Математическая статистика, элементы статистики (PPTX)


Статистика, введение

Темой сегодняшнего урока будет математическая статистика.
Этот предмет занимается статистикой, используя различные математические методы. Математическая статистика – это самостоятельно развивающийся раздел математики, в котором существуют и свои уникальные способы решения различных задач.

Так чем же занимается и для чего нужна математическая статистика?
Предположим, что у учеников девятых классов измерили рост. Как представить полученные данные? Можно записать их в строчку друг за другом, можно разделить данные по классам, можно попробовать создать таблицу. Все эти способы довольно громоздки и неудобны. Будет сложно извлечь информацию из такого набора чисел. А теперь представьте, что измерили рост учеников девятых классов всех школ в городе. Количество измерений может перевалить за тысячу.
Математическая статистика занимается обработкой данных и представлением их в виде удобном для восприятия. Это только одна из задач статистики. Построение прогнозов и оценок; применение различных методов исследования; достоверность проведенных испытаний и многое другое – вот чем занимается статистика.

Как же обрабатывает информацию статистика?

  • Данные измерений упорядочивают и группируют.
  • Составляют таблицы распределений данных.
  • По таблицам строят графики распределений.
  • В итоге создается паспорт измерений, в котором собраны числовые характеристики полученной информации.

Давайте рассмотрим эти пункты.

Упорядочивание и группировка данных

Первое, что необходимо сделать при анализе данных, определить рамки, в которых находится исследователь. Выбираются наименьшее и наибольшее допустимые значения, которые могут не совпадать с полученными данными. Например, при измерении роста учеников, шансов, что кто-то будет ниже 140 сантиметров и выше 200 сантиметров очень мало. Если найдется такой вариант, то данные статистики можно подкорректировать.
При измерении роста могут получиться числа: 140,150,160,170,180,190,200 – это общий ряд данных, которые принято располагать в порядке возрастания. Общий ряд данных может быть и другим, например: 140,145,150,155,160,…,190,195,200. Как представить общий ряд данных зависит от конкретной задачи.

Пример. Составить общий ряд данных, включающих:
а) месяцы рождения одноклассников,
б) годов рождения родственников и друзей,
в) буквы, с которых начинается слово.
Решение.
а) Всего месяцев 12, если их перечислить по цифрам, то получим общий ряд: 1,2,3,4,5,6,7,8,9,10,11,12.
б) Шанс, что кто-то из родственников старше 100 лет – мал, а что, кто-то родился в этом году – есть. Тогда общий ряд годов рождения можно составить так: 1910,1911,1912,…, 2009,2010,2011,2012,2013,2014.
в) Слово может начинаться с любой буквы алфавита, кроме ь, ы, ъ. Тогда возможны 30 вариантов, если их представить численным рядом, то получим: 1,2,3,4,…,28,29,30.

Понятие “общий ряд” не является строгим, в примере б) мы могли начать ряд с 1900 года, ряд так же назывался “общим”.

При проведении эксперимента данные из общего ряда могут не встретиться. Вернемся к нашему примеру б) и рассмотрим конкретный случай.
Вова назвал года рождения родственников: 1935,1937,1960,1965,1980,1981,1997,2005.
Общий ряд представлял собой последовательность: 1910,1911,1912,…,2009,2010,2011,2012,2013,2014.
У Вовы встретились конкретные измерения, которые называются “вариантой измерения”.
Варианта измерения – это возможный вариант проведенного измерения.
Если все варианты измерений перечислить по порядку, то получится ряд данных измерения.
Для нашего примера составим таблицу:
Статистика

Пример. Выписать ряд, состоящий из букв, которые встречаются в словах: мама, папа, брат, сестра, бабушка, дедушка, тетя, дядя.
Решение. Ряд будет выглядеть так: а, б, д, е, к, м, п, р, с, т, у, ш, я. Встретились 13 букв из 33.
Некоторые буквы встречаются несколько раз, например, буква а – девять раз, другие – реже.

Определение. Если среди всех данных конкретного измерения одна из вариант встретилась ровно к раз, то число к называют кратностью измерения.
В этом примере буква а имеет кратность – 9.
Запишем кратности для каждой из букв:
Статистика

Далее варианты нужно сгруппировать. Создадим сгруппированный ряд данных:
а,а,а,а,а,а,а,а,а,б,б,б,д,д,д,д,е,е,е,к,к,м,м,п,п,р,р,с,с,т,т,т,т,у,у,ш,шя,я,я.
Число повторений каждой варианты равно кратности варианты.

Составление таблицы распределения данных

Таблица

Если сложить все кратности, получится количество всех данных измерения или объем измерения. Объем измерения равен количеству букв встречающихся в наших словах. Для проверки всегда складывают кратности, сумма должна равняться количеству элементов измерения.
Далее вычисляют частоту варианты.

Частота варианты=Кратность варианты/Объем измерения.

Составим таблицу частот измерений:
Частота изменений

Сумма всех частот всегда равна единице, так как это сумма всех дробей с одинаковым знаменателем, а сумма всех числителей как раз и равна знаменателю. Для удобства, часто переводят частоты в проценты от объема измерения. Составим таблицу еще одну таблицу, каждую частоту в новой строке помножим на 100.
Статистика

Графическое представление данных

Давайте построим графики функций распределения по таблицам. Договоримся, что вместо букв будем использовать цифры 1,2,3,…,13.
Тогда наша таблица примет вид:
Статистика

По оси абсцисс отложим цифры, соответствующие буквам, а по оси ординат – значения частот появления варианта. Графическое изображение имеющейся информации – график распределения частот.
Таблица значений:
Статистика
График распределения частот:
Статистика

График распределения частот также называют полигоном распределения.
Давайте построим график распределения частот процентов. Его тоже называют полигоном распределения процентов.
Таблица значений.
Статистика

Полигон распределения процентов:
Статистика

Даже не большая по объему данных задача, представляет собой довольно таки утомительную процедуру подсчета и составления таблиц и графиков распределений.

Числовые характеристики данных измерения

Наши данные обладают уникальными числовыми характеристиками. Давайте определим некоторые из них.

Разность между максимальной и минимальной вариантой называют размахом измерения.

На наших графиках – это область определения (разность крайнего правого значения и крайнего левого значения на оси абсцисс). В нашем примере размах равен $13-1=12$.
Варианта, которая встречается чаще других, называется модой. В нашем примере это буква а или число 1, в зависимости от обозначения.
Если у нас есть таблица распределения частот, то в строчке частот ищем наибольшее число, и смотрим, какому варианту оно соответствует. На графике, это точка в которой достигается максимальное значение.
Наиболее важная характеристика – среднее значение (среднее арифметическое или просто среднее).
Чтобы найти среднее значение нужно:
а) Просуммировать все данные измерения.
б) Полученную сумму разделить на количество вариантов.

Для нашего примера найдем среднее значение:

$frac{1*9+2*3+3*4+4*3+5*2+6*2+7*2+8*2+9*2+10*4+11*2+12*2+13*3}{40}=5,775$.

Среднее значение можно найти другим способом:
а) Каждую варианту умножить на ее частоту.
б) Сложить получившиеся значения.

Подсчитаем этим способом:
Статистика

1*0,225+2*0,075+3*0,1+4*0,075+5*0,05+6*0,05+7*0,05+8*0,05+9*0,05+10*0,1+11*0,05+12*0,05+13*0,075=5,775.

Давайте рассмотрим еще один пример.
На экзамене по математике 25 учеников 9 класса получили такие оценки:
5,4,3,3,5,4,3,3,4,4,5,5,2,2,5,5,5,3,3,4,5,5,4,3,2.
а) Составить общий ряд данных. Упорядочить и сгруппировать.
б) Составить таблицы распределения и распределения частот.
в) Построить графики распределения и распределения частот.
г) Найти среднее, моду, размах.
Решение.
Возможны такие оценки: 1,2,3,4,5 – общий ряд данных.
В нашем примере встречаются оценки: 2,3,4,5 – ряд данных, все числа в ряде – варианты измерений.
Составим сгруппированный ряд: 2,2,2,3,3,3,3,3,3,3,4,4,4,4,4,4,5,5,5,5,5,5,5,5,5.
б) Объем измерения равен 25, так как 25 оценок выставлено.
Составим таблицу:
Статистика

в) Нарисуем графики:
Полигон распределения данных:
Статистика

Полигон распределения частот:
Статистика

Полигон распределения частот процентов:
Статистика

Все графики похожи между собой, различия только в масштабе оси ординат.
г)Найдем среднее значение:
$2*0,12+3*0,28+4*0,24+5*0,36=0,24+0,84+0,96+1,8=3,81$.
Мода: чаще всего встречается оценка пять, она и будет модой.
Размах: $5-2=3$.

Задачи статистики для самостоятельного решения

1.На экзамене по математике 50 учеников 9 класса получили такие оценки:
5,3,4,4,5,4,3,2,4,3,5,1,2,3,5,4,5,3,3,4,5,5,4,3,1,3,4,5,4,3,2,2,1,4,4,5,5,4,4,5,3,3,3,2,1,5,4,3,2,5.
а) Составить общий ряд данных. Упорядочить и сгруппировать.
б) Составить таблицы распределения и распределения частот.
в) Построить графики распределения и распределения частот.
г) Найти среднее, моду, размах.

Дискретный вариационный ряд и его характеристики

  1. Классификация рядов распределения
  2. Дискретный вариационный ряд, полигон частот и кумулята
  3. Выборочная средняя, мода и медиана
  4. Степень асимметрии вариационного ряда
  5. Выборочная дисперсия и СКО
  6. Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации
  7. Алгоритм исследования дискретного вариационного ряда
  8. Примеры

п.1. Классификация рядов распределения

Статистический ряд распределения – это количественное распределение единиц совокупности на однородные группы по некоторому варьирующему признаку.

В зависимости от природы признака различают атрибутивные и вариационные ряды.
Атрибутивный ряд распределения построен на качественном признаке.
Вариационный ряд распределения построен на количественном признаке.

Например:
Качественными признаками, которые не поддаются измерению, являются: профессия, пол, национальность и т.п.
Количественными признаками, которые можно подсчитать или измерить, являются: количество людей в группе, число повторений в опыте, возраст, вес, рост, скорость, температура и т.п.

По упорядоченности вариационные ряды делятся на упорядоченные (ранжированные) и неупорядоченные. Упорядочить ряд можно по возрастанию или убыванию исследуемого признака.

По характеру непрерывности признака вариационные ряды делятся на дискретные и интервальные.

Например:
Дискретными признаками, которые принимают отдельные значения, являются: количество людей в группе, число детей в семье, количество домов, число опытов и т.п.
Непрерывными признаками, которые могут принимать любые значения в интервале, являются: возраст, вес, рост, скорость, температура и т.п.
Классификация рядов распределения

Варианты – это отдельные значения признака, которые он принимает в вариационном ряду.
Частоты – это численности отдельных вариант.

Например:

Распределение учеников по оценкам за контрольную работу

Оценка, (x_i) 2 3 4 5 Всего
К-во учеников, (f_i) 3 15 10 5 33

В данном ряду признак – это оценка, варианты признака (x_i) – это множество {2;3;4;5}, частоты (f_i) – это количество учеников, получивших каждую из оценок.

п.2. Дискретный вариационный ряд, полигон частот и кумулята

Дискретный вариационный ряд – это ряд распределения, в котором однородные группы составлены по признаку, меняющемуся прерывно и принимающему конечное множество значений.

Общий вид дискретного вариационного ряда

Варианты, (x_i) (x_1) (x_2) (x_k)
Частоты, (f_i) (f_1) (f_2) (f_k)

Здесь k – число вариант исследуемого признака.
Тогда общее количество исходов (число единиц в совокупности): (N=sum_{i=1}^k f_i)

Полигон частот – это ломаная, которая соединяет точки ((x_i,f_i)).

Например:

Для распределения учеников по оценкам из нашего примера получаем такой полигон: Полигон частот

Относительная частота варианты (x_i) – это отношение частоты (f_i) к общему количеству исходов: $$ w_i=frac{f_i}{N}, i=overline{1,k} $$ Относительная частота (w_i) является эмпирической оценкой вероятности варианты (x_i) в исследуемом ряду.

Полигон относительных частот – это ломаная, которая соединяет точки ((x_i,w_i)).
Полигон относительных частот является эмпирическим законом распределения исследуемого признака.

Накопленные относительные частоты – это суммы: $$ S_1=w_1, S_i=S_{i-1}+w_i, i=overline{2,k} $$ Кумулята – это ломаная, которая соединяет точки ((x_i,S_i)).
Ступенчатая кривая (F(x_i)), построенная по точкам ((x_i,S_i)), является эмпирической функцией распределения исследуемого признака.

Например:
Проведем необходимые расчеты и построим полигон относительных частот, кумуляту и эмпирическую функцию распределения учеников по оценкам.

Оценка, (x_i) 2 3 4 5 Всего
К-во учеников, (f_i) 3 15 10 5 33
(w_i) 0,0909 0,4545 0,3030 0,1515 1
(S_i) 0,0909 0,4545 0,8485 1

Полигон относительных частот (эмпирический закон распределения)
Полигон относительных частот
Кумулята (красная ломаная) и эмпирическая функция распределения (ступенчатая синяя кривая).
Кумулята и эмпирическая функция распределения
Эмпирическая функция распределения: $$ F(x)= begin{cases} 0, xleq 2\ 0,0909, 2lt xleq 3\ 0,5455, 3lt xleq 4\ 0,8485, 4lt xleq 5\ 1, xgt 5 end{cases} $$

п.3. Выборочная средняя, мода и медиана

Выборочная средняя дискретного вариационного ряда определяется как средняя взвешенная по частотам: $$ X_{cp}=frac{x_1f_1+x_2f_2+…+x_kf_k}{N}=frac1Nsum_{i=1}^k x_if_i $$ Или, через относительные частоты: $$ X_{cp}=sum_{i=1}^k x_iw_i $$

Мода дискретного вариационного ряда – это варианта с максимальной частотой: $$ M_o=x*, f(x*)=underset{i=overline{1,k}}{max}f_i $$ Мод может быть несколько. Тогда говорят, что ряд мультимодальный.

На полигоне частот мода – это абсцисса самой высокой точки.

Медиана дискретного вариационного ряда – это значение варианты посредине упорядоченного ряда.

Алгоритм:
1. Отсортировать ряд по возрастанию.
2а. Если общее количество измерений N нечётное, найти (m=lceilfrac N2rceil) и округлить в сторону увеличения. (M_e=x_m) – искомая медиана.
2б. Если общее количество измерений N чётное, найти (m=frac N2) и вычислить медиану как среднее (M_e=frac{x_m+x_{m+1}}{2}).

На графике кумуляты медиана – это абсцисса первой точки слева, ордината которой превысила 0,5.
Например:
1) Найдем выборочную среднюю для распределения учеников по оценкам:

Оценка, (x_i) 2 3 4 5 Всего
К-во учеников, (f_i) 3 15 10 5 33
(x_if_i) 6 45 40 25 116

$$ X_{cp}=frac{6+45+40+25}{33}=frac{116}{33}approx 3,5 $$ Средняя оценка за контрольную – 3,5.
2) Найдем моду. Максимальная частота – 15 человек – у троечников. Значит: (M_o=3).
3) Найдем медиану. Общее количество измерений N=33 – нечетное.
Находим: (m=lceilfrac N2rceil=17)
Смотрим на ряд слева направо. Сначала у нас идет 3 двоечника, затем 15 троечников.
Вместе их 18, и 17-й человек в ряду – троечник. Группа троечников является медианной: (M_e=3).
Также, медиану можно найти по графику кумуляты. (3;0,5455) – это первая слева точка, в которой ордината больше 0,5. Значит, медиана равна абсциссе этой точки, т.е. (M_e=3).

п.4. Степень асимметрии вариационного ряда

В рядах с асимметрией или выбросами выборочная средняя не отражает в полной мере особенности исследуемого признака. Типичный случай – значение среднего уровня доходов в странах с высоким индексом Джини, где 5% населения получает 95% доходов. Или анекдотичный случай со «средней температурой по больнице».
Поэтому, кроме средней, в статистическом исследовании всегда следует определять моду и медиану.

Мода, медиана и выборочная средняя совпадут, если вариационный ряд является симметричным: $$ X_{cp}=M_o=M_e $$ Если вершина распределения сдвинута влево и правая часть ветви длиннее левой (длинный правый хвост), такая асимметрия называется правосторонней. При правосторонней асимметрии: $$ M_olt M_elt X_{cp} $$ Если вершина распределения сдвинута вправо и левая часть ветви длиннее правой (длинный левый хвост), такая асимметрия называется левосторонней. При левосторонней асимметрии: $$ M_ogt M_egt X_{cp} $$ Для умеренно асимметричных рядов (по Пирсону) модуль разности между модой и средней не более 3 раз превышает модуль разности между медианой и средней: $$ frac{|M_o-X_{cp}|}{|M_e-X_{cp}|}geq 3 $$

Например:
Для распределения учеников по оценкам мы получили (X_{cp}=3,5; M_o=3; M_e=3).
Т.к. средняя оказалась больше моды и медианы, наше распределение имеет правостороннюю асимметрию (что видно на полигоне частот – правый хвост длиннее).
При этом (frac{|M_o-X_{cp}|}{|M_e-X_{cp}|}=frac{0,5}{0,5}=1lt 3), т.е. распределение умеренно асимметрично.

п.5. Выборочная дисперсия и СКО

Выборочная дисперсия дискретного вариационного ряда определяется как средняя взвешенная для квадрата отклонения от средней: begin{gather*} D=frac{(x_1-X_{cp})^2 f_1+(x_2-X_{cp})^2 f_2+…+(x_k-X_{cp})^2 f_k}{N}=\ =frac1Nsum_{i=1}^k(x_i-X_{cp})^2 f_i=frac1Nsum_{i=1}^k x_i^2 f_i-X_{cp}^2 end{gather*} Или, через относительные частоты: $$ D=sum_{i=1}^k(x_i-X_{cp})^2 w_i=sum_{i=1}^k x_i^2 w_i-X_{cp}^2 $$

Выборочное среднее квадратичное отклонение (СКО) определяется как корень квадратный из выборочной дисперсии: $$ sigma=sqrt{D} $$

Например:
1) Найдем выборочную дисперсию для распределения учеников по оценкам:

Оценка, (x_i) 2 3 4 5 Всего
К-во учеников, (f_i) 3 15 10 5 33
(x_i^2) 4 9 16 25
(x_i^2 f_i) 12 135 160 125 432

$$ D=frac{12+135+160+125}{33}-3,5^2=frac{432}{33}-3,5^2approx 0,73 $$ 2) Значение СКО: (sigma=sqrt{D}approx 0,86)

п.6. Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации

Исправленная выборочная дисперсия дискретного вариационного ряда определяется как: begin{gather*} S^2=frac{1}{N-1}sum_{i=1}^k(x_i-X_{cp})^2 f_i=frac{N}{N-1}D end{gather*}

В теоретической статистике доказывается, что выборочная дисперсия D является смещенной оценкой дисперсии при распространении на генеральную совокупность.
А именно, выборочная дисперсия D всегда меньше математического ожидания для дисперсии генеральной совокупности.
Исправленная выборочная дисперсия S2 является несмещенной оценкой.

Стандартное отклонение выборки определяется как корень квадратный из исправленной выборочной дисперсии: $$ s=sqrt{S^2} $$

Коэффициент вариации это отношение стандартного отклонения выборки к выборочной средней, выраженное в процентах: $$ V=frac{s}{X_{cp}}cdot 100text{%} $$

Если показатель вариации V<33%, то выборка считается однородной, т.е. большинство полученных в ней вариант находятся недалеко от средней, и выборочная средняя хорошо характеризует среднюю генеральной совокупности.
В противном случае, выборка неоднородна. Варианты в выборке находятся далеко от средней, есть выбросы. А значит, и в генеральной совокупности они возможны. Т.е., распространять результаты выборки на генеральную совокупность нельзя.

Внимание!

Если исследуется не выборка, а вся генеральная совокупность, дисперсию «исправлять» не нужно.

Например:
Для распределения учеников по оценкам получаем:
1) Исправленная выборочная дисперсия $$ S^2=frac{N}{N-1}D=frac{33}{32}cdot 0,73approx 0,76 $$ 2) Стандартное отклонение $$ x=sqrt{S^2}approx 0,87 $$ 3) Коэффициент вариации: $$ V=frac{0,87}{3,5}cdot 100text{%}approx 24,8text{%}lt 33text{%} $$ Выборка является однородной.
Это означает, что согласно коэффициенту вариации полученные результаты контрольной работы можно рассматривать в качестве «типичных» и распространить их на генеральную совокупность, т.е. на всех школьников, которые будут писать эту работу.

п.7. Алгоритм исследования дискретного вариационного ряда

На входе: таблица с вариантами (x_i) и частотами (f_i, i=overline{1,k})
Шаг 1. Составить расчетную таблицу. Найти (w_i,S_i,x_if_i,x_i^2,x_i^2f_i)
Шаг 2. Построить полигон относительных частот (эмпирический закон распределения) и график кумуляты с эмпирической функцией распределения. Записать эмпирическую функцию распределения.
Шаг 3. Найти выборочную среднюю, моду и медиану. Проанализировать симметрию распределения.
Шаг 4. Найти выборочную дисперсию и СКО.
Шаг 5. Найти исправленную выборочную дисперсию, стандартное отклонение и коэффициент вариации. Сделать вывод об однородности выборки.

п.8. Примеры

Пример 1. На площадке фриланса была проведена выборка из 100 фрилансеров и подсчитано количество постоянных заказчиков, с которыми они работают.
В результате было получено следующее распределение:

Число постоянных заказчиков 0 1 2 3 4 5
Число фрилансеров 22 35 27 11 3 1

Исследуйте полученный вариационный ряд.

1) Вариационный ряд является дискретным.
Исследуемый признак – «число постоянных заказчиков».
Варианты признака (x_iinleft{0;1;..;5right}). Количество вариант k=6.
Составим расчетную таблицу:

(x_i) 0 1 2 3 4 5
(f_i) 23 35 27 11 3 1 100
(w_i) 0,23 0,35 0,27 0,11 0,03 0,01
(S_i) 0,23 0,58 0,85 0,96 0,99 1
(x_if_i) 0 35 54 33 12 5 139
(x_i^2) 0 1 4 9 16 25
(x_i^2f_i) 0 35 108 99 48 25 315

2) Полигон относительных частот (эмпирический закон распределения):
Пример 1
Кумулята и эмпирическая функция распределения:
Пример 1
$$ F(x)= begin{cases} 0, xleq 0\ 0,23, 0lt xleq 1\ 0,58, 1lt xleq 2\ 0,85, 2lt xleq 3\ 0,96, 3lt xleq 4\ 0,99, 4lt xleq 5\ 1, xgt 5 end{cases} $$ 3) Выборочная средняя: $$ X_{cp}=frac1Nsum_{i=1}^k x_if_i= frac{1}{100}cdot 139=1,39 $$ Мода (абсцисса самой высокой точки на полигоне частот): (M_0=1).
Медиана (абсцисса первой слева точки на кумуляте, где значение превысило 0,5): точка (1;0,58), (M_e=1).

(X_{cp}gt M_e=M_0) – распределение асимметрично, с правосторонней асимметрией.
При этом (frac{|M_0-X_{cp}|}{|M_e-X_{cp}|}=frac{0,39}{0,39}=1lt 3), т.е. распределение умеренно асимметрично.

4) Выборочная дисперсия: $$ D=frac1Nsum_{i=1}^k x_i^2f_i-X_{cp}^2=frac{1}{100}cdot 315-1,39^2=1,2179approx 1,218 $$ CKO: $$ sigma=sqrt{D}approx 1,104 $$
5) Исправленная выборочная дисперсия: $$ S^2=frac{N}{N-1}D=frac{100}{99}cdot 1,218approx 1,230 $$ Стандартное отклонение выборки: $$ s=sqrt{S^2}approx 1,109 $$ Коэффициент вариации: $$ V=frac{s}{X_{cp}}cdot 100text{%}=frac{1,109}{1,39}cdot 100text{%}approx 79,8text{%}gt 33text{%} $$ Представленная выборка неоднородна. Полученное значение средней (X_{cp}=1,39) не может быть распространено на генеральную совокупность всех фрилансеров.

Урок  282

Тема урока:  Задачи математической статистики.

Цели урока:

              Обучающая:
 
Научить  учащихся решать задачи по обработке

                                       
  статистических данных, используя понятия:                                       

                                        
 объём измерения, размах измерения, мода

                                         
измерения, среднее арифметическое, медиана

                   
                      измерения, варианта измерения, кратность

                                         
варианты, и составлять данные в виде таблиц,

                                         
диаграмм, графиков.  Ввести понятия: частота

                                      
   варианты, частота варианты (в процентах).         

                Развивающая: 

                                    
Формировать умения
учащихся, решать задачи на 

                                         
обработку статистических данных, используя 

                                 
        данные в виде таблиц, диаграмм, графиков.               

                                         
Развивать логическое и математическое мышление. 

                 Воспитывающая:

                                                
Воспитывать культуру речи,
построения плана

                                         
ответа, сознательной дисциплины, культуры   

                                         
конструктивного мышления, активность на уроке,

                                         
аккуратность при выполнении записи на доске и в

                                         
тетради, положительный интерес к изучаемому  

                                         
предмету.

              Тип урока:     Комбинированный.

             Вид
урока:
     
Урок 
решения задач  на  обработку статистических

                                         
данных, используя  данные в виде таблиц, 

                                        
диаграмм, графиков.               

             Методы
обучения: 
  Репродуктивный.  

            Материально-техническое
оснащение:

            –Математика Учебник Общеобразовательные
дисциплины   

                                                
Начальное и среднее профессиональное образование
 

                               
          
Автор М.И. Башмаков.

                                                 
Москва Издательский центр «Академия» 201

                    Математика Учебник
Общеобразовательные дисциплины    

                                               
для профессий и специальностей социально-экономического

                                               
профиля. Авторы В.А. Гусев, С.Г.Григорьев, С.В.Иволгина

                                               
Москва Издательский центр «Академия» 2011

                      Математика Задачник Общеобразовательные
дисциплины   

                                               
Начальное и среднее профессиональное образование
 

                                        
Автор М.И. Башмаков.         

                                                Москва
Издательский центр «Академия» 2012

                     – дидактический
раздаточный материал (карточки для   

                     индивидуальной
работы) 

Ход урока

1. Организационный момент урока

– сдача рапорта

      2. Целевая ориентация

       (
Преподаватель формулирует тему, цели  и задачи урока. Мотивирует учащихся к
учебной деятельности. Разъясняет последовательность этапов урока, приводящих к
достижению цели)

    3. Проверка
домашнего задания.

   4. Вопросы для закрепления изученного
материала.

1). Перечислить
основные этапы простейшей статистической обработки данных.

2). Что называют
объемом измерения?

3). Что такое размах
измерения?

4). Что называют
модой измерения?

5). Что называют
средним арифметическим?

6). Что называют
вариантой измерения?

7). Что называют
медианой измерения?

5.    
Формирование
навыков умственного труда

Решение задач у доски

Задача 1

В таблице распределения данных часть информации была утеряна.
Восстановить ее. Если известно, что объем измерения равен 20, размах измерения
равен 6, а мода равна 2.

              
Варианта

Сумма

– 1

0

3

Кратность

5

1

7

3

Решение

По определению. В графе «Сумма» должен стоять объём измерения, т.е. 20.
Этот объём равен сумме всех кратностей, значит, кратность варианты «0», равна
20 – (5+1+7+3) = 4.

Самая большая кратность  равна 7. Значит, над ней и расположена мода
измерения, равная 2. Так как размах равен 6, а наибольшая варианта равна 3, то
наименьшая варианта равна  3 – 6 = – 3. эту варианту помещаем в последнюю
свободную графу над кратностью 5.

 Ответ:

              
Варианта

Сумма

– 3

– 1

0

2

3

Кратность

5

1

4

7

3

20

Задача 2

По приведённой гистограмме распределения данных найти: количество
вариант измерения, объем, размах. моду измерения, наиболее удалённую от моды
варианту и ее кратность. Составить таблицу распределения данных.

Решение.

Количество вариант – это количество столбиков в гистограмме, т.е. 7.
Объем измерения равен сумме кратностей всех вариант, т.е. равен сумме высот
всех семи столбиков: 3+2+7+3+5+4+1 = 25. Таблица распределения выглядит так:

              
Варианта

Сумма

2

4

5

6

7

9

10

Кратность

3

2

7

3

5

4

1

25

1). Наибольшая варианта равна 10, а наименьшая  равна 2.

2). Размах равен 8. (10 – 2) =8.

3). Мода измерения равна 5, так как она встречалась чаще других – 7
раз.

4). На наибольшем расстоянии от моды находится варианта 10, её
кратность равна 1.

Определение: Если кратность варианты разделить на объем измерения,
то получится частота варианты. Это число показывает, какую
часть (долю) среди всех данных составляют данные, равные выбранной варианте.

Частоту варианты  можно измерить и в процентах.

Частота варианты
(в процентах) =

Задача 3

В десятых классах трёх школ микрорайона провели проверочный диктант по
русскому языку. По их результатам изображена гистограмма распределения
полученных отметок.

      а) Найти: общее
количество работ, частоту пятёрок, процентную частоту

         двоек.

б) Заполнить сводную таблицу распределения данных.

в) Построить гистограмму распределения частот ( в процентах).

г) Построить круговую диаграмму распределения частот (в процентах).

Решение.

а) На гистограмме указано, что двоек было 40, троек – 50, четвёрок –
75, пятёрок – 35. значит. Всего было 200 работ. Это есть объём измерения.
Частота пятёрок равна , а частота (в процентах) двоек
равна

б) Так как все кратности известны, то можно заполнить всю таблицу
распределения:

              
Варианта

Сумма

2

3

4

5

Кратность

40

50

75

35

200

Частота

0,2

0.25

0.375

0,175

1

Частота,%

20

25

37,5

17,5

100

в) Для построения гистограммы распределения частот (в процентах)
используем первую и четвёртую строки. Получим четыре вертикальных столбика.
Основания которых соответствуют полученным отметкам, а высоты равны найденным
частотам ( в процентах).

г) разделим круг на четыре сектора. Центральный угол сектора двойки
составляет 20% от 3600. т.е. 720. Центральный угол
сектора тройки составляет 25% от 3600, это прямой угол. Центральные
углы секторов четвёрки и пятёрки равны соответственно 1350 и 630.

 

5. Вопросы для
закрепления изученного материала.

1). Что называют частотой
варианты?

2). По какой формуле
измеряют частоту варианты в процентах?

6. Итог урока.
Домашнее задание.

Задача.

По приведённой гистограмме распределения данных найти:

а) количество вариант  и объем измерения;

б) размах и  моду измерения;

в) таблицу распределения данных;

г) среднее результатов измерения.

Решение.

1) Количество вариант – это количество столбиков в гистограмме, т.е. 9.
Объем измерения равен сумме кратностей всех вариант, т.е. равен сумме высот
всех девяти столбиков: 5+6+3+7+4+11+5+4+5 = 50. Таблица распределения выглядит
так:

              
Варианта

Сумма

2

3

4

5

6

7

8

9

10

Кратность

5

6

3

7

4

11

5

4

5

50

2). Наибольшая варианта равна 10, а наименьшая  равна 2.

Размах равен 8. (10 – 2) = 8.

 Мода измерения равна 7, так как она встречалась чаще других – 11 раз.

3). Таблица распределения выглядит так:

              
Варианта

Сумма

2

3

4

5

6

7

8

9

10

Кратность

5

6

3

7

4

11

5

4

5

50

4). Среднее арифметическое
– это частное от деления суммы всех результатов измерения на объём измерения.
Среднее удобно вычислять после того, как составлена таблица распределения. В
данном случае вычисления выглядят так:

summa2.png


3. Графическое представление информации.
Распределение данных измерения рационально задавать в табличном виде. Однако нам известно, что и для функций есть табличный способ их задания. Таблицы являются связующим звеном. С их помощью осуществляется переход от распределения данных к функциям и графикам.

График распределения выборки является графическим представлением информации. Согласно табличным сведениям из примеров выше отметим точки, у которых абсциссы — это номер варианта, а ординаты — кратность. Соединяем отрезками полученные точки:

Пример:

polygon1.png

Получили многоугольник или полигон распределения данных. Собственно, polygon  и переводится как «многоугольник».

Чтобы представить большой объём информации в графическом виде, можно использовать гистограммы или столбчатые диаграммы.

Пример:

diagr_1.png 

gistogramma.png

4. Числовые характеристики данных измерения.

У любого из нас имеются не только данные о рождении, но и ряд иных свойств и качеств.

Такие измерения имеют свои числовые характеристики.

Размах измерения — это разность между максимальной и минимальной вариантами.

Мода измерения — вариант, который в измерении встречался чаще других.

Медиана — число, стоящее в середине сгруппированного ряда.

Среднее значение  — среднее арифметическое, или просто среднее.  Для нахождения среднего значения нужно:

1) вычислить сумму всех данных измерения;

2) полученную сумму разделить на количество данных.

Добавить комментарий