Нормальное распределение | |
---|---|
Зеленая линия соответствует стандартному нормальному распределениюПлотность вероятности |
|
Цвета на этом графике соответствуют графику наверхуФункция распределения |
|
Обозначение | |
Параметры |
μ — коэффициент сдвига (вещественный) σ > 0 — коэффициент масштаба (вещественный, строго положительный) |
Носитель | |
Плотность вероятности | |
Функция распределения | |
Математическое ожидание | |
Медиана | |
Мода | |
Дисперсия | |
Коэффициент асимметрии | |
Коэффициент эксцесса | |
Дифференциальная энтропия | |
Производящая функция моментов | |
Характеристическая функция |
Норма́льное распределе́ние[1][2], также называемое распределением Гаусса или Гаусса — Лапласа[3], или колоколообразная кривая — непрерывное распределение вероятностей с пиком в центре и симметричными боковыми сторонами, которое в одномерном случае задаётся функцией плотности вероятности, совпадающей с функцией Гаусса:
- ,
- где параметр — математическое ожидание (среднее значение), медиана и мода распределения, а параметр — среднеквадратическое отклонение, — дисперсия распределения.
Таким образом, одномерное нормальное распределение является двухпараметрическим семейством распределений, которое принадлежит экспоненциальному классу распределений[4]. Многомерный случай описан в статье «Многомерное нормальное распределение».
Стандартным нормальным распределением называется нормальное распределение с математическим ожиданием и стандартным отклонением
Общие сведения[править | править код]
Если величина является суммой многих случайных слабо взаимозависимых величин, каждая из которых вносит малый вклад относительно общей суммы, то центрированное и нормированное распределение такой величины при достаточно большом числе слагаемых стремится к нормальному распределению.
Это следует из центральной предельной теоремы теории вероятностей. В окружающем нас мире часто встречаются величины, значение которых определяется совокупностью многих независимых факторов. Этот факт, а также то, что распределение считалось типичным, обычным, привели к тому, что в конце XIX века стал использоваться термин «нормальное распределение». Нормальное распределение играет заметную роль во многих областях науки, например в математической статистике и статистической физике.
Случайная величина, имеющая нормальное распределение, называется нормальной, или гауссовской, случайной величиной.
Определения[править | править код]
Стандартное нормальное распределение[править | править код]
Наиболее простой случай нормального распределения — стандартное нормальное распределение — частный случай, когда и Его плотность вероятности равна:
Множитель в выражении обеспечивает условие нормировки интеграла [5]. Поскольку множитель в экспоненте обеспечивает дисперсию равную единице, то и стандартное отклонение равно 1. Функция симметрична в точке её значение в ней максимально и равно Точки перегиба функции: и
Гаусс называл стандартным нормальным распределение с то есть:
Нормальное распределение с параметрами μ, σ[править | править код]
Каждое нормальное распределение — это вариант стандартного нормального распределения, область значений которого растягивается множителем (стандартное отклонение) и переносится на (математическое ожидание):
являются параметрами нормального распределения. Плотность вероятности должна нормироваться так что интеграл равен 1.
Если — стандартная нормальная случайная величина, то величина будет иметь нормальное распределение с математическим ожиданием и стандартным отклонением Наоборот, если — нормальная величина с параметрами и то будет иметь стандартное нормальное распределение.
Если в экспоненте плотности вероятности раскрыть скобки и учитывать, что , то:
Таким образом, плотность вероятности каждого нормального распределения представляет собой экспоненту квадратичной функции:
- где
Отсюда можно выразить среднее значение как а дисперсию как Для стандартного нормального распределения и
Обозначение[править | править код]
Плотность вероятности стандартного нормального распределения (с нулевым средним и единичной дисперсией) часто обозначается греческой буквой (фи)[6]. Также достаточно часто используется альтернативная формы греческой буквы фи .
Нормальное распределение часто обозначается или [7]. Если случайная величина распределена по нормальному закону со средним и вариацией то пишут:
Функция распределения[править | править код]
Функция распределения стандартного нормального распределения (нормальное интегральное распределение) обычно обозначается заглавной греческой буквой (фи) и представляет собой интеграл:
С ней связана функция ошибок (интеграл вероятности) дающий вероятность того, что нормальная случайная величина со средним 0 и вариацией 1/2 попадёт в отрезок :
Эти интегралы не выражаются в элементарных функциях и называются специальными функциями. Многие их численные приближения известны. См. ниже.
Функции связаны, в частности, соотношением:
- .
Нормальное распределение с плотностью средним и отклонением имеет следующую функцию распределения:
Можно использовать функцию — она даст вероятность того, что значение стандартной нормальной случайной величины превысит :
- .
График стандартной нормальной функции распределения имеет 2-кратную вращательную симметрию относительно точки (0;1/2), то есть Её неопределенный интеграл равен:
Функция распределения стандартной нормальной случайной величины может быть разложена с помощью метода интегрирования по частям в ряд:
где знак означает двойной факториал.
Асимптотическое разложение функции распределения для больших может быть также произведено интегрированием по частям.
Стандартное отклонение[править | править код]
Правило 68-95-99,7.
Для нормального распределения количество значений, отличающихся от среднего на число, меньшее чем одно стандартное отклонение, составляют 68,27 % выборок. В то же время количество значений, отличающиеся от среднего на два стандартных отклонения, составляют 95,45 %, а на три стандартных отклонения — 99,73 %.
Около 68 % значений из нормального распределения находятся на расстоянии не более одного стандартного отклонения σ от среднего; около 95 % значений лежат расстоянии не более двух стандартных отклонений; и 99,7 % не более трёх. Этот факт является частным случаем правила 3 сигм для нормальной выборки.
Более точно, вероятность получить нормальное число в интервале между и равна:
С точностью до 12 значащих цифр значения для приведены в таблице[8]:
OEIS | ||||
---|---|---|---|---|
1 | 0,682689492137 | 0,317310507863 |
3,15148718753 |
A178647 |
2 | 0,954499736104 | 0,045500263896 |
21,9778945080 |
A110894 |
3 | 0,997300203937 | 0,002699796063 |
370,398347345 |
A270712 |
4 | 0,999936657516 | 0,000063342484 |
15787.1927673 |
|
5 | 0,999999426697 | 0,000000573303 |
1744277,89362 |
|
6 | 0,999999998027 | 0,000000001973 |
506797345,897 |
Свойства[править | править код]
Моменты[править | править код]
Моментами и абсолютными моментами случайной величины называются математические ожидания случайных величин и соответственно. Если математическое ожидание случайной величины то эти параметры называются центральными моментами. В большинстве случаев представляют интерес моменты для целых
Если имеет нормальное распределение, то для неё существуют (конечные) моменты при всех с действительной частью больше −1. Для неотрицательных целых центральные моменты таковы:
Здесь — натуральное число, а запись означает двойной факториал числа то есть (поскольку в данном случае нечётно) произведение всех нечётных чисел от 1 до
Центральные абсолютные моменты для неотрицательных целых таковы:
Последняя формула справедлива также для произвольных .
Преобразование Фурье и характеристическая функция[править | править код]
Преобразование Фурье нормальной плотности вероятности с математическим ожиданием стандартным отклонением равно[9]:
- где есть мнимая единица.
Если математическое ожидание то первый множитель равен 1, и преобразование Фурье, с точностью до константы есть нормальная плотность вероятности на частотных интервалах, с математическим ожиданием равным 0 и стандартным отклонением В частности, стандартное нормальное распределение есть собственная функция от преобразования Фурье.
В теории вероятности, преобразование Фурье плотности распределения действительной случайной величины близко связано с характеристической функцией этой величины, которая определена как математическое ожидание от и является функцией вещественной переменной (частотный параметр преобразования Фурье). Определение может быть распространено и на комплексную переменную [10]. Соотношение записывается так:
Бесконечная делимость[править | править код]
Нормальное распределение является бесконечно делимым.
Если случайные величины и независимы и имеют нормальное распределение с математическими ожиданиями и и дисперсиями и соответственно, то также имеет нормальное распределение с математическим ожиданием и дисперсией
Отсюда вытекает, что нормальная случайная величина представима как сумма произвольного числа независимых нормальных случайных величин.
Максимальная энтропия[править | править код]
Нормальное распределение имеет максимальную дифференциальную энтропию среди всех непрерывных распределений, дисперсия которых не превышает заданную величину[11][12].
Правило трёх сигм для гауссовской случайной величины[править | править код]
График плотности вероятности нормального распределения и процент попадания случайной величины на отрезки, равные среднеквадратическому отклонению.
Правило трёх сигм () — практически все значения нормально распределённой случайной величины лежат в интервале:
- где — математическое ожидание и параметр нормальной случайной величины.
Более точно — приблизительно с вероятностью 0,9973 значение нормально распределённой случайной величины лежит в указанном интервале.
Моделирование нормальных псевдослучайных величин[править | править код]
При компьютерном моделировании, особенно при применении метода Монте-Карло, желательно использовать величины, распределенные по нормальному закону. Многие алгоритмы дают стандартные нормальные величины, так как нормальную величину можно получить как:
- где Z — стандартная нормальная величина.
Алгоритмы также используют различные преобразования равномерных величин.
Простейшие приближённые методы моделирования основываются на центральной предельной теореме. Если сложить достаточно большое количество независимых одинаково распределённых величин с конечной дисперсией, то сумма будет иметь распределение, близкое к нормальному. Например, если сложить 100 независимых стандартно равномерно распределённых случайных величин, то распределение суммы будет приближённо нормальным.
Для программного генерирования нормально распределённых псевдослучайных величин предпочтительнее использовать преобразование Бокса — Мюллера. Оно позволяет генерировать одну нормально распределённую величину на базе одной равномерно распределённой.
Также существует алгоритм Зиккурат, который работает даже быстрее преобразования Бокса — Мюллера. Тем не менее, сложнее в реализации, но его применение оправдано в случаях, когда требуется генерирование очень большого числа неравномерно распределённых случайных чисел.
Нормальное распределение в природе и приложениях[править | править код]
Нормальное распределение часто встречается в природе. Например, следующие случайные величины хорошо моделируются нормальным распределением:
- отклонение при стрельбе;
- погрешности измерений (однако погрешности некоторых измерительных приборов имеют иное распределение);
- некоторые характеристики живых организмов в популяции.
Такое широкое распространение этого распределения связано с тем, что оно является бесконечно делимым непрерывным распределением с конечной дисперсией. Поэтому к нему в пределе приближаются некоторые другие, например биномиальное и пуассоновское. Этим распределением моделируются многие недетерминированные физические процессы[13].
Многомерное нормальное распределение используется при исследовании многомерных случайных величин (случайных векторов). Одним из многочисленных примеров таких приложений является исследование параметров личности человека в психологии и психиатрии.
Связь с другими распределениями[править | править код]
- Отношение квадратов двух стандартных нормальных случайных величин имеет распределение Фишера со степенями свободы
История[править | править код]
Впервые нормальное распределение как предел биномиального распределения при появилось в 1738 году во втором издании работы Муавра «Доктрина случайностей»[en][18]. Это было первое доказательство частного случая центральной предельной теоремы. В 1809 году Гаусс в сочинении «Теория движения небесных тел» ввёл это распределение как возникающее в результате многократных измерений движения небесных тел. Однако Гаусс вывел формулу для действительных случайных величин из принципа достижения максимума совместной плотности всех измерений в точке с координатами, равными среднему всех измерений. Этот принцип впоследствии подвергался критике. В 1812 году Лаплас в теореме Муавра — Лапласа обобщил результат Муавра для произвольного биномиального распределения, то есть для сумм одинаково распределённых независимых бинарных величин[3].
См. также[править | править код]
- Аддитивный белый гауссовский шум
- Логнормальное распределение
- Равномерное распределение
- Центральная предельная теорема
- Двумерное нормальное распределение
- Многомерное нормальное распределение
- Распределение хи-квадрат
- Статистический критерий
- Частотное распределение
Примечания[править | править код]
- ↑ Вентцель Е. С. Теория вероятностей. — 10-е изд., стереотипное.. — М.: Academia, 2005. — 576 с. — ISBN 5-7695-2311-5.
- ↑ Ширяев А. Н. Вероятность. — М.: Наука, 1980.
- ↑ 1 2 Математический энциклопедический словарь. — М.: Советская энциклопедия, 1988. — С. 139—140.
- ↑ Wasserman L. All of Statistics. — New York, NY: Springer, 2004. — С. 142. — 433 с. — ISBN 978-1-4419-2322-6.
- ↑ Доказательство см. Гауссов интеграл
- ↑ Halperin, Hartley & Hoel, 1965, item 7.
- ↑ McPherson (1990)
- ↑ Wolfram|Alpha: Computational Knowledge Engine. Wolframalpha.com. Дата обращения: 3 марта 2017.
- ↑ Bryc (1995, p. 23)
- ↑ Bryc (1995, p. 24)
- ↑ Cover, Thomas M.; Thomas, Joy A. Elements of Information Theory. — John Wiley and Sons, 2006. — С. 254.
- ↑ Park, Sung Y.; Bera, Anil K. Maximum Entropy Autoregressive Conditional Heteroskedasticity Model (англ.) // Journal of Econometrics (англ.) (рус. : journal. — Elsevier, 2009. — P. 219—230. Архивировано 7 марта 2016 года.
- ↑ Талеб Н. Н. Чёрный лебедь. Под знаком непредсказуемости = The Black Swan: The Impact of the Highly Improbable. — КоЛибри, 2012. — 525 с. — ISBN 978-5-389-00573-0.
- ↑ Королюк, 1985, с. 135.
- ↑ Галкин В. М., Ерофеева Л. Н., Лещева С. В. Оценки параметра распределения Коши // Труды Нижегородского государственного технического университета им. Р. Е. Алексеева. — 2014. — № 2(104). — С. 314—319. — УДК 513.015.2(G).
- ↑ Lukacs, Eugene. A Characterization of the Normal Distribution (англ.) // The Annals of Mathematical Statistics (англ.) (рус. : journal. — 1942. — Vol. 13, no. 1. — P. 91—3. — ISSN 0003-4851. — doi:10.1214/aoms/1177731647. — JSTOR 2236166.
- ↑ Lehmann, E. L.ruen. Testing Statistical Hypotheses. — 2nd. — Springer (англ.) (рус., 1997. — С. 199. — ISBN 978-0-387-94919-2.
- ↑ The doctrine of chances; or, a method of calculating the probability of events in play, L., 1718, 1738, 1756; L., 1967 (репродуцир. изд.); Miscellanea analytica de scriebus et quadraturis, L., 1730.
Литература[править | править код]
- Королюк В. С., Портенко Н. И., Скороход А. В., Турбин А. Ф. Справочник по теории вероятностей и математической статистике. — М.: Наука, 1985. — 640 с.
- Halperin, Max; Hartley, Herman O.; Hoel, Paul G. Recommended Standards for Statistical Symbols and Notation. COPSS Committee on Symbols and Notation (англ.) // The American Statistician (англ.) (рус. : journal. — 1965. — Vol. 19, no. 3. — P. 12—14. — doi:10.2307/2681417. — JSTOR 2681417.
- McPherson, Glen. Statistics in Scientific Investigation: Its Basis, Application and Interpretation (англ.). — Springer-Verlag, 1990. — ISBN 978-0-387-97137-7.
- Bryc, Wlodzimierz. The Normal Distribution: Characterizations with Applications (англ.). — Springer-Verlag, 1995. — ISBN 978-0-387-97990-8.
Ссылки[править | править код]
- Таблица значений функции стандартного нормального распределения
- Онлайн расчёт вероятности нормального распределения
Нормальное распределение
Время на прочтение
7 мин
Количество просмотров 35K
Автор статьи: Виктория Ляликова
Нормальный закон распределения или закон Гаусса играет важную роль в статистике и занимает особое положение среди других законов. Вспомним как выглядит нормальное распределение
где a -математическое ожидание, – среднее квадратическое отклонение.
Тестирование данных на нормальность является достаточно частым этапом первичного анализа данных, так как большое количество статистических методов использует тот факт, что данные распределены нормально. Если выборка не подчиняется нормальному закону, тогда предположении о параметрических статистических тестах нарушаются, и должны использоваться непараметрические методы статистики
Нормальное распределение естественным образом возникает практически везде, где речь идет об измерении с ошибками. Например, координаты точки попадания снаряда, рост, вес человека имеют нормальный закон распределения. Более того, центральная предельная теорема вообще утверждает, что сумма большого числа слагаемых сходится к нормальной случайной величине, не зависимо от того, какое было исходное распределение у выборки. Таким образом, данная теорема устанавливает условия, при которых возникает нормальное распределение и нарушение которых ведет к распределению, отличному от нормального.
Можно выделить следующие этапы проверки выборочных значений на нормальность
-
Подсчет основных характеристик выборки. Выборочное среднее, медиана, коэффициенты асимметрии и эксцесса.
-
Графический. К этому методу относится построение гистограммы и график квантиль-квантиль или кратко QQ
-
Статистические методы. Данные методы вычисляют статистику по данным и определяют, какая вероятность того, что данные получены из нормального распределения
При нормальном распределении, которое симметрично, значения медианы и выборочного среднего будут одинаковы, значения эксцесса равно 3, а асимметрии равно нулю. Однако ситуация, когда все указанные выборочные характеристики равны именно таким значениям, практически не встречается. Поэтому после этапа подсчета выборочных характеристик можно переходить к графическому представлению выборочных данных.
Гистограмма позволяет представить выборочные данные в графическом виде – в виде столбчатой диаграммы, где данные делятся на заранее определенное количество групп. Вид гистограммы дает наглядное представление функции плотности вероятности некоторой случайной величины, построенной по выборке.
График QQ (квантиль-квантиль) является графиком вероятностей, который представляет собой графический метод сравнения двух распределений путем построения их квантилей. QQ график сравнивает наборы данных теоретических и выборочных (эмпирических) распределений. Если два сравниваемых распределения подобны, тогда точки на графике QQ будут приблизительно лежать на линии y=x. Основным шагом в построении графика QQ является расчет или оценка квантилей.
Существует множество статистических тестов, которые можно использовать для проверки выборочных значений на нормальность. Каждый тест использует разные предположения и рассматривает разные аспекты данных.
Чтобы применять статистические критерии сформулируем задачу. Выдвигаются две гипотезы H0 и H1, которые утверждают
H0 – Выборка подчиняется нормальному закону распределения
H1 – Выборка не подчиняется нормальному распределению
Установи уровень значимости alpha=0,05.
Теперь задача состоит в том, чтобы на основании какого-то критерия отвергнуть или принять основную нулевую гипотезу при уровне значимости
Критерий Шапиро-Уилка
Критерий Шапиро-Уилка основан на отношении оптимальной линейной несмещенной оценки дисперсии к ее обычной оценке методом максимального правдоподобия. Статистика критерия имеет вид
Числитель является квадратом оценки среднеквадратического отклонения Ллойда. Коэффициенты и критические значения статистики являются табулированными значениями. Если , то нулевая гипотеза нормальности распределения отклоняется на уровне значимости .
В Python функция содержится в библиотеке scipy.stats и возвращает как статистику, рассчитанную тестом, так и значение p. В Python можно использовать выборку до 5000 элементов. Интерпретация вывода осуществляется следующим образом
Если значение , тогда принимается гипотеза H0, в противном случае, т.е. если, , тогда принимается гипотеза H1, т.е. что выборка не подчиняется нормальному закону.
Критерий Д’Агостино
В данном критерии в качестве статистики для проверки нормальности распределения используется отношение оценки Даутона для стандартного отклонения к выборочному стандартному отклонению, оцененному методом максимального правдоподобия
В качестве статистики критерия Д’Агостино используется величина
значение которой рассчитывается на основе центральной предельной теоремы, которая утверждает, что при
гдестандартная нормальная случайная величина.
Критические значения являются табулированными значениями. Гипотеза нормальности принимается, если значение статистики лежит в интервале критических значений. Данный критерий показывает хорошую мощность против большого спектра альтернатив, по мощности немного уступая критерию Шапиро-Уилка.
В Python функция normaltest() также содержится в библиотеке scipy.stats и возвращает статистику теста и значение p. Интерпретация результата аналогична результатам в критерии Шапиро-Уилка.
Критерий согласия– Пирсона
Данный критерий является одним из наиболее распространенных критериев проверки гипотез о виде закона распределения и позволяет проверить значимость расхождения эмпирических (наблюдаемых) и теоретических (ожидаемых) частот. Таким образом, данный критерий позволяет проверить гипотезу о принадлежности наблюдаемой выборки некоторому теоретическому закону. Можно сказать, что критерий является универсальным, так как позволяет проверить принадлежность выборочных значений практическому любому закону распределения.
Для решения задачи используется статистика – Пирсона
где – эмпирические частоты (подсчитывается число элементов выборки, попавших в интервал), – теоретические частоты. Подсчитывается критическое значение . Если , отклоняется гипотеза о принадлежности выборки нормальному распределению и принимается, если .
Теперь перейдем к практической части. Для демонстрации функций будем использовать Dataset, взятый с сайта kaggle.com по прогнозированию инсульта по 11 клиническим характеристикам.
Загружаем необходимые библиотеки
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
Загружаем датасет
data_healthcares = pd.read_csv('E:/vika/healthcare-dataset-stroke-data.csv')
Набор состоит из 5110 строк и 12 столбцов.
Посмотрим на основные характеристики, каждого признака.data_healthcares.describe()
Из данных характеристик можно увидеть, что есть пропущенные значения в показателях индекс массы тела. Посчитаем количество пропущенных значений.
Если бы нам необходимо было делать модель для прогноза, то пропущенные значения bmi являются достаточно большой проблемой, в которой возникает вопрос как их восстановить. Поэтому будем предполагать, что значения столбца bmi (индекс массы тела) подчиняются нормальному закону распределения (предварительно был построен график распределения, поэтому сделано такое предположение). Но так как, на данный момент, у нас нет необходимости в построении модели для прогноза, то удалим все пропущенные значения
new_data=data_healthcares.dropna()
Теперь можем приступать к проверке выборочных значений показателя bmi на нормальность. Вычислим основные выборочные характеристики
Выборочная характеристика |
Код в python |
Значение характеристики |
Выборочное среднее |
new_data.bmi.mean() |
28,89 |
Выборочная медиана |
new_data.bmi.median() |
28,1 |
Выборочная мода |
new_data.bmi.mode() |
28,7 |
Выборочное среднеквадратическое отклонение |
new_data.bmi.std() |
7.854066729680458 |
Выборочный коэффициент асиметрии |
new_data.bmi.skew() |
1.0553402052962928 |
Выборочный эксцесс |
new_data.bmi.kurtosis() |
3.362659165623678 |
После вычислений основных характеристик мы видим, что выборочное среднее и медиана можно сказать принимают одинаковые значения и коэффициент эксцесса равен 3. Но, к сожалению коэффициент асимметрии равен 1, что вводить нас в некоторое замешательство, т.е. мы уже можем предположить, что значения bmi не подчиняются нормальному закону. Продолжим исследования, перейдем к построению графиков.
Строим гистограмму
fig = plt.figure
fig,ax= plt.subplots(figsize=(7,7))
sns.distplot(new_data.bmi,color='red',label='bmi',ax=ax)
plt.show()
Гистограмма достаточно хорошо напоминает нормальное распределение, кроме конечно, небольшого выброса справа, но смотрим дальше. Тут скорее, можно предположить, что значения bmi подчиняются распределению .
Строим QQ график. В python есть отличная функция qqplot()
, содержащаяся в библиотеке statsmodel
, которая позволяет строить как раз такие графики.
from statsmodels.graphics.gofplots import qqplot
from matplotlib import pyplot
qqplot(new_data.bmi, line=’s’)
Pyplot.show
Что имеем из графика QQ? Наши выборочные значений имеют хвосты слева и справа, и также в правом верхнем углу значения становятся разреженными.
На основе данных графика можно сделать вывод, что значения bmi не подчиняются нормальному закону распределения. Рядом приведен пример QQ графика распределения хи-квадрат с 8 степенями свободы из выборки в 1000 значений.
Для примера построим график QQ для выборки из нормального распределения с такими же показателями стандартного отклонения и среднего, как у bmi.
std=new_data.bmi.std() # вычисляем отклонение
mean=new_data.bmi.mean() #вычисляем среднее
Z=np.random.randn(4909)*std+mean # моделируем нормальное распределение
qqplot(Z,line='s') # строим график
pyplot.show()
Продолжим исследования. Перейдем к статистическим критериям. Будем использовать критерий Шапиро-Уилка и Д’Агостино, чтобы окончательно принять или опровергнуть предположение о нормальном распределении. Для использования критериев подключим библиотеки
from scipy.stats import shapiro
from scipy.stats import normaltest
shapiro(new_data.bmi)
ShapiroResult(statistic=0.9535483717918396, pvalue=6.623218133972133e-37)
Normaltest(new_data.bmi)
NormaltestResult(statistic=1021.1795052962864, pvalue=1.793444363882936e-222)
После применения двух тестов мы имеем, что значение p-value намного меньше заданного критического значения alpha , значит выборочные значения не принадлежат нормальному закону.
Конечно, мы рассмотрели не все тесты на нормальности, которые существуют. Какие можно дать рекомендации по проверке выборочных значений на нормальность. Лучше использовать все возможные варианты, если они уместны.
На этом все. Еще хочу порекомендовать бесплатный вебинар, который 15 июня пройдет на платформе OTUS в рамках запуска курса Математика для Data Science. На вебинаре расскажут про несколько часто используемых подходов в анализе данных, а также разберут, какие математические идеи работают у них под капотом и почему эти подходы вообще работают так, как нам нужно. Регистрация на вебинар доступна по этой ссылке.
Нормальное распределение
17 авг. 2022 г.
читать 3 мин
Нормальное распределение является наиболее распространенным в статистике распределением вероятностей.
Нормальные распределения имеют следующие особенности:
- Форма колокола
- Симметричный
- Среднее и медиана равны; оба расположены в центре распределения
- Около 68% данных находятся в пределах одного стандартного отклонения от среднего
- Около 95% данных находятся в пределах двух стандартных отклонений от среднего
- Около 99,7% данных находятся в пределах трех стандартных отклонений от среднего значения.
Последние три пункта известны как эмпирическое правило , иногда называемое правилом 68-95-99,7 .
Связанный: Эмпирическое правило (практические задачи)
Как нарисовать нормальную кривую
Чтобы нарисовать нормальную кривую, нам нужно знать среднее значение и стандартное отклонение.
Пример 1. Предположим, что рост мальчиков в определенной школе распределен нормально со средним значением μ = 70 дюймов и стандартным отклонением σ = 2 дюйма. Нарисуйте нормальную кривую.
Шаг 1: Нарисуйте нормальную кривую.
Шаг 2: Среднее значение 70 дюймов находится посередине.
Шаг 3: Каждое стандартное отклонение равно расстоянию в 2 дюйма.
Пример 2: Предположим, что вес определенного вида выдр нормально распределен со средним значением μ = 30 фунтов и стандартным отклонением σ = 5 фунтов. Нарисуйте нормальную кривую.
Шаг 1: Нарисуйте нормальную кривую.
Шаг 2: Среднее значение 30 фунтов находится посередине.
Шаг 3: Каждое стандартное отклонение соответствует расстоянию в 5 фунтов.
Как найти проценты, используя нормальное распределение
Эмпирическое правило , иногда называемое правилом 68-95-99,7 , гласит, что для случайной величины с нормальным распределением 68 % данных находятся в пределах одного стандартного отклонения от среднего, 95 % — в пределах двух стандартных отклонений от среднего и 99,7% находятся в пределах трех стандартных отклонений от среднего значения.
Используя это правило, мы можем ответить на вопросы о процентах.
Пример: предположим, что рост мальчиков в определенной школе нормально распределен со средним значением μ = 70 дюймов и стандартным отклонением σ = 2 дюйма.
Приблизительно какой процент мальчиков в этой школе выше 74 дюймов?
Решение:
Шаг 1: Нарисуйте нормальное распределение со средним значением μ = 70 дюймов и стандартным отклонением σ = 2 дюйма.
Шаг 2: Рост 74 дюйма на два стандартных отклонения выше среднего. Добавьте проценты выше этой точки в нормальное распределение.
2,35% + 0,15% = 2,5%
Приблизительно 2,5% мальчиков в этой школе выше 74 дюймов.
Приблизительно какой процент мальчиков в этой школе имеет рост от 68 до 72 дюймов?
Решение:
Шаг 1: Нарисуйте нормальное распределение со средним значением μ = 70 дюймов и стандартным отклонением σ = 2 дюйма.
Шаг 2: Высота 68 дюймов и 72 дюйма на одно стандартное отклонение ниже и выше среднего значения соответственно. Просто добавьте проценты между этими двумя точками в нормальном распределении.
34% + 34% = 68%
Приблизительно 68% мальчиков в этой школе имеют рост от 68 до 72 дюймов.
Как найти количество, используя нормальное распределение
Мы также можем использовать эмпирическое правило, чтобы ответить на вопросы о подсчетах.
Пример: предположим, что вес определенного вида выдр распределен нормально со средним значением μ = 30 фунтов и стандартным отклонением σ = 5 фунтов.
В одной колонии 200 таких выдр. Примерно сколько из этих выдр весят более 35 фунтов?
Решение:
Шаг 1: Нарисуйте нормальное распределение со средним значением μ = 30 фунтов и стандартным отклонением σ = 5 фунтов.
Шаг 2: Вес 35 фунтов превышает среднее значение на одно стандартное отклонение. Добавьте проценты выше этой точки в нормальное распределение.
13,5% + 2,35% + 0,15% = 16%
Шаг 3: Поскольку в колонии 200 выдр, 16% от 200 = 0,16 * 200 = 32 .
Приблизительно 32 выдры в этой колонии весят более 35 фунтов.
Приблизительно сколько выдр в этой колонии весят менее 30 фунтов?
Вместо того, чтобы проходить все шаги, которые мы только что сделали выше, мы можем признать, что медиана нормального распределения равна среднему значению, которое в данном случае составляет 30 фунтов.
Это означает, что половина выдр весит более 30 фунтов, а половина – менее 30 фунтов. Это означает, что 50% из 200 выдр весят менее 30 фунтов, поэтому 0,5 * 200 = 100 выдр .
Дополнительные ресурсы
Следующие руководства предлагают дополнительную информацию о нормальном распределении:
6 реальных примеров нормального распределения
Нормальное распределение против t-распределения: разница
Как сделать кривую нормального распределения в Excel
Как сделать кривую нормального распределения в Python
В статье подробно показано, что такое нормальный закон распределения случайной величины и как им пользоваться при решении практически задач.
Нормальное распределение в статистике
История закона насчитывает 300 лет. Первым открывателем стал Абрахам де Муавр, который придумал аппроксимацию биномиального распределения еще 1733 году. Через много лет Карл Фридрих Гаусс (1809 г.) и Пьер-Симон Лаплас (1812 г.) вывели математические функции.
Лаплас также обнаружил замечательную закономерность и сформулировал центральную предельную теорему (ЦПТ), согласно которой сумма большого количества малых и независимых величин имеет нормальное распределение.
Нормальный закон не является фиксированным уравнением зависимости одной переменной от другой. Фиксируется только характер этой зависимости. Конкретная форма распределения задается специальными параметрами. Например, у = аx + b – это уравнение прямой. Однако где конкретно она проходит и под каким наклоном, определяется параметрами а и b. Также и с нормальным распределением. Ясно, что это функция, которая описывает тенденцию высокой концентрации значений около центра, но ее точная форма задается специальными параметрами.
Кривая нормального распределения Гаусса имеет следующий вид.
График нормального распределения напоминает колокол, поэтому можно встретить название колоколообразная кривая. У графика имеется «горб» в середине и резкое снижение плотности по краям. В этом заключается суть нормального распределения. Вероятность того, что случайная величина окажется около центра гораздо выше, чем то, что она сильно отклонится от середины.
На рисунке выше изображены два участка под кривой Гаусса: синий и зеленый. Основания, т.е. интервалы, у обоих участков равны. Но заметно отличаются высоты. Синий участок удален от центра, и имеет существенно меньшую высоту, чем зеленый, который находится в самом центре распределения. Следовательно, отличаются и площади, то бишь вероятности попадания в обозначенные интервалы.
Формула нормального распределения (плотности) следующая.
Формула состоит из двух математических констант:
π – число пи 3,142;
е – основание натурального логарифма 2,718;
двух изменяемых параметров, которые задают форму конкретной кривой:
m – математическое ожидание (в различных источниках могут использоваться другие обозначения, например, µ или a);
σ2 – дисперсия;
ну и сама переменная x, для которой высчитывается плотность вероятности.
Конкретная форма нормального распределения зависит от 2-х параметров: математического ожидания (m) и дисперсии (σ2). Кратко обозначается N(m, σ2) или N(m, σ). Параметр m (матожидание) определяет центр распределения, которому соответствует максимальная высота графика. Дисперсия σ2 характеризует размах вариации, то есть «размазанность» данных.
Параметр математического ожидания смещает центр распределения вправо или влево, не влияя на саму форму кривой плотности.
А вот дисперсия определяет остроконечность кривой. Когда данные имеют малый разброс, то вся их масса концентрируется у центра. Если же у данных большой разброс, то они «размазываются» по широкому диапазону.
Плотность распределения не имеет прямого практического применения. Для расчета вероятностей нужно проинтегрировать функцию плотности.
Вероятность того, что случайная величина окажется меньше некоторого значения x, определяется функцией нормального распределения:
Используя математические свойства любого непрерывного распределения, несложно рассчитать и любые другие вероятности, так как
P(a ≤ X < b) = Ф(b) – Ф(a)
Стандартное нормальное распределение
Нормальное распределение зависит от параметров средней и дисперсии, из-за чего плохо видны его свойства. Хорошо бы иметь некоторый эталон распределения, не зависящий от масштаба данных. И он существует. Называется стандартным нормальным распределением. На самом деле это обычное нормальное нормальное распределение, только с параметрами математического ожидания 0, а дисперсией – 1, кратко записывается N(0, 1).
Любое нормальное распределение легко превращается в стандартное путем нормирования:
где z – новая переменная, которая используется вместо x;
m – математическое ожидание;
σ – стандартное отклонение.
Для выборочных данных берутся оценки:
Среднее арифметическое и дисперсия новой переменной z теперь также равны 0 и 1 соответственно. В этом легко убедиться с помощью элементарных алгебраических преобразований.
В литературе встречается название z-оценка. Это оно самое – нормированные данные. Z-оценку можно напрямую сравнивать с теоретическими вероятностями, т.к. ее масштаб совпадает с эталоном.
Посмотрим теперь, как выглядит плотность стандартного нормального распределения (для z-оценок). Напомню, что функция Гаусса имеет вид:
Подставим вместо (x-m)/σ букву z, а вместо σ – единицу, получим функцию плотности стандартного нормального распределения:
График плотности:
Центр, как и ожидалось, находится в точке 0. В этой же точке функция Гаусса достигает своего максимума, что соответствует принятию случайной величиной своего среднего значения (т.е. x-m=0). Плотность в этой точке равна 0,3989, что можно посчитать даже в уме, т.к. e0=1 и остается рассчитать только соотношение 1 на корень из 2 пи.
Таким образом, по графику хорошо видно, что значения, имеющие маленькие отклонения от средней, выпадают чаще других, а те, которые сильно отдалены от центра, встречаются значительно реже. Шкала оси абсцисс измеряется в стандартных отклонениях, что позволяет отвязаться от единиц измерения и получить универсальную структуру нормального распределения. Кривая Гаусса для нормированных данных отлично демонстрирует и другие свойства нормального распределения. Например, что оно является симметричным относительно оси ординат. В пределах ±1σ от средней арифметической сконцентрирована большая часть всех значений (прикидываем пока на глазок). В пределах ±2σ находятся большинство данных. В пределах ±3σ находятся почти все данные. Последнее свойство широко известно под названием правило трех сигм для нормального распределения.
Функция стандартного нормального распределения позволяет рассчитывать вероятности.
Понятное дело, вручную никто не считает. Все подсчитано и размещено в специальных таблицах, которые есть в конце любого учебника по статистике.
Таблица нормального распределения
Таблицы нормального распределения встречаются двух типов:
— таблица плотности;
— таблица функции (интеграла от плотности).
Таблица плотности используется редко. Тем не менее, посмотрим, как она выглядит. Допустим, нужно получить плотность для z = 1, т.е. плотность значения, отстоящего от матожидания на 1 сигму. Ниже показан кусок таблицы.
В зависимости от организации данных ищем нужное значение по названию столбца и строки. В нашем примере берем строку 1,0 и столбец 0, т.к. сотых долей нет. Искомое значение равно 0,2420 (0 перед 2420 опущен).
Функция Гаусса симметрична относительно оси ординат. Поэтому φ(z)= φ(-z), т.е. плотность для 1 тождественна плотности для -1, что отчетливо видно на рисунке.
Чтобы не тратить зря бумагу, таблицы печатают только для положительных значений.
На практике чаще используют значения функции стандартного нормального распределения, то есть вероятности для различных z.
В таких таблицах также содержатся только положительные значения. Поэтому для понимания и нахождения любых нужных вероятностей следует знать свойства стандартного нормального распределения.
Функция Ф(z) симметрична относительно своего значения 0,5 (а не оси ординат, как плотность). Отсюда справедливо равенство:
Это факт показан на картинке:
Значения функции Ф(-z) и Ф(z) делят график на 3 части. Причем верхняя и нижняя части равны (обозначены галочками). Для того, чтобы дополнить вероятность Ф(z) до 1, достаточно добавить недостающую величину Ф(-z). Получится равенство, указанное чуть выше.
Если нужно отыскать вероятность попадания в интервал (0; z), то есть вероятность отклонения от нуля в положительную сторону до некоторого количества стандартных отклонений, достаточно от значения функции стандартного нормального распределения отнять 0,5:
Для наглядности можно взглянуть на рисунок.
На кривой Гаусса, эта же ситуация выглядит как площадь от центра вправо до z.
Довольно часто аналитика интересует вероятность отклонения в обе стороны от нуля. А так как функция симметрична относительно центра, предыдущую формулу нужно умножить на 2:
Рисунок ниже.
Под кривой Гаусса это центральная часть, ограниченная выбранным значением –z слева и z справа.
Указанные свойства следует принять во внимание, т.к. табличные значения редко соответствуют интересующему интервалу.
Для облегчения задачи в учебниках обычно публикуют таблицы для функции вида:
Если нужна вероятность отклонения в обе стороны от нуля, то, как мы только что убедились, табличное значение для данной функции просто умножается на 2.
Теперь посмотрим на конкретные примеры. Ниже показана таблица стандартного нормального распределения. Найдем табличные значения для трех z: 1,64, 1,96 и 3.
Как понять смысл этих чисел? Начнем с z=1,64, для которого табличное значение составляет 0,4495. Проще всего пояснить смысл на рисунке.
То есть вероятность того, что стандартизованная нормально распределенная случайная величина попадет в интервал от 0 до 1,64, равна 0,4495. При решении задач обычно нужно рассчитать вероятность отклонения в обе стороны, поэтому умножим величину 0,4495 на 2 и получим примерно 0,9. Занимаемая площадь под кривой Гаусса показана ниже.
Таким образом, 90% всех нормально распределенных значений попадает в интервал ±1,64σ от средней арифметической. Я не случайно выбрал значение z=1,64, т.к. окрестность вокруг средней арифметической, занимающая 90% всей площади, иногда используется для проверки статистических гипотез и расчета доверительных интервалов. Если проверяемое значение не попадает в обозначенную область, то его наступление маловероятно (всего 10%).
Для проверки гипотез, однако, чаще используется интервал, накрывающий 95% всех значений. Половина вероятности от 0,95 – это 0,4750 (см. второе выделенное в таблице значение).
Для этой вероятности z=1,96. Т.е. в пределах почти ±2σ от средней находится 95% значений. Только 5% выпадают за эти пределы.
Еще одно интересное и часто используемое табличное значение соответствует z=3, оно равно по нашей таблице 0,4986. Умножим на 2 и получим 0,997. Значит, в рамках ±3σ от средней арифметической заключены почти все значения.
Так выглядит правило 3 сигм для нормального распределения на диаграмме.
С помощью статистических таблиц можно получить любую вероятность. Однако этот метод очень медленный, неудобный и сильно устарел. Сегодня все делается на компьютере. Далее переходим к практике расчетов в Excel.
В Excel есть несколько функций для подсчета вероятностей или обратных значений нормального распределения.
Функция НОРМ.СТ.РАСП
Функция НОРМ.СТ.РАСП предназначена для расчета плотности ϕ(z) или вероятности Φ(z) по нормированным данным (z).
=НОРМ.СТ.РАСП(z;интегральная)
z – значение стандартизованной переменной
интегральная – если 0, то рассчитывается плотность ϕ(z), если 1 – значение функции Ф(z), т.е. вероятность P(Z<z).
Рассчитаем плотность и значение функции для различных z: -3, -2, -1, 0, 1, 2, 3 (их укажем в ячейке А2).
Для расчета плотности потребуется формула =НОРМ.СТ.РАСП(A2;0). На диаграмме ниже – это красная точка.
Для расчета значения функции =НОРМ.СТ.РАСП(A2;1). На диаграмме – закрашенная площадь под нормальной кривой.
В реальности чаще приходится рассчитывать вероятность того, что случайная величина не выйдет за некоторые пределы от средней (в среднеквадратичных отклонениях, соответствующих переменной z), т.е. P(|Z|<z).
Определим, чему равна вероятность попадания случайной величины в пределы ±1z, ±2z и ±3z от нуля. Потребуется формула 2Ф(z)-1, в Excel =2*НОРМ.СТ.РАСП(A2;1)-1.
На диаграмме отлично видны основные основные свойства нормального распределения, включая правило трех сигм. Функция НОРМ.СТ.РАСП – это автоматическая таблица значений функции нормального распределения в Excel.
Может стоять и обратная задача: по имеющейся вероятности P(Z<z) найти стандартизованную величину z ,то есть квантиль стандартного нормального распределения.
Функция НОРМ.СТ.ОБР
НОРМ.СТ.ОБР рассчитывает обратное значение функции стандартного нормального распределения. Синтаксис состоит из одного параметра:
=НОРМ.СТ.ОБР(вероятность)
вероятность – это вероятность.
Данная формула используется так же часто, как и предыдущая, ведь по тем же таблицам искать приходится не только вероятности, но и квантили.
Например, при расчете доверительных интервалов задается доверительная вероятность, по которой нужно рассчитать величину z.
Учитывая то, что доверительный интервал состоит из верхней и нижней границы и то, что нормальное распределение симметрично относительно нуля, достаточно получить верхнюю границу (положительное отклонение). Нижняя граница берется с отрицательным знаком. Обозначим доверительную вероятность как γ (гамма), тогда верхняя граница доверительного интервала рассчитывается по следующей формуле.
Рассчитаем в Excel значения z (что соответствует отклонению от средней в сигмах) для нескольких вероятностей, включая те, которые наизусть знает любой статистик: 90%, 95% и 99%. В ячейке B2 укажем формулу: =НОРМ.СТ.ОБР((1+A2)/2). Меняя значение переменной (вероятности в ячейке А2) получим различные границы интервалов.
Доверительный интервал для 95% равен 1,96, то есть почти 2 среднеквадратичных отклонения. Отсюда легко даже в уме оценить возможный разброс нормальной случайной величины. В общем, доверительным вероятностям 90%, 95% и 99% соответствуют доверительные интервалы ±1,64, ±1,96 и ±2,58 σ.
В целом функции НОРМ.СТ.РАСП и НОРМ.СТ.ОБР позволяют произвести любой расчет, связанный с нормальным распределением. Но, чтобы облегчить и уменьшить количество действий, в Excel есть несколько других функций. Например, для расчета доверительных интервалов средней можно использовать ДОВЕРИТ.НОРМ. Для проверки статистической гипотезы о средней арифметической есть формула Z.ТЕСТ.
Рассмотрим еще пару полезных формул с примерами.
Функция НОРМ.РАСП
Функция НОРМ.РАСП отличается от НОРМ.СТ.РАСП лишь тем, что ее используют для обработки данных любого масштаба, а не только нормированных. Параметры нормального распределения указываются в синтаксисе.
=НОРМ.РАСП(x;среднее;стандартное_откл;интегральная)
x – значение (или ссылка на ячейку), для которого рассчитывается плотность или значение функции нормального распределения
среднее – математическое ожидание, используемое в качестве первого параметра модели нормального распределения
стандартное_откл – среднеквадратичное отклонение – второй параметр модели
интегральная – если 0, то рассчитывается плотность, если 1 – то значение функции, т.е. P(X<x).
Например, плотность для значения 15, которое извлекли из нормальной выборки с матожиданием 10, стандартным отклонением 3, рассчитывается так:
Если последний параметр поставить 1, то получим вероятность того, что нормальная случайная величина окажется меньше 15 при заданных параметрах распределения. Таким образом, вероятности можно рассчитывать напрямую по исходным данным.
Функция НОРМ.ОБР
Это квантиль нормального распределения, т.е. значение обратной функции. Синтаксис следующий.
=НОРМ.ОБР(вероятность;среднее;стандартное_откл)
вероятность – вероятность
среднее – матожидание
стандартное_откл – среднеквадратичное отклонение
Назначение то же, что и у НОРМ.СТ.ОБР, только функция работает с данными любого масштаба.
Пример показан в ролике в конце статьи.
Моделирование нормального распределения
Для некоторых задач требуется генерация нормальных случайных чисел. Готовой функции для этого нет. Однако В Excel есть две функции, которые возвращают случайные числа: СЛУЧМЕЖДУ и СЛЧИС. Первая выдает случайные равномерно распределенные целые числа в указанных пределах. Вторая функция генерирует равномерно распределенные случайные числа между 0 и 1. Чтобы сделать искусственную выборку с любым заданным распределением, нужна функция СЛЧИС.
Допустим, для проведения эксперимента необходимо получить выборку из нормально распределенной генеральной совокупности с матожиданием 10 и стандартным отклонением 3. Для одного случайного значения напишем формулу в Excel.
=НОРМ.ОБР(СЛЧИС();10;3)
Протянем ее на необходимое количество ячеек и нормальная выборка готова.
Для моделирования стандартизованных данных следует воспользоваться НОРМ.СТ.ОБР.
Процесс преобразования равномерных чисел в нормальные можно показать на следующей диаграмме. От равномерных вероятностей, которые генерируются формулой СЛЧИС, проведены горизонтальные линии до графика функции нормального распределения. Затем от точек пересечения вероятностей с графиком опущены проекции на горизонтальную ось.
На выходе получаются значения с характерной концентрацией около центра. Вот так обратный прогон через функцию нормального распределения превращает равномерные числа в нормальные. Excel позволяет за несколько секунд воспроизвести любое количество выборок любого размера.
Как обычно, прилагаю ролик, где все вышеописанное показывается в действии.
Скачать файл с примером.
Поделиться в социальных сетях:
Нормальным называют распределение вероятностей непрерывной случайной величины
, плотность которого имеет вид:
где
–
математическое ожидание,
–
среднее квадратическое отклонение
.
Вероятность того, что
примет
значение, принадлежащее интервалу
:
где
– функция Лапласа:
Вероятность того, что абсолютная
величина отклонения меньше положительного числа
:
В частности, при
справедливо
равенство:
Асимметрия, эксцесс,
мода и медиана нормального распределения соответственно равны:
, где
Правило трех сигм
Преобразуем формулу:
Положив
. В итоге получим
если
, и, следовательно,
, то
то есть вероятность того, что
отклонение по абсолютной величине будет меньше утроенного среднего квадратического отклонение, равна 0,9973.
Другими словами, вероятность того,
что абсолютная величина отклонения превысит утроенное среднее квадратическое отклонение, очень мала, а именно равна
0,0027. Это означает, что лишь в 0,27% случаев так может произойти. Такие
события исходя из принципа невозможности маловероятных
событий можно считать практически невозможными. В этом и состоит
сущность правила трех сигм: если случайная величина распределена нормально, то
абсолютная величина ее отклонения от математического ожидания не превосходит
утроенного среднего квадратического отклонения.
На практике правило трех сигм
применяют так: если распределение изучаемой случайной величины неизвестно, но
условие, указанное в приведенном правиле, выполняется, то есть основание
предполагать, что изучаемая величина распределена нормально; в противном случае
она не распределена нормально.
Смежные темы решебника:
- Таблица значений функции Лапласа
- Непрерывная случайная величина
- Показательный закон распределения случайной величины
- Равномерный закон распределения случайной величины
Пример 2
Ошибка
высотометра распределена нормально с математическим ожиданием 20 мм и средним
квадратичным отклонением 10 мм.
а) Найти
вероятность того, что отклонение ошибки от среднего ее значения не превзойдет 5
мм по абсолютной величине.
б) Какова
вероятность, что из 4 измерений два попадут в указанный интервал, а 2 – не
превысят 15 мм?
в)
Сформулируйте правило трех сигм для данной случайной величины и изобразите
схематично функции плотности вероятностей и распределения.
Решение
На сайте можно заказать решение контрольной или самостоятельной работы, домашнего задания, отдельных задач. Для этого вам нужно только связаться со мной:
ВКонтакте
WhatsApp
Telegram
Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту СберБанка. Опыт работы более 25 лет.
Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.
а) Вероятность того, что случайная величина, распределенная по
нормальному закону, отклонится от среднего не более чем на величину
:
В нашем
случае получаем:
б) Найдем
вероятность того, что отклонение ошибки от среднего значения не превзойдет 15
мм:
Пусть событие
– ошибки 2
измерений не превзойдут 5 мм и ошибки 2 измерений не превзойдут 0,8664 мм
– ошибка не
превзошла 5 мм;
– ошибка не
превзошла 15 мм
в)
Для заданной нормальной величины получаем следующее правило трех сигм:
Ошибка высотометра будет лежать в интервале:
Функция плотности вероятностей:
График плотности распределения нормально распределенной случайной величины
Функция распределения:
График функции
распределения нормально распределенной случайной величины
Задача 1
Среднее
количество осадков за июнь 19 см. Среднеквадратическое отклонение количества
осадков 5 см. Предполагая, что количество осадков нормально-распределенная
случайная величина найти вероятность того, что будет не менее 13 см осадков.
Какой уровень превзойдет количество осадков с вероятностью 0,95?
Задача 2
Найти
закон распределения среднего арифметического девяти измерений нормальной
случайной величины с параметрами m=1.0 σ=3.0. Чему равна вероятность того, что
модуль разности между средним арифметическим и математическим ожиданием
превысит 0,5?
Указание:
воспользоваться таблицами нормального распределения (функции Лапласа).
Задача 3
Отклонение
напряжения в сети переменного тока описывается нормальным законом
распределения. Дисперсия составляет 20 В. Какова вероятность при изменении
выйти за пределы требуемых 10% (22 В).
На сайте можно заказать решение контрольной или самостоятельной работы, домашнего задания, отдельных задач. Для этого вам нужно только связаться со мной:
ВКонтакте
WhatsApp
Telegram
Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту СберБанка. Опыт работы более 25 лет.
Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.
Задача 4
Автомат
штампует детали. Контролируется длина детали Х, которая распределена нормально
с математическим ожиданием (проектная длинна), равная 50 мм. Фактическая длина
изготовленных деталей не менее 32 и не более 68 мм. Найти вероятность того, что
длина наудачу взятой детали: а) больше 55 мм; б) меньше 40 мм.
Задача 5
Случайная
величина X распределена нормально с математическим ожиданием a=10и средним
квадратическим отклонением σ=5. Найти
интервал, симметричный относительно математического ожидания, в котором с
вероятностью 0,9973 попадает величина Х в результате испытания.
Задача 6
Заданы
математическое ожидание ax=19 и среднее квадратическое отклонение σ=4
нормально распределенной случайной величины X. Найти: 1) вероятность
того, что X примет значение, принадлежащее интервалу (α=15;
β=19); 2) вероятность того, что абсолютная величина отклонения значения
величины от математического ожидания окажется меньше δ=18.
Задача 7
Диаметр
выпускаемой детали – случайная величина, распределенная по нормальному закону с
математическим ожиданием и дисперсией, равными соответственно 10 см и 0,16 см2.
Найти вероятность того, что две взятые наудачу детали имеют отклонение от
математического ожидания по абсолютной величине не более 0,16 см.
Задача 8
Ошибка
прогноза температуры воздуха есть случайная величина с m=0,σ=2℃. Найти вероятность
того, что в течение недели ошибка прогноза трижды превысит по абсолютной
величине 4℃.
Задача 9
Непрерывная
случайная величина X распределена по нормальному
закону: X∈N(a,σ).
а) Написать
плотность распределения вероятностей и функцию распределения.
б) Найти
вероятность того, что в результате испытания случайная величина примет значение
из интервала (α,β).
в) Определить
приближенно минимальное и максимальное значения случайной величины X.
г) Найти
интервал, симметричный относительно математического ожидания a, в котором с
вероятностью 0,98 будут заключены значения X.
a=5; σ=1.3;
α=4; β=6
Задача 10
Производится измерение вала без
систематических ошибок. Случайные ошибки измерения X
подчинены нормальному закону с σx=10. Найти вероятность того, что измерение будет
произведено с ошибкой, превышающей по абсолютной величине 15 мм.
Задача 11
Высота
стебля озимой пшеницы – случайная величина, распределенная по нормальному закону
с параметрами a = 75 см, σ = 1 см. Найти вероятность того, что высота стебля:
а) окажется от 72 до 80 см; б) отклонится от среднего не более чем на 0,5 см.
Задача 12
Деталь,
изготовленная автоматом, считается годной, если отклонение контролируемого
размера от номинала не превышает 10 мм. Точность изготовления деталей
характеризуется средним квадратическим отклонением, при данной технологии
равным 5 мм.
а)
Считая, что отклонение размера детали от номинала есть нормально распределенная
случайная величина, найти долю годных деталей, изготовляемых автоматом.
б) Какой
должна быть точность изготовления, чтобы процент годных деталей повысился до
98?
в)
Написать выражение для функции плотности вероятности и распределения случайной
величины.
Задача 13
Диаметр
детали, изготовленной цехом, является случайной величиной, распределенной по
нормальному закону. Дисперсия ее равна 0,0001 см, а математическое ожидание –
2,5 см. Найдите границы, симметричные относительно математического ожидания, в
которых с вероятностью 0,9973 заключен диаметр наудачу взятой детали. Какова
вероятность того, что в серии из 1000 испытаний размер диаметра двух деталей
выйдет за найденные границы?
На сайте можно заказать решение контрольной или самостоятельной работы, домашнего задания, отдельных задач. Для этого вам нужно только связаться со мной:
ВКонтакте
WhatsApp
Telegram
Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту СберБанка. Опыт работы более 25 лет.
Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.
Задача 14
Предприятие
производит детали, размер которых распределен по нормальному закону с
математическим ожиданием 20 см и стандартным отклонением 2 см. Деталь будет
забракована, если ее размер отклонится от среднего (математического ожидания)
более, чем на 2 стандартных отклонения. Наугад выбрали две детали. Какова вероятность
того, что хотя бы одна из них будет забракована?
Задача 15
Диаметры
деталей распределены по нормальному закону. Среднее значение диаметра равно d=14 мм
, среднее квадратическое
отклонение σ=2 мм
. Найти вероятность того,
что диаметр наудачу взятой детали будет больше α=15 мм и не меньше β=19 мм; вероятность того, что диаметр детали
отклонится от стандартной длины не более, чем на Δ=1,5 мм.
Задача 16
В
электропечи установлена термопара, показывающая температуру с некоторой
ошибкой, распределенной по нормальному закону с нулевым математическим
ожиданием и средним квадратическим отклонением σ=10℃. В момент когда термопара
покажет температуру не ниже 600℃, печь автоматически отключается. Найти
вероятность того, что печь отключается при температуре не превышающей 540℃ (то
есть ошибка будет не меньше 30℃).
Задача 17
Длина
детали представляет собой нормальную случайную величину с математическим
ожиданием 40 мм и среднеквадратическим отклонением 3 мм. Найти:
а)
Вероятность того, что длина взятой наугад детали будет больше 34 мм и меньше 43
мм;
б)
Вероятность того, что длина взятой наугад детали отклонится от ее
математического ожидания не более, чем на 1,5 мм.
Задача 18
Случайное
отклонение размера детали от номинала распределены нормально. Математическое
ожидание размера детали равно 200 мм, среднее квадратическое отклонение равно
0,25 мм, стандартами считаются детали, размер которых заключен между 199,5 мм и
200,5 мм. Из-за нарушения технологии точность изготовления деталей уменьшилась
и характеризуется средним квадратическим отклонением 0,4 мм. На сколько
повысился процент бракованных деталей?
Задача 19
Случайная
величина X~N(1,22). Найти P{2
На сайте можно заказать решение контрольной или самостоятельной работы, домашнего задания, отдельных задач. Для этого вам нужно только связаться со мной:
ВКонтакте
WhatsApp
Telegram
Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту СберБанка. Опыт работы более 25 лет.
Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.
Задача 20
Заряд пороха для охотничьего ружья
должен составлять 2,3 г. Заряд отвешивается на весах, имеющих ошибку
взвешивания, распределенную по нормальному закону со средним квадратическим
отклонением, равным 0,2 г. Определить вероятность повреждения ружья, если максимально
допустимый вес заряда составляет 2,8 г.
Задача 21
Заряд
охотничьего пороха отвешивается на весах, имеющих среднеквадратическую ошибку
взвешивания 150 мг. Номинальный вес порохового заряда 2,3 г. Определить
вероятность повреждения ружья, если максимально допустимый вес порохового
заряда 2,5 г.
Задача 21
Найти
вероятность попадания снарядов в интервал (α1=10.7; α2=11.2).
Если случайная величина X распределена по
нормальному закону с параметрами m=11;
σ=0.2.
Задача 22
Плотность
вероятности распределения случайной величины имеет вид
Найти
вероятность того, что из 3 независимых случайных величин, распределенных по
данному закону, 3 окажутся на интервале (-∞;5).
Задача 23
Непрерывная
случайная величина имеет нормальное распределение. Её математическое ожидание
равно 12, среднее квадратичное отклонение равно 2. Найти вероятность того, что
в результате испытания случайная величина примет значение в интервале (8,14)
Задача 24
Вероятность
попадания нормально распределенной случайной величины с математическим
ожиданием m=4 в интервал (3;5) равна 0,6. Найти дисперсию данной случайной
величины.
Задача 25
В
нормально распределенной совокупности 17% значений случайной величины X
меньше 13% и 47% значений случайной величины X
больше 19%. Найти параметры этой совокупности.
Задача 26
Студенты
мужского пола образовательного учреждения были обследованы на предмет
физических характеристик и обнаружили, что средний рост составляет 182 см, со
стандартным отклонением 6 см. Предполагая нормальное распределение для роста,
найдите вероятность того, что конкретный студент-мужчина имеет рост более 185
см.