Когда используется формула байеса. Формула полной вероятности

Понимание (изучение) вероятностей начинается там, где заканчивается классический курс теории вероятностей. Почему-то в школе и вузе преподают частотную (комбинаторную) вероятность, или вероятность того, что определено. Человеческий мозг устроен иначе. У нас имеются теории (мнения) по поводу всего на свете. Мы субъективно оцениваем вероятность тех или иных событий. Мы также можем изменить свое мнение, если произошло нечто неожиданное. Это то, что мы делаем каждый день. Например, если вы встречаетесь с подругой у памятника Пушкину, вы понимаете, будет ли она вовремя, опоздает на 15 минут или полчаса. Но выйдя на площадь из метро, и увидев 20 см свежего снега, вы обновите свои вероятности, чтобы учесть новые данные.

Такой подход был впервые описан Байесом и Лапласом. Хотя Лаплас , я думаю, что он не был знаком с работой Байеса. По непонятной мне причине байесовский подход довольно слабо представлен в русскоязычной литературе. Для сравнения отмечу, что по запросу Байес Ozon выдает 4 ссылки, а Amazon – около 1000.

Настоящая заметка является переводом небольшой английской книги, и даст вам интуитивное понимание того, как использовать теорему Байеса. Она начинается с определения, а далее использует примеры в Excel, которые позволят отслеживать весь ход рассуждений.

Scott Hartshorn. Bayes’ Theorem Examples: A Visual Guide For Beginners. – 2016, 82 p.

Скачать заметку в формате или , примеры в формате

Определение теоремы Байеса и интуитивное объяснение

Теорема Байеса

где A и B – события, P(A) и P(B) – вероятности A и B без учета друг друга, P(A|B) – условная вероятность события А при условии, что B истинно, P (B|A) – условная вероятность B, если А истинно.

На самом деле, уравнение несколько сложнее, но для большинства применений достаточно и этого. Результат вычислений – это просто нормализованное взвешенное значение на основе первоначального предположения. Итак, возьмите первоначальное предположение, взвесьте его по отношению к другим первоначальным возможностям, нормализуйте на основе наблюдения:

В ходе решения проблем мы будем выполнять следующие шаги (далее они станут понятнее):

  1. Определите, какую из вероятностей мы хотим вычислить, а какую мы наблюдаем.
  2. Оцените начальные вероятности для всех возможных вариантов.
  3. Предположив истинность некоего начального варианта, рассчитайте вероятность нашего наблюдения; и так для всех начальных вариантов.
  4. Найдите взвешенную величину, как произведение начальной вероятности (шаг 2) и условной вероятности (шаг 3), и так для каждого из начальных вариантов.
  5. Нормализуйте результаты: разделите каждую взвешенную вероятность (шаг 4) на сумму всех взвешенных вероятностей; сумма нормализованных вероятностей = 1.
  6. Повторите шаги 2–5 для каждого нового наблюдения.

Пример 1. Простой пример с костями

Предположим, у вашего друга есть 3 кости: с 4, 6 и 8 гранями. Он случайным образом выбирает одну из них, не показывает вам, бросает и сообщает результат – 2. Вычислите вероятность того, что был выбран 4-гранник, 6-гранник, 8-гранник.

Шаг 1. Мы хотим вычислить вероятность выбора 4-гранника, 6-гранника или 8-гранника. Мы наблюдаем выпавшее число – 2.

Шаг 2. Поскольку костей было 3, исходная вероятность выбора каждой из них – 1/3.

Шаг 3. Наблюдение – кость упала гранью 2. Если был взят 4-гранник, шансы этого равны 1/4. Для 6-гранника шансы выпадения 2-ки – 1/6. Для 8-гранника – 1/8.

Шаг 4. Выпадение 2-ки для 4-гранника = 1/3 * 1/4 = 1/12, для 6-гранника = 1/3 * 1/6 = 1/18, для 8-гранника = 1/3 * 1/8 = 1/24.

Шаг 5. Общая вероятность выпадении 2-ки = 1/12 + 1/18 + 1/24 = 13/72. Это число меньше 1, потому что шансы бросить 2-ку меньше 1. Но мы знаем, что уже бросили именно 2-ку. Таким образом, нам нужно разделить шансы каждого варианта из шага 4 на 13/72, чтобы сумма всех шансов для всех костей лечь 2-ой равнялась 1. Этот процесс называется нормализацией.

Нормализуя каждую взвешенную вероятность, мы находим вероятность того, что именно эта кость была выбрана:

  • 4-гранник = (1/12) / (13/72) = 6/13
  • 6-гранник = (1/18) / (13/72) = 4/13
  • 8-гранник = (1/24) / (13/72) = 3/13

И это ответ.

Когда мы начали решать задачу, мы предположили, что вероятность выбрать определенную кость равна 33,3%. После выпадения 2-ки, мы рассчитали, что шансы, что первоначально был выбран 4-гранник выросли до 46,1%, шансы выбора 6-гранника снизились до 30,8%, а шансы, что был выбран 8-гранник и вовсе упали до 23,1%.

Если сделать еще один бросок, мы могли бы использовать новые рассчитанные проценты в качестве наших начальных предположений и уточнить вероятности на основе второго наблюдения.

Если у вас единственное наблюдение, все шаги удобно представить в виде таблицы:

Таблица. 1. Пошаговое решение в виде таблицы (формулы см. в файле Excel на листе Пример 1 )

Обратите внимание:

  • Если бы вместо 2-ки выпала, например, 7-ка, то шансы на шаге 3 у 4- и 6-гранника равнялись бы нулю, и после нормализации шансы 8-гранника составили бы 100%.
  • Поскольку пример включает лишь три кости и один бросок, мы использовали простые дроби. Для большинства проблем с большим количеством вариантов и событий легче работать с десятичными дробями.

Пример 2. Больше костей. Больше бросков

На этот раз у нас 6 костей с 4, 6, 8, 10, 12 и 20 гранями. Мы выбираем одну из них случайным образом и бросаем 15 раз. Какова вероятность того, что была выбрана определенная кость?

Я использую модель в Excel (рис. 1; см. лист Пример 2 ). Случайные числа генерируются в столбце B с помощью функции =СЛУЧМЕЖДУ(1;$B$9). В данном случае в ячейке В9 выбран 8-гранник, поэтому случайные числа могут принимать значения от 1 до 8. Поскольку Excel обновляет случайные числа после каждого изменения на листе, я скопировал столбец В в буфер и вставил только значения в столбец C. Теперь значения не меняются и будут использоваться для последующих рисунков. (Я добавил вам возможность «поиграть» с выбором числа граней и случайными бросками на листе Пример 2 игровой . Особенно любопытные результаты получаются, если в ячейке В9 установить число 13 🙂 – Прим. Багузина .)

Рис. 1. Генератор случайных чисел

Шаг 2. Поскольку всего шесть кубиков, то вероятность выбрать один случайным образом равна 1/6 или 0,167.

Шаги 3 и 4. Запишем уравнение для вероятности первоначального выбора определенной кости после соответствующего броска. Как мы видели в конце примера 1, некоторые броски могут не соответствовать тем или иным костям. Например, выпадение 9-ки делает вероятность 4-, 6- и 8-гранной кости равной нулю. Если же выпало «легитимное» число, то его вероятность для данной кости равна единице, деленной на число граней. Для удобства мы объединили шаги 3 и 4, поэтому мы сразу запишем формулу для вероятности броска, умноженной на нормализованную вероятность после предыдущего броска (рис. 2):

ЕСЛИ(бросок > числа граней; 0; 1/число граней * предыдущая нормализованная вероятность)

Если вы аккуратно воспользуетесь , то сможете протащить эту формулу на все строки.

Рис. 2. Уравнение вероятности; чтобы увеличить изображение кликните на нем правой кнопкой мыши и выберите Открыть картинку в новой вкладке

Шаг 5. Последним шагом является нормализация результатов после каждого броска (область L11:R28 на рис. 3).

Рис. 3. Нормализация результатов

Итак, после 15 бросков с вероятностью 96,4% мы можем считать, что первоначально выбрали 8-гранную кость. Хотя остаются шансы, что была выбрана кость с бо льшим числом граней: 3,4% – за 10-гранную кость, 0,2% – за 12-гранную, 0,0001% – за 20-гранную. А вот вероятность 4- и 6-гранных костей равна нулю, так как среди выпавших чисел были 7 и 8. Это, естественно, соответствует тому, что мы ввели число 8 в ячейку В9, ограничив значения для генератора случайных чисел.

Если мы построим график вероятности каждого варианта первоначального выбора кости, бросок за броском, то увидим (рис. 4):

  • После первого броска вероятность выбора 4-гранной кости падает до нуля, так как сразу же выпала 6-ка. Поэтому лидерство захватил вариант 6-гранной кости.
  • Для нескольких первых бросков 6-гранная кость имеет наибольшую вероятность, так как она содержит меньше всего граней среди костей, которые могут отвечать выпавшим значениям.
  • На пятом броске выпала 8-ка, вероятность 6-гранника падает до нуля, и 8-гранник становится лидером.
  • Вероятности 10-, 12- и 20-гранных костей при первых бросках плавно уменьшались, а затем испытали всплеск, когда 6-гранная кость выпала из гонки. Это связано с тем, что результаты были нормализованы по гораздо меньшей выборке.

Рис. 4. Изменение вероятностей бросок за броском

Обратите внимание:

  • Теорема Байеса для нескольких событий – просто повторное умножение на последовательно обновляемых данных. Окончательный ответ не зависит от того, в каком порядке наступали события.
  • Не обязательно нормализовать вероятности после каждого события. Можете сделать это один раз в самом конце. Проблема в том, что, если не заниматься нормализацией постоянно, вероятности становятся такими маленькими, что Excel может работать некорректно из-за ошибок округления. Таким образом, практичнее нормализовывать на каждом шаге, чем проверять, не подошли ли вы к границе точности Excel.

Теорема Байеса. Терминология

  • Начальная вероятность, вероятность каждой возможности до того, как произошло наблюдение, называется априорной .
  • Нормализованный ответ после вычисления вероятности для каждой точки данных (для каждого наблюдения) называется апостериорным .
  • Суммарная вероятность, используемая для нормализации ответа, является константой нормализации .
  • Условная вероятность, т.е. вероятность каждого события, называется правдоподобием .

Вот как эти термины выглядят для первого примера (сравни с рис. 1).

Рис. 5. Термины теоремы Байеса

Сама теорема Байеса в новых определениях выглядит так (сравни с формулой 2):

Пример 3. Нечестная монета

У вас есть монета, которая, как вы подозреваете, не является честной. Вы кидаете ее 100 раз. Вычислите вероятность того, что нечестная монета упадет орлом вверх с вероятностью 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100%.

Обратимся к файлу Excel, лист Пример 3 . В ячейках В13:В112 я сгенерировал случайное число от 0 до 1, и с помощью специальной вставки перенес значения в столбец С. В ячейке В8 я указал ожидаемый процент выпадений орла для этой нечестной монеты. В столбце D с помощью функции ЕСЛИ я превратил вероятности в единицы (орлы, для вероятности р от 0,35 до 1) или в нули (решки, для р от 0 до 0,35).

Рис. 6. Исходные данные для подбрасываний нечестной монеты

У меня получилось 63 орла и 37 решек, что хорошо соответствует генератору случайных чисел, если на входе мы установили вероятность орлов 65%.

Шаг 1. Мы хотим вычислить вероятности того, что орлы относятся к корзинам 0%, 10%, … 100%, наблюдая 63 орла и 37 решки при 100 бросках.

Шаг 2. Есть 11 начальных возможностей: вероятности 0%, 10%, … 100%. Будем наивно полагать, что все начальные возможности имеют равную вероятность, то есть 1 шанс из 11 (рис. 7). (Более реалистично мы могли бы придать начальным вероятностям, располагающимся в районе 50% большие веса, чем вероятностям на краях – 0% и 100%. Но самое замечательное заключается в том, что, поскольку у нас целых 100 подбрасываний, первоначальные вероятности не так уж важны!)

Шаг 3 и 4. Расчет правдоподобия. Чтобы рассчитать вероятность после каждого подбрасывания в Excel используется функция ЕСЛИ. В случае, если выпал орел, правдоподобие равно произведению возможности на предыдущую нормированную вероятность. Если выпала решка, правдоподобие равно (1 минус возможность) * предыдущую нормированную вероятность (рис. 8).

Рис. 8. Правдоподобие

Шаг 5. Нормализация выполняется, как и в предыдущем примере.

Результаты наиболее наглядно представить в виде серии гистограмм. Начальный график – это априорная вероятность. Затем каждый новый график – ситуация после очередных 25 бросков (рис. 9). Поскольку мы задали на входе вероятность орла 65%, представленные графики не вызывают удивления.

Рис. 9. Вероятности вариантов после серии бросков

Что на самом деле означает 70%-ный шанс для возможности 0,6? Это не 70%-ный шанс, что монета точно попадает на 60%. Поскольку у нас был шаг размером 10% между вариантами, мы оцениваем, что есть 70%-ный шанс, что эта монета попадет в диапазон между 55 и 65%. Решение использовать 11 начальных вариантов, с шагом 10% было полностью произвольным. Мы могли бы использовать 101 начальную возможность с шагом 1%. В этом случае мы бы получили результат с максимумом при 63% (так как у нас было 63 орла) и более плавное падение на графике.

Обратите внимание, в этом примере мы наблюдали более медленную сходимость по сравнению с Примером 2. Это связано с тем, что разница между монетой, переворачивающейся 60% против 70%, меньше, чем между кубиками с 8 и 10 гранями.

Пример 4. Еще кости. Но с ошибками в потоке данных

Вернемся к примеру 2. У друга в мешке кости с 4, 6, 8, 10, 12, 20 гранями. Он вынимает одну кость случайным образом и бросает ее 80 раз. Он записывает выпавшие числа, но в 5% случаев ошибается. В этом случае появляется случайное число от 1 и 20 вместо фактического результата броска. После 80 бросков, как вы думаете, какая кость была выбрана?

В качестве входных данных в Excel (лист Пример 4 ) я ввел количество сторон (8), а также вероятность того, что данные содержат ошибку (0,05). Формула для значения броска (рис. 10):

ЕСЛИ (СЛЧИС() > вероятности ошибки; СЛУЧМЕЖДУ(1; число граней); СЛУЧМЕЖДУ(1;20))

Если случайное число больше вероятности ошибки (0,05), то при этом броске ошибки не было, так что генератор случайных чисел выбирает значение между 1 и «загаданным» количеством сторон кубика, в противном случае следует сгенерировать случайное целое число между 1 и 20.

Рис. 10. Расчет значения броска

На первый взгляд, мы могли бы решить эту проблему так же, как и в примере 2. Но, если не учитывать вероятность ошибки, мы получим график вероятностей как на рис. 11. (Самый простой способ получить его в EXCEL – сначала сгенерировать броски в столбце В при значении ошибки 0,05; затем перенести значения бросков в столбец С, и наконец, поменять значение в ячейке В11 на 0; поскольку формулы расчета правдоподобия в диапазоне D14:J94 ссылаются на ячейку В11, эффект не учета ошибок будет достигнут.)

Рис. 11. Обработка значения бросков без учета вероятности присутствия ошибок

Поскольку вероятность ошибки мала, а генератор случайных чисел настроен на 8-гранник, вероятность последнего с каждым броском становится доминирующей. Более того, так как ошибка может с вероятностью 40% (восемь из двадцати) дать значение в пределах 8, то значение ошибки, повлиявшее на результат, появилось лишь на 63-ем броске. Однако, если ошибки не берутся в расчет, вероятность 8-гранника обратится в ноль, а 100% получит 20-гранник. Заметим, что к 63-му броску вероятность 20-гранника составляла всего 2*10 –25 .

Шансы получить ошибку – 5%, а вероятность того, что ошибка даст значение больше 8, составляет 60%. Т.е., 3% бросков дадут ошибку со значением более 8, которая и случилась на броске 63, когда была сделана запись 17. Если формула правдоподобия не будет учитывать возможные ошибки, мы получим взлет вероятности 20-гранника с 2*10 –25 до 1, как на рис. 11.

Если человек скрупулезно наблюдает за данными, он может обнаружить эту ошибку и не принимать в расчет ошибочные значения. Для автоматизации процесса дополните уравнение правдоподобия проверкой на ошибки. Никогда не устанавливайте нулевые вероятности ошибок, если вы допускаете, что их нельзя полностью исключить. Если вы учтете вероятности ошибок, то сотни «правильных» данных не позволят отдельным ошибочным значениям испортить картину.

Дополняем уравнение функции правдоподобия проверкой на ошибки (рис. 12):

ЕСЛИ($C15>F$13;$B$11*1/20*N14;($B$11*1/20+(1-$B$11)/F$13)*N14)

Рис. 12. Функция правдоподобия с учетом ошибок

Если записанное значение броска больше числа граней ($C15>F$13) условную вероятность не обнуляем, а уменьшаем с учетом вероятности ошибки ($B$11*1/20*N14). Если записанное число меньше числа граней, условную вероятность увеличиваем не в полном объеме, а также с учетом возможной ошибки ($B$11*1/20+(1-$B$11)/F$13)*N14). В последнем случае считаем, что записанное число могло явиться как следствием ошибки ($B$11*1/20), так и результатом правильной записи (1-$B$11)/F$13).

Изменение нормализованной вероятности становится более устойчивым к возможным ошибкам (рис. 13).

Рис. 13. Изменение нормализованной вероятности от броска к броску

В этом примере 6-гранная кость изначально является фаворитом, потому что первые 3 броска – 5, 6, 1. Потом выпадет 7-ка и вероятность 8-гранника идет вверх. Однако, появление 7-ки не обнуляет вероятность 6-гранника, потому что 7-ка может быть ошибкой. И следующие девять бросков вроде бы подтверждают это, когда выпадают значения не более 6: вероятность 6-гранника снова начинает расти. Тем не менее, на 14-м и 15-м бросках опять выпадают 7-ки, и вероятность 6-гранной кости приближается к нулю. Позже, появляются значения 17 и 19, которые «система» определяет, как явно ошибочные.

Пример 4A. Что делать, если у вас действительно высокая частота ошибок?

Этот пример аналогичен предыдущему, но частота ошибок увеличена с 5% до 75%. Поскольку данные стали менее релевантными, мы увеличили число бросков до 250. Применяя те же уравнения, что и в примере 4 получим следующий график:

Рис. 14. Нормализованная вероятность при 75% ошибочных записей

Со столь высокой частотой ошибок потребовалось гораздо больше бросков. К тому же результат менее определен, и 6-гранник периодически становится более вероятным. Если у вас еще более высокая частота ошибок, например, 99%, все равно можно получить правильный ответ. Очевидно, чем выше частота ошибок, тем больше бросков нужно сделать. Для 75% ошибок мы получаем одно правильное значение из четырех. Если же вероятность ошибки составит 99%, мы бы получили лишь одно правильное значение из ста. Нам, вероятно, понадобится в 25 раз больше данных, чтобы выявить доминирующий вариант.

А что если вы не знаете вероятность ошибки? Рекомендую «поиграть» с примерами 4 и 4А, устанавливая в ячейке В11 различные значения от очень маленьких (например, 2*10 –25 для примера 4) до очень больших (например, 90% для примера 4А). Вот основные выводы:

  • Если оценка частоты ошибок выше, чем фактическая частота ошибок, результаты будут сходиться медленнее, но все равно сходятся к правильному ответу.
  • Если вы оцениваете частоту ошибок слишком низко, существует риск того, что результаты не будут правильными.
  • Чем меньше фактическая частота ошибок, тем больше места для маневра у вас есть в угадывании частоты ошибок.
  • Чем выше фактическая частота ошибок, тем больше данных вам нужно.

Пример 5. Проблема немецкого танка

В этой задаче вы пытаетесь оценить, сколько танков было произведено, исходя из серийных номеров захваченных танков. Теорема Байеса была использована союзниками во время второй мировой войны, и в конечном итоге дала результаты более низкие, чем те, о которых сообщала разведка. После войны записи показали, что статистические оценки с использованием теоремы Байеса были более точными. (Любопытно, что я написал заметку по этой теме, еще не зная, что такое вероятности по Байесу; см. . – Прим. Багузина .)

Итак, вы анализируете серийные номера, снятые с разбитых или захваченных танков. Цель – оценить, сколько танков было произведено. Вот что вы знаете о серийных номерах танков:

  • Они начинаются с 1.
  • Это целые числа без пропусков.
  • Вы нашли следующие серийные номера: 30, 70, 140, 125.

Нас интересует ответ на вопрос: каково максимальное число танков? Я начну с 1000 танков. Но кто-то другой мог начать с 500 танков или 2000 танков, и мы можем получить разные результаты. Я собираюсь анализировать каждые 20 танков, что означает, что у меня есть 50 начальных возможностей для количества танков. Можно усложнить модель, и проанализировать для каждого отдельного числа в Excel, но ответ сильно не изменится, а анализ значительно усложнится.

Я предполагаю, что все возможности количества танков равны (т.е. вероятность наличия 50 танков, такая же, как и 500). Обратите внимание, что в файле Excel больше столбцов, чем показано на рисунке. Условная вероятность для функции правдоподобия очень похожа на условную вероятность из Примера 2:

  • Если наблюдаемый серийный номер больше максимального серийного номера для этой группы, то вероятность наличия такого количества танков равна 0.
  • Если наблюдаемый серийный номер меньше максимального серийного номера для этой группы, вероятность есть единица, деленная на число танков, умноженная на нормализованную вероятность на предыдущем шаге (рис. 15).

Рис. 15. Условные вероятности распределения танков по группам

Нормализованные вероятности выглядят следующим образом (рис. 16).

Рис. 16. Нормализованные вероятности количества танков

Наблюдается большой всплеск вероятности для максимально наблюдаемого серийного номера. После этого происходит асимптотическое снижение к нулю. Для 4 обнаруженных серийных номеров максимум отвечает 140 танкам. Но, несмотря на то, что это число является наиболее вероятным ответом, это не лучшая оценка, так как она почти наверняка недооценивает количество танков.

Если взять средневзвешенное количество танков, т.е. суммировать попарно перемноженные группы и их вероятности для четырех танков, применив формулу:

ОКРУГЛ(СУММПРОИЗВ(BD9:DA9;BD14:DA14);0)

мы получаем наилучшую оценку равную 193.

Если бы мы первоначально исходили из 2000 танков, средневзвешенное значение было бы 195 танков, что по существу ничего не меняет.

Пример 6. Тестирование на наркотики

Вы знаете, что 0,5% населения употребляет наркотики. У вас есть тест, который дает 99% истинных положительных результатов для употребляющих наркотик, и 98% истинных отрицательных результатов для не употребляющих. Вы случайным образом выбираете человека, проводите тест и получаете положительный результат. Какова вероятность того, что человек на самом деле употребляет наркотики?

Для нашего случайного индивидуума первоначальная вероятность того, что он является потребителем наркотиков, равна 0,5%, и вероятность того, что он не является потребителем наркотиков составляет 99,5%.

Следующий шаг – расчет условной вероятности:

  • Если испытуемый употребляет наркотики, то тест будет положительным в 99% случаев и отрицательным в 1% случаев.
  • Если испытуемый не употребляет наркотики, то тест будет положительным в 2% случаев и отрицательным в 98% случаев.

Функции правдоподобия для употребляющих и не употребляющих наркотики представлены на рис. 17.

Рис. 17. Функции правдоподобия: (а) для употребляющих наркотики; (б) для не употребляющих наркотики

После нормализации, мы видим, что, несмотря на положительный результат теста, вероятность того, что этот случайный человек, употребляет наркотики, составляет всего 0,1992 или 19,9%. Этот результат удивляет многих людей, потому что в конце концов, точность теста довольно высока – целых 99%. Поскольку начальная вероятность была лишь 0,5%, даже большого увеличения этой вероятности было недостаточно, чтобы сделать отклик действительно большим.

Интуиция большинства людей не учитывает начальную вероятность. Даже если условная вероятность действительно высока, очень низкая начальная вероятность может привести к низкой конечной вероятности. Интуиция большинства людей настроена вокруг начальной вероятности 50/50. Если это так, и результат теста положителен, то нормализованная вероятность составит ожидаемые 98%, подтверждая, что человек употребляет наркотики (рис. 18).

Рис. 18. Результат теста при исходной вероятности 50/50

Альтернативный подход к объяснению подобных ситуаций см. .

Библиографию по теореме Байеса смотри в конце заметки .

Занятие № 4.

Тема: Формула полной вероятности. Формула Байеса. Схема Бернулли. Полиномиальная схема. Гипергеометрическая схема.

ФОРМУЛА ПОЛНОЙ ВЕРОЯТНОСТИ

ФОРМУЛА БАЙЕСА

ТЕОРИЯ

Формула полной вероятности:

Пусть имеется полная группа несовместных событий :

(, ).Тогда вероятность события А можно рассчитать по формуле

(4.1)

События называются гипотезами. Гипотезы выдвигаются относительно той части эксперимента, в которой присутствует неопределённость.

, где - априорные вероятности гипотез

Формула Байеса:

Пусть опыт завершён и известно, что в результате опыта произошло событие A. Тогда можно с учётом этой информации переоценить вероятности гипотез:

(4.2)

, где апостериорные вероятности гипотез

РЕШЕНИЕ ЗАДАЧ

Задача 1.

Условие

В поступивших на склад 3 партиях деталей годные составляют 89 %, 92 % и 97 % соот­ветственно. Количество деталей в партиях относится как 1:2:3.

Чему равна вероятность того, что случайно выбранная со склада деталь окажется бракованной. Пусть известно, что случайно выбранная деталь оказалось бракованной. Найти вероят­ности того, что она принадлежит первой, второй и третьей партиям.

Решение:

Обозначим через А событие, состоящее в том, что случайно выбранная деталь окажется бракованной.

1-ый вопрос – на формулу полной вероятности

2-ой вопрос - на формулу Байеса

Гипотезы выдвигаются относительно той части эксперимента, в которой присутствует неопределённость. В данной задаче неопределённость состоит в том, из какой партии случайно выбранная деталь.

Пусть в первой партии а деталей. Тогда во второй партии – 2 a деталей, а в третьей – 3 a деталей. Всего в трёх партиях 6 a деталей.

(процент брака на первой линии перевели в вероятность)


(процент брака на второй линии перевели в вероятность)

(процент брака на третьей линии перевели в вероятность)

По формуле полной вероятности рассчитываем вероятность события A

-ответ на 1 вопрос

Вероятности того, что бракованная деталь принадлежит первой, второй и третьей партиям рассчитываем по формуле Байеса:

Задача 2.

Условие:

В первой урне 10 шаров: 4 белых и 6 чёрных. Во второй урне 20 шаров: 2 белых и 18 чёрных. Из каждой урны выбирают случайным образом по одному шару и кладут в третью урну. Затем из третьей урны случайным образом выбирают один шар. Найти вероятность того, что извлечённый из третьей урны шар будет белым.

Решение:

Ответ на вопрос задачи можно получить с помощью формулы полной вероятности:

Неопределённость состоит в том, какие шары попали в третью урну. Выдвигаем гипотезы относительно состава шаров в третьей урне.

H1={в третьей урне 2 белых шара}

H2={в третьей урне 2 чёрных шара}

H3={ в третьей урне 1 белый шар и 1 чёрный шар}

A={шар взятый из 3 урны будет белым}

Задача 3.

В урну, содержащую 2 шара неизвестного цвета, опустили белый шар. После этого из этой урны извлекаем 1 шар. Найти вероятность того, что шар извлечённый из урны будет белым. Шар, извлечённый из выше описанной урны, оказался белым. Найти вероятности того, что в урне до перекладывания было 0 белых шаров, 1 белый шар и 2 белых шара .

1 вопро с - на формулу полной вероятности

2 вопрос –на формулу Байеса

Неопределённость состоит в первоначальном составе шаров в урне. Относительно первоначального состава шаров в урне выдвигаем следующие гипотезы:

Hi={ в урне до перекладывания был i-1 белый шар}, i=1,2,3

, i=1,2,3 (в ситуации полной неопределённости априорные вероятности гипотез берём одинаковыми, т. к. мы не можем сказать, что один вариант более вероятен по сравнению с другим)

А={шар, извлечённый из урны после перекладывания, будет белым}

Вычислим условные вероятности:

Произведём расчёт по формуле полной вероятности:

Ответ на 1 вопрос

Для ответа на второй вопрос используем формулу Байеса:

(уменьшилась по сравнению с априорной вероятностью)

(не изменилась по сравнению с априорной вероятностью)

(увеличилась по сравнению с априорной вероятностью)

Вывод из сравнения априорных и апостериорных вероятностей гипотез: первоначальная неопределённость количественно поменялась

Задача 4.

Условие:

При переливании крови надо учитывать группы крови донора и больного. Человеку, имеющему четвёртую группу крови можно перелить кровь любой группы , человеку со второй и третьей группой можно перелить либо кровь его группы , либо первой. Человеку с первой группой крови можно перелить кровь только первой группы. Известно, что среди населения 33,7 % имеют первую груп пу, 37,5 % имеют вторую группу, 20,9 % имеют третью группу и 7,9 % имеют 4 группу. Найти вероятность того, что случайно взятому больному можно перелить кровь случайно взятого донора.


Решение:

Выдвигаем гипотезы о группе крови случайно взятого больного:

Hi={у больного i-ая группа крови}, i=1,2,3,4

(Проценты перевели в вероятности)

A={ можно осуществить переливание}

По формуле полной вероятности получаем:

Т. е. переливание можно осуществить примерно в 60 % случаев

Схема Бернулли (или биномиальная схема)

Испытания Бернулли – это независимые испытания 2 исхода, которые условно называем успех и неудача.

p- вероятность успеха

q –вероятность неудачи

Вероятность успеха не меняется от опыта к опыту

Результат предыдущего испытания не влияет на следующие испытания.

Проведение описанных выше испытаний называется схемой Бернулли или биномиальной схемой.

Примеры испытаний Бернулли:

Подбрасывание монеты

Успех – герб

Неудача- решка

Случай правильной монеты

случай неправильной монеты

p и q не меняются от опыта к опыту, если в процессе проведения опыта мы не меняем монету

Подбрасывание игральной кости

Успех - выпадение «6»

Неудача – всё остальное

Случай правильной игральной кости

Случай неправильной игральной кости

p и q не меняются от опыта к опыту, если в процессе проведения опыта мы не меняем игральную кость

Стрельба стрелка по мишени

Успех - попадание

Неудача – промах

p =0.1 (стрелок попадает в одном выстреле из 10)

p и q не меняются от опыта к опыту, если в процессе проведения опыта мы не меняем стрелка

Формула Бернулли.

Пусть проводится n p. Рассмотрим события

n испытаниях Бернулли с вероятностью успеха p произойдёт m успехов},

-для вероятностей таких событий существует стандартное обозначение

<-Формула Бернулли для расчёта вероятностей (4.3)

Пояснение к формуле : вероятность того, что произойдёт m успехов (вероятности перемножаются, т. к. испытания независимы, а т. к. они все одинаковы появляется степень), - вероятность того, что произойдёт n-m неудач (объяснение аналогично как для успехов), - число способов реализации события, т. е. сколькими способами может разместиться m успехов на n местах.

Следствия формулы Бернулли:

Следствие 1:

Пусть проводится n испытаний Бернулли c вероятностью успеха p. Рассмотрим события

A(m1, m2)={число успехов в n испытаниях Бернулли будет заключено в диапазоне [ m1; m2]}

(4.4)

Пояснение к формуле: Формула (4.4) следует из формулы (4.3) и теоремы сложения вероятностей для несовместных событий, т. к. -сумма (объединение) несовместных событий, а вероятность каждого определяется формулой (4.3).

Следствие 2

Пусть проводится n испытаний Бернулли c вероятностью успеха p. Рассмотрим событие

A={ в n испытаниях Бернулли произойдёт хотя бы 1 успех }

(4.5)

Пояснение к формуле: ={ в n испытаниях Бернулли не будет ни одного успеха}=

{все n испытаний будут неудачны}

Задача (на формулу Бернулли и следствия к ней) пример к задаче 1.6-Д. з.

Правильную монету подбрасывают 10 раз . Найти вероятности следующих событий:

A={герб выпадет ровно 5 раз}

B={герб выпадет не более 5 раз}

C={герб выпадет хотя бы 1 раз}

Решение:

Переформулируем задачу в терминах испытаний Бернулли:

n=10 число испытаний

успех - герб

p=0.5 –вероятность успеха

q=1-p=0.5 –вероятность неудачи

Для расчёта вероятности события A используем формулу Бернулли:

Для расчёта вероятности события В используем следствие 1 к формуле Бернулли:

Для расчёта вероятности события С используем следствие 2 к формуле Бернулли:

Схема Бернулли. Расчёт по приближённым формулам.

ПРИБЛИЖЁННЫЕ ФОРМУЛА МУАВРА-ЛАПЛАСА

Локальная формула

p успеха и q неудачи, то для всех m справедлива приближённая формула:

, (4.6)

m.

Значение функции можно найти в специальной таблице. Там содержатся значения только для . Но функция -чётная, т. е. .

Если , то полагают

Интегральная формула

Если в схеме Бернулли число испытаний n велико причём велики также вероятности p успеха и q неудачи, то для всех справедлива приближённая формула (4.7) :

Значение функции можно найти в специальной таблице. Там содержатся значения только для . Но функция -нечётная, т. е. .

Если , то полагают

ПРИБЛИЖЁННЫЕ ФОРМУЛЫ ПУАССОНА

Локальная формула

Пусть число испытаний n по схеме Бернулли велико, а вероятность успеха в одном испытании мала, причём мало также произведение . Тогда определяют по приближенной формуле:

, (4.8)

Вероятность того, что число успехов в n испытаниях Бернулли равно m.

Значения функции можно посмотреть в специальной таблице.

Интегральная формула

Пусть число испытаний n по схеме Бернулли велико, а вероятность успеха в одном испытании мала, причём мало также произведение .

Тогда определяют по приближенной формуле:

, (4.9)

Вероятность того, что число успехов в n испытаниях Бернулли заключено в диапазоне .

Значения функции можно посмотреть в специальной таблице и затем просуммировать по диапазону.

Формула

Формула Пуассона

Формула Муавра-Лапласа

Качество

оценки

оценки грубы

10

используются для грубых прикидочных

расчётов

используются для прикладных

инженерных расчётов

100 0

используются для любых инженерных расчётов

n>1000

очень хорошее качество оценок

Можно посмотреть в кач-ве примеров к задачам 1.7 и 1.8 Д. з.

Расчёт по формуле Пуассона.

Задача (формула Пуассона).

Условие:

Вероятность искажения одного символа при передаче сообщения по линии связи равна 0.001. Сообщение считают принятым, если в нём отсутствуют искажения. Найти вероятность того, что будет принято сообщение, состоящее из 20 слов по 100 символов каждое.

Решение:

Обозначим через А

-количество символов в сообщении

успех: символ не искажается

Вероятность успеха

Вычислим . См. рекомендации по применению приближенных формул () : для расчёта нужно применить формулу Пуассона

Вероятности для формулы Пуассона по и m можно найти в специальной таблице.

Условие:

Телефонная станция обслуживает 1000 абонентов. Вероятность того, что в течении минуты какому-либо абоненту понадобится соединение, равна 0,0007. Вычислить вероятность того, что за минуту на телефонную станцию поступит не менее 3 вызовов.

Решение:

Переформулируем задачу в терминах схемы Бернулли

успех: поступление вызова

Вероятность успеха

–диапазон, в котором должно лежать число успехов

А={ поступит не менее трёх вызовов}-событие, вероятность которого треб. найти в задаче

{поступит менее трёх вызовов} Переходим к доп. событию, т. к. его вероятность подсчитать проще.

(расчёт слагаемых см. специальная таблица)

Таким образом,

Задача (локальная формула Мувра-Лапласа)

Условие

Вероятность попадания в цель при одном выстреле равна 0.8. Определить вероятность того, что при 400 выстрелах произойдёт ровно 300 попаданий.

Решение:

Переформулируем задачу в терминах схемы Бернулли

n=400 –число испытаний

m=300 –число успехов

успех - попадание

(Вопрос задачи в терминах схемы Бернулли)

Предварительный расчёт:

Проводим независимые испытания , в каждом из которых мы различаем m вариантов.

p1 – вероятность получить первый вариант при одном испытании

p2 – вероятность получить второй вариант при одном испытании

…………..

pm – вероятность получить m-ый вариант при одном испытании

p1, p2, …………….., pm не меняются от опыта к опыту

Последовательность описанных выше испытаний называется полиномиальной схемой.

(при m=2 полиномиальная схема превращается в биномиальную), т. е. изложенная выше биномиальная схема –это частный случай более общей схемы, называемой полиномиальной).

Рассмотрим следующие события

А(n1,n2,….,nm)={ в n испытаниях описанных выше n1 раз появился вариант 1, n2 раз появился вариант 2, ….., и т. д. , nm раз появился вариант m}

Формула для расчёта вероятностей по полиномиальной схеме

Условие

Игральную кость бросают 10 раз. Требуется найти вероятность того, что «6» выпадет 2 раза , а «5» выпадет 3 раза .

Решение:

Обозначим через А событие вероятность которого требуется найти в задаче.

n=10 – число испытаний

m=3

1 вариант-выпадение 6

p1=1/6 n1=2

2 вариант-выпадение 5

p2=1/6 n2=3

3 вариант-выпадение любой грани, кроме 5 и 6

p3=4/6 n3=5

P(2,3,5)-? (вероятность события, о котором говорится в условии задачи)

Задача на полиномиальную схему

Условие

Найти вероятность того, что среди 10 случайным образом выбранных человек у четырёх дни рождения будут в первом квартале, у трёх – во втором, у двух – в третьем и у одного – в четвёртом.

Решение:

Обозначим через А событие вероятность которого требуется найти в задаче.

Переформулируем задачу в терминах полиномиальной схемы:

n=10 – число испытаний =числу людей

m=4 – число вариантов, которые мы различаем в каждом испытании

1 вариант-рождение в 1 квартале

p1=1/4 n1=4

2 вариант-рождение во 2 квартале

p2=1/4 n2=3

3 вариант - рождение в 3 квартале

p3=1/4 n3=2

4 вариант - рождение в 4 квартале

p4=1/4 n4=1

P(4,3,2,1)-? (вероятность события, о котором говорится в условии задачи)

Предполагаем, что вероятность родиться в любом квартале одинакова и равна 1/4. Проведём расчёт по формуле для полиномиальной схемы:

Задача на полиномиальную схему

Условие

В урне 30 шаров: с возвращением. 3 белых , 2 зелёных , 4 синих и 1 жёлтый.

Решение:

Обозначим через А событие вероятность которого требуется найти в задаче.

Переформулируем задачу в терминах полиномиальной схемы:

n=10 – число испытаний = числу выбранных шаров

m=4 – число вариантов, которые мы различаем в каждом испытании

1 вариант - выбор белого шара

p1=1/3 n1=3

2 вариант - выбор зелёного шара

p2=1/6 n2=2

3 вариант - выбор синего шара

p3=4/15 n3=4

4 вариант - выбор жёлтого шара

p4=7/30 n4=1

P(3,2,4,1)-? (вероятность события, о котором говорится в условии задачи)

p1, p2 , p3, p4 не меняются от опыта к опыту так как выбор производится с возвращением

Проведём расчёт по формуле для полиномиальной схемы:

Гипергеометрическая схема

Пусть имеется n элементов k типов:

n1 первого типа

n2 второго типа

nk k-го типа

Из этих n элементов случайным образом без возвращения выбирают m элементов

Рассмотрим событие A(m1,…,mk), состоящее в том, что среди выбранных m элементов будет

m1 первого типа

m2 второго типа

mk k-го типа

Вероятность этого события рассчитывается по формуле

P(A(m1,…,mk))=(4.11)

Пример 1.

Задача на гипергеометрическую схему (образец к задаче 1.9 Д. з)

Условие

В урне 30 шаров: 10 белых, 5 зелёных, 8 синих и 7 жёлтых (шары различа­ются только цветом). Из урны случайным образом выбирают 10 шаров без возвращения . Найти вероятность того, что среди выбранных шаров будет:3 белых , 2 зелёных , 4 синих и 1 жёлтый.

У нас n=30, k=4,

n1=10, n2=5, n3=8, n4=7,

m1=3, m2=2, m3=4, m4=1

P(A(3,2,4,1))== можно досчитать до числа зная формулу для сочетаний

Пример 2.

Пример расчёта по этой схемы: см. расчёты для игры Спортлото (тема 1)

Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет Сильвер Нейт

Простая математика теоремы Байеса

Если философская подоплека теоремы Байеса удивительно глубока, то ее математика потрясающе проста. В своей базовой форме это всего лишь алгебраическое выражение с тремя известными переменными и одной неизвестной. Однако эта простая формула способна привести к инсайтам в предсказаниях.

Теорема Байеса прямо связана с условной вероятностью. Иными словами, она позволяет рассчитать вероятность какой-либо теории или гипотезы, если произойдет какое-либо событие. Представьте себе, что вы живете с партнером и, вернувшись домой из командировки, обнаруживаете незнакомую пару нижнего белья в своем гардеробе. Возможно, вы зададитесь вопросом: какова вероятность того, что ваш партнер вас обманывает? Условие состоит в том, вы найдете белье; гипотеза состоит в том, что вы заинтересованы оценить вероятность того, что вас обманывают. Хотите – верьте, хотите – нет, но теорема Байеса способна дать вам ответ на вопрос такого рода – при условии того, что вы знаете (или хотите оценить) три качества.

Прежде всего вы должны оценить вероятность появления белья как условие правильности гипотезы – то есть при условии того, что вам изменяют.

Для решения этой проблемы давайте предположим, что вы женщина, а ваш партнер – мужчина, а предметом спора выступает пара трусиков. Если он вам изменяет, то несложно представить себе, как в ваш гардероб могли попасть чужие трусики. Но, даже если (или даже особенно в том случае если) он вам изменяет, вы можете ожидать, что он ведет себя достаточно осторожно. Давайте скажем, что вероятность появления трусиков при условии того, что он вас обманывает, составляет 50 %.

Во-вторых, вы должны оценить вероятность появления белья при условии того, что гипотеза неверна.

Если муж вам не изменяет, должны быть другие, более невинные объяснения появления трусиков в вашем гардеробе. Некоторые из них могут оказаться довольно неприятными (например, это могли бы быть его собственные трусики). Возможно, что его багаж был по ошибке перепутан с чужим. Возможно, что в его доме по каким-то причинам вполне невинно заночевала какая-то ваша подруга, которой вы доверяете. Трусики могли бы быть подарком вам, который он забыл упаковать. Ни одна из этих теорий не лишена изъянов, хотя порой объяснения в стиле «мое домашнее задание съела собака» действительно оказываются правдой. Вы оцениваете их совокупную вероятность в 5 %.

Третье и самое важное, что вам нужно, – это то, что байесовцы называют априорной вероятностью (или просто априори ). Как вы оценивали вероятность его измены до того , как нашли белье? Разумеется, вам сложно сохранять объективность оценки сейчас, после того как эти трусики появились в поле вашего зрения (в идеале вы оцениваете эту вероятность до того, как начинаете изучать свидетельства). Но иногда оценивать вероятность подобных событий можно эмпирически. Например, в ряде исследований было показано, что в течение любого случайным образом взятого года своим супругам изменяет около 4 % женатых партнеров{570}, так что мы возьмем эту цифру за априорную вероятность.

Если вы произвели оценку всех этих значений, то можете применить теорему Байеса для оценки апостериорной вероятности . Именно в этой цифре мы и заинтересованы больше всего – насколько велика вероятность того, что нам изменяют, при условии что мы нашли чужое белье?

Расчет и простая алгебраическая формула, позволяющая его сделать, приведены в табл. 8.2.

Таблица 8.2. Пример расчета вероятности измены по теореме Байеса

Оказывается, что вероятность измены все равно достаточно мала – 29 %. Это может показаться нелогичным: разве трусики не являются достаточно весомой уликой? Возможно, такой результат связан с тем, что вы использовали слишком низкое априорное значение вероятности его измены.

Хотя у невиновного человека может быть значительно меньше вариантов разумных объяснений появления трусиков, чем у виновного, вы изначально посчитали его невиновным, и это оказало большое влияние на результат расчета по уравнению.

Когда мы априорно в чем-то уверены, мы можем проявить удивительную гибкость даже при появлении новых свидетельств. Одним из классических примеров таких ситуаций является выявление рака груди у женщин в возрасте старше 40 лет. К счастью, вероятность, что у женщины в возрасте после 40 лет разовьется рак груди, довольно невелика и составляет примерно 1,4 %{571}. Однако чему равна вероятность положительного результата на ее маммограмме?

Исследования показывают, что даже если у женщины нет рака, то маммограмма ошибочно покажет его наличие в 10 % случаев{572}. С другой стороны, если у нее есть рак, маммограмма выявит его примерно в 75 % случаев{573}. Увидев эту статистику, вы можете решить, что положительный результат маммограммы означает, что все очень плохо. Однако расчет по теореме Байеса с использованием этих цифр позволяет сделать иное заключение: вероятность наличия рака груди у женщины в возрасте за 40 при условии, что у нее положительная маммограмма , все еще составляет примерно 10 %. В данном случае такой результат расчета по уравнению обусловлен тем, что довольно немного молодых женщин имеют рак груди. Именно поэтому многие врачи рекомендуют женщинам не начинать регулярно делать маммограммы до 50-летнего возраста, после достижения которого априорная вероятность рака груди значительно увеличивается{574}.

Проблемы такого рода, вне всякого сомнения, сложны. Во время недавно проводимого исследования статистической грамотности американцев им приводили этот пример с раком груди. И оказалось, что всего 3 % из них смогли правильно рассчитать значения вероятности{575}. Иногда, немного замедлившись и попробовав визуализировать эту проблему (как показано на рис. 8.2), мы можем легко проверить реальностью свои неточные аппроксимации. Визуализация помогает нам легче увидеть общую картину – поскольку рак груди встречается у молодых женщин крайне редко, сам факт положительного результата маммограммы еще ни о чем не говорит.

Рис. 8.2. Графическое изображение исходных данных для теоремы Байеса на примере с маммограммой

Однако мы обычно склонны ориентироваться на самую новую или самую доступную информацию, и общая картина начинает теряться. Умные игроки вроде Боба Вулгариса научились умело пользоваться подобными недостатками нашего мышления. Вулгарис сделал выгодную ставку на Lakers отчасти потому, что букмекеры уделили слишком много внимания нескольким первым играм Lakers и изменили ставки на выигрыш командой титула с 4 к 1 до 65 к 1. Однако на самом деле команда играла ничуть не хуже, чем могла играть хорошая команда в случае травмы одного из ее звездных игроков. Теорема Байеса требует от нас более внимательно продумывать проблемы такого рода. Она может оказаться крайне полезной для выявления случаев, когда наши аппроксимации, основанные на чутье, оказываются слишком грубыми.

Но я не хочу сказать, что наши априорные ожидания всегда доминируют над новыми свидетельствами или что теорема Байеса всегда приводит к нелогичным, на первый взгляд, результатам. Иногда новые свидетельства оказываются настолько значимыми для нас, что перевешивают все остальное, и мы можем практически моментально изменить свое мнение и стать полностью уверенными в событии, вероятность которого считали почти нулевой.

Давайте рассмотрим более мрачный пример – атаки 11 сентября. Большинство из нас, проснувшись в тот день утром, присваивало практически нулевое значение вероятности того, что террористы примутся разбивать самолеты о небоскребы на Манхэттене. Однако мы признали очевидную возможность террористической атаки после того, как первый самолет врезался во Всемирный торговый центр. И у нас исчезли любые сомнения в том, что на нас было произведено нападение, после того как самолет врезался во вторую башню. Теорема Байеса способна отобразить этот результат.

Допустим, до столкновения первого самолета с башней наши расчеты вероятности террористической атаки на высотные здания Манхэттена составляли лишь 1 шанс из 20 тыс., или 0,005 %. Однако мы также должны были считать достаточно низкой вероятность ситуации, при которой самолет столкнулся бы с башней Всемирного торгового центра по ошибке. Эта цифра может быть рассчитана эмпирически. За период длительностью 25 тыс. дней до событий 11 сентября, в течение которых осуществлялись полеты над Манхэттеном, произошло всего два подобных случая{576}: столкновение с Эмпайр-стейт-билдинг в 1945 г. и с башней на Уолл-стрит, 40, в 1946 г. Следовательно, возможность подобного инцидента составляла примерно 1 шанс из 12 500 в любой случайный день. Если по этим цифрам сделать расчеты с использованием теоремы Байеса (табл. 8.3a), то вероятность террористической атаки повышалась с 0,005 до 38 % в момент столкновения первого самолета со зданием.

Таблица 8.3а.

Однако идея, заложенная в теорему Байеса, заключается в том, что мы не корректируем свои расчеты вероятности только один раз. Мы делаем это постоянно по мере появления новых свидетельств. Таким образом, наша апостериорная вероятность террористической атаки после столкновения первого самолета, равная 38 %, становится нашей априорной возможностью столкновения со вторым.

И если вы еще раз проведете расчеты после столкновения второго самолета с башней Всемирного торгового центра, то увидите, что вероятность террористической атаки 99,99 % сменяется почти полной уверенностью в этом событии. Один несчастный случай в яркий солнечный день в Нью-Йорке был крайне маловероятен, но второй практически не мог не произойти (табл. 8.3б), как мы внезапно и с огромным ужасом поняли.

Таблица 8.3б. Пример расчета вероятности террористической атаки по теореме Байеса

Я сознательно выбрал в качестве примеров довольно сложные случаи – террористические атаки, рак, супружеская измена, – поскольку хочу продемонстрировать масштаб проблем, к решению которых может быть применено байесовское мышление. Теорема Байеса – это не волшебная формула. В ее самой простой формуле, которую мы приводим в этой книге, используются простые арифметические действия по сложению, вычитанию, делению и умножению. Но для того, чтобы она дала нам полезный результат, мы должны снабдить ее информацией, в частности нашими расчетами априорных вероятностей.

Однако теорема Байеса заставляет нас думать о вероятности событий, происходящих в мире, даже когда речь заходит о вопросах, которые мы не хотели бы считать проявлением случайности. Она не требует, чтобы мы воспринимали мир как внутренне, метафизически неопределенный: Лаплас считал, что все, начиная от орбит планет и заканчивая движением мельчайших молекул, управляется упорядоченными ньютоновскими правилами. И тем не менее он сыграл важную роль в развитии теоремы Байеса. Скорее можно сказать, что эта теорема связана с эпистемологической неопределенностью – границами наших знаний.

Данный текст является ознакомительным фрагментом. Из книги Газета Завтра 156 (48 1996) автора Завтра Газета

ПРОСТАЯ АРИФМЕТИКА (Россия и СНГ) Ю. Бялый 18 ноября - В Верховном Совете Белоруссии раскол: 75 депутатов подписали требование объявить Лукашенко импичмент, а 80 депутатов - заявили о верности курсу президента. - В знак несогласия с курсом Лукашенко подали в отставку

Из книги Газета Завтра 209 (48 1997) автора Завтра Газета

НИЗШАЯ МАТЕМАТИКА Денис ТукмаковЯ стоял на остановке в ожидании автобуса и тщетно пытался понять параграф из учебника по высшей математике, который нам задали на сегодня. Я что-то читал про значения синуса, когда услышал вопрос: “Простите, кто автор этого учебника?” Я

Из книги Понять Россию умом автора Калюжный Дмитрий Витальевич

Следствия «горькой теоремы» В условиях свободного перемещения капиталов ни один инвестор, ни наш, ни зарубежный, не будет вкладывать средства в развитие практически ни одного производства на территории России. Никаких инвестиций в нашу промышленность нет, и не будет.

Из книги Словарный запас автора Рубинштейн Лев Семёнович

1.5. Анализ «Горькой теоремы» Паршева

Из книги Литературная Газета 6281 (№ 26 2010) автора Литературная Газета

Простая история В последнее время усиленно заговорили про историю. То есть не про историю как таковую, а про то, как эту историю преподавать пытливому юношеству. Самая же тонкая материя, как это всегда бывает, - это история новейшая. А где тонко. ну и так далее.И правда: как

Из книги Викиликс. Компромат на Россию автора Автор неизвестен

Простая и страшная правда Библиоман. Книжная дюжина Простая и страшная правда Блокадный дневник. – Таллин – СПб.: Таллинское общество жителей блокадного Ленинграда; Информационно-издательский центр Правительства Санкт-Петербурга «Петроцентр», 2010. – 410 с.: ил. Многие

Из книги Потреблятство [Болезнь, угрожающая миру] автора Ванн Дэвид

Рост задержек с визами – недоброжелательность или простая некомпетентность? 19. (C) Растущее беспокойство вызывает и то, что все сложнее становится получить таджикскую визу – причем не только для персонала американских НКО, но и для сотрудников европейских НКО, для

Из книги Президенты RU автора Минкин Александр Викторович

Из книги Распад мировой долларовой системы:ближайшие перспективы. автора Маслюков Ю. Д.

Простая система 25 ноября 1994, «МК» Такая мазь затянет рану коркой, Но скрытый гной вам выест все внутри. Шекспир. Гамлет Под прицельным огнемВ 1941-м Анатолий Папанов воевал в штрафном батальоне. Когда он в 1980-м рассказывал мне о войне, казалось, я всё понимаю. Папанов,

Из книги Литературная Газета 6461 (№ 18 2014) автора Литературная Газета

3.1. Простая неграмотность Рассматривая описываемые краткосрочные угрозы США (в экономической сфере проявляющиеся через угрозу доллару), следует прежде всего отбросить те из них, которые вызваны простой неграмотностью выдвигающих их авторов.Разговоры о том, что новые

Из книги Самая интересная история в истории человечества автора Делягин Михаил Геннадьевич

Следствия из «теоремы меньшинства» Что нам мешает быть вместе в жизни и на экране В феврале мы с Александром Прохановым выступали в Западной Сибири. С разными книгами приехали, но вопросы из зала: только Украина. Александр Андреевич со вздохом признавал: "Западенцы

Из книги Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет автора Сильвер Нейт

Игла Кощея не простая, нефтяная – Понятно, про санкции мы уже говорили. Что будет с нефтяными ценами после замирения Запада с Ираном.– Они снизятся, но не критично. И не факт, что надолго, потому что цена нефти определяется на специально выбранном очень узком сегменте

Из книги Чего не знает современная наука автора Коллектив авторов

Невероятное наследие Томаса Байеса Томас Байес был английским священником, родившимся то ли в 1701, то ли в 1702 г. О жизни его известно довольно мало, хотя он подарил свое имя целому направлению в статистике и, возможно, самой знаменитой ее теореме. Неясно даже,

Из книги Железный бульвар автора Лурье Самуил Аронович

Когда статистика отклонилась от принципов Байеса Английский статистик и биолог по имени Рональд Эймлер (Р. A.) Фишер был, возможно, основным интеллектуальным соперником Томаса Байеса, несмотря на то что он родился в 1890 г., почти через 120 лет после его смерти. Он проявил

Из книги автора

Математика о судьбе ОпределенностьЧто ценят в науке больше всего? По всей видимости, то, что она может предсказывать будущее. Именно по этому признаку большинство людей отделяют «науку» от «ненауки». Если вы говорите: «Возможно, это будет так, хотя, может, и иначе», на вас в

Из книги автора

ТЕОРЕМЫ ЧААДАЕВА Масон. Франкоязычный литератор. Написал страниц триста, напечатал - тридцать, из них прочитаны многими десять; за каковые десять страниц заподозрен в русофобии; наказан.Там было нечто вроде примечания, как бы отступление от предмета речи: втолковывая

Краткая теория

Если событие наступает только при условии появления одного из событий образующих полную группу несовместных событий, то равна сумме произведений вероятностей каждого из событий на соответствующую условную вероятность кошелек .

При этом события называются гипотезами, а вероятности – априорными. Эта формула называется формулой полной вероятности.

Формула Байеса применяется при решении практических задач, когда событие , появляющееся совместно с каким-либо из событий образующих полную группу событий произошло и требуется провести количественную переоценку вероятностей гипотез . Априорные (до опыта) вероятности известны. Требуется вычислить апостериорные (после опыта) вероятности, т.е. по существу нужно найти условные вероятности . Формула Байеса выглядит так:

На следующей странице рассматривается задача на .

Пример решения задачи

Условие задачи 1

На фабрике станки 1,2 и 3 производят соответственно 20%, 35% и 45% всех деталей. В их продукции брак составляет соответственно 6%, 4%, 2%. Какова вероятность того, что случайно выбранное изделие оказалось дефектным? Какова вероятность того, что оно было произведено: а) станком 1; б) станком 2; в) станком 3?

Решение задачи 1

Обозначим через событие, состоящее в том, что стандартное изделие оказалось дефектным.

Событие может произойти только при условии наступления одного из трех событий:

Изделие произведено на станке 1;

Изделие произведено на станке 2;

Изделие произведено на станке 3;

Запишем условные вероятности:

Формула полной вероятности

Если событие может произойти только при выполнении одного из событий , которые образуютполную группу несовместных событий, то вероятность события вычисляется по формуле

По формуле полной вероятности находим вероятность события :

Формула Байеса

Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной.

Вероятность того, что дефектное изделие изготовлено на станке 1:

Вероятность того, что дефектное изделие изготовлено на станке 2:

Вероятность того, что дефектное изделие изготовлено на станке 3:

Условие задачи 2

Группа состоит из 1 отличника, 5 хорошо успевающих студентов и 14 студентов, успевающих посредственно. Отличник отвечает на 5 и 4 с равной вероятностью, хорошист отвечает на 5, 4 и 3 с равной вероятностью, и посредственно успевающий студент отвечает на 4,3 и 2 с равной вероятностью. Случайно выбранный студент ответил на 4. Какова вероятность того, что был вызван посредственно успевающий студент?

Решение задачи 2

Гипотезы и условные вероятности

Возможны следующие гипотезы:

Отвечал отличник;

Отвечал хорошист;

–отвечал посредственно занимающийся студент;

Пусть событие -студент получит 4.

Ответ:

На цену сильно влияет срочность решения (от суток до нескольких часов). Онлайн-помощь на экзамене/зачете осуществляется по предварительной записи.

Заявку можно оставить прямо в чате, предварительно скинув условие задач и сообщив необходимые вам сроки решения. Время ответа - несколько минут.

Сибирский государственный университет телекоммуникаций и информатики

Кафедра высшей математики

по дисциплине: «Теория вероятностей и математическая статистика»

«Формула полной вероятности и формула Бейеса(Байеса) и их применение»

Выполнил:

Руководитель: профессор Б.П.Зеленцов

Новосибирск, 2010


Введение 3

1. Формула полной вероятности 4-5

2. Формула Байеса(Бейеса) 5-6

3. Задачи с решениями 7-11

4. Основные сферы применения формулы Байеса(Бейеса) 11

Заключение 12

Литература 13


Введение

Теория вероятностей является одним из классических разделов математики. Она имеет длительную историю. Основы этого раздела науки были заложены великими математиками. Назову, например, Ферма, Бернулли, Паскаля.
Позднее развитие теории вероятностей определились в работах многих ученых.
Большой вклад в теорию вероятностей внесли ученые нашей страны:
П.Л.Чебышев, А.М.Ляпунов, А.А.Марков, А.Н.Колмогоров. Вероятностные и статистические методы в настоящее время глубоко проникли в приложения. Они используются в физике, технике, экономке, биологии и медицине. Особенно возросла их роль в связи с развитием вычислительной техники.

Например, для изучения физических явлений производят наблюдения или опыты. Их результаты обычно регистрируют в виде значений некоторых наблюдаемых величин. При повторении опытов мы обнаруживаем разброс их результатов. Например, повторяя измерения одной и той же величины одним и тем же прибором при сохранении определенных условий (температура, влажность и т.п.), мы получаем результаты, которые хоть немного, но все же отличаются друг от друга. Даже многократные измерения не дают возможности точно предсказать результат следующего измерения. В этом смысле говорят, что результат измерения есть величина случайная. Еще более наглядным примером случайной величины может служить номер выигрышного билета в лотерее. Можно привести много других примеров случайных величин. Все же и в мире случайностей обнаруживаются определенные закономерности. Математический аппарат для изучения таких закономерностей и дает теория вероятностей.
Таким образом, теория вероятностей занимается математическим анализом случайных событий и связанных с ними случайных величин.

1. Формула полной вероятности.

Пусть имеется группа событий H 1 , H 2 ,..., H n , обладающая следую­щими свойствами:

1) все события попарно несовместны: H i

H j =Æ; i , j =1,2,...,n ; i ¹ j ;

2) их объединение образует пространство элементарных исходов W:

.
Рис.8

В этом случае будем говорить, что H 1 , H 2 ,...,H n образуют полную группу событий . Такие события иногда называют гипотезами .

Пусть А – некоторое событие: А ÌW (диаграмма Венна представлена на рисунке 8). Тогда имеет место формула полной вероятности:

P (A ) = P (A /H 1)P (H 1) + P (A /H 2)P (H 2) + ...+P (A /H n )P (H n ) =

Доказательство. Очевидно: A =

, причем все события (i = 1,2,...,n ) попарно несовместны. Отсюда по теореме сложения вероятностей получаем

P (A ) = P (

) + P ( ) +...+ P (

Если учесть, что по теореме умножения P (

) = P (A/H i)P (H i) (i = 1,2,...,n ), то из последней формулы легко получить приведенную выше формулу полной вероятности.

Пример . В магазине продаются электролампы производства трех заводов, причем доля первого завода - 30%, второго - 50%, третьего - 20%. Брак в их продукции составляет соответственно 5%, 3% и 2%. Какова вероятность того, что случайно выбранная в магазине лампа оказалась бракованной.

Пусть событие H 1 состоит в том, что выбранная лампа произведена на первом заводе, H 2 на втором, H 3 - на третьем заводе. Очевидно:

P (H 1) = 3/10, P (H 2) = 5/10, P (H 3) = 2/10.

Пусть событие А состоит в том, что выбранная лампа оказалась бракованной; A/H i означает событие, состоящее в том, что выбрана бракованная лампа из ламп, произведенных на i -ом заводе. Из условия задачи следует:

P (A / H 1) = 5/10; P (A / H 2) = 3/10; P (A / H 3) = 2/10

По формуле полной вероятности получаем

2. Формула Байеса(Бейеса)

Пусть H 1 ,H 2 ,...,H n - полная группа событий и А Ì W – некоторое событие. Тогда по формуле для условной вероятности

(1)

Здесь P (H k /A ) – условная вероятность события (гипотезы) H k или вероятность того, что H k реализуется при условии, что событие А произошло.

По теореме умножения вероятностей числитель формулы (1) можно представить в виде

P = P = P (A /H k )P (H k )

Для представления знаменателя формулы (1) можно использовать формулу полной вероятности

P (A )

Теперь из (1) можно получить формулу, называемую формулой Байеса :

По формуле Байеса исчисляется вероятность реализации гипотезы H k при условии, что событие А произошло. Формулу Байеса еще называют формулой вероятности гипотез. Вероятность P (H k ) называют априорной вероятностью гипотезы H k , а вероятность P (H k /A ) – апостериорной вероятностью.

Теорема. Вероятность гипотезы после испытания равна произведению вероятности гипотезы до испытания на соответствующую ей условную вероятность события, которое произошло при испытании, деленному на полную вероятность этого события.

Пример. Рассмотрим приведенную выше задачу об электролампах, только изменим вопрос задачи. Пусть покупатель купил электролампу в этом магазине, и она оказалась бракованной. Найти вероятность того, что эта лампа изготовлена на втором заводе. Величина P (H 2) = 0,5 в данном случае это априорная вероятность события, состоящего в том, что купленная лампа изготовлена на втором заводе. Получив информацию о том, что купленная лампа бракованная, мы можем поправить нашу оценку возможности изготовления этой лампы на втором заводе, вычислив апостериорную вероятность этого события.

Выпишем формулу Байеса для этого случая

Из этой формулы получаем: P (H 2 /A ) = 15/34. Как видно, полученная информация привела к тому, что вероятность интересующего нас события оказывается ниже априорной вероятности.

3. Задачи с решениями.

Задача 1. В магазин поступила новая продукция с трех предприятий. Процентный состав этой продукции следующий: 20% - продукция первого предприятия, 30% - продукция второго предприятия, 50% - продукция третьего предприятия; далее, 10% продукции первого предприятия высшего сорта, на втором предприятии - 5% и на третьем - 20% продукции высшего сорта. Найти вероятность того, что случайно купленная новая продукция окажется высшего сорта.

Решение. Обозначим через В событие, заключающееся в том, что будет куплена продукция высшего сорта, через

обозначим события, заключающиеся в покупке продукции, принадлежащей соответственно первому, второму и третьему предприятиям.

Можно применить формулу полной вероятности, причем в наших обозначениях:

Подставляя эти значения в формулу полной вероятности, получим искомую вероятность:

Задача 2. Один из трех стрелков вызывается на линию огня и производит два выстрела. Вероятность попадания в мишень при одном выстреле для первого стрелка равна 0,3, для второго - 0,5; для третьего - 0,8. Мишень не поражена. Найти вероятность того, что выстрелы произведены первым стрелком.