Основы теоремы Томаса Байеса

Томас Байес (1702—1761) — выдающийся английский математик, интересовавшийся «доктриной шансов» (или, в современной интерпретации, теорией вероятностей). Так сложилось, что его открытия обрели широкую популярность только после его смерти: в 1763 году Р. Прайс опубликовал работы Байеса под заглавием «Опыт решения задачи по теории вероятностей покойного достопочтенного мистера Байеса, члена Королевского общества. Сообщено мистером Прайсом в письме к Джону Кентону, магистру искусств, члену Королевского общества». На русском языке эта работа увидела свет в 1958 году под названием «Очерки к решению проблемы доктрины шансов Томаса Байеса». (Подробнее см. «Теорию вероятностей» Майстрова Л.Е.)

Призванием данной публикации есть освещение основ теоремы Байеса, обоснование ее теоретического и практического значения.


1. Полная вероятность

Математики не изобретают новые закономерности — они их открывают. Рассуждения такого рода приводят к тому, что наш мир полон закономерностей, и призванием человека разумного есть их открытие. Привлекательно высказывание по этому поводу Эйнштейна:


«Мы подобны маленькому ребенку, зашедшему в огромную библиотеку, стены которой забиты книгами на разных языках до потолка. Ребенок понимает, что кто-то должен был написать эти книги... Мы видим, что Вселенная устроена удивительно, подчиняется определенным законам...»


Соответственно, у каждого научного рассуждения должна быть основа, на которой оно построено. Основа теоремы Томаса Байеса — полная вероятность, с которой, пожалуй, и следует начать.

Рассмотрим пример из книги «Элементарное введение в теорию вероятностей» (Б.В. Гнеденко, А.Я. Хинчин).

Допустим, что электрические лампочки производятся на двух заводах, причем первый из них поставляет 70%, а второй 30% всей потребляемой продукции. Из каждых ста лампочек первого завода в среднем 83 стандартных (надлежащего качества), а из ста лампочек второго завода — лишь 63 стандартных.

Примем такие обозначения:

А — лампочка стандартного качества;

Ā — лампочка нестандартного качества;

Е — лампочка изготовлена первым заводом;

Ē — лампочка изготовлена вторым заводом.

Найдем вероятность того, что наугад выбранная лампочка окажется надлежащего качества и что она была изготовлена вторым заводом. Из условия видно, что вторым заводом на каждую 1000 изготавливается 300 лампочек, из которых 189 стандартных; имеем:


`P_Ē(A)=189/300=0,63.`


Аналогично вероятность стандартного качества лампочки при условии ее изготовления первым заводом:


`P_E(A)=581/700=0,83.`


Теперь же найдем безусловную вероятность того, что наугад выбранная лампочка стандартного качества. Чтоб решить эту задачу, рассуждать нужно так. Допустим, что событие M состоит в том, что лампочка выпущена первым заводом и она стандартного качества; событие F состоит в том, что лампочка выпущена вторым заводом и она стандартного качества. Очевидно, что наугад выбранная лампочка будет изготовлена либо первым, либо вторым заводом; соответственно, при указанном испытании обязательно наступит одно из двух событий: М или F. Изобразим это на языке математики:


`P(A)=P(M or F).`


По правилу сложения, в соответствии с которым вероятность наступления одного из нескольких несовместимых событий равна их сумме, находим:


`P(M or F)=P(M)+P(F). (1)`


Далее необходимо найти величины P(M) и P(F). Сделаем это таким образом. Для наступления события M необходимо выполнение таких условий: 1) лампочка изготовлена первым заводом (Е) и 2) лампочка стандартна (А); выполнение подобных условий необходимо и для наступления события F. Но так как правило умножения гласит, что вероятность совместного наступления двух событий равна произведению вероятности безусловного наступления первого события на условную вероятность наступления второго события (при условии, что первое событие уже состоялось), имеем:


`P(M)=P(E)P_E(A); (2)`


аналогично


`P(F)=P(Ē)P_Ē(A). (3)`


Подставляя (2) и (3) в (1), получаем полную вероятность наступления события A для данной задачи:


`P(A)=P(E)P_E(A)+P(Ē)P_Ē(A). (4)`


Несложный расчет приводит к такому результату:


`P(A)=0,77.`


Формула (4) дает возможность сформулировать общее правило полной вероятности:


Пусть в некоторой операции имеется полная система событий:


`A_1, A_2, ..., A_n,`

`sum_{i=1}^nP(A_i)=1.`


Тогда для любого возможного результата К этой операции имеет место выражение


`P(K)=P(A_1)P_(A_1)(K)+P(A_2)P_(A_2)(K)+ ... +P(A_n)P_(A_n)(K). (5)`


Выражение (5) является формулой полной вероятности в общем виде. Иногда ее изображают в такой, более удобочитаемой форме:


`P(K)=sum_{i=1}^nP(A_i and К)=sum_{i=1}^nP(A_i)P_(A_i)(K). (6)`


2. Теорема Томаса Байеса

Представим операцию, в которой имеется полная система событий


`A_1, A_2, ..., A_n,`

`sum_{i=1}^nP(A_i)=1,`


и допустим, что у нас есть все исходные данные для того, чтоб рассчитать полную вероятность наступления некоторого события K. Этими данными будут:


`P_(A_i),`

`P_(A_i)(K).`


Очевидно, что по причине изменения условий, в которых производятся испытания, изменяются и вероятности наступления элементарных событий из полной системы. Каким же образом найти величину этого изменения? Этим вопросом и задавался Томас Байес, в результате чего была выведена формула, позволяющая выполнить такого рода расчеты.

Рассмотрим более наглядный пример. Ведется спортивная стрельба по мишени. Мишень закрыта от стрелка перегородкой, разделенной на 5 произвольных участков a, b, c, d, e. По условию мишень находится за каким-то из пяти участков, но при стрельбе не известно, за каким именно. После каждого выстрела положение мишени изменяется. Эмпирическим путем были установлены вероятности нахождения мишени за каждым из пяти участков; они равны


`P(a)=0,48,`

`P(b)=P(c)=0,21,`

`P(d)=P(e)=0,05`


и составляют полную систему событий, т.е. имеет место уравнение


`P(a)+P(b)+P(c)+P(d)+P(e)=1.`


Рассмотрим событие K, состоящее в поражении мишени, и допустим, что эмпирическим путем были найдены такие условные вероятности:


`P_a(K)=0,56;`

`P_b(K)=0,18;`

`P_c(K)=0,16;`

`P_d(K)=0,06;`

`P_e(K)=0,02;`


эти числа отображают вероятность успешного выстрела при условии расположения мишени за определенным участком.

Пусть при выстреле мишень оказывается пораженной (происходит событие K). Это приводит к необходимости переоценки вероятностей нахождения мишени за определенной зоной, т.е. переоценке значений


`P(a), P(b) ..., P(e).`


Для решения поставленной задачи обратимся к фундаментальному понятию вероятности:


Вероятность — это отношение числа благоприятствующих данному условию исхода событий к числу всех возможных исходов.


Как видно из условия задачи, «числом всех возможных исходов» является полная вероятность наступления события K [т.е. P(K)], а «числом благоприятствующих данному условию исхода событий» является вероятность наступления события типа


`(A_i and K),`


т.е.


`P(A_i and K)=P(A_i)P_(A_i)(K).`


Изобразим это на языке математики:


`P_K(A_i)=[P(A_i)P_{A_i}(K)]/{P(K)} . (7)`


Принимая во внимание (6), имеем:


`P_K(A_i)=frac[P(A_i)P_(A_i)(K)][sum_{i=1}^nP(A_i)P_(A_i)(K)] . (8)`


Применим формулу (8) для решения нашей задачи:


`P_K(a)=[P(a)P_a(K)]/[P(a)P_a(K)+P(b)P_b(K)+P(c)P_c(K)+P(d)P_d(K)+P(e)P_e(K)]≈0,8`


и т.д.

Из результата видно, что под воздействием события K апостериорная вероятность подтверждения некоторой гипотезы A увеличилась по отношению к априорной.


Априорная вероятность — это вероятность, определяемая чисто аналитическим путем (т.е. без проведения эксперимента). В формуле Байеса априорная вероятность является исходной величиной для расчета вероятности апостериорной.

Апостериорная вероятность — это вероятность, о величине которой судят после проведения некоторого эксперимента (т.е. после получения необходимых результатов, подтверждающих или опровергающих гипотезу).

Гипотеза — это элементарное событие, появление которого предполагают с определенной вероятностью, и которое входит в полную систему.

Для объяснения названных понятий вернемся к задаче о спортивной стрельбе. В рамках ее условий гипотезами выступают события a, b, c, d, e, составляющие полную систему. Каждая из названных гипотез утверждает о нахождении мишени за определенным участком, и вместе с этим каждая гипотеза может оказаться верной с определенной вероятностью. В результате эксперимента (серии выстрелов) были получены новые, эмпирические данные о положениях мишени. Эти данные оказывают воздействие на априорные вероятности гипотез, и последние нуждаются в переоценке. Результатом переоценки являются апостериорные вероятности достоверности каждой из гипотез.


Для удобства в формулу Байеса обычно вводят такие замены:


`P(A_i)=P_i,`

`P_(A_i)(K)=p_i;`


благодаря этому формула получает более простой вид:


`P_K(A_i)=frac[P_ip_i][sum_{r=1}^nP_rp_r] . (9)`


Введем новое понятие «испытание».


Испытание — это действие, повторяемое n-ое количество раз с целью появления некоторого события K.


В задаче выше испытанием считается каждый выстрел, целью которого есть поражение мишени (событие K).

Вернемся к этой задаче и рассмотрим такой пример. Предположим, что по мишени было произведено s выстрелов, причем результат K (поражение мишени) наступил m раз и не наступил, соответственно, s—m раз. Введем новое событие K*, представляющее собой результат серии из s выстрелов.

Найдем вероятность наступления результата K при условии, что некоторая гипотеза A справедлива; по правилу умножения имеем:


`p_(i)^{m}(1-p_i)^(s-m).`


Данную запись следует читать таким образом: событие K наступает при условии, что 1) мишень поражена m раз с вероятностью


`p_(i)^{m}`


и не поражена s—m раз с вероятностью


`(1-p_i)^{s-m}.`

Так как произведенные m выстрелов могут являться любыми из s выстрелов, событие K* имеет


`C_{s}^m`


несовместимых способов осуществления. Таким образом, вероятность осуществления события K* при условии, что некоторая гипотеза A верна, рассчитывается так:


`P_(A_i)(K^⋆)=C_{s}^{m}p_(i)^{m}(1-p_i)^(s-m).`


Итого, переоценка истинности некоторой гипотезы A при наступлении события K* по формуле Томаса Байеса осуществляется так:


`P_(K^⋆)(A_i)=frac[P_iP_(A_i)(K^⋆)][sum_{r=1}^nP_rP_{A_r}(K^⋆)] . (10)`


Следует заметить, что в данной формуле числа комбинаций взаимно сокращаются (в знаменателе есть возможность вынести число комбинаций за знак сумы).

Рассчитаем по (10) вероятность того, что мишень находится за участком a, если два последовательных выстрела были успешными. Пусть двукратное попадание в цель есть событием K*; имеем:


`P_(K^⋆)(a)=frac[P(a)[P_a(K)]^2[1-P_a(K)]^(2-2)]{P(a)[P_{a}(K)]^2[1-P_a(K)]^(2-2)+P(b)[P_{b}(K)]^2[1-P_b(K)]^(2-2)+...}=`


`=frac[P(a)[P_{a}(K)]^2][P(a)[P_{a}(K)]^2+P(b)[P_{b}(K)]^2+...]≈0,917.`