Принятие решений с возможностью экспериментирования

Пусть имеется 1000 урн, на каждую из которых наклеен один из ярлыков θ₁ или θ₂. В каждую урну положены красные и черные шары. В урне типа θ₁ - 4 красных и 6 черных шаров. В урне типа θ₂ - 9 красных и 1 черный шар. Всего имеется 800 урн типа θ₁ и 200 урн типа θ₂.

Экспериментатор выбирает одну из урн случайным образом и сняв наклейку ставит перед Вами. Вам предлагается угадать тип урны. Если Вы угадываете, то выигрываете некоторое количество денег, а в противном случае - проигрываете. Итак, у Вас есть выбор из трех возможных действий:

- сказать, что урна типа θ₁ (действие а₁);

- сказать, что урна типа θ₂ (действие а₂);

- отказаться играть (действие а₃).

Описанная задача представлена ниже в виде табл. 1.
Состояние	Выигрыши	Таблица 1.	Вы	можете	получить
Вероятность
		Действия		состояния	дополнительную	информацию,	которая
	а₁	а₂	а₃		поможет выбрать одно из перечисленных
θ₁		-5		0,8	действий. Для этого можно избрать один из
θ₂	-20			0,2	следующих альтернативных экспериментов:
ОДО					- за плату в $8	Вы можете случайным

образом вынуть один шар из урны, стоящей

перед Вами (эксперимент е₁);

- за плату в $12 Вы можете вынуть 2 шара из этой урны (эксперимент е₂);

- за плату $9 Вы можете вынуть один шар и, после того как посмотрите на него, решить, хотите ли Вы вынуть еще шар за дополнительную плату $4,5. Вы можете также без всякой дополнительной платы решить, вернете ли Вы первый вынутый шар в урну перед тем, как будете вынимать второй, или нет (эксперимент е_s).

Рассмотрим решение этой задачи. Назовем ожидаемой денежной оценкой (ОДО) игры с различными исходами величину, которая получается умножением полезности каждого возможного исхода (в $) на его вероятность и суммированием этих произведений по всем возможным исходам.

Например, решившись в своей задаче на а₁ без всякого экспериментирования Вы получаете +$40 если θ₁ истинно (вероятность этого 0,8) или -$20 если θ₂ истинно (вероятность этого 0,2), поэтому цена такой игры есть 0,8⋅⋅40 - 0,2⋅20 = 28. Если Вы не экспериментируете, то наилучшим выбором будет а₁, ОДО которого равно $28 (для а₂ оно равно -$16).

Рассмотрим теперь построение, так называемого, дерева решений.

Взносы Вершины

Вершины

Штрафы и

Вероятности

случая

решения

случая

премии

траекторий

(e₀,a₁)

θ₁

$40

0,8

a₁

$28

0,2

-$20

(e₀)

θ₂

0,2

-$5

$28

(e₀,a₂) θ₁

0,8

$16

0,2

$100

θ₂

0,32

(e₁,R,a₁) θ₁

$40

0,64

$18,4

0,36

-$20

(e₁,R) a₁

θ₂

0,18

θ₁

-$5

0,32

a₂

(e₁,R,a₂) 0,64

(e₁)

$32,8

0,36

а₃

$32,8

θ₂

$100

0,18

$35,2 B

θ₁

$40 0,48

e₁

(e₁,B)

a₁

0,96

-$8

$37,6

θ₂

0,04

-$20

0,02

$37,6 a₂

θ₁

0,96

-$5

0,48

-$0,8

0,04

$100

θ₂

0,02

-$12

θ1

0,4

$40

a₁

0,6

-$20

θ2

θ₁

-$5

θ₁

128/290

-$9

$58

$100

e_s

RB∨BR

θ₂

a₁

162/290

θ₂

-$20

$42,4

$34,86

-$5

. . .

a₂

$53,66 θ₁128/290

0,58

162/290

$34,86

θ₂

$100

$40

θ₁

$40

С возвратом

0,42

a₁

64/70

θ₂

6/70 -$20

-$4,5

Без возврата

a₂

0,5

Прекратить ∼(e₁,R)

∼(e₂,RR)

∼(e₂,RB)

$40,15

0,5

Прекратить ∼(e₁,B)

a₁

a₂

θ₁

θ₂

-$4,5

a₁

θ₁

(e_s,B)

С возвратом

θ₂

Без

возврата

a₂

∼(e₂,BR)

θ₁

Рис.1

∼(e₂,BB)

θ₂

На этом рисунке на некоторых разветвлениях (вершины- решения ) Вы решаете, что выбрать, а на других (вершины- случая) - правит случай. Взносы, которые Вы должны делать, нанесены на схему, а в конечных пунктах обозначены штрафы или премии, ожидающие Вас.

В каждой развилке, где правит случай, существенно знать вероятности, с которыми он выбирает те или иные альтернативы. Как они вычисляются? Для вершин (е₀,а₁) и (е₀, а₂) эти вероятности вычисляются непосредственно по исходным данным, как мы это уже сделали (е₀- это отсутствие эксперимента).

Предположим, что Вы выбрали е₁ и далее получили R (красный шар) или B (черный шар). Каковы вероятности в вершинах (е₁,R,а₁), (е₁,B,а₁) и др.? Для этого нам необходимо иметь следующие величины: условную вероятность θ₁, если е₁ привело к извлечению красного шара, т.е. p(θ₁|R),

аналогично p(θ₂|R), p(θ₁|B), p(θ₂|B), p(R|e₁), p(B|e₁). Но что мы знаем? 1). Вероятность появления θ₁ до извлечения шара p(θ₁)=0,8.

2). Вероятность появления θ₂ , p(θ₂)=0,2.

3). Условную вероятность того, что е₁ приведет к извлечению красного шара, если θ₁ истинно: p(R|θ₁)=4/10=0,4.

4). Аналогично p(B|θ₁)=0,6.

5). Аналогично p(R|θ₂)=9/10=0,9.

6). Аналогично p(B|θ₂)=0,1.

Чтобы из этих вероятностей получить те, которые нас интересуют, используем формулу Байеса:

p(E|S)=p(S|E)p(E)/( Σ p(S|A)p(A)).

Теперь мы получаем:

По формуле полной вероятности получаем:

p(R)= p(R/θ₁)p(θ₁ )+p(R/θ₂ )p(θ₂ )=0,8 ×4/10+0,2 9/10=0,5 p(B)=0,5.

Перейдем к анализу дерева решений. Проанализируем ветвь е₀. Запишем

ОДО(е₀,а₁)=0,8× 40+0,2 ×(-20)=28 ОДО(е₀,а₂)=0,8× (-5)+0,2× 100=16.

Это есть операция усреднения. Вернемся немного назад и остановимся в (е₀). Тут необходимо решить, выбрать а₁ или а ₂. Ясно, что нужно выбрать а ₁ ($28), заблокировав а₂ ($16). Это есть операция свертывания.В результате у (е₀) записывается $28.

Таким образом, двигаясь от конца мы воспользовались двумя средствами:

1) операцией усреднения в каждой случайной развилке;

2) операцией свертывания, заключающейся в выборе пути, ведущего к максимальной оценке будущего в каждой вершине выбора.

Приведенным способом можно вывести и объяснить все оценки. Например, развилке (е₂,RR) приписана оценка в $58. Методом усреднения мы прежде всего уясняем, что ОДО(е₂,RR,a₁)=0,4

×40+0,6× (-20)=4 ОДО(e₂,RR,a₂)=0,4× (-5)+0,6×(100)=58. Поэтому,в соответствии с принципамисвертывания, путь а₁ должен быть отброшен и, следовательно, ОДО(е₂,RR)=58.

Но какова наша оценка развилки (е₂) после уплаты взноса в $12 ? После этой точки мы можем очутиться на 3-х различных путях: на пути RR с вероятностью (4/10)(3/9)0,8+(9/10)(8/9)0,2= 24/90, RB или BR с вероятностью 42/90 или на пути BB с вероятностью 24/90. Следовательно, оценка точки (е₂) на дереве равна

ОДО(е₂)=58 ×24/90+34,86× 42/90+40× 24/90=42,4.

Из дерева решений видно, что если включить в свои подсчеты начальные взносы, то нужно считать путь е_s лучшим , чем е₂, который в свою очередь лучше чем е₀, лучше чем е₁, и все они лучше чем “отказаться играть”. С нашей точки зрения оценка решения участвовать в игре будет равна 40,15 - 9=31,15.Это наилучшая оценка по всем экспериментам.

Из дерева решений видно, что ожидаемая ценность в (е₀) равна $28, в то время как ожидаемая ценность в (е₁) равна $35,2. Разница $7,2- это ожидаемый рост ценности игры в результате того, что Вы взяли один шар на пробу и выбрали наилучшее действие на основе полученной информации. Будем это

называть ожидаемая ценность информации от выбора эксперимента е₁. Таким образом,

ОЦИВ(е₁)=$7,2 и ОЦИВ(е₂)=$14,4⁴¹.

Не нашли, что искали? Воспользуйтесь поиском по сайту: