Сделай Сам Свою Работу на 5

Принятие решений с возможностью экспериментирования





 

Пусть имеется 1000 урн, на каждую из которых наклеен один из ярлыков θ1 или θ2. В каждую урну положены красные и черные шары. В урне типа θ1 - 4 красных и 6 черных шаров. В урне типа θ2 - 9 красных и 1 черный шар. Всего имеется 800 урн типа θ1 и 200 урн типа θ2.

 

Экспериментатор выбирает одну из урн случайным образом и сняв наклейку ставит перед Вами. Вам предлагается угадать тип урны. Если Вы угадываете, то выигрываете некоторое количество денег, а в противном случае - проигрываете. Итак, у Вас есть выбор из трех возможных действий:

- сказать, что урна типа θ1 (действие а1);

- сказать, что урна типа θ2 (действие а2);

- отказаться играть (действие а3).

Описанная задача представлена ниже в виде табл. 1.        
Состояние Выигрыши Таблица 1. Вы можете получить  
Вероятность  
    Действия   состояния дополнительную информацию, которая  
  а1 а2 а3   поможет выбрать одно из перечисленных  
θ1 -5 0,8 действий. Для этого можно избрать один из  
θ2 -20 0,2 следующих альтернативных экспериментов:  
ОДО - за плату в $8 Вы можете случайным  

образом вынуть один шар из урны, стоящей



перед Вами (эксперимент е1);

- за плату в $12 Вы можете вынуть 2 шара из этой урны (эксперимент е2);

- за плату $9 Вы можете вынуть один шар и, после того как посмотрите на него, решить, хотите ли Вы вынуть еще шар за дополнительную плату $4,5. Вы можете также без всякой дополнительной платы решить, вернете ли Вы первый вынутый шар в урну перед тем, как будете вынимать второй, или нет (эксперимент еs).

Рассмотрим решение этой задачи. Назовем ожидаемой денежной оценкой (ОДО) игры с различными исходами величину, которая получается умножением полезности каждого возможного исхода (в $) на его вероятность и суммированием этих произведений по всем возможным исходам.

 

Например, решившись в своей задаче на а1 без всякого экспериментирования Вы получаете +$40 если θ1 истинно (вероятность этого 0,8) или -$20 если θ2 истинно (вероятность этого 0,2), поэтому цена такой игры есть 0,8⋅⋅40 - 0,2⋅20 = 28. Если Вы не экспериментируете, то наилучшим выбором будет а1, ОДО которого равно $28 (для а2 оно равно -$16).



 

Рассмотрим теперь построение, так называемого, дерева решений.


                                       
  Взносы Вершины Вершины Вершины Штрафы и   Вероятности      
      случая решения     случая премии   траекторий      
                (e0,a1) θ1 $40   0,8        
                0,8                  
                                         
              a1 $28 0,2   -$20              
      (e0)   (e0) θ2     0,2        
                            -$5              
                                         
      $28 $28   (e0,a2) θ1                  
              a2         0,8                
                $16 0,2 $100              
                        θ2     0,32        
    e0           (e1,R,a1) θ1   $40          
                               
                        0,64                
                $18,4 0,36 -$20              
        (e1,R) a1 θ2     0,18        
$0                       θ1 -$5   0,32        
  R     a2 (e1,R,a2) 0,64                
                     
      (e1) $32,8 0,36                  
а3         $32,8   θ2   $100 0,18        
      $35,2 B               θ1   $40 0,48            
    e1 (e1,B) a1         0,96                
-$8           $37,6 θ2 0,04 -$20 0,02        
                 
                                   
        $37,6 a2       θ1 0,96 -$5   0,48        
                 
                -$0,8 0,04 $100            
    e2             θ2 0,02        
-$12               θ1 0,4 $40         $40  
              a1 $4   0,6 -$20        
                  θ2              
            a2         θ1   -$5         θ1 128/290  
-$9 RR   $58                    
        $58     $100            
    es RB∨BR   θ2       a1 162/290  
                                      θ2 -$20  
      $42,4 $34,86                         -$5  
      BB           . . .     a2 $53,66 θ1128/290  
                     
                            R 0,58       162/290  
                                    $34,86 θ2 $100  
        $40                 B       θ1 $40  
                    С возвратом 0,42   a1 64/70  
                     
                                    θ2   6/70 -$20  
      R       -$4,5   Без возврата   a2    
                       
                     
                                       
        0,5 Прекратить ∼(e1,R) R   ∼(e2,RR)      
          B   ∼(e2,RB)      
      $40,15 0,5     Прекратить ∼(e1,B)   a1    
                       
                       
      B                     R       a2 θ1    
                                   
                                      θ2  
              -$4,5           B       a1 θ1    
                                 
      (es,B)           С возвратом         θ2    
                           
                           
              Без   возврата   R   a2      
                         
                            ∼(e2,BR)   θ1    
                    Рис.1   B ∼(e2,BB)     θ2  




 

 

На этом рисунке на некоторых разветвлениях (вершины- решения ) Вы решаете, что выбрать, а на других (вершины- случая) - правит случай. Взносы, которые Вы должны делать, нанесены на схему, а в конечных пунктах обозначены штрафы или премии, ожидающие Вас.

 

В каждой развилке, где правит случай, существенно знать вероятности, с которыми он выбирает те или иные альтернативы. Как они вычисляются? Для вершин 01) и 0, а2) эти вероятности вычисляются непосредственно по исходным данным, как мы это уже сделали (е0- это отсутствие эксперимента).

 

Предположим, что Вы выбрали е1 и далее получили R (красный шар) или B (черный шар). Каковы вероятности в вершинах 1,R,а1), (е1,B,а1) и др.? Для этого нам необходимо иметь следующие величины: условную вероятность θ1, если е1 привело к извлечению красного шара, т.е. p(θ1|R),

 

аналогично p(θ2|R), p(θ1|B), p(θ2|B), p(R|e1), p(B|e1). Но что мы знаем? 1). Вероятность появления θ1 до извлечения шара p(θ1)=0,8.

2). Вероятность появления θ2 , p(θ2)=0,2.

 

3). Условную вероятность того, что е1 приведет к извлечению красного шара, если θ1 истинно: p(R|θ1)=4/10=0,4.

4). Аналогично p(B|θ1)=0,6.

5). Аналогично p(R|θ2)=9/10=0,9.

6). Аналогично p(B|θ2)=0,1.

 

Чтобы из этих вероятностей получить те, которые нас интересуют, используем формулу Байеса:

 

p(E|S)=p(S|E)p(E)/( Σ p(S|A)p(A)).

A

 

Теперь мы получаем:

 

p(θ1|R)=p(R|θ1)p(θ1)/(p(R|θ1)p(θ1)+p(R|θ2)p(θ2))=0,4 ×0,8/(0,4 ×0,8+0,9 ×0,2)=0,64 p(θ2|R)=p(R|θ2)p(θ2)/(p(R|θ2)p(θ2)+p(R|θ1)p(θ1))=0,9× 0,2/0,5=0,36 p(θ1|B)=p(B|θ1)p(θ1)/(p(B|θ1)p(θ1)+p(B|θ2)p(θ2))=0,6 ×0,8/(0,6× 0,8+0,1× 0,2)=0,96 p(θ2|B)=p(B|θ2)p(θ2)/(p(B|θ1)p(θ1)+p(B|θ2)p(θ2))=0,02/0,5=0,04.

По формуле полной вероятности получаем:

p(R)= p(R/θ1)p(θ1 )+p(R/θ2 )p(θ2 )=0,8 ×4/10+0,2 9/10=0,5 p(B)=0,5.

Перейдем к анализу дерева решений. Проанализируем ветвь е0. Запишем

ОДО(е01)=0,8× 40+0,2 ×(-20)=28 ОДО(е02)=0,8× (-5)+0,2× 100=16.

Это есть операция усреднения. Вернемся немного назад и остановимся в 0). Тут необходимо решить, выбрать а1 или а 2. Ясно, что нужно выбрать а 1 ($28), заблокировав а2 ($16). Это есть операция свертывания.В результате у0) записывается $28.

 

Таким образом, двигаясь от конца мы воспользовались двумя средствами:

 

1) операцией усреднения в каждой случайной развилке;

 

2) операцией свертывания, заключающейся в выборе пути, ведущего к максимальной оценке будущего в каждой вершине выбора.

Приведенным способом можно вывести и объяснить все оценки. Например, развилке 2,RR) приписана оценка в $58. Методом усреднения мы прежде всего уясняем, что ОДО(е2,RR,a1)=0,4

 

×40+0,6× (-20)=4 ОДО(e2,RR,a2)=0,4× (-5)+0,6×(100)=58. Поэтому,в соответствии с принципамисвертывания, путь а1 должен быть отброшен и, следовательно, ОДО(е2,RR)=58.

Но какова наша оценка развилки 2) после уплаты взноса в $12 ? После этой точки мы можем очутиться на 3-х различных путях: на пути RR с вероятностью (4/10)(3/9)0,8+(9/10)(8/9)0,2= 24/90, RB или BR с вероятностью 42/90 или на пути BB с вероятностью 24/90. Следовательно, оценка точки 2) на дереве равна

ОДО(е2)=58 ×24/90+34,86× 42/90+40× 24/90=42,4.

 

Из дерева решений видно, что если включить в свои подсчеты начальные взносы, то нужно считать путь еs лучшим , чем е2, который в свою очередь лучше чем е0, лучше чем е1, и все они лучше чем “отказаться играть”. С нашей точки зрения оценка решения участвовать в игре будет равна 40,15 - 9=31,15.Это наилучшая оценка по всем экспериментам.

 

Из дерева решений видно, что ожидаемая ценность в 0) равна $28, в то время как ожидаемая ценность в 1) равна $35,2. Разница $7,2- это ожидаемый рост ценности игры в результате того, что Вы взяли один шар на пробу и выбрали наилучшее действие на основе полученной информации. Будем это


 

называть ожидаемая ценность информации от выбора эксперимента е1. Таким образом,

ОЦИВ(е1)=$7,2 и ОЦИВ(е2)=$14,441.

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.