膿晒僥楼とは採だろう ゛バンディットアルゴリズム゛

峻さん、こんにちは。晦永蝕kグル`プの稼-看噛温敬温稼です。
7埖ですね。鈍櫓の佛である岶佛┘戰と刔佛┘▲襯織ぅ襭の寂の鉦宣は15高定になります。お札い15r飛く需えるんですね。

云籾です。
字亠僥楼には縮あり僥と縮なし僥の麿に膿晒僥楼というものがあります。縮あり僥と縮なし僥の`いは僥デ`タのラベルの嗤oですが、膿晒僥楼はあるh廠和での鶻蠅鰈邊鷸するための僥となります。書指は膿晒僥楼とバンディットアルゴリズムについてまとめました。

膿晒僥楼

古勣

膿晒僥楼は、エ`ジェントがh廠から彜Bを鞭け函り、互い鶻蠅鯤椶曳,譴襪茲Δ遍釼mな佩咾鰕Яする返隈です。膿晒僥楼では仝彜B々仝佩咫后鶻蝓垢里笋衄,蠅1ステップとして、Rり卦しMめていきます。醤悶議には參和の返でMめます。

  1. エ`ジェントが嶬擇痢虎缶々をQ霞する
  2. エ`ジェントが仝彜蓑々から仝佩強々を僉kする
  3. 桟廠が仝烏滑々と仝肝の彜蓑々を卦す
  4. エ`ジェントが烏滑をもとに僥楼する
  5. 肝の彜蓑に卞り、1゛4をRり卦す

この匯銭の送れ彜蓑★佩強★烏滑★肝の彜蓑はRり卦され、エ`ジェントはどのような彜趨彜蓑でどの佩強を函るべきかを編佩危列しながら僥び、繍栖の拙持烏滑が恷寄となる佩強を函るようにします。

箭えば、ゲ`ムの徭咼廛譽い任蓮光タ`ンr震でP中の彜r彜Bをて返佩咤をxび、,箋探磽鶻蝪を誼ることになります。膿晒僥楼は、徭嘴の徭嘸\やゲ`ムの徭咼廛譽ぁ▲蹈椒奪番酉、レ御塘佚の恷m晒など、さまざまな蛍勸で試喘されています。

試喘と冥沫

Rり卦しになりますが、膿晒僥楼はF壓の仝彜B々から、互い仝鶻蝓垢誼られる仝佩咫垢鰡xkすることを僥びます。しかし、隆岑の彜Bにして、どの佩咾砲茲蠍澆鶻蠅魑辰蕕譴襪里蛍かりません。そのため、膿晒僥楼では仝試喘々と仝冥沫々をバランスよく佩うことが嶷勣になります。

試喘は、これまでのUYから恷も措いと蛍かっている佩強を僉kし、鳩gに烏滑を誼ることです。

冥沫は、まだ編したことのない佩強を僉kし、仟しい岑紛を誼ることです。隆岑の佩強を編すことで、より互い烏滑を誼られる辛嬬來を冥ります。

謹欄バンディット諒籾

この試喘と冥沫をシンプルに燕Fした膿晒僥楼の}に仝謹欄バンディット諒籾々があります。

仝稼云のア`ム欄を隔つスロットマシン々が朕の念にあり、光ア`ムを哈くと呟なる鳩楕で烏滑が誼られる彜趨を深えます。どのア`ムが恷も互い烏滑をもたらすかは蛍かりません。プレイヤ`は泙蕕譴浸慂の嶄でア`ムを僉び、できるだけ謹くの烏滑を誼ることを朕峺します。

この諒籾のポイントは、仝どのア`ムが措いか蛍からない々ため、編佩危列しながら恷癖なア`ムを需つける駅勣があることです。光ア`ムの鳩楕を頼莎に委燐するために仝冥沫々をしすぎると、烏滑を誼る念に編佩指方の貧泙亡錣靴討靴泙い泙后また、噴蛍な冥沫もせずに、壼?に光ア`ムの鳩楕を畳協して仝試喘々しても、噴蛍な烏滑は誼られません。

謹欄バンディット諒籾は、膿晒僥楼の嶄でも蒙に仝冥沫々と仝試喘々のトレ`ドオフをシンプルに燕Fした旗燕議な}です。

バンディットアルゴリズム

バンディットアルゴリズムは、仝試喘々と仝冥沫々のバランスを函って、紳糞弔貿浸僥楼を佩う返隈です。麼に仝ε-乙姻艶艶糸霞圭貨々と仝雨遺京圭貨々の2つがあります。

ε-乙姻艶艶糸霞圭貨

ε-乙姻艶艶糸霞圭貨は、_楕ε┘ぅ廛轡蹈鵤でランダムに仝冥沫々をxび、_楕1-εで、これまでのUYから恷も鶻蠅互いと深えられる仝試喘々をxびます。

箭えば、ε=0.1とO協した栽、10%の_楕でランダムなア`ムをxび、90%の_楕で恷も豚棋、慮澆ぅ〒`ムをxびます。εの、寄きいほど冥沫を謹く佩い、弌さいほど試喘を嶷します。ε-乙姻艶艶糸霞圭貨はg廾がgで、謹欄バンディット諒籾の児A議なアプロ`チとしてよく聞われます。

雨遺京圭貨

UCBUpper Confidence Bound圭貨は、光ア`ムの仝峠譲鶻蝓垢函股佩指方に鬉犬寝惨_g來々をMみ栽わせて、肝のア`ムをxkします。


  
    UCB
    =
    
      ア`ム恰のこれまでの峠譲烏滑
    
    +
    
      
        
          2
          ×
          ln
          (
          畠てのア`ムの編佩指方
          )
        
        
          ア`ム恰の編佩指方
        
      
    
  

この塀の及1は仝試喘々┐海譴泙任瞭従鶻蝪、及2は仝冥沫々佩指方が富ないア`ムほど、寄きくなるを燕します。雨遺京圭貨では、光ア`ムの、恷寄となるア`ムをxkします。これにより、まだ噴蛍にしていないア`ムもm業にxばれるため、仝試喘々と仝冥沫々のバランスを徭啜弔釦{屁できます。

おわりに

膿晒僥楼のアルゴリズムは暴たちの附の指りでも措くかけます。創尖糾で創尖をmむH、徭蛍の挫きな創尖をmむのか┿醵達、あえてまだ奮べたことのない創尖をmむのか冥沫、んだことはありませんか燭海r、繁gはそのrの欸屬濃醵辰冥沫をQめますが、コンピュ`タはそうはいきません。採かしらのル`ルでQ協するのがバンディットアルゴリズムなのです。

ではまた。


Recommendおすすめブログ