optimering
flerarmade banditer och epsilon greedy
Problem:
givet K enarmade banditer (stokastiska processer)
välj vilka du ska spela på, för hur mycket, och med vilken frekvens
maximera förväntad vinst
Initialt vet vi väldigt l ite om varje slumpurval, men varje gång vi drar i spaken får vinner vi eller förlorar vi, samtidigt som vi lär oss mer om processen