Erősítéses tanulás

A megerősítéses tanulás mögött álló biológia az Operáns kondicionálás és a Jutalmazás című oldalakon található.

A megerősítéses tanulás (RL) azt jelenti, hogy egy szoftverügynököt megtanítunk arra, hogyan viselkedjen egy környezetben azáltal, hogy megmondjuk neki, milyen jól csinálja. Ez a gépi tanulás egy olyan területe, amelyet a behaviorista pszichológia inspirált.

Az erősítéses tanulás különbözik a felügyelt tanulástól, mivel a helyes bemenetek és kimenetek soha nem jelennek meg. Emellett a megerősítéses tanulás általában menet közben tanul (online tanulás), ellentétben a felügyelt tanulással. Ez azt jelenti, hogy az ágensnek választania kell a felfedezés és aközött, hogy ragaszkodik-e ahhoz, amit a legjobban ismer.

Bevezetés

A megerősítéses tanulási rendszer egy szabályzatból ( π {\displaystyle \pi }{\displaystyle \pi } ), egy jutalomfüggvényből ( R {\displaystyle R}{\displaystyle R} ), egy értékfüggvényből ( v {\displaystyle v}{\displaystyle v} ) és egy választható környezeti modellből áll.

A szabályzat megmondja az ügynöknek, hogy mit kell tennie egy adott helyzetben. Ez lehet egy egyszerű szabálytáblázat, vagy a helyes cselekvés bonyolult keresése. A házirendek lehetnek sztochasztikusak is, ami azt jelenti, hogy a szabályok helyett a házirend valószínűségeket rendel az egyes cselekvésekhez. A házirend önmagában ráveheti az ágenst, hogy tegyen dolgokat, de önmagától nem képes tanulni.

A jutalomfüggvény határozza meg az ágens célját. Befogad egy állapotot (vagy egy állapotot és az abban az állapotban végrehajtott cselekvést), és visszaad egy jutalomnak nevezett számot, amely megmondja az ágensnek, hogy milyen jó az adott állapotban lenni. Az ágens feladata, hogy hosszú távon a lehető legnagyobb jutalmat kapja. Ha egy cselekvés alacsony jutalmat eredményez, akkor az ágens a jövőben valószínűleg egy jobb cselekvést fog végrehajtani. A biológia a jutalomjelzéseket, például az örömöt vagy a fájdalmat használja arra, hogy az élőlények életben maradjanak és szaporodni tudjanak. A jutalomjelzések lehetnek sztochasztikusak is, mint egy kaszinó nyerőgép, ahol néha fizetnek, néha pedig nem.

Egy értékfüggvény megmondja az ágensnek, hogy az s {\displaystyle s} állapotból kiindulva mennyi jutalmat kap egy π {\displaystyle \pi } {\displaystyle \pi }{\displaystyle s} politikát követve. Azt fejezi ki, hogy mennyire kívánatos egy adott állapotban lenni. Mivel az értékfüggvényt nem adjuk meg közvetlenül az ágensnek, az eddig kapott jutalom alapján kell kitalálnia egy jó becslést vagy becslést. Az értékfüggvény becslése a legtöbb megerősített tanulási algoritmus legfontosabb része.

A modell az ágens mentális másolata a környezetről. Ezt használják a jövőbeli cselekvések megtervezésére.

Ennek ismeretében beszélhetünk a megerősítéses tanulási epizód fő hurkáról. Az ágens diszkrét időlépésekben lép kölcsönhatásba a környezettel. Gondoljunk erre úgy, mint egy óra "ketyegésére". A diszkrét időnél a dolgok csak a "ketyegések" és a "tikkek" alatt történnek, a kettő között nem. Minden egyes t = 0 , 1 , 2 , 3 , ... időpontban. {\displaystyle t=0,1,2,3,... } {\displaystyle t=0,1,2,3,...}az ágens megfigyeli a környezet S t {\displaystyle S_{t}}{\displaystyle S_{t}} állapotát, és kiválaszt egy A t {\displaystyle A_{t}}{\displaystyle A_{t}} akciót egy π {\displaystyle \pi } politika alapján. {\displaystyle \pi }. A következő időlépésben az ágens kap egy R t + 1 {\displaystyle R_{t+1}}{\displaystyle R_{t+1}} jutalomjelzést és egy új megfigyelést S t + 1 {\displaystyle S_{t+1}} {\displaystyle S_{t+1}}. A v ( S t ) {\displaystyle v(S_{t})}{\displaystyle v(S_{t})} értékfüggvényt a jutalom felhasználásával frissítjük. Ez addig folytatódik, amíg el nem érjük az S T {\displaystyle S_{T}}{\displaystyle S_{T}} végállapotot.

Zoom



AlegsaOnline.com - 2020 / 2023 - License CC3