Was ist der State-Value vπ(s) eines Zustands s unter einer Policy π? Was ist die Beziehung zwischen State-Value Funktion vπ und der State-Action-Value Funktion qπ?

Was ist der State-Value vπ(s) eines Zustands s unter einer Policy π? Was ist die Beziehung zwischen State-Value Funktion vπ und der State-Action-Value Funktion qπ?

Frage:

Was ist die State-Value-Funktion vπ(s)?

Wie unterscheidet sie sich von der State-Action-Value-Funktion qπ(s,a)?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.