Reinforcement Learning

Was ist das Ziel von Reinforcement Learning (RL)?
Definiere und beschreibe den Markov-Entscheidungsprozess (MDP) formal!
Wie sieht die Agent-Umgebungs-Interaktion in einem MDP aus?
Was ist eine Policy π?
Was ist der State-Value vπ(s) eines Zustands s unter einer Policy π? Was ist die Beziehung zwischen State-Value Funktion vπ und der State-Action-Value Funktion qπ?
Was ist der Unterschied zwischen model-basierten und model-freien Reinforcement Learning Methoden?
Beschreibe die Value Iteration Methode in deinen eigenen Worten!
Beschreibe die Q-Learning Methode in deinen eigenen Worten!
Was ist der Exploration-Exploitation Trade-off? Wie hängt er mit ϵ-greedy zusammen?
Wie wird Q in der Q-Learning Methode aktualisiert?
Wie unterscheidet sich die Q-Learning Methode von der Value Iteration Methode?
Wie funktioniert Q-Learning in einem Multi-Agenten-Szenario? Was sind die Herausforderungen?
Wie kann RL in agentenbasierten Systemen eingesetzt werden?
Bellman equation
Exploration und Exploitation:
Erklären Sie Q-Learning und was sind die Bedeutungen der Parameter?
Verteiltes Reinforcement Learning
Value Iteration vs. Policy Iteration:

Kommentare

Nur angemeldete Nutzer dürfen kommentieren. Hier geht's zur kostenlosen Registrierung.