Reinforcement Learning

Was ist das Ziel von Reinforcement Learning (RL)? 
Definiere und beschreibe den Markov-Entscheidungsprozess (MDP) formal! 
Wie sieht die Agent-Umgebungs-Interaktion in einem MDP aus? 
Was ist eine Policy π? 
Was ist der State-Value vπ(s) eines Zustands s unter einer Policy π? Was ist die Beziehung zwischen State-Value Funktion vπ und der State-Action-Value Funktion qπ? 
Was ist der Unterschied zwischen model-basierten und model-freien Reinforcement Learning Methoden? 
Beschreibe die Value Iteration Methode in deinen eigenen Worten! 
Beschreibe die Q-Learning Methode in deinen eigenen Worten! 
Was ist der Exploration-Exploitation Trade-off? Wie hängt er mit ϵ-greedy zusammen? 
Wie wird Q in der Q-Learning Methode aktualisiert? 
Wie unterscheidet sich die Q-Learning Methode von der Value Iteration Methode? 
Wie funktioniert Q-Learning in einem Multi-Agenten-Szenario? Was sind die Herausforderungen? 
Wie kann RL in agentenbasierten Systemen eingesetzt werden? 
Bellman equation 
Exploration und Exploitation: 
Erklären Sie Q-Learning und was sind die Bedeutungen der Parameter? 
Verteiltes Reinforcement Learning 
Value Iteration vs. Policy Iteration: