Markow-Entscheidungsproblem

Bei dem Markow-Entscheidungsproblem (MEP, auch Markow-Entscheidungsprozess oder MDP für Markov decision process) handelt es sich um ein nach dem russischen Mathematiker Andrei Andrejewitsch Markow benanntes Modell von Entscheidungsproblemen, bei denen der Nutzen eines Agenten von einer Folge von Entscheidungen abhängig ist. Bei den Zustandsübergängen gilt dabei die Markow-Annahme, d. h. die Wahrscheinlichkeit einen Zustand von Zustand aus zu erreichen, ist nur von abhängig und nicht von Vorgängern von .

Formale Definition

Ein MEP ist ein Tupel , wobei

  • eine Menge von Zuständen,
  • eine Menge von Aktionen,
  • das Aktionsmodell (auch Transitionswahrscheinlichkeit) ist, so dass die Wahrscheinlichkeit ist, von Zustand und Ausführung von Aktion in den Zustand zu gelangen.
  • die Belohnungsfunktion ist, die jedem Übergang vom letzten zum aktuellen Zustand eine Belohnung zuordnet und
  • die Startverteilung ist, die zu jedem Zustand angibt, wie wahrscheinlich es ist, in diesem Zustand zu starten.

Beispiel

Ein MEP l​iegt vor, w​enn ein Roboter d​urch ein Labyrinth z​u einem Ziel navigieren muss. Dabei i​st die Menge d​er Zustände d​ie Menge d​er Positionen d​es Roboters u​nd die Aktionen s​ind die möglichen Richtungen, i​n die s​ich der Roboter bewegen kann.

Lösung

Die Lösung eines MEP ist eine Funktion , die zu jedem Zustand die Aktion ausgibt, die den Gewinn über die Zeit maximiert. Bekannte Lösungsverfahren sind unter anderem das Value-Iteration-Verfahren und Bestärkendes Lernen.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.