<<TableOfContents(3)>>

Um ein High-Availability-Cluster (HA-Cluster) zu bilden werden mindestens drei Knoten (Quorum) benötigt. 

= Vorraussetzung =
 * Cluster aus mindestens drei Knoten
 * Shared Storage als ausfallsicherer gemeinsamer Speicher für die Gastsysteme
 * Hardwareredundanz
 * Watchdogs (Hardware oder Software)
 * optionale Fencinggeräte

= Einrichten übers Web-Interface =
 * Datacenter -> HA -> Groups -> Create
 * einzigartige ID vergeben, Auswahl der Knoten mit Prioritäten (Bei Ausfall werden die Knoten mit der höchsten Priorität ausgewählt und unter mehreren Knoten mit gleicher Priorität fällt die Wahl auf den Knoten mit weniger Workload.)
 * restricted: Gast läuft nur auf Knoten bestimmter Gruppen und befindet sich im stopped state falls keiner der in der Gruppe befindlichen Knoten online ist
 * nofailback: Gast wird normalerweise auf den Knoten mit höherer Priorität migriert falls dieser auftaucht - nofailback verhindert dies
 * comment: Beschreibung der Gruppe
 * Datacenter -> HA -> Resources -> Add
 * Group: Auswahl einer vorher definierten HA-Gruppe
 * Request State: bevorzugter Status der VM (bei "startet" wird das Gastsystem gestartet, falls dieses offline sein sollte)
 * Max. Restart: Anzahl der Neustartversuche des Service auf aktuellen Knoten
 * Max. Relocate: Anzahl der Versuche den Service auf einem anderen Knoten zu starten (nachdem max. restart abgearbeitet ist)

= Einrichten über das CLI =
 * Gruppe erstellen (einzigartige ID): {{{$ ha-manager groupadd GRUPPENNAME -nodes "KNOTEN:PRIORITÄT"}}}
 * Gastsystem zum HA-Cluster hinzufügen: {{{$ ha-manager add vm:501 --state started --max_relocate 2 --max_restart 2 --group GRUPPE --comment KOMMENTAR}}}
 * Container zum HA-Cluster hinzufügen: {{{$ ha-manager add ct:501}}}

= Ablauf bei Ausfall eines Knotens =
 * Timer zählt intern herunter (Watchdog/Fencing)
 * Knoten mit höchster Priorität wird ausgewählt
 * bei gleicher Priorität wiegt Workload
 * Gastsystem wird auf anderem Knoten gestartet
  * System wird gebootet und somit geht die aktuelle Arbeit verloren, falls diese nicht gespeichert wurde

= Ausfall eines Knotens UND Ausfall des Shared-Storage =
 * wie [[https://wiki.init.mpg.de/IT4Science/ProxmoxHighAvailablility#Ablauf_bei_Ausfall_eines_Knotens|Ablauf bei Ausfall eines Knotens]]
 * Gastsystem kann nicht gestartet werden
 * "Error: storage 'xyz' is disabled"
 * bei Reaktivieren des Knotens und Shared Storage bleibt das Gastsystem im State "error"
 * befindet sich ein Gastsystem im State "error" wird dieses nicht mehr durch den HA-Cluster verwaltet
  * Ursache des error State beseitigen
  * {{{$ ha-manager set vm:100 --state disabled}}} und Knoten hinzufügen
  * oder über GUI das Gastsystem entfernen und neu hinzufügen