VMware ESX 3.5 en Virtual Center 2.5 Update 2 HA problemen

Bijna twee weken nadat Update 2 is uitgekomen hebben we besloten om deze te implementeren om wat openstaande issues met VCB het hoofd te bieden. Update 2 biedt zoals iedere update van VMware niet alleen bug fixes maar ook nieuwe functionaliteit (en of zulke grote wijzigingen thuis horen in een “Update twee cijfers achter de comma” of in een nieuwe versie zoals 3.0 => 3.5 is een onderwerp wat we misschien nog wel een andere keer bespreken).

De eerste stap is zoals de release notes aangeven het upgraden van de Virtual Center. Dit ging niet helemaal foutloos (zeker de Update Manager niet) maar na enig aandringen werkt de VC 2.5 U2! Na het aanmelden met de VC client zijn er HA errors op cluster en host niveau:

 HA agent on <server>.<domain> in cluster <cluster> has an error.

Op internet komt deze fout veelvuldig terug in forums en er worden verschillende oplossingen geboden zoals het leeg gooien van bestanden, vullen van host files etc. Onderwerpen die steeds terug komen zijn het controleren van:

  • IP gegevens (klopt het IP, subnet en de gateway)
  • Routing (kan je met de service console de rest van het netwerk over etc.)
  • DNS
    • Shortname
    • FQDN
    • Reverse

Ditklopt echter allemaal. Zelf ben ik van mening dat als je DNS infrastructuur klopt het vullen van de hostfile niet noodzakelijk is (wel geprobeerd, geen oplossing). In de release notes van Update 2 staat het volgende:

Starting with Virtual Center 2.5 Update 2, HA has an enhanced network compliance check to increase cluster reliability.  This enhanced network compliance check helps to ensure correct cluster-wide heartbeat network paths. This also helps prevent delayed failure detection and “Split Brain” conditions in certain scenarios.

Er is dus wel aan de HA agent gesleuteld in de nieuwe versie, en HA is ook afhankelijk van Virtual Center om het te configureren (niet voor de werking). Omdat de install van Virtual Center zaken aan HA instelt en hieraan gesleuteld is door VM ware is het niet langer relevant of het eerst wel werkte met dezelfde ESX versie.

Het updaten van ESX 3.5 U1 naar U2 biedt ook geen oplossing. Één oplossing die vaker terug komt in forums, maar lang niet altijd als oplossing wordt bestempelt is er voor zorgen dat de hostname overal in kleine letters wordt geschreven. Dit was niet het geval om verschillende redenen (Hostname als variable in scripts etc.). Je kan zien of de hostname met hoofdletters is geconfigureerd door via de console of via ssh in te loggen en te kijken naar de prompt (dit is de korte servernaam). Als deze in hoofdletters wordt weergegeven dan is dit het geval! Dit kan je veranderen door onderstaande opdrachten

  • Voer uit: Hostname <fqdn in kleine letters>
  • Verander de naam in: Nano /etc/sysconfig/network
  • Herstart de server. De prompt is na de herstart nu in kleine letters ipv hoofdletters!

Na het wijzigen van de hostname scripts werkt HA weer!

De HA agent lijkt dus als enige service binnen VMware gebruik te maken van hoofdletter gevoeligheid m.b.t. hostnames (DNS resolved altijd in kleine letters).