Buenas, hoy vamos con un problema que he tenido hoy y me ha sacado de mis casillas. Este error provocaba que uno de los 3 Hosts de un Cluster se desconectase y fallaran las copias y replicas de las VM ubicadas en dicho Host. Al estar el Host desconectado, me impedía que hiciese vMotion de las VM de este Host y así poder reiniciarlo, tampoco podía conectarme por terminal server a las VMs y apagarlas porque estaban en plena producción.
Cuando intentaba conectarlo me mostraba un error como este, diciendo que podía ser un problema de red o que los agentes del ESXi no estaban respondiendo correctamente. El problema de red fue descartado ya que respondía a ping, resolvía bien el nombre DNS etc etc, pero había otro problema, por defecto y por seguridad, VMware deshabilita SSH y ESXi Shell, por lo que no me podía conectar por SSH, algo en lo que yo no estoy nada de acuerdo en que venga deshabilitado.
La otra es, que dejaba el ESXi como congelado, en un estado raro, ya que me conecte a través de la ILO y en el momento que introducía el password de root, la consola dejaba de funcionar, no entraba al menú, pero si le daba a Alt+F1 para acceder a la Shell, accedía. pero estaba deshabilitada. Entonces en un momento de lucidez del ESXi y después de machacar las teclas del teclado de muy mala ostia, conseguí acceder al menú del ESXi, dándome tiempo a habilitar SSH y la Shell.
Lo extraño es que me dejaba conectarme con putty por SSH, pero eso si, a trompicones, se colgaba, dejaba de funcionar etc. Después de varios intentos por la cantidad de interrupciones que me producia este error del agente hp-ams, conseguí reiniciar los agentes del ESXi y todos los servicios con services.sh restart, me llego a funcionar unos minutos pasando la mayoría de las VMs a otro Host, las que no pude migrar porque daba error, tuve que apagarlas. Gracias que las VM que quedaron por pasar a otro Host no era vital importancia.
Al conectarme por SSH me salia el siguiente mensaje, un continuo bucle.
Buscando por Google, me encuentro este KB de VMware, el ESXi al ser una imagen de HP personalizada, viene con una serie de agentes y herramientas de HP, y una de las que me estaba dando error era hp-ams.
Para solucionar el problema de este agente de HP, primero tienes que apagar o migrar todas las VMs de este Host, lo siguiente tienes que poner el ESXi en modo mantenimiento, yo antes lo reinicie porque llevaba bastante tiempo sin hacerlo y no quería problemas a la hora de desinstalar el agente de hp-ams. NOTA: aunque reiniciéis el Host, el agente hp-ams, vuelve a hacer de las suyas, por lo que seguiréis con problemas.
Para desinstalar el agente hp-ams, pararemos el servicio con /etc/init.d/hp-ams.sh stop.
Una vez parado, lo desinstalamos con excli software vib remove -n hp-ams. Esta acción requiere reinicio.
Reiniciamos el Host con esxcli system shutdown reboot -d 10 -r «mensaje que queramos»
Comenzará a reiniciarse
Una vez iniciado, instalamos el fichero vib del paquete de hp-ams actualizado que hemos descargado y dejado en un Datastore en el que tenga acceso este Host. Lo instalamos con esxcli software vib install -v /rutadelficherovib. Reinicio requerido
Una vez reiniciado salimos del modo mantenimiento y vemos que todo funciona correctamente.
Saludos y espero os sirva.