Nutanix NCC Health Check - Aprendiendo a Virtualizar

Nutanix NCC Health Check es una herramienta compuesta por una serie de scripts que se usa para chequear el estado del cluster, hardware, servicios (ej. NTP, DNS) etc etc y sirve para identificar las configuraciones recomendadas por Nutanix.

Os dejo este enlace de donde he sacado la info sobre Nutanix NCC Health Check

Nutanix NCC Health Check ejecuta cientos de comprobaciones de forma continua y proactiva tomando las medidas necesarias para la resolución del problema. Según el problema detectado, NCC genera una alerta o crea de forma automatica casos de soporte de Nutanix.

NCC puede ejecutarse siempre que los nodos individuales estén activos, independientemente del estado del clúster.
Al ejecutarse desde la línea de comandos de la máquina virtual del controlador o la consola web, NCC genera un archivo de registro con la salida de los comandos de diagnóstico seleccionados por el usuario.

Pass: el cluster está en buen estado y no se requiere ningún tipo acción adicional.
Fail: el cluster no está en buen estado y se debe solucionar. Este aviso requiere una acción inmediata ya que si no actúas de inmediato, el cluster podría fallar.
Warn: la salida del comando devolvió un valor inesperado que se debe investigar, este mensaje requiere la intervención del administrador y se debe resolver lo antes posible para ayudar a mantener el clúster en buen estado.
Info: la salida del comando devolvió un valor esperado que, sin embargo, no se puede evaluar como PASS/FAIL, el comando devuelve información sobre el elemento del clúster probado y en algunos casos, el mensaje puede indicar una recomendación de Nutanix para que lo solucione lo antes posible.
Error: el comando fallo y el mensaje muestra un error en la ejecución de la comprobación y no tiene porque ser un error en la entidad del clúster, simplemente indica que la comprobación no puede confirmar un estado del tipo PASS/INFO/WARN/FAIL.

Vamos a probar en un entorno de pruebas, nos conectamos por ssh a uno de los CVM y ejecutamos ncc health_checks run_all , le suele costar unos minutos, me imagino que también dependerá del tamaño de la infraestructura.

Básicamente lo que hacer es ir ejecutando una serie de scripts en orden, donde comprueba el estado del objeto que chequea.

Una vez finalizado, veremos los que nos han dado error o Warn. Si nos fijamos, vemos que hay fallos en el hardware clock, passwords del hypervisor y el CVM…. en todos los resultados, independientemente del resultado, nos añade una URL al KB, donde podremos ver la solución o la recomendación.

Para solucionar parte de estos problemas probaremos con el de cambiar los passwords por defecto. Donde cambiaremos el pass del CVM con un simple comando , sudo passwd nutanix