Efecto Cloud Ghost Latency

En primer lugar pedir disculpas a los clientes afectados por la incidencia en sus servicios los dias 28 y 29. Una vez gestionada y solucionada la incidencia queremos detallar lo acontecido, cómo esta se gestionó y solucionó. Así mismo demostramos que pocas compañías ofrecerán la transparencia explicando un incidente que tan SOLO afectó a una mínima parte de nuestros servicios y clientes (menos de un 2%) pero por un tiempo más elevado de lo normal. Quiero agradecer a todo el equipo de administradores de sistemas, técnicos de soporte, gestión de almacenamiento y redes y al departamento de atención comercial que han asumido la carga extra de trabajo durante la incidencia.

Agradecemos a aquellos clientes que nos han expresado sus opiniones tanto positivas como negativas acerca de la gestión de las incidencias del servicio en sus llamadas o tickets abiertos. Esperando poder aclarar las dudas a estos clientes, sobre nuestros recursos, solvencia, instalaciones y medios de los que disponemos, mi intención con este artículo es dar a conocer un poco mejor la empresa que les provee servicio, con un ánimo absolutamente constructivo y de gestión transparente, porque hemos llegado aquí gracias a todos nuestros clientes durante los más de 10 años de actividad en este negocio. Interdominios ha reinvertido durante el pasado año una cantidad muy considerable para mejorar toda su infraestructura, empezando por el equipo humano, centro de datos propio, nueva sede, red de área de almacenamiento y comunicaciones. Nuestro compromiso es claro a este respecto, seguir ofreciendo la máxima calidad aprendiendo día a día sobre las necesidades que nos demandan nuestros clientes, tanto los que ya nos acompañan desde que comenzamos como los miles de clientes nuevos que cada año nos permiten crecer y que con su confianza nos avalan indicándonos que vamos recorriendo el camino correcto.

Antes de pasar con detalles espero no muy técnicos, quiero explicar cómo funcionan o se provisionan los servicios de alojamiento compartido ya que fue en parte el motivo del incremento en la demanda de recursos de la capa de almacenamiento y el efecto “cloud ghost latency” que sufrimos este Lunes. Estas son parte de las nuevas incógnitas a las que nos enfrentamos en la industria del hosting en esta nueva era del cloud.

Nuestros servidores Sin Límites y de Resellers son provisionados en nuestro cloud privado. ¿qué significa esto? Que de forma automática se van creando servidores que van recibiendo las altas de los nuevos alojamientos. Cuando un servidor alcanza un determinado numero de dominios, este se “cierra” para seguir dando altas de alojamientos en un nuevo servidor. Todo esto es gestionado de forma automática pudiendo escalar en la parte de procesos CPU y Memoria y en la parte de almacenamiento. Los servidores son provisionados en la capa de discos NL. Es en esta parte donde gracias a nuestra arquitectura de almacenamiento podemos ofrecer diferentes calidades de servicio en NL o FC o un mixto de ambos para garantizar el rendimiento adecuado.

Durante la semana pasada provisionamos nuevos servidores y estos recibieron sus correspondientes alojamientos y nuevas altas. Durante los fines de semana la carga de los sistemas baja considerablemente por lo que ninguna de nuestras métricas de rendimiento nos alertó del aumento de la nueva demanda que sufrimos el Lunes. Hemos denominado a este evento “cloud ghost latency”.

Mirando las métricas se aprecia claramente que teníamos un problema en nuestra capa de discos NL, pero gracias a nuestra tecnología hemos podido balancear la carga de acceso entre la capa NL y FC de alto rendimiento como se aprecia en las gráficas. Estos procesos de optimización en este momento se realizan de forma automática, hemos aprendido y mejorado gracias a esta incidencia nuestros sistemas para que no volvamos a sufrir de nuevo dicho efecto.

NL_avg_busy

Como se aprecian en las métricas de rendimiento de nuestros discos NL en la primera gráfica, los discos estaban al 100% de su rendimiento, en la gráfica segunda apreciamos como sube la carga y el incremento de uso de los discos de alto rendimiento FC una vez terminó de balancear la carga entre ambas capas todo volvió a la normalidad.

fc_average_busy

También comunicar a todos los clientes que disponemos de sistemas de medición para absolutamente todos los parámetros de rendimiento y disponibilidad de nuestra infraestructura, sobre nuestro servicio de atención y soporte (tickets, número de llamadas, tiempo de atención en todos sus canales), esto es importante si tenemos como compromiso y objetivo ofrecer un servicio innovador y de calidad que nos permitirá reaccionar para dimensionar todos los recursos, tanto humanos como técnicos.

Experimentamos un aumento de llamadas y muchas en espera quedaron sin ser atendidas por nuestro call center, solo puede gestionar un determinado número de peticiones, la normalidad y las estadísticas así nos lo demuestran. Por esto disponemos de otros canales para ofrecer soporte como son el sistema de tickets por correo electrónico, el chat, Twitter y Facebook. Detallaremos como ejemplo las estadísticas del servicio telefónico donde se aprecia el incremento de llamadas. Comparando la carga de trabajo en nuestro centro de atención de llamadas los días 28 y 29 (Marzo) con 821 llamadas atendidas. El día que más llamadas atendimos fue el Lunes, con 416 atendidas.

call_center_stats

Como puede apreciarse en la semana anterior las llamadas son muy inferiores, 217 atendidas los días 21 y 22 de ese mismo mes.

call_center_stats_past

Los servidores afectados por la incidencia en el rendimiento del acceso a disco fueron menos de una decena del centenar de servidores que gestionamos en los servicios de hosting compartido en alguna de nuestras modalidades. Lamentablemente no pudo resolverse todo lo rápido que nos hubiera gustado ya que los procesos de reubicación de la información en nuestra red de almacenamiento se tomaron “su tiempo” y no pudimos ni cancelar ni acelerar el proceso. Tiempo para reordenar más de 8,2 Terabytes de información entre las diferentes capas de servicio NL y FC sin afectar al rendimiento del resto de clientes y servicios que gestionamos.

Espero haber podido transmitir a los clientes que desafortunadamente se vieron afectados por este efecto que denomino “cloud ghost latency” y los motivos por los que no pudimos resolver su incidencia en el tiempo de respuesta al que acostumbramos. Por otro lado les puedo asegurar que de todo se aprende y más de situaciones nuevas como esta, para evitar que vuelvan a ocurrir, por pequeñas o grandes que estas sean. Me despido y aprovecho para recordarles que pueden contactar con nosotros por otros canales alternativos como las redes sociales, que permanezcan atentos a nuestros canales de información para estar al día de nuestras novedades y agradecerles la confianza depositada en Grupo Interdominios.

Tomás Ledo CTO de interdominios.com
twitter: @toplus