Aumentare la qualità del servizio senza rallentare l’innovazione: la sfida del CSDO

Sono arrivato in OVH nella primavera del 2017 in qualità di Chief Service Delivery Officer (CSDO). L’intero team Run ha voluto portare al Comex dell’azienda il tema della qualità dei servizi erogati. Un argomento già al centro delle priorità della strategia di OVH.

Il Run, in informatica, consiste nell’eseguire una routine o un programma. Questo termine, in OVH, indica i team incaricati di industrializzare e, successivamente, mantenere le condizioni operative dei servizi forniti dall’azienda, dopo essere stati sviluppati dai team di ricerca e sviluppo e testati in modalità 1-10/10-100/100-1.000. Ciò significa che il test viene eseguito prima di tutto - spesso internamente - da un numero circoscritto di persone, ottimizzati e resi disponibili per alcuni clienti sotto forma di beta-test chiusi (i POC), dopodiché in versione beta pubblica su OVH Labs, fino a raggiungere una determinato numero di utenti per dimostrare che il prodotto risponde a un bisogno reale, e studiarne le condizioni dell’industrializzazione.

Picture OVH Team in a meeting Room
Da sinistra a destra: Dominique Michiels, Tammy Ledbetter, Boris Gougeon, Aurélien Daquino e Yaniv Fdida

L’industrializzazione: al centro del modello OVH

Quando un servizio supera senza problemi questi step, i team Ricerca e Sviluppo “passano la palla” ai loro colleghi del team Run. In caso contrario il processo riparte dal primo step o viene semplicemente abbandonato. Questi team hanno la responsabilità di implementare l’industrializzazione del servizio, ovvero di portarne l’automatizzazione ai più alti livelli possibili, per diminuire la necessità di interventi umani durante il processo di fornitura del servizio e nel corso della sua manutenzione. Un approccio, questo, che si pone al centro dell’unicità di OVH e che contribuisce a rendere le nostre innovazioni economicamente accessibili, ma anche più affidabili.

Il lavoro del team Run non finisce qui. Una volta fornito il servizio, ci si deve accertare del livello di qualità e stabilità, e della soddisfazione dei clienti. In tal caso, il team Run partecipa alla risoluzione dei problemi in stretta collaborazione con il supporto tecnico, sempre con lo stesso obiettivo: industrializzare. In questo modo, gli ingegneri non hanno l’obiettivo di “risolvere” un malfunzionamento con un intervento correttivo superficiale e unitario (fix spot), ma di risalire alla root cause e di correggere il guasto partendo dal più basso livello. Nel momento in cui si verifica un problema in un settore, vi è una notevole probabilità che si riproduca anche in un altro settore. È meglio agire in questo modo piuttosto che “rattoppare” rapidamente e, a lungo andare, realizzare un’infrastruttura difficile da gestire a causa di particolari interventi che rendono gli aggiornamenti rischiosi o addirittura impossibili.

Allo stesso modo, non dobbiamo più tollerare i “normal error”, ovvero piccoli difetti nel codice che si possono evitare facilmente. Ma se si rivelano innocui presi uno alla volta, questi “normal errors” possono costituire a lungo andare un fattore di rischio. Prese individualmente, queste misure possono sembrare ovvie. La vera sfida consiste nell’applicarle nel quotidiano, in un contesto in cui tutto scorre velocemente, e in cui l’innovazione tecnologica stabilisce il ritmo.

 

Fornire un servizio ad alta qualità

Dalla fine del 2017, il team si è potenziato e si concentra sul consolidamento dei nostri principi. Operiamo in stretta collaborazione con il team Ricerca e Sviluppo, che fissa le linee guida tecniche a livello globale, il Customer Care, che gestisce l’assistenza clienti e l’industria che a sua volta fornisce e mantiene i datacenter.

Se la disponibilità dei nostri servizi corrisponde in media al 99,996%, su alcuni passaggi ancora migliorare.

La prima sfida consiste nell’ottimizzare l’analisi dei malfunzionamenti precedenti, accompagnandone la crescita. Così come avviene in altri settori, ad esempio quello automobilistico, è necessario effettuare un migliore controllo incrociato tra gli incidenti e la loro origine, su lunghi periodi, per individuare con esattezza quali sono i punti deboli. Per questo, grazie ad una collaborazione di tutti i team competenti, abbiamo reso sistematica la creazione di “post mortem” completi sull’origine degli incidenti, la loro soluzione e i miglioramenti adottati per evitare che si ripresentino.

Allo stesso tempo, su tutti i settori tecnici gestiti, abbiamo attuato un sistema di cattura degli indicatori tecnici. I dati raccolti vengono raggruppati all’interno di un data lake al fine di concretizzare gli effetti positivi delle azioni condotte dal dipartimento CSDO attraverso analisi dei trend. In particolare, abbiamo adattato i processi operativi in alcuni datacenter per ridurre il tempo medio di ripristino (MTTR).

Tutte queste procedure si inseriscono in un insieme ancor più ampio che consiste nell’applicare una serie di pratiche per la gestione delle nostre infrastrutture, basata su un modello ITIL. Vedremo in seguito come OVH ha applicato il modello ITIL all’interno di un ambiente dinamico.