Spegni e accendi, stacca e attacca

Questa è la storia di due giorni buttati via. Questa è la storia di una spina e di una presa.

Forse Carlo Lucarelli inizierebbe con queste parole il racconto che segue. Non essendo bravo come Lucarelli, accontetatevi di quello che riesco a raccontare con parole mie.

Tutto cominciò alla fine di luglio, quando mi accorsi che il cluster di calcolo del mio dipartimento rispondeva molto più lentamente del solito ai comandi. Se non sapete che cosa sia un cluster di calcolo, immaginatevi un armadio con alcuni computer sufficientemente potenti e capaci di effettuare calcolo parallelo, suddividendo il carico di lavoro su tutti i "cervellini" che compongono il "cervellone". In pratica, un computer bello grosso e bello potente. Il mio dipartimento ne possiede uno, che un mio collega ed io cerchiamo di gestire al meglio delle nostre possibilità.
Come dicevo, alla fine di luglio il cluster cominciò a funzionare male. Dopo una breve ispezione sul corpo del paziente, mi accorsi che uno switch di rete era spento. Che cos'è uno switch di rete? È un'apparecchiatura con tante prese dove entrano i cavi ethernet, e che serve a mettere in comunicazione tra loro le macchine che compongono il cluster. Per questioni troppo tecniche da esporre qui, vi dico solo che noi abbiamo ben tre switch di rete; e, appunto, uno era spento. Dopo aver controllato che la spina fosse nella presa (troppo banale, direte voi), conclusi che si era proprio guastato, forse per uno sbalzo di corrente durante un temporale. Fatto è che l'assenza della connettività attraverso questo switch causava forti rallentamenti al transito dei dati.

Lasciato passare il sonnacchioso mese di agosto, lunedì 3 settembre ho potuto sostituire lo switch danneggiato con uno nuovo. Va beh, non troppo usato, perché quelli nuovi costano cari come l'oro. Tutte le lucine si sono accese: fantastico, i problemi erano risolti!
E invece no. I problemi erano gli stessi di prima. Dopo una mezza giornata di esami clinici, siamo riusciti a scoprire che il traffico bloccato era quello che passava per uno switch sano. Non è proprio come amputare la gamba sana, ma poco ci manca; in fondo, lo switch era guasto davvero.

Questa mattina, un'altra lunga sessione informatico-diagnostica in cui abbiamo analizzato tutte le possibili cause, dal danno alla scheda ethernet di una macchina fino al virus dell'herpes zoster. E intanto i dati non passavano attraverso quello switch. Un'altra ora di lettura di tutti i manuali di Sun Solaris 10 non ha sortito alcun effetto degno di nota, a parte la ragionevole constatazione che tutti i servizi di rete che volevano passare attraverso le rete di quello switch bloccavano il sistema.

Verso le 14, la svolta. Brandendo spazzolino e dentifricio (il bagno è collocato fra il mio ufficio e la stanza del cluster), mi sono recato con passo marziale al capezzale del moribondo; in piedi davanti al mostro, ho avuto l'intuizione.
Ho preso fra le mani, uno ad uno, tutti i cavi ethernet delle varie macchine, e ho ricapitolato le connessioni. Volete sapere che cosa ho scoperto? Forse ve lo immaginate: c'era una macchina del cluster che era completamente scollegata dallo switch. Delle tre porte ethernet, due erano attaccate allo stesso switch: sfido io che quella macchina risultava irraggiungibile, non c'era alcun collegamento fisico!

Il caso non è completamente risolto, e mi piacerebbe sapere chi è quel fenomeno che ha staccato un cavo di rete dallo switch giusto per attaccarlo allo switch sbagliato. Magari sono stato io, non posso escluderlo; ma mi sembra improbabile.

Da questa avventura ho tratto una lezione: quando avete un apparecchio elettronico che non funziona a dovere, prima di mettervi a fare l'hacker, controllate che la spina sia nella presa. Se poi è nella presa giusta, ancora meglio.

Commenti

Post più popolari