Easyhost Easyhost Easyhost Easyhost Easyhost

Ce facem cand un echipament se defecteaza?

In urma cu cateva zile (21-07-2010),  placa de baza a unui server a inceput sa raporteze erori la unul dintre procesoarele instalate. E vorba de un server foarte puternic, clasa enterprise  – Dell PowerEdge R610.

Defectiunea se manifesta prin restarturi aleatoare ale serverului. Mai exact, pe parcursul intregii zile am au fost 3 restart-uri, care a generat fiecare un downtime de cateva minute. Este prima situatie de acest gen pe care o intalnim la modelul R610, care in general se comporta impecabil.

Intamplator, masina respectiva era folosita ca nod al infrastructurii de VDS si, prin urmare, orice downtime ar fi afectat mai multi clienti. Trebuia sa rezolvam situatia cat mai repede si mai eficient, astfel incat clientii nostri sa fie afectati minim si sa nu se mai repete niciodata cazul.

Care este solutia noastra pentru aceste situatii?

Cea mai sigura si rapida cu putinta: inlocuim complet hardware-ul cu defectiuni. Informatia e complet transferata pe o alta masina, care e pusa in functiune imediat. Exista un downtime de cateva minute pentru fiecare client, dar ne asiguram astfel ca problema se rezolva imediat, inainte de investigare si este imposibil sa se repete.

In aceasta situatie, pentru ca serverul era functional, am inlocuit echipamentul intre orele 02:-00-03:00 a.m., cand traficul este foarte scazut si downtime-ul afecteaza minim clientii. Daca defectiunea ar fi fost mai grava si ar fi determinat oprirea serverului, acesta ar fi fost inlocuit pe loc.

De ce procedam astfel?

Avem pentru serviciile noastre de VDS si Servere Dedicate un SLA foarte strans – 99,9995% uptime, cel mai ridicat din industrie. In cazul in care apare o problema la o masina, situatie inevitabila atunci cand lucrezi cu mii de echipamente, nu ne permitem sa asteptam ca problema sa fie depistata si rezolvata. Asta ar putea dura cateva ore daca e o defectiune de hardware si, in acest timp, clientii nostri ar suferi.

Schimband cu totul hardware-ul ne asiguram ca datele clientilor nostri sunt accesibile, in siguranta si totul functioneaza perfect.  Asta e cel mai important. Ulterior, ne alocam tot timpul necesar pentru a face research in profunzime asupra situatiei si a stabili strategii de preventie.

Ne cerem scuze clientilor care au trecut prin inconvenienta respectiva. Va asiguram ca am facut si facem tot posibilul sa mentinem aceste situatii la minimum. Am povestit aceasta situatie tocmai ca sa stiti la ce va puteti astepta de la noi. Daca aveti feedback, il asteptam cu interes.