Maintenance Engineer mówi: Spokojnie, to tylko próbna awaria

dataspace.pl 4 lat temu

Data Center jest zaawansowaną technicznie infrastrukturą, która do prawidłowego działania potrzebuje ciągłej uwagi i kontroli. Niewielu z nas zdaje sobie sprawę, jak bardzo serwerownia podobna jest do ludzkiego mózgu. W jednym i w drugim przypadku, dla utrzymania prawidłowego działania potrzebna jest skomplikowana maszyneria, zapewniająca składniki odżywcze, które umożliwiają działanie.

W Data Center nad prawidłowym działaniem technicznej infrastruktury umożliwiającej nieprzerwaną pracę czuwa Maintenance Engineer, którego przypadek z życia zawodowego chcemy Wam dzisiaj przedstawić. Przyjeżdża do pracy przed wszystkimi i bardzo często wyjeżdża ostatni. Statystycznie to też jeden z najczęściej ściąganych z urlopu zawodów.

Czy leci z nami pilot?

Centrum danych, jak każda fabryka, skupione jest wokół produktu, który wytwarza. W tym przypadku jest to magazynowanie, przetwarzanie i przesyłanie danych. Sercem kompleksu są komory serwerowe, które wytwarzają wyżej wymieniony produkt, a cała reszta urządzeń ma za zadanie dbać o nieprzerwaną transmisję. W przypadku większej awarii straty ponoszą nie tylko firmy-klienci, ale bardzo często, jak w przypadku hostingów, klienci naszych klientów.

Pewnie słyszeliście kilka lat temu o wielkiej awarii jednego z czołowych dostawców usług www w Polsce. Oprócz fali komentarzy w mediach społecznościowych, na które nie dałby rady odpowiedzieć choćby najlepszy moderator, doszła też ilość maili porównywalna z atakiem DDoS i urywające się linie telefoniczne.

Sylwetkę roboczą Maintenance Engineera opisaliśmy we wcześniejszym artykule. Dzisiaj za to chcemy Wam pokazać, jak ważna jest praca, którą taka osoba codziennie wykonuje. Szczególnie chcemy przybliżyć kwestię testowania poszczególnych urządzeń.

De facto Maintenance Engineer jest jak nawigator w samolocie: w normalnych warunkach wydaje się nie być aż tak bardzo potrzebny, ale w momencie, kiedy dzieje się źle, bierze na siebie ciężar odpowiedzialności za dotarcie w całości do portu.

Co może się zepsuć?

Centrum Danych jest wypełnione skomplikowanymi urządzeniami, przewodami wentylacyjnymi, kablami i czujnikami. Każdy z tych elementów regularnie sprawdzamy i czyścimy, a w razie potrzeby wymieniamy. Inaczej reakcja może być łańcuchowa, np. nagły wzrost temperatury pociągający za sobą fizyczne uszkodzenie serwerów.

Głównym zasobem, który jest niezbędnym do działania DC, jest prąd elektryczny. Bez niego nie działają nie tylko serwery, ale też chociażby zabezpieczenia drzwi. Instalacje elektryczne są redundantne, czyli podwójne, np. linie doprowadzające prąd. Sporo serwerowni ma aż trzy linie obrony przed nagłą utratą zasilania.

Pierwszą z nich jest prąd od dwóch różnych dostawców, drugą bateria akumulatorów, a trzecią zasilane ropą naftową generatory prądu. Moc jednego z nich jest w stanie zasilić małe miasteczko, a zbiornik ma pojemność pozwalającą na około dwa tygodnie pracy.

Żeby wszystkie systemy były sprawne, raz na tydzień Maintenance Engineer dokonuje obchodu i sprawdzenia wszystkich instalacji. A minimum raz na dwa miesiące dokonywane jest próbne odpalenie generatorów, które muszą co jakiś czas popracować, ale także by upewnić się, iż są one w 100% sprawne.

Mały test, wielka próba dla Maintenance Engineera

Tamtego dnia wypadały właśnie testy, a nasz Inżynier po przejrzeniu wszystkich systemów chciał przystąpić do próbnego odpalenia generatorów prądotwórczych. Dodatkowo przypięliśmy mu kamerę, która miał uwiecznić przebieg całej procedury.

Po sprawdzeniu poziomu oleju, obejrzeniu stanu generatorów i ustawieniu dodatkowej kamery, która miała nakręcić to co dzieje się w pomieszczeniu, podczas startu maszyn – a dzieje się na tyle głośno, iż bez porządnej ochrony słuchu raczej nie powinno się tam zostawać – ruszyliśmy do sterowni. A potem wszystko działo się bardzo szybko, pierwszy przełącznik, drugi, trzeci. Odpalamy i nagle słyszymy niepokojący huk.

Trzeba wejść do pomieszczenia z agregatami i sprawdzić co się stało. Okazuje się, iż pękł jeden z akumulatorów. Pomimo tego, wszystkie generatory poprawnie wystartowały. Cała sytuacja doskonale pokazuje, jak ważne są testy. W czasie ich trwania zdarzają się usterki, zresztą dokładnie po to je wykonujemy.

Morał? Testujemy na produkcji!

Oczywiście jest to żart, natomiast o ile chodzi o eksploatację urządzeń, nie da rady sprawdzić poprawności ich działania inaczej, niż poprzez regularne włączanie i testowanie. Awarie, choćby takie zdarzające się w kontrolowanych warunkach powodują stres. Umożliwiają za to wypracowanie zachowań, które w razie prawdziwego zagrożenia wykonamy automatycznie. Całą sytuację najlepiej oddaje powiedzenie: im więcej potu na treningach, tym mniej krwi w boju.

Idź do oryginalnego materiału