rssLink RSS dla wszystkich kategorii
 
icon_green
icon_green
icon_green
icon_blue
icon_blue
icon_green
icon_green
icon_red
icon_green
icon_red
icon_green
icon_green
icon_green
icon_green
icon_green
icon_red
icon_green
icon_green
icon_orange
icon_red
icon_red
icon_green
icon_green
icon_green
icon_green
icon_green
icon_green
 

FS#29998 — Macierz dyskowa SQL

Przydzielony do projektu— Serwery wirtualne
Nagła usterka
P19
ZAMKNIĘTE
100%
Dzień dobry,

Do obsługiwania 3 milionów stron internetowych na hostingach www wykorzystujemy 2 centra danych: DC w Paryżu (P19) oraz nowe DC w Gravelines (GRA1). W P19 korzystamy z różnych technologii do przechowywania danych stron www oraz baz danych. W większości przypadków korzystamy z naszej technologii NAS lub NAS-HA opartej na ZFS.

W P19 w niektórych przypadkach używamy również macierzy dyskowych EMC VNX 5400 z dyskami SSD. Jest to rozwiązanie, które uruchomiliśmy w 2012 roku, aby zapobiegać problemom z wydajnością przestrzeni dyskowej, które pojawiały się w 2012 roku dla baz danych. Od tej pory rozwiązaliśmy problemy z wydajnością na naszych NAS-HA i w GRA wykorzystujemy wyłącznie nasze wewnętrzne rozwiązania.

W czwartek 29 czerwca o godzinie 18:30 wystąpił problem z jedną z macierzy dyskowych EMC VNX 5400, które wykorzystujemy do przechowywania części baz danych hostingów www w P19. Jest to 96 dysków SSD skonfigurowanych w trybie active/active w kilku fizycznych szafach. Zbiór ten nie chce się uruchomić. Skontaktowaliśmy się z producentem, w celu odnalezienia rozwiązania i odzyskania danych zainstalowanych w tej macierzy.

Macierz ta jest wykorzystywana do obsługi baz danych hostingów www. Dla wszystkich baz danych jest wykonywana kopia zapasowa co 24 godziny na innych systemach przechowywania danych, które znajdują się w centrum danych w Roubaix: RBX1.

Przeprowadzamy aktualnie 2 operacje:

1) Kontaktujemy się z firmą EMC, z którą próbowaliśmy uruchomić system. Zespół z RBX przygotował macierz EMC VNX 5400, żeby ją przetransportować do P19. Macierz dotarła do P19 około godziny 03:00 w nocy. Próbujemy uruchomić dyski w tej nowej macierzy. Firma EMC ma nam pomóc na miejscu w jak najszybszym uruchomieniu macierzy. Nie wiemy jeszcze, ile czasu zajmie uruchomienie macierzy i czy uda nam się odzyskać dane. Technik z firmy EMC powinien być na miejscu około godziny 10:00.

2) To dlatego uruchomiliśmy operację przywracania baz danych z backupu. Operacja ta rozpoczęła się około północy. O godzinie 09:00 rano około 15% baz danych było przywróconych w trybie tylko do odczytu, co oznacza, że strony www mogą odczytywać dane z baz danych, ale nie mogą jeszcze ich modyfikować. Kontynuujemy przywracanie danych. Operacja ta może potrwać do około godziny 20:00. Cały proces jest już zautomatyzowany. Mamy wystarczającą ilość przestrzeni dyskowej, aby wdrożyć wszystkie te bazy danych w P19.

Następny krok. Mamy wybór między planem A i planem B.

A) Jeśli uda nam się odzyskać dane z macierzy, natychmiast uruchomimy wszystkie bazy danych. Żadne dane nie zostaną utracone.

B) Jeśli nie uda nam się uruchomić macierzy. W tym przypadku włączymy tryb do odczytu i zapisu dla baz danych przywróconych na podstawie backupu, który będzie miał opóźnienie minimum 1 godziny i maksymalnie 22 godzin w stosunku do wersji baz danych z godziny awarii.

Informacje na temat przywracania baz danych:
http://prace.ovh.pl/?do=details&id=29993

Problem dotyczy 113 wirtualnych maszyn z bazami danych.

Jest nam bardzo przykro z powodu tej awarii. Ostatnia awaria o takim zasięgu miała miejsce w 2006 roku i wtedy sprawdziliśmy wszystkie technologie przechowywania danych wykorzystywane w Ovh. Awaria ta jest kolejną lekcją. Poinformujemy Państwa o zmianach, które wprowadzimy po zakończeniu tej awarii, aby uniknąć takiej sytuacji w przyszłości.

Pozdrawiam,
Octave

Data:  środa, 19 lipiec 2017, 15:32
Powód zamknięcia:  Done
Komentarz od OVH - piątek, 30 czerwiec 2017, 12:35

Kontynuujemy prace równolegle na dwóch poziomach.

1) Współpracujemy z firmą EMC, która jest na miejscu. Skupiamy się na odzyskaniu danych z daty początku awarii.
Jedna z macierzy odzyskała konfigurację. Pozostaje dokończenie procedury jej uruchomienia.


2) Kontynuujemy przywracanie baz danych: http://prace.ovh.pl/?do=details&id=29993

Będziemy Państwa informować o postępach.


Komentarz od OVH - piątek, 30 czerwiec 2017, 13:10

Nadal wraz z dostawcą interweniujemy na macierzy.

Przywróciliśmy 33% baz danych.


Komentarz od OVH - piątek, 30 czerwiec 2017, 15:10

30.06.2017, 14:38PM

Będziemy przełączać przywrócone bazy danych z Read-Only do Read-Write. Operacja ta wymaga kolejnego wstrzymania usług na kilka minut.


30.06.2017, 14:42PM

Podjęliśmy decyzję o włączeniu przywróconych baz danych na podstawie kopii zapasowej z dnia 29.06.2017 3:00 CEST (UTC+2) w trybie do odczytu/zapisu.

Operacja ta rozpocznie się o 15:00 CEST (UTC+2).


Komentarz od OVH - poniedziałek, 03 lipiec 2017, 12:22

Wszystkie bazy zostały przywrócone. Zespoły w serwerowni kontynuują pracę wspólnie z firmą trzecią, która zapewnia nam wsparcie dla tych szaf.


Komentarz od OVH - środa, 19 lipiec 2017, 15:32

Szanowni Państwo,

W czwartek 29 czerwca 2017 od godziny 18:48 niektórzy z Was zostali dotknięci przez awarię na hostingu www. Przepraszamy za tę sytuację.

Biorąc pod uwagę wyjątkowy charakter sytuacji, przyznajemy klientom dotkniętym przez ten problem 2 darmowe miesiące dzierżawy hostingu.

Aby skorzystać z tej rekompensaty, prosimy zalogować się do panelu klienta za pomocą tego linku:

https://www.ovh.com/manager/web/#/billing/sla

Dziękujemy za zaufanie.

Zespół Webhosting OVH