rssLink RSS dla wszystkich kategorii
 
icon_orange
icon_red
icon_red
icon_blue
icon_blue
icon_blue
icon_green
icon_red
icon_blue
icon_blue
icon_blue
icon_blue
icon_blue
icon_blue
icon_blue
icon_blue
icon_red
icon_blue
icon_orange
icon_red
icon_blue
icon_blue
icon_blue
icon_blue
icon_green
icon_blue
icon_blue
 

FS#28242 — Mailproxy

Przydzielony do projektu— E-mail
Nagła usterka
dowolne (usługi email)
ZAMKNIĘTE
100%
Od godziny 11:10 występują spowolnienia na mailproxy, który jest punktem wejściowym naszej infrastruktury e-mail.

Przewidujemy opóźnienia w dostarczaniu emaili.
Data:  piątek, 24 luty 2017, 11:47
Powód zamknięcia:  Done
Komentarz od OVH - piątek, 24 luty 2017, 08:38

23.02.2017, 15:50PM

Od około godziny sytuacja jest stabilna. Trwa dostarczanie emaili oczekujących w kolejce.


Komentarz od OVH - piątek, 24 luty 2017, 09:09

24.02.2017, 00:23AM

Wystąpił dziś problem z odbieraniem emaili. Wystąpił problem w infrastrukturze MailProxy, która pozwala na dostarczanie emaili.

Infrastruktura ta składa się z 4 typów serwerów:
- Serwery « input », które pozwalają na wykonanie wstępnej weryfikacji i na obsłużenie ruchu pochodzącego z zewnątrz.
- Serwery « anty-wirus/anty-spam », które zajmują się wykrywaniem spamu i wirusów.
- Serwery « output » na wyjściu, które pozwalają na wykonanie ostatnich weryfikacji i na wysyłanie wiadomości do odbiorców. Służą one do przechowywania bardzo dużej ilości wiadomości w przypadku uszkodzenia infrastruktury docelowej.
- Serwery « SQL », które zawierają konfigurację dla każdego adresu e-mail, poziom weryfikacji i operacje do wykonania. Używamy baz MySQL kopiowanych za pomocą systemu Galera.

Problem pojawił się na serwerach SQL i miał on wpływ na całą infrastrukturę.

10:50 - Zauważyliśmy spowolnienie na poziomie dostarczania. Wiadomości zaczęły zbierać się na 3 poziomach infrastruktury.
Przeanalizowaliśmy wykresy monitoringu. Na wykresach serwerów SQL zauważyliśmy zbyt dużą liczbę wątków w trakcie.

11:00 - Mieliśmy 500 000 wiadomości oczekujących na serwerach.
Zidentyfikowaliśmy serwer SQL zarządzający tą dużą liczbą wątków i postanowiliśmy zrestartować usługę SQL.

11:20 - Mamy 750 000 wiadomości oczekujących.
Zauważyliśmy, że serwery SQL polejną zaczęły zarządzać tymi wątkami, spowalniając całą infrastrukturę. Restartujemy kolejno serwery.

12:00 - 1 300 000 wiadomości oczekujących.
Usługa działa lepiej, ale nadal działa niestabilnie. Sprawdzamy konfigurację i diagnozujemy problem.

13:00 - 1 200 000 wiadomości oczekujących.
Usługa działa coraz bardziej niestabilnie. Zmiany w konfiguracji nie rozwiązały problemu.
Podjęliśmy decyzję o zamówieniu serwera, który jest jak najszybciej dostępny z « dużą » konfiguracją, aby umieścić podstawowy serwer MySQL do zarządzania usługą.
Wybieramy instancję Cloud HG-120-SSD.

13:25 - 1 500 000 wiadomości oczekujących.
Instalujemy serwer (OS, zabezpieczenia, niezbędne oprogramowanie).
Odłączamy zapis na serwerach SQL i robimy zrzut. Następnie importujemy zrzut na serwer MySQL.

14:00 - 1 000 000 wiadomości oczekujących.
Rozpoczynamy testy serwera i przygotowujemy infrastrukturę do korzystania z tego serwera.

14:40 - 2 000 000 wiadomości oczekujących.
Serwery SQL działają bardzo niestabilnie. Wdrażamy serwer MySQL.

15:00 - 2 200 000 wiadomości oczekujących. To największa liczba wiadomości w infrastrukturze.
Dodanie serwera MySQL dla połowy serwerów w infrastrukturze pozwala na ustabilizowanie serwerów SQL, które mogą zarządzać drugą połową.

15:45 - 1 600 000 wiadomości oczekujących. Serwery « input » nadrobiły opóźnienia.

16:25 - 1 200 000 wiadomości oczekujących. Serwery « anty-wirus/anty-spam » nadrobiły opóźnienia.

18:45 - 200 000 wiadomości oczekujących. Serwery « output » nadrobiły opóźnienia, za wyjątkiem 2 mniej wydajnych serwerów (w trakcie wymiany).

20:45 - Sytuacja powróciła do normy.

Zmienimy system Galera na inny system (testy w kolejnych dniach). Do tego czasu zachowamy serwer MySQL i zautomatyzujemy instalację nowego serwera.

Przykro nam z powodu tej awarii. Żadna wiadomość nie została utracona.


Komentarz od OVH - piątek, 24 luty 2017, 11:25

24.02.2017, 11:13AM

Od godziny 11 problem występuje ponownie. Robimy wszystko, żeby zminimalizować wpływ problemu na dostarczanie emaili.


24.02.2017, 11:20AM

Dostarczanie emaili jest zakłócone. Odłączyliśmy zapisywanie w bazach. Kopiujemy i importujemy dane na instancję MySQL.


Komentarz od OVH - piątek, 24 luty 2017, 11:31

200 000 wiadomości oczekujących.


Komentarz od OVH - piątek, 24 luty 2017, 11:47

Sytuacja powróciła do normy.

Nie musieliśmy przechodzić przez instancję MySQL. Usługa działała mniej wydajnie przez 10 minut (70% ruchu było zarządzane). Żadne emaile nie zostały utracone. Czas opóźnienia to maksymalnie 30 minut.