rssLink RSS dla wszystkich kategorii
 
icon_orange
icon_red
icon_red
icon_blue
icon_blue
icon_blue
icon_green
icon_red
icon_blue
icon_blue
icon_blue
icon_blue
icon_blue
icon_blue
icon_blue
icon_blue
icon_red
icon_blue
icon_orange
icon_red
icon_blue
icon_blue
icon_blue
icon_blue
icon_green
icon_blue
icon_blue
 

FS#61 — Awaria th2-1-6k

Przydzielony do projektu— Sieć Internet i szafy
Nagła usterka
cała sieć
ZAMKNIĘTE
100%
W wyniku awarii routera th2-1-6k, doszło do zmniejszenia wydajności sieci do niektórych ISP.
Data:  piątek, 15 wrzesień 2006, 12:53
Powód zamknięcia:  Done
Komentarz od OVH - wtorek, 12 wrzesień 2006, 15:07

Uzyskaliśmy prawidłowy ruch poprzez router th2-1-6k, ale sytuacja nie jest jeszcze stabilna.
Peering zostanie przeniesiony na inne routery, aby wyeliminować zródło błędu.


Komentarz od OVH - wtorek, 12 wrzesień 2006, 15:22

Odcieliśmy cały peering do Sfinx. Będziemy kolejno wznawiać ruch, aby sprawdzić każdy węzeł.
Router działa prawidłowo.


Komentarz od OVH - wtorek, 12 wrzesień 2006, 15:26

Wszystko zostało ponownie uruchomione. Kontrolujemy działanie routera. W przypadku przeciążenia, wykonamy odwrotną procedurę: będziemy kolejno odcinać peering, aby znależć przyczynę błędu.


Komentarz od OVH - wtorek, 12 wrzesień 2006, 15:37

Obciążenie procesora na routerze sięga 100%. Będziemy kolejno odcinać sesje dla Sfinx.


Komentarz od OVH - środa, 13 wrzesień 2006, 14:57

Nadal nie znależliśmy przyczyny błędu. Problem polega na tym, że router otrzymuje bardzo dużo aktualizacji BGP z innych routerów, z którymi realizuje sesje BGP. W efekcie, obciążenie procesora na routerze jest bardzo duże.

Odcinaliśmy kolejno sesje BGP dla Sfinx, FreeIX i prywatnego peeringu Neuf Telecom. Użytkownicy mogli zauważyć przerwy w połączeniach w godzinach popołudniowych.

Odcieliśmy połączenie pomiędzy th2-1-6k i rdb-1-c1. Zostanie uaktywnione po reinstalacji.

W nocy zaktualizowaliśmy system IOS dla th2-1-6k. Operacja trwała kilkanaście minut. Routing będzie zapewniony przez inne routery.


Komentarz od OVH - środa, 13 wrzesień 2006, 15:00

Aktualizacja IOS przebiegła prawidłowo. Po 24 godzinach będziemy w stanie ocenić jakość funkcjonowania routera z nową wersją IOS.


Komentarz od OVH - środa, 13 wrzesień 2006, 15:21

Aktualizacja IOS nie rozwiązała problemu.

Wprowadziliśmy system zabezpieczeń th2-1-6k dla wszystkich naszych klientów. Router działa prawidłowo. System ochrony działał wyłącznie dla zwykłych połączeń, nie dla klientów tranzytu.

Będziemy sprawdzać, dlaczego tak się dzieje.
Następnie będziemy sukcesywnie wprowadzać system zabezpieczeń dla wszystkich peeringów i klientów naszej sieci.


Komentarz od OVH - środa, 13 wrzesień 2006, 15:24

Sytuacja jest stabilna. Poczekamy jeszcze 24 godziny, aby ostatecznie zamknąć sprawę.


Komentarz od OVH - środa, 13 wrzesień 2006, 15:30

Uruchomiliśmy wszystkie sesje BGP dla wszystkich routerów sieci (backbone), aby uwzględnić pewne modyfikacje w konfiguracji BGP.


Komentarz od OVH - środa, 13 wrzesień 2006, 16:24

Po ponownym uruchomieniu wszystkich sesji BGP wszystkie routery zeczęły działać prawidłowo (poniżej 10% zużycia procesora) za wyjątkiem th2-1-6k (100% zużycia procesora). Przygotowujemy inny router tego samego typu (C6/Sup720BXL). Zostanie podłączony do th2-1-6k łączem 10Gbps. Następnie przeniesiemy łącza z th2-1-6k na nowy router, aby rozdzielić obciążenie i znależć żródło problemu. Przed godziną 22:00 rozpoczniemy operacje w Telehouse 2.


Komentarz od OVH - piątek, 15 wrzesień 2006, 12:53

Dzięki ponownym uruchamianiom sesji BGP znależliśmy przyczynę problemu; router wysłał wiadomość z błędem. Problem był związany z liczbą tras, którymi może zarządzać router. W standardowej konfiguracji jest to 192'000. Dla dodatkowych tras router wykorzystywał oprogramowanie (software) zamiast sprzętu. Nie wysyłał żadnej informacji o błędzie.
Dzięki otrzymaniu informacji o błędzie, zwiększyliśmy liczbę tras i wykonaliśmy reboot routera, aby zaktualizować parametry.

Sytuacja jest stabilna.
Przepraszamy za niedogodności.