FS#61 — Awaria th2-1-6k
Przydzielony do projektu— Sieć Internet i szafy
Nagła usterka | |
cała sieć | |
ZAMKNIĘTE | |
![]() |
W wyniku awarii routera th2-1-6k, doszło do zmniejszenia wydajności sieci do niektórych ISP.
Data: piątek, 15 wrzesień 2006, 12:53Powód zamknięcia: Done
Uzyskaliśmy prawidłowy ruch poprzez router th2-1-6k, ale sytuacja nie jest jeszcze stabilna.
Peering zostanie przeniesiony na inne routery, aby wyeliminować zródło błędu.
Odcieliśmy cały peering do Sfinx. Będziemy kolejno wznawiać ruch, aby sprawdzić każdy węzeł.
Router działa prawidłowo.
Wszystko zostało ponownie uruchomione. Kontrolujemy działanie routera. W przypadku przeciążenia, wykonamy odwrotną procedurę: będziemy kolejno odcinać peering, aby znależć przyczynę błędu.
Obciążenie procesora na routerze sięga 100%. Będziemy kolejno odcinać sesje dla Sfinx.
Nadal nie znależliśmy przyczyny błędu. Problem polega na tym, że router otrzymuje bardzo dużo aktualizacji BGP z innych routerów, z którymi realizuje sesje BGP. W efekcie, obciążenie procesora na routerze jest bardzo duże.
Odcinaliśmy kolejno sesje BGP dla Sfinx, FreeIX i prywatnego peeringu Neuf Telecom. Użytkownicy mogli zauważyć przerwy w połączeniach w godzinach popołudniowych.
Odcieliśmy połączenie pomiędzy th2-1-6k i rdb-1-c1. Zostanie uaktywnione po reinstalacji.
W nocy zaktualizowaliśmy system IOS dla th2-1-6k. Operacja trwała kilkanaście minut. Routing będzie zapewniony przez inne routery.
Aktualizacja IOS przebiegła prawidłowo. Po 24 godzinach będziemy w stanie ocenić jakość funkcjonowania routera z nową wersją IOS.
Aktualizacja IOS nie rozwiązała problemu.
Wprowadziliśmy system zabezpieczeń th2-1-6k dla wszystkich naszych klientów. Router działa prawidłowo. System ochrony działał wyłącznie dla zwykłych połączeń, nie dla klientów tranzytu.
Będziemy sprawdzać, dlaczego tak się dzieje.
Następnie będziemy sukcesywnie wprowadzać system zabezpieczeń dla wszystkich peeringów i klientów naszej sieci.
Sytuacja jest stabilna. Poczekamy jeszcze 24 godziny, aby ostatecznie zamknąć sprawę.
Uruchomiliśmy wszystkie sesje BGP dla wszystkich routerów sieci (backbone), aby uwzględnić pewne modyfikacje w konfiguracji BGP.
Po ponownym uruchomieniu wszystkich sesji BGP wszystkie routery zeczęły działać prawidłowo (poniżej 10% zużycia procesora) za wyjątkiem th2-1-6k (100% zużycia procesora). Przygotowujemy inny router tego samego typu (C6/Sup720BXL). Zostanie podłączony do th2-1-6k łączem 10Gbps. Następnie przeniesiemy łącza z th2-1-6k na nowy router, aby rozdzielić obciążenie i znależć żródło problemu. Przed godziną 22:00 rozpoczniemy operacje w Telehouse 2.
Dzięki ponownym uruchamianiom sesji BGP znależliśmy przyczynę problemu; router wysłał wiadomość z błędem. Problem był związany z liczbą tras, którymi może zarządzać router. W standardowej konfiguracji jest to 192'000. Dla dodatkowych tras router wykorzystywał oprogramowanie (software) zamiast sprzętu. Nie wysyłał żadnej informacji o błędzie.
Dzięki otrzymaniu informacji o błędzie, zwiększyliśmy liczbę tras i wykonaliśmy reboot routera, aby zaktualizować parametry.
Sytuacja jest stabilna.
Przepraszamy za niedogodności.