[nav-ref] NAV og VSS - nav.ref@lister.sikt.no

24 Jan 2013


      Hei!
Litt info om hva jeg har opplevd med VSS og NAV på nyåret. Sender til 
nav-ref siden det sikkert er noen som har
meninger i NAV sammenheng eller kanskje får seg et VSS eller liknende 
system etterhvert.
Året startet med en del _store_ lagringsproblemer i Grimstad hvor 
Microsoft og Dell har vært inne på langvarig feisøk.
Det viste seg å være trøbbel i et Dell lagringssystem. Og det tok over 
ei uke å finne ut av... :-(
(Noen som har hørt om leverandører som skylder på hverandre, og trøbbel 
å eskalere problemet??)
Midt oppe i det hele fikk vi også trøbbel med servere i VmWare i 
Kristiansand. Vi mistenker nå noen HP Flex switcher
som skal feilsøkes til uka. Den raske løsningen den ettermiddagen ble å 
skru av chassis 2 i krs-core-gw som er et Cisco 6509 VSS.
Vi valgte å ikke skru på det chassis til vi kan ta det opp kontrollert 
og feilsjekke noen bokser som henger på chassis 2.
Årsaken var at vi ikke ville klusse til mer enn nødvendig mens 
feilsøkingen i SAN'et pågikk. Det holdt lenge med ett aktivt problem....
Hva opplevde vi da? Jeg fikk selvsagt en bråte LinkDown meldinger og 
info om moduler som gikk ned. Jippi.
Neste dag var alle portene i chassis 2 borte i IP Device info og i 
Cricket for krs-core-gw! Strømforsyning og vifte borte de og.
(Nokså naturlig, siden de jo faktisk ikke finnes ved snmp 
spørringer...(info om porter finnes i config men det hjelper ikke på 
snmp spørringen))
Det er imidlertid ingen indikasjoner på forsiden av NAV om noe galt - 
bortsett fra den ene switchen som kun hadde en link mot dette chassis og 
var nede.
På statussiden er det selvsagt masse Links og modules down.
(ja, vi snakket om dette med statusside sist møte)
NAV sin forside viser altså ikke noe feil på denne boksen selv om 
"halve" er borte og det definitiv er en redusert boks.
Det er her jeg kunne tenkt meg den "gule lampa" som varlset om feil.. ;-)
De som ikke abonnerer på alarmer vil ikke se at noe er degradert ved kun 
å se her. Alt virker jo.
At det var en redusert boks fikk vi oppleve noen dager etter da vi fikk 
parity error i chassis 1 og det gikk ned så det suste... :-(
(Lurer veldig på hva som hadde skjedd om begge SUPer var oppe. Burde 
feilet over og gått videre)
Det finnes andre systemer som fungerer på tilsvarende måte. Juniper har 
mulighet for å kople flere bokser inn i et virtuelt system.
Tidligere hadde vi en Cisco 6509 med 2 SUP i et chassis hvor den ene som 
i VSS, er i standby.
Hvordan kan man få fram fornuftig informasjon om at "halve" boksen er 
nede? Dvs at Supervisor er nede.
Det dukker forsåvidt opp i Modules down at PFC3 er nede.
Kan man "degradere" boksen når man ikke har redundans?
Når VSS er oppe ser man:
grm-core-gw#sh redundancy
......
                  Hardware Mode = Duplex
     Configured Redundancy Mode = sso
      Operating Redundancy Mode = sso
               Maintenance Mode = Disabled
                 Communications = Up
og når det er nede:
krs-core-gw#sh redundancy
.......
                  Hardware Mode = Simplex
     Configured Redundancy Mode = sso
      Operating Redundancy Mode = sso
               Maintenance Mode = Disabled
                 Communications = Down      Reason: Simplex mode
Jeg vil tro at dette blir en problemstilling vi kommer til å se framover 
at flere får virtuelle systemer bygget opp fra flere bokser.
Cisco kommer med VSS også på 4506. Kjenner ikke Nexus.
Snakket med Harald Terkelsen, HiOA, i går. Han ringte bl.a. for å spørre 
hvordan NAV så et VSS system. Og Juniper, men det har ikke vi.
For øvrig så vises VSS helt fint i IP device info og cricket..
Nå er det vel flere som har stackede switcher. Det har ikke vi, men det 
må jo være noe liknende problemstilling?
Vet ikke åssen NAV håndterer disse.
-rune