Hei!
Litt info om hva jeg har opplevd med VSS og NAV på nyåret. Sender til
nav-ref siden det sikkert er noen som har
meninger i NAV sammenheng eller kanskje får seg et VSS eller liknende
system etterhvert.
Året startet med en del _store_ lagringsproblemer i Grimstad hvor
Microsoft og Dell har vært inne på langvarig feisøk.
Det viste seg å være trøbbel i et Dell lagringssystem. Og det tok over
ei uke å finne ut av... :-(
(Noen som har hørt om leverandører som skylder på hverandre, og trøbbel
å eskalere problemet??)
Midt oppe i det hele fikk vi også trøbbel med servere i VmWare i
Kristiansand. Vi mistenker nå noen HP Flex switcher
som skal feilsøkes til uka. Den raske løsningen den ettermiddagen ble å
skru av chassis 2 i krs-core-gw som er et Cisco 6509 VSS.
Vi valgte å ikke skru på det chassis til vi kan ta det opp kontrollert
og feilsjekke noen bokser som henger på chassis 2.
Årsaken var at vi ikke ville klusse til mer enn nødvendig mens
feilsøkingen i SAN'et pågikk. Det holdt lenge med ett aktivt problem....
Hva opplevde vi da? Jeg fikk selvsagt en bråte LinkDown meldinger og
info om moduler som gikk ned. Jippi.
Neste dag var alle portene i chassis 2 borte i IP Device info og i
Cricket for krs-core-gw! Strømforsyning og vifte borte de og.
(Nokså naturlig, siden de jo faktisk ikke finnes ved snmp
spørringer...(info om porter finnes i config men det hjelper ikke på
snmp spørringen))
Det er imidlertid ingen indikasjoner på forsiden av NAV om noe galt -
bortsett fra den ene switchen som kun hadde en link mot dette chassis og
var nede.
På statussiden er det selvsagt masse Links og modules down.
(ja, vi snakket om dette med statusside sist møte)
NAV sin forside viser altså ikke noe feil på denne boksen selv om
"halve" er borte og det definitiv er en redusert boks.
Det er her jeg kunne tenkt meg den "gule lampa" som varlset om feil.. ;-)
De som ikke abonnerer på alarmer vil ikke se at noe er degradert ved kun
å se her. Alt virker jo.
At det var en redusert boks fikk vi oppleve noen dager etter da vi fikk
parity error i chassis 1 og det gikk ned så det suste... :-(
(Lurer veldig på hva som hadde skjedd om begge SUPer var oppe. Burde
feilet over og gått videre)
Det finnes andre systemer som fungerer på tilsvarende måte. Juniper har
mulighet for å kople flere bokser inn i et virtuelt system.
Tidligere hadde vi en Cisco 6509 med 2 SUP i et chassis hvor den ene som
i VSS, er i standby.
Hvordan kan man få fram fornuftig informasjon om at "halve" boksen er
nede? Dvs at Supervisor er nede.
Det dukker forsåvidt opp i Modules down at PFC3 er nede.
Kan man "degradere" boksen når man ikke har redundans?
Når VSS er oppe ser man:
grm-core-gw#sh redundancy
......
Hardware Mode = Duplex
Configured Redundancy Mode = sso
Operating Redundancy Mode = sso
Maintenance Mode = Disabled
Communications = Up
og når det er nede:
krs-core-gw#sh redundancy
.......
Hardware Mode = Simplex
Configured Redundancy Mode = sso
Operating Redundancy Mode = sso
Maintenance Mode = Disabled
Communications = Down Reason: Simplex mode
Jeg vil tro at dette blir en problemstilling vi kommer til å se framover
at flere får virtuelle systemer bygget opp fra flere bokser.
Cisco kommer med VSS også på 4506. Kjenner ikke Nexus.
Snakket med Harald Terkelsen, HiOA, i går. Han ringte bl.a. for å spørre
hvordan NAV så et VSS system. Og Juniper, men det har ikke vi.
For øvrig så vises VSS helt fint i IP device info og cricket..
Nå er det vel flere som har stackede switcher. Det har ikke vi, men det
må jo være noe liknende problemstilling?
Vet ikke åssen NAV håndterer disse.
-rune