Hei!
Litt info om hva jeg har opplevd med VSS og NAV på nyåret. Sender til nav-ref siden det sikkert er noen som har meninger i NAV sammenheng eller kanskje får seg et VSS eller liknende system etterhvert.
Året startet med en del _store_ lagringsproblemer i Grimstad hvor Microsoft og Dell har vært inne på langvarig feisøk. Det viste seg å være trøbbel i et Dell lagringssystem. Og det tok over ei uke å finne ut av... :-( (Noen som har hørt om leverandører som skylder på hverandre, og trøbbel å eskalere problemet??)
Midt oppe i det hele fikk vi også trøbbel med servere i VmWare i Kristiansand. Vi mistenker nå noen HP Flex switcher som skal feilsøkes til uka. Den raske løsningen den ettermiddagen ble å skru av chassis 2 i krs-core-gw som er et Cisco 6509 VSS.
Vi valgte å ikke skru på det chassis til vi kan ta det opp kontrollert og feilsjekke noen bokser som henger på chassis 2. Årsaken var at vi ikke ville klusse til mer enn nødvendig mens feilsøkingen i SAN'et pågikk. Det holdt lenge med ett aktivt problem....
Hva opplevde vi da? Jeg fikk selvsagt en bråte LinkDown meldinger og info om moduler som gikk ned. Jippi.
Neste dag var alle portene i chassis 2 borte i IP Device info og i Cricket for krs-core-gw! Strømforsyning og vifte borte de og. (Nokså naturlig, siden de jo faktisk ikke finnes ved snmp spørringer...(info om porter finnes i config men det hjelper ikke på snmp spørringen))
Det er imidlertid ingen indikasjoner på forsiden av NAV om noe galt - bortsett fra den ene switchen som kun hadde en link mot dette chassis og var nede. På statussiden er det selvsagt masse Links og modules down. (ja, vi snakket om dette med statusside sist møte)
NAV sin forside viser altså ikke noe feil på denne boksen selv om "halve" er borte og det definitiv er en redusert boks. Det er her jeg kunne tenkt meg den "gule lampa" som varlset om feil.. ;-) De som ikke abonnerer på alarmer vil ikke se at noe er degradert ved kun å se her. Alt virker jo.
At det var en redusert boks fikk vi oppleve noen dager etter da vi fikk parity error i chassis 1 og det gikk ned så det suste... :-( (Lurer veldig på hva som hadde skjedd om begge SUPer var oppe. Burde feilet over og gått videre)
Det finnes andre systemer som fungerer på tilsvarende måte. Juniper har mulighet for å kople flere bokser inn i et virtuelt system. Tidligere hadde vi en Cisco 6509 med 2 SUP i et chassis hvor den ene som i VSS, er i standby.
Hvordan kan man få fram fornuftig informasjon om at "halve" boksen er nede? Dvs at Supervisor er nede. Det dukker forsåvidt opp i Modules down at PFC3 er nede. Kan man "degradere" boksen når man ikke har redundans?
Når VSS er oppe ser man:
grm-core-gw#sh redundancy ...... Hardware Mode = Duplex Configured Redundancy Mode = sso Operating Redundancy Mode = sso Maintenance Mode = Disabled Communications = Up
og når det er nede:
krs-core-gw#sh redundancy ....... Hardware Mode = Simplex Configured Redundancy Mode = sso Operating Redundancy Mode = sso Maintenance Mode = Disabled Communications = Down Reason: Simplex mode
Jeg vil tro at dette blir en problemstilling vi kommer til å se framover at flere får virtuelle systemer bygget opp fra flere bokser. Cisco kommer med VSS også på 4506. Kjenner ikke Nexus.
Snakket med Harald Terkelsen, HiOA, i går. Han ringte bl.a. for å spørre hvordan NAV så et VSS system. Og Juniper, men det har ikke vi. For øvrig så vises VSS helt fint i IP device info og cricket..
Nå er det vel flere som har stackede switcher. Det har ikke vi, men det må jo være noe liknende problemstilling? Vet ikke åssen NAV håndterer disse.
-rune
On Thu, 24 Jan 2013 14:33:10 +0100 Rune Kittelsen rune.kittelsen@uia.no wrote:
Hva opplevde vi da? Jeg fikk selvsagt en bråte LinkDown meldinger og info om moduler som gikk ned. Jippi.
Neste dag var alle portene i chassis 2 borte i IP Device info og i Cricket for krs-core-gw! Strømforsyning og vifte borte de og. (Nokså naturlig, siden de jo faktisk ikke finnes ved snmp spørringer...(info om porter finnes i config men det hjelper ikke på snmp spørringen))
Det er imidlertid ingen indikasjoner på forsiden av NAV om noe galt - bortsett fra den ene switchen som kun hadde en link mot dette chassis og var nede. På statussiden er det selvsagt masse Links og modules down. (ja, vi snakket om dette med statusside sist møte)
NAV sin forside viser altså ikke noe feil på denne boksen selv om "halve" er borte og det definitiv er en redusert boks. Det er her jeg kunne tenkt meg den "gule lampa" som varlset om feil.. ;-) De som ikke abonnerer på alarmer vil ikke se at noe er degradert ved kun å se her. Alt virker jo.
Det er vel generelt et problem at folk tenker at NAV-forsiden = Status-siden, og det var vel litt av det vi diskuterte på forrige møte. Strengt tatt burde forsiden enten ikke vise status i det hele tatt, vise det samme som status-siden, eller status-siden burde være forsiden.
Historisk sett tror jeg forsiden var ment å være åpen for allmennheten, og har således begrenset informasjon om hva som skjer. Status-siden krever innlogging, noe forsiden ikke gjør.
Jeg vil tro at dette blir en problemstilling vi kommer til å se framover at flere får virtuelle systemer bygget opp fra flere bokser. Cisco kommer med VSS også på 4506. Kjenner ikke Nexus.
Snakket med Harald Terkelsen, HiOA, i går. Han ringte bl.a. for å spørre hvordan NAV så et VSS system. Og Juniper, men det har ikke vi. For øvrig så vises VSS helt fint i IP device info og cricket..
NAV skal heller ikke ha noen problemer med VSS og lignende løsninger, så lenge den virtuelle boksen presenterer seg som en hel, sammenhengende boks på alle SNMP-spørringer.
NAV vet derimot ikke at denne virtuelle boksen den snakker med fysisk sett består av to bokser, og har dermed ikke noe utgangspunkt for å vite nøyaktig hva som har gått galt når de to mister kontakten med hverandre.
Antageligvis vil man finne informasjon om dette dersom man ser i proprietære MIB-er. Om man er heldig kan man se det i ENTITY-MIB (men det gjelder selvfølgelig ikke Juniper, siden de ikke støtter ENTITY-MIB).
En mulig ny funksjonalitet i NAV kunne vært at den kan plukke opp informasjon om virtuelle chassis og ha en egen alarmtype for degradering av det dersom den ene fysiske boksen ser ut til å falle fra. Antageligvis ville denne funksjonaliteten kreve en proprietær implementasjon pr. leverandør.
Nå er det vel flere som har stackede switcher. Det har ikke vi, men det må jo være noe liknende problemstilling? Vet ikke åssen NAV håndterer disse.
Stacking der man bygger en virtuell switch (ala VSS) henger ikke NAV seg opp i, siden den ser det som en hel, stor boks. Mer proxy-lignende stacking, slik som Cisco Switch Clustering støttes ikke i det hele tatt.
Et universitet i Finland har skrevet noen patcher til NAV for å kunne legge inn medlemmer i en Cisco switch cluster manuelt, uten at NAV skal få hikke av at de nås på samme IP-adresse, men vi har ikke hatt mulighet til å teste disse patchene selv.