morten.brekkevold@uninett.no said:
Det spiller ingen rolle hvilket delsystem som genererer hendelser. Det er eventEngine som evaluerer hendelser og bestemmer hvorvidt det skal genereres alarm.
I know. Bare jeg som formulerte meg litt knotet.
Egentlig skyggestatus finnes bare på boksnivå, i.e. boxShadow. En boxDown-hendelse som ser ut til å skyldes skyggeforhold oversettes til en boxShadow-alarm i stedet for å bli sendt som en boxDown-alarm. Dette gjøres altså på bakgrunn av topologi-informasjon.
Ingen andre "enheter" i NAV-sammenheng har egen skyggestatus, ikke engang tjenester.
Det er derimot, som sagt, opp til eventEngine hvorvidt det skal genereres alarm for en hendelse. Denne avgjørelsen tas lokalt i den pluginen som behandler en hendelse. Det er ikke alle hendelser som har egen plugin, og de behandles da bare på generelt vis, og da er det ingen tilbakeholdenhet med å varsle alle hendelser umiddelbart.
Men det jeg ikke skjønner er hvorfor ikke alle hendelser blir sjekket opp mot skyggestatus? Er det i det hele tatt situasjoner man ønsker å få melding om at X er nede på boks så lenge boksen er nede?
Børge
On Fri, 02 Mar 2012 13:46:40 +0100 Borge Brunes borge.brunes@uit.no wrote:
Det er derimot, som sagt, opp til eventEngine hvorvidt det skal genereres alarm for en hendelse. Denne avgjørelsen tas lokalt i den pluginen som behandler en hendelse. Det er ikke alle hendelser som har egen plugin, og de behandles da bare på generelt vis, og da er det ingen tilbakeholdenhet med å varsle alle hendelser umiddelbart.
Men det jeg ikke skjønner er hvorfor ikke alle hendelser blir sjekket opp mot skyggestatus? Er det i det hele tatt situasjoner man ønsker å få melding om at X er nede på boks så lenge boksen er nede?
Det vet jeg ikke. Jeg var aldri involvert under implementeringen av eventEngine i sin tid, og du er den første som klager ordentlig på dette i etterkant, så det er først nå jeg ser på det.
Et forsøk på å rydde i terminologien: Det er ikke skyggestatus ting skal sjekkes opp mot, men nedestatus. Skygge er bare en type nedestatus en boks kan ha.
Men har vi tilfeller av at noen type alarmer skal slippe gjennom selv om boksen er markert som nede? Hva om en feilaktig ACL sperrer for ICMP echo til en switch, men switchen fortsetter å svare på SNMP og å sende traps til NAV? Eller tilsvarende for en server som ikke svarer på ping, men hvis tjenester fremdeles svarer?
________________________________________ From: nav-ref-request@uninett.no [nav-ref-request@uninett.no] on behalf of Morten Brekkevold [morten.brekkevold@uninett.no] Sent: Friday, March 02, 2012 2:04 PM To: Borge Brunes Cc: nav-ref@uninett.no Subject: Re: [nav-ref] Om Link down og slikt (tolopogilink alarmfunksjon) (...)
Et forsøk på å rydde i terminologien: Det er ikke skyggestatus ting skal sjekkes opp mot, men nedestatus. Skygge er bare en type nedestatus en boks kan ha.
Men har vi tilfeller av at noen type alarmer skal slippe gjennom selv om boksen er markert som nede? Hva om en feilaktig ACL sperrer for ICMP echo til en switch, men switchen fortsetter å svare på SNMP og å sende traps til NAV? Eller tilsvarende for en server som ikke svarer på ping, men hvis tjenester fremdeles svarer?
---- Med "fredag-og-hodet-er-et-annet-sted"- forbehold:
Er det ikke det motsatte vi vil unngå, mao å få to/flere nede-alarmer for samme boks? (Tilfellene over er jo av typen "boksen er nede, men gjør jobben sin likevel").
Jeg ser for meg at vi godt kan diskutere dette over et bord når det nærmer seg slutten av mars :)
Gro-Anita
-- Morten Brekkevold UNINETT
On Fri, 2 Mar 2012 14:12:51 +0000 Gro-Anita Hillestad Vindheim gro-anita.vindheim@ntnu.no wrote:
Med "fredag-og-hodet-er-et-annet-sted"- forbehold:
Er det ikke det motsatte vi vil unngå, mao å få to/flere nede-alarmer for samme boks? (Tilfellene over er jo av typen "boksen er nede, men gjør jobben sin likevel").
Det jeg tenkte på var at dersom en boks er "nede", men tjenestene på den fortsetter å fungere, er det da riktig å holde tilbake alarmer om at tjenestene etter en stund slutter å fungere? Og ja, det er et legitimt spørsmål - hva vil dere foretrekke?
Jeg ser for meg at vi godt kan diskutere dette over et bord når det nærmer seg slutten av mars :)
Det kommer nok opp på referansegruppemøtet, ja, men jeg vet ikke hvor god tid vi har til inngående diskusjoner om tekniske løsninger på møtet.
Men du sitter jo bare et "steinkast" unna, om du har innspill :)