Hei,
om denne saken spesielt: Ifm. en sak vi skulle feilsøke så dukket det opp noe som forvirret oss. Vi var på jakt etter en mac-adr i nettet da vi oppdaget at innsamlingen av cam og arp-data hadde stoppet opp (ipdevpoll gikk som den skulle).
Selv om innsamlingen hadde stoppet opp for lenge siden så fikk man likevel opp status "still active" under "End time" i machinetracker. machinetracker gjør altså en antakelse om at mac&arp-adr. lever evig dersom den er sett før innsamlingen stoppet opp, selv om den ikke er sett på en boks. Hvorfor det? Jeg mener at dette er feil. arp/mac-adr er ikke samlet inn på over en mnd. og da kan man ikke si at den er "still active"
om slike ting generelt: i første møtet i NAV-ref-gruppa som diskuterte vi veien videre og vi ble enig om at datakvaliteten i NAV burde bedres. Man skal kunne stole på de dataene man har i NAV. Slik jeg ser det så er overnevnte et eks. på det motsatte.
På møtet ivret jeg for et internt system-check som fanget opp feilsituasjoner som f.eks. - cam/arp-innsamling har stoppet opp - bokser av type GW uten ruterporter - bokser av type SW uten switcheporter - annen datainnsamling som ikke virker som den skal. - osv.
Jeg ivrer enda mer for et slikt system nå :-)
Børge
On Wed, 25 Jul 2012 13:55:27 +0200 Borge Brunes borge.brunes@uit.no wrote:
Hei,
om denne saken spesielt: Ifm. en sak vi skulle feilsøke så dukket det opp noe som forvirret oss. Vi var på jakt etter en mac-adr i nettet da vi oppdaget at innsamlingen av cam og arp-data hadde stoppet opp (ipdevpoll gikk som den skulle).
Selv om innsamlingen hadde stoppet opp for lenge siden så fikk man likevel opp status "still active" under "End time" i machinetracker. machinetracker gjør altså en antakelse om at mac&arp-adr. lever evig dersom den er sett før innsamlingen stoppet opp, selv om den ikke er sett på en boks. Hvorfor det? Jeg mener at dette er feil. arp/mac-adr er ikke samlet inn på over en mnd. og da kan man ikke si at den er "still active"
om slike ting generelt: i første møtet i NAV-ref-gruppa som diskuterte vi veien videre og vi ble enig om at datakvaliteten i NAV burde bedres. Man skal kunne stole på de dataene man har i NAV. Slik jeg ser det så er overnevnte et eks. på det motsatte.
Dette er et godt og konkret innspill, Børge. Da vi etterspurte hva som lå bak formuleringen "heve datakvaliteten" tidligere i år var det relativt få konkrete svar å spore, bortsett fra mumling om "topologi".
På helt generelt grunnlag kan jeg foreslå at cam- og arp-innslag i databasen kan utsettes for en expiry-mekanisme som er uavhengig av innsamling. Dvs. at dersom en arp/cam-record ikke er blitt bekreftet av innsamleren innen en viss tid, så vil den automatisk bli lukket. Ulempen er at dersom innsamleren skal bekrefte alle åpne innslag til enhver tid, vil det føre til bloat i databasen. Alternativt kan innsamleren bare bekrefte med timestamp at den har kjørt ferdig for en gitt boks, slik at expiry er relativt til dette tidspunktet.
Helt spesifikt, til din problemstilling, lurer jeg på hvordan dere bekreftet at "innsamleren" hadde stoppet opp? Hadde NAV sluttet å logge ARP og CAM-innslag for alle bokser dere overvåker, eller bare for bestemte bokser? Hadde den sluttet å logge _både_ ARP og CAM eller bare en av delene?
Dette er nyttig informasjon, da ARP og CAM samles inn av to forskjellige jobber, til forskjellige tidspunkt og individuelt pr. boks, i motsetning til tidligere, da både ARP-innsamling og CAM-innsamling var individuelle prosesser som kjørte fra cron og samlet inn for alle bokser i "runder".
På møtet ivret jeg for et internt system-check som fanget opp feilsituasjoner som f.eks.
- cam/arp-innsamling har stoppet opp
- bokser av type GW uten ruterporter
- bokser av type SW uten switcheporter
- annen datainnsamling som ikke virker som den skal.
- osv.
Jeg ivrer enda mer for et slikt system nå :-)
Hvilket grensesnitt skal et slikt system ha?
* Skal systemsjekken kjøres manuelt av administrator, eller som en cronjobb?
* Dersom systemsjekken kjører automatisk i cron, hvem skal overvåke at systemsjekkeren virker?
* Skal systemsjekken ha en statusside på web og/eller CLI?
* Skal feil i systemsjekken sendes som alarmer i alert profiles, eller bare direkte som mail til ADMIN_MAIL fra nav.conf?