Smart Quorum Consensus: méně falešných poplachů

Více sond samo o sobě nestačí. Potřebujete ještě jasné pravidlo, jak z jejich výsledků udělat jedno důvěryhodné rozhodnutí. nsmon proto nevyhlašuje výpadek jen kvůli jednomu osamocenému failu, ale potvrzuje incident až tehdy, když se na něm shodne nadpoloviční většina oslovených sond v definovaném časovém okně.

Co Smart Quorum Consensus ve skutečnosti dělá

Každý check v nsmonu vzniká jako skupina paralelních měření z více lokalit. Smart Quorum Consensus určuje, jak se z těchto dílčích výsledků stane jedno finální vyhodnocení. Díky tomu se výrazně snižují falešné poplachy způsobené lokálním výkyvem, problémem jednoho providera nebo izolovanou nedostupností v jedné části světa.

Veřejně řečeno je princip jednoduchý: pokud služba selhává jen z jedné lokality, nebereme to automaticky jako potvrzený outage vaší služby. Incident potvrzujeme až tehdy, když se na něm shodne nadpoloviční většina oslovených sond v daném časovém okně.

Kdy quorum logika chrání před false positives

Jedna sonda má lokální problém

Bez quorum logiky by jediný fail mohl vyvolat zbytečný alert. S quorum přístupem se výsledek porovnává s ostatními sondami.

Problém existuje jen v jednom regionu

Pokud služba funguje z většiny ostatních lokalit, nechceme takovou situaci vyhodnotit jako potvrzený outage vaší služby.

Síť má krátký šum

Krátká anomálie na části sond ještě nemusí znamenat reálný incident celé služby.

Služba je skutečně nedostupná napříč lokalitami

Když většina přijatých odpovědí selže a quorum je splněné, systém rozhodne `DOWN`.

Jak quorum rozhodnutí vzniká

01

Služba se ověřuje z více sond

nsmon osloví více geograficky oddělených sond. Kolik jich bude, závisí na subscription tieru.

02

Výsledky se porovnají v jednom časovém úseku

Díváme se na to, jak služba dopadla napříč oslovenými lokalitami ve stejném checkovacím okamžiku, ne na izolovaný výsledek jedné sondy.

03

Rozhoduje nadpoloviční většina

Pokud se na nedostupnosti shodne nadpoloviční většina oslovených sond, považujeme to za potvrzený incident.

04

Izolovaný regionální problém nevyvolá alert

Když služba z většiny lokalit funguje a problém se týká jen úzkého segmentu internetu, nechceme vás budit kvůli něčemu, co není skutečný globální outage vaší služby.

Jak číst quorum rozhodnutí

Prakticky jde hlavně o to, kolik sond službu vidí jako zdravou a kolik jako nedostupnou ve stejném časovém okamžiku.

Oslovené sondy         5
Sondy hlásí OK         1
Sondy hlásí FAIL       4
Výsledek               Incident potvrzen

Počet sond závisí na tarifu

Vyšší subscription tier znamená více paralelních pohledů a vyšší jistotu ve vyhodnocení.

Rozhoduje většina, ne jeden osamocený fail

Jeden výpadek jedné sondy nestačí k tomu, aby byl vyhlášen incident.

Cílem je jistota, ne přehnaná citlivost

Smyslem je být rychlý, ale zároveň nezahlcovat uživatele false positives.

Regionální problém není automaticky váš outage

Když se problém projeví jen v jedné síti nebo části světa, nechceme ho bez dalšího vydávat za potvrzený výpadek služby.

Proč nealertujeme na izolovaný problém jedné sítě

Pokud je služba funkční z většiny lokalit a problém se týká jen jednoho providera nebo jednoho regionu, ve většině případů to není něco, co můžete jako provozovatel služby přímo ovlivnit.

Proto nechceme vyvolávat paniku pokaždé, když se zhorší jedna síťová cesta. Cílem je upozorňovat na situace, které skutečně odpovídají reálné nedostupnosti služby pro širší část uživatelů.

Single-check vs quorum rozhodnutí

Téma Jednoduchý single-check Quorum přístup v nsmonu
Vstup pro rozhodnutí Jeden výsledek z jedné lokality. Více výsledků z několika sond v jednom časovém okně.
Chování při šumu Snadno generuje false positives. Lépe filtruje lokální výkyvy a probe blipy.
Neúplná data Snadno vede k přehnaně citlivým alertům. Lépe pracuje s nejistotou a snižuje zbytečné poplachy.
Související článek

Quorum funguje jen tehdy, když máte více nezávislých sond.

Globální síť sond vysvětluje, proč nsmon sbírá výsledky z více lokalit a proč jedna sonda sama o sobě nestačí.

Přečíst článek o globální síti sond

Typické quorum scénáře

Jedna lokalita hlásí fail, ostatní jsou zdravé

To typicky nestačí k potvrzení incidentu. Právě tomu se quorum logika snaží zabránit.

Většina oslovených sond hlásí stejný fail

To je silný signál, že jde o skutečný incident, ne o lokální síťový problém.

Služba funguje z většiny regionů, ale ne z jednoho

Taková situace ještě nemusí znamenat potvrzený outage vaší služby jako celku.

Více sond se shodne během stejného časového okna

Právě takto vzniká důvěryhodné potvrzení incidentu místo náhodného jednorázového failu.

Důležitá omezení

  • Quorum logika sama o sobě nenahradí správně navržený monitoring a dobře zvolený endpoint.
  • Některé regionální problémy mohou být pro část uživatelů reálné, ale z pohledu veřejného monitoringu nemusejí znamenat potvrzený globální outage služby.
  • Počet oslovených sond závisí na subscription tieru, takže hloubka potvrzení se může lišit.
  • Smyslem quorum logiky je omezit false positives, ne dokonale modelovat každý izolovaný problém na internetu.

Na co se při vyhodnocení soustředit

Kolik lokalit hlásí fail
Více sond napříč různými regiony

Důležitější než jeden izolovaný výsledek je shoda více nezávislých pohledů.

Zda jde o regionální nebo širší problém
Porovnání výsledků mezi lokalitami

Pomůže odlišit lokální síťovou anomálii od potvrzené nedostupnosti služby.

Shoda v jednom časovém okně
Paralelní výsledky z oslovených sond

Incident má být potvrzený současným pohledem více lokalit, ne jedním pozdním nebo osamoceným failem.

Časté dotazy

Alerty dávají smysl jen tehdy, když stojí na důvěryhodném rozhodnutí.

nsmon kombinuje výsledky z více sond, používá quorum logiku a ukládá i důvod rozhodnutí, takže vidíte, proč byl stav vyhodnocen jako UP, DOWN nebo UNKNOWN. Vytvořte si účet zdarma a monitorujte bez zbytečných false positives.