Smart Quorum Consensus: méně falešných poplachů
Více sond samo o sobě nestačí. Potřebujete ještě jasné pravidlo, jak z jejich výsledků udělat jedno důvěryhodné rozhodnutí. nsmon proto nevyhlašuje výpadek jen kvůli jednomu osamocenému failu, ale potvrzuje incident až tehdy, když se na něm shodne nadpoloviční většina oslovených sond v definovaném časovém okně.
Co Smart Quorum Consensus ve skutečnosti dělá
Každý check v nsmonu vzniká jako skupina paralelních měření z více lokalit. Smart Quorum Consensus určuje, jak se z těchto dílčích výsledků stane jedno finální vyhodnocení. Díky tomu se výrazně snižují falešné poplachy způsobené lokálním výkyvem, problémem jednoho providera nebo izolovanou nedostupností v jedné části světa.
Veřejně řečeno je princip jednoduchý: pokud služba selhává jen z jedné lokality, nebereme to automaticky jako potvrzený outage vaší služby. Incident potvrzujeme až tehdy, když se na něm shodne nadpoloviční většina oslovených sond v daném časovém okně.
Kdy quorum logika chrání před false positives
Jedna sonda má lokální problém
Bez quorum logiky by jediný fail mohl vyvolat zbytečný alert. S quorum přístupem se výsledek porovnává s ostatními sondami.
Problém existuje jen v jednom regionu
Pokud služba funguje z většiny ostatních lokalit, nechceme takovou situaci vyhodnotit jako potvrzený outage vaší služby.
Síť má krátký šum
Krátká anomálie na části sond ještě nemusí znamenat reálný incident celé služby.
Služba je skutečně nedostupná napříč lokalitami
Když většina přijatých odpovědí selže a quorum je splněné, systém rozhodne `DOWN`.
Jak quorum rozhodnutí vzniká
Služba se ověřuje z více sond
nsmon osloví více geograficky oddělených sond. Kolik jich bude, závisí na subscription tieru.
Výsledky se porovnají v jednom časovém úseku
Díváme se na to, jak služba dopadla napříč oslovenými lokalitami ve stejném checkovacím okamžiku, ne na izolovaný výsledek jedné sondy.
Rozhoduje nadpoloviční většina
Pokud se na nedostupnosti shodne nadpoloviční většina oslovených sond, považujeme to za potvrzený incident.
Izolovaný regionální problém nevyvolá alert
Když služba z většiny lokalit funguje a problém se týká jen úzkého segmentu internetu, nechceme vás budit kvůli něčemu, co není skutečný globální outage vaší služby.
Jak číst quorum rozhodnutí
Prakticky jde hlavně o to, kolik sond službu vidí jako zdravou a kolik jako nedostupnou ve stejném časovém okamžiku.
Oslovené sondy 5 Sondy hlásí OK 1 Sondy hlásí FAIL 4 Výsledek Incident potvrzen
Počet sond závisí na tarifu
Vyšší subscription tier znamená více paralelních pohledů a vyšší jistotu ve vyhodnocení.
Rozhoduje většina, ne jeden osamocený fail
Jeden výpadek jedné sondy nestačí k tomu, aby byl vyhlášen incident.
Cílem je jistota, ne přehnaná citlivost
Smyslem je být rychlý, ale zároveň nezahlcovat uživatele false positives.
Regionální problém není automaticky váš outage
Když se problém projeví jen v jedné síti nebo části světa, nechceme ho bez dalšího vydávat za potvrzený výpadek služby.
Proč nealertujeme na izolovaný problém jedné sítě
Pokud je služba funkční z většiny lokalit a problém se týká jen jednoho providera nebo jednoho regionu, ve většině případů to není něco, co můžete jako provozovatel služby přímo ovlivnit.
Proto nechceme vyvolávat paniku pokaždé, když se zhorší jedna síťová cesta. Cílem je upozorňovat na situace, které skutečně odpovídají reálné nedostupnosti služby pro širší část uživatelů.
Single-check vs quorum rozhodnutí
| Téma | Jednoduchý single-check | Quorum přístup v nsmonu |
|---|---|---|
| Vstup pro rozhodnutí | Jeden výsledek z jedné lokality. | Více výsledků z několika sond v jednom časovém okně. |
| Chování při šumu | Snadno generuje false positives. | Lépe filtruje lokální výkyvy a probe blipy. |
| Neúplná data | Snadno vede k přehnaně citlivým alertům. | Lépe pracuje s nejistotou a snižuje zbytečné poplachy. |
Quorum funguje jen tehdy, když máte více nezávislých sond.
Globální síť sond vysvětluje, proč nsmon sbírá výsledky z více lokalit a proč jedna sonda sama o sobě nestačí.
Přečíst článek o globální síti sond →Typické quorum scénáře
Jedna lokalita hlásí fail, ostatní jsou zdravé
To typicky nestačí k potvrzení incidentu. Právě tomu se quorum logika snaží zabránit.
Většina oslovených sond hlásí stejný fail
To je silný signál, že jde o skutečný incident, ne o lokální síťový problém.
Služba funguje z většiny regionů, ale ne z jednoho
Taková situace ještě nemusí znamenat potvrzený outage vaší služby jako celku.
Více sond se shodne během stejného časového okna
Právě takto vzniká důvěryhodné potvrzení incidentu místo náhodného jednorázového failu.
Důležitá omezení
- ● Quorum logika sama o sobě nenahradí správně navržený monitoring a dobře zvolený endpoint.
- ● Některé regionální problémy mohou být pro část uživatelů reálné, ale z pohledu veřejného monitoringu nemusejí znamenat potvrzený globální outage služby.
- ● Počet oslovených sond závisí na subscription tieru, takže hloubka potvrzení se může lišit.
- ● Smyslem quorum logiky je omezit false positives, ne dokonale modelovat každý izolovaný problém na internetu.
Na co se při vyhodnocení soustředit
Více sond napříč různými regiony Důležitější než jeden izolovaný výsledek je shoda více nezávislých pohledů.
Porovnání výsledků mezi lokalitami Pomůže odlišit lokální síťovou anomálii od potvrzené nedostupnosti služby.
Paralelní výsledky z oslovených sond Incident má být potvrzený současným pohledem více lokalit, ne jedním pozdním nebo osamoceným failem.
Časté dotazy
Alerty dávají smysl jen tehdy, když stojí na důvěryhodném rozhodnutí.
nsmon kombinuje výsledky z více sond, používá quorum logiku a ukládá i důvod rozhodnutí, takže vidíte, proč byl stav vyhodnocen jako UP, DOWN nebo UNKNOWN. Vytvořte si účet zdarma a monitorujte bez zbytečných false positives.