A kiugró értékek detektálása a normál eloszlás alapján

A kiugró értékek normál eloszlás útján történő felismerése olyan folyamat, amely magában foglalja a szórásküszöb meghatározását, és amelynek segítségével a minta szélső értékeit kívánják megtalálni.

Más szavakkal, a kiugró értékek normál eloszlás útján történő felderítése annyit jelent, hogy az adatkészlet szélső értékeit a standardizált normál képleten keresztül kell megtalálni.

  • Az értékek szélsőségek hívják kiugró értékek angolul.
  • Az értékek belső hívják bennfentesek angolul.

A kiugró értékek vizuális észlelése lehetőség lehet, ha nagyon kevés adat áll rendelkezésre. Az adatbázisokkal való munkavégzés során nagyon nem praktikus, ha manuálisan kell megtalálni a kiugró értékeket. A probléma megoldásához kiszámíthatjuk, hogy mely értékek tekinthetők szélsőségesnek, összehasonlítva az eltérések küszöbével.

A normál eloszlás esetében az érték akkor tekinthető szélsőségesnek, ha 3 szórástól eltér az átlagtól. Mivel a normál eloszlásnak 2 farka van, figyelembe kell vennünk, hogy mind a negatív, mind a pozitív oldalon kicsinyíthető.

Képlet a kiugró értékek detektálására a normál eloszlás segítségével

Megfigyelési halmaz kifejezhető az előző módon, ahol x az az átlagérték, amely felett az értékek oszcillálnak, és az értékek oszcillációjának diszperzióját jelöli. Más szavakkal, a sigma a megfigyelések távolsága az átlagértéktől.

A multiplikatív tényező határozza meg, hogy outlier vagy bennfentes. Ha z értéke 3 vagy -3, akkor a normális eloszlás szerint az y megfigyelés kiugró érték lesz.

Az értékének megismerése z az előző egyenletet használjuk:

  • Ha z> = 3 vagy z = <-3, akkor a normális eloszlás szerint ezt mondhatjuk Y extrém érték vagy kiugró érték.
  • Ha z <3 vagy z <-3, akkor a normális eloszlás szerint ezt mondhatjuk Y belső érték vagy bennfentes.

Normál szabvány

Ismerős a fenti egyenlet?

Pontosan ez egy megfigyelés kifejezése, amely normál eloszlást követ, miután standardizált vagy tipizált. Ezt azért hívják így, mert ha elosztjuk a szórással vagy a szórással, akkor a számláló különbségét eltérésekben fejezzük ki.

Emiatt a deviációs értékeket társíthatjuk a z és így 3 eltérés küszöbével megvásárolható legyen.

Példa

Keresse meg a következő megfigyelések szélsőértékeit a normál eloszlás szerint:

A megfigyeléseket grafikonon ábrázoljuk:

A kezdetektől fogva már láthatjuk, hogy a többitől legtávolabb eső érték nagy valószínűséggel szélsőségesebb lehet.

Először kiszámoljuk az átlagot és a szórást:

x = átlag = 5,8

sigma = szórás = 10,51

Ezután behelyettesítjük az értékeket a képletbe, és kiszámoljuk a z minden megfigyeléshez:

A fenti értékek a szigma multiplikatív tényezői, vagyis z. Bármi, ami nagyobb, mint 3 vagy kevesebb, mint -3, extrém érték lesz.

Láthatjuk, hogy az értéke z amely meghaladja a 3 szórást, megfelel a 49. megfigyelésnek.

Ezért az adatkészlet szélső vagy kiugró értéke 49 lenne.

Népszerű Bejegyzések

Németország GDP-je 0,1% -kal csökken

A német gazdaság ismét a hurrikán szemében van, és bruttó hazai terméke (GDP) 0,1% -kal esik le. Németország ismét szenved. Az első negyedév után, amelyben 0,4% -kal nőtt, a német gazdaság ismét visszaesett. A német mozdony, amely egészen a legutóbbi időkig a rugalmasság példája volt…

Thomas Cook 178 évvel később csődbe megy

Úgy tűnik, 600 000 ügyfél a parton és a fizetések felfüggesztése egy olyan nagy turisztikai vállalat szomorú vége, mint Thomas Cook. Egy 178 éves hagyománnyal rendelkező cég bukása azonban megjósolt tragédia volt. Számos olyan tünet volt, amely Thomas Cook bukását feltételezte: óriási adósság…

A Nasdaq eléri az 5000-et, ugyanolyan túlértékelt, mint 2000-ben?

A Nasdaq tegnap elérte az 5000 pontot, ezt a szintet szintén 15 évvel ezelőtt, a dot-com buborék magaslatán érte el 2000 márciusában. Olyan túlértékelt ez az index, mint akkor? A piacok ma túlértékeltek, mint más bullish időszakokban, köszönhetően a pénz beáramlásának…