A kiugró értékek detektálása a normál eloszlás alapján

Tartalomjegyzék:

A kiugró értékek detektálása a normál eloszlás alapján
A kiugró értékek detektálása a normál eloszlás alapján
Anonim

A kiugró értékek normál eloszlás útján történő felismerése olyan folyamat, amely magában foglalja a szórásküszöb meghatározását, és amelynek segítségével a minta szélső értékeit kívánják megtalálni.

Más szavakkal, a kiugró értékek normál eloszlás útján történő felderítése annyit jelent, hogy az adatkészlet szélső értékeit a standardizált normál képleten keresztül kell megtalálni.

  • Az értékek szélsőségek hívják kiugró értékek angolul.
  • Az értékek belső hívják bennfentesek angolul.

A kiugró értékek vizuális észlelése lehetőség lehet, ha nagyon kevés adat áll rendelkezésre. Az adatbázisokkal való munkavégzés során nagyon nem praktikus, ha manuálisan kell megtalálni a kiugró értékeket. A probléma megoldásához kiszámíthatjuk, hogy mely értékek tekinthetők szélsőségesnek, összehasonlítva az eltérések küszöbével.

A normál eloszlás esetében az érték akkor tekinthető szélsőségesnek, ha 3 szórástól eltér az átlagtól. Mivel a normál eloszlásnak 2 farka van, figyelembe kell vennünk, hogy mind a negatív, mind a pozitív oldalon kicsinyíthető.

Képlet a kiugró értékek detektálására a normál eloszlás segítségével

Megfigyelési halmaz kifejezhető az előző módon, ahol x az az átlagérték, amely felett az értékek oszcillálnak, és az értékek oszcillációjának diszperzióját jelöli. Más szavakkal, a sigma a megfigyelések távolsága az átlagértéktől.

A multiplikatív tényező határozza meg, hogy outlier vagy bennfentes. Ha z értéke 3 vagy -3, akkor a normális eloszlás szerint az y megfigyelés kiugró érték lesz.

Az értékének megismerése z az előző egyenletet használjuk:

  • Ha z> = 3 vagy z = <-3, akkor a normális eloszlás szerint ezt mondhatjuk Y extrém érték vagy kiugró érték.
  • Ha z <3 vagy z <-3, akkor a normális eloszlás szerint ezt mondhatjuk Y belső érték vagy bennfentes.

Normál szabvány

Ismerős a fenti egyenlet?

Pontosan ez egy megfigyelés kifejezése, amely normál eloszlást követ, miután standardizált vagy tipizált. Ezt azért hívják így, mert ha elosztjuk a szórással vagy a szórással, akkor a számláló különbségét eltérésekben fejezzük ki.

Emiatt a deviációs értékeket társíthatjuk a z és így 3 eltérés küszöbével megvásárolható legyen.

Példa

Keresse meg a következő megfigyelések szélsőértékeit a normál eloszlás szerint:

A megfigyeléseket grafikonon ábrázoljuk:

A kezdetektől fogva már láthatjuk, hogy a többitől legtávolabb eső érték nagy valószínűséggel szélsőségesebb lehet.

Először kiszámoljuk az átlagot és a szórást:

x = átlag = 5,8

sigma = szórás = 10,51

Ezután behelyettesítjük az értékeket a képletbe, és kiszámoljuk a z minden megfigyeléshez:

A fenti értékek a szigma multiplikatív tényezői, vagyis z. Bármi, ami nagyobb, mint 3 vagy kevesebb, mint -3, extrém érték lesz.

Láthatjuk, hogy az értéke z amely meghaladja a 3 szórást, megfelel a 49. megfigyelésnek.

Ezért az adatkészlet szélső vagy kiugró értéke 49 lenne.