A kiugró értékek normál eloszlás útján történő felismerése olyan folyamat, amely magában foglalja a szórásküszöb meghatározását, és amelynek segítségével a minta szélső értékeit kívánják megtalálni.
Más szavakkal, a kiugró értékek normál eloszlás útján történő felderítése annyit jelent, hogy az adatkészlet szélső értékeit a standardizált normál képleten keresztül kell megtalálni.
- Az értékek szélsőségek hívják kiugró értékek angolul.
- Az értékek belső hívják bennfentesek angolul.
A kiugró értékek vizuális észlelése lehetőség lehet, ha nagyon kevés adat áll rendelkezésre. Az adatbázisokkal való munkavégzés során nagyon nem praktikus, ha manuálisan kell megtalálni a kiugró értékeket. A probléma megoldásához kiszámíthatjuk, hogy mely értékek tekinthetők szélsőségesnek, összehasonlítva az eltérések küszöbével.
A normál eloszlás esetében az érték akkor tekinthető szélsőségesnek, ha 3 szórástól eltér az átlagtól. Mivel a normál eloszlásnak 2 farka van, figyelembe kell vennünk, hogy mind a negatív, mind a pozitív oldalon kicsinyíthető.
Képlet a kiugró értékek detektálására a normál eloszlás segítségével
Megfigyelési halmaz kifejezhető az előző módon, ahol x az az átlagérték, amely felett az értékek oszcillálnak, és az értékek oszcillációjának diszperzióját jelöli. Más szavakkal, a sigma a megfigyelések távolsága az átlagértéktől.
A multiplikatív tényező határozza meg, hogy outlier vagy bennfentes. Ha z értéke 3 vagy -3, akkor a normális eloszlás szerint az y megfigyelés kiugró érték lesz.
Az értékének megismerése z az előző egyenletet használjuk:
- Ha z> = 3 vagy z = <-3, akkor a normális eloszlás szerint ezt mondhatjuk Y extrém érték vagy kiugró érték.
- Ha z <3 vagy z <-3, akkor a normális eloszlás szerint ezt mondhatjuk Y belső érték vagy bennfentes.
Normál szabvány
Ismerős a fenti egyenlet?
Pontosan ez egy megfigyelés kifejezése, amely normál eloszlást követ, miután standardizált vagy tipizált. Ezt azért hívják így, mert ha elosztjuk a szórással vagy a szórással, akkor a számláló különbségét eltérésekben fejezzük ki.
Emiatt a deviációs értékeket társíthatjuk a z és így 3 eltérés küszöbével megvásárolható legyen.
Példa
Keresse meg a következő megfigyelések szélsőértékeit a normál eloszlás szerint:
A megfigyeléseket grafikonon ábrázoljuk:
A kezdetektől fogva már láthatjuk, hogy a többitől legtávolabb eső érték nagy valószínűséggel szélsőségesebb lehet.
Először kiszámoljuk az átlagot és a szórást:
x = átlag = 5,8
sigma = szórás = 10,51
Ezután behelyettesítjük az értékeket a képletbe, és kiszámoljuk a z minden megfigyeléshez:
A fenti értékek a szigma multiplikatív tényezői, vagyis z. Bármi, ami nagyobb, mint 3 vagy kevesebb, mint -3, extrém érték lesz.
Láthatjuk, hogy az értéke z amely meghaladja a 3 szórást, megfelel a 49. megfigyelésnek.
Ezért az adatkészlet szélső vagy kiugró értéke 49 lenne.