Outlier - Mi ez, definíció és fogalom

Tartalomjegyzék:

Outlier - Mi ez, definíció és fogalom
Outlier - Mi ez, definíció és fogalom
Anonim

A kiugró érték egy statisztikai minta vagy adatsor rendellenes és extrém megfigyelése, amely potenciálisan befolyásolhatja annak paramétereinek becslését.

Egyszerűbben fogalmazva: a kiugró érték egy mintán belüli megfigyelés vagy egy adatsor, amely nem áll összhangban a többivel. Képzelje el például, hogy egy osztályban mérjük a tanulók magasságát.

Képzeljünk el egy 10 fős mintát. Mindegyik magassága a következő:

1. minta
DiákMagasság méterben
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Az osztály átlagos magassága 1,73 lenne. Ha figyelembe vesszük a maximális magasságot (1,85) és a minimális magasságot (1,62), valamint a köztük lévő távolságot az átlagig, akkor azt látjuk, hogy ez 0,113, illetve 0,117. Mint láthatjuk, az átlag körülbelül az intervallum közepén van, és meglehetősen jó becslésnek tekinthető.

A kiugró hatás

Gondoljunk egy másik, 10 diákból álló mintára, amelyek magassága a következő:

1. minta
DiákMagasság méterben
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

Ebben az esetben az osztály átlagos magassága 1,81 lenne. Ha most megnézzük a maximális magasságot (2,20) és a minimális magasságot (1,62), valamint a köztük lévő távolságot az átlagig, akkor azt látjuk, hogy 0,39, illetve 0,18. Ebben az esetben az átlag már nincs megközelítőleg a tartomány közepén.

A 2 legszélsőségesebb megfigyelés (2.18. És 2.20.) Hatására a számtani átlag eltolódott az eloszlás maximális értéke felé.

Ezzel a példával azt látjuk, hogy a kiugró értékek milyen hatással vannak és hogyan torzíthatják az átlag kiszámítását.

Hogyan lehet felismerni a kiugró értékeket?

Hogyan lehet kijavítani a kiugró értékek hatását

Ilyen helyzetekben, amikor vannak olyan abnormális értékek, amelyek lényegesen eltérnek a többitől, a medián jobb becslés ahhoz, hogy tudjuk, melyik pontban koncentrálódik nagyobb számú megfigyelés.

Mindkét eloszlás esetén, és mivel páros számú értékünk van, a medián kiszámításához nem vehetjük pontosan azt az értéket, amely az eloszlást felezi. Amellyel az értékeket a legalacsonyabbtól a legmagasabbig sorrendbe véve elvégeznénk az ötödik és a hatodik megfigyelést (mindkettő 4 megfigyelést hagyna mindkét oldalon), és az alábbiak szerint számolnánk a mediánt:

1. minta:

1,75+1,72/2 = 1,73

2. minta:

1,79+1,71/2 = 1,75

Mint láthatjuk, az 1. számú mintában, tekintettel arra, hogy nincsenek kiugrások vagy rendellenes megfigyelések, a medián 1,73, és egybeesik az átlaggal. Épp ellenkezőleg, a 2. minta esetében az átlag 1,75. Mint láthatjuk, ez az érték távolabb van az átlagmagasságtól, amely 1,81 volt, és magasabb minőségi pontbecslést ad számunkra, hogy hozzávetőlegesen tudjuk, melyik pontban koncentrálódik nagyobb számú megfigyelés.

Pontbecslés