Outlier - Mi ez, definíció és fogalom

A kiugró érték egy statisztikai minta vagy adatsor rendellenes és extrém megfigyelése, amely potenciálisan befolyásolhatja annak paramétereinek becslését.

Egyszerűbben fogalmazva: a kiugró érték egy mintán belüli megfigyelés vagy egy adatsor, amely nem áll összhangban a többivel. Képzelje el például, hogy egy osztályban mérjük a tanulók magasságát.

Képzeljünk el egy 10 fős mintát. Mindegyik magassága a következő:

1. minta
DiákMagasság méterben
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Az osztály átlagos magassága 1,73 lenne. Ha figyelembe vesszük a maximális magasságot (1,85) és a minimális magasságot (1,62), valamint a köztük lévő távolságot az átlagig, akkor azt látjuk, hogy ez 0,113, illetve 0,117. Mint láthatjuk, az átlag körülbelül az intervallum közepén van, és meglehetősen jó becslésnek tekinthető.

A kiugró hatás

Gondoljunk egy másik, 10 diákból álló mintára, amelyek magassága a következő:

1. minta
DiákMagasság méterben
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

Ebben az esetben az osztály átlagos magassága 1,81 lenne. Ha most megnézzük a maximális magasságot (2,20) és a minimális magasságot (1,62), valamint a köztük lévő távolságot az átlagig, akkor azt látjuk, hogy 0,39, illetve 0,18. Ebben az esetben az átlag már nincs megközelítőleg a tartomány közepén.

A 2 legszélsőségesebb megfigyelés (2.18. És 2.20.) Hatására a számtani átlag eltolódott az eloszlás maximális értéke felé.

Ezzel a példával azt látjuk, hogy a kiugró értékek milyen hatással vannak és hogyan torzíthatják az átlag kiszámítását.

Hogyan lehet felismerni a kiugró értékeket?

Hogyan lehet kijavítani a kiugró értékek hatását

Ilyen helyzetekben, amikor vannak olyan abnormális értékek, amelyek lényegesen eltérnek a többitől, a medián jobb becslés ahhoz, hogy tudjuk, melyik pontban koncentrálódik nagyobb számú megfigyelés.

Mindkét eloszlás esetén, és mivel páros számú értékünk van, a medián kiszámításához nem vehetjük pontosan azt az értéket, amely az eloszlást felezi. Amellyel az értékeket a legalacsonyabbtól a legmagasabbig sorrendbe véve elvégeznénk az ötödik és a hatodik megfigyelést (mindkettő 4 megfigyelést hagyna mindkét oldalon), és az alábbiak szerint számolnánk a mediánt:

1. minta:

1,75+1,72/2 = 1,73

2. minta:

1,79+1,71/2 = 1,75

Mint láthatjuk, az 1. számú mintában, tekintettel arra, hogy nincsenek kiugrások vagy rendellenes megfigyelések, a medián 1,73, és egybeesik az átlaggal. Épp ellenkezőleg, a 2. minta esetében az átlag 1,75. Mint láthatjuk, ez az érték távolabb van az átlagmagasságtól, amely 1,81 volt, és magasabb minőségi pontbecslést ad számunkra, hogy hozzávetőlegesen tudjuk, melyik pontban koncentrálódik nagyobb számú megfigyelés.

Pontbecslés

Népszerű Bejegyzések

Németország GDP-je 0,1% -kal csökken

A német gazdaság ismét a hurrikán szemében van, és bruttó hazai terméke (GDP) 0,1% -kal esik le. Németország ismét szenved. Az első negyedév után, amelyben 0,4% -kal nőtt, a német gazdaság ismét visszaesett. A német mozdony, amely egészen a legutóbbi időkig a rugalmasság példája volt…

Thomas Cook 178 évvel később csődbe megy

Úgy tűnik, 600 000 ügyfél a parton és a fizetések felfüggesztése egy olyan nagy turisztikai vállalat szomorú vége, mint Thomas Cook. Egy 178 éves hagyománnyal rendelkező cég bukása azonban megjósolt tragédia volt. Számos olyan tünet volt, amely Thomas Cook bukását feltételezte: óriási adósság…

A Nasdaq eléri az 5000-et, ugyanolyan túlértékelt, mint 2000-ben?

A Nasdaq tegnap elérte az 5000 pontot, ezt a szintet szintén 15 évvel ezelőtt, a dot-com buborék magaslatán érte el 2000 márciusában. Olyan túlértékelt ez az index, mint akkor? A piacok ma túlértékeltek, mint más bullish időszakokban, köszönhetően a pénz beáramlásának…