A statisztikai minta az adatok egy csoportja, amely az adatok sokaságához tartozik. Statisztikai szempontból bizonyos számú megfigyelésből kell állnia, amelyek megfelelően reprezentálják az összes adatot.
A statisztika, mint a matematika egyik ága, felelős az adatok gyűjtéséért, megrendeléséért és elemzéséért. Más szavakkal, amikor egy bizonyos jelenséget akarunk tanulmányozni, akkor a statisztikához fordulunk. A statisztikák által vizsgált jelenségre jó példa az ország polgárainak átlagfizetése
Ebben az értelemben idő és költség okokból nem tudjuk összegyűjteni az összes adatot. Ez az adatok összessége az úgynevezett adatpopuláció vagy egyszerűen populáció.
Miért dolgozik statisztikai mintákkal?
Annak megmagyarázására, hogy miért használnak statisztikai mintát a teljes népesség helyett, a fentebb felhozott példához fogunk folyamodni.
Tegyük fel, hogy bármilyen jelenséget meg akarunk vizsgálni. Esetünkben ez a jelenség egy ország polgárainak átlagfizetése. Az adatpopulációt az ország minden dolgozója alkotja. Természetesen idő és költség okokból lehetetlen lenne megkérdezni az egyes munkavállalókat, hogy mi az éves fizetésük. Hosszú időbe telne, különben sok erőforrásra lenne szükségünk.
Ekkor megjelenik a statisztikai minta fogalma. Ahelyett, hogy megkérdeznénk egy ország vagy régió dolgozóinak millióit, csak kis mennyiségű adatot gyűjtünk. Például 100 000 embert kérdeztünk. Ez a feladat még mindig bonyolult, de sokkal megfizethetőbb 100 000 embert megkérdezni, mint 30 milliót.
Ennek a kis adatmennyiségnek reprezentatívnak kell lennie. Vagyis megfelelő módon kell képviselnie a lakosságot. Ha a megkérdezett 100 000 ember gazdag környékekre koncentrálódik, akkor nem reprezentatív adatokat kapunk. Az átlagfizetés sokkal magasabb lenne, mint amilyen valójában.
Reprezentatív statisztikai minta jellemzői
Ha jó kutatást szeretne végezni, a statisztikai minta minősége elengedhetetlen. Hiába végezzük a legösszetettebb statisztikai mutatókat a legfejlettebb modellekkel, ha a statisztikai minta elfogult. Vagyis, ha a minta nem reprezentatív.
Reprezentatív minta megszerzésekor vannak bizonyos szempontok, amelyeket a kutatónak előzetesen tudnia kell. E szempontok között szerepelnek a reprezentatív minta jellemzői. A reprezentatív minta jellemzői a következők:
- Elég nagy méret: Ha mintákkal dolgozunk, akkor általában olyan adatmennyiséggel dolgozunk, amely kevesebb, mint a népesség. Ahhoz azonban, hogy a statisztikai minta reprezentatív legyen, elég nagynak kell lennie ahhoz, hogy reprezentatívnak lehessen tekinteni. Például, ha a népességünk 10 millió adatból áll, és a 10-et választjuk, akkor nehéz számára reprezentatívnak lennie. Természetesen a nagyobb minta nem mindig reprezentatívabb.
- Véletlenszerűség: Az adatok statisztikai mintából történő kiválasztásának véletlenszerűnek kell lennie. Vagyis teljesen véletlenszerűnek kell lennie. Ha véletlenszerű végrehajtás helyett egy tervezett adatkiválasztási folyamatot hajtunk végre, elfogultságot vezetünk be az adatgyűjtésben. Ezért annak elkerülése érdekében, hogy a minta elfogult legyen, és ezért reprezentatív mintává váljon, véletlenszerű kiválasztást kell végeznünk.
Statisztikai következtetés
Miután megszereztük a reprezentatív mintát, akkor bizonyos mutatókra kell következtetni. Gyakran érdekel bennünket egy változó bizonyos mértékének ismerete. Az első példában a változó egy ország állampolgárainak fizetése lenne. Ebben az értelemben az a mutató, amelyet elemezni akarunk, egy ország polgárainak átlagfizetése.
Más szóval, van egy adatállományunk, amely Mexikóban az összes dolgozóból áll. Ebből a népességből kapunk egy változót, vagyis az éves fizetést. A megfelelő technikák felhasználásával reprezentatív mintát kapunk. És végül, ha van egy adatkészletünk, amellyel együtt tudunk dolgozni, statisztikai következtetési technikákat alkalmazunk az átlagfizetés kiszámításához.
Természetesen, ha megvan az adatkészlet, más intézkedésekre is következtethetnénk. Például a fizetés elosztása, a munkavállalók hány százaléka van egy adott fizetés alatt, vagy mekkora a bérszakadék.
Statisztikai minta
Tegyük fel, hogy tanulmányt akarunk végezni a kolumbiai családok átlagos kiadásairól január hónapban. Ehhez két lehetőségünk van:
- Adja meg az összes kolumbiai család bankszámláját
- Kérjen reprezentatív számú embert
Az első lehetőség több okból sem életképes. Először is, hogy a családok nem fogják feladni adataikat, másodszor pedig, hogy az adatokat nem nézhetjük meg családonként sem. Főleg azért, mert Kolumbia lakossága megközelíti az 50 milliót. Eközben a második a statisztikai minta összegyűjtésének lehetősége.
Amit a fent említett jellemzők alapján követünk el, az az lesz, hogy megkérdezünk 100 000 családot. Ez némileg bonyolult, de sokkal könnyebb, mint 50 millió kolumbiai megkérdezése. A különbség jelentős. Így a 100 000 családból álló minta alapján megpróbáljuk kiszámítani a családok átlagos januári kiadásait.
A kinyert adatok többé-kevésbé megbízhatóak lesznek a statisztikai vizsgálatok során figyelembe vett mérőszámok alapján. Természetesen az ilyen típusú mutatók fejlettebbek, ezért itt nem tárgyaljuk őket.