A Kolmogorov-Smirnoff (K-S) teszt egy nem paraméteres teszt, amelynek célja annak meghatározása, hogy két különböző adatsor gyakorisága ugyanazt az eloszlást követi-e az átlaguk körül.
Más szavakkal, a Kolmogorov-Smirnoff (K-S) teszt olyan teszt, amely alkalmazkodik az adatok alakjához, és annak ellenőrzésére szolgál, hogy két különböző minta követi-e ugyanazt az eloszlást.
Miért nem paraméteres teszt?
A „nem parametrikus” jellegzetesség szépsége, hogy illeszkedik az adatokhoz, következésképpen az eloszlásokhoz, amelyek követni tudják az adatok gyakoriságát. Ez a funkció ráadásul megment minket attól, hogy vállalnunk kell eleve milyen eloszlást követ a minta.
A K-S teszt fontossága
Hányszor kaptunk két mintát, és kétszeres gondolkodás nélkül kiszámítottuk Pearson korrelációs együtthatóját? Más szóval, ha két adatsor lineáris kapcsolatát akarjuk látni, akkor korrekt lenne kiszámítani a korrelációt, nem?
Ez a levonás igaz lenne, ha a két minta eloszlása normális eloszlást követne. A korrelációs együttható azt feltételezi, hogy az eloszlások normálisak, ha ezt a feltételezést kihagyjuk, akkor a korrelációs együttható eredménye téves. A hipotézis tesztekhez és a konfidencia intervallumokhoz azt is feltételezzük, hogy a populáció normális eloszláson keresztül oszlik meg.
Mint minden statisztikát magában foglaló hipotézis teszt, a statisztikailag szignifikáns eredmények elérése érdekében fontos, hogy nagy mennyiségű adat álljon rendelkezésre. Tévesen elutasíthatunk egy nullhipotézist, mert a minta kicsi. Továbbá az is fontos, hogy ennek a mintának vannak extrém esetei (kiugró értékek, angolul), hogy következetes legyen a teszt eredménye.
Vizsgálati eljárás
A következő lépések eljárása.
Hipotézis
Az első lépés annak ellenőrzése, hogy mindkét minta azonos eloszlással rendelkezik-e. Ehhez hipotézis tesztet hajtunk végre, feltételezve, hogy mindkét minta azonos eloszlású az alternatív hipotézissel szemben, hogy különböznek egymástól.
Statisztikai
Két minta, F kumulatív eloszlásfüggvényeivel dolgozunk1(x) és F2(x):
Ne essen pánikba! A fenti képletet nyugodtan elemezzük:
- A képlet fontos része a különbség jel (-). Vertikális különbségeket keresünk az eloszlásokban. Tehát kivonjuk mindkét kumulatív eloszlásfüggvényt.
- A operátor "max". Arra vagyunk kíváncsiak, hogy megtaláljuk-e a legnagyobb vagy legnagyobb különbséget, hogy lássuk, mennyire különbözhet a két eloszlás.
- A abszolút érték. Az abszolút értéket használjuk, hogy az operátorok sorrendje ne változtassa meg az eredményt. Más szavakkal, nem számít, melyik F (x) negatív előjellel rendelkezik:
Kritikus érték
Nagy minták esetén a K-S kritikus értékéhez közelítés van, amely a szignifikancia szintjétől (%) függ:
Hol1 és n2 az F minta mintamérete1(x) és F2(x).
Néhány számított kritikus érték:
Elutasítási szabály
App
Nagyon gyakran azt akarjuk tesztelni, hogy két eloszlás kellően különbözik-e egymástól, amikor jóslási forgatókönyveket akarunk felépíteni (két mintával dolgozunk), vagy amikor azt akarjuk értékelni, hogy melyik eloszlás felel meg a legjobban az adatoknak (csak egy mintával dolgozunk).