Meghatározási együttható (R négyzet)

Tartalomjegyzék:

Meghatározási együttható (R négyzet)
Meghatározási együttható (R négyzet)
Anonim

A determinációs együttható a változó teljes varianciájának a regresszióval magyarázott hányada. A determinációs együttható, más néven R négyzet, tükrözi a modell illesztésének jóságát a változóhoz, amelyet meg akar magyarázni.

Fontos tudni, hogy a determinációs együttható eredménye 0 és 1 között ingadozik. Minél közelebb van az értéke 1-hez, annál nagyobb a modell illeszkedése a változóhoz, amelyet meg akarunk magyarázni. Ezzel szemben minél közelebb van a nullához, annál kevésbé szoros lesz a modell, és ezért kevésbé megbízható.

Az előző kifejezésben van egy törtünk. Tehát, menjünk részenként. Először elemezzük a számlálót, vagyis a felső részt.

Azok számára, akik nem ismerik a variancia kifejezését, ajánlom, hogy olvassa el a róla szóló cikket. Azok számára, akik tudják, rájöhetnek, hogy ez a variancia kifejeződése, de két alapvető különbséggel.

Az első különbség az, hogy az Y-nek van egy kerülete, vagy amit a tanárok didaktikusan „kalapnak” neveznek. Amit a kalap részletez, az az, hogy Y annak a modellnek a becslése, hogy a magyarázó változók szerint mit ér Y, de ez nem Y valós értéke, hanem Y becslése.

Másodszor, szükséges lenne osztani T-vel. Ezt más esetekben N-ként vagy megfigyelések számaként jelöljük meg. Mivel azonban a nevező képlet is hordozná, a kifejezés leegyszerűsítése érdekében mindkét képletről eltávolítjuk a nevezőket (alul). Így könnyebb vele dolgozni.

Ezután ugyanazt az elemzést fogjuk elvégezni a nevező részével (alsó rész).

Ebben az esetben az eredeti varianciaképlettel szemben csak az a különbség, hogy nincs nevezője. Vagyis nem osztunk T-vel vagy N-vel. Ilyen módon, miután megmagyaráztuk az R négyzet vagy determinációs együttható általános kifejezésének két részét, példát fogunk látni.

Variációs együtthatóLineáris korrelációs együtthatóRegresszió analízis

A determinációs együttható értelmezése

Tegyük fel, hogy meg akarjuk magyarázni a Cristiano Ronaldo góljainak számát az általa játszott játékok száma alapján. Feltételezzük, hogy minél több meccset játszanak, annál több gólt szerez. Az adatok az elmúlt 8 évadra vonatkoznak. Így az adatok kinyerése után a modell a következő becslést adja:

Mint a grafikonból láthatjuk, a kapcsolat pozitív. Természetesen minél több meccset játszott, annál több gólt szerzett a szezonban. Az illesztés az R négyzet számítása alapján 0,835. Ez azt jelenti, hogy ez egy olyan modell, amelynek becslései elég jól illeszkednek a valós változóhoz. Bár technikailag nem lenne helyes, mondhatnánk olyasmit, hogy a modell a valós változó 83,5% -át magyarázza.

Meghatározási együttható probléma

A determinációs együttható problémája és az oka annak, hogy a korrigált determinációs együttható felmerül, az, hogy nem bünteti a nem szignifikáns magyarázó változók felvételét. Vagyis ha öt magyarázó változót adunk a modellhez, amelyek kevéssé kapcsolódnak azokhoz a célokhoz, amelyeket Cristiano Ronaldo egy szezonban elért, akkor az R négyzet növekszik. Ezért sok ökonometriai, statisztikai és matematikai szakértő ellenzi az R négyzet használatát, mint a valós illeszkedés jóságának reprezentatív mércéjét.

A kiigazított meghatározási együttható

A korrigált determinációs együttható (korrigált R négyzet) az a mérték, amely meghatározza a regresszió varianciájával magyarázott százalékos arányt a magyarázott változó varianciájához viszonyítva. Vagyis ugyanaz, mint az R négyzet, de különbséggel: A módosított determinációs együttható bünteti a változók felvételét.

Mint már korábban említettük, a modell meghatározási együtthatója akkor is növekszik, ha az általunk felvett változók nem relevánsak. Mivel ez egy probléma, megpróbáljuk megoldani, a korrigált R négyzet olyan, hogy:

A képletben N a minta nagysága, k pedig a magyarázó változók száma. Matematikai dedukcióval, minél magasabb a k értéke, annál tovább lesz a korrigált R négyzet a normál R négyzetből. Ezzel szemben alacsonyabb k értékeknél a centrális frakció közelebb lesz 1-hez, ezért a korrigált R négyzet és a normál R négyzet hasonlóbb lesz.

Emlékeztetve arra, hogy k a magyarázó változók száma, arra következtetünk, hogy ez nem lehet nulla. Ha nulla lenne, akkor nem lenne modell. Legalább az egyik változót egy másik változóval kell megmagyaráznunk. Mivel k-nak legalább 1-nek kell lennie, a beállított R-négyzet és a normál R-négyzet értéke nem lehet azonos. Ezenkívül a beállított R négyzet mindig kisebb lesz, mint a normál R négyzet.