Homoscedasticita, co to je, význam a příklady

957
Simon Doyle

The homoscedasticity v prediktivním statistickém modelu dochází, pokud ve všech datových skupinách jednoho nebo více pozorování zůstane rozptyl modelu s ohledem na vysvětlující (nebo nezávislé) proměnné konstantní.

Regresní model může být homoscedastický nebo ne, v takovém případě mluvíme o heteroscedasticita.

Obrázek 1. Pět datových sad a regresní přizpůsobení sady. Rozptyl vzhledem k předpokládané hodnotě je v každé skupině stejný. (upav-biblioteca.org)

Statistický regresní model několika nezávislých proměnných se nazývá homoscedastický, pouze pokud rozptyl chyby předpovězené proměnné (nebo směrodatná odchylka závislé proměnné) zůstává jednotný pro různé skupiny hodnot vysvětlujících nebo nezávislých proměnných.

V pěti datových skupinách na obrázku 1 byla vypočtena odchylka v každé skupině s ohledem na hodnotu odhadnutou regresí, což mělo za následek stejné v každé skupině. Dále se předpokládá, že data sledují normální rozdělení.

Na grafické úrovni to znamená, že body jsou stejně rozptýleny nebo rozptýleny kolem hodnoty předpovězené regresním přizpůsobením a že regresní model má stejnou chybu a platnost pro rozsah vysvětlující proměnné..

Rejstřík článků

  • 1 Důležitost homoscedasticity
    • 1.1 Homoscedasticita versus heteroscedasticita
    • 1.2 Zkoušky homoscedasticity
    • 1.3 Standardizované proměnné
    • 1.4 Non-grafické testy homoscedasticity
  • 2 Odkazy

Důležitost homoscedasticity

Pro ilustraci významu homoscedasticity v prediktivních statistikách je nutné kontrastovat s opačným jevem, heteroscedasticitou.

Homoscedasticita versus heteroscedasticita

V případě obrázku 1, na kterém je homoscedasticita, platí, že:

Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ ... Var ((y4-Y4); X4)

Kde Var ((yi-Yi); Xi) představuje rozptyl, dvojice (xi, yi) představuje data ze skupiny i, zatímco Yi je hodnota predikovaná regresí pro střední hodnotu Xi skupiny. Rozptyl dat n ze skupiny i se vypočítá takto:

Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n

Naopak, když dojde k heteroscedasticitě, nemusí být regresní model platný pro celou oblast, ve které byl vypočítán. Obrázek 2 ukazuje příklad této situace.

Obrázek 2. Skupina dat vykazujících heteroscedasticitu. (Vlastní zpracování)

Obrázek 2 představuje tři skupiny dat a přizpůsobení sady pomocí lineární regrese. Je třeba poznamenat, že údaje ve druhé a třetí skupině jsou rozptýlenější než v první skupině. Graf na obrázku 2 také ukazuje střední hodnotu každé skupiny a její chybovou lištu ± σ, se směrodatnou odchylkou σ každé skupiny dat. Je třeba si uvědomit, že směrodatná odchylka σ je druhá odmocnina rozptylu.

Je zřejmé, že v případě heteroscedasticity se chyba odhadu regrese mění v rozsahu hodnot vysvětlující nebo nezávislé proměnné a v intervalech, kde je tato chyba velmi velká, je predikce regrese nespolehlivá nebo nepoužitelná.

V regresním modelu musí být chyby nebo zbytky (a -Y) distribuovány se stejnou odchylkou (σ ^ 2) v celém intervalu hodnot nezávislé proměnné. Z tohoto důvodu musí dobrý regresní model (lineární nebo nelineární) projít testem homoscedasticity.. 

Testy homoscedasticity

Body zobrazené na obrázku 3 odpovídají údajům studie, která hledá vztah mezi cenami (v dolarech) domů jako funkce velikosti nebo plochy v metrech čtverečních.

Prvním testovaným modelem je lineární regrese. Za prvé je třeba poznamenat, že koeficient determinace R ^ 2 shody je poměrně vysoký (91%), takže lze předpokládat, že shoda je uspokojivá..

Z grafu úprav však lze jasně odlišit dvě oblasti. Jeden z nich, ten vpravo uzavřený v oválu, splňuje homoscedasticitu, zatímco region vlevo nemá homoscedasticitu.

To znamená, že predikce regresního modelu je adekvátní a spolehlivá v rozsahu mezi 1 800 m 2 až 4 800 m 2, ale mimo tuto oblast je velmi nedostatečná. V heteroscedastické zóně je chyba nejen velmi velká, ale také se zdá, že data sledují jiný trend, než jaký navrhuje lineární regresní model..

Obrázek 3. Ceny bydlení vs. plocha a prediktivní model lineární regrese, ukazující zóny homoscedasticity a heteroscedasticity. (Vlastní zpracování)

Bodový graf dat je nejjednodušším a nejviditelnějším testem jejich homoscedasticity, avšak v případech, kdy to není tak zřejmé jako v příkladu na obrázku 3, je nutné uchýlit se ke grafům s pomocnými proměnnými..

Standardizované proměnné

Za účelem oddělení oblastí, kde je homoscedasticita splněna a kde není, jsou zavedeny standardizované proměnné ZRes a ZPred:

ZRes = Abs (y - Y) / σ

ZPred = Y / σ

Je třeba poznamenat, že tyto proměnné závisí na použitém regresním modelu, protože Y je hodnota predikce regrese. Níže je bodový graf ZRes vs ZPred pro stejný příklad:

Obrázek 4. Je třeba poznamenat, že v zóně homoscedasticity zůstává ZRes v oblasti predikce jednotný a malý (vlastní zpracování).

V grafu na obrázku 4 se standardizovanými proměnnými je oblast, kde je zbytková chyba malá a uniformní, jasně oddělena od oblasti, kde není. V první zóně je splněna homoscedasticita, zatímco v oblasti, kde je zbytková chyba vysoce variabilní a velká, je splněna heteroscedasticita..

Regresní úprava se použije na stejnou skupinu dat na obrázku 3, v tomto případě je úprava nelineární, protože použitý model zahrnuje potenciální funkci. Výsledek ukazuje následující obrázek:

Obrázek 5. Nové zóny homoscedasticity a heteroscedasticity v datech zapadají do nelineárního regresního modelu. (Vlastní zpracování).

V grafu na obrázku 5 by měly být jasně zaznamenány homoscedastické a heteroscedastické zóny. Je třeba také poznamenat, že tyto zóny byly zaměněny s ohledem na ty, které byly vytvořeny v modelu lineárního uložení.

V grafu na obrázku 5 je zřejmé, že i když existuje poměrně vysoký koeficient stanovení shody (93,5%), model není adekvátní pro celý interval vysvětlující proměnné, protože údaje pro hodnoty větší než 2000 m ^ 2 představuje heteroscedasticitu.

Non-grafické testy homoscedasticity

Jedním z nejgrafičtějších testů nejčastěji používaných k ověření, zda je homoscedasticita splněna či nikoli, je Breusch-Paganův test.

Ne všechny podrobnosti tohoto testu budou uvedeny v tomto článku, ale jeho základní charakteristiky a kroky jsou popsány širokými tahy:

  1. Na data n se použije regresní model a jejich rozptyl se vypočítá s ohledem na hodnotu odhadnutou modelem σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
  2. Je definována nová proměnná ε = ((yj - Y) ^ 2) / (σ ^ 2)
  3. Stejný regresní model se použije na novou proměnnou a vypočítají se její nové regresní parametry.
  4. Stanoví se kritická hodnota Chi na druhou (χ ^ 2), což je polovina součtu čtverců nových reziduí v proměnné ε.
  5. Chi čtvercová distribuční tabulka se používá s ohledem na úroveň významnosti (obvykle 5%) a počet stupňů volnosti (# regresních proměnných minus jednotka) na ose x tabulky, aby se získala hodnota desky.
  6. Kritická hodnota získaná v kroku 3 se porovná s hodnotou nalezenou v tabulce (χ ^ 2).
  7. Pokud je kritická hodnota pod hodnotou tabulky, máme nulovou hypotézu: existuje homoscedasticita
  8. Pokud je kritická hodnota nad hodnotou tabulky, máme alternativní hypotézu: neexistuje homoscedasticita.

Většina statistických softwarových balíků jako: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic a několik dalších zahrnuje test homoscedasticity Breusch-Pagan. Další test k ověření jednotnosti rozptylu Leveneův test.

Reference

  1. Box, lovec a lovec. (1988) Statistika pro výzkumné pracovníky. Obrácené editory.
  2. Johnston, J (1989). Ekonometrické metody, editor Vicens - Vives.
  3. Murillo a González (2000). Ekonometrická příručka. University of Las Palmas de Gran Canaria. Obnoveno z: ulpgc.es.
  4. Wikipedia. Homoscedasticita. Obnoveno z: es.wikipedia.com
  5. Wikipedia. Homoscedasticita. Obnoveno z: en.wikipedia.com

Zatím žádné komentáře