Vzorce stanovení koeficientu, výpočet, interpretace, příklady

2294
Egbert Haynes
Vzorce stanovení koeficientu, výpočet, interpretace, příklady

The koeficient stanovení je číslo mezi 0 a 1, které představuje zlomek bodů (X, Y), které sledují regresní linii přizpůsobení sady dat se dvěma proměnnými.

Je také známý jako dobrota fit a je označen Rdva. Pro jeho výpočet se vezme kvocient mezi rozptylem dat Ŷi odhadovaným regresním modelem a rozptylem dat Yi odpovídající každému Xi dat..

Rdva = S / Sy

Obrázek 1. Korelační koeficient pro čtyři datové páry. Zdroj: F. Zapata.

Pokud je 100% dat na řádku regresní funkce, pak bude koeficient stanovení 1.

Naopak, pokud pro soubor dat a určitou funkci úpravy je koeficient Rdva Ukázalo se, že se rovná 0,5, pak lze říci, že fit je 50% uspokojivý nebo dobrý. 

Podobně, když regresní model vrací hodnoty R.dva nižší než 0,5, znamená to, že zvolená funkce nastavení se nepřizpůsobuje uspokojivě datům, proto je nutné hledat jinou funkci nastavení.

A když kovariance nebo korelační koeficient má tendenci k nule, pak proměnné X a Y v datech nesouvisí, a proto Rdva bude mít také tendenci k nule.

Rejstřík článků

  • 1 Jak vypočítat koeficient stanovení?
    • 1.1 Ilustrativní případ
  • 2 Výklad
  • 3 příklady
    • 3.1 - Příklad 1
    • 3.2 - Příklad 2
    • 3.3 - Příklad 3
    • 3.4 Porovnání fit
    • 3.5 Závěry
  • 4 Odkazy

Jak vypočítat koeficient stanovení?

V předchozí části bylo řečeno, že koeficient stanovení se vypočítá nalezením kvocientu mezi odchylkami:

-Odhadováno regresní funkcí proměnné Y 

-Proměnná Yi odpovídající každé z proměnných Xi N datových párů. 

Vyjádřeno matematicky, vypadá to takto:

Rdva = S / Sy

Z tohoto vzorce vyplývá, že Rdva představuje podíl rozptylu vysvětlený regresním modelem. Alternativně lze vypočítat R.dva pomocí následujícího vzorce, zcela ekvivalentního předchozímu:

Rdva = 1 - (Sε / Sy)

Kde Sε představuje rozptyl reziduí εi = Ŷi - Yi, zatímco Sy je rozptyl sady hodnot Yi dat. K určení Ŷi se použije regresní funkce, což znamená potvrdit, že Ŷi = f (Xi).

Rozptyl datové sady Yi s i od 1 do N se vypočítá takto:

Sy = [Σ (Yi - )dva ) / (N-1)]

A pak postupujte podobným způsobem pro Sŷ nebo pro Sε.

Ilustrativní případ

Za účelem zobrazení podrobností o tom, jak je výpočet koeficient stanovení vezmeme následující sadu čtyř párů dat: 

(X, Y): (1, 1); (2.3); (3, 6) a (4, 7).

Pro tento soubor dat je navrženo lineární regrese, které se získá metodou nejmenších čtverců:

f (x) = 2,1 x - 1 

Použitím této funkce nastavení se získají momenty:

(X, Ŷ): (1, 1,1); (2, 3,2); (3, 5,3) a (4, 7,4).

Poté vypočítáme aritmetický průměr pro X a Y:

= (1 + 2 + 3 + 4) / 4 = 2,5

= (1 + 3 + 6 + 7) / 4 = 4,25

Variance Sy

Sy = [(1 - 4,25)dva + (3 - 4,25)dva + (6 - 4,25)dva +….…. (7 - 4,25)dva] / (4-1) =

= [(-3,25)dva+ (-1,25)dva + (1,75)dva + (2,75)dva) / (3)] = 7583

Variance Sŷ

Sŷ = [(1,1 - 4,25)dva + (3,2 - 4,25)dva + (5,3 - 4,25)dva +….…. (7,4 - 4,25)dva] / (4-1) =

= [(-3,25)dva + (-1,25)dva + (1,75)dva + (2,75)dva) / (3)] = 7,35

Koeficient stanovení Rdva

Rdva = S / Sy = 7,35 / 7,58 = 0,97

Výklad

Koeficient stanovení pro ilustrativní případ uvažovaný v předchozím segmentu se ukázal být 0,98. Jinými slovy, lineární nastavení pomocí funkce:

 f (x) = 2,1x - 1

Je 98% spolehlivé při vysvětlování dat, s nimiž bylo získáno pomocí metody nejmenších čtverců.. 

Kromě koeficientu determinace existuje lineární korelační koeficient nebo také známý jako Pearsonův koeficient. Tento koeficient označený jako r, se vypočítá z následujícího vztahu:

r = Sxy / (Sx Sy)

Zde čitatel představuje kovarianci mezi proměnnými X a Y, zatímco jmenovatel je součinem směrodatné odchylky pro proměnnou X a směrodatné odchylky pro proměnnou Y.

Pearsonův koeficient může nabývat hodnot mezi -1 a +1. Když má tento koeficient sklon +1, existuje přímá lineární korelace mezi X a Y. Pokud má místo toho sklon -1, existuje lineární korelace, ale když X stoupá, Y klesá. Nakonec je blízko 0, neexistuje žádná korelace mezi těmito dvěma proměnnými.

Je třeba poznamenat, že koeficient stanovení se shoduje s druhou mocninou Pearsonova koeficientu, pouze když byl první vypočítán na základě lineárního uložení, ale tato rovnost není platná pro ostatní nelineární tvarovky..

Příklady

- Příklad 1

Skupina studentů středních škol se rozhodla stanovit empirický zákon na dobu kyvadla v závislosti na jeho délce. K dosažení tohoto cíle provádějí řadu měření, při nichž měří čas kmitání kyvadla pro různé délky a získávají následující hodnoty:

Délka (m) Období
0,1 0,6
0,4 1.31
0,7 1,78
1 1,93
1.3 2.19
1.6 2.66
1.9 2.77
3 3.62

Je požadováno provést bodový graf dat a provést lineární přizpůsobení pomocí regrese. Ukažte také regresní rovnici a její koeficient stanovení.

Řešení

Obrázek 2. Graf řešení cvičení 1. Zdroj: F. Zapata.

Lze pozorovat poměrně vysoký koeficient stanovení (95%), takže lze předpokládat, že lineární uložení je optimální. Pokud se však na body díváme společně, ukazuje se, že mají tendenci se zakřivovat směrem dolů. Tento detail není uvažován v lineárním modelu.

- Příklad 2

Pro stejná data v příkladu 1 vytvořte bodový graf dat. Při této příležitosti je na rozdíl od příkladu 1 požadována regresní úprava pomocí potenciální funkce.

Obrázek 3. Graf řešení pro cvičení 2. Zdroj: F. Zapata.

Uveďte také fitovací funkci a její koeficient stanovení Rdva.

Řešení

Potenciální funkce má tvar f (x) = AxB, kde A a B jsou konstanty, které jsou určeny metodou nejmenších čtverců.

Předchozí obrázek ukazuje potenciální funkci a její parametry, jakož i koeficient stanovení s velmi vysokou hodnotou 99%. Všimněte si, že data sledují zakřivení trendové čáry.

- Příklad 3

Pomocí stejných dat z příkladu 1 a příkladu 2 proveďte polynomiální přizpůsobení druhého stupně. Zobrazit graf, polynom fit a koeficient determinace Rdva korespondent.

Řešení

Obrázek 4. Graf řešení cvičení 3. Zdroj: F. Zapata.

S polynomickým přizpůsobením druhého stupně můžete vidět trendovou čáru, která dobře zapadá do zakřivení dat. Koeficient determinace je také nad lineárním uložením a pod potenciálním uložením..

Přizpůsobit srovnání

Ze tří ukázaných fitů je potenciálním fitem ten s nejvyšším koeficientem determinace (příklad 2).

Potenciální fit se shoduje s fyzikální teorií kyvadla, která, jak je známo, stanoví, že doba kyvadla je úměrná druhé odmocnině jeho délky, konstanta proporcionality je 2π / √g, kde g je zrychlení gravitace.

Tento typ přizpůsobení potenciálu má nejen nejvyšší koeficient determinace, ale exponent a konstanta proporcionality odpovídají fyzickému modelu.. 

Závěry

-Regresní přizpůsobení určuje parametry funkce, která má vysvětlit data pomocí metody nejmenších čtverců. Tato metoda spočívá v minimalizaci součtu čtvercového rozdílu mezi hodnotou Y úpravy a hodnotou Yi dat pro hodnoty Xi dat. To určuje parametry funkce nastavení.

-Jak jsme viděli, nejběžnější funkcí úpravy je přímka, ale není to jediná, protože úpravy mohou být také polynomické, potenciální, exponenciální, logaritmické a další.. 

-V každém případě závisí koeficient determinace na datech a typu lícování a je údajem o dobré povaze aplikovaného lícování..

-Nakonec koeficient stanovení udává procento celkové variability mezi hodnotou Y dat vzhledem k hodnotě of fit pro dané X.

Reference

  1. González C. Obecné statistiky. Obnoveno z: tarwi.lamolina.edu.pe
  2. IACS. Aragonský ústav zdravotnických věd. Obnoveno z: ics-aragon.com
  3. Salazar C. a Castillo S. Základní principy statistiky. (2018). Obnoveno z: dspace.uce.edu.ec
  4. Superprof. Koeficient stanovení. Obnoveno z: superprof.es
  5. USAC. Popisná statistická příručka. (2011). Obnoveno z: statistics.ingenieria.usac.edu.gt.
  6. Wikipedia. Koeficient stanovení. Obnoveno z: es.wikipedia.com.

Zatím žádné komentáře