Stupně volnosti, jak je vypočítat, typy, příklady

1690
Alexander Pearson

The stupně svobody ve statistikách je to počet nezávislých složek náhodného vektoru. Pokud má vektor n komponenty a tam jsou p lineární rovnice, které se vztahují k jejich složkám, pak stupeň svobody je n-p.

Koncept stupně svobody Také se objevuje v teoretické mechanice, kde zhruba odpovídá dimenzi prostoru, kde se částice pohybuje, minus počet vazeb..

Obrázek 1. Kyvadlo se pohybuje ve dvou dimenzích, ale má pouze jeden stupeň volnosti, protože je nuceno se pohybovat v oblouku o poloměru L. Zdroj: F. Zapata.

Tento článek pojednává o konceptu stupňů volnosti aplikovaných na statistiku, ale mechanický příklad je snadnější vizualizovat v geometrické formě.

Rejstřík článků

  • 1 Typy stupňů volnosti
    • 1.1 V mechanickém pouzdře
    • 1.2 V sadě náhodných hodnot
  • 2 Příklady
    • 2.1 Rozptyl a stupně volnosti
    • 2.2 V distribuci chí kvadrát
    • 2.3 Při testování hypotéz (s vypracovaným příkladem)
  • 3 Odkazy

Druhy stupňů volnosti

V závislosti na kontextu, ve kterém se používá, se způsob výpočtu počtu stupňů volnosti může lišit, ale základní myšlenka je vždy stejná: celkové rozměry minus počet omezení.

V mechanickém pouzdře

Uvažujme oscilační částici vázanou na strunu (kyvadlo), která se pohybuje ve svislé rovině x-y (2 rozměry). Částice je však nucena pohybovat se po obvodu poloměru rovnajícího se délce akordu.

Vzhledem k tomu, že se částice může pohybovat pouze na této křivce, počet stupně svobody je 1. To je vidět na obrázku 1.

Způsob výpočtu počtu stupňů volnosti spočívá v rozdílu počtu dimenzí minus počet omezení:

stupně volnosti: = 2 (rozměry) - 1 (ligatura) = 1

Další vysvětlení, které nám umožňuje dospět k výsledku, je následující:

-Víme, že poloha ve dvou dimenzích je reprezentována bodem souřadnic (x, y).

-Ale protože bod musí splňovat rovnici obvodu (xdva + Ydva = Ldva) pro danou hodnotu proměnné x je proměnná y určena uvedenou rovnicí nebo omezením.

Proto je pouze jedna z proměnných nezávislá a systém ji má jeden (1) stupeň volnosti.

V sadě náhodných hodnot

Pro ilustraci, co tento pojem znamená, předpokládejme vektor

X = (x1, Xdva,..., Xn)

Co představuje vzorek n normálně distribuované náhodné hodnoty. V tomto případě náhodný vektor X mít n nezávislé komponenty, a proto se říká, že X mít n stupňů volnosti.

Nyní vytvořme vektor r odpadu

r = (x1 - , Xdva - ,…., Xn - )

Kde představuje průměr vzorku, který se vypočítá takto:

= (x1 + Xdva +…. + Xn) / n

Takže součet

(X1 - ) + (xdva - ) +…. + (Xn - ) = (x.)1 + Xdva +…. + Xn) - n= 0

Je to rovnice, která představuje omezení (nebo vazbu) na prvky vektoru r zbytků, protože pokud je známo n-1 složek vektoru r, rovnice omezení určuje neznámou složku.

Proto vektor r dimenze n s omezením:

∑ (xi - ) = 0

Mít (n - 1) stupňů volnosti.

Opět platí, že výpočet počtu stupňů volnosti je:

stupně volnosti: = n (rozměry) - 1 (omezení) = n-1

Příklady

Rozptyl a stupně volnosti

Variance sdva je definován jako průměr druhé mocniny odchylek (nebo zbytků) vzorku n údajů:

sdva = (rr) / (n-1)

kde r je vektor zbytků r = (x1 - , x2 - ,…., Xn - ) a silný bod () je provozovatel skalárního produktu. Alternativně lze variantní vzorec napsat následovně:

sdva = ∑ (xi - )dva / (n-1)

V každém případě je třeba poznamenat, že při výpočtu střední hodnoty čtverce zbytků se dělí (n-1), nikoli n, protože jak je uvedeno v předchozí části, počet stupňů volnosti vektor r je (n-1).

Pokud pro výpočet rozptylu byly vyděleny n místo (n-1) by výsledek měl zkreslení, které je velmi významné pro hodnoty n pod 50 let.

V literatuře se varianční vzorec také objevuje s dělitelem n místo (n-1), pokud jde o rozptyl populace.

Ale množina náhodné proměnné zbytků, představovaná vektorem r, Ačkoli má rozměr n, má pouze (n-1) stupňů volnosti. Pokud je však počet dat dostatečně velký (n> 500), oba vzorce konvergují ke stejnému výsledku.

Kalkulačky a tabulky poskytují obě varianty rozptylu a směrodatnou odchylku (což je druhá odmocnina rozptylu).

Naše doporučení, s ohledem na zde prezentovanou analýzu, je vždy zvolit verzi s (n-1) pokaždé, když je nutné vypočítat odchylku nebo směrodatnou odchylku, aby se zabránilo zkresleným výsledkům..

V distribuci chí kvadrát

Některá rozdělení pravděpodobnosti v spojité náhodné proměnné závisí na volaném parametru stupeň svobody, je případ chí kvadrát distribuce (χdva).

Název tohoto parametru pochází přesně ze stupňů volnosti podkladového náhodného vektoru, na který se toto rozdělení vztahuje.

Předpokládejme, že máme g populací, ze kterých se odebírají vzorky o velikosti n:

X1 = (x11, x1dva,… X1n)

X2 = (x21, x2dva,… X2n)

... .

Xj = (xj1, xjdva,… Xjn)

... .

Xg = (xg1, xgdva,… Xgn)

Populace j co má průměr a směrodatná odchylka Sj, následuje normální rozdělení N (, Sj ).

Standardizovaná nebo normalizovaná proměnná zji je definován jako:

zji = (xji - ) / Sj.

A vektor Zj je definován takto:

Zj = (zj1, zjdva,..., zji,..., zjn) a sleduje standardizované normální rozdělení N (0,1).

Takže proměnná:

= ((z1^ 2 + z21^ 2 +…. + zg1^ 2),…., (Z1n^ 2 + z2n^ 2 +…. + zgn^ 2))

následujte rozdělení χdva(g) volal chi square distribuce se stupněm volnosti G.

V testu hypotézy (s příkladem vypracován)

Chcete-li testovat hypotézy založené na určité sadě náhodných dat, musíte znát počet stupňů volnosti g aby bylo možné aplikovat test chí kvadrát.

Obrázek 2. Existuje vztah mezi preferencí zmrzliny FLAVOR a POHLAVÍ zákazníka? Zdroj: F. Zapata.

Jako příklad budou analyzovány údaje shromážděné o preferencích čokoládové nebo jahodové zmrzliny u mužů a žen v určitém zmrzlinovém salónu. Četnost, s jakou si muži a ženy volí jahody nebo čokoládu, je shrnuta na obrázku 2.

Nejprve se vypočítá tabulka očekávaných frekvencí, která se připraví vynásobením celkem řádků pro něj celkem sloupců, děleno celková data. Výsledek ukazuje následující obrázek:

Obrázek 3. Výpočet očekávaných frekvencí na základě pozorovaných frekvencí (hodnoty na obrázku 2 modře). Zdroj: F. Zapata.

Poté přistoupíme k výpočtu čtverce Chi (z údajů) pomocí následujícího vzorce:

χdva = ∑ (F.nebo - Fa)dva / F.a

Kde Fnebo jsou pozorované frekvence (obrázek 2) a Fa jsou očekávané frekvence (obrázek 3). Součet jde přes všechny řádky a sloupce, které v našem příkladu obsahují čtyři výrazy.

Po provedení operací získáte:

χdva = 0,2043.

Nyní je nutné porovnat s teoretickým chí kvadrátem, který závisí na počet stupňů volnosti g.

V našem případě je toto číslo určeno následovně:

g = (# řádky - 1) (# sloupce - 1) = (2 - 1) (2 - 1) = 1 * 1 = 1.

Ukazuje se, že počet stupňů volnosti g v tomto příkladu je 1.

Pokud chcete zkontrolovat nebo odmítnout nulovou hypotézu (H0: neexistuje korelace mezi CHUŤEM a POHLAVÍ) s hladinou významnosti 1%, teoretická hodnota chí-kvadrát se počítá se stupněm volnosti g = 1.

Hledá se hodnota, která činí akumulovanou frekvenci (1 - 0,01) = 0,99, tj. 99%. Tato hodnota (kterou lze získat z tabulek) je 6,636.

Protože teoretická Chi překračuje vypočítanou, ověřuje se nulová hypotéza.

To znamená se shromážděnými údaji, Není pozorováno vztah mezi proměnnými CHUŤ a ROD.

Reference

  1. Minitab. Jaké jsou stupně svobody? Obnoveno z: support.minitab.com.
  2. Moore, David. (2009) Základní aplikované statistiky. Antoni Bosch editor.
  3. Leigh, Jennifer. Jak vypočítat stupně volnosti ve statistických modelech. Obnoveno z: geniolandia.com
  4. Wikipedia. Stupeň volnosti (statistika). Obnoveno z: es.wikipedia.com
  5. Wikipedia. Stupeň volnosti (fyzická). Obnoveno z: es.wikipedia.com

Zatím žádné komentáře