Distribuce chí-kvadrát (χ²), jak ji vypočítat, příklady

4854
Simon Doyle

Důkaz Chi na druhou nebo chi-squaredva, kde χ je řecké písmeno zvané „chi“) se používá k určení chování určité proměnné a také když chcete vědět, zda jsou dvě nebo více proměnných statisticky nezávislé.

Pro kontrolu chování proměnné se volá test, který má být proveden chi kvadrát test fit. Chcete-li zjistit, zda jsou dvě nebo více proměnných statisticky nezávislé, zavoláme test náměstí nezávislosti chi, také zvaný pohotovost.

Obrázek 1. Testy hypotéz pomocí chí kvadrátu

Tyto testy jsou součástí statistické teorie rozhodování, ve které se studuje populace a rozhoduje se o ní, přičemž se analyzuje jeden nebo více vzorků z ní odebraných. To vyžaduje vytvoření určitých předpokladů o proměnných, tzv hypotéza, což může, ale nemusí být pravda.

Existuje několik testů pro srovnání těchto domněnek a určení, které jsou platné, s určitou mírou spolehlivosti, včetně testu chí-kvadrát, který lze použít k porovnání dvou a více populací..

Jak uvidíme, dva typy hypotéz jsou obvykle vyvolány o nějakém populačním parametru ve dvou vzorcích: nulová hypotéza, zvaná Hnebo (vzorky jsou nezávislé) a alternativní hypotéza, označená jako H1, (vzorky jsou korelovány), což je opak toho.

Rejstřík článků

  • 1 Kdy je použit test chí-kvadrát?
    • 1.1 Podmínky pro jeho použití
  • 2 Chi čtvercová distribuce
    • 2,1 stupně svobody
    • 2.2 Formulace hypotéz
  • 3 Jak se počítá statistika chí-kvadrát?
    • 3.1 Kritéria přijetí pro Ho
  • 4 Příklad výpočtu
  • 5 Reference

Kdy je použit test chí-kvadrát?

Test chí kvadrát se aplikuje na proměnné, které popisují vlastnosti, jako je pohlaví, rodinný stav, krevní skupina, barva očí a preference různých typů.

Test je určen, pokud chcete:

-Kontrola, zda je distribuce vhodná k popisu proměnné, která se nazývá dobrota fit. Pomocí testu chí-kvadrát je možné zjistit, zda existují významné rozdíly mezi vybraným teoretickým rozdělením a pozorovaným rozdělením frekvence..

-Zjistěte, zda jsou dvě proměnné X a Y nezávislé ze statistického hlediska. Toto je známé jako test nezávislosti.

Protože se aplikuje na kvalitativní nebo kategorické proměnné, je test chí-kvadrát široce používán v sociálních vědách, managementu a medicíně..

Podmínky pro jeho použití

Existují dva důležité požadavky pro správné použití:

-Data musí být seskupena podle frekvencí.

-Vzorek musí být dostatečně velký, aby platilo rozdělení chí-kvadrát, jinak je jeho hodnota nadhodnocena a vede k odmítnutí nulové hypotézy, pokud by tomu tak nemělo být..

Obecným pravidlem je, že pokud se ve seskupených datech objeví frekvence s hodnotou menší než 5, nebude použita. Pokud existuje více než jedna frekvence menší než 5, musí být spojeny do jedné, aby byla získána frekvence s číselnou hodnotou větší než 5.

Chi čtvercová distribuce

χdva jedná se o spojité rozdělení pravděpodobností. Ve skutečnosti existují různé křivky, v závislosti na parametru k volala stupně svobody náhodné proměnné.

Jeho vlastnosti jsou:

-Plocha pod křivkou se rovná 1.

-Hodnoty χdva jsou pozitivní.

-Distribuce je asymetrická, to znamená, že má zkreslení.

Obrázek 2. Distribuce chí kvadrát pro wattové stupně volnosti. Zdroj: Wikimedia Commons.

Stupně svobody

Jak se zvyšují stupně volnosti, má rozdělení chí-kvadrát tendenci k normálnosti, jak je patrné z obrázku.

Pro dané rozdělení jsou stupně volnosti určovány pomocí pohotovostní tabulka, což je tabulka, kde se zaznamenávají pozorované frekvence proměnných.

Pokud tabulka má F řádky a C sloupce, hodnota k to je:

k = (f - 1) ⋅ (c - 1)

Formulace hypotéz

Když je test chí-kvadrát vhodný, jsou formulovány následující hypotézy:

-Hnebo: proměnná X má rozdělení pravděpodobnosti f (x) se specifickými parametry y1, Ydva…, Yp

-H1: X má další rozdělení pravděpodobnosti.

Distribuce pravděpodobnosti předpokládaná v nulové hypotéze může být například známé normální rozdělení a parametry by byly průměr μ a směrodatná odchylka σ.

Kromě toho je nulová hypotéza hodnocena s určitou úrovní významnosti, tj. Mírou chyby, ke které by došlo, kdyby byla odmítnuta jako pravdivá.

Obvykle je tato úroveň nastavena na 1%, 5% nebo 10% a čím je nižší, tím spolehlivější je výsledek testu..

A pokud se použije chi-kvadrát test kontingence, který, jak jsme řekli, slouží k ověření nezávislosti mezi dvěma proměnnými X a Y, jsou hypotézy:

-Hnebo: proměnné X a Y jsou nezávislé.

-H1: X a Y jsou závislí.

Opět je nutné určit úroveň významnosti, aby bylo možné při rozhodování znát míru chyby..

Jak se počítá statistika chí-kvadrát?

Statistika čtverce chi se vypočítá takto:

Součet se provádí od první třídy i = 1 do poslední, což je i = k.

Co víc:

-Fnebo je pozorovaná frekvence (pochází ze získaných dat).

-Fa je očekávaná nebo teoretická frekvence (je třeba vypočítat z údajů).

Abychom přijali nebo odmítli nulovou hypotézu, vypočítáme χdva pro pozorovaná data a ve srovnání s hodnotou zvanou kritické náměstí chi, což závisí na stupních volnosti k a úroveň významnosti α:

χdvakritický =  χdvak, α

Pokud například chceme provést test s hladinou významnosti 1%, pak α = 0,01, pokud to bude s 5%, pak α = 0,05 atd. Definujeme p, parametr distribuce, jako:

p = 1 - α

Tyto kritické hodnoty chí kvadrátu jsou určeny tabulkami obsahujícími hodnotu kumulativní plochy. Například pro k = 1, což představuje 1 stupeň volnosti a α = 0,05, což se rovná p = 1 - 0,05 = 0,95, je hodnota χdva je 3 841.

Obrázek 3. Tabulka hodnot rozdělení chí-kvadrát. Zdroj: F. Zapata.

H akceptační kritérianebo

Kritérium pro přijetí Hnebo to je:

-Ano χdva < χdvakritický  H je přijatonebo, jinak je zamítnuto (viz obrázek 1).

Příklad výpočtu

V následující aplikaci bude test chí kvadrát použit jako test nezávislosti.

Předpokládejme, že vědci chtějí vědět, zda preference černé kávy souvisí s pohlavím osoby, a upřesnit odpověď s hladinou významnosti α = 0,05.

K tomu je k dispozici vzorek 100 dotazovaných lidí a jejich odpovědi:

Krok 1

Stanovte hypotézy:

-Hnebo: pohlaví a preference černé kávy jsou nezávislé.
-H1: chuť na černou kávu souvisí s pohlavím osoby.

Krok 2

Vypočítejte očekávané frekvence distribuce, pro které jsou vyžadovány součty přidané v posledním řádku a v pravém sloupci tabulky. Každá buňka v červeném poli má očekávanou hodnotu Fa, který se vypočítá vynásobením součtu řádku F součtem sloupce C, děleno součtem vzorku N:

Fa = (F x C) / N

Výsledky jsou pro každou buňku následující:

-C1: (36 x 47) / 100 = 16,92
-C2: (64 x 47) / 100 = 30,08
-C3: (36 x 53) / 100 = 19,08
-C4: (64 x 53) / 100 = 33,92

Krok 3

Dále je třeba pro toto rozdělení vypočítat statistiku chí-kvadrát podle daného vzorce:

Krok 4

Určete χdvakritický, s vědomím, že zaznamenaná data jsou v f = 2 řádcích a c = 2 sloupcích, proto je počet stupňů volnosti:

k = (2-1) ⋅ (2-1) = 1.

Což znamená, že v tabulce zobrazené výše musíme hledat hodnotu χdvak, α = χdva1; 0,05 , který je:

χdvakritický = 3 841

Krok 5

Porovnejte hodnoty a rozhodněte se:

χdva = 2,9005

χdvakritický = 3 841

Protože χdva < χdvakritický je přijata nulová hypotéza a dochází k závěru, že preference černé kávy nesouvisí s pohlavím osoby, s úrovní významnosti 5%.

Reference

  1. Chi Square Test pro nezávislost. Obnoveno z: saylordotorg.github.io.
  2. Med Wave. Statistiky aplikované na vědy o zdraví: test chí-kvadrát. Obnoveno z: medwave.cl.
  3. Pravděpodobnosti a statistiky. Chí-kvadrát test shody. Obnoveno z: probayestadistica.com.
  4. Triola, M. 2012. Základní statistiky. 11. Edice. Addison Wesley.
  5. UNAM. Chi čtvercový test. Obnoveno z: asesorias.cuautitlan2.unam.mx.

Zatím žádné komentáře