Vysvětlení pravidla Sturges, aplikace a příklady

5192
Simon Doyle

The vládne sturges je to kritérium používané k určení počtu tříd nebo intervalů, které jsou nezbytné pro grafické znázornění souboru statistických údajů. Toto pravidlo bylo vyhlášeno v roce 1926 německým matematikem Herbertem Sturgesem.

Sturges navrhl jednoduchou metodu založenou na počtu vzorků x, která by nám umožnila zjistit počet tříd a šířku jejich rozsahu. Sturgesovo pravidlo je široce používáno, zejména v oblasti statistiky, konkrétně pro konstrukci frekvenčních histogramů..

Rejstřík článků

  • 1 Vysvětlení
  • 2 Aplikace
  • 3 Příklad
  • 4 Odkazy

Vysvětlení

Sturgesovo pravidlo je empirická metoda široce používaná v popisné statistice k určení počtu tříd, které musí existovat ve frekvenčním histogramu, aby bylo možné klasifikovat soubor dat představujících vzorek nebo populaci..

Toto pravidlo v zásadě určuje šířku grafických kontejnerů, frekvenčních histogramů.

Pro stanovení svého pravidla považoval Herbert Sturges ideální frekvenční diagram skládající se z K intervalů, kde i-tý interval obsahuje určitý počet vzorků (i = 0,… k - 1), reprezentovaných jako:

Tento počet vzorků je dán počtem způsobů, kterými lze podmnožinu sady extrahovat; tj. binomickým koeficientem vyjádřeným takto:

Pro zjednodušení výrazu použil vlastnosti logaritmů na obě části rovnice:

Sturges tedy stanovil, že optimální počet intervalů k je dán výrazem:

Může být také vyjádřena jako:

V tomto výrazu:

- k je počet tříd.

- N je celkový počet pozorování ve vzorku.

- Log je běžný logaritmus základny 10.

Například pro konstrukci frekvenčního histogramu vyjadřujícího náhodný vzorek výšky 142 dětí je počet intervalů nebo tříd, které distribuce bude mít:

k = 1 + 3 322 * log10 (N)

k = 1 + 3 322* protokol (142)

k = 1 + 3 322* 2.1523

k = 8,14 ≈ 8

Distribuce bude tedy v 8 intervalech.

Počet intervalů musí být vždy představován celými čísly. V případech, kdy je hodnota desetinná, je třeba provést aproximaci na nejbližší celé číslo.

Aplikace

Sturgesovo pravidlo se používá hlavně ve statistikách, protože umožňuje rozdělení kmitočtů prostřednictvím výpočtu počtu tříd (k) a délky každé z nich, známé také jako amplituda..

Amplituda je rozdíl mezi horní a dolní mezí třídy dělený počtem tříd a je vyjádřena:

Existuje mnoho obecných pravidel, která vám umožňují provést rozdělení kmitočtů. Sturgesovo pravidlo se však běžně používá, protože přibližuje počet tříd, který se obvykle pohybuje od 5 do 15..

Považuje tedy hodnotu, která adekvátně představuje vzorek nebo populaci; to znamená, že aproximace nepředstavuje extrémní seskupení, ani nepracuje s nadměrným počtem tříd, které neumožňují shrnutí vzorku..

Příklad

Podle uvedených údajů je třeba vytvořit frekvenční histogram, který odpovídá věku získanému při průzkumu mezi muži, kteří cvičí v místní tělocvičně..

Chcete-li určit intervaly, musíte znát velikost vzorku nebo počet pozorování; v tomto případě máte 30.

Pak platí pravidlo Sturges:

k = 1 + 3 322 * log10 (N)

k = 1 + 3 322* protokol (30)

k = 1 + 3 322* 1,4771

k = 5,90 ≈ 6 intervalů.

Z počtu intervalů lze vypočítat amplitudu, kterou budou mít; tj. šířka každého sloupce představovaného ve frekvenčním histogramu:

Dolní limit je považován za nejmenší hodnotu dat a horní limit je největší hodnota. Rozdíl mezi horní a dolní mezí se nazývá rozsah nebo rozsah proměnné (R).

Z tabulky máme, že horní limit je 46 a dolní limit je 13; tímto způsobem bude amplituda každé třídy:

Intervaly budou tvořeny horní a dolní mezí. Abychom určili tyto intervaly, začneme počítáním od spodní meze a k tomu přidáme amplitudu určenou pravidlem (6) takto:

Poté se vypočítá absolutní frekvence, aby se určil počet mužů odpovídající každému intervalu; v tomto případě je to:

- Interval 1:13 - 18 = 9

- Interval 2: 19-24 = 9

- Interval 3: 25 - 30 = 5

- Interval 4: 31-36 = 2

- Interval 5: 37-42 = 2

- Rozsah 6: 43 - 48 = 3

Když přidáváte absolutní frekvenci každé třídy, musí se to rovnat celkovému počtu vzorků; v tomto případě 30.

Následně se vypočítá relativní frekvence každého intervalu a jeho absolutní frekvence se vydělí celkovým počtem pozorování:

- Interval 1: fi = 9 ÷ 30 = 0,30

- Interval 2: fi = 9 ÷ 30 = 0,30

- Interval 3: fi = 5 ÷ 30 = 0,1666

- Interval 4: fi = 2 ÷ 30 = 0,0666

- Interval 5: fi = 2 ÷ 30 = 0,0666

- Interval 4: fi = 3 ÷ 30 = 0,10

Pak můžete vytvořit tabulku, která odráží data, a také diagram z relativní frekvence ve vztahu k získaným intervalům, jak je vidět na následujících obrázcích:

Tímto způsobem umožňuje pravidlo Sturges určit počet tříd nebo intervalů, ve kterých lze vzorek rozdělit, aby bylo možné shrnout vzorek dat prostřednictvím zpracování tabulek a grafů..

Reference

  1. Alfonso Urquía, M. V. (2013). Modelování a simulace diskrétních událostí. UNED,.
  2. Altman Naomi, M. K. (2015). „Jednoduchá lineární regrese.“ Přírodní metody .
  3. Antúnez, R. J. (2014). Statistiky ve vzdělávání. Digitální JEDNOTKA.
  4. Fox, J. (1997). Aplikovaná regresní analýza, lineární modely a související metody. Publikace SAGE.
  5. Humberto Llinás Solano, C. R. (2005). Popisné statistiky a rozdělení pravděpodobnosti. severní univerzita.
  6. Panteleeva, O. V. (2005). Základy pravděpodobnosti a statistika.
  7. O. Kuehl, M. O. (2001). Design experimentů: Statistické principy designu a analýzy výzkumu. Thomson Editors.

Zatím žádné komentáře