The seskupená data jsou ty, které byly zařazeny do kategorií nebo tříd, přičemž jako kritérium se bere jejich četnost. To se provádí za účelem zjednodušení zpracování velkého množství dat a stanovení jeho trendů..
Jakmile jsou data uspořádána do těchto tříd podle jejich frekvencí, tvoří data a rozdělení frekvence, ze kterých se díky jeho charakteristikám získávají užitečné informace.
Zde je jednoduchý příklad seskupených dat:
Předpokládejme, že je měřena výška 100 studentek vybraných ze všech základních kurzů fyziky univerzity a jsou získány následující výsledky:
Získané výsledky byly rozděleny do 5 tříd, které se objevují v levém sloupci.
První třída mezi 155 a 159 cm má 6 studentů, druhá třída 160 - 164 cm má 14 studentů, třetí třída 165 až 169 cm má největší počet členů: 47. Potom třída pokračuje 170-174 cm s 28 studenty a nakonec 175-174 cm s pouze 5.
Počet členů každé třídy je přesně ten frekvence nebo Absolutní frekvence a když je přidáte všechny, získá se celková data, která je v tomto příkladu 100.
Rejstřík článků
Jak jsme viděli, frekvence je počet opakování části dat. A pro usnadnění výpočtů vlastností rozdělení, jako je průměr a rozptyl, jsou definovány následující veličiny:
-Kumulativní frekvence: získá se přidáním frekvence třídy s předchozí akumulovanou frekvencí. První ze všech frekvencí odpovídá frekvenci dotyčného intervalu a poslední je celkový počet dat.
-Relativní frekvence: vypočteno vydělením absolutní frekvence každé třídy celkovým počtem dat. A pokud vynásobíte 100, máte relativní procentuální frekvenci.
-Kumulativní relativní frekvence: je součet relativních frekvencí každé třídy s předchozí akumulovanou. Poslední z akumulovaných relativních frekvencí musí být rovna 1.
Pro náš příklad vypadají frekvence takto:
Jsou volány extrémní hodnoty každé třídy nebo intervalu limity třídy. Jak vidíme, každá třída má nižší a vyšší limit. Například první třída ve studii o výškách má dolní hranici 155 cm a vyšší hranici 159 cm..
Tento příklad má limity, které jsou jasně definovány, je však možné definovat otevřené limity: pokud namísto definování přesných hodnot řekněte „výška menší než 160 cm“, „výška menší než 165 cm“ atd..
Výška je spojitá proměnná, takže lze předpokládat, že první třída ve skutečnosti začíná na 154,5 cm, protože zaokrouhlení této hodnoty na nejbližší celé číslo dává 155 cm.
Tato třída pokrývá všechny hodnoty až do 159,5 cm, protože poté jsou výšky zaokrouhleny na 160,0 cm. Výška 159,7 cm již patří do následující třídy.
Skutečné hranice třídy pro tento příklad jsou v cm:
Šířka třídy se získá odečtením hranic. Pro první interval našeho příkladu máme 159,5 - 154,5 cm = 5 cm.
Čtečka může ověřit, že pro ostatní intervaly příkladu je amplituda také 5 cm. Je však třeba poznamenat, že distribuce mohou být konstruovány s intervaly různé amplitudy.
Je to střed intervalu a je získáván průměrem mezi horní a dolní mezí.
V našem příkladu je značka první třídy (155 + 159) / 2 = 157 cm. Čtenář vidí, že zbývající známky třídy jsou: 162, 167, 172 a 177 cm.
Určení třídních značek je důležité, protože jsou nezbytné k nalezení aritmetického průměru a rozptylu distribuce.
Nejčastěji používanými měřítky centrální tendence jsou průměr, medián a režim a přesně popisují tendenci dat shlukovat se kolem určité centrální hodnoty..
Je to jedno z hlavních opatření centrální tendence. Ve seskupených datech lze aritmetický průměr vypočítat pomocí vzorce:
-X je průměr
-Fi je frekvence třídy
-mi je známka třídy
-g je počet tříd
-n je celkový počet dat
Pro medián je nutné určit interval, ve kterém je pozorování n / 2 nalezeno. V našem příkladu je toto pozorování číslo 50, protože existuje celkem 100 datových bodů. Toto pozorování je v rozmezí 165-169 cm.
Poté musíte interpolovat, abyste našli číselnou hodnotu, která odpovídá tomuto pozorování, pro které se používá vzorec:
Kde:
-c = šířka intervalu, kde se nachází medián
-BM = spodní hranice intervalu, do kterého medián patří
-Fm = počet pozorování obsažených ve středním intervalu
-n / 2 = polovina celkových dat
-FBM = celkový počet pozorování před střední interval
Pro režim je identifikována modální třída, ta, která obsahuje nejvíce pozorování, jejíž známka třídy je známá.
Rozptyl a směrodatná odchylka jsou měřítkem rozptylu. Označíme-li rozptyl sdva a směrodatná odchylka, což je druhá odmocnina rozptylu jako s, pro seskupená data budeme mít příslušně:
Y
Pro rozdělení výšek studentek vysokých škol navržené na začátku vypočítejte hodnoty:
a) Průměrná
b) Medián
c) Móda
d) Rozptyl a směrodatná odchylka.
Vytvořme následující tabulku, abychom usnadnili výpočty:
Nahrazení hodnot a přímé provedení součtu:
X = (6 x 157 + 14 x 162 + 47 x 167 + 28 x 172+ 5 x 177) / 100 cm =
= 167,6 cm
Interval, ke kterému medián patří, je 165-169 cm, protože se jedná o interval s nejvyšší frekvencí.
Pojďme identifikovat každou z těchto hodnot v příkladu pomocí tabulky 2:
c = 5 cm (viz část amplitudy)
BM = 164,5 cm
Fm = 47
n / 2 = 100/2 = 50
FBM = 20
Nahrazení ve vzorci:
Interval, který obsahuje většinu pozorování, je 165-169 cm, jehož známka třídy je 167 cm.
Rozbalíme předchozí tabulku přidáním dvou dalších sloupců:
Použijeme vzorec:
A vytvoříme součet:
sdva = (6 x 112,36 + 14 x 31,36 + 47 x 0,36 + 28 x 19,36 + 5 x 88,36) / 99 = = 21,35 cmdva
Proto:
s = √ 21,35 cmdva = 4,6 cm
Zatím žádné komentáře