Wuwejův zápisník

Sovy, skřivani a čas narození - vyhodnocení

15.04.2009 21:33, Wu | výzkumy | praktické | komentáře -

Nejdřív se musím podívat na zkoumanou skupinu a pokusit se ji posoudit. Veškeré závěry platí jen a pouze pro ni, a snaha udělat je univerzálními musí se složením respondentů počítat. Odpovídá běžné populaci? Neprojevují se na ní nějaké vlivy? Běžná populace to asi nebude, už kvůli tomu, že je spojuje zájem o můj blog, také velká převaha sov je podezřelá. Jsou skřivani tak vzácní? Nebo mají jiné zájmy, než je Internet? Neradi se zúčastňují výzkumů? Je tedy jasné, že výsledek nebudu moci jen tak zevšeobecnit.

Rozdělení v čase musím redukovat na takové úseky, aby v nich bylo dostatečné množství zkoumaných jevů. Když bych zvolil hodinové úseky, měl bych několik prázdných. Pro začátek rozdělím den na čtyři šestihodinové úseky a začnu časem 4.00. Subjektivně jej vnímám, jako že je to - sice kruté, ale přece - ráno. V létě už tou dobou vychází slunce. Takže 04.00 - 9.59, 10.00 - 15.59, 16.00 - 21.59, 22.00 - 03.59.

Teď mě zajímá, zda je nějaký vztah mezi časovým úsekem narození a tím, zda je osoba skřivan, nebo sova. Jenže nejsa statistik, marně jsem prohledával Internet na klíčová slova „vyhodnocení experimentálních dat“. Nezbylo, než s problémem seznámit Maestra de George, který s průzkumy na vědeckém základě má bohaté zkušenosti a mohl by mě navést. A také ano - sotva jsem mu dopsal popis problému, už tu byla odpověď: „To je velice jednoduché. To jsou typická nominální, anóbrž kategoriální data, takže chí-kvadrát test nezávislosti.

A s tím už se dá pracovat.

Chí-kvadrát test nezávislosti

Takže chí-kvadrát test nezávislosti... Google mě zásobil stovkami nepoužitelných odkazů. Například tenhle od Michala Friesla. Matematický formalismus je úžasný, ale abych z něj odvodil, jak to spočítat v Open Office Calcu, k tomu nemám trénink, čas ani chuť. Podobně dopadl text Ivy Pecákové (chvíli vypadal nadějně, to když jsem našel příklad - bohužel bez návodu). Naštěstí existují i stránky praktičtěji zaměřené - popis kontingenčních tabulek Julie Bulíkové, Chí-kvadrát test nezávislosti Karla Hracha a především návod na výpočet Chí kvadrát testu pro tabulky větší než je 2 x 2 od J. Dostála. Následující popis z nich vychází.

Nejprve si naměřená data umístíme do kontingenční tabulky, která zobrazuje závislost dvou zkoumaných veličin. V našem případě to je čas narození a sovoskřivanovitost. V posledním řádku i sloupci jsou navíc součty hodnot:

DATAsovyskřivanisoučet
04.00 - 9.596612
10.00 - 15.59617
16.00 - 21.59415
22.00 - 03.59303
součet19827

Chí kvadrát test nezávislosti počítá v každé buňce tabulky s odchylkou mezi naměřenou a teoretickou četností pro nulovou hypotézu („mezi daty žádný vztah není“). Proto potřebujeme znát také teoretické četnosti. K jejich výpočtu se používají právě součty řádků, sloupců i součtů - do každé buňky se vloží hodnota „součet v příslušném řádku“ krát „součet v příslušném sloupci“ děleno „součet součtů“.

TEORIEsovyskřivanisoučet
04.00 - 9.598,444443,5555612
10.00 - 15.594,925932,074077
16.00 - 21.593,518521,481485
22.00 - 03.592,111110,888893
součet19827

Teoretické četnosti známe, teď ten chí-kvadrát. Počítá se opět pro každou buňku podle vzorce („naměřená četnost“ minus „teoretická četnost“), to celé na druhou, to celé děleno „teoretickou četností“. Hodnoty všech buněk se sečtou a máme ho. Chí-kvadrát je 4,66.

chí-kvadrátsovyskřivanisoučet
04.00 - 9.590,707601,68056
10.00 - 15.590,234200,55622
16.00 - 21.590,065890,15648
22.00 - 03.590,374270,88889
chí-kvadrát4,66409774

Teď si určíme, kolik stupňů volnosti naše tabulka má. Počítá se „(počet sloupců - 1) krát (počet řádků - 1)“ a vyjadřuje... nu, obecně stupeň volnosti říká, kolik různých veličin musíme jednoznačně určit, abychom mohli popsat stav systému. Ve statistice je to dle Wikipediepočet současně pozorovaných náhodných veličin, na nichž je testové kritérium založeno, snížený o počet jiných odhadovaných charakteristik“. Moc tomu nerozumím, každopádně pro naši tabulku je to 1 krát 3, takže 3.

Zvolíme hladinu významnosti - pravděpodobnost chybného zamítnutí testované hypotézy (Wikipedie). Obvykle se používají hodnoty 0,05 nebo 0,01. Já risknu 5 % pravděpodobnost chyby.

V tabulkách jsou stanovené kritické hodnoty chí-kvadrátu pro zvolené hladiny významnosti a stupně volnosti. Jednu takovou tabulku zveřejnil J. Dostál. Tady vidíme, že když chí-kvadrát nabývá při 3 stupních volnosti a hladině významnosti 5 % hodnoty větší než 7,81, je závislost veličin prokázaná.

Open Office Calc i Excel mají podporu pro chí-kvadrát, jen se postupuje trochu jinak - spočítají pravděpodobnost chybného stanovení, tedy hladinu významnosti, ze které je vidět, jestli je menší nebo větší než 0,05. Funkce se jmenují CHIDIST a CHTEST. První se použije v případě, že už jsme si ručně spočítali chí-kvadrát a známe počet stupňů volnosti, té druhé se zadávají rovnou naměřená data a teoretické pravděpodobnosti, sama si chí-kvadrát i stupně volnosti spočítá a vrátí pravděpodobnost chyby.

Připravil jsem tabulku na experimentální data, je zalinkovaná i z původního článku, a případné další přírůstky budu vkládat do ní. Dělal jsem ji v Open Office Calcu, ale protože Excel je rozšířenější, uložil jsem ji do formátu XLS.

Vyhodnocení

Jak je vidět, náš spočítaný chí-kvadrát je menší než kritická hodnota, takže závislost prokázaná nebyla. Je tu ale problém s daty - kromě toho, že je jich stále málo, nevyhovují ani požadavkům metody. Teoretické studie ukázaly, že „menších než 5 by mělo být maximálně 20 % z očekávaných četností (a každá v takovém případě musí být alespoň jednotková)“(zdroj). Menších než 5 máme 88 % a jedna je menší než jednotková. V praxi se to řeší sloučením některých řádků či sloupců, je-li to možné.

Zkusil jsem vypočítat CHITEST pro tři osmihodinové úseky, tam byla závislost ještě méně zřetelná (pravděpodobnost chyby 18,1 %, očekávaných četností menších než pět bylo 66 %), a pro úseky dvanáctihodinové (pravděpodobnost chyby 20,6 %, menších než 5 je 25 %).

Takže když to shrnu - závislost se nepotvrdila, ale data nejsou pro vyhodnocení dostatečná. Potřebujeme víc účastníků! Chcete-li ještě přispět, nechávejte své údaje v komentářích.

Jen mezi námi - statistika nestatistika, když vidím, že z osmi skřivanů se jich sedm narodilo mezi čtvrtou a desátou ráno...

P.S. Jago, co Ty na to? Nemám tam někde nějaké nesmysly?

Aktualizace 17.4.2009: Do vyhodnocovací tabulky jsem přidal další dobrovolníky; chyba stanovení se dostala na 7,35 %, ale dat stále ještě není dostatek. Také jsem tam přidělal výraz pro kontrolu požadavků metody (max. 20 % očekávaných četností menších než 5 a všechny alespoň jednotkové).

Aktualizace 20.4.2009: S údaji od Lišky jsme klesli na 6,08 %; dat je pořád málo.

Aktualizace 2.5.2009: po doplnění sabe a Lindy jsme vzrostli na chybu 7,71 %; dat je stále málo.

Aktualizace 26.6.2009: Johnny přidal údaje o sobě a svých dvou dcerách, přispěl také Arthur Dent. V druhé vlně přišli Kamio, justme, Malá lingvistka a Modona se synem. Chyba se vyšplhala na 9,30 % - ale pořád potřebujeme další data.

Aktualizace 28.6.2009: Příspěvek Squire a Prťete, dvou dobře mířených skřivanů, katapultoval chybu na 19,42 %, ale nic není ztraceno, data stále ještě nejsou vypovídající.

Aktualizace 29.6.2009: se skřivanem MM bychom celkem klidně mohli prohlásit souvislost za neprokázanou (chyba je 38,47 %) - nebýt ovšem faktu, že údajů stále není dost.

Aktualizace 30.6.2009: přibyly nám Eithne se sestrou, dewbery a puffin, chyba činí 37,69 % a pořád nám chybí respondenti.

Aktualizace 12.7.2009: svůj čas narození poskytl Radim; chyba stanovení je 33,98 % a přispěvatelů je pořád málo.

Aktualizace 5.9.2009: do výzkumu se zapojila Hele a snížila chybu na 31,92 %. Dat je málo.

Aktualizace 29.12.2009: po příspěvku ignace bavlnky máme chybu 29,82 % a data stále nejsou dostatečná.

Aktualizace 8.4.2010: BB posunula chybu na 27,72 %, ale málo nás, málo.

Aktualizace 7.5.2010: BB obeslala okruh svých známých a doplnila dvanáct (!) nových respondentů. Chyba se zvýšila na 36,06% a ačkoliv jsme se už hodně přiblížili požadavku metody na data, pořád ještě pár skřivanů chybí do počtu.

12345
1239823980000

Kategorie

Informace

Kontakt

Sledujte také

Archiv

STRÁNKY ARCHIVOVÁNY NÁRODNÍ KNIHOVNOU ČR

CBDB.cz – Databáze knih a spisovatelů, knihy online