V tomto príklade si ukážeme test významnosti rozdielu medzi dvoma rozptylmi.
Pri testovaní významnosti rozdielu medzi rozptylmi formulujeme nulovú hypotézu:
t.j. predpoklad, že rozptyly základných súborov sú rovnaké.
Príklad bol prevzatý z:
Roman Reisenauer: Metody matematické statistiky, Praha 1970.
Poznámka: V tabuľke sú uvedené len časy 10-tich pretekárov, celý príklad
si môžete stiahnuť, pozri na konci - Rozptyl.zip.
Tabuľka udáva výsledky behu na 50 m (v sekundách) pre chlapcov a dievčatá
(vek 10 rokov). Počet chlapcov n1 = 33, počet dievčat n2 = 28.
Sledujeme vplyv pohlavia na výkonnosť. F - testom zistme, či rozdiel
medzi rozptylmi je významný. Kedy môžeme použiť F- test? Vtedy ak rozdelenia
sú približne normálne. Normálne rozdelenie je také rozdelenie početností,
že väčšina hodnôt sa grupuje okolo strednej hodnoty a histogram početností vyzerá
ako "zvonovitá krivka" viď obrázok 1.
Testovacím kritériom je veličina F=σ'22
/σ'12,
so stupňami volnosti ν2=n2-1
a ν1=n1-1, kde n1 je rozsah prvého
súboru a n2 rozsah druhého súboru. Za
σ'22 dosadíme štatistickú funkciu Excelu
var (pre súbor dievčatá, pretože má väčší rozptyl), a za σ'12var (pre súbor chlapci). Dosadíme vždy väčší rozptyl do čitateľa zlomku,
aby F bolo vždy >1.
V tabuľke sú vypočítané priemer, odhad rozptylu (var)
a smerodajná odchyľka oboch výberov. Tieto sa vypočítajú pomocou
štatistických funkcií Excelu, priemer = average, odhad rozptylu = var,
smerodajná odchyľka = stdev (existuje aj výborná aplikácia MATLAB,
pomocou ktorej je možné všetky tieto parametre vypočítať). F vypočítame ako podiel
var(2) - odhad rozptylu podľa výberu 2 a var(1) - odhad rozptylu
podľa výberu 1. Napokon vypočítame Fkrit =FINV(0,025;27;32),
pomocou štatistickej funkcie Excelu. Pre dvojstranný test hľadáme kritickú
hodnotu pre p / 2 = α/2=0,025.
Záver: F < Fkrit,
teda medzi rozptylmi nie je štatisticky významný rozdiel.
Ako vypočítame teoretické početnosti?
Aby sme mohli zhotoviť histogramy, zobrazené na obrázkoch 1.,súbor utriedime
do tabuľky skupinového rozdelenia početností. Zoskupíme
niekoľko za sebou nasledujúcich hodnôt znaku ( v tomto prípade časy behu na 50 m)
do tried - triednych intervalov. Volia sa tak, aby každú hodnotu bolo možné
zatriediť jednoznačne.Existuje niekoľko pomocných pravidiel na
vytvorenie tried. Podľa Sturgesovho pravidla počet tried:
k ≈ 1 + 3, 3 log n. Ďalšie pomocné pravidlo : k ≈ 5log(n) alebo
k ≈ √(n). Dĺžka triedneho intervalu: h≈R/k, kde R = xmax - xmin
je variačné rozpätie. Všetky vzorce platia približne. Pre tento príklad bol
zvolený počet tried 5.
Do stĺpca F, riadok 11 (Obr. 2) vložíme štatistickú funkciu Excelu,
=NORMDIST(F11;$E$3;$E$5;TRUE). Potiahneme za úchytku bunky a doplníme pre
všetky triedy. Do stĺpca G, riadku 11 zadáme odkaz na bunku v
predchádzajúcom stĺpci. Vzorce v štvrtom, piatom a šiestom stĺpci
zobrazuje Obr. 4. Ako už bolo uvedené n1 =33.
Početnosti v jednotlivých triedach zistíme pomocou štatistickej funkcie
FREQUENCY - viď. obr. 5. Ako je vidieť z obr. 5, treba vkladať
tkzv. vzorec poľa, čiže treba vysvietiť v danom stĺpci o 1 riadok
viac,ako je tried, a vložiť do 3 riadku funkciu frequency a stlačiť naraz
klávesy CTRL+SHIFT+ENTER.
Pomocou analytického nástroja Dvojvýberový F - test pre rozptyl to
máme hneď, ako je zobrazené na obrázku:
Hodnoty F a Fkrit sú samozrejme tie isté, ako pri predchádzajúcom
výpočte. V roku 1970, keď vyšla kniha pána Reisenauera, neboli ešte osobné počítače
a samozrejme ani aplikácia EXCEL.
ZDROJE:
[1] R. Reisenauer, Metody matematické statistiky a jejich aplikace,
2. revidované a doplněné vydání, Praha 1970.
[2] www.lefa.sk/internet/HandoutyJH/slov/07b.pdf
[3] http://rimarcik.com/navigator/odhady.html#bo
[4] korelačný koeficient súčinu momentov http://www.delsiegle.com/
[5] miery rozptylu a variacie: vz.truni.sk/Prednasky/statistika/Box%20and%20Whisker%20Plots.pdf
Príklad bol vypracovaný v Excel 2000 pod OS Windows XP
Príklad si môžete stiahnuť: