Statisztika egyszerűen

Mágikus jelek nélkül...

Az alkoholfogyasztás hatása a bowling eredményekre – kétmintás t-próba

2019. június 25. 09:00 - glantos70

Statisztikai elemzések

 twogroupsgraph.gif

Az egymintás t-próba esetében (Z helyett t – leheletnyi különbség) még mindig volt egy sokaságunk, noha nem ismertük a szórását. Akkor most elimináljuk a kiinduló feltételek közül a sokaság utolsó írmagját is, azaz a sokaság átlagát. Így elérjük azt az állapotot, amikor már semmit sem tudunk a sokaságról. Rendben, de akkor mihez fogjuk hasonlítani a kis mintánkat?

Természetesen nem esünk kétségbe, ha nincs sokaság, amihez hasonlítani tudnánk, akkor veszünk egy másik mintát is, és a két mintát hasonlítjuk össze. Ha jobban belegondolok, akkor az eddig ismertetett statisztikai tesztek közül leginkább ez az eset szokott előfordulni a gyakorlatban. Mármint az, hogy a vizsgálandó sokaságról semmit sem tudunk. Ezért, ha valamilyen változás hatását szeretnénk megvizsgálni, akkor veszünk egy olyan mintát, ahol a vizsgált hatás nem érvényesül, illetve egy másik mintát, ahol a vizsgált hatás érvényesül, majd összehasonlítjuk ezek átlagát, hogy megváltozott-e az eredmény.

Ez esetben Samu nem azzal dicsekszik, hogy milyen magas átlagos pontszámot tud elérni hosszútávon, ehelyett azt állítja, hogy ő öt feles után is ugyanolyan jól játszik, mint teljesen józanon. Erre azt mondod, hogy rendben, de tegyünk egy próbát és felajánlod, hogy játsszatok 3 mérkőzést józanon, majd játszatok le 5 meccset úgy, hogy Samu minden menet előtt megiszik egy fél pálinkát. Ezután összehasonlítjátok a kétféle állapotban lejátszott meccsek átlagait, hogy meglássuk, van-e hatása a feleseknek. Vegyünk észre azonban néhány apróságot:

  • Nem akarunk három napig egyfolytában játszani és Samu sem akar teljesen lerészegedni, tehát relatíve kevés mérkőzés alapján kell döntést hoznunk. Nem tudunk harmincnál több mintát venni a két esetből, tehát Student-féle t-eloszlást kell alkalmaznunk.
  • Nem kötelező, hogy Samu józanon és piásan is ugyanannyi mérkőzést játsszon, a két minta mintaszámának nem kell megegyeznie.
  • Az sem kötelező, hogy a józanon és az italos állapotban játszott mérkőzések eredményeinek szórása megegyezzen (minden ellenkező híresztelés ellenére).

Akkor most elemezzük egy kicsit mélyebben, hogy mi is történik ebben a helyzetben. Samu először józanon lejátssza a három meccsét és a következő eredményeket kapja:

120 pont
115 pont
125 pont

Átlag (Xj) = 120 pont
Szórás (Sj) = 5 pont
Minták száma (nj) = 3

Ezután játszik öt mérkőzést úgy, hogy mindegyik előtt megiszik egy féldeci körtepálinkát. Így az eredményei a következők:

95 pont
90 pont
85 pont
60 pont
45 pont

Átlag (Xr) = 75 pont
Szórás (Sr) = 21,5 pont
Minták száma (nr) = 5

Ha egy kicsit jobban belegondolunk, akkor a józanon lejátszott három mérkőzés a józanon lejátszott mérkőzések SOKASÁGÁBÓL származik, az italos állapotban lejátszott öt mérkőzés pedig az italosan lejátszott mérkőzések SOKASÁGÁBÓL lett kivéve. A következőket tudjuk:

Nullhipotézisnek megadhatnánk azt, hogy a józanon lejátszott mérkőzések és az italosan lejátszott mérkőzések átlaga legyen egyenlő, azaz Xj = Xr. Ekkor azonban nem egy olyan t-eloszlást kapunk, amelynek az átlaga 0. Ennél van egy bölcsebb megoldás is, legyen a nullhipotézis az, hogy a két minta átlagának különbsége 0, az ellenhipotézis pedig az, hogy a két minta átlagának különbsége NEM 0! Hogyan kapjuk meg így ’t’ értékét?

A számlálóban van a két minta átlagának különbsége, eddig ez egyszerű. A nevezőben lévő összeg két tagjának formátuma már ismerős lehet, hiszen a Centrális Határeloszlás tétele (A nagy dobókocka kísérlet) kimondja, hogy a sokaságból kivett minták átlagainak átlaga megegyezik a sokaság átlagával, szórása pedig megegyezik a sokaság szórásának és a mintaszám négyzetgyökének hányadosával. És tényleg, mivel két egymástól - elvileg - különböző sokaságból kivett n-elemű mintát vizsgálunk, így a mintaeloszlás tulajdonságait kell használnunk a hipotézisünk vizsgálatakor. Felhívom a figyelmet arra, hogy noha a számlálóban a két minta átlagát kivontam egymásból, a nevezőben a szórások összeadódnak!

2sample_t_anim.gifAz animáció bal oldalán látható a két mintához tartozó sokaság és ezek egymáshoz képesti helyzete, a jobb oldalán pedig a két mintaátlag különbségének sokasága, amelynek átlaga 0, ha a két sokaság átlaga megegyezik és ahogy egyre nagyobb a különbség a két minta átlaga között, a sokaság átlaga annál messzebb kerül a 0-tól. Hogy mikor jön el az a pont, amikor már biztos, hogy nem lehet a két mintaátlag különbsége 0, az függ egyrészt a két átlag szórásától, illetve a két átlag mintaszámától. Minél nagyobb a két szórás, annál nagyobb lesz az összegzett szórás és állandó szórások esetén minél nagyobbak a mintaszámok, annál kisebb lesz az összegzett szórás!

2sample_t_anim_n.gifAnnak reményében, hogy ennyi elmélkedés elég ahhoz, hogy a kétmintás t-próba alapelve megértésre talál, térjünk vissza Samu alkoholtesztjéhez a feladathoz. Ha kiszámolom 't' értékét a fenti képlet alapján, a következő eredményt kapom:

 Ok, de mennyi lesz a döntési határérték t-re és hogyan számolom ki a megbízhatósági intervallumot? A döntési határérték meghatározása ugyanaz, mint az egymintás t-próba esetében, egyedül arra kell vigyázni, hogy itt a szabadsági fok (szf) nj + nr - 2 = 3 + 5 -2 = 6 lesz! Ez alapján a döntési határérték 1,94 lesz. Mivel fentebb kiszámoltuk, hogy 't' értéke 3,6 és ez jelentősen nagyobb, mint a döntési határérték, a nullhipotézist elutasítom és kijelentem, hogy a két minta átlaga NEM EGYEZHET meg, azaz Samu eredményére igenis hatással voltak az elfogyasztott röviditalok.

 A megbízhatósági intervallum kiszámítása hasonlóképpen zajlik, mint az előzőekben, azaz 't' helyére be kell helyettesíteni a megfelelő döntési határértéket és ki kell fejezni az intervallum alsó és felső határát.

A megfelelő értékeket a képletekbe behelyettesítve megkapjuk a két mintaátlag különbségének megbízhatósági intervallumát:

 

Tehát a két mintaátlag különbsége a 20,8082 - 69,1918 tartományba esik bele. Mivel ebben a tartományban a 0 nincs benne, ezért a nullhipotézist ELUTASÍTOM.

Utolsó megjegyzésként kiemelem, hogy ezt a képletet sem így tanuljuk az iskolában, 't' értékének kiszámítása a tankönyvekben a következő módon szerepel:

A képletet egy kicsit tüzetesebben megvizsgálva feltűnik, hogy a tört számlálója ugyanaz, a nevező változott csak meg. Először is Sj és Sr négyzetre emelve bekerült a gyökjel alá, majd a két tört szintén összevonásra került a gyökjel alatt. Ismét egy briliáns példa arra, hogy egy képlet átalakításával hogyan lehet elrejteni az egész módszer lényegét az avatatlan szemlélő elől.

5 komment

A bejegyzés trackback címe:

https://statisztikaegyszeruen.blog.hu/api/trackback/id/tr2614882038

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Belzebubo 2019.06.25. 19:39:04

Jaj. Ha ez a statisztika egyszerûen, akkor milyen a bonyolultan?

szepipiktor 2019.06.25. 20:27:57

Ugye a büdös életben nem sportoltál?
Ja és ügyes!
Idemásoltál egy rakás képletet, majd lezárrtad:
"Mivel mostanra ennyi utánajárás elég volt, ezt már nem vezetem le és nem is indoklom meg, hogy miért van így. "
Bölcsész lehetsz, aki poénból képleteket pakolt össze egy posztba.

glantos70 2019.06.25. 21:36:52

@Belzebubo: Négy alapművelet, négyzetre emelés és gyökvonás. Sajnos itt jön az, hogy ha az előzményeket nem ismered, akkor tényleg bonyolultnak tűnik.

glantos70 2019.06.25. 21:42:53

@szepipiktor: Semmit sem találtál el. Mérnök vagyok, Fiatalon NB1-ben röplabdáztam. Annyiban igazad van, hogy a végére tényleg egy kicsit elfáradtam, ezért elnézést kérek. Az utolsó képlet annyiban különbözik az előzőektől, hogy S/gyök(n) helyett gyök (Snégyzet/n)-t használt, majd a nevezőben összevonta a két törtet a gyökjel alá. Halál bonyolult... Egyénként pedig vegyél elő bármilyen statisztika könyvet és nézd meg, hogy ezt a tesztet a nagy tudósok hogyan magyarázzák el. Ha pedig meggondoltad magad, akkor gyere vissza és olvasd el a blogot az elejétől. Mire eljutsz idáig, érteni fogod ezt is.

glantos70 2019.06.25. 22:22:45

Ezzel együtt valahol igazatok van, úgyhogy próbáltam még finomítani a szövegen és felidézni egy-két korábban tárgyalt szabályt, amely segít a mostani bejegyzés megértésében, mert ha felismeritek az ismétlődő mintázatokat az egyes tesztek ismertetése során, akkor sokkal könnyebb átlátni az egészet. Az utolsó megjegyzést is töröltem, inkább leírtam, hogy mi a különbség az utolsó képlet és az előzőek között. Kösz a türelmet és a megértést!
süti beállítások módosítása