Statisztika egyszerűen

Mágikus jelek nélkül...

Z helyett t – leheletnyi különbség

2019. június 14. 09:20 - glantos70

Statisztikai elemzések

Az előző bejegyzésben (Z, mint Z-próba…egymintás!) tisztáztuk, hogy mit jelent az egymintás Z-próba. Mivel ismertük a sokaság átlagát és szórását is, ezért lehetett a normál eloszlást használni. Akkor most lépjünk egyet előre és nehezítsük meg a dolgunkat egy kicsit. Mi történik akkor, ha Samu csak annyit tud nekünk mondani, hogy ő hosszútávon 150 pontos átlaggal teljesítette a mérkőzéseit, de nem tudja megmondani, hogy milyen szórással, azaz nem tudja megadni a sokaság szórását?

Ez gond, hiszen a  

képlethez hiányzik a szórás értéke! Persze mondhatjuk azt, hogy semmi gond, éppen van nekünk egy szórásunk kéznél, csak az nem a sokaság szórása, hanem a mintánk szórása. Mi lenne, ha azt helyettesítenénk be a képletbe és nem a sokaság szórását? Elsőre ez egy egészen jó ötletnek tűnik, de aztán kénytelenek vagyunk egy kicsit elgondolkodni. A Centrális Határeloszlás tétele ugyan kimondja, hogy a sokaságból kivett minták átlagainak eloszlása normál eloszlást követ és szórása megegyezik a sokaság szórásának és a mintaszámnak a hányadosával, de ez csak akkor igaz, ha a sokaságunk mérete meghalad egy bizonyos mértéket! Addig, amíg a sokaságunk akár több tucat vagy akár több száz mérkőzés eredményének a halmaza, addig a mintánkban összesen három (!) mérkőzés eredményéből számoljuk ki a szórást!

De ha egy kis elemszámú minta szórását használom fel a sokaság szórása helyett, akkor az ezekből képzett minták eloszlása már nem lesz normál eloszlású! Ha nem lesz normál eloszlású, akkor viszont nem igazak rá a normál eloszlásra jellemző törvényszerűségek sem, tehát nem vezethetem vissza a képlet eredményét a standard normál eloszlásra.

Itt jön be William S. Gosset, ami kedves sörfőző barátunk. A róla szóló cikkben (A sörfőző, aki forradalmasította a statisztikát) tisztáztuk, hogy Gosset úr pontosan ezt kutatta. Azt, hogy milyen eloszlása van a kis elemszámú mintáknak. Ebben az előző cikkben azt is tisztáztuk, hogy a tehetséges matematikus pontosan arra jött rá, hogy ezek a kis elemszámú minták egy a normál eloszláshoz hasonló mintázatot követnek, az úgynevezett Student-féle t-eloszlást. Az alábbi grafikonon jól látható, hogy kis elemszámok esetében a Student-féle t-eloszlás által megadott valószínűségek jelentősen eltérnek a standard normál eloszlás által megadott valószínűségektől!t_vs_normal_1.gifTehát akkor mégiscsak van megoldás! Ugyanazt fogjuk tenni, mint az egymintás Z-próba esetében, csak a sokaság szórása helyett – amit nem ismerek – a Samu által lejátszott három mérkőzés eredményeinek szórását fogom behelyettesíteni a képletbe. A másik különbség csakis annyi lesz, hogy a végén a képlet eredményét nem a standard normál eloszlás függvénybe, hanem a Student-féle t-eloszlás képletébe helyettesítem be, és így kapom meg keresett valószínűséget. Ez alapján a képlet eredményét nem is ’Z’-vel, hanem ’t’-vel fogom jelölni, hiszen a Z betűt fenntartom a standard normál eloszlás számára. Vagyis az egymintás t-próbához használt képlet a következő:

ahol az ’s’ betű a Samu által az orrom előtt lejátszott három mérkőzés szórása lesz. Így tehát ’t’ értékének kiszámítása semmivel sem bonyolultabb, mint az egymintás Z-próba esetében. Csakhogy van még egy aprócska probléma, mégpedig az, hogy ha Samu három, négy, vagy öt meccset játszik le, a mintaszámtól függően mindig másik t-eloszlást kell alkalmazni, csak így lesz pontos az eredmény. Amíg az egymintás Z-próba esetében csak egyetlen standard normál eloszlás létezik, tehát 95%-os, a 99%-os és a 99,9%-os döntési kritériumokat csak egyszer kell meghatározni és utána csak használni kell őket, itt sajnos minden egyes esetben a figyelembe vett mérkőzések számának függvényében minden egyes vizsgálathoz külön-külön ki kell számolni.

Vagyis nézzük meg, hogy milyen eredményt kapunk, ha egymintás t-próbával számoljuk végig az előzőekben ismertetett feladatot. Milyen adatokat is használtunk fel az előző bejegyzésben?

Samu azt állította, hogy hosszútávon képes 150 pontos átlagot tartani, tehát a sokaság átlaga (mü) egyenlő 150-nel. Samu a velünk játszott három mérkőzés során 120 pontos átlagot hozott, tehát a mintánk átlaga 120 pont. A minta szórását az előző példában nem adtam meg, hiszen azt nem használtuk fel a Z-próba kiszámításakor. Tegyük fel, hogy a három mérkőzés során Samu a következő eredményeket hozta:

1.       mérkőzés: 100 pont

2.       mérkőzés: 145 pont

3.       mérkőzés: 115 pont

A három mérkőzés átlaga 120 pont

A három mérkőzés szórása 22,91 ≈ 23 pont

Mivel megvan minden szükséges adatunk ’t’ kiszámításához, akkor tegyük azt meg:

Ha a négyjegyű függvénytáblázatban megnézed a Student-féle t-eloszlás táblázatát, azt fogod látni, hogy a felépítése jelentősen különbözik a standard normál eloszlás táblázattól. A t-eloszlás táblázatban az egyes sorok az úgynevezett szabadsági fokokat tartalmazzák, amit úgy határozunk meg, hogy a mintaszámból kivonunk egyet, azaz jelen esetben – mivel Samu három mérkőzést játszott le – a szabadsági fokok száma 2 lesz. Ha elegendő 95%-os megbízhatósági szinten döntést hoznunk és az egymintás Z-próbához hasonlóan itt is egyoldali tesztet végzünk, mert arra számítunk, hogy Samu kevesebb pontot ér el, mint 150, akkor az alábbi táblázatból az szf=2 sor és a 0,95 oszlop kereszteződésében található számot kell kiválasztanunk, ami ez esetben 2,92, illetve -2,92, hiszen a Student-eloszlás ugyanúgy szimmetrikus, mint a normál eloszlás.

Tehát az egymintás t-próba jelen esetben azt mutatja, hogy ha Samu a három mérkőzés alatt a fenti eredményeket hozta, akkor egyértelműen nem zárható ki, hogy hasonló teljesítménnyel képes hosszútávon átlagosan 150 pontos teljesítményre. Persze vegyük figyelembe, hogy amíg az előző példában a sokaság szórása 8,33 pont volt, itt a minta szórása 23 pont, ami lényegesen nagyobb. Nyilvánvaló, hogy minél több mérkőzést játszi Samu, azaz minél több minta alapján hozzuk meg a döntésünket, annál biztosabb lesz a döntés, hiszen jól látható, hogy minél nagyobb a szabadsági fokok száma, annál kisebb lesz a 95%-os megbízhatósági szint értéke.

Természetesen ez esetben is fel tudjuk tenni a kérdést, hogy mennyire kellene Samunak „rosszul” játszania a három mérkőzés alatt, hogy már ne tudjuk elhinni ez alapján, hogy Samu képes a 150 pontos átlagra. Az eljárás itt is hasonló, mint az egymintás Z-próba esetében, vissza kell helyettesíteni a t-eloszlás táblázatból kinyert -2,92-t az ismert képletbe és ki kell fejezni a mintaátlagot:

azaz, ha Samu a három meccsen 111 pontnál kevesebbet ért volna el, akkor nem hinnénk el neki, hogy képes hosszútávon 150 pontos átlagot teljesíteni.

Végül - rossz szokásomhoz híven - ismét készítettem egy kis táblázatot, most elkezdtem összehasonlítani a standard normál eloszlás és a Student-féle t-eloszlás értékeit -3 és +3 közötti x-értékekre, majd vettem ezek különbségét fokozatosan növelve a mintaszámot. Az alábbi grafikonon a kétféle eloszlás különbsége látható a mintaszám függvényében.

Jól érzékelhető, hogy 30-40 feletti mintaszámoknál a kétféle eloszlás különbsége már elenyészően kicsi, szóval ennél nagyobb elemszámú minták esetében az egymintás Z-próba és az egymintás t-próba eredménye közötti eltérés elhanyagolható, azaz ilyen esetekben mindkét teszt egyformán alkalmazható. De ezt már próbáljátok ki magatok!

A következő bejegyzésben megmutatom majd, hogy hogyan lehet az egymintás t-próbát kiszámítani táblázatkezelő program segítségével.

14 komment

A bejegyzés trackback címe:

https://statisztikaegyszeruen.blog.hu/api/trackback/id/tr1714878060

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

2019.06.16. 16:07:11

"Samu azt állította, hogy hosszútávon képes 150 pontos átlagot tartani, tehát a sokaság szórása (mü) egyenlő 150-nel." - mármint az átlaga

glantos70 2019.06.17. 09:56:07

@népszopás: Ismét köszönöm, hogy figyelmeztettél a hibára, azonnal javítom. A fene ezt a Samut... :-)

_Epikurosz_ 2019.10.14. 16:45:56

Ez de jó!!! Hogy ezt eddig nem vettem észre! Köszönöm!!! (Igen, megérdemli a sok felkiáltójelet, nagyon jó.)

glantos70 2019.10.15. 15:11:33

@_Epikurosz_: Én is köszönöm az elismerő szavakat! Remélem hasznos lesz számodra és élvezettel olvasod majd a többi bejegyzést is! :-)

felician 2020.01.04. 12:02:29

azt nem értem: azt mondtuk, hogy a mintaátlagok szórása a sokaság szórása/gyökn (vagyis szigma/gyökn) és ezzel számoltunk standardizáláskor a z érték kiszámításakor. A t-érték kiszámításakor, amikor eleve a mintaátlag szórásából (s) indulunk ki, ugyanúgy s/gyökn van a képletben, pedig itt nem a sokaság, hanem eleve a mintaátlagok szórása az s. Kérdés tehát, hogy miért kell itt is gyökn-nel osztani, miért nem simán az s van a nevezőben? Hiszen ez ekvivalens a szigma/gyökn-nel, nem?

felician 2020.01.04. 15:47:34

@felician : ... vagy az van, hogy a minták szórásából kiindulva (azt gyökn-nel osztva) becsüljük a mintaátlagok szórását... akkor érteném, csakhogy a 22,91 már a minták _átlagainak szórása_ (kiszámoltam az fentebbi adatokból) nem pedig a minták saját szórásainak az átlaga (nem tudom persze, ilyennel számolnánk-e).... lényeg, hogy akkor továbbra sem értem, miért kell gyökn-nel osztani...
... lehet, hogy van egy nagy félrekapcsolás a fejemben, már máskor is előjött statisztikatanulásnál....

felician 2020.01.04. 15:57:05

@felician : ja nem... mert a három játék együttesen egy három tagú minta, aminek van egy szórása, ebből kiindulva becsülöm a mintaátlagok szórását (a mű helyett, amit nem ismerek) akkor azt hiszem, vágom... kösz, hogy "hangosan" gondolkodhattam itt egy kicsit... :)

glantos70 2020.01.09. 16:58:33

@felician : Kösz a hangosan gondolkodást, nekem jó olvasni, mert sokszor én is pont ilyen bizonytalan vagyok. A t-próba esetében ugyanúgy mintaátlagok szórásával számolunk, mint a Z-próba esetében, vagyis ha ugyanazt az adatsort megvizsgálnánk Z-próbával vagy t-próbával, ugyanazt a próba statisztikát kapnánk. Az s/gyök(n) a Centális Határeloszlás Tétele miatt van, nem a két próba különbségéből adódik. A két próba különbsége abban van, hogy a Z-próba esetében a normál eloszlás, a t-próba esetében pedig t-eloszlás megfelelő tagja alapján határozzuk meg a kritikus értéket, ami alapján döntünk.

glantos70 2020.01.09. 19:09:12

@felician : Bocs, egy apróságot elfelejtettem. Z és t értékét tényleg ugyanúgy számoljuk ki, de amíg Z esetén a SOKASÁG szórását használjuk, addig t esetén a MINTA szórását helyettesítjük a képletbe...

GasparYeno 2020.11.30. 10:57:25

Halihó, lehet egy kérdésem? A 22.91 az hogyan jött ki? sqrt{(abs[115-120])^2+(abs[145-120])^2+(abs[100-120])^2/3} = 18,7 nem?

GasparYeno 2020.11.30. 11:13:07

@GasparYeno: na erre rájöttem, viszont az a kérdésem, hogy azt honnan tudom, hogy mikor n és mikor n-1, amivel osztanom kell? itt miért pont n-1?

glantos70 2020.11.30. 14:44:37

@GasparYeno: Jogos a kérdés. A rövid válasz az, hogy ha ismered a sokaság átlagát, akkor n-nel osztasz, de ha nem ismered a sokaság átlagát és ezért a minta átlagát használod, akkor n-1-el. Ha részletesebben is érdekel, akkor keresd meg a következő cikket a blogon.

statisztikaegyszeruen.blog.hu/2019/02/24/az_n-1_rejtelye
statisztikaegyszeruen.blog.hu/2019/03/12/az_n-1_rejtelye_2_resz

Ez két videó, ahol erről részletesen írtam...

GasparYeno 2020.12.03. 21:33:35

Igen, megértettem! Tulajdonképp hasonló, mint az, hogy miért lehet nagy mintaelemszám mellett jó biztonsággal használni a Student eloszlás helyett újra a normális eloszlást, sokaság varianca ismeret nélkül. Köszi szépen!

glantos70 2020.12.04. 10:23:56

@GasparYeno: Tulajdonképpen igen, bár erre így még sosem gondoltam. :-)
süti beállítások módosítása