Statisztika egyszerűen

Mágikus jelek nélkül...

Gyakoribb-e a kék szem a szőkék között? – Khí-négyzet próba a függetlenség vizsgálatára

2019. július 17. 09:30 - glantos70

Statisztikai elemzések

Ok, tehát nemcsak az illeszkedést lehet vizsgálni khí-négyzet próbával, hanem a függetlenséget is. Aha, de mit is jelent az, ha két jelenség független egymástól? A hétköznapi életben két jelenségről akkor mondjuk, hogy függetlenek egymástól, ha azok nem befolyásolják egymást. Ha az egyik jelenséghez tartozik egy A esemény, a másik jelenséghez pedig egy B esemény, akkor a két eseményt akkor nevezzük egymástól független eseményeknek, ha az A esemény eredményét nem befolyásolja a B esemény eredménye és fordítva, a B esemény eredményét sem befolyásolja az A esemény eredménye. Matematikusok ezt úgy szokták megfogalmazni, hogy ha az A és a B események függetlenek egymástól, akkor az A és a B események együttes bekövetkezésének a valószínűsége megegyezik az A esemény és a B esemény külön-külön vett bekövetkezési valószínűségének a szorzatával.

Egy kicsit gyakorlatiasabb példán bemutatva a fenti állítást, a kérdést úgy is meg tudnám fogalmazni, hogy vajon gyakrabban fordul-e elő, hogy valaki szőke hajú és kék szemű, mint mondjuk az, ha valaki barna vagy fekete hajú és kék szemű? Ha igen, akkor ez véletlen vagy konkrét oka van a jelenségnek?

Természetesen nem én vagyok az első, akinek ez a kérdés az eszébe jutott, jómagam ismételten csak oktatási céllal tettem fel a fenti korántsem költői kérdést. Szerencsére a neten találhatók olyan források, amelyek bemutatják az ezirányú kutatási eredményeket és még adatokat is tartalmaznak, amelyeket ügyesen fel lehet használni demonstrációs célokra. Én a következő cikket találatam a legalkalmasabbnak az éppen aktuális célom megvalósítására, azaz a függetlenségvizsgálat khí-négyzet próba segítségével történő megvalósításának bemutatására:

The Genetic Overlap Between Hair and Eye Color, Twin Research and Human Genetics, Volume 19, Issue 6, December 2016, pp. 595-599
https://www.cambridge.org/core/journals/twin-research-and-human-genetics/article/genetic-overlap-between-hair-and-eye-color/FA37E967F280E4B313B171A326AAFBB3/core-reader

A fenti tanulmányban bemutatott kutatás célja az volt, hogy bebizonyítsa azt, hogy a hajszín és a szemszín genetikailag meghatározottak és öröklődnek. Ennek érdekében összehasonlítottak egy 1908-ban és egy 2004-ben készült adatbázist, hogy megvizsgálják, hogy vajon változott-e a szőke hajú és kék szemű emberek aránya a holland népesség körében a két időpont között eltelt kb. száz év során.

Természetesen a teljesség igénye nélkül most csak két táblázatot szeretnék bemutatni, amelyek a fent említett statisztikai teszt bemutatását segítenék elő. A következő táblázatokban összegyűjtötték az 1908-ban és a 2004-ben gyűjtött adatokat a hajszín és a szemszín szerint csoportosítva, amelyeket használni fogok a khí-négyzet próba bemutatására.

A fenti két táblázat hajszín és szemszín szerint csoportosítva tartalmazza a fent említett két adatbázis adatait. Mindkét változó (a hajszín és a szemszín is) kategória változók, hiszen az adatok véges számú, de kettőnél több különböző kategóriába vannak osztva. Mindkét táblázat az egyes kategóriákba tartozó egyedek mennyiségét, azaz az egyes kategóriákhoz tartozó gyakorisági adatokat tartalmazzák, tehát például az első táblázat szerint 91 olyan személy szerepel az adatbázisban, akiknek barna szeme (Brown eyes) és szőke haja (Blond hair) van.

A kérdés tehát az, hogy van-e valamilyen kapcsolat a hajszín és a szemszín között, vagy ezek teljesen függetlenek egymástól. Ezek szerint a nullhipotézis az, hogy a hajszín és a szemszín között semmilyen összefüggés sincs, az ellenhipotézis pedig az, hogy van valamilyen összefüggés a hajszín és a szemszín között, azaz, ha valaki szőke hajú, akkor nagyobb valószínűséggel lesz-e kék szemű, mintha vörös vagy barna haja van. Ahhoz, hogy ezt megtudjuk, készítenünk kell egy másik táblázatot, amelyet kontingencia táblázatnak szoktak becézni. A kontingencia szó egyébként esetlegességet, illetve előre nem látott eseményt vagy veszélyforrást is jelent. Ezek közül a kifejezések közül talán az esetlegesség szó felel meg leginkább a tábla tartalmának, hiszen azért hozzuk létre, hogy a táblában szereplő adatok esetlegességét, azaz véletlenszerűségét vizsgáljuk. A kontingencia táblázatot kombinációs táblázatnak is szokták nevezni, mert a táblázat egyes mezői az adott sorban és az oszlopban található kategóriák kombinált gyakoriságát tartalmazzák. Ha még visszaemlékszel az illeszkedésvizsgálatról szóló cikkre (Karl Pearson és a rulettkerék rejtélye – Khí-négyzet próba az illeszkedés vizsgálatára), ott is volt egy tapasztalati adatsor és egy elméleti adatsor, ezeket hasonlítottuk össze, hogy mennyire hasonlítanak egymásra. Tulajdonképpen itt is erről van szó. Az eredeti adatok felelnek meg a tapasztalati adatoknak, a kontingencia tábla adatai pedig az elméleti adatok, amelyeket akkor kaptunk volna, ha az adott cellához tartozó kategóriák kapcsolata teljesen esetleges, azaz nincs köztük kapcsolat.

Először a 2004-es adatokat elemeztem. Az elemzéshez a fenti adatok alapján elkészítettem az eredeti táblázatot táblázatkezelőben és hozzáadtam az oszlop-, és a sorösszegeket, mert ezek kellenek majd a kontingencia tábla elkészítéséhez.

 

Viszont a kontingencia tábla elkészítéséhez szükséges egy kis magyarázat. Vissza szeretnék térni a cikk elejére, ahol azt mondtam, hogy két esemény akkor független egymástól, ha az események együttes bekövetkezésének valószínűsége megegyezik a két esemény külön-külön történő bekövetkezésének szorzatával. Nézzük most meg ezt egy példán.

A fenti táblázat bal felső mezőjében található azon személyek száma (91 db), akik szőke hajúak és barna szeműek. Rendben, de mennyi lenne a szőke hajú és barna szemű emberek előfordulásának elméleti gyakorisága. Ha feltételezzük, hogy a szőke haj és a barna szem előfordulása nem függ egymástól, akkor természetesen a szőke hajú emberek és a barna szemű emberek előfordulási gyakoriságának szorzata. Rendben, akkor mennyi a szőke hajú emberek átlagos előfordulási gyakorisága? Ebben az esetben ez az összes szőke hajú ember előfordulásának és a minta összes elemének hányadosa!

 

Mit jelentenek ezek? Az összes vizsgált egyed (3619 db) között 1480 db egyed volt szőke hajú (függetlenül a szeme színétől), illetve 667 db egyed volt barna szemű (függetlenül a haja színétől). Ha feltételezzük, hogy a szőke hajszín előfordulási gyakorisága független a barna szemszín előfordulásától és fordítva, akkor a kombinált előfordulási gyakoriság.

Csakhogy ez nem előfordulási gyakoriság, hanem előfordulási valószínűség! Ahhoz, hogy megkapjam az előfordulási gyakoriságot, ahhoz meg kell szoroznom a kapott eredményt az összes előfordulással, azaz 3619-el. Ha a 0,07544-et megszorzom 3619-cel, akkor 273-at kapok. Ez a 273-as érték az, amit akkor kellene kapnom, ha a szőke haj és a barna szem teljesen függetlenek lennének egymástól. Ezt az értéket most ki kell számítanom a fenti táblázat összes cellájára és ezek alapján el kell készítenem az új táblázatot, ez lesz a kontingencia tábla.

 

Ha itt egyszeri 3619-cel egyszerűsítek, akkor megkapom a hivatalos képletet, amit mindenhol tanítanak a kontingencia tábla kiszámításakor:

 Az így kapott táblázat a következőképpen néz ki:

 

Most, hogy megvannak a tapasztalati (Observed) és az elméleti (Theoretical) értékek, elkezdhetem kiszámítani a khí-négyzet értéket. A khí-négyzet statisztika kiszámítása ugyanaz, mint az illeszkedésvizsgálat esetében:

Az egyszerűség kedvéért a fenti két táblázatot összekombinálom egy harmadik táblázatba, amelynek minden mezőjébe az adott mezőhöz tartozó khí-négyzet érték található. Ha megkaptam az összes cellára khí-négyzet értékét, akkor ezeket összegezve megkapom a keresett khí-négyzet értéket.

vagy részletesen, ahol az első oszlopban szereplő rövidítések a fenti táblázat mezőit jelölik, pl.: BSZ = Barna szem / Szőke haj:

 

Amint az látható, egy jó magas számot kaptunk. Igen ám, de ezt a khí-négyzet értéket milyen khí-négyzet határértékhez hasonlítsuk? Ahhoz, hogy ezt megkapjuk, egyrészt meg kell határoznunk a szabadsági fokot (DF), majd a jó öreg négyjegyű függvénytáblázatból ki kell keresnünk a 95%-os megbízhatósági szinthez tartozó határértéket. A szabadsági fokot úgy kapjuk meg, ha kivonunk a sorok és az oszlopok számából is egyet, majd a kapott értékeket összeszorozzuk.

ahol

szf – a szabadsági fokok száma
s – a sorok száma
o – az oszlopok száma

Az így kikeresett érték:

 

Mivel a kapott khí-négyzet érték (358) sokkal nagyobb, mint a táblázatból kikeresett khí-négyzet határérték (9,49), ezért a nullhipotézist elutasítom és az ellenhipotézist fogadom el, azaz a hajszín és a szemszín nem függetlenek egymástól.

Az 1908-ban gyűjtött adatok (2b táblázat) vizsgálata hasonló eredményeket hozott:

Ebben az esetben a szabadsági fokok száma nem 4 hanem 9, mert ott mind a sorok, mind pedig az oszlopok száma eggyel nagyobb volt. Így a khí-négyzet próba határértéke 169 lett, de ezzel szemben 57 522 áll a teszt végeredményeképpen, így ebben az esetben is el kell vetnem a nullhipotézist és el kell fogadnom az ellenhipotézist.

Ezt egyébként be is bizonyították, mivel a hajszín és a szemszín is egy enzim, az úgynevezett melanin mennyiségétől függ a szervezetben. A szőke hajú és kék szemű emberek szervezetében ez az enzim kisebb mennyiségben található meg, mint a sötét hajú és sötét szemű emberekében, emiatt fordul elő lényegesen többször a kék szem a szőke hajú embereknél.

A következő bejegyzésben be fogom mutatni, hogy mindezt hogyan kell elkészíteni Minitab-ban.

5 komment

A bejegyzés trackback címe:

https://statisztikaegyszeruen.blog.hu/api/trackback/id/tr7914902164

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

fordulo_bogyo 2019.07.18. 04:42:54

Nagyon jo elemzes (nem az elso, rendszeresen elvezettel olvaslak). Ha megengedsz egy aprosagot egy biologusnak:
A melanin az maga a pigment, a szinanyag, az enzim amely kulcsfontossagu ennek a szinanyagnak az eloallitasaban az a tirozinaz.
en.wikipedia.org/wiki/Tyrosinase

glantos70 2019.07.18. 09:16:51

@fordulo_bogyo: Nagyon szépen köszönöm a helyesbítésed. Én nem értek a biológiához, úgyhogy erre sohasem jöttem volna rá, valószínűleg rosszul fordítottam le az eredeti cikket, vagy félreértettem valamit. Az úgy helyes, hogy "Ezt egyébként be is bizonyították, mivel a hajszín és a szemszín is egy enzim, az úgynevezett tirozináz enzim mennyiségétől függ, amely a melanin pigment mennyiségét szabályozza a szervezetben."?

Ha igen, akkor kijavítom. Mégy egyszer kösz, hogy jelezted a hibát.

glantos70 2019.07.18. 09:19:42

@Exploiter: Köszönöm a dicséretet és örülök, hogy tetszett. :-)

fordulo_bogyo 2019.07.18. 12:12:25

@glantos70: A kerdes kicsit osszetettebb, nem egyetlen gen (es az altaluk kodolt enzim) szerepel a kerdesben.
En azt irnam, hogy
"Ezt egyébként be is bizonyították, mivel a hajszínt és a szemszínt is ugyanannak a pigmentnek (melanin) mennyisége es eloszlasa hatarozza meg."
süti beállítások módosítása