Statisztika egyszerűen

Mágikus jelek nélkül...

Mi is az a hipotézis vizsgálat?

2021. március 19. 08:00 - glantos70

Hipotézis vizsgálatok

A napokban a kollégáimnak próbáltam elmagyarázni az egymintás Z-próba lényegét és rájöttem, hogy nem igazán tudom értelmesen elmagyarázni, hogy mi is az a hipotézis vizsgálat és miért kell ezt pont úgy csinálni, ahogyan azt csináljuk. Állati régóta töröm ezen a fejem, de eddig még nem sikerült igazán plasztikusan megvilágítani a probléma lényegét. Most újra megpróbálok nekifutni a dolognak…

A történet újra ott indul, hogy van egy populáció, amelyet meg szeretnénk ismerni, de ez komoly akadályokba ütközik, a sokaság teljes megismerése valamilyen ok miatt lehetetlen. Képesek vagyunk a sokaságból mintát vagy mintákat venni, meg tudjuk vizsgálni a minták tulajdonságait és ez alapján képesek vagyunk következtetni bizonyos dolgokra. Azt azonban még véletlenül sem lehet kijelenteni, hogy a sokaság tulajdonságai megegyeznek egy abból kivett minta tulajdonságaival. A minta tulajdonságai csakis önmagára vonatkoznak. Ha veszünk a populációból egy másik mintát, annak már más tulajdonságai lesznek, pedig ugyanabból a sokaságból vettük ki őket. Ezt próbáljuk ki, mert el kell hinnünk, hogy ez így van. Készítsünk 10 cetlit, a cetliket számozzuk meg egytől tízig és dobjuk bele őket egy kalapba.

pelda <- c(seq(1:10))
pelda

A parancsok hatására a következő eredményt kapjuk:

Mivel most az a cél, hogy mindent R-ben mutassak be, ezért a fenti példát is R-ben készítem el. A fenti kód egy kissé kínainak néz ki, de igazából nem bonyolult. Megkértem az R-t, hogy hozzon létre egy ’pelda’ nevű változót. A ’c()’ függvény használatával létre lehet hozni bármilyen sorozatot, legyen az számok, szövegek, logikai értékek, illetve ezek keverékeinek sorozata. A ’seq()’ függvény segítségével pedig szekvenciákat lehet készíteni, vagyis a jelen esetben alkalmazott ’seq(1:10)’ létrehozza számok sorozatát egytől tízig. Így a fenti kód azt az utasítást adja a fordítónak, hogy hozza létre számok sorozatát egytől tízig és ezt helyezze el a ’pelda’ nevű változóba. Ha ezekután egyszerűen begépeljük a változó nevét, az R ki fogja írni a tartalmát.

Következő lépésként vizsgáljuk meg a ’pelda’ tulajdonságait.

atlag <- mean(pelda)
szoras <- sd(pelda)

atlag
szoras

Tehát a ’pelda’ adatsor átlaga 5,5, szórása pedig körülbelül 3. Most vegyünk ki a kalapból becsukott szemmel három cetlit.

minta1 <- sample(pelda, size = 3, replace = TRUE)

Az első minta a hatot, a kettőt és a négyet tartalmazza. Ennek a három elemű mintának az átlaga 4, szórása pedig 2. A mintának sem az átlaga, sem a szórása nem egyezik meg a ’pelda’ nevű adathalmazzal, pedig abból vettük ki. Most vegyünk ki egy másik három elemű mintát a ’pelda’ adatsorból!

minta2 <- sample(pelda, size = 3, replace = TRUE)
minta2

atlag2 <- mean(minta2)
szoras2 <- sd(minta2)

atlag2
szoras2

Természetesen a második minta tulajdonságai még véletlenül sem egyeznek meg a ’pelda’ adatsor, vagy az első minta tulajdonságaival. Ezzel sikerült teljesen elveszíteni a talajt a lábunk alól. Ott tartunk, hogy van a kezünkben egy minta és a minta vizsgálatából szeretnénk megtudni valamit a sokaságról. De melyik sokaságról? Honnan tudjuk, hogy a mintát éppen melyik sokaságból vettük ki?

Hogyan? Nemcsak egy sokaságunk van? A gyakorlatban valószínűleg tényleg csak egy van, de elméletileg akár végtelen számú különböző sokaságot is el tudunk képzelni, hiszen a vizsgálandó sokaságunk tulajdonságairól nem tudunk SEMMIT! Az első mintában kapott 6-ot, 2-őt és 4-et kivehettük volna a következő tíz számból is.:

2, 4, 6, 8, 10, 12, 14, 16, 18, 20

vagy ebből is:

2, 3, 4, 5, 6, 7, 8, 9, 10, 11

De miért lenne igaz, hogy egy szám csak egyszer szerepel a sokaságban?

2, 4, 6, 2, 4, 6, 2, 4, 6, 2

Sőt, az sem szükségszerű, hogy 10 cetli van a kalapban, hogy az összes papírdarabra  pozitív egész szám van írva, sőt még az sem, hogy az összes papíron szám szerepel, és így tovább…

Azon persze lehetne vitatkozni, hogy a fent említett 6, 2 és 4 melyik adatsor esetében hány mintavételből hányszor jönne ki, de mivel fogalmunk sincs, hogy hány cetli van a kalapban és mi is van tulajdonképpen rájuk írva, ez megint csak nem visz sehova. Talán az, ha nagyon sok mintát vennénk a kalapból és megszámolnánk, hogy hány esetből hányszor jön ki pont a 6, a 2 és a 4…

Fogadjuk el, hogy nem tudjuk, hogy mi van a kalapban és kész. Tulajdonképpen két dolgot tudunk megmondani a mintavétel eredménye alapján. Az egyik az, hogy a kalapban biztosan van egy olyan cetli, amire 6, egy másik, amire 2 és egy harmadik, amire 4 van írva.

A másik az, ami érdekes a számunkra. Az, hogy kizárhatjuk az összes olyan lehetséges esetet, amikor a kalapban lévő cetlik között nincs legalább három olyan cetli, amelyek közül az egyikre 6, a másikra 2, a harmadikra pedig 4 van írva! Vagyis az nem lehet, hogy a cetlik például így vannak megírva:

1, 3, 5, 7, 9, 11, 13, 15, 17, 19

vagy így:

1, 3, 5, 1, 3, 5, 1, 3, 5, 1

vagy így:

január, február, március, április, május, június, július, augusztus, szeptember, október, november, december

És ezt megint csak a végtelenségig lehetne folytatni.

Tehát két végtelen sok elemből álló halmaz áll egymással szemben. Az egyik azoknak a potenciális sokaságoknak a halmaza, amelyekből a mintát kivehettük, a másik pedig azoknak a sokaságoknak a halmaza, amelyekből nem.

Akkor a fentiek alapján mi az egyetlen dolog, amit biztosan be fogunk tudni bizonyítani a minta alapján? Nem az, hogy mi van, hanem az, hogy mi NINCS a kalapban!

Ha a kihúzott három cetlire a 6, a 2 és a 4 van ráírva, akkor biztosak lehetünk abban, hogy mely a cetliknek mely kombinációi NINCSENEK a kalapban. A végtelen sok lehetőség közül kizárhatjuk azokat, amelyekben nincs benne legalább egyszer a 6, a 2 és a 4. Hurrá, még mindig végtelen sok cetli kombináció maradt…

Emiatt folyamodunk ahhoz a módszerhez, hogy felállítunk egy hipotézist, azaz kitalálunk egy feltételezést. Például azt mondjuk, hogy a kalapban lévő egyik cetlire sincs ráírva a hetes szám. Ez lesz a nullhipotézisünk. Kihúzzuk az első mintát, a cetliken szereplő számok a már megszokott 6, a 2 és a 4. Jó, akkor most fellélegezhetünk, elfogadjuk a nullhipotézist, majd elégedetten szürcsölünk egyet a teánkból… Ja, nem.

Merthogy az rendben van, hogy a három kihúzott cetlin nincs hetes szám, de fogalmunk sincs arról, hogy azokon a cetliken, amely benne maradtak a kalapban, vajon nem-e szerepel legalább egy hetes. Vagyis attól, hogy elfogadtuk a nullhipotézist, semmivel sem lettünk boldogabbak. Sajnos ebben az esetben nem mondhatjuk azt, hogy elfogadtuk a nullhipotézist – vagyis azt, hogy a kalapban nincs 7-es – csak annyit jelenthetünk ki, hogy

nincs elegendő bizonyítékunk arra vonatkozóan, hogy a kalapban nincs 7-es egyik cetlin sem!

Mi történik akkor, ha a második mintát húzzuk ki a cilinderből, a 7-et, a 3-at és az 1-et? Mivel a mintában volt egy olyan cetli, amelyen a 7-es szám szerepel, ezért a nullhipotézist elvetjük és az ellenhipotézist fogadjuk el, vagyis

biztosan állíthatjuk, hogy a kalapban NEM LEHET olyan számsorozat a cetliken, amelyek közül egyik sem 7!

Vagyis a hipotézis vizsgálat célja nem egy állítás igazolása, hanem pont ellenkezőleg! Az a cél, hogy bebizonyítsuk egy állításról, hogy az nem igaz.

A történet nagyon fontos tanulsága az, hogy ha a hipotézis vizsgálat eredményeként nem sikerül elvetni a nullhipotézist, akkor a teszt eredményeként csak annyit tudunk leírni, hogy nincs elegendő bizonyítékunk arra, hogy a nullhipotézist el tudjuk vetni. Vagyis például egy számítási feladat esetében is egy hasonló szöveges értékeléssel kell kiegészíteni a feladat megoldását.

Nem egy könnyű téma... :-)

20 komment

A bejegyzés trackback címe:

https://statisztikaegyszeruen.blog.hu/api/trackback/id/tr7616388808

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

fordulo_bogyo 2021.03.22. 11:30:27

Naiv kivulallokent azt mindom, hogy kicsi a populaciod is es nagyon-nagyon kicsi a minta, igy semmit nem fogsz megtudni rola.. (eztrem eset: mintakent kihuzol egy szamot).
Valoszinuleg van valamifel statisztikak torveny, szabaly, hogy mekkora minta kell ahhoz, hogy egy populaciorol realis kepet kapj.
Mas: a nullhipotezis az barmi eszement dolog lehet (pl: az hogy a kalapban nincs 7-es... miert ne lenne, nincs okunk feltetelezni), vagy illik, hogy legyen valami alapja?
OFF: az R-t nem hasznalo olvasok (nem akarok ujjal mutogatni) konnyebben megertik R nelkul ugyanezt a tortenetet...

glantos70 2021.03.22. 11:42:36

@fordulo_bogyo: Teljesen jogos, de nem is az volt a célom. Azt szerettem volna valahogyan bemutatni, hogy miért nem bizonyítani akarjuk a nullhipotézist, hanem elvetni. Számomra ez is az egyike azoknak a homályos kérdéseknek, amelyet korábban sohasem értettem meg.
Más: Természetesen kell, hogy legyen alapja a nullhipotézis megállapításának. Például az egymintás Z-próba esetében miért nem az a nullhipotézis, hogy a minta átlaga NEM egyezik meg a sokaság átlagával? És utána miért nem ezt próbáljuk bebizonyítani? Miért van az, hogy az az értékes információ a számunkra, ha ELVETJÜK a nullhipotézist? Erről szeretne szólni ez a cikk.
OFF: Értettem, jogos! :-)

fordulo_bogyo 2021.03.23. 07:49:00

@glantos70: Hm... miert nem ELDONTENI akarjuk, hogy igaz vagy nem igaz a nullhipotezis? Egyforman ertekes informacio, ha cafoljuk vagy ha bizonyitjuk.
Valamit nem ertek?

glantos70 2021.03.23. 08:03:36

@fordulo_bogyo: Most már érted, miért okoz ekkora problémát elmagyarázni ezt a diákoknak... :-)

Vegyük elő még egyszer a kártyás példát: Tegyük fel, hogy a nullhipotézisem az, hogy a kártyalapokból álló sokaságban van legalább egy 7-es, ezt akarom igazolni. Húzok három kártyalapot. A három kihúzott kártyalap között van egy 7-es, ezért boldogan elfogadom a nullhipotézist. De mi történik akkor, ha a három kihúzott lap között nincs 7-es? Elegendő bizonyíték ez arra, hogy kijelenthessem, hogy a kártyalapokból álló sokaságban nincs 7-es? Mi a véleményed?

fordulo_bogyo 2021.03.24. 10:09:23

@glantos70: Velemny: ez egy rossz nullhipotezis, vagy rossz modszert valasztottal az igazolashoz.
A. "Húzok három kártyalapot. A három kihúzott kártyalap között van egy 7-es, ezért boldogan elfogadom a nullhipotézist." - BIZONYITOTTAD a nullhipotezist
B. " De mi történik akkor, ha a három kihúzott lap között nincs 7-es?" - ebbol nem tudtal meg semmit a nullhipotezisedrol. Egeszen addig, amig az utolso hartyat is meg nem nezed, fennallhat ez a helyzet, akkor is ha van 7-es, csak az bujkal.

Egyebkent ez nem meglepo, hiszen valaminek a nem-letet akarod bizonyitani amikor a "a kártyalapokból álló sokaságban van legalább egy 7-es" cafolatat keresed.

A kerdes megfordul, ha nullhiptezisnek azt valasztod, hogy NINCS a csomagban 7-es. Ebben az esetben CAFOLNI tudod csak mintevetellel, bizonyitani csak az osszes kartya megnezesevel.

Nem erretm, hova akarsz ezzel eljtni, tovabbra is ugy latom, hogy
- a nullhipotezis onkenyes (az ellentete is lehet a nullhipotezis, ez az en dontesem)
- attol fuggoen, hogy mit valasztok nullhipotezisnek, lehet, hogy bizonyitani akarom, lehet, hogy cafolni, es lehet, hogy egyszeruen el akarom rola donteni, hogy igaz, vagy nem igaz? Szerintem legtobb esetben ez a helyes hozzaallas.

Hozza kell tennem, hogy kutato biologus vagyok es tobb evtizednyi munkassagom soran soha nem alkalmaztam formalis null hipotezist.
Ugy gondoltam, hogy az elfogultsaghoz vezet, ha valamit bizonyitani vagy cafolni akarok, az elfogulatlan hozzaallas a kerdes, hogy ez-vagy az az igaz.

fordulo_bogyo 2021.03.24. 10:09:26

Ujra olvasom.
"Akkor a fentiek alapján mi az egyetlen dolog, amit biztosan be fogunk tudni bizonyítani a minta alapján? Nem az, hogy mi van, hanem az, hogy mi NINCS a kalapban!
Ha a kihúzott három cetlire a 6, a 2 és a 4 van ráírva, akkor biztosak lehetünk abban, hogy mely a cetliknek mely kombinációi NINCSENEK a kalapban. "
NEM. Abban lehetunk biztosak, hogy 6 a 2 es 4 VAN a kalapban.

"felállítunk egy hipotézist, azaz kitalálunk egy feltételezést."
Pl rozsaszin spagettiszorny NINCS a kalapban. Hm?
nincs elegendő bizonyítékunk arra vonatkozóan, hogy a kalapban nincs rozsaszin spagettiszorny egyik cetlin sem!

Mas:
"Mi történik akkor, ha a második mintát húzzuk ki a cilinderből, a 7-et, a 3-at és az 1-et? Mivel a mintában volt egy olyan cetli, amelyen a 7-es szám szerepel, ezért a nullhipotézist elvetjük és az ellenhipotézist fogadjuk el, vagyis biztosan állíthatjuk, hogy a kalapban NEM LEHET olyan számsorozat a cetliken, amelyek közül egyik sem 7!"

Mar hogyan allithatnad ezt? Szamlatalan olyan szamsorozat tovabbra is lehetseges, amiben nincs 7.
Gondolj bele: "Kihúzzuk az első mintát, a cetliken szereplő számok a már megszokott 6, a 2 és a 4. " Itt van egy amiben nincs 7, a kovetkeztetesed teves!
Csak arra kovetkeztethetsz, hogy van legalabb egy amibe szerepel a 7.

glantos70 2021.03.24. 12:35:16

@fordulo_bogyo: Először is köszönöm, hogy ennyi időt és energiát szánsz a cikkre. Megpróbálom még egyszer elmagyarázni a dolgot, hátha most sikerül.

Azt tisztáztuk, hogy a sokaságoknak két végtelen halmaza áll egymással szemben. Azok, amelyekben van hetes szám és azok, amelyekben nincs. Ha a kihúzott számok között van hetes, az persze jó, de akkor még mindig végtelen számú mintából húzhattam ki a számokat. Ha nincs hetes a mintában, akkor is végtelen számú sokaságból húzhattam ki a mintát, csak másikból. Ezért csak azt tudom bizonyítani, hogy a mintát NEM vehettem ki az egyik sokasághalmazból vagy a másikból.

Az viszont valahol teljesen igaz, hogy teljesen mindegy, hogy az a nullhipotézisem, hogy a mintában van hetes és azt vetem el, vagy az, hogy nincs hetes és azt vetem el.

Az egyetlen dolog, amit be tudok bizonyítani, hogy a mintát nem az egyik, hanem a másik sokaságcsoportból húztam ki, vagyis csak valaminek a tagadása

glantos70 2021.03.24. 12:36:11

@fordulo_bogyo: Ezt a videót meg kell néznem még vagy kétszer-háromszor, mert elsőre nem fogtam, hogy mi is volt a poén (de ez valószínűleg az én hibám...)

fordulo_bogyo 2021.03.24. 14:46:06

@glantos70: Nincs mit megkoszonnod, szeretnem megerteni.
Most attol tartok eppen teljesen elvesztettem a fonalat, az utolso valaszodat nem ertem.

Eddig azt hittem, hogy egy konkret sokasagrol/halmazrol/kartyacsomagrol van szo.
Amely halmazban vagy van 7-es vagy nincs.
Ha a kihúzott számok között van hetes, akkor a halmazban biztosan van hetes. Bizonyitottuk. (nem ertem, hogy itt honnan jon: "de akkor még mindig végtelen számú mintából húzhattam ki a számokat", hiszen tudjuk, hogy egy konkert halmazbol vettunk mintat).
Ha nincs hetes a mintában, akkor nem tudjuk, hogy a teljes halmazban van, vagy nincs.

"Az viszont valahol teljesen igaz, hogy teljesen mindegy, hogy az a nullhipotézisem, hogy a mintában van hetes és azt vetem el, vagy az, hogy nincs hetes és azt vetem el."

Eddig ugy ertettem, a hipotezis az volt, hogy a _sokasagban_ es nem a _mintaban_ van hetes (vagy nincs).

"Az egyetlen dolog, amit be tudok bizonyítani, hogy a mintát nem az egyik, hanem a másik sokaságcsoportból húztam ki, vagyis csak valaminek a tagadása."
Eddig arrol volt szo, hogy van egy sokasag/halmaz, amibol mintat veszunk, nem az, hogy van sok kulonbozo sokasag, es azt szeretnenk eldonteni, hogy a minta melyik sokasagbol/halmazbol valo.

Ez lehet, hogy csak szemantika, es arra gondolsz, hogy az az egy halmaz, amit vizsgalunk, az nagyon sokfele lehet, es ezek kozul az elkepzelt sokfajta lehetoseg kozul probaljuk kivalasztani, hogy a vizsgalt halmazt melyik elkepzeles irja le?

Akkor is:
"Az egyetlen dolog, amit be tudok bizonyítani, hogy a mintát nem az egyik, hanem a másik sokaságcsoportból húztam ki, vagyis csak valaminek a tagadása."
Valoban tagadas az, hogy nem az egyik csoportbol van
De ugyanakkor allitas az a masik csoportbol valo.
Attol fuggoen, hogy mi volt a nullhipotezis, cafolhatod/tagadhatod vagy bizonyithatod.

Mi az amit nem ertek?

glantos70 2021.03.24. 14:59:22

@fordulo_bogyo: A francba, elírtam.

"... Azt tisztáztuk, hogy a sokaságoknak két végtelen halmaza áll egymással szemben. Azok, amelyekben van hetes szám és azok, amelyekben nincs. Ha a kihúzott számok között van hetes, az persze jó, de akkor még mindig végtelen számú (mintából) SOKASÁGBÓL húzhattam ki a számokat. Ha nincs hetes a mintában, akkor is végtelen számú sokaságból húzhattam ki a mintát, csak másikból. Ezért csak azt tudom bizonyítani, hogy a mintát NEM vehettem ki az egyik sokasághalmazból vagy a másikból. ..."

A kiindulási alap az, hogy a sokaságot nem ismerjük, tehát nem látunk be a kalapba, csak a mintákat. A videó annyiban passzol ide, hogy a riporter mond három számot a megkérdezett járókelőknek és azt kéri, hogy ez alapján mondják meg a szabályt, amire a riporter gondolt. Azaz egy minta alapján mondjanak valamilyen következtetést a mögötte álló ismeretlen sokaságra vonatkozóan.

"... Akkor is:
"Az egyetlen dolog, amit be tudok bizonyítani, hogy a mintát nem az egyik, hanem a másik sokaságcsoportból húztam ki, vagyis csak valaminek a tagadása."
Valoban tagadas az, hogy nem az egyik csoportbol van
De ugyanakkor allitas az a masik csoportbol valo.
Attol fuggoen, hogy mi volt a nullhipotezis, cafolhatod/tagadhatod vagy bizonyithatod. ..."

Ez az, amire azt írtam, hogy ebben igazad van. Ez már csak játék a szavakkal, hogy a nullhipotézisem egy tagadás és ezt elfogadom, vagy a nullhipotézisem egy állítás, amit utána letagadok...

fordulo_bogyo 2021.03.25. 08:52:07

@glantos70: Koszi a raforditott idot!
Tovabbra sem ertem:
" Ez már csak játék a szavakkal, hogy a nullhipotézisem egy tagadás és ezt elfogadom, vagy a nullhipotézisem egy állítás, amit utána letagadok..."
Nem lehet, hogy a nullhipotézisem egyallitas és ezt elfogadom, vagy a nullhipotézisem egy tagadas, amit utána letagadok/cafolok?
Ez szerintem nem szavakkal valo jatek, hanem komoly kerdes.

glantos70 2021.03.25. 09:09:29

@fordulo_bogyo: Úgy értettem, hogy játék a szavakkal, hogy akármerről is közelítem meg a kérdést, mindenképpen egy tagadás lesz a vége.

Most had váltsak át az egymintás Z-próbára. Ott ugye van egy mintánk, amit kivettünk egy sokaságból. Azt szeretnénk igazolni, hogy a mintát egy bizonyos sokaságból vettük ki. De ezt nem tudjuk igazolni, mert a mintát ugyanúgy kivehettük ebből a sokaságból és még végtelen sok másikból is. Csak azt tudjuk egyértelműen bizonyítani, hogy a mintát NEM vehettük ki az adott sokaságból.

Ha ismerjük a sokaság átlagát és szórását, illetve a minta elemszámát, akkor a Centrális Határeloszlás tétele alapján tudjuk, hogy ha ebből a sokaságból nagyon sok ugyanennyi elemű mintát vennénk, akkor azoknak milyen tartományban lennének az átlagai, hiszen a mintaátlagok átlaga megegyezik a sokaság átlagával, a mintaátlagok szórása pedig a sokaság szórása és a minták elemszámának négyzetgyöke.

Vagyis amikor azt mondjuk, hogy az egymintás Z-próba nullhipotézise az, hogy a mintát az adott átlagú és szórású sokaságból vettük ki, és a minta vizsgálata alapján elfogadjuk a nullhipotézist, akkor azt mondjuk, hogy ezt a mintát kivehettük a sokaságból. De kivehettük végtelen másik sokaságból is, nem biztos, hogy pont ebből vettük ki. Ezért a nullhipotézis elfogadása nem egyértelmű bizonyíték!

Az egyértelmű bizonyíték az, ha a nullhipotézist elutasítjuk, azaz a teszt eredménye alapján a nullhipotézist elvetjük, mert az az igazi bizonyíték, ha kijelenthetjük, hogy ezt a mintát ebből a bizonyos sokaságból NEM VEHETTÜK KI!

Ezért van az, hogy ha a nullhipotézist elfogadjuk, akkor csak azt szabadna odaírni a teszt eredményéhez szöveges értékelésként, hogy "nincs elegendő bizonyítékunk" arra, hogy ezt a mintát pont ebből a sokaságból vettük ki.

A kártyalapos példára visszatérve: Azzal, hogy vitatkoztál, rávezettél a példa gyenge pontjára, mégpedig arra, hogy amíg a statisztikai tesztek esetében van egy szabály, ami miatt csak az egyik irányú negatív bizonyításnak van értelme, addig a kártyás példa esetében mindkét nullhipotézis értelmes, amely összezavarja a hallgatókat.

glantos70 2021.03.25. 09:17:11

@fordulo_bogyo: Érdekes kérdés, hogy mi lenne akkor, hogy az egymintás Z-próba esetén az lenne a nullhipotézis, hogy a mintát NEM a megadott átlagú és szórású sokaságból vettük ki. Tegyük fel, hogy a teszt alapján kijön, hogy a Z próbastatisztika értéke nagyobb, mint a kritikus Z határérték. Ebben az esetben a nullhipotézist elfogadjuk. Ez egy egyértelmű döntés? Igen, mert igazoltuk, hogy a mintát nem ebből a sokaságból vettük ki.

És mi lenne akkor, ha az jön ki, hogy a Z próbastatisztika kisebb, mint a kritikus Z határérték? Ez esetben a nullhipotézist elvetem, és azt állítom, hogy nincs arra bizonyítékom, hogy a mintát NEM ebből a sokaságból vettem ki, azaz akár még ebből is kivehettem, de lehet, hogy egy másikból vettem ki.

Vagyis az eredmény ugyanaz! Csak kergetem a saját farkamat ... :-)

A kérdés, hogy akkor a konvenció miért az, hogy a nullhipotézis az, hogy a mintát a megadott sokaságból vettük ki?

glantos70 2021.03.25. 10:31:45

@fordulo_bogyo: A Wikipédián találtam ezt a szócikket:

en.wikipedia.org/wiki/Exclusion_of_the_null_hypothesis

Ebben az áll:

"... In inferential statistics, the null hypothesis (often denoted H0) is a default hypothesis that a quantity to be measured is zero (null). Typically, the quantity to be measured is the difference between two situations, for instance to try to determine if there is a positive proof that an effect has occurred or that samples derive from different batches. ..."

Vagyis konvenció szerint az a nullhipotézis, amikor két dolog különbsége nulla, az egymintás Z-próba esetében a sokaság és a minta átlaga.

Hogy ez mit jelent a kártyás példa esetében, arra még nem jöttem rá...

fordulo_bogyo 2021.03.27. 10:06:44

@fordulo_bogyo: Video: 4 percnel arrol beszel, hogy a tudomanyos modszer az, hogy cafoljuk a hipotezist, nem az, hogy bizonyitsuk, es a cikked is errol beszel, erre figyeltem fel.

fordulo_bogyo 2021.03.27. 10:07:26

Azt hiszem rajottem, mi a problemam. En altalaban a nullhipotezisrol gondolkoztam, mikozben a poszt es te ennek egy spcialis eseterol beszeltel.
Amirol te beszelsz, az annak eldontese, hogy egy adott minta az ilyen-vagy-olyan eloszlasu sokasagbol szarmazik-e.
Amire en gondoltam, az az, hogy van egy tetszoleges eldontendo kerdesem, amirol van egy kiindulasi hipotezisem.
Abbn az esetben, ha a nullhipotezis csak arrol szol, hogy a minta az (mondjuk) normal eloszlasu sokasagbol valo, vagy sem, azt hiszem, nem okoz problemat belatnom, elfogadnom, EBBEN AZ ESETBEN a lehetseges ket kimenet, hogy
- biztos, hogy nem abbol szarmazik (A)
- az adatok alapjan nem eldontheto, lehet, hogy igen, lehet, hogy nem (B)

Az (A) cafolja a nullhipotezist, a (B) nem mond rola semmit.

Mas esetekben fenntartom a velemenyemet, hogy egy akarmilyen vizsgalatnal (amikor nem azt nezzuk, hogy milyen elszolasu sokasagbol valo a minta, hanem masrol van szo, pl, hogy van-e osszefugges ket valtozo kozott), akkor a kiindulasi hipotezisunket cafolhatjuk, vagy bizonyithatjuk, es mindket eredmeny egyforman ertekes.

Koszonom az ram forditott figyelmet es idot.

kikeriborsó 2021.06.29. 08:20:02

Statisztikai tesztelésnél elsöfajú hiba elkövetésének valószínüségét akarjuk kontroll alatt tartani. Ha kontrolláltuk az elsöfajú hibát, akkor azt a statisztikai próbát választjuk, ahol a másodfajú hiba elkövetésének valószínüsége a legkisebb. Tehát a "legerösebb" tesztet választjuk. Az alapvetö tesztek mind rendelkeznek ilyen optimalitási kritériumokkal, nem véletlenül ezeket használják. Bármilyen intuitívak is a tesztstatisztikák (t, Z, meg a többi), ezek mögött mélyebb "soul searching" volt a 20. század folyamán.

Általában meg lehet fordítani a hipotéziseket. Kivéve:

@glantos70: "Érdekes kérdés, hogy mi lenne akkor, hogy az egymintás Z-próba esetén az lenne a nullhipotézis, hogy a mintát NEM a megadott átlagú és szórású sokaságból vettük ki."

Az alfa szintü próbák eröfüggvénye a legtöbb leírható szituációban folytonos. 5%-os szintü tesztnél: Tehát a null hipotézis paraméter tartománya alatt 0.05 (vagy az alatt) halad az eröfüggvény. Mivel az alternatív egy pont, ahol elvileg nincs szakadás, így ott is max 0.05 a függvény. Nem tudunk olyan statisztikai próbát konstruálni, ami megfelelöen "erös": a másodfajú hiba elkövetésének valószínüsége marad 95%. Továbbá az (alfa szintü) statisztikai próbák között sem tudunk választani.

Ezért is egyszerü hipotézis a null hipotézis.

A világ statisztikusai általában nem ragaszkodnak olyan mereven ehhez az "elutasítjuk /elfogadjuk" dologhoz. Mert ez részben igazából filozófia / tudományelmélet. A mögötte rejlö statisztika pedig ennyi amit leírtam.

glantos70 2021.06.29. 08:47:41

@kikeriborsó: Abban egyetértek, hogy a hipotézisek szövegezése jórészt filozófiai / hitbeli kérdés. Azt is látom, hogy vannak olyan szakértők, akik szimplán elfogadják a nullhipotézist és vannak olyanok, akik úgy fogalmaznak, hogy nincs elegendő bizonyíték a nullhipotézis elutasítására.

Nem tudom, hogy mi az az erőfüggvény (nyilván emiatt szégyellem magam), ezért beírtam a gugliba és találtam is egy egészen érdekes cikket ugyanebben a témában.

Vita László: A statisztikai próbák gondolatvilága
www.ksh.hu/statszemle_archive/2011/2011_10-11/2011_10-11_1130.pdf

Érdekes, hogy ő is feszegeti a nullhipotézis és az ellenhipotézis felcserélésének problematikáját:

"... Könnyű észrevenni, hogy az első- és másodfajú hiba tartalmilag megegyezik a bírósági ítélkezésben elkövethető kétféle hibával. Ha ugyanis a vádlott ártatlanságát nullhipotézisnek tekintjük, akkor a bírósági ítélkezés elsőfajú hibája az ártatlan vádlott elítélése, míg a másodfajú hiba a bűnös vádlott felmentése. Érdemes felfigyelni arra, hogy ha a vádlott bűnösségét tekintjük H0 -nak, akkor az első- és másodfajú hiba is szerepet cserél. ..."

A nullhipotézis elfogadásáról alkotott véleménye hasonló az enyémhez, noha az ő érvelése egyértelműen más alapokon nyugszik.

"... Az első- és másodfajú hibával kapcsolatos fejtegetéseket azzal zárjuk, hogy H0 elvetése erős − „kemény” −, H0 megtartása (el nem vetése) azonban meglehetősen gyenge − „puha” − döntés. Ez azért van így, mert H0 elvetésekor minden további nélkül megadható és szükségképpen kontroll alá is vehető a hibás döntés esélye. Viszont H0 megtartása (el nem vetése) esetén ez nem tehető meg, mert a másodfajú hiba elkövetésének valószínűsége általában se nem ismert, se nem befolyásolható
közvetlenül. ..."

Még van benne sok egyéb érdekesség is, nagyon érdekes olvasmány...

kikeriborsó 2021.06.29. 15:10:36

Igen, Vita is azt mondja az idézeted alapján, hogy attól függöen érdemes megválasztani a nullhipotézist, hogy melyik esetben akarjuk kontrollálni az elsö fajú hibát. [Illetve melyik hiba "fontosabb" számunkra, akár pénzben kifejezhetö értékben.]

Ezt azzal egészíteném ki, hogy: ennek oka, hogy a populációs paramétert nem ismerjük. Egy alfa-szintü teszt (tehát amely az elsö fajú hiba elkövetését az általunk választott alfa szinten kontrollálja), a null hipotézis elvetése esetén a populációs paramétertöl függetlenül alfa valószínüséggel követi el az elsö fajú hibát [konstrukciójából kifolyólag]. Ha nem vetjük el a null hipotézist, de a populációs paraméter az alternatív hipotézis tartományába esik, akkor a másodfajú hiba elkövetésének valószínüsége viszont a populációs paraméter konkrét értékétöl függ. De ezt nem tudjuk kontrollálni, csak olyan tesztet tudunk választani, ami minden alternatívára a legerösebb (legkisebb másodfaju hiba valószínüség), de nem tudjuk, konkrétan mennyi az "erös".

Egy próba konzisztens, ha a próba ereje 1-hez tart nagy mintaelemszám esetén. Adott (de minden adott) alternatív paraméter mellett. Szerintem az egyszerübb tesztek mind konzisztensek.

Tesztelméleti gyorstalpaló.
süti beállítások módosítása