Statisztika egyszerűen

Mágikus jelek nélkül...

Ha a hegy nem megy Mohamedhez...

2021. június 04. 10:16 - glantos70

Sokaság és minta

rocky-mountains-near-ward-colorado.jpg

A múlt heti bejegyzésben (A mintaátlagok tánca) megértettük, hogy egy adott sokaságból kivett minták tulajdonságai nem feltétlenül adják vissza a sokaság tulajdonságait, van ebben nem kevés bizonytalanság. Sajnos azonban ez nem változtatott azon az alaphelyzeten, hogy a mintát ismerjük, a sokaságot pedig nem. Pechünkre a hegy nem fog eljönni Mohamedhez, így szegény Mohamednek sem lesz más választása, mint elballagni a hegyhez. Ez azonban nem tűnik egyszerűnek...

Mielőtt belevágunk a történetünk folytatásába, ismét arra bátorítalak, kedves olvasó, hogy egy másik lapon nyisd meg a már korábban hivatkozott weboldalt, ahol a szimuláció található és játssz el a beállításokkal, készíts sok-sok mintát és próbáld ki mindazokat a dolgokat, amelyeket a továbbiakban megpróbálok elmagyarázni neked.

https://www.esci.thenewstatistics.com/esci-dances.html

Nos, a kiindulási pontunk ugyanaz, mint az előző cikkben. Van egy mintánk, amiről feltételezzük, hogy egy bizonyos sokaságból vettük ki.

A fenti ábrán lévő μ viszont csak egy feltételezés, nem vagyunk benne biztosak, hogy a sokaság átlaga valóban ennyi. Akkor viszont marad a nagy kérdés, hogy akkor vajon hogyan tudunk meggyőződni arról, hogy ezt a mintát valóban pont egy ilyen sokaságból vettük ki. 

Mivel a sokaság átlagát nem ismerjük, így jobb híján a minta átlaga alapján próbáljuk meg megbecsülni azt a tartományt, ahol a sokaság átlaga lehet! Hoppá, ez pont a fordítottja annak a gondolatmenetnek, amit eddig alkalmaztunk. Az előző cikkben sok mintát vettünk a sokaságból és azt láttuk, hogy a mintaátlagok jelentős része egy megadott tartományba esik. Most ezt a tartományt a minta átlagából becsüljük meg, és azt nézzük, hogy a sokaság feltételezett átlaga beleesik-e a mintaátlag alapján becsült tartományba:

Amennyiben ismernénk a feltételezett sokaság szórását is, úgy annak a felhasználásával tudjuk megbecsülni ezt a bizonyos tartományt, ha viszont nem, akkor sajnos nem marad más, csak a minta szórása. Ez persze további bizonytalanságot visz be a rendszerbe, mivel főleg kis elemszámú minták esetében jelentős eltérés lehet a sokaság és a minta szórása között. Ez nem feltétlenül igaz, de sohasem tudjuk, hogy ez a különbség mekkora. Sajnos a saját gyakorlatomban még kevés olyan feladattal találkoztam, amikor ismertem a sokaság szórását...

És hogyan határozzuk meg ezt a tartományt? A nagy dobókocka kísérletben (A nagy dobókocka kísérlet) azt tapasztaltuk, hogy a mintaátlagok szórása megegyezik a sokaság szórásának és a minták elemszámának hányadosával:

Vagyis csak annyit kellene tennem, hogy a minta átlagához átlagához hozzáadom, illetve abból kivonom a mintaátlagok szórásának kb. kétszeresét (normál eloszlás esetében a ± kétszeres szórástartományban van benne az elemek 95%-a), és akkor meg is kapom azt a tartományt, ahol a mintám átlaga mozoghat abban az esetben, ha azt a feltételezett sokaságból vettem ki.

Tehát, amennyiben a feltételezett sokaság átlaga beleesik ebbe a minta által megadott tartományba, akkor nem jelenthetjük ki azt, hogy a mintát nem ebből a sokaságból vettük ki. Próbáljuk ki ezt sok-sok mintával is:

A fenti példa azt mutatja be, amikor ugyanabból a sokaságból veszünk ki sok-sok mintát, akkor kb. 95%-os valószínűséggel - azaz 100 esetből kb. 95-ször - a sokaság feltételezett átlaga benne lesz a minta tulajdonságaiból számolt megbízhatósági intervallumban. De nem minden esetben!

Ahogy azt a fenti ábra mutatja, ritkán azért előfordul olyan eset is, amikor a sokaság feltételezett átlaga mégsincs benne a minta megbízhatósági tartományában ANNAK ELLENÉRE, hogy a mintát a sokaságból vettük ki. Ilyenkor sajnos hibás döntést hozunk. De tulajdonképpen nem is mondta senki, hogy a döntésünk minden esetben jó lesz, csak azt, hogy 95%-os megbízhatósággal lesz jó! 

Azzal, hogy milyen szigorúan fogjuk megadni az α értékét, mi magunk döntjük el, hogy mennyire akarunk biztosak lenni abban, hogy helyesen döntünk (Számítógépes bowlingozás egymintás Z-próbával).

Az az érdekünk persze, hogy minél biztosabbak legyünk a döntésünkben. De ha megnöveljük α értékét 95%-tól mondjuk 99%-ra, azzal lecsökkentjük a hiba valószínűségét, azonban megnöveljük a minták tulajdonságaiból számolt megbízhatósági tartomány szélességét, azaz növeljük a teszt bizonytalanságát!

Hogyan lehet akkor nagyobb megbízhatósági szint mellett mégis szűkíteni a minták megbízhatósági tartományát? Úgy, ha megnöveljük a minták elemszámát!

A minták elemszámának növelése azonban sajnos egyéb financiális, időbeni és akár morális kérdéseket is felvethet, így sajnos nem tudjuk elérni a tökéletességet, csak elfogadható kompromisszumokat tudunk kötni. Van, hogy inkább felvállaljuk a hibázás minimális lehetőségét a gyors és olcsó eredmény elérése érdekében, máskor inkább több időt és pénzt áldozunk a kísérletünkre annak érdekében, hogy a döntésünk helyesebb legyen. 

Összefoglalás:

Amikor egy kísérletet végzünk, akkor egy mintát veszünk ki a sokaságból, magáról a sokaságról nagyon keveset tudunk, maximum feltételezéseink vannak róla. Nem marad más hátra, minthogy a minta tulajdonságaiból próbáljunk meg következtetéseket levonni a sokaság tulajdonságaival kapcsolatban. Ahhoz azonban, hogy helyes döntést tudjunk hozni, ismernünk kell és el kell fogadnunk a sokaság és a minta kapcsolatának törvényszerűségeit. Nincs tökéletes döntésre lehetőségünk, a hiba valószínűsége mindig benne van a rendszerben, de a megbízhatósági szint helyes megválasztásával kiszámíthatóvá tudjuk tenni a döntésünk kockázatait. A minta elemszámának növelésével javítani tudjuk a becsléseink minőségét, de ezt sokszor behatárolják az időbeni, anyagi és egyéb lehetőségeink.

Források:

Geoff Cumming & Robert Calin-Jageman: Introduction to the new statistics: Estimation, Open Science, and Beyond, Routledge Subs. of International Thomson Org. 29 West 35th Sreet New York, NYUnited States, October 2016
ISBN:978-1-138-82552-9

Geoff Cumming youtube-csatornája
https://www.youtube.com/channel/UCwRbwVb6mRKuyXtV1td-vig

7 komment

A bejegyzés trackback címe:

https://statisztikaegyszeruen.blog.hu/api/trackback/id/tr6616571996

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

fordulo_bogyo 2021.06.07. 09:21:26

"Van egy mintánk, amiről feltételezzük, hogy egy bizonyos sokaságból vettük ki."
NEM! Biztos, hogy abbol vettuk is. Nem vagyunk szenukisek, felirtuk, honnam vettuk ki.
Ami ben tudunk, hogy az a konkret sokasag milyen tulajdonasagu!
Ahogy utana irod:
"A fenti ábrán lévő μ viszont csak egy feltételezés, nem vagyunk benne biztosak, hogy a sokaság átlaga valóban ennyi."
Tudjuk, hogy arrol a sokasagrol van szo, azt nem tudjuk, hogy ez milyen.
Bocs,ezt sokadszor hozom fel, es nem tunik ugy, higy akcetalnad. Miert nem?

Miert hasznalod ezt a nylevezete ujra?
"Tehát, amennyiben a feltételezett sokaság átlaga beleesik ebbe a minta által megadott tartományba, akkor nem jelenthetjük ki azt, hogy a mintát nem ebből a sokaságból vettük ki."
Tudjuk honnan vettuk ki. Azt nem tudjuk, hoy ahonnan kivettuk az milyen, azt szeretnek megismerni.

Ez korrekt:
"magáról a sokaságról nagyon keveset tudunk, maximum feltételezéseink vannak róla. Nem marad más hátra, minthogy a minta tulajdonságaiból próbáljunk meg következtetéseket levonni a sokaság tulajdonságaival kapcsolatban. "
tehet tudjuk, hogy abbol van a minta, azt nem tudjuk, hogy az pontosan milyen.

Bocs, de ezt nem tudom elengedni, ha ujbol es ujbol elohozod.
Kerlek tisztazzuk: van tobb ismert sokasag, es a kerdes az, hogy a minta melyikbol valo, vagy
cvan egy ismeretlen sokasag, amit a mintakon keresztul szeretnek megismerni?

glantos70 2021.06.07. 10:20:51

@fordulo_bogyo: Ez számomra is eléggé problémás. A dilemmát korábban megpróbáltam bemutatni a "Mi is az a hipotézis vizsgálat?" című cikkben, de nem volt túl sikeres... :-(

A problémám az, hogy ha mondjuk van egy sokaságom (jelöljük A-val), amely az 1, 2, 3, 4, 5, 6, 7, 8, 9, és 10 számokból áll. Azt feltételezem, hogy ebből a sokaságból veszem ki a mintát, amely a 3, 5 és 9 számokból áll. Mi történik akkor, ha a sokaságom (legyen B) az 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 és 12 számokat tartalmazza? A mintám vajon igazolja azt, hogy a 3-at, az 5-öt és a 9-et pontosan az A sokaságból vettem ki, amint azt feltételeztem és nem a B-ből?

Lehet azon vitatkozni, hogy akkor ez most egy sokaság vagy kettő, sajnos ezt én így tudom elképzelni magam előtt. Ettől függetlenül viszont marad a tény, hogy a nullhipotézis elfogadása NEM jelent egyértelmű bizonyítékot arra, hogy a mintát a feltételezett sokaságból vettem ki. Csak az jelent egyértelmű bizonyítékot, ha a nullhipotézist elvetjük! Tulajdonképpen ez az, ami miatt az egész hipotézis vizsgálatokkal csuklóztatjuk magunkat!

Ne érts félre, meggyőzhető vagyok az ellenkezőjéről, csak már egészen sokat agyaltam ezen az egészen, és magam se vagyok biztos abban, hogy hogy igazam van-e...

fordulo_bogyo 2021.06.07. 15:57:54

Koszonom a kifejtest.
Ugy gondoloom, hogy elmeletileg mindket kerdes valos,es egyforma ervenyessegu,
azonban a gyakorlatban csak az alabb B-vel jelolt az amivel foglalkozunk.
Te mintha felvaltva hol az egyik, hol a masik kerdesre keresnel valaszt.

A ketfele kerdes:

A.
Van ketto (vagy tobb) kulonbozo populacio, ismerjuk a populaciok adatait (atlag, szoras, esetleg az osszes elemuket is).
Valaki hoz nekunk egy mintat, es azt kell elfonteni, hogy a mintat vajon melyik polulaciok vette.
Meg tudjuk mondani, hogy lehetseges, hogy ebbol, vagy lehetseges, hogy a masikbol illetve a nullhipotezist elvetve megmonhatjuk, hogy nagyon kicsi a valoszinusege, hogy abbol vagy ebbol szarmazik a minta.
Ez lehet peldaul egy rendorsegi nymozas, vagy regeszeti kutatas, hogy a bunjel (homokszemek, kacsicsok, vernyomok stb) vagy a csereptormelek, eszkorzadab stb honnan szarmazik.

B.
Van egy (egyetlen) sokasag, amit nem ismerunk, csak feltetelezesunk van az atlagalrol, szorasarol elemeirol.
Ebbol a konkret sokasagbol veszunk mintat. Biztosan tudjuk, hogy a minta ebbol valo.
Arra a kerdesre keressuk a valaszt, hogy aminta alapjan lehetseges-e, hogy az a sokasag, amit vizsgalunk olyan tulajdonsagokkal (atlag, szoras, stb) rendelkezik, amit feltetelezunk (nullhipotezis), vagy nem olyan.
A legtobb esetben errol van szo, ismerjuk a minta szarmazasi helyet, arra a kerdesre keressuka valaszt, hogy az a sokasag, amibol a mintat vettuk, milyen tulajdonsagu.
Peldak: A zsakban mi a buzaszemek atlagos merete, mi a szoras, a konkret tengerparton mekkorak a kovek, a varos lakosai kozott hany lehet fertozott, vagy mi a varos lakosai magassaganak atlaga, szorasa- tudjuk, honnan van a minta, a minta alapjan szeretnek azta sokasagot megismerni.

Szamomra az A es B kerdes ket nagyon kulonbozo kerdes, azonban belatom, hogy ugyazazok a sataisztikai modszerek es ugyanugy alkalmazhato rajuk.

A - melyik (ismert) populaciobol van a minta
B - milyen a konkret populacio, ahonnan a minta szarmazik

glantos70 2021.06.07. 18:55:21

@fordulo_bogyo: Úgy érzem, hogy a fellelhető olvasmányok (direkt nem szakirodalmat írtam) tartalma is megoszlik a kérdésben. Több helyen is olvasható a "failed to reject the null hypothesis" kifejezés, amely inkább arra utal, hogy nincs elegendő bizonyítékunk arra, hogy elutasítsuk a nullhipotézist, vagyis a hipotézis vizsgálatok célja inkább a nullhipotézist, minthogy elfogadja. Más olvasmányok szerint viszont úgy van, ahogy te mondod.

Majd még vizsgálódom a témában...

fordulo_bogyo 2021.06.08. 08:30:58

Bocs, ugy tunik nem fejeztem ki magam erthetoen.
Amin en ragodok az az, hogy a nullhipotezis (amit elvetunk, vagy elfogadunk, ebbe nem akarok belemenni) az az, hogy
-
A. a minta melyik sokasagbol szarmazik (tobb lehetseges sokasag kozul kell valasztani)

vagy

B. AZ a konkret sokasag, amelyikbol a mintat vettuk az milyen jellemzokkel irhato le (tobb lehetseges tulajdonsag kozul kell valasztani)

glantos70 2021.06.10. 16:07:09

@fordulo_bogyo: Ezen gondolkodom két napja. Szerintem ez egy filozófiai kérdés.

Az első feltételezés, hogy van egy feltételezett sokaságom, ennek a tulajdonságai megfelelnek a feltételezésemnek vagy sem.

A második, hogy van két feltételezett sokaságom. Az egyiknek a tulajdonságai megfelelnek a feltételezésemnek, a másiknak pedig nem.

Szerintem mindkét feltételezés ugyanazt írja le, csak másképpen.

fordulo_bogyo 2021.06.12. 18:10:56

@glantos70: Matematikailag egyformak, egyetertek.
De egy kozepkori szerzetes, bioznyo Occam nevu, akiro egy borotvat elneveztek, nem javasolja, hogy tobbet tetelezzunk fel, mint ami alapbvetoen szukseges. [bocs]
Komolyan: matematikai jatekkent igazad van, egyenertekuek.
A valos eletben azonkban nincs (vagy eszmeletlenul ritka) az olyan problema, amikro azt keressuk, hogy a minta melyik ismert sokasagbol szarmazhatott a sok lehetseges ismert sokasagok kozuk, es nagyon gyakori az a feladat, hogy van egy nagyon konkret sokasag, aminek a tulajdonasagait szeretnenk mintavetellel megismerni. Tudjuk, hogy honnan szarmazik a minta.
süti beállítások módosítása