Statisztika egyszerűen

Mágikus jelek nélkül...

A mintaátlagok tánca

2021. május 28. 08:00 - glantos70

Sokaság és minta

the-power-of-dance.jpg

Az előző héten bemutattam egy ügyes weboldalt, amely segít megérteni a sokaság és a minták kapcsolatát (Megtaláltam a Szent Grált). Abban a bejegyzésben csak végigmentem azon, hogyan kell kezelni magát az oldalt, miket lehet beállítani, de arról nem esett szó, hogyan lehet értelmezni a látottakat. 

Az a határozott véleményem, hogy a statisztika sikeres elsajátítása 90%-ban az adatok mögött húzódó modellek megértésén múlik és csak 10%-ban a képletek bemagolásán. Viszont pont ezt a legnehezebb átadni a hétköznapi halandóknak. A fent említett weboldal jó néhány olyan funkcióval rendelkezik, amely segíthet abban, hogy a sokaság és a minta viszonya könnyebben megérthető legyen. A továbbiakban erre szeretnék bemutatni néhány példát. 

Mielőtt azonban belevágunk, azt javaslom, hogy nyisd meg a szimuláció oldalát és próbáld meg te is elvégezni a következőkben ismertetett feladatokat. Az animációkat nem fogom tudni itt bemutatni, csak a magyarázatokat tudom hozzátenni a látottakhoz. A link a szimulációs oldalhoz:

https://www.esci.thenewstatistics.com/esci-dances.html

Kezdjük akkor az elején. Amikor meg akarunk tudni dolgokat egy sokaságról, ez pont amiatt van, mert nem ismerjük a sokaság ezen tulajdonságait, csak feltételezéseink vannak ezekről. Márpedig a célunk pont az, hogy megismerjük ezeket a tulajdonságokat. 

Természetesen a sokaság létezik, csak objektív okok miatt nem tudjuk megvizsgálni az összes elemét. A sokaság tulajdonságait sajnos csak az abból kivett minták segítségével tudjuk megismerni. A következő képen látható is a minta, amelyet a vizsgált sokaságból vettünk ki. A kis üres karikák reprezentálják a minta elemeit, a zöld pont pedig a minta átlagát. A minta átlaga majdnem megegyezik a sokaságunk feltételezett átlagával, ami nagy szerencse, hiszen ez így egy erős bizonyítéka annak, hogy a feltételezésünk a sokaság átlagáról helyes... Azért mielőtt nagyon beleéljük magunkat ebbe a gondolatba, azért álljunk meg egy percre...

A biztonság kedvéért vegyünk még egy mintát a sokaságból és nézzük meg azt is.

A második minta átlaga nem egyezik meg az első mintáéval, és persze a sokaság feltételezett átlagával sem. Abban biztosak vagyunk, hogy mindkét mintát a vizsgált sokaságból vettük ki. Akkor most mit tegyünk? Van két mintánk, az egyik minta igazolja, a másik viszont nem bizonyítja a sokaság átlagáról tett feltételezésünket. Vagyis az eredmény 1:1. Vegyünk ki egy harmadik mintát? Legyen!

Van három mintánk, és ezek háromféle eredményt hoztak. Kár volt ezt folytatni, mert a túl sok minta csak összezavarja az embert... Mit láthatunk akkor, ha nagyon sok mintát veszünk ki ugyanabból a sokaságból? Az mindenképpen látható, hogy a mintaátlagok közül csak nagyon kevés olyan van, amelyik megegyezik a vizsgált sokaság feltételezett átlagával. Ebből látszólag arra lehet következtetni, hogy a sokaság átlaga nem egyezik meg azzal, amit mi eredetileg feltételeztünk. Jó, de akkor a sokaság valós átlaga kisebb, vagy nagyobb a feltételezettnél? Sajnos erre sem tudunk egyértelmű választ adni

Azonban még egy dolog megfigyelhető: Akármennyi mintát is veszünk a sokaságból, a minták átlagainak jelentős része egy megadott tartományban fog mozogni. Elképzelhető, hogy lesz néhány olyan pont, amely kívül fog esni ezen a tartományon, de a legtöbb pont ide fog esni. Direkt fogalmaztam így, mert azért azt nem jelenthetjük ki teljes bizonyossággal, hogy találunk egy olyan tartományt, amelybe egy adott sokaságból kivett ÖSSZES minta átlaga beleesik. De olyan tartományt meg tudunk adni, amelybe 100 mintából 95 vagy 99 esetében beleesik a mintaátlag ebbe a tartományba. (Bocs, a két piros vonalat én rajzoltam be az alábbi ábrába).

Van azonban itt még egy dolog, amiről beszélnünk kell ezzel a tartománnyal kapcsolatban. Ebben az esetben 20 darab mintákat vettem ebből a sokaságból. Szerencsére megvan a lehetőség arra, hogy kipróbáljuk, hogy mi történik akkor, ha sokkal kevesebb, vagy sokkal több mintát veszünk ki a sokaságból. Ha például a minták elemszámát 10-re csökkentjük, akkor a következőt láthatjuk.

Ha viszont az ötelemű minták helyett ötvenelemű mintákat veszünk ki a sokaságból, akkor a mintaátlagok tartománya lecsökken! 

Vajon mi lehet ennek az oka? Ha feltételezzük, hogy a sokaság minden egyes elemének azonos az esélye arra, hogy bekerüljön egy mintába. akkor körülbelül hasonló mennyiségű mintaelem fog belekerülni a mintába a sokaság minden részéből. Egy kevés elemből álló minta esetében nagyobb az esélye annak, hogy a minta elemeinek jelentősebb része a sokaságnak egy bizonyos részéből származik, ami erősen torzítja a mintaátlagot. Ha kipróbálod kis és nagy elemszámú mintákkal a szimulációt, akkor azt láthatod, hogy minél nagyobb elemszámú mintákat veszel ki, annál kevesebbszer fordul elő olyan minta, amelynek az átlaga szignifikánsan kiesik a nagy többség által kieső zónából. 

Vagyis a mintaátlagok szóródása arányos a minták elemszámával? Ha eljátszadozunk egy kicsit a szimulációval, akkor tényleg valami ilyesmit láthatunk. Erről már volt szó korábban is (A nagy dobókocka kísérlet), mondjuk ott nem mentem bele annak a bizonyításába, hogy a mintaátlagok szórása tényleg megegyezik-e a sokaság szórásának és a minták elemszámának négyzetgyökével. Itt most erre is lehetőségünk van. Az egyszerűség kedvéért 9-elemű mintákkal kísérleteztem:

Az eredmény az elvárásoknak megfelelően alakult.

Nos, a sokaság szórása 18, a minták elemszáma 9 - vagyis 9-elemű mintákat vettünk ki a sokaságból - a mintaátlagok szórása pedig majdnem 6, vagyis a dolog működik. Márpedig nem is annyira az a fontos, hogy vajon be tudjuk-e bizonyítani a fenti állítást, hanem inkább az, hogy működik! Márpedig akárhányszor kipróbálhatod bármilyen minta elemszámmal, a mintaátlagok szórása mindig így fog alakulni!

Most nézzük meg, vajon van-e valamilyen jellegzetes eloszlása a sok-sok kivett minta átlagainak. Szerencsénkre a szimuláció erre is képes. 

Ha a mintaátlagokat csoportokba rendezzük és megnézzük, hogy melyik csoportban hány mintaátlag van, akkor azt tapasztalhatjuk, hogy a mintaátlagok gyakorisági eloszlása egy haranggörbére igen hasonlító alakzatot vesz fel. Vagyis a mintaátlagok nagy része a középponthoz közel helyezkedik el, és ahogyan távolodunk a leggyakoribb helytől, úgy fog egyre kevesebb mintaátlag esni az adott tartományba. A fenti ábrán még az is megfigyelhető, hogy a hely, ahová a legtöbb mintaátlag esik, egybeesik a vizsgált sokaság feltételezett átlagával! 

Ezt a kis gyakorlatot érdemes sokszor, sokféle beállítással eljátszani, például különféle sokaság átlagokkal, sokaság eloszlás típussal, illetve különféle minta elemszámokkal. Az átláthatóság kedvéért most megmutatom a sokaságot is, de ezúttal a sokaságunk NE legyen normál eloszlású, legyen az eloszlás aszimmetrikus.

Figyeljük meg, hogy ez esetben a minták elemszáma 50 volt. Mi történik akkor, ha kis elemszámú mintákat veszünk a sokaságból?

 Erre a jelenségre már utaltam egy korábbi cikkemben (Amikor túl kevés a vizsgálandó minta...), emiatt kell az egymintás és kétmintás t-próbák esetében emiatt feltételezzük, hogy a minta mögött lévő sokaság normál eloszlású.

Összegzés:

Ez a szimuláció nagyon ügyesen lett kitalálva és megvalósítva, a mintaátlagok "táncoltatásával" nagyon sok hasznos dolog megmutatható, mint például ez esetben a Centrális Határeloszlás tételének működése. Persze tudom, hogy a tétel mögött nagyon komoly matematikai törvényszerűségek működnek, amelyeket módszeresen le lehet vezetni, de a mi esetünkben a cél a megértés. Az, hogy elhiggyük, ezek a dolgok a sokasággal és a mintával így működnek. Mivel a szimuláció lehetőségei még ennél is gazdagabbak, ezért természetesen folytatni fogom a sokasággal és a mintákkal kapcsolatos további törvényszerűségek bemutatását.

6 komment

A bejegyzés trackback címe:

https://statisztikaegyszeruen.blog.hu/api/trackback/id/tr316527758

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Irbisz 2021.05.29. 07:03:33

"Az a határozott véleményem, hogy a statisztika sikeres elsajátítása 90%-ban az adatok mögött húzódó modellek megértésén múlik és csak 10%-ban a képletek bemagolásán. Viszont pont ezt a legnehezebb átadni a hétköznapi halandóknak. "
Nekem ehhez lenne egy megjegyzésem/kérdésem, nem az egyébként igen érdekes témához: akkor mi a teendő, ha nem hétköznapi halandók, hanem black beltek nem értenek ebben egyet? :)
Sok-sok éve amikor még foglalkoztam six sigmával, egy egyébként roppant okos kollégám felhivott, hogy a holland MBB aki a szokott negyedéves ellenőrző és coaching látogatása keretében nálunk volt, nem fogadja el azt a modellt és elemzést, amit valamilyen gyártási v. szimulációs problémára csinált.
Elmentem hozzájuk mint helyi sixsigma programvezető és lead BB és hármasban újra megbeszéltük a problémát. Lényeg a lényeg, egyetértés nem lett, szerintem a kollégámnak volt igaza, de a holland master black belt a kettőnk külön-külön elmondott érvelésével nem értett egyet, el is mondta miért nincs igazunk (szerinte). Mi is elmondtuk, hogy értjük amit mond, az matematikailag/statisztikailag korrekt is, de a gyakorlatban, erre a valós, fizikai problémára nem ez az eset vonatkozik. Utólag amikor újra átbeszéltük kettesben, szerintünk pont az volt a baj, hogy magát a fizikai problémát nem értette, ezért volt képtelen álláspontján változtatni és megérteni, miért nem jó az a modell, amit mondott.
Függetlenül attól, hogy ott kinek volt ténylegesen igaza , hogy lehet hasonló esetekben, ha maguk a hozzáértők sem egyeznek meg, eldönteni, mely vélemény a helyes?

fordulo_bogyo 2021.05.29. 07:03:35

Nagyon jo, elvezttel olvastam es jatszottam vele, koszonom, varom a folytatast!

glantos70 2021.05.29. 07:11:01

@Irbisz: Tökéletesen egyetértek veled abban, hogy a statisztika önmagában lehet egy nagyon szép tudomány, de az igazi értékét és hasznosságát az adja, ha az elméleti módszereket gyakorlati problémák megoldására használjuk.

Ebben az esetben viszont az elméleti szakember nem kerülheti el a gyakorlati (fizikai) probléma megértésétől.

Azért lenne két kérdésem a történettel kapcsolatban:

- Jelentős volt a különbség a kollégád és a MBB eredménye között?
- Kit igazolt a valóság? A kollégádat vagy a MBB-et?

glantos70 2021.05.29. 07:12:22

@fordulo_bogyo: Köszönöm a biztatást, nagyon örülök, hogy tetszett. A folytatás majdnem kész, még igényel némi simogatást. Igyekszem jövő péntekre elkészülni vele... :-)

Irbisz 2021.06.02. 14:23:42

@glantos70:
sajnos kb. 15 év távlatából a részletekre nem emlékszem, az biztos, hogy a kollégámé megfelelő eredményt adott, az adott termék a szerződés szerint fizetett selejtarány alá csökkent - azaz a BB projekt elérte a célját. Kontrollt viszont nem tudtak csinálni, mert egy igen magas gépóradíjú gépen nem lehetett szabadon tesztelgetni, újabb tesztgyártmányokat csinálni (nem csak az óradíj, az alapanyag is drága volt).
Egy szó mint száz, nem tudtuk meg, milyen eredményt adott volna a holland javaslata, az biztos csak, hogy a kollégámé jó volt (ami nem zárja ki természetesen azt, hogy ne lehetett volna még jobb a másik módszer, bár a technológiai probléma nem teljes megértése ezt elég valószerűtlenné teszi).

glantos70 2021.06.02. 14:30:05

@Irbisz: Nem tudtam, hogy ilyen régi a történet. Szerintem bármilyen elemzésnél az a legfontosabb, hogy az elemzés eredménye korreláljon a valósághoz. Ez alapján a kollégádnak valószínűleg igaza volt, azt meg sose fogjuk megtudni, vajon a hollandnak igaza volt-e. Őszintén szólva nálunk is gyakorlat, hogy egy adott feltevést többféle módszerrel is ellenőrzünk, de megértem, hogy abban az esetben ez nem volt lehetséges.
süti beállítások módosítása