Statisztika egyszerűen

Mágikus jelek nélkül...

A t-próba elegendő bizonyíték?

2021. április 30. 08:00 - glantos70

Six Sigma in R

Kijelenthetjük-e egy minta átlagának vizsgálata (Amikor túl kevés a vizsgálandó minta…) alapján, hogy a mintát valóban a kérdéses sokaságból vettük ki?

Mi a helyzet a következő esetben? Adott egy sokaság, amelynek az átlaga 0, a szórása pedig 0,3. Ez nagyjából azt jelenti, hogy a sokaság elemei nagyjából -1 és +1 között szóródnak. Van egy mintánk, amely a következő 15 elemből áll:

Ha egymintás t-próba alkalmazásával megvizsgáljuk, hogy ezt a mintát kivehettük-e ebből a sokaságból, akkor a következőt kapjuk:

Az egymintás t-próba eredménye azt mutatja, hogy

  • a p-érték nagyobb, mint 0,05,
  • a 95%-os megbízhatósági intervallum alsó határa kisebb, a felső határa pedig nagyobb, mint 0, tehát nem zárható ki, hogy a sokaság és a minta átlaga megegyezik,

vagyis egyértelműen azt mutatja, hogy ezt a mintát kivehettük ebből a sokaságból.

A minta elemeit egy kicsit jobban megvizsgálva viszont azt látjuk, hogy van jó néhány olyan eleme ennek a mintának, amely mégiscsak kétségessé teszi azt, hogy ezt a mintát pont ebből a sokaságból vettem ki.

Ha a sokaság elemeinek 99,9%-a -0,927 és + 0,927 között van, akkor hogyan vehettünk ki ebből a sokaságból egy olyan mintát, amelyben van 2,14, -1,72 vagy -1,55?

Vajon mekkora a valószínűsége, hogy a sokaságunknak van olyan eleme, amely nagyobb, mint 2,14 vagy kisebb, mint -1,72 vagy netalán -1,55? (feltételezve, hogy a sokaság normál eloszlású)

Egy kicsivel látványosabb, ha egy diagramon is megmutatom a sokaság és a minta viszonyát (Az R-kódot a cikk végén található linkről le tudod tölteni).

Amint az látható, ezeknek az elemeknek az előfordulási valószínűsége a sokaságban igencsak elenyésző. Akkor most mennyire vehetem komolyan a t-próba eredményét? Ha esetleg hosszabb ideje olvasod a blogot, már találkozhattál ezzel a probléma felvetéssel (Ja, hogy szóródás is van a világon…! – Khí-négyzet teszt a variancia vizsgálatára (1-variance)), csak talán nem ennyire konkrétan megfogalmazva.

Szerencsére a fent említett blogbejegyzés bemutatja a módszert, amellyel össze tudjuk hasonlítani a minta és a sokaság varianciáját és egy másik bejegyzésben (Hogyan csináld Minitab-bal? - Khí-négyzet teszt a variancia vizsgálatára (1-variance)) már azt is bemutattam, hogy lehet egy ilyen vizsgálatot elkészíteni a Minitab program segítségével. Most viszont az a cél, hogy ugyanezt R-ben is elvégezzük.

Érdekes módon az R alapcsomagjában található ’var.test()’ függvény nem képes a fenti teszt elvégzésére, csak két minta varianciáját tudja összehasonlítani (F-teszt). Az ilyen típusú egymintás khí-négyzet teszt elvégzéséhez egy már korábban megismert csomagban találunk megoldást. Ez az ’EnvStats’ csomag, amelyről már korábban leírtam, hogy kifejezetten környezeti statisztikák elkészítésére fejlesztették ki. Ebben a csomagban található a ’varTest()’ függvény – amely neveik hasonlósága ellenére nem tévesztendő össze a fentebb említett ’var.test()’ függvénnyel – amelynek az alkalmazásával el tudunk készíteni egy ilyen vizsgálatot. A különféle R irodalmak ezt a tesztet egyébként „One-sample chi-square test for variance”-ként vagy „Single Variance Chi-Square Test”-ként, illetve ehhez hasonló elnevezésekkel hivatkozzák meg. A függvény bemutatásához a fenti példát szeretném felhasználni.

 A ’varTest()’ függvénynek szerencsére nincs sok paramétere, amit meg kellene / lehetne adni.

#egymintás khínégyzet próba a minta adatsor alkalmazásával
varTest(x = minta,
            sigma.squared = 0.09,
            conf.level = 0.95,
            alternative = "two.sided")

  • Az ’x =’ paraméter a vizsgált minta adatsor,
  • A ’sigma.squared =’ paraméter a sokaság elméleti varianciája (szerintem direkt lett „szigmanégyzet” a neve, nehogy a szórást írja be valaki). Ez esetben a sokaság elméleti szórása 0,3, amelynek a négyzete 0,09.
  • A ’conf.level =’ argumentummal lehet megadni, hogy milyen megbízhatósági szinten szeretnénk teszten (0,95 = 95%, 0,99 = 99%, stb.)
  • Az ’alternative =’ paraméterrel pedig azt tudjuk megadni, hogy kétoldali vagy egyoldali tesztet szeretnénk végrehajtani („two.sided” = kétoldali, „greater” = jobboldali, „less” = baloldali teszt - Igaz vagy hamis? – A hipotézis vizsgálatokról…)

A teszt eredménye elsőre kissé kuszának tűnhet, de a felépítése egészen hasonló az egymintás t-próbához.

A Chi-Squared = 201.98’ a teszt próbastatisztikája, ’df = 14’ jelentése csak annyi, hogy milyen szabadsági fokú khí-négyzet eloszlást használt a teszt a khí-négyzet határérték meghatározásához, a ’p-value = 2.2e-16’ jelentése pedig az, hogy 2,2 * 10^-16 az esélye annak, hogy a mintát egy olyan sokaságból vettük ki, amelynek a varianciája 0,09. Mivel ez egy igen kicsi szám, de mindenképpen kisebb, mint 0,05, kijelenthetjük, hogy a nullhipotézist elutasítjuk és elfogadjuk az ellenhipotézist, hogy ezt a mintát nem vehettük ki ebből a sokaságból.

Összegzés:

Szeretném kiemelni a fontosságát annak, hogy amikor azt vizsgáljuk, hogy egy mintát kivehettünk-e egy adott sokaságból, akkor nem elegendő a minta átlagának vizsgálata, mindenképpen meg kell vizsgálnunk a minta és a sokaság szórásának viszonyát is. Érdemes lehet még megvizsgálni, hogy vannak-e a mintában kieső értékek (Kancsal tengerész nem tud célozni! – Kieső értékek vizsgálata), de erről majd egy másik bejegyzésben még szó esik majd.

A bejegyzésben használt R kódokat innen tudod letölteni.

Források:

varTest function – R documentation
https://www.rdocumentation.org/packages/EnvStats/versions/2.3.1/topics/varTest

8 komment

A bejegyzés trackback címe:

https://statisztikaegyszeruen.blog.hu/api/trackback/id/tr9816431234

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

vmiki a troll 2021.05.02. 07:16:43

Ez egy álproblema: "Kijelenthetjük-e egy minta átlagának vizsgálata (Amikor túl kevés a vizsgálandó minta…) alapján, hogy a mintát valóban a kérdéses sokaságból vettük ki?"
Nem emlekszunk honnan vettuk ki?
Legkozelebb jobban figyeljunk, hogy honnan vesszuk ki. Ennyi.
Miert kene ahhoz statisztika, szamitogepes program kepletek, hogy honnan vettem ki valamit?

Attol felek, kevered ujbol (beszeltunk mar errol)... a minta alapjan a sokasagpt szeretned jellmezni, az egy ertelmes problema: a mintat ismered, de a teljes sokasagot nem. Mit mondhatsz a minta ismereteben a sokasagrol. EZ egy ertelmes gyakorlati kerdes.

glantos70 2021.05.02. 07:20:37

@vmiki a troll: Nem, ezt nem így kell érteni. Képzeld el, hogy elvégzel egy kísérletet, a kísérlet során mintát veszel egy "sokaságból" és vársz egy eredményt. Az eredmény vagy az lesz, amit vársz, vagy nem. Ha igen, akkor a mintát abból a sokaságból vetted ki, amelyikből vártad. Ha viszont nem, akkor kénytelen vagy elfogadni, hogy a minta egy másik sokaságból származik.

fordulo_bogyo 2021.05.03. 06:36:19

@glantos70: Ez szemantikai kérdésnek tunik de nagyon fontos szerintem megkulonboztetni. Tudjuk, hogy honnal vettuk a mintát. Nem csukott szemmel 5 sokaság közül valamelyik vettünk mintát, hanem egy konkrét sokasagbol. A kérdés az, hogy a konkrét vizsgált sokaság a minta ismeretebren, lehet-e olyan tulajdonságú amit amit épp feltételeztunk rola vagy ez valószínűtlen. Nem biztos, csak valamennyire valószínű, illetve nem valószínű. Azaz nem sokasagot választunk a mintankhoz, hanem a sokaság tulajdonságát vizsgáljuk a minta elemzésével.

fordulo_bogyo 2021.05.03. 06:36:21

@glantos70: Egy sokaság van, aminek a tulajdonsága ilyen, vagy olyan.

vmiki a troll 2021.05.03. 06:36:22

@glantos70: " Ha viszont nem, akkor kénytelen vagy elfogadni, hogy a minta egy másik sokaságból származik."
Kerlek probald meg ezt egy gyakorlati peldaval elmondani.
En probalom, de nem megy.
Van egy nagy kavicsgyujtemenyem. A kavicsok merete 1 es 10 cm kozott valtozik atlaguk 5 cm, szoras 3.
Kiveszek a gyujtemenybol 10 kavicsot, elvegzem rajta a fenti elemzest, hogy eldontsem, abbol a gyujtemenybol vettem-e ki a 10 kavicsot?
Hm?

glantos70 2021.05.03. 06:54:17

@vmiki a troll: Tegyük fel, hogy tüzépes vagy, és különböző méretű kavicsokat árulsz. A különféle méretű kavicstételeket méret szerint válogatják össze és meg van adva, hogy egy adott típusú kavicstételben mekkora kavicsoknak kell lenniük. Mondjuk beérkezik egy tétel kavics, amelynél a méret átlaga 5 cm, szórása 1 cm lehet. Kiveszel a vizsgált tételből 10 darab mintát és leméred a kavicsok méretét. A 10 darab kavics méreteinek átlaga 5 cm, de van köztük 1 cm-es és 12 cm-es is. Kiszámolod a kavicsok szórását és kiderül, hogy a 10 darab minta szórása 2,3 cm. Akkor most a tétel megfelel a követelménynek vagy sem? Elfogadod vagy megreklamálod?

A két sokaság, amiről beszéltem, a feltételezett sokaság (az átlag 5 cm és a szórás 1 cm), illetve a valós sokaság, amely vagy megegyezik a feltételezett sokasággal, vagy nem. Ezt csak a mintából ismerjük, a valóságban nem, hiszen sem időnk, sem lehetőségünk nincs arra, hogy a kavicstétel összes kavicsát megmérjük. Azt kell eldöntenünk, hogy a valóságban kapott kavicstétel, mint valós sokaság megfelel-e a feltételezett sokaságnak, vagy nem. De ezt csak a minta tulajdonságai alapján tudjuk megmondani.

vmiki a troll 2021.05.03. 23:38:46

@glantos70: Koszonom, ugy velem, ugyanazt mondjuk, csak maskent fogalmazunk.
Szerintem egyetlen sokasag van, az a valos sokasag ami eppen beerkezett.
Abban sem ketelkedik egyikunk sem, hogy a mintat az epp beerkezett valos sokasagbol vettuk.
A kerdes nem az, hogy a minta bbaol valo-e... termestesen abbol valo.
A kerdes, hogy a valos sokasag olyan parameterekkel rendelkezik-e, amit feltetelezunk (ami a szllitolevelen van), van a valos sokasag tuladonsagai a minta alapjan valoszinuleg nem olyanok, mint aminek feltetelztuk oket.
Tehat a mintabol a sokasag parameteire probalunk kovetkeznteni... es nem kulonbozo sokasagok kozott donteni, hogy ebbol valo-e a minta, vagy abbol.
Egyetlen sokasag, egyetlen tele kavics erkezett aznap, es biztos, hogy a minta abbol valo. A kerdes, hogy a sokasag olyan-e mailyennek igertek, vagy masmilyet kuldtek.
De csak egy szallitmany van, es a minta biztosan abbol valo. A kerdes annak az egy szallitmanynak a parameterei. Olyan parameterekkel rendelkezik az egyetlen valos sokasagunk, vagy nem olyanok a parameterei... de nincs masik sokasag, amibol a mintat vehettek volna.

Egyetertunk?
süti beállítások módosítása