Statisztika egyszerűen

Mágikus jelek nélkül...

Hóesés Észak-Karolinában, avagy az extrémérték elmélet (Statistics of extremes)

2020. január 17. 08:00 - glantos70

Statisztikai elemzések

Most egy laza balkanyarral elugranék egy teljesen más téma irányába. Eddig az adathalmazok középértékeivel és szóródásával foglalkoztam, de most egy könyv olvasása során felkeltette az érdeklődésemet az extrém szélsőséges események előfordulási valószínűségeinek vizsgálata – legalábbis egy bejegyzés erejéig. Az extrém szélsőséges események – legyenek azok időjárási vagy természeti jelenségek vagy gazdasági események – hajlamosak súlyos következményekkel járni, mert ezekre általában nem vagyunk felkészülve.

A problémát a következő kérdéssel lehet megvilágítani: Vajon mekkora az évszázad áradása egy folyón. Ami természetesen egy fontos kérdés, hiszen úgy érdemes megépíteni a gátakat és kialakítani az árvízvédelmi rendszert, hogy lehetőleg még az évszázad árvize esetén is védelmet nyújtson. De hogy találjuk ki, hogy milyen magas lesz a vízállás az évszázad árvizekor, ha egyszer ez csak 100 évenként egyszer fordul elő? Még ha a rendelkezésünkre is állna az adatsor, ami az elmúlt 100 év legmagasabb vízállásait tartalmazza, akkor is honnan tudjuk, hogy az évszázad árvize már előfordult, és nem lesz még ennél is nagyobb katasztrófa a jövőben?

Először egy Leonard Henry Caleb Tippet nevű tudós foglalkozott ezzel a kérdéssel, aki egy teljesen más témával kapcsolatban dolgozta ki az első elméletet. Tippet úr a British Cotton Industry Research Lab-nél, vagy ahogyan akkoriban hívták, a Shirley Institute-nál dolgozott és a pamutfonalak erősségét vizsgálta. Arra jött rá a fonalak mikroszkópos vizsgálata során, hogy a szakadáskor a fonat leggyengébb szála szakad el először. De melyik a leggyengébb szál? Hogyan lehet matematikai módszerrel modellezni a leggyengébb szálat? Ezt a kérdést Tippet végül Ronald Fischer segítségével tudta megoldani.

Végül 1958-ban Emil Julius Gumbel publikálta a módszert a „Statistics of extremes” című tanulmányában, amely végül alapja lett a jelenleg alkalmazott módszereknek. A Gumbel által kidolgozott eloszlást becézik Gumbel eloszlásnak, de találkozni lehet még a Log-Weibull, a Gompertz, a Fischer-Tippett valamint az „Extreme Value Type I” elnevezésekkel is, csak hogy az élet egyszerű legyen. Napjainkra az alkalmazott statisztikai eszközök tárháza igen bőségessé vált, így nem is szeretném felvállalni azt, hogy mélyebben belemegyek a téma ismertetésébe. A bejegyzés terjedelme és a saját befogadóképességem korlátai miatt is inkább csak a Gumbel által kidolgozott megközelítést szeretném bemutatni egy példán keresztül.

A mai példám arról szól, hogy 2000 január 25-én rekord mennyiségű (20,3 hüvelyk, azaz 51 cm) hó zúdult az Észak-Karolinában található Raleigh-Durham reptérre, megbénítva a reptér forgalmát, illetve a környék energiaellátását és a helyi iskolák és munkahelyek életét is.

A súlyos következménnyel járó időjárási jelenségről szóló újságcikkek kiemelték, hogy ehhez hasonló mértékű hóesés csak 100-200 évenként egyszer fordul elő. Esetünkben a probléma felvetése az, hogy a múltbeli adatok alapján mennyire lehetséges megjósolni egy ilyen extrém időjárási jelenség bekövetkezésének valószínűségét.

A vizsgálatunkhoz felhasznált adatsor a környéken 1948 és 1998 között minden év január hónapjában leesett legtöbb hó mennyiségét tartalmazza:

Mielőtt azonban belefognék az elemzés elkészítésébe és a fent megfogalmazott kérdés megválaszolásába, tennék még egy kis kitérőt és általánosságban elmerülnék az extrémérték-elmélet alapjainak megértésében.

Korábban már foglalkoztunk azzal, hogy egy adott sokaságból kivett minták középértéke hogyan viselkedik és milyen eloszlást követ (A nagy dobókocka kísérlet), de azt még nem vizsgáltuk, hogy a minták szélsőértékei (legkisebb vagy legnagyobb elemei) vajon milyen eloszlást követnek. Ismételten tartózkodnék a száraz elméleti leírásoktól, inkább megint elkezdtem játszani a táblázatkezelővel és szimulálni a jelenséget. Most nem dobókocka dobásokat vizsgáltam, hanem készítettem egy 10 000 elemből álló standard normál eloszlású sokaságot (Első az egyenlők között – a standard normál eloszlás). A sokaság legkisebb értéke -4,44, a legnagyobb érték pedig 4,04. Ebből a sokaságból véletlenszerűen kiválasztottam 1000 darab 500 elemű mintát. Eddig ez nagyon hasonlít a korábbi dobókockás elemzéshez, itt azonban nem a minták átlagát számoltam ki, hanem kiválasztottam minden egyes mintából az 500 elem közül a legnagyobbat.

A kapott 1000 darab számot egy hisztogramon ábrázoltam:

Első ránézésre a hisztogram olyan, mintha egy aszimmetrikus eloszlás lenne, vagyis mintha itt nem érvényesülne a Centrális Határeloszlás tétele. És tényleg; Gumbel is azt találta, hogy a minták maximális értékei esetében az eloszlás balra dől és a jobb oldali „farka” hosszabb, mint a bal oldali (csak mellékesen jegyzem, meg, hogy a minták minimális értékei esetében ez pont fordítva van, vagyis az eloszlás jobbra dől és a bal oldali vége hosszabb). A fenti hisztogramon még az is megfigyelhető, hogy a vízszintes tengelyen 2,3 a legkisebb érték, amely már előfordult a minták maximumai között és még 4 feletti értékek is vannak az 1000 darab szám között, ami azért meglepő mert a 10 000 darabos sokaságban összesen kettő darab 3,9-nél nagyobb érték található.

Mivel a minták 500 elemből állnak, ezért a jelenség nem meglepő, a minta maximumok körülbelül ebbe a tartományba esnek.

Jó, de akkor milyen eloszlás alapján, illetve milyen sűrűségfüggvény segítségével tudjuk megbecsülni egy adott érték, vagy annál nagyobb érték előfordulási valószínűségét? Nos, Gumbel a következő függvényképletet adta meg a szélsőértékek becslésére:

Jó, ez most megint nagyon érthetetlenül néz ki, én is néztem bután, hogy ezt akkor most hogyan is kell használni. Ráadásul ennek a függvénynek – a normál eloszláshoz hasonlóan – van két paramétere, amelyet meg kell határozni, nyilvánvalóan a minta alapján. Mellékesen jegyzem meg, hogy még a hozzáférhető komoly szakirodalomban sem mindenütt hibátlan a képlet, sajnos több helyen is azt tapasztaltam, hogy a Z értékének meghatározásakor az e kitevőjében szereplő képlet elől hiányzott a mínusz-jel és úgy a függvény nem működik helyesen (kipróbáltam!).

De vissza az előző kérdéshez: mit jelent a µ és β a fenti képletben? A hozzáférhető irodalom ismételten különféle megközelítéseket ismertet. Az egyik helyen azt írták, hogy µ az adatsor móduszát jelenti, a másik helyen a minta átlagából kellett kivonni β-nak az Euler-féle számmal módosított értékét. A β-val kapcsolatban szintén csak abban egyeztek meg a különféle források, hogy ezt az adatsor szórása alapján kell kiszámítani, de a vélemények itt is megoszlottak.

A vicces az, hogy a sokféle variáció kipróbálása után arra a következtetésre jutottam, hogy a legjobb közelítést az adta, ha µ helyére az adatsor átlagát, β helyére pedig az adatsor szórását helyettesítettem be. Ez lehet, hogy amiatt van, mert a sokaság normál eloszlású, de az is lehet, hogy más az ok, de így működött a legjobban.

Vagyis először vettem az 1000 darab minta legnagyobb értékeit és kiszámítottam ezek átlagát és szórását. Ezután létrehoztam egy táblázatot, amelyben kiszámoltam az egyes x-értékekhez tartozó F(x) függvényértékeket:

A legelső oszlop tartalmazza a Z-értékhez tartozó kitevő számítását, a harmadik oszlopban ezt megszorzom -1-gyel, majd a negyedik oszlopban kiszámítom Z értékét. Az ötödik oszlopban ezt ismét megszorzom -1-gyel, majd a hatodik oszlopban kiszámítom az e a mínusz Z-ediken tagot. Az utolsó lépésben már csak ezt kell megszorozni a Z/β hányadossal, és már kész is a mutatvány. Innen nézve már nem is tűnik annyira bonyolultnak a történet, csak első ránézésre ijesztő a képlet.

Már csak össze kellett gyógyítani a hisztogramot a függvénygörbével és kész is a burkoló görbe. Nem olyan szép, mint az elmélet, de rá lehet fogni.

És akkor most vissza a hóviharhoz.

A fentihez hasonlóan elkészítettem a januári havazások elemzését, hogy megtudjam, mekkora a valószínűsége annak, hogy fél méter hó esik a környéken. A teljes táblázat így néz ki:

Először minden évből kiválasztottam azt a napot, amelyiken a legtöbb hó esett. Így minden évre egy érték jut. Ennek az adatsornak kiszámoltam az átlagát és a szórását, majd az egy napra eső hómennyiséget vettem x értékének, hiszen arra vagyok kíváncsi, hogy mekkora a valószínűsége annak, hogy 20,3 hüvelyknyi hó fog esni. Ehhez a fentihez hasonló módon kiszámoltam a Gumbel-eloszlás értékét minden x-re:

...

Végül a Gumbel-eloszlás értékeit egy grafikonon ábrázoltam, ahol a vízszintes tengelyen van a napi hómennyiség, a függőleges tengelyen pedig annak a valószínűsége, hogy ennyi hó fog esni:

Jól látható, hogy a 20 hüvelyknél nagyobb hó valószínűsége elenyésző, a becslés alapján kb. 0,026%. Ha ennek a számnak a reciprokát vesszük, akkor megkapjuk, hogy körülbelül 3700 évente egyszer fog ennyi hó leesni a környéken – figyelembe véve a történeti adatokat. Persze azt a kérdést is fel lehet tenni, hogy mekkora hó fog esni 100 évenként egyszer, hiszen a diagramról, illetve a fenti táblázatból ez is kiolvasható. Nos ez alapján 100 évenként egyszer fog 11,5 hüvelyknyi, azaz 28 cm hó esni.

Összegzés:

Nyilvánvaló, hogy az extrémérték-elmélet a fenti kis ujjgyakorlatnál sokkal többet jelent, de ez a kis játék talán jó volt arra, hogy megértsük a vizsgálat célját és elméletét. Akit jobban is érdekel, ez alapján már el tud indulni a komolyabb és modernebb elemzések irányába.

Források

David Salzburg: The Lady tasting tea, Henry Holt and Company, LLC, 2002

https://abc11.com/weather/raleigh-durham-area-sees-entire-winter-average-in-one-day/4866428/

https://www.newsobserver.com/news/weather/article125059664.html

https://projects.ncsu.edu/atmos_collaboration/nwsfo/storage/cases/20000125/

Statisztical Analysis Handbook 2018 edition – Gumbel and extreme value distribution
https://www.statsref.com/HTML/index.html?gumbel_extreme_value_distribut.html

Richard L. Smith: STATISTICS OF EXTREMES, WITH APPLICATIONS IN ENVIRONMENT, INSURANCE AND FINANCE, Department of Statistics, University of North Carolina, Chapel Hill, NC 27599-3260, USA – 12 March 2003
https://rls.sites.oasis.unc.edu/postscript/rs/semstatrls.pdf

 

4 komment

Egy kis sörhabológia – Példa egytényezős varianciaanalízisre (One-way ANOVA)

2020. január 10. 08:00 - glantos70

Statisztikai elemzések

Azt hiszem egyetlen sörkedvelőnek sem kell elmagyarázni, hogy egy jó sör élvezeti értékét – sok más tényező mellett – a sörhab különféle jellemzői adják. A mezei sörfogyasztó számára – mint amilyen én is vagyok – a sörhab minősége nem objektív fogalom. Nem tudom megmondani, hogy mitől jó a sör habja, maximum azt tudom eldönteni, hogy az egyik sör habja jobb, mint a másiké. Mivel nem is célom, hogy a tökéletes sörhab készítésének rejtelmeit feszegessem, ha érdekel a témának ez a része, akkor nézd meg ezt a blogbejegyzést:

 

Amit ehelyett feszegetni szeretnék, az a sörhab minőségének objektív mérése, a különféle sörkészítési eljárások és receptúrák tesztelésének tudománya – és persze ezen keresztül – egy statisztikai elemzési módszer gyakorlati alkalmazásának bemutatása.

A sörhabnak szabályos „életciklusa” van, az egyes lépések megadott sorrendben követik egymást:

Természetesen a sörhabnak nagyon sokféle számszerűsíthető jellemzője van, de az egyszerűség kedvéért kiragadok két, egyébként fontos jellemzőt:

Az egyik a %Tapadás (%Adhesion), ami szerintem nem egy szerencsés elnevezés, mert a jellemző azt mutatja meg, hogy a kitöltés utáni másodpercekben mennyire marad meg a sörhab magassága.

A másik pedig az %Összeesés (%Collapse), ami azt mutatja meg, hogy a sör mennyire esik össze a sörhab koronájának felépülése után.

A jellemzők és a teszt leírása nem mai történet, a felhasznált tanulmány 1967-ben íródott, vagyis azóta a sörhabok tesztelése és értékelése is sokat fejlődött.

A tanulmány nagy előnye viszont az, hogy szabadon hozzáférhető, illetve a mérési adatokat is tartalmazza, vagyis rendelkezésre áll egy olyan nyers mérési adatsor, amelyet fel lehet dolgozni. A tanulmány bemutatja a sörhab mérésének egy szofisztikáltabb módját, amely ismételhetővé teszi a mérést. Az alapprobléma az, hogy a sör kiöntésének módja nagymértékben befolyásolja a sörhabban keletkező buborékok számát és méretét, amely viszont a hab stabilitását befolyásolja lényegesen. Ez a szóródás akadályozza a különféle receptúrák hatásának összehasonlítását a habképződés tekintetében.

A tanulmányban ismertetett mérési eljárás lényege, hogy a sört nem kiöntik, hanem a fix mennyiségű (100 ml) mintába szabályozott körülmények között szintén fix mennyiségű és nyomású széndioxidot fecskendeznek egy egyszerű fojtáson keresztül. Ennek hatására a sör felkerül a mérőhengerbe, amelynek skálázott oldalán le lehet olvasni a vonatkozó értékeket a vizsgálat közben.  A mérés részletes leírását nem szeretném itt közölni, akit érdekel, a fent említett tanulmányban ez részletesen ismertetésre került.

A mérés összeállítás a következő módon néz ki:

A mérés kiértékelése a következő módon történik:

  1. A mérés megkezdése után 5 másodperccel le kell olvasni a sörhab magasságát a 0 értéke felett, ez lesz az A érték.
  2. A kezdés után 30 másodperccel újra le kell olvasni a maradék hab magasságát a 0 érték alatt, ez lesz a B érték.
  3. A mérés megkezdése után 240 másodperccel újra le kell olvasni a maradék hab magasságát, ez lesz a C érték
  4. A habkorona közepének magassága 240 másodperc után lesz a D érték
  5. A maradék sör magassága lesz az E érték.

A keresett két jellemző a következő módon adódik:

Ez alapján a %Tapadás tulajdonképpen azt mondja meg, hogy a kezdeti habkorona magassághoz képest hány százalékkal esik össze a hab 4 percen belül a „pohár” falán mérve, a %Összeesés pedig a habkorona közepének százalékos csökkenését méri.

A lényeg, hogy a mérés azonos tétel többszöri vizsgálatakor nagyon pontosan ismétli önmagát, így az egyes receptúrák közötti kis különbségeket is képes a vizsgálat kimutatni.

A tanulmányban megmérték három sörösrekesz összes palackját és feljegyezték a mérések eredményeit. Csak megjegyzésként, a „Max. head formation” jellemző a sörhab jellemzőit magyarázó kép alatt található „Initial head formation” jellemzővel egyezik meg, azaz a tesz megkezdése után 5 másodperccel és 30 másodperccel az üvegedény falán mért sörhabmagasságok különbsége.

Ezt a táblázatot begépeltem, és most azt tervezem, hogy kézzel végig számolom az ANOVA-táblát, ahogyan azt a korábbi vonatkozó bejegyzéseben is megtettem (Emeljük új szintre a t-próbát - az egytényezős varianciaanalízis (One-way ANOVA)). Megtehetném, hogy csak Minitab-bal dolgozom fel az adatsort, de akit tényleg érdekel, annak talán többet segít a részletes számítás ismertetése, mintha csak az eredményeket mutatom meg. Mielőtt azonban belevágunk, nézzük meg, hogy első blikkre hogy néznek ki az adatok. A három rekesz esetében az átlagok sorba 169, 160 és 157, a terjedelmek pedig 131-183, 150-165 és 140-168 között mozognak. Az első rekesz átlaga magasabb, mint a másik kettőé, de az adatsorok eléggé átfedik egymást. Ha grafikusan ábrázoljuk őket, akkor azt látjuk, hogy a vonaldiagramon a három adatsor nagymértékben fedi egymást, talán a kék (Rekesz #1) mintha magasabb értékeket mutatna, mint a másik kettő, de a 7-es és a 12-es adatok valószínűleg lefelé húzzák az első rekesz átlagát.

A dobozdiagram azt mutatja, hogy a az első rekesz adatainak szóródása nagyobb, mint a másik kettőé és természetesen az átlaga is nagyobb náluk. De az eddigi adatok szerintem nem perdöntőek, szóval valamilyen komolyabb döntési kritériumra van szükségünk.

Erre lesz jó az egytényezős varianciaanalízis. Az első dolog, hogy tisztázzuk, mi a nullhipotézisünk és mi az alternatív hipotézis. A nullhipotézis az, hogy a három adatsor ugyanabból a sokaságból származik, vagyis az átlagaik között nincs lényeges eltérés. Az alternatív hipotézis pedig azt mondja, hogy a három adatsor közül legalább az egyik különbözik a többitől. A döntésünket 95%-os megbízhatósággal szeretnénk meghozni.

Akkor lássunk hozzá:

Mivel a különböző jellemzőket külön-külön dolgozom fel, ezért az egyes jellemzők adatait egymás mellé másoltam a jobb áttekinthetőség kedvéért. Úgy tűnik, hogy a harmadik rekeszből eggyel kevesebb üveget vizsgáltak meg a tudósok, gondolom az utolsó üveget jóízűen elfogyasztották a jól végzett munka jutalmául… �

Először is kiszámoltam a három csoport átlagát:

Az átlagok között van egy kisebb eltérés, de ez alapján természetesen nem vonnék le messzemenő következtetéseket… Most pedig kiszámolom a három csoport átlagának átlagát, a nagyátlagot:

Ezek után pedig az egyes csoportok átlagai és a nagyátlag közötti eltéréseket…

… majd ezek négyzetét…

… majd a négyzetek és a csoportok elemszámainak szorzatát…

Most már elegendő kiinduló adatunk van ahhoz, hogy elkezdjük kitölteni az ANOVA táblázatot.

Kezdjük a szabadsági fokok számával. A csoportok közötti (Between) szórás szabadsági foka (df) 2, mivel 3 különböző rekeszt vizsgáltunk meg, azaz három adathalmazt hasonlítunk össze. A teljes (Total) szórás szabadsági foka pedig 58, mert összesen 59 darab adatunk van. A csoportokon belüli (Within) szórás pedig az előző két szám különbsége, azaz 58 – 2 = 56. Így a df oszlop a következő módon alakul:

Akkor most lássuk az SS oszlopot. Az SS between értékének kiszámításához már megvan minden adatunk. Ahogy azt az előbb említett bejegyzésben részletesen elmagyaráztam, a csoportok közötti 'Sum of Squares' kiszámítása a következő módon történik:

Ezt úgy kaptam meg, hogy az első sorban kiszámoltam mindhárom rekesz adatainak átagát. Ezekből kiszámoltam a nagyátlagot, azaz a három csoportátlag átlagát. A második sorban kiszámolom a három csoportátlag különbségét a nagyátlagtól. A harmadik sor tartalmazza a második sorban kiszámolt különbségek négyzetét. a negyedik sorban pedig a harmadik sorban kapott négyzetre emelt különbségeket megszorozzuk az egyes csoportok elemeinek számával. Az első két rekesz esetében 20 mérésünk van, a harmadik rekesz 19 mérést tartalmaz, azaz az első két rekesznél n értéke 20, a harmadiknál pedig 19.

A csoportokon belüli (Within) 'Sum of Squares' értékeinek kiszámításához az egyes csoportokon belül minden egyes elemből ki kell vonni a csoportátlagot és a különbségek négyzetét kell összegezni:

Az SS within a három csoport négyzetösszegeinek az összege. Vagyis az ANOVA-táblázatunkat újabb eredménnyel tudjuk kiegészíteni:

Az SS Total kiszámításához pedig a három csoport összes eleméből (mind az 59 számból) ki kell vonni az 59 szám átlagát és ezen különbségek négyzetösszegét kell kiszámítani.

Így az ANOVA-táblázatunk második oszlopa is teljes lett:

Ezután az MS between és az MS within kiszámítása már pofonegyszerű, csak el kell osztani a megfelelő SS értéket a megfelelő df-el, azaz a szabadsági fokok számával. Ezt táblázatkezelőben már az ANOVA-táblázaton belül is el tudom végezni:

F értéke pedig a két MS érték hányadosa:

Mivel az F-eloszlás táblázatomban csak df=50-ig vannak megadva az F-eloszlás értékei, ezért az F eloszlás kritikus határértékét a táblázatkezelő beépített =F.INVERZ.JOBB(0,05; 2; 56) függvény segítségével. Ennek eredménye 3,16 lett. Az F-eloszlás táblázatomban a df1=2 és a df2=56 értékeknél 3,18 szerepel, vagyis a kapott 3,16 valószínűleg helyes.

Végre eljutottunk a döntésig. Azt látjuk a két F-értékből, hogy a próba statisztika (F = 8,04) jóval nagyobb, mint az F kritikus értéke (F krit = 3,16). Ez azt jelenti, hogy a nullhipotézist elvetjük, és az alternatív hipotézist fogadjuk el, azaz a három rekesz közül legalább egy esetében más a sörhab maximális magassága, mint a többinél.

Egy következő bejegyzésben megnézzük majd, hogy hogyan néz ki ugyanez az elemzés Minitab alkalmazásával.

Szólj hozzá!

A titokzatos P színre lép – Mi az a P-Value?

2020. január 03. 08:00 - glantos70

Statisztikai elemzések

 

Ezzel a bejegyzéssel már régóta adós vagyok, hiszen jó ideje foglalkozom már a különféle hipotézis vizsgálatokkal, és a Minitab elemzések bemutatásakor rendszeresen megjelent ez a bizonyos „P-Value”, azaz „P-érték” ami alatt általában egy nulla és egy közötti szám áll. A különféle statisztikai szoftverek helpjében általában csak az van megadva, hogy a különféle tesztek esetében mikor fogadjuk és mikor utasítsuk el a nullhipotézist, de azt szinte sohasem, hogy tulajdonképpen mi is ez. Na, ezen az apró hiányosságon szeretnék segíteni ezzel az írással.

Ha rákeresel arra, hogy mit jelent a P-érték, akkor a legtöbb oldalon mindenféle elméleti bla-bla található, ami alapján talán tudod használni ezt a számot valamire, de hogy nem fogod megérteni a jelentését, az biztos. Már korábban is említettem, hogy a statisztikai szoftverek készítőinek nem áll érdekében további információk megosztása a témában, mert akkor bárki ki tudná számolni, vagyis kevesebben használnának ilyen szoftvereket. Azt már nem annyira értem, hogy vajon a matematika tanárok, akiknek igazán semmilyen érdeke sem fűződik ahhoz, hogy eltitkolják ezt a „stratégiai jelentőségű” információt, vajon miért nem osztják meg a nyilvánossággal a P-érték tényleges jelentését, hiszen annyira nem űrtechnika, hogy ne lehetne megérteni hétköznapi aggyal. Csak rendesen kell elmagyarázni…

A P-értékről eddig általában csak azt tudtuk, hogy ha nagyobb a teszthez megadott α megbízhatósági szintnél, akkor elfogadjuk a nullhipotézist, ha meg kisebb akkor utasítsuk el. Vagyis ez alapján hozzuk meg a döntésünket. Hosszas keresgélés után találtam egy meghatározást, amely egy lépéssel közelebb vitt a megértéshez:

„… P values are the probability of observing a sample statistic that is at least as extreme as your sample statistic when you assume that the null hypothesis is true. …”

vagyis

„… A P-érték annak a valószínűsége, hogy találunk egy olyan mintát, amely statisztikai szempontból legalább olyan extrém értéket vesz fel, mint a próba statisztika, ha feltételezzük, hogy a nullhipotézis igaz …”

Jaj, ez így egy többszörösen összetett mondat, amiben hirtelen túl sok az információ. Viszont az alapgondolat elindít egy gondolatmenetet, amely már vezethet valahová. Talán emlékszel még arra, amikor egy dobókocka dobások eredményeiből létrehozott sokaságból jó sok mintát vettem és ezeknek a mintáknak az átlagait vizsgáltam (A nagy dobókocka kísérlet). Az előbb említett cikk egyik nagy tanulsága az volt, hogy ha egy sokaságból mintákat veszek, akkor a minták átlagai nem feltétlenül egyeznek meg a sokaság átlagával, sőt sokszor akár extrém értékeket is felvehetnek, azaz egészen nagy különbség is lehet egy-egy mintaátlag és a sokaság átlaga között.

Amikor hipotézis vizsgálatot végzünk, akkor általában a sokaságból kivett minta tulajdonságait vizsgáljuk, ezért ez esetben is a minta átlaga alapján szeretnénk megtudni valamit a sokaság átlagáról. Igen ám, de ez esetben is igaz az a tény, hogy ha ismerjük a minta átlagát (amely csak egyetlen minta a nagyon nagy számú lehetséges minta közül), akkor csak azt tudjuk, hogy a sokaság átlaga egy megadott tartományban van (Az átlag standard hibája). Vagyis a hipotézis vizsgálat során csak azt tudjuk eldönteni, hogy a sokaság átlaga benne van-e a minta átlagának megbízhatósági tartományában vagy sem. És mivel nulla valószínűség nincs, ezért adjuk meg, hogy 95%-os vagy 99%-os biztonsággal van-e benne a sokaság átlaga a minta átlagának megbízhatósági intervallumában.

Akkor ennek ismeretében fordítsuk le a fenti mondatot. Tegyük fel, hogy éppen egy hipotézis vizsgálatot végzünk és éppen kiszámoltuk a próba statisztikát. Az egyszerűség kedvéért vegyünk egy egymintás Z-próbát, hogy a standard normál eloszlással kelljen dolgoznunk. Mondjuk, hogy a kétoldali próba statisztikára kijött, hogy Z értéke 1,96 lett. Ha Z értéke 1,96, akkor az azt jelenti, hogy ha a minták átlagainak átlaga 0, ahogy az a standard normál eloszlás esetében lenni szokott, akkor nagyon sok minta esetében a mintáknak csak 2,5%-a esetében lenne a minták átlaga nagyobb, mint 1,96 és egy másik 2,5%-a esetében lenne kisebb, mint -1,96. Vagyis – ha a nullhipotézis igaz - a potenciális mintáknak 5%-a esetében lenne 1,96 vagy annál nagyobb, illetve -1,96, vagy annál kisebb. Ebben az esetben a P-érték pontosan 0,05, azaz 5%. Az alábbi ábra ezt mutatja be, bár angol nyelven.

Emiatt van az, hogy ha a P-érték nagyobb, mint 0,05, akkor a nullhipotézist nem tudjuk elvetni, hiszen 5%-nál nagyobb esélye van annak, hogy a sokaság átlaga benne van az általunk használt minta megbízhatósági tartományában, illetve megfordítva a dolgot, nem tudjuk kizárni, hogy a mintát abból a sokaságból vettük ki, amelyiket a nullhipotézis jelöli.

És ha jobban belegondolsz, nem vagyunk biztosak abban, hogy a minta ebből a sokaságból származik, mert származhat akár végtelen sok másik sokaságból is. Ha egy minta átlaga 0, de a mintaátlag megbízhatósági tartománya -1 és +1 között van, akkor a mintát kivehettük mindazon sokaságok közül, amelyek átlaga -1 és +1 között van!

Az egyetlen biztos döntés az, ha KI TUDJUK ZÁRNI, hogy a sokaság átlaga benne van a minta megbízhatósági tartományában. Ezért van az, hogy a hipotézis vizsgálatok jelentős része arra utazik, hogy ELVESSE a nullhipotézist és nem arra, hogy elfogadja azt. Ezen most biztos agyalni kell egy kicsit, de ha megnézed a fentebb hivatkozott bejegyzést, ott ugyanez ábrákkal is be van mutatva, azzal együtt talán könnyebb megemészteni az utolsó két bekezdést.

Az itt következő folyamatábra azt mutatja be, hogy hogyan határozzuk meg a P-értéket normál eloszlású egyoldali vagy kétoldali hipotézis vizsgálat esetén. Egyoldali vizsgálat esetén – akár bal-, akár jobboldali vizsgálatról van szó, a baloldali vagy a jobboldali 5%-ot vesszük figyelembe, így a P-érték mindig az lesz, ha a kiszámított Z-értékhez kikeressük a standard normál eloszlás táblázatból a hozzá tartozó valószínűséget, majd ezt kivonjuk 1-ből.

Ezt amiatt tesszük meg, mert a standard normál eloszlás táblázat a 0-tól jobbra eső részét adja meg a haranggörbének, és a valószínűségek 50%-tól kezdődnek, majd +3 környéként érik el majdnem az 1-et. Azaz, ha Z-re mondjuk kapok +1,96-ot, akkor az azt adja meg, hogy hol helyezkedik el a mintaátlagok 95%-a. De nekünk ennek pont az ellentettje kell, ezért kell a valószínűség értékét kivonni 1-ből.

Kétoldali hipotézis vizsgálat esetén vigyázni kell, mert nem a 95%-os, hanem a 97,5%-os valószínűséghez kell kikeresnünk a hozzá tartozó valószínűséget a táblázatból, azt ki kell vonni 1-ből a már fent említett okok miatt, viszont meg kell szorozni 2-vel, hogy megkapjuk a keresett 5%-ot.

Persze más típusú eloszlások (t-eloszlás, khí-négyzet eloszlás) esetében hasonlóan működik a dolog, csak a keresett 95%-os vagy 99%-os valószínűséghez tartozó t vagy khí-négyzet határértékek lesznek mások. Szerintem így már tényleg nem bonyolult, csak egy kis képzelőerő szükséges a P-érték jelentésének megértéséhez. És aki még ezek után sem érti, esetleg hallgassa meg dalban elbeszélve...

(A dal a képre kattintva indul el)

Szólj hozzá!

Egy statisztikailag szignifikáns szerelmes dal - Szilveszteri bulira matematikusoknak?

2019. december 31. 09:00 - glantos70

Bevezetés

(A dal a képre kattintva indul el)

Vannak megszállottak, akik minden őrültségre képesek azért, hogy megszerettessék másokkal is kedvenc szenvedélyüket. A fent belinkelt dal hallatára valószínűleg senki sem rohan majd a legközelebbi könyvtárba, hogy kivegye az első keze ügyébe kerülő statisztika tankönyvet és nem fog "ráguglizni" a Wilcoxon-féle előjeles rangteszt képletére, de azért érdemes belehallgatni a nótába, amely legalábbis "megmosolyogtató". És azért valljuk be, matematikusoknak is lehet humorérzékük...

De ha valaki véletlenül teljesen rápörögne a matekra, itt egy jó kis tánc is...

(A video a képre kattintva indul el)

Én egészen jól szórakoztam...

Szólj hozzá!

Na, így kell adatokat bemutatni!

2019. december 27. 10:20 - glantos70

Bevezetés

Komolyan mondom, így kell adatokat prezentálni! Mintha egy focimeccs közvetítését hallgatnám, miközben a csecsemőhalandóság és a GDP alakulásáról beszél a bácsi. A mozgó grafikák pedig nagyon érthetővé teszik az előadás üzenetét! Kár, hogy csak angol felirat van hozzá... :-(

Érdemes megnézni, ha beszélsz angolul! Én nagyon jól szórakoztam... :-)

Szólj hozzá!

Az adatelemzésnek van jövője!

2019. december 20. 08:00 - glantos70

Bevezetés

fejsze.jpg

(A cikkhez a képre kattintva jutsz el)

Ezt a cikket éppen most találtam a Blog.hu címlapján és egyből az jutott az eszembe, hogy ezt nekem is meg kell osztanom, két okból is. Az egyik, hogy a következő évtized legkeresettebb szakmáinak listájában első helyen szerepel az ÜZLETI ELEMZŐ, aki ugye adathalmazokkal dolgozik és ezek feldolgozásával próbál olyan következtetésekre jutni, amely hatékonyan támogatja az üzleti döntéseket. A másik pedig a mesterséges intelligencia, azaz a gépi tanulás elterjedése, aminek alapja szintén az adatfeldolgozás és a statisztikai módszerek alkalmazása.

Lehet, hogy jó lóra tettem...?

2 komment

Emeljük új szintre a t-próbát - az egytényezős varianciaanalízis (One-way ANOVA)

2019. december 13. 08:30 - glantos70

Statisztikai elemzések

One-way ANOVA test (Analysis of variance) | Customer ...

Ha törzsolvasója vagy a blognak, akkor talán még emlékszel a kétmintás t-próbára (Az alkoholfogyasztás hatása a bowling eredményekre – kétmintás t-próba), amelynek segítségével el tudtuk dönteni, hogy két minta átlaga megegyezik-e egymással. A t-teszt jól működik két minta esetében, de mit csináljunk akkor, ha nem kettő, hanem három, négy vagy akár több mintát akarunk összehasonlítani? Ha t-próbát alkalmaznánk, akkor a mintákat egyenként kellene összehasonlítanunk egymással, azaz öt minta esetében mondjuk az első mintát össze kellene hasonlítana a másodikkal, a harmadikkal, a negyedikkel és az ötödikkel is. A második mintát még ezen felül össze kell hasonlítani a harmadikkal a negyedikkel és az ötödikkel is. Ha végig megyünk ezen a vonalon, akkor összesen 4+3+2+1, azaz 10 kétmintás t-próbát kellene elvégeznünk az öt minta teljeskörű vizsgálatához. Ehhez nyújt segítséget az úgynevezett egytényezős varianciaanalízis (vagy F-próba, vagy F-teszt, vagy F-statisztika, vagy F-táblázat, vagy One-way ANOVA, vagy ahogy tetszik).

Az érthetőség kedvéért ismét egy nagyon egyszerű adatsort fogok alkalmazni az F-próba táblázat kiszámításához, hogy jól követhető legyen. Tegyük fel, hogy három különböző csoport vagy módszer esetében vizsgáljuk ugyanazt a folytonos jellemzőt és arra vagyunk kíváncsiak, hogy a három csoport eredményeinek átlaga azonos-e vagy sem.

Az adathalmaz a következő:

Az első megfigyelés az, hogy ebben az esetben sem fontos az, hogy az egyes csoportoknak ugyanannyi eleme legyen, ez nagy könnyebbség lehet adott esetben.

Folytatásként számoljuk ki a három csoport átlagát:

Amint az látható, a három csoport átlaga eltér egymástól, de azért fel szeretném hívni a figyelmet arra, hogy noha az A csoport átlaga 4, van benne egy 7-es érték is; illetve, hogy noha a B csoport átlaga 6, illetve a C csoport átlaga 7, mindkét csoportban van egy-egy 4-es érték is! Vagyis annak ellenére, hogy a három csoport átlaga nem egyezik meg, elképzelhető, hogy azonos sokaságból származnak!

Most pedig számítsuk ki a nagyátlagot, amely az összes csoport összes elemének az átlaga (tehát nem a három csoport átlagának az átlaga!):

A nagyátlag adja meg azt a bázist, amelyhez viszonyítjuk az egyes csoportok átlagait külön-külön. Ennek megfelelően számoljuk is ki az egyes csoportok átlagainak különbségét a nagyátlagtól:

És akkor itt most álljunk meg egy pillanatra és tisztázzunk két egyszerű fogalmat, a csoportok közötti (between) és a csoportokon belüli (within) szóródást.

A csoportok közötti (between) varianciát a csoportok átlagai és a nagyátlag alapján számítjuk ki:

Ezzel szemben a csoportokon belüli (within) varianciákat a csoportok elemei és a csoportátlagok közötti eltérések határozzák meg.

Remélem a számítások alapján érthető a különbség a csoportok közötti és a csoportokon belüli varianciák között. Viszont az egyszempontos varianciaanalízis nem a varianciákkal, hanem a négyzetek területével (Sum of Squares – SS) számol, amelyek tulajdonképpen nem mások, mint a fent kiszámított szórásnégyzetek számlálói! A teszt célja pedig tulajdonképpen nem más, minthogy összehasonlítsa a csoportok közötti varianciák alapján kiszámolt négyzetek területét a csoportokon belüli varianciák alapján kiszámolt négyzetek összterületével. Az átláthatóság kedvéért ezt a műveletsort egy megadott formátumú táblázatba szoktuk rendezni, amely a következőképpen néz ki:

Ez a táblázat így elsőre egy kicsit titokzatosan néz ki (és akkor még finoman fejeztem ki magam), de most szépen sorban elmagyarázom az egyes címkék jelentését, majd kiszámoljuk a teszt eredményeit, és remélhetőleg a végére minden kitisztul.

Kezdjük a bal felső sarokban. A ’Source’ kifejezés forrást jelent, azaz ebben az oszlopban vannak az egyes varianciák forrásainak megnevezései. A ’between’ és a ’within’ kifejezések a már fent ismertetett csoportok közötti, illetve csoportokon belüli varianciákat jelölik, a ’Total’ kifejezés, pedig a teljes varianciát jelenti. Azaz a nyers adatok összegzett szórásnégyzetét két tényezőre bontjuk fel, a csoportok közötti, illetve a csoportokon belüli szórásnégyzetekre.

A második oszlop fejlécében lévő ’df’ kifejezés már esetleg ismerős lehet, ez az a bizonyos „szabadsági fokok száma”, azaz „degrees of freedom”, amelyről már korábban esett szó. Jelen esetben is ez adja meg azt, hogy hány függő, illetve független változónk van. A csoportok közötti varianciák esetében – mivel három csoportunk van - ez most 3-1, azaz 2. Általánosabban fogalmazva a csoportok közötti varianciák esetében a szabadsági fokok száma mindig eggyel kevesebb a csoportok számánál.

A teljes variancia esetében (Total) a szabadsági fokok száma ismét könnyen értelmezhető, mert a teljes variancia kiszámításához az összes csoport összes elemét felhasználjuk, így a ’Total’ sorhoz tartozó szabadsági fokok száma az összes adat száma – 1. Ez esetben az A, a B és a C csoportban összesen 12 darab adatunk van, így a Total szabadsági fokok száma 12 – 1 = 11 lesz.

A csoportokon belüli variancia esetében a szabadsági fokok száma a Total és a Between sorokban lévő szabadsági fokok különbségeként adódik. Vagyis a mi esetünkben ez 11 – 2 = 9 lesz. Az ANOVA táblázat jelenleg így néz ki:

A folytatásban ki kell számolnunk „a négyzetek területeit”, azaz a ’Sum of Squares’ (SS) értékeit. A csoportok közötti SS értékét úgy kapjuk meg, ha összeadjuk a fentebb kiszámolt csoportok közötti varianciák számlálóit. Viszont nem almát az almával hasonlítanánk, ha az így kapott négyzetek területét nem szoroznánk meg az egyes csoportokban lévő elemek számával, hiszen – ahogy azt majd látni fogjuk – ott minden csoportban ni-szer annyi négyzet területét vesszük figyelembe, mint a csoportok közötti ’Sum of Squares’ esetében.

A csoportokon belüli SS kiszámítása esetében szimplán összegezzük a csoportok egyes elemei és a csoportátlagok segítségével kiszámolt négyzetek területeit.

Természetesen az SSWithin értéke a három csoport SSWithin értékeinek az összege.

A teljes ’Sum of Squares’ pedig úgy adódik, hogy összegezzük a három csoport mind a 12 elemének a nagyátlagtól való távolságait, illetve az ezek alapján adódó négyzetek területeit. Az átláthatóság kedvéért ezt most táblázatos formában készítettem el.

Így az ANOVA táblázat második oszlopa is kész lett.

Az MS oszlop elnevezése a ’Mean Square’ kifejezést takarja, ami annyit jelent, hogy amíg az SS oszlopban a különféle négyzetek területeinek összegeit szerepeltettük, itt ezeket – legalábbis a ’Between’ és a ’Within’ sorok esetében ezeket arányosítjuk az egyes sorokra eső szabadsági fokok számával, vagyis a négyzetek összegéből most számolunk igazából varianciát, hiszen az SS értékeket el fogjuk osztani a szabadsági fokok számával:

Az F-táblázatunk így újabb oszloppal bővült.

Már csak két értéket kell megkanunk a próba elvégzéséhez. Az F értéke tulajdonképpen a két MS érték hányadosa. Most viszont szükségem lesz a hitedre, hogy ne kelljen belemenni az F-eloszlás részleteibe. Arra kérlek, hogy HIDD EL(!), hogy két variancia hányadosának eloszlása egy bizonyos F-eloszlást követ, vagyis hasonlóan lehet használni az F-eloszlást ebben az esetben, mint a t-eloszlást vagy a normál eloszlást más esetekben, amelyekről már korábban beszéltünk.

Ahogy azt fentebb említettem, a kiszámított F érétke tulajdonképpen két variancia hányadosa, így F is az F-eloszlást fogja követni, azaz remekül fel tudjuk használni egy hipotézis ellenőrzésére. Szóval számoljuk ki, hogy mennyi F értéke.

Nos, ahogy megszokhattuk, ez önmagában még semmit sem mond, a hipotézisünk igazolásához meg kellene határoznunk egy Fkrit határértéket, amellyel a kapott F értékünket össze tudjuk hasonlítani.

Ja – by the way – mi is a nullhipotézisünk ebben az esetben? Mert ezt nem tisztáztuk az elején. A nullhipotézisünk az, hogy a három csoport ugyanabból a sokaságból származik, az ellenhipotézis pedig az, hogy a három csoport közül valamelyik nem ugyanannak a sokaságnak a tagja, mint a többi. Vagyis szerencsés esetben csak azt tudjuk igazolni, hogy mindegyik minta ugyanabból a sokaságból származik. Ha viszont ezt nem tudjuk bizonyítani, akkor viszont a teszt alapján nem fogjuk tudni eldönteni, hogy melyik sokaság nem illik bele a képbe, illetve azt sem tudjuk majd igazolni, ha esetleg mindhárom csoport más és más sokaságokból származik. Így jártunk!

Akkor most találjuk ki, hogy mennyi az Fkrit határérték.  Ehhez ismét fel kell ütnünk egy még olvasható F-eloszlás táblázatot, amely tartalmazza az F-eloszlásnak legalább a különféle megbízhatósági szintekhez és szabadsági fokokhoz tartozó határértékeit.

Jelen esetben nekem egy olyan táblázatom van, amely minden egyes megbízhatósági szinthez (95%, 97,5%, 99%) külön táblázatban tartalmazza a kritikus F értékeket. Ez azért szükséges, mert a kritikus F érték nem egy, hanem két szabadsági foktól függ: A számlálóétól és a nevezőétől. A táblázatot úgy olvassuk, hogy az oszlopok (szf1) jelentik a számláló, a sorok (szf2) pedig a nevező szabadsági fokát jelentik. Így megkapjuk, hogy esetünkben az Fkrit határérték 4,26. Így komplett lett az F-táblázatunk.

Mivel a kapott F érték kisebb, mint az Fkrit határérték, ezért a nullhipotézisünket 95%-os megbízhatósági szinten elfogadjuk, azaz a három csoport elemei 95%-os valószínűséggel ugyanabból a sokaságból származnak.

Noha maradt néhány apró részlet, amelyet még esetleg ki lehetett volna jobban is bontani a még mélyebb érthetőség kedvéért, azért úgy gondolom, hogy sikerült a témához mérten relatíve érthető módon elmagyarázni ezt a fontos tesztet, amelyet egyébként egészen sok helyen alkalmaznak a statisztikában, például a lineáris regresszió elemzés során is, ezt majd később látni fogjuk. Remélem, hogy az egyszerű példa segített a számítások követésében és végül is kiderült, hogy mi is hajtja a gépezetet…

2 komment

Lehet egy dimenzióval több? – Többváltozós lineáris regresszió

2019. december 06. 08:30 - glantos70

Statisztikai elemzések

 

A témához kapcsolódó előző cikkben (Használtautó eladó! – Többváltozós lineáris regresszió elemzés) bemutattam az alapproblémát, amelyet meg akarunk oldani. Most megpróbálom veled együtt megtenni a következő lépést, azaz belemerülni abba, hogy mit is jelent a többváltozós lineáris regresszió. Az előző bejegyzésben említett példa persze akár még jó is lehet, de nem arra, hogy megértsük az elemzés működését. Vagyis kell egy olyan adatsor, ami sokkal rövidebb a használtautósnál, hogy a számolások egyszerűen követhetők legyenek. Ezért létrehoztam egy 3 oszlopból és 5 sorból álló kis táblázatot, amely tartalmaz egy x1 és egy x2 oszlopot. Ezek lesznek a független változók, amelyek meghatározzák majd a harmadik oszlopban szereplő y függő változó értékét. A kiinduló táblázatunk így néz ki:

Már korábban is többször említettem, hogy nagyon fontos a számomra, hogy elhiggyem, hogy egy adott teszt vagy elemzés működik. Ez most sem lesz másképpen, ezért természetesen kihívásként fogom kezelni ezt a kis levezetést, azaz a harmadik oszlopban szereplő értékeket ténylegesen az első két oszlopban szereplő számok alapján határoztam meg. Meg is adom itt azt az egyenletet, amelyet erre használtam:

Ez most arra lesz jó, hogy vissza tudjuk ellenőrizni a számítás helyességét. Ha a végén kijön ugyanez (vagy kb. ugyanez) az egyenlet, akkor nyugodtan elhihetjük, hogy bármennyire hihetetlenül is hangzik, a dolog működik és megbízhatunk benne. A bizalom erősítése érdekében végig is számoltam mind az öt sort:

Ez eddig megvan. Most viszont azt kellene tisztáznunk, hogy tulajdonképpen mit is jelent a fent említett egyenlet? Hogyan képzeljük el? Az y=ax+b egyenletet elég könnyen el tudtuk képzelni magunk előtt, hiszen van egy x és egy y változónk, az egyiket a vízszintes, a másikat a függőleges tengelyen ábrázoljuk. Igen, de most két x változónk van, x1 és x2? Hogy néz ki ez az egyenes? Egyáltalán egyenes lesz, vagy inkább egy sík? Hogyan ábrázoljuk a pontokat? Szerencsére itt még egyszerű dolgunk van, mert ugye a kétféle x-változó és az y változó együtt háromféle koordináta tengelyt igényel és ezt még tudjuk ábrázolni. Nos a fenti öt pont ebben az esetben valahogy így néz majd ki:

3D-videó

Azért készítettem animációt, mert úgy éreztem, hogy így tudom a legjobban bemutatni a pontok és a rájuk fektetett egyenes vizuális megjelenését. Vagyis a pontok a háromdimenziós térben lebegnek, az egyenes pedig ugyanezen a háromdimenziós téren fut keresztül. Vagyis a korábbi kétdimenziós grafikonunkhoz hozzáadtunk egy harmadik dimenziót is. Viszont, ha már hozzá tudtunk csapni egy plusz változót, vagyis egy plusz befolyásoló tényezőt az egyenletünkhöz, akkor mi akadályoz meg bennünket abban, hogy akár még egyet hozzáadjunk, azaz legyen egy x3 oszlopunk is? Eme cselekedetünk társadalmi hasznosságát nehéz lenne kétségbe vonni, de a fent ismertetett ábrázolásmód és gondolkodás sajnos erősen korlátoz bennünket abban, hogy ezt tovább is merjük gondolni, hiszen azt az egyenletet már elég macerásan tudnánk ábrázolni, hiszen a térnek jelenleg csak három dimenzióját tudjuk értelmezhetően megjeleníteni (ha az időt nem tekintjük negyedik dimenziónak). Ha viszont eltekintünk az adatok vizuális megjelenítésétől, akkor egyszerre csak kinyílik előttünk a világ, hiszen a számok nyelvén ’akárhány-dimenziós’ egyenlettel is le tudjuk írni az y függő változót befolyásoló tényezők együttes hatását, azaz az y-t bemutató egyenes függvényképletét. 

De ha ennyire rugalmasak akarunk lenni, azaz egy olyan eszközt akarunk létrehozni, amelyet az adathalmazoknak egy igen széles skáláján szeretnénk használni, függetlenül attól, hogy az adathalmaz hány sorból áll, illetve az y függő változónkat hány x1, x2, …, xn független változó befolyásolja, akkor szükségünk van az adatoknak egy olyan ábrázolási módjára, amely

elég rugalmas ahhoz, hogy az adatsoroknak ezt a rugalmas változékonyságát le lehessen vele kezelni,

az adatokat rendezetten lehessen bennük kezelni, azaz kicsi legyen a tévesztés lehetősége, és

kialakult matematikai formulákkal lehessen kezelni az így ábrázolt adatokat.

És létezik ilyen módszer, ezek a mátrixok. Egy mátrix igazából szinte bármekkora méretű, dimenziójú és alakú lehet. Az adatok a mátrixokban rendezett formában helyezkednek el, minden adatnak megvan a maga helye, illetve a mátrixokkal, illetve mátrixok között elvégezhető műveleteknek széles körét ismerjük. Nézzük meg, hogyan is néz ki ez egy kicsit általánosabban. Ha feltételezzük, hogy van egy olyan adatsorunk, ahol y értékét az x1, x2, … , xm tényezők befolyásolhatják, és van y1, y2, … ,yn darab függő változónk a vizsgált sokaságból, akkor a keresett függvény képlete a következőképpen néz ki:

Mi b0, b1 és bm? Ezeket akarjuk kiszámítani a most következő levezetéssel. Az egyváltozós regresszió elemzéskor a b0-t a-nak, a b1-et b-nek neveztük (Tudom, hogy gőzgép, de mi hajtja? – Egyváltozós lineáris regresszió – a regressziós egyenes meghatározása). Az a picike kis görög betű a képlet végén jelöli az egyenlet hibáját, hiszen az egyenlet meghatározásához használt x-értékek a minták értékei. Vagyis itt is igaz az a bölcsesség, amelyet már korábban is megállapítottunk, hogy a minták alapján kiszámított/becsült ŷ érték nem fog pontosan megegyezni a sokaság y̅ átlagértékével, csak közelíti azt. A fenti egyenlet alkalmazásával ki tudjuk számítani a minták (azaz a mátrixok sorainak) y értékeit. Például az adathalmazunk első sorát így számítanánk ki:

ahol x11 a kiinduló adathalmazunk első sorában az x1-hez tartozó érték, x21 az első sor x2-höz tartozó értéke, y1 pedig az első sor y-hoz tartozó értéke.

Ez ugyanaz, mint amit a cikk elején tettünk, kiszámoltuk az egyes sorok esetében az x1 és x2 értékekhez tartozó y értékeket, vagyis

Itt válik érthetővé a fentebb a b0 után zárójelben szereplő *1, hiszen az x1 … xm értékeit tartalmazó mátrixban a b0 konstanshoz tartozó 1-eket is szerepeltetnünk kell. A fenti példa esetében ez a mátrix így néz ki (most már szerintem te is látod, hogy miért választottam egy jóval egyszerűbb adatsort az elmélet bemutatásához):

Azért, hogy a későbbiekben bizonyos dolgokat egyszerűbben tudjak elmagyarázni, nevezzük el a fenti vektorokat és mátrixokat egy-egy betűvel.

Akkor most írjuk fel a fenti egyenletünket a most definiált betűk segítségével:

Ez így sokkal barátságosabban néz ki, csak ne felejtsük el, hogy minden betű egy mátrixot vagy egy vektort reprezentál.

Tehát a célunk az, hogy meghatározzuk b0, b1 és b2 értékeit úgy, hogy az ε1...εn hibák értéke minimális legyen. Ahhoz, hogy az életünk így az elején egy kicsit egyszerűbb legyen, tételezzük fel, hogy a leendő képlet tökéletes eredményt fog adni, vagyis ε1, ε2, ... , εn értéke mind 0. Így az egyenletünk a következő marad:

vagyis

Hurrá, így már csak a B vektor értékei maradtak ismeretlenek a számunkra, amelyeket így már könnyedén kifejezhetünk a fenti egyenletből!

Nagyobbat nem is tévedhettünk volna…

Sajnos a mátrixokkal nem úgy tudunk műveleteket végezni, mint az egyedi számokkal, így itt egy kis további számolási gyakorlatra van szükségünk. Először is tisztáznunk kell, hogy mit jelent egy mátrix transzponálása. Hú, ez most nagyon kínaiul hangzik, pedig nem ördöngősség, a transzponálás során egészen egyszerűen felcseréljük egy mátrix sorait az oszlopaival. A kis példánkon bemutatva a dolgot, az X mátrixot transzponálva a következőt kapjuk:

avagy

Ez még eddig nem volt varázslat, az most jön (annak ellenére, hogy csak összeadás és szorzás van benne…). Most, hogy ilyen ügyesen transzponáltuk az X mátrixot, most képezzük az X és az XT mátrixok skaláris szorzatát!

STOP!

Mit jelent a mátrixok skaláris szorzata? Ezt megpróbáltam szabatosan leírni, de folyamatosan csak valami zavaros és érthetetlen zagyvalék jött ki belőle, úgyhogy úgy döntöttem, inkább bemutatom a fenti példán:

Fent látható az X mátrix, bal oldalon pedig az XT, azaz a transzponált mátrix. Középen pedig a skalár szorzat eredményeként kapott mátrix található. Kezdjük az eredmény mátrix bal felső cellájával. A bal felső cellában az X mátrix első oszlopának és az XT mátrix első sorának szorzatösszege található. Az eredményként kapott 5 a következő módon jött ki:

azaz

Vagyis az X mátrix első oszlopának első elemét össze kell szorozni az XT mátrix első sorának első elemével, majd ehhez hozzá kell adni az X mátrix első oszlopának második elemének és az X mátrix első sorának második elemének szorzatát, és így tovább ötig. Az eredmény mátrix első sorának második cellájában található eredmény hasonlóképpen jött ki, csak az XT mátrix első sorát az X mátrix második oszlopával kell összeszorozni,

azaz

Az eredmény mátrix közepén lévő 175 szintén ily módon adódott.

vagyis

Ha van kedved, nyugodtan számold végig kézzel vagy táblázatkezelő segítségével, de remélem ennyi magyarázat elég a skaláris szorzat lényegének megértéséhez.

Jó, de miért hajtottuk végre ezt a csodálatos varázslatot? Azért, mert az így kapott eredmény mátrix egy úgynevezett variancia-kovariancia mátrix, amelynek átlójában tulajdonképpen az X mátrix oszlopait önmagukkal szorozzuk be, vagyis az X mátrix egyes sorainak négyzetösszegeit kapjuk meg. Ezek lesznek az X értékek varianciáinak n-szeresei (hiszen ezeket nem osztottuk el n-nel). És mik is vannak az X mátrix oszlopaiban? 1, x1 és x2, amelyeket majd b0-al, b1-el és b2-vel fogunk megszorozni a keresett egyenletben.

Az eredmény mátrix többi cellájában 1, x1 és x2 különböző kombinációinak szorzatösszegei találhatók, amelyek számunkra sajnos érdektelenek lesznek, vagyis ezeket majd ki kell szűrnünk valahogy.

És ehhez a kiszűréshez ismét egy új - mátrixokkal kapcsolatos - fogalmat kell megismernünk, ez pedig az egységmátrix fogalma. az egységmátrix egy olyan egyenlő oldalú, azaz négyzetes mátrix, amelynek a bel felső saroktól a jobb alsó sarokig húzódó átlaga 1, a többi mezőben pedig 0 található. Természetesen egy egységmátrix bármilyen méretű is lehet, de az egyszerűség kedvéért; illetve azért, mert a példánkban is egy háromszor hármas mátrix szerepel, ezért az ide biggyesztett egységmátrix is 3x3 méretű:

Jé, ez az ábra eléggé hasonlít az előző variancia-kovariancia mátrixhoz és érdekes módon pont azok a cellák 1-ek, ahol a minket érdeklő varianciák vannak, illetve ott nullák, ahol a minket nem érdeklő kovarianciák. Nahát, nahát…

És van még egy számunkra érdekes törvényszerűség. Minden négyzetes mátrixnak van egy olyan mátrix párja, amelyet, ha skalárisan összeszorzunk önmagával, akkor egy egységmátrixot kapunk! Hogy bemutassam, hogy ez mit jelent, létrehoztam a mi kis eredmény mátrixunknak is ezt a párját:

A fenti mátrix az előbb megkapott eredmény mátrix, a bal oldali pedig az eredmény mátrix inverze (az inverzet a -1 hatvánnyal jelöljük, ami nem azt jelenti sajnos, hogy a mátrixot egyszerűen a tört nevezőjébe tesszük). Középen látható a két mátrix skaláris szorzataként kapott mátrix, amely egy egységmátrix. Csak példaképpen nézzünk bele két-három skaláris szorzatba. Például a bal felső cella értéke a következő módon adódik:

vagyis

Nézzük meg mondjuk a bal oldali oszlop legfelső celláját:

azaz

Úgy tűnik, hogy működik a rendszer, ezt is végig lehet számolni, ha van kedved. Szerencsére a táblázatkezelő ebben ritkán téved.

Miután sikerült teljesen összezavarni ezekkel a mátrixos varázslatokkal, végre leírom ide azt, hogy miért is volt szükség erre a sok különféle mátrix műveletre. Ott tartottunk a kitérő előtt, hogy

vagyis

és ugye ki kellene varázsolni a B vektort az egyenletből. Először is szorozzuk meg az egyenlet mindkét oldalát XT-vel.

Jól felismerhető a zárójelben az első lépésként elvégzett skaláris szorzás az X mátrix transzponáltja és az X mátrix között. Most pedig szorozzuk meg az egyenlet mindkét oldalát az (XT*X) mátrix inverzével!

Éééééés TAPS!

Mivel

azaz a B vektor előtt álló skaláris szorzat éppen megegyezik az egység mátrix-szal – amelynek az átlóiban 1 van, a többi helyen nulla, ezért az egyenlet jobb oldalán a B vektor összes elemét megszoroztuk 1-gyel, vagyis a jobb oldalon a B vektor áll önmaga csupasz valójában, „csak” az egyenlet bal oldalán álló szerény kis mátrix műveletet kell elvégeznünk b0, b1, és a többiek értékének kiszámításához!

Az Y vektor előtti bonyolult kifejezés kétharmada már készen van, már csak skalárisan meg kell szorozni XT-val, majd az úgy kapott mátrix-szal meg kell szorozni az Y vektort és már meg is vagyunk. Természetesen ezeket is elvégeztem:

Majd a zölddel bekarikázott mátrix-szal megszorzom az Y vektort:

azaz

illetve

azaz

és végül

vagyis

Vagyis kijött a végére ugyanaz az egyenlet, ami alapján az elején kiszámoltam y értékét x1 és x2 függvényében:

Hát ez elég meredek volt és nem csodálkozom, ha kimerültél a végére, kedves olvasó. Nagyon remélem, hogy eljutottál idáig és többé kevésbé sikerült is megértened a módszer lényegét úgy tizedik olvasásra. A lényeg tehát tömören annyi, hogy az egyenlet egyes tényezőit mátrix műveletek segítségével lehet kiszámítani és sajnos ezeknek nem sok köze van a keresett egyenes vizuális megjelenéséhez, inkább csak bűvészkedés a számokkal, hogy egy vektorokból és egy mátrixból álló egyenletből valahogy ki lehessen varázsolni a B mátrix egyes tagjainak értékét. Mindezzel együtt a projekt sikerrel járt és visszakaptam az eredeti egyenletet, így hiába a sok varázslat, végül is el kell ismernem, hogy működik a dolog.

A következő bejegyzésben megpróbálom ugyanezt a táblázatkezelős varázslatot a használtautós adattáblámra is alkalmazni, ami egy újabb kihívás lesz a dolog nagyobb számítási igénye miatt. Nem tudom, hogy ezt valaha valaki is elvégezte volna egy ekkora adattáblán, de az biztos, hogy nekem ez lesz a saját különbejáratú Guiness-rekordom a magam számára. Legalábbis ebben a pillanatban…

Szólj hozzá!

Használtautó eladó! – Többváltozós lineáris regresszió elemzés

2019. november 29. 09:00 - glantos70

Statisztikai elemzések

Elég sokat keresgéltem, hogy találjak egy olyan hétköznapi életből vett adatsort, amely segítségével relatíve jól érthetően be tudom mutatni a többváltozós lineáris regresszió elemzést. Amíg az egyváltozós változat esetében találtam érdekes és közérthető témát és adatokat (A Sidney-Hobart yacht verseny – Szigorúan monoton fejlődés), addig a többváltozós regresszió esetében valahogy nem akart szembe jönni velem egyetlen olyan téma sem, amelyet elég érdekesnek vagy hétköznapinak találtam ahhoz, hogy nekikezdjek az írásnak. Aztán valahogy bevillant, hogy a használtautó.hu-n van egy halom olyan konkrét adat a használt autókról, amelyekből már ki lehet hozni valamit. Ezért aztán elképzeltem, hogy mi lenne, ha el akarnám adni az autómat. Az egyik első kérdés lenne, hogy vajon mennyiért hirdessem meg a kocsit? Nyilvánvaló, hogy egy használt autó potenciális ára nagyon sok tényezőtől függ, és az is teljesen tiszta, hogy nem feltétlenül lehet csak a matematika nyelvén leírni egy ilyen komplex problémát. Természetesen nem is az a célom, hogy meghatározzak egy olyan varázs fomulát, amelynek a segítségével halálos pontossággal meg lehet határozni egy adott használt autó értékét, a kimondott szándék ismételten az oktatás segítése.

A példa természetesen annyiban is sántít, hogy a fent említett oldalon nem azt az árat lehet megtalálni, amennyiért egy jármű végül ténylegesen gazdát cserél, csak az az ár van fent, amennyiért a tulajdonosa meghirdette. Persze ez is egy érdekes adat; hiszen, ha az azonos típusú és hasonló állapotban lévő használt autókat hasonló áron hirdetik, az számunkra is egyfajta hasznos információ lehet, ez alapján mi is meg tudjuk határozni a körülbelüli induló limitünket, ami alapján aztán tovább finomíthatjuk az induló limitünket az egyéb – nehezebben számszerűsíthető tényezők alapján.

Noha nem értek igazán az autókhoz, a józan paraszti eszem azt súgja, hogy egy használt gépjármű értéke valamilyen szinten függ az életkorától, illetve attól is, hogy hány kilométert tettek meg vele. És ettől lesz igazán izgalmas az egész mert, ha az ár csak a kocsi életkorától, vagy a megtett kilométerek számától függene, akkor nem is kellene olyan sokat hezitálni a dolgon. Az viszont simán előfordulhat, hogy adott egy öreg járgány, amelyik keveset futott és persze a fordítottja is, vagyis van egy fiatal jármű, ami viszont sok futott kilométerrel rendelkezik. És ez már nem biztos, hogy egy olyan egyszerű egyenlet, mert mindkét tényezőt figyelembe kell venni valahogyan.

Szerencsére ezek az adatok megtalálhatók a fent említett oldalon, vagyis töméntelen mennyiségű adat áll a rendelkezésemre, amelyből választhatok. Végül úgy döntöttem, hogy egy virtuális Opel Astrát fogok eladni, mert ebből a típusból elég sok fut Magyarországon és ezáltal nagy a választék a különféle korú és állapotú használt autókból is. Az adatokat végül a 2010 és 2019 közötti időszakból gyűjtöttem össze, mert azt tapasztaltam, hogy a 10 évnél idősebb autóknál valahogy érdekesen alakulnak a megtett kilométer adatok. Így aztán a fenti időszakból minden évből kigyűjtöttem véletlenszerűen 10 darab eladó Opel Astrát és így összeállt egy olyan adatsor, amelyet fel tudok használni az elemzéshez. Az adathalmaz körülbelül így néz ki:

 

Ez a kis adatbázis 100 sorból áll, minden évből egyformán 10 darab autót választottam ki. Természetesen néhány más adatot is kigyűjtöttem, hátha másra is jó lesz még ez az adatsor a későbbiekben. Először is arra voltam kíváncsi, hogy vajon az egyes paraméterek egyenként hogyan viszonyulnak egymáshoz. Először is azt néztem meg, hogy hogyan viszonyul egymáshoz a jármű kora és az az ár, amennyiért hirdetik:

Noha az évjárat tulajdonképpen diszkrét változóként is felfogható, elég jól látszik, hogy ahogy az egyre fiatalabb járműveket egyre magasabb áron hirdetik, és minden évjáratnak megvan az a tartománya, ahová az árak beleesnek. Van ugyan egy-két kieső érték, de majd meglátjuk az elemzés végén, hogy ezekkel kell-e kezdeni valamit. Egyelőre nem akarom kivenni ezeket az adatsorból, hogy ne veszítsek információt az elemzés során.

Most nézzük meg, hogyan néz ki ugyanez a megtett kilométerekkel kapcsolatban:

Ez esetben is hasonló a kép, a járművek árai annál alacsonyabbak, minél több kilométert futottak. Itt is van egy kieső érték, de ezt most sem szeretném eltávolítani. Az első előjelek pozitívak, ezért vérszemet kaptam és ugyanígy megnéztem, hogy hogyan alakulnak az árak a motor térfogatának és a teljesítményének függvényében:

A pozitív korreláció ezekben az esetekben is látható, bár ezek az összefüggések talán nem annyira erősek, mint az évjárat vagy a futott kilométerek esetében. Ez esetben döntést kellene hozni valami alapján, hogy melyik paramétereket érdemes bevonni az elemzésbe. Ezért készítettem egy korrelációs mátrixot, amely tartalmazza az egyes jellemzők közötti kapcsolat erősségét (Valaki átírta a korrelációs együttható képletét, hogy ne lehessen érteni? Ez most komoly…?). Ezt a táblázatot a Microsoft Excel Analysis Toolpack nevű bővítménye segítségével készítettem. Ezt a bővítményt be kell kapcsolni, amely az Excel éppen használt változatától függően különböző helyeken érhető el. Mivel én Office360-at használok, ezért ezeket én a ’Fájl’ menüben a beállítások között találom meg:

Itt ki kell választani a bővítményekkel kapcsolatos beállításokat…

.. majd az ablak alján meg kell nyomni az ’Ugrás’ gombot.

Ekkor jelenik meg az a párbeszédablak, ahol be kell klikkelni az ’Analysis Toolpack’-ot.

Ha ez megvan, akkor az ’Adatok’ menüben megjelenik egy ’Adatelemzés’ nevezetű menüpont.

Érdemes azzal kezdeni, hogy a kurzort arra a cellára irányítjuk, amelyik a korrelációs mátrixunk bal felső sarka lesz. Ha jól terveztem meg az elemzésemet, a korrelációs mátrix egy 6x6 mezőből álló cellatartományba fog beleférni, ezt bárhol kijelölhetjük az adott lapon, vagy akár egy másikon is.

Ezután kattintunk az ’Adatelemzés’ menüpontra. Ez előhív (természetesen) egy másik párbeszédablakot, ahol ki lehet választani, hogy melyik adatelemzési eljárást szeretnénk alkalmazni. Itt kiválasztottam a korreláció elemzést:

Az ekkor megjelenő párbeszédablakban meg kell adni a bemeneti tartományt, …

… majd az OK gombra kattintva megkapjuk a korrelációs mátrixot, amely az összes olyan oszlopot és sort tartalmazza, amelyik benne van a bemeneti tartományban.

A korrelációs mátrixot megvizsgálva jónéhány következtetést leszűrhetünk az adatsorral kapcsolatban:

A legszorosabb korreláció az ár és a jármű kora között tapasztalható (0,93), ami azt jelenti, hogy az autó meghirdetett ára leginkább az életkortól függ. Azonban nem szabad figyelmen kívül hagyni, hogy a futott kilométerek száma és az ár között is egy erős negatív kapcsolat van (-0,87), vagyis nem elég csak a jármű életkorát figyelembe venni. Természetesen van egy olyan tényező is, hogy az életkor és a futott kilométerek száma között is erős a kapcsolat (-0,82), mert ezeknél az 1-9 éves járműveknél a tulajdonosok általában még a valós kilométer adatokat adják meg. Megnéztem az idősebb járművek esetében is ezeket az adatokat, ott sajnos ez a kapcsolat sokkal gyengébb volt. Érdekes módon a motorok térfogata és teljesítménye kevésbé határozza meg az árat (-0,38 és 0,45), itt csak közepes vagy annál gyengébb korreláció figyelhető meg.

Már a fent ismertetett megfigyelések is hasznosak a számunkra, de a kitűzött céltól még igen messze járunk, mert ugye egy olyan egyenletet szeretnénk megkapni, amelyik az autó kora ÉS a futott kilométerek alapján adja meg az árat. Ez viszont egy hosszú menet lesz, ezért a témát több cikkre osztottam fel a könnyebb emészthetőség kedvéért. A következő néhány részben a többváltozós regresszió elemzés alapelvét szeretném bemutatni egy sokkal egyszerűbb adatsoron; majd, ha ezt kivégeztem, akkor visszatérek a használt autós adatsorhoz és megoldom a problémát az eddig tanultak alapján, illetve a Minitab program használatával is. Ez igényel majd némi kitartást tőlem és tőletek is, de annyit megígérhetek, hogy még mindig csak a négy alapműveletet fogom használni, bár ettől függetlenül is elég komplex folyamat révén fogunk eljutni a kívánt végeredményig.

Szólj hozzá!

Hogyan csináld Minitab-bal - Egyváltozós lineáris regresszió

2019. november 22. 08:30 - glantos70

Statisztikai elemzések

 

Az előző bejegyzésben (A Sidney – Hobart Yacht verseny – Szigorúan monoton fejlődés) részletesen bemutattam a regressziós egyenes egyenletének kiszámítását. Ezt a bejegyzést igen rövidnek szánom, hiszen a célom csak annyi, hogy bemutassam, hogy néz ki mindez Minitab-ban. Annak ellenére, hogy elég sok karaktert pazaroltam el a lineáris regresszió magyarázatára, a fent említett példa igazából nem számít bonyolultnak a regresszió elemzés világában. A Minitab-ban is tulajdonképpen egyetlen menüpont elindításával elkészíthetjük az elemzésünket a már előre beadott adatsor alapján. Mielőtt belevágnánk a tesztbe, az adatainkat két oszlopba kell rendeznünk, amelyikből az egyik természetesen az x, a másik pedig az y változó értékeit tartalmazza. Jelen esetben ez természetszerűleg adódott, hiszen a Wikipédián talált eredeti táblázatban is így voltak elrendezve az adatok, csak ki kellett őket másolni a táblázatból és beilleszteni a Minitab adatmezőibe.

A próba legegyszerűbb végrehajtása az, ha a ’Stat’ menü ’Regression’ almenüjében kiválasztjuk a ’Fitted Line Plot’ parancsot.

Azon persze lehetne rugózni, hogy miért nem az alatta lévő ’Regression’ parancsot kell kiválasztani és azon is, hogy ezt a ’Fitted Line Plot’-ot miért nem hívják például ’Simple Linear Regression’-nek, de ebbe most inkább mégsem mennék bele, igazából kezdek beletörődni, hogy én vagyok fordítva bekötve. Mindegy.

Szóval a parancsot elindítva természetesen most is megjelenik egy párbeszéd ablak, ahol meg tudjuk adni a teszt adatait. Tényleg nagyon egyszerű az egész, csak néhány nagyon egyszerű adatot kell megadnunk.

A legfontosabb az, hogy meg kell mondanunk a programnak, hogy melyik oszlopban találja az x és az y változókat, azaz melyik változót tegye a vízszintes és melyiket a függőleges tengelyre. A ’Type of Regression Model’ alatt válasszuk ki a ’Linear’-t, mert az előzetesen elkészített grafikonok alapján erősen sejtjük, hogy a két változó értékei között lineáris kapcsolat van.

A ’Graphs’ nyomógomb megnyomásával egy újabb ablak jelenik meg, ahol megadhatjuk, hogy a maradékok (Residuals) elemzésére milyen grafikonokat szeretnénk alkalmazni.

Én ezt a beállítást szoktam alkalmazni, mert a ’Standardized’ csak akkor kell, ha a maradékok nem normál eloszlásúak, a ’Deleted’ pedig egy speciális elemzés, amelyet a kiugró értékű maradékok elemzésére használunk. A grafikonok közül a ’Four in one’ a legpraktikusabb, mert így az összes grafikont egy helyen megtalálom.

Az ’Options’ nyomógomb hatására egy másik ablak jelenik meg, itt adat transzformációkat tudunk beállítani, illetve itt tudjuk megadni a teszt megbízhatósági szintjét is. A ’Display options’ alatt megadhatjuk, hogy a program rajzolja be a megbízhatósági (confidence interval) és a becslési tartományokat (prediction interval) vagy sem. Ezekről majd később…

A ’Storage’ nyomógomb megnyomásakor pedig beállíthatjuk, hogy a teszt mely számolt paramétereit tárolja el a program valamelyik cellatartományban. Ez akkor lehet praktikus, ha mondjuk a maradékokat tovább akarnánk elemezni más módszerekkel.

És végre eljutottunk oda, hogy megnyomjuk az ’OK’ gombot. Lássuk a végeredményt:

A Minitab a teszt összes eredményét összefoglalta két darab táblázatban, ami így teljesen jól értelmezhetővé vált, ha valaki tudja, hogy mit kell nézni. A bal oldali diagramon a már jól ismert scatter-diagram látható. Amiben ez több, hogy kétféle intervallum is be van jelölve rajta szaggatott vonalakkal:

A megbízhatósági intervallum (confidence interval) a regressziós egyenes körüli piros szaggatott vonal. Az alapelv hasonló, amint azt az átlag standard hibája esetében tapasztaltuk (Az átlag standard hibája). Mivel a regressziós egyenes az adatpontok átlagát becsüli a minta alapján, itt is ugyanazzal a problémával szembesülünk: Ha a minta átlaga egy adott szám, abból az következik, hogy a sokaság átlaga egy adott tartományon belül van, de hogy pontosan hol, azt nem tudjuk.

A becslési tartomány (Prediction interval) viszont azt mutatja meg, hogy a sokaság egyes pontjai mely tartományba fognak esni a regressziós egyenes körül (Hátrébb az agarakkal! – Mennyire hihető a regressziós egyenes becslése?).

A legfontosabb viszont az, hogy a diagram tetején a cím alatt megtalálható a regressziós egyenes becslése, ami miatt az egészet csináljuk. Aminek nagyon örülök, hogy a Minitab által adott becslés teljesen megegyezik azzal, amit korábban excelben kiszámoltam (Tudom, hogy gőzgép, de mi hajtja? – Egyváltozós lineáris regresszió – a regressziós egyenes meghatározása).

A másik diagram tulajdonképpen négy diagram kombinációja, amelyik mind az egyes adatpontoknak a regressziós egyenestől való eltéréseit (maradékok, vagy angolul residuals) mutatják meg különféle módokon. Ezeknek a grafikonoknak az értelmezését szintén meg lehet találni az előbb említett cikkben, úgyhogy ennek a részletezésétől most eltekintek.

Reménykedem benne, hogy mindenki számára világos és jól követhető volt ez a kis cikksorozat és sikerült barátságot kötni a regresszió elemzések legegyszerűbb tagjával. A későbbiekben azért még csavarok majd egyet ezen, de ez legyen a jövő zenéje, addig még jöjjön egy-két kevésbé fajsúlyos téma…

Szólj hozzá!