Statisztika egyszerűen

Mágikus jelek nélkül...

Egy kép többet ér ezer szónál...

2019. április 13. 09:30 - glantos70

Vizuális statisztika

Egy kép többet ér ezer szónál… Ez az elcsépelt régi bölcsesség az adatfeldolgozásban és a statisztikában is igaz. Napjainkban, amikor a különféle érzékelők milliószámra öntik a nyakunkba az adatokat és a Big Data a forradalmát éli, egyszerűen szinte lehetetlenné válna ennek a hihetetlen adatmennyiségnek a befogadása és feldolgozása az adatok vizuális megjelenítése nélkül. Arról nem is beszélve, hogy mennyire nehézkessé válna az elemzések eredményeinek egyszerű és közérthető bemutatása sem lenne lehetséges a különféle ábrák és grafikonok nélkül.

Ebben a fejezetben bemutatom a leggyakrabban használt diagram típusokat, azok alkalmazási területeit és elkészítésük alapvető szabályait. Noha ez nagyon hasznos lenne, sajnos a bemutatott diagram típusok elkészítésének részletes leírása mondjuk egy táblázatkezelő vagy statisztikai programmal nem fér bele a könyv kereteibe, illetve nagymértékben rontaná a fejezet áttekinthetőségét. Remélem, hogy a fejezet így is segíti majd abban az olvasót, hogy ki tudja választani a feladathoz illeszkedő vizuális eszközt és így tegye hatékonyabbá  a problémák megoldását.

A már korábban említett példában - amikor a mérési eredmények összekeveredtek – láthattuk, hogy a hiba okát csak úgy tudtuk felfedezni, ha az adatokat megfelelő módon ábrázoltuk. Ha valakit mégsem győzött volna meg a fenti érvelés, az próbálja ki, hogy mit tud kiolvasni a következő adatsorból.

102,06 103,19 101,28 102,06 100,11 97,38 98,19 99,69 99,33 101,53 99,97 98,64 103,04 97,14 102,05 100,64 99,28 100,91 101,11 103,00 103,22 99,38 100,85 99,88 98,13 103,56 100,50 101,04 99,93 97,54 98,74 105,21 105,57 100,84 99,86 98,54 98,86 98,34 99,60 97,66 99,99 96,90 102,01 99,23 102,36 104,27 102,70 104,02 102,13 101,04 100,25 101,18 103,76 101,60 112,70 97,19 100,91 101,10 100,56 101,61 99,42 100,71 97,82 100,42 98,12 97,45 103,28 101,30 99,73 100,91 101,43 101,62 98,39 103,50 100,76 100,03 98,86 100,98 102,17 98,24 104,32 97,72 100,85 98,40 97,42 100,09 101,48 101,54 101,36 101,22 101,04 100,06 99,75 98,04 95,89 100,60 102,24 102,29 100,63 104,04 98,75 102,48 97,85 97,09 99,02 99,97 101,72 100,42 104,63 99,72 99,92 99,09 99,61 98,17 102,70 104,84 102,22 97,22 101,03 103,38 98,07 97,85 99,18 98,59 99,28 100,71 100,15 104,37 97,47 99,92 100,34 103,13 97,27 103,57 100,01 100,66 100,55 100,02 98,99 99,87 100,29 100,27 98,81 102,75 96,08 102,20 100,32 97,23 98,36 97,53 99,24 101,44 101,23 96,98 102,98 98,16 98,62 98,90 101,37 99,28 101,61 102,90 102,32 100,14 99,13 99,48 99,54 98,81 103,15 97,99 97,50 100,25 98,43 101,83 100,54 101,00 96,44 101,28 101,86 101,01 99,56 97,98 99,19 98,50 98,10 95,26 97,98 99,23 100,21 100,31 98,82 101,93 98,58 98,24 98,43 103,00 103,89 100,64 101,05 102,59

Első ránézésre nem túl sok információval szolgál a számsor. Talán, ha vesszük a fáradtságot és egy kicsit tüzetesebben megvizsgáljuk a fenti adatsort, akkor van rá esély, hogy felfedezünk néhány alapvető dolgot, például

·         A fenti számsorban vannak 100-nál nagyobb és 100-nál kisebb számok

·         A számsorban szereplő számok 100 körül ingadoznak

·         A számok nagy része a 96 és a 104 közötti tartományban mozog, de találhatók 96-nál kisebb és 104-nél nagyobb számok is a számsorban

·         A számok két tizedesjeggyel vannak megadva

De ennél sokkal több nem igazán tűnik fel. Mi lenne, ha valamilyen módon grafikusan is megjelenítenénk ezt a számsort? Mondjuk készíthetnénk egy pont diagramot a számokat a leírt sorrendben ábrázolva?

Ez a számítógépek előtti korban komoly erőfeszítéseket igényelt volna, de manapság már komoly számítási kapacitással rendelkező gépek és felhasználóbarát programok segítenek az adatok képi megjelenítésében, tehát szinte semmi sem korlátoz bennünket.

Természetesen minden tiszteletem azé az olvasóé, aki a fenti ábra nélkül – pusztán a számok vizsgálata alapján – rájött, hogy egyetlen szám kilóg a többi közül. Az adatokat vizuálisan megjelenítve persze már sokkal egyszerűbb megtalálni a kakukktojást, mint pusztán a számokat böngészve. Érdekes módon, nagyon sok helyen, ahol rendszeresen készítenek feljegyzéseket mérési eredményekről és azok alapján döntéseket hoznak, még mindig nem jutottunk el oda, hogy a mérést végző személy nemcsak felírja az eredményeket egy papírra, vagy feljegyzi egy füzetbe, hanem valamilyen diagramon is ábrázolja az adatokat. A szükséges döntéseket az azonnali mérési eredmények függvényében hozzák meg, szinte teljesen figyelmen kívül hagyva a múltbeli eseményeket.

----------

A japánokról nem köztudott, hogy nagyon régóta foglalkoznak kereskedelemmel. Már a 1700-as években kialakult Osaka környékén a rizs nagykereskedelme, ahol a kereskedők alkudozásai révén alakult ki a rizs aktuális ára. Az Osakai rizspiacon az évszázad közepén már háromszor annyi rizzsel kereskedtek, mint amennyi egész Japánban termett egy adott évben. A legnagyobb kereskedőházak változatos módon próbálták megjósolni, hogy hogyan alakulnak majd az árak a közeli jövőben, például zászlós embereket ültettek a háztetőkre, akik a zászlókkal jelezték az árak alakulását. Ők kezdtek el diagramokat is rajzolni a rizsárak alakulásáról, hogy az árak múltbeli alakulásából következtessenek az árak jövőbeni változásaira. Ennek szemléltetésére dolgozták ki az úgynevezett Japán gyertyákat (Japanese candlesticks), amelyek egy adott napon jelzik az árak változását a nap folyamán:

A gyertyák egy nap vagy egy vizsgált időszak legfontosabb árváltozásait foglalják össze igen tömör formában. Amint az látható, a világos gyertya az ár emelkedését jelzi a vizsgált időszakban, míg a sötét gyertya az ár csökkenésére utal. A gyertyák alakja és Az egymás után következő különféle gyertya alakzatok alapján lehet következtetni a piaci hangulatra, amelyek alapján következtetni lehet az ár potenciális jövőbeni változásaira:


Példa a piaci hangulat előrejelzésére jellegzetes japán gyertya alakzatok alapján.

----------

Amikor adatokat elemezünk, akkor leginkább a következő célokat szeretnénk elérni:

·         meg akarjuk találni a dolgok közötti hasonlóságokat,

·         meg akarjuk találni a dolgok közötti különbségeket,

·         meg akarjuk érteni a dolgok közötti kapcsolatokat,

·         meg akarjuk magyarázni, hogy az egész milyen részekből épül fel,

·         meg akarjuk mutatni a dolgok időbeni változását, vagy

·         meg akarjuk mutatni az adatok eloszlását.

A vizsgálat célja és a rendelkezésre álló adatok típusa és mérési skálája meghatározza az adatok ábrázolásának módját.

Tegyük fel, hogy elemezni szeretnénk az otthoni villanyszámláinkat, mert csökkenteni szeretnénk a villanyért fizetendő díjat.

·         Ha a villanyszámla időbeni alakulását akarjuk ábrázolni, ahol a villanyszámla végösszege és az év hónapjai is numerikus változók, amelyeket intervallum-, illetve arányskálán mérünk akkor például ábrázolhatjuk az adatokat egy vonal diagramon, ahol az x-tengelyen a hónapokat, az y-tengelyen pedig a villanyszámla végösszegét helyezzük el.

·         Ha össze akarjuk hasonlítani a villanyszámlák összegét a nyári és a téli hónapokban, akkor megtehetjük ezt egy oszlopdiagramon, vagy egy boxplot diagramon, de akár egy radar diagramon is, hiszen a villanyszámla végösszege egy arányskálán mért numerikus változó, az év hónapjai viszont sorrendi skálán mért kategória változó.

·         Ha például a villanyóráról leolvasott áramfogyasztás és a villanyszámla összege közötti összefüggésre vagyunk kíváncsiak, akkor a két – arányskálán mért numerikus – változó közötti kapcsolatot remekül vizsgálhatjuk egy olyan pontdiagrammal, amelynek x-tengelyén az egyik, az y-tengelyén pedig a másik változó helyezkedik el.

·         Ha a villany fogyasztási adatok eloszlására vagyunk kíváncsiak, akkor ezt megtehetjük úgy, hogy az adatokat egy hisztogramon ábrázoljuk.

·         Ha sorba szeretnénk rendezni a legnagyobb fogyasztókat az általuk fogyasztott áram mennyisége alapján, mert kíváncsiak vagyunk arra, hogy miért fogyasztunk ilyen sok áramot, akkor ezt egy Pareto diagramon tehetjük meg.

A soron következő bejegyzésekben áttekintem majd az adatelemzésben leggyakrabban alkalmazott ábrázolási módokat.

4 komment

A bejegyzés trackback címe:

https://statisztikaegyszeruen.blog.hu/api/trackback/id/tr2614731783

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

vöröshús 2019.04.13. 15:08:35

Szia!

Tök jó a blogod, szeretem olvasni, mint kivülálló, és 3szoros stat vizsgaismétlő. :)
A gyertyás magyarázó kép valószínűleg nem jó, a sötét gyertyánál a nyitó és záró címke fordítva lenne logikus.
Üdv. G.

glantos70 2019.04.13. 15:50:52

@vöröshús: uhhh, tényleg! Úgy tűnik, ezt benéztem! Amint tudom, javitom. Köszi, hogy jelezted!

Örülök, hogy tetszik a blog. Amúgy a főiskolán én sem jeleskedtem ebből a tárgyból, de nem is így tanították. :-)

glantos70 2019.04.14. 08:21:15

@vöröshús: Javítottam a hibát. Mégy egyszer köszi, hogy jelezted.

Online Távmunkás · http://onlinetavmunka.blog.hu 2019.04.14. 09:44:34

A japánok kereskedtek belföldön, csak a nemzetközi kereskedelem volt tiltott egy-két monopóliumot élvező család kivételével.
süti beállítások módosítása