Statisztika egyszerűen

Mágikus jelek nélkül...

A gömbölyűség mértékegysége - Az adattípusokról és mérési skálákról

2019. április 09. 11:45 - glantos70

Statisztikai elemzések

Rendezzük sorba a következő öt tárgyat aszerint, hogy melyik mennyire gömbölyű:

A feladat elsőre furán hangzik, hiszen valaminek a gömbölyűsége nem egy mindenki számára egyformán értelmezhető objektív tulajdonság. Azért tegyünk egy próbát és próbáljuk meg a fenti öt tárgyat besorolni két kategóriába.

Az alma és a hordó esetében nem túl bonyolult a döntés, hiszen mindkettő formája eléggé gömbölyű.

Az építőkockák egyértelműen szögletesek, tehát gömbölyűnek semmiképp sem mondhatók. A lámpára és a ceruzára nehezen tudnánk ráfogni. hogy gömbölyűek annak ellenére, hogy vannak kerek részeik. A legfontosabb eredmény az, hogy az almára és a hordóra sikerült ráakasztani a címkét, hogy ezek gömbölyűek. Ezzel szemben az építőkocka és a ceruza egy másik címkét kapott, mely szerint ezek a tárgyak nem gömbölyűek. Ez a címke azt jelzi, hogy ők ketten hasonlítanak egymásra, viszont egyértelműen különböznek a gömbölyű tárgyaktól.

Azt azért érezzük, hogy ez a csoportosítás így nem elég jó, hiszen nem modellezi elég egyértelműen az öt tárgy gömbölyűségét. Mi lenne, ha a kategóriákat egy kicsit pontosabban határoznánk meg, például az alma és a hordó maradna a gömbölyű kategóriában, az építőkocka számára létrehoznánk a ’szögletes’ kategóriát, a lámpa és a ceruza pedig egy ’egyéb’ kategóriába kerülne.

Így egy fokkal jobb a kép, ez a három csoport már sokkal jobban megközelíti azt a belső képet, amelyet az öt tárgy gömbölyűségének mértékéről alkottunk magunkban. Ezzel együtt elmondható, hogy noha sikerült a tárgyakra a nekik megfelelő címkéket ráaggatni, a három kategóriát nem lehet sorrendbe állítani, hogy az egyik gömbölyűbb, mint a másik, csak annyi igaz, hogy az öt tárgyat így lehet csoportosítani.

A fenti kétféle adattípust nominális skálának hívjuk. Amikor a vizsgált dolgokat nominális mérési skála szerint csoportosítjuk, akkor a dolgokat véges számú kategóriába soroljuk. A kategóriák egyszerű címkék, nincs matematikai jelentésük. Nem rendezhetők sorba és nem írható le velük egy adott tulajdonság mértéke. Sokféle példát lehet hozni a nominális skála alkalmazására a mindennapi életből, például ’igen – nem’, vagy ’jó – rossz’, ’férfi – nő’, illetve ’angol – német – francia nyelvtudás’ vagy ’úszás – labdarúgás – kézilabda – kosárlabda’.

A fentiekkel elértünk bizonyos eredményeket, de igazából nem választoltunk a fejezet elején feltett kérdésre, úgymint melyik tárgy gömbölyűbb, mint a másik. Tehát nem arra vagyunk kíváncsiak, hogy melyik tárgy hasonlít melyik másikra, hanem sorba szeretnénk rendezni a tárgyakat gömbölyűségük foka szerint. Kiindulásképpen meg tudjuk határozni, hogy az öt tárgy közül melyik a leggömbölyűbb és melyik a legszögletesebb:

Ez eddig könnyű volt. A következő lépés még mindig nem túl nehéz, a hordó közel olyan gömbölyű, mint az alma, de azért nem annyira. Tehát szerintem tegyük a hordót az alma után következő második leggömbölyűbb tárgynak:

Már csak két tárgyról kell döntenünk. Vajon a lámpa vagy a ceruza a gömbölyűbb? Talán a lámpa körvonala oldalról közelebb áll a gömbformához, mint az egyértelműen hosszúkás ceruza. A lámpaernyő és a lámpa talpa szintén kerek formájúak, ami emlékeztet a gömbre, míg a ceruza teste hatszög alakú, sarkai vannak, tehát semmiképp sem kerekded. Nem igazán meggyőző érvelés, de ez alapján inkább a lámpa a gömbölyűbb, mint a ceruza. Legyen akkor ez a sorrend.

Természetesen ezen lehet vitatkozni, de ez esetben nem is egy objektív sorrend kialakítása volt a lényeg, hanem az, hogy felállítottunk valamilyen sorrendet az öt tárgy között a gömbölyűség mértékéről (még ha az mégoly megkérdőjelezhető is), tehát válaszoltunk a fejezet elején feltett kérdésre.

Az ilyen osztályozást ordinális vagy sorrendi skálának nevezzük. Ezekben az esetekben ismét csak véges számú kategóriát használunk, de az egyes kategóriák közötti sorrendet is fel tudjuk állítani, azonban azt nem tudjuk, hogy az egyes kategóriák között mekkora a különbség. Jó példa még az ordinális mérési skálára az iskolai végzettség (’általános iskola – középiskola – főiskola – egyetem’) vagy a katonai rendfokozatok skálája is. Ide tartoznak a különféle elégedettségi kérdőívek adatai is, például ’Nagyon elégedetlen – kevésbé elégedetlen – kevésbé elégedett – nagyon elégedett’.

A nominális és az ordinális skálákat használó változókat összefoglalóan kategória változóknak hívjuk. Amint az a korábbiakból kiderült, az ilyen változókat legtöbbször a vizsgált dolgok csoportosítására használjuk, hogy aztán meg tudjuk mutatni az egyes csoportok közötti hasonlóságokat különbségeket.

Azonban folytassuk a vizsgálódást a fenti öt tárggyal kapcsolatban. Mi lenne, ha nemcsak sorba tudnánk rendezni az öt tárgyat a gömbölyűségük mértéke szerint, de megtudnánk állapítani azt is, hogy az egyes tárgyak gömbölyűségének mértékében mekkorák az eltérések? Azaz mindegyik tárgy gömbölyűségét jellemezni tudnánk egy számszerű értékkel? Azt javaslom, hogy hozzunk létre egy 10-es skálát, amelynek az egyik vége az alma gömbölyűsége, a másik vége pedig az építőkocka szögletessége.

Akkor most próbáljuk meg elhelyezni a másik három tárgyat ezen a skálán. Ha az alma 1 és az építőkocka 10, akkor vajon mennyi lehet a hordó? Legyen mondjuk 3.

Rendben, de akkor vajon mennyi lehet a lámpa? Lehet-e 5? Létezik, hogy a lámpa gömbölyűsége valahol félúton van az alma és az építőkocka között? Nem tudom, nekem érzésre a lámpa közelebb van az almához, mint az építőkockához, de azért nem mondanám, hogy a hordó és a lámpa között csak egy a különbség. Ezt inkább az alma és a hordó között érzem. Legyen a hordó inkább 2 és legyen a lámpa 4.

Most már csak a ceruza maradt. Korábban megegyeztünk, hogy a ceruzának minden felülete szögletes, kivéve a hegyét míg a lámpán jónéhány kerek felület található. Emiatt a ceruzát inkább közelebb érzem az építőkockához, mint a lámpához, tehát legyen a ceruza 8.

Kész is vagyunk, sikerült egy olyan mérési skálát létrehoznunk, amely nemcsak az egyes tárgyak egymáshoz viszonyított gömbölyűségét határozza meg, hanem szemlélteti az egyes tárgyak gömbölyűségének mértékét is. Ezt a skálát intervallum skálának hívjuk. Az intervallum skálának nincs abszolút nullpontja, tehát ez egy relatív skála, a nullpont és a beosztások meghatározása megegyezés kérdése. Intervallum skála például a hőmérséklet mérésére használt Celsius fok skála, hiszen a 0°C a víz fagyáspontja, a 100°C a víz forráspontja és ezt a két hőmérsékletet 100 egyenlő részre osztjuk. De a 0°C nem abszolút nullpont, hiszen ez a hőmérséklet megegyezés alapján lett eldöntve, van ennél kisebb hőmérséklet is.

Már csak egy lépés hiányzik ahhoz, hogy a gömbölyűséget abszolút mérhetővé tegyük. Át kell alakítanunk a skálánkat úgy, hogy definiáljunk egy abszolút nulla pontot. A gömbölyűség abszolút nullpontja a tökéletes gömb. Mivel ennél kisebb értéket a gömbölyűség nem vehet fel, ezért ez egy abszolút nullpont. Az abszolút gömbölyűség tökéletes ellentéte a gömbölyűség teljes hiánya, az abszolút szögletesség. Legyen ennek jelképe a tökéletes kocka. Rendezzük át a skálánkat ennek megfelelően.

Ha az almát a tökéletes gömbhöz képest akarjuk definiálni, azért van különbség, tehát javaslom, hogy ha a tökéletes gömb nulla, akkor az alma legyen 2. A másik oldalon az építőkocka sokkal jobban hasonlít egy tökéletes kockához, mint az alma a tökéletes gömbhöz, tehát legyen kisebb a különbség. Ha a tökéletes kocka 10, akkor legyen az építőkocka 9. Az alma és az építőkocka közötti többi elem aránya nem változott lényegesen, így a hordó 3 lett, a lámpa 5, a ceruza pedig 7.

Az ilyen mérési skálát arányskálának nevezzük. Az intervallum skálától annyiban tér el, hogy van egy abszolút 0 pontja is. Erre jó példa a Kelvin-skála, amelynek nullpontja a tényleges hőmérsékleti 0 pont.

Esetenként problémát okozhat annak eldöntése, hogy egy mérési skála intervallum skála vagy arányskála. Ebben segíthet egy apró trükk. Ha a mérési skálán jelöljünk ki két értéket, amelyek közül az egyik kétszer akkora, mint a másik. Amennyiben a mért mennyiség is kétszer akkora, akkor a skála arányskála, ha pedig nem, akkor intervallum skála. Jó példa erre a Celsius skála, ahol a +4°C nem kétszer akkora abszolút értékben, mint a +2°C. Ezzel szemben a Kelvin skála esetében a +4°K kétszer akkora hőmérsékletet jelöl, mint a +2°K. A tömeg például arányskála, mert egy 120 kg tömegű ember kétszer annyit nyom, mint egy 60 kg-os.

Az intervallum skála és az arány skála numerikus változók. Ez azt jelenti, hogy az adatok számszerű értékeket vehetnek fel, amelyek lehetnek diszkrétek (az eredmények csak bizonyos értékeket vehetnek fel), vagy folytonosak (az eredmények bármilyen értéket felvehetnek). A numerikus változókat a vizsgált dolgok valamely tulajdonságának jellemzésére használjuk. Az adattípusok felépítése tehát a következő:

A statisztikai elemzések elkészítéséhez az adatokat különféle táblázatokba szoktuk rendezni. Van, amikor a táblázat csak egyetlen sort vagy oszlopot tartalmaz, ilyenkor egyetlen változó adatait vizsgáljuk. Máskor a táblázat több sort és oszlopot is tartalmaz. Ez például olyankor fordulhat elő, amikor többféle változó egymásra hatását vizsgáljuk, vagy egy vizsgált változó adatait egy-, vagy többféle módon csoportosítani akarjuk. Az adattáblák keverve tartalmazhatnak kategória és numerikus változókat is. 

Miért így hoztam létre a táblázatot? Először is hagyományosan úgy állítjuk össze a statisztikai elemzésekhez használt táblázatokat, hogy az oszlopok tartalmazzák a vizsgálat során megfigyelt változókat, a sorok pedig a megfigyelések során összegyűjtött adatokat. Amint látható, a táblázat vegyesen tartalmaz kategória változókat (’ev’, ’honap’, ’honap.nev’, ’evszak’, ’leolvasas’), illetve numerikus változókat (fogyasztas.kWh, Energiadij, Rendszerhasznalat, AFA, Felszolitas, Kesedelem, szamla.Ft). A kategória változók közül a ’leolvasas’ nominális skálájú változó, míg az ’ev’, ’honap’, ’honap.nev’, és az ’evszak’ ordinális vagy sorrendi skálájú változók. A ’honap’ és a ’honap.nev’ változók természetesen összetartoznak. Tulajdonképpen elegendő lenne a hónapok neveit feltűntetni a táblázatban, de úgy tervezem, hogy számítógéppel is feldolgozom majd az adatokat, viszont a számítógépes programok általában nem helyesen rendezik sorba a hónapokat azok nevei alapján. Ennek a kezelésnek megvan az az előnye, hogy az adatokat helyesen tudom sorrendbe rendezni, viszont az eredmények kinyomtatásakor különösebb probléma nélkül alkalmazhatom a hónapok neveit, így olvashatóbb riportokat tudok majd készíteni. Az ékezetes karakterek használatát szintén azért mellőzöm, hogy kevésbé legyen zavaró a számítógépes programok számára. A ’leolvasas’ mező tartalma a számlán szerepel. Ez jelöli azt, hogy a számlázott végösszeg a mérőóráról leolvasott és a szolgáltatónak bediktált fogyasztás alapján lett kiszámolva, vagy a szolgáltató megbecsülte a korábbi fogyasztási adatok alapján a havi fogyasztás és ez alapján számlázott. Az ’evszak’ mező természetesen könnyedén kitölthető a hónapok alapján, ezt a változót azért vezettem be, hogy meg tudjam vizsgálni, van-e jellemző különbség a fogyasztásomban az egyes évszakok szerint. Amikor számítógépes programokat alkalmazunk, sajnos foglalkoznunk kell a az egyes változók típusával abból a szempontból is, ahogyan az alkalmazott számítógépes program értelmezi őket. Még egy táblázatkezelő program is képes helytelen módon kezelni az egyes adatokat, ha nem adjuk meg megfelelően azok típusát. A nominális skálájú változók általában szöveges változók még akkor is, ha esetleg számmal jelöljük a változó felvehető értékeit. A sorrendi változók esetében érdemes számokkal jelölni a változók felvehető értékeit, hogy a sorba rendezés mindig helyes legyen. Sajnos szöveges értékek rendezése esetén nem feltétlenül kapjuk azt a sorrendet, amit szeretnénk (lásd a hónapok a fenti táblázatban). Feltételezve, hogy az olvasó képes egy egyszerű táblázat összeállítására, ezért ezt itt most nem részletezem.

Szólj hozzá!

A bejegyzés trackback címe:

https://statisztikaegyszeruen.blog.hu/api/trackback/id/tr6814715139

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása