Statisztika egyszerűen

Mágikus jelek nélkül...

Használtautó eladó! – Többváltozós lineáris regresszió elemzés

2019. november 29. 09:00 - glantos70

Statisztikai elemzések

Elég sokat keresgéltem, hogy találjak egy olyan hétköznapi életből vett adatsort, amely segítségével relatíve jól érthetően be tudom mutatni a többváltozós lineáris regresszió elemzést. Amíg az egyváltozós változat esetében találtam érdekes és közérthető témát és adatokat (A Sidney-Hobart yacht verseny – Szigorúan monoton fejlődés), addig a többváltozós regresszió esetében valahogy nem akart szembe jönni velem egyetlen olyan téma sem, amelyet elég érdekesnek vagy hétköznapinak találtam ahhoz, hogy nekikezdjek az írásnak. Aztán valahogy bevillant, hogy a használtautó.hu-n van egy halom olyan konkrét adat a használt autókról, amelyekből már ki lehet hozni valamit. Ezért aztán elképzeltem, hogy mi lenne, ha el akarnám adni az autómat.

Az egyik első kérdés lenne, hogy vajon mennyiért hirdessem meg a kocsit? Nyilvánvaló, hogy egy használt autó potenciális ára nagyon sok tényezőtől függ, és az is teljesen tiszta, hogy nem feltétlenül lehet csak a matematika nyelvén leírni egy ilyen komplex problémát. Természetesen nem is az a célom, hogy meghatározzak egy olyan varázs fomulát, amelynek a segítségével halálos pontossággal meg lehet határozni egy adott használt autó értékét, a kimondott szándék ismételten az oktatás segítése.

A példa természetesen annyiban is sántít, hogy a fent említett oldalon nem azt az árat lehet megtalálni, amennyiért egy jármű végül ténylegesen gazdát cserél, csak az az ár van fent, amennyiért a tulajdonosa meghirdette. Persze ez is egy érdekes adat; hiszen, ha az azonos típusú és hasonló állapotban lévő használt autókat hasonló áron hirdetik, az számunkra is egyfajta hasznos információ lehet, ez alapján mi is meg tudjuk határozni a körülbelüli induló limitünket, ami alapján aztán tovább finomíthatjuk az induló limitünket az egyéb – nehezebben számszerűsíthető tényezők alapján.

Noha nem értek igazán az autókhoz, a józan paraszti eszem azt súgja, hogy egy használt gépjármű értéke valamilyen szinten függ az életkorától, illetve attól is, hogy hány kilométert tettek meg vele. És ettől lesz igazán izgalmas az egész mert, ha az ár csak a kocsi életkorától, vagy a megtett kilométerek számától függene, akkor nem is kellene olyan sokat hezitálni a dolgon. Az viszont simán előfordulhat, hogy adott egy öreg járgány, amelyik keveset futott és persze a fordítottja is, vagyis van egy fiatal jármű, ami viszont sok futott kilométerrel rendelkezik. És ez már nem biztos, hogy egy olyan egyszerű egyenlet, mert mindkét tényezőt figyelembe kell venni valahogyan.

Szerencsére ezek az adatok megtalálhatók a fent említett oldalon, vagyis töméntelen mennyiségű adat áll a rendelkezésemre, amelyből választhatok. Végül úgy döntöttem, hogy egy virtuális Opel Astrát fogok eladni, mert ebből a típusból elég sok fut Magyarországon és ezáltal nagy a választék a különféle korú és állapotú használt autókból is. Az adatokat végül a 2010 és 2019 közötti időszakból gyűjtöttem össze, mert azt tapasztaltam, hogy a 10 évnél idősebb autóknál valahogy érdekesen alakulnak a megtett kilométer adatok. Így aztán a fenti időszakból minden évből kigyűjtöttem véletlenszerűen 10 darab eladó Opel Astrát és így összeállt egy olyan adatsor, amelyet fel tudok használni az elemzéshez. Az adathalmaz körülbelül így néz ki:

 

Ez a kis adatbázis 100 sorból áll, minden évből egyformán 10 darab autót választottam ki. Természetesen néhány más adatot is kigyűjtöttem, hátha másra is jó lesz még ez az adatsor a későbbiekben. Először is arra voltam kíváncsi, hogy vajon az egyes paraméterek egyenként hogyan viszonyulnak egymáshoz. Először is azt néztem meg, hogy hogyan viszonyul egymáshoz a jármű kora és az az ár, amennyiért hirdetik:

Noha az évjárat tulajdonképpen diszkrét változóként is felfogható, elég jól látszik, hogy ahogy az egyre fiatalabb járműveket egyre magasabb áron hirdetik, és minden évjáratnak megvan az a tartománya, ahová az árak beleesnek. Van ugyan egy-két kieső érték, de majd meglátjuk az elemzés végén, hogy ezekkel kell-e kezdeni valamit. Egyelőre nem akarom kivenni ezeket az adatsorból, hogy ne veszítsek információt az elemzés során.

Most nézzük meg, hogyan néz ki ugyanez a megtett kilométerekkel kapcsolatban:

Ez esetben is hasonló a kép, a járművek árai annál alacsonyabbak, minél több kilométert futottak. Itt is van egy kieső érték, de ezt most sem szeretném eltávolítani. Az első előjelek pozitívak, ezért vérszemet kaptam és ugyanígy megnéztem, hogy hogyan alakulnak az árak a motor térfogatának és a teljesítményének függvényében:

A pozitív korreláció ezekben az esetekben is látható, bár ezek az összefüggések talán nem annyira erősek, mint az évjárat vagy a futott kilométerek esetében. Ez esetben döntést kellene hozni valami alapján, hogy melyik paramétereket érdemes bevonni az elemzésbe. Ezért készítettem egy korrelációs mátrixot, amely tartalmazza az egyes jellemzők közötti kapcsolat erősségét (Valaki átírta a korrelációs együttható képletét, hogy ne lehessen érteni? Ez most komoly…?). Ezt a táblázatot a Microsoft Excel Analysis Toolpack nevű bővítménye segítségével készítettem. Ezt a bővítményt be kell kapcsolni, amely az Excel éppen használt változatától függően különböző helyeken érhető el. Mivel én Office360-at használok, ezért ezeket én a ’Fájl’ menüben a beállítások között találom meg:

Itt ki kell választani a bővítményekkel kapcsolatos beállításokat…

.. majd az ablak alján meg kell nyomni az ’Ugrás’ gombot.

Ekkor jelenik meg az a párbeszédablak, ahol be kell klikkelni az ’Analysis Toolpack’-ot.

Ha ez megvan, akkor az ’Adatok’ menüben megjelenik egy ’Adatelemzés’ nevezetű menüpont.

Érdemes azzal kezdeni, hogy a kurzort arra a cellára irányítjuk, amelyik a korrelációs mátrixunk bal felső sarka lesz. Ha jól terveztem meg az elemzésemet, a korrelációs mátrix egy 6x6 mezőből álló cellatartományba fog beleférni, ezt bárhol kijelölhetjük az adott lapon, vagy akár egy másikon is.

Ezután kattintunk az ’Adatelemzés’ menüpontra. Ez előhív (természetesen) egy másik párbeszédablakot, ahol ki lehet választani, hogy melyik adatelemzési eljárást szeretnénk alkalmazni. Itt kiválasztottam a korreláció elemzést:

Az ekkor megjelenő párbeszédablakban meg kell adni a bemeneti tartományt, …

… majd az OK gombra kattintva megkapjuk a korrelációs mátrixot, amely az összes olyan oszlopot és sort tartalmazza, amelyik benne van a bemeneti tartományban.

A korrelációs mátrixot megvizsgálva jónéhány következtetést leszűrhetünk az adatsorral kapcsolatban:

A legszorosabb korreláció az ár és a jármű kora között tapasztalható (0,93), ami azt jelenti, hogy az autó meghirdetett ára leginkább az életkortól függ. Azonban nem szabad figyelmen kívül hagyni, hogy a futott kilométerek száma és az ár között is egy erős negatív kapcsolat van (-0,87), vagyis nem elég csak a jármű életkorát figyelembe venni. Természetesen van egy olyan tényező is, hogy az életkor és a futott kilométerek száma között is erős a kapcsolat (-0,82), mert ezeknél az 1-9 éves járműveknél a tulajdonosok általában még a valós kilométer adatokat adják meg. Megnéztem az idősebb járművek esetében is ezeket az adatokat, ott sajnos ez a kapcsolat sokkal gyengébb volt. Érdekes módon a motorok térfogata és teljesítménye kevésbé határozza meg az árat (-0,38 és 0,45), itt csak közepes vagy annál gyengébb korreláció figyelhető meg.

Már a fent ismertetett megfigyelések is hasznosak a számunkra, de a kitűzött céltól még igen messze járunk, mert ugye egy olyan egyenletet szeretnénk megkapni, amelyik az autó kora ÉS a futott kilométerek alapján adja meg az árat. Ez viszont egy hosszú menet lesz, ezért a témát több cikkre osztottam fel a könnyebb emészthetőség kedvéért. A következő néhány részben a többváltozós regresszió elemzés alapelvét szeretném bemutatni egy sokkal egyszerűbb adatsoron; majd, ha ezt kivégeztem, akkor visszatérek a használt autós adatsorhoz és megoldom a problémát az eddig tanultak alapján, illetve a Minitab program használatával is. Ez igényel majd némi kitartást tőlem és tőletek is, de annyit megígérhetek, hogy még mindig csak a négy alapműveletet fogom használni, bár ettől függetlenül is elég komplex folyamat révén fogunk eljutni a kívánt végeredményig.

Szólj hozzá!

A bejegyzés trackback címe:

https://statisztikaegyszeruen.blog.hu/api/trackback/id/tr6015296630

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása