Statisztika egyszerűen

Mágikus jelek nélkül...

Az adatelemzésnek van jövője!

2019. december 20. 08:00 - glantos70

Bevezetés

fejsze.jpg

(A cikkhez a képre kattintva jutsz el)

Ezt a cikket éppen most találtam a Blog.hu címlapján és egyből az jutott az eszembe, hogy ezt nekem is meg kell osztanom, két okból is. Az egyik, hogy a következő évtized legkeresettebb szakmáinak listájában első helyen szerepel az ÜZLETI ELEMZŐ, aki ugye adathalmazokkal dolgozik és ezek feldolgozásával próbál olyan következtetésekre jutni, amely hatékonyan támogatja az üzleti döntéseket. A másik pedig a mesterséges intelligencia, azaz a gépi tanulás elterjedése, aminek alapja szintén az adatfeldolgozás és a statisztikai módszerek alkalmazása.

Lehet, hogy jó lóra tettem...?

2 komment

Emeljük új szintre a t-próbát - az egytényezős varianciaanalízis (One-way ANOVA)

2019. december 13. 08:30 - glantos70

Statisztikai elemzések

One-way ANOVA test (Analysis of variance) | Customer ...

Ha törzsolvasója vagy a blognak, akkor talán még emlékszel a kétmintás t-próbára (Az alkoholfogyasztás hatása a bowling eredményekre – kétmintás t-próba), amelynek segítségével el tudtuk dönteni, hogy két minta átlaga megegyezik-e egymással. A t-teszt jól működik két minta esetében, de mit csináljunk akkor, ha nem kettő, hanem három, négy vagy akár több mintát akarunk összehasonlítani? Ha t-próbát alkalmaznánk, akkor a mintákat egyenként kellene összehasonlítanunk egymással, azaz öt minta esetében mondjuk az első mintát össze kellene hasonlítana a másodikkal, a harmadikkal, a negyedikkel és az ötödikkel is. A második mintát még ezen felül össze kell hasonlítani a harmadikkal a negyedikkel és az ötödikkel is. Ha végig megyünk ezen a vonalon, akkor összesen 4+3+2+1, azaz 10 kétmintás t-próbát kellene elvégeznünk az öt minta teljeskörű vizsgálatához. Ehhez nyújt segítséget az úgynevezett egytényezős varianciaanalízis (vagy F-próba, vagy F-teszt, vagy F-statisztika, vagy F-táblázat, vagy One-way ANOVA, vagy ahogy tetszik).

Tovább
2 komment

Lehet egy dimenzióval több? – Többváltozós lineáris regresszió

2019. december 06. 08:30 - glantos70

Statisztikai elemzések

 

A témához kapcsolódó előző cikkben (Használtautó eladó! – Többváltozós lineáris regresszió elemzés) bemutattam az alap problémát, amelyet meg akarunk oldani. Most megpróbálom veled együtt megtenni a következő lépést, azaz belemerülni abba, hogy mit is jelent a többváltozós lineáris regresszió.

Tovább
Szólj hozzá!

Használtautó eladó! – Többváltozós lineáris regresszió elemzés

2019. november 29. 09:00 - glantos70

Statisztikai elemzések

Elég sokat keresgéltem, hogy találjak egy olyan hétköznapi életből vett adatsort, amely segítségével relatíve jól érthetően be tudom mutatni a többváltozós lineáris regresszió elemzést. Amíg az egyváltozós változat esetében találtam érdekes és közérthető témát és adatokat (A Sidney-Hobart yacht verseny – Szigorúan monoton fejlődés), addig a többváltozós regresszió esetében valahogy nem akart szembe jönni velem egyetlen olyan téma sem, amelyet elég érdekesnek vagy hétköznapinak találtam ahhoz, hogy nekikezdjek az írásnak. Aztán valahogy bevillant, hogy a használtautó.hu-n van egy halom olyan konkrét adat a használt autókról, amelyekből már ki lehet hozni valamit. Ezért aztán elképzeltem, hogy mi lenne, ha el akarnám adni az autómat.

Tovább
Szólj hozzá!

Hogyan csináld Minitab-bal - Egyváltozós lineáris regresszió

2019. november 22. 08:30 - glantos70

Statisztikai elemzések

 

Az előző bejegyzésben (A Sidney – Hobart Yacht verseny – Szigorúan monoton fejlődés) részletesen bemutattam a regressziós egyenes egyenletének kiszámítását. Ezt a bejegyzést igen rövidnek szánom, hiszen a célom csak annyi, hogy bemutassam, hogy néz ki mindez Minitab-ban.

Tovább
Szólj hozzá!

A Sidney – Hobart Yacht verseny – Szigorúan monoton fejlődés

2019. november 15. 08:30 - glantos70

Statisztikai elemzések

A legendás Sidney - Hobart yachtverseny a világ egyik legnehezebb hajóversenye, a yacht versenyek Everest-jeként is emlegetik. A verseny során az ausztráliai Sidney-ből kell eljutni a Bass szorost keresztezve Tasmánia fővárosába, Hobart-ba. A verseny minden évben nagy esemény, amelyet Karácsony másnapján indul el, hogy azután az indulók 2-6 nap alatt eljussanak a 630 tengeri mérföldre lévő célig.

Tovább
6 komment

Hátrébb az agarakkal! – Mennyire hihető a regressziós egyenes becslése?

2019. november 08. 08:00 - glantos70

Statisztikai elemzések

 

Az előző bejegyzésben (Tudom, hogy gőzgép, de mi hajtja? – Egyváltozós lineáris regresszió – a regressziós egyenes meghatározása) végül sikerült meghatározni az x és az y változók kapcsolatát leíró egyenes egyenletét. Ennek örömére persze pezsgőt lehetne bontani, de sajnos a feladat itt még nem ért véget, sőt a munka oroszlánrészét még ezután kell elvégezni. A probléma az, hogy hiába határoztuk meg a keresett függvényképletet, semmilyen garancia sincs arra, hogy az adott x-értékhez az egyenlet segítségével meghatározott ŷ érték a valóságban is annyi lesz.

Tovább
Szólj hozzá!

Tudom, hogy gőzgép, de mi hajtja? – Egyváltozós lineáris regresszió – a regressziós egyenes meghatározása

2019. november 01. 10:00 - glantos70

Statisztikai elemzések

A lineáris regresszió valahogy mindig is mumus volt a számomra. Tudom, hogy mire való, lehet is vele játszadozni, de igazából sohasem értettem, hogy mitől működik az a bonyolult képlet, amit az egyenes meredekségének kiszámítására alkalmaznak (vagy legalábbis, amit a legtöbb statisztika könyvben vagy weboldalon meg lehet találni). Erről a képletről valahogy mindig az jut az eszembe, hogy összehányt x-ek és y-ok valahogyan összedobált halmaza.

Tovább
Szólj hozzá!

Legyenek a négyzetek minél kisebbek…! – útban a lineáris regresszió elemzés felé.

2019. október 25. 10:30 - glantos70

Statisztikai elemzések

Egy korábbi fejezetben már tárgyaltam azt a helyzetet, amikor két változó egymáshoz képesti kapcsolatát vizsgáljuk, konkrétan azt, hogy a két változó mennyire függ egymástól, azaz az egyik változó értékei mennyire határozzák meg a másikét és fordítva (Valaki átírta a korrelációs együttható képletét, hogy ne lehessen érteni? Ez most komoly…?). Az is hasznos információ lehet, ha két változó között nincs semmiféle kapcsolat, de most induljunk el a másik irányba, amikor a két változó között tényleg felfedezhető valamilyen kapcsolat. Ilyenkor mindig elkezd viszketni az ember tenyere, hogy ha már bizonyíték van arra, hogy a két dolog hat egymásra, akkor határozzuk meg, hogy milyen módon írható le ez a kapcsolat a matematika általánosabb nyelvén. Ha ezt a kapcsolatot valahogyan le tudnánk írni, azaz ha például meg tudnánk adni annak a függvénynek a képletét, amely ezt a kapcsolatot elég jól jellemzi, akkor akár a két változó jövőbeni értékeit is meg tudnánk határozni egymás függvényében, azaz a jövőbelátó varázsgömb kerülne a kezünkbe. Nekünk viszont csak adataink vannak, meg egy rakás pont egy diagramon, ebből kellene kifőzni valamit.

Tovább
Szólj hozzá!

Miért kevés közöttünk az óriás és a törpe?

2019. október 18. 10:30 - glantos70

Statisztikai elemzések

Erre a kérdésre Francis Galton, a 19. század egyik legtehetségesebb matematikusa, mellesleg Charles Darwin unokaöccse kereste a választ. Sok már kutatása mellett az egyik kérdés, ami foglalkoztatta az volt, hogy hogyan öröklődnek az emberek egyes tulajdonságai a szülőkről a gyerekekre.

Tovább
3 komment
süti beállítások módosítása