Statisztika egyszerűen

Mágikus jelek nélkül...

A sörfőző, aki forradalmasította a statisztikát

2019. április 06. 08:00 - glantos70

Az eloszlásokról

William S. Gosset’s a Guiness sörgyárban dolgozott és ő volt a felelős azért, hogy kidolgozza a statisztikai megbízhatóság, a minőségellenőrzés, a hatékony kísérlettervezés modern módszereit. És nem utolsósorban a ő felelt a mindenkor kiváló ízű sör készítéséért is...

De Gosset természetesen nem ezen a néven publikált. Nagyon kevés könyvet vagy cikket lehet találni róla, és nem igazán jegyzik a történelem legnagyobb statisztikusai között. Mivel álnevet használt, neve még azok számára sem ismerős, akik egyébként aktívan használják legnagyobb felfedezését. Gosset a “Student” álnevet használta, amelyről a Student-féle T-eloszlást nevezték el, a módszert, amelyet kis számú adatminták elemzésénél alkalmaznak.

Hogyan forradalmasította az ír barnasör minőségének őrzője a statisztikát? És miért ennyire ismeretlen a neve?

Gosset 1876-ban született Canterbury-ben, Angliában. Apja ezredes volt a Brit Királyi Hadsereg mérnöki alakulatánál (Corps of Royal Engineers). Sajnos gyenge látása miatt nem tudta követni apja nyomdokait, ehelyett matematikát és természettudományokat tanult Oxfordban. Nem sokkal oxfordi tanulmányainak befejezése után Gosset sörfőzőként kezdett el dolgozni Dublinban, a Guiness Sörgyárban.

A Guiness ekkor már a világ legnagyobb sörgyára volt. Szokatlan módon a vállalat komoly hangsúlyt helyezett arra, hogy a tudomány eredményeit alkalmazva javítsa termékei minőségét. A legjobb fiatal koponyákat alkalmazták tudósként, és nagy szabadságot engedtek nekik termékeik fejlesztésében, amely tökéletes volt a kíváncsi és tehetséges Gosset számára.

Ebben az időben a Guiness leginkább arra törekedett, hogy megőrizze söreinek minőségét a gyártott termékek mennyiségének növekedése ellenére. 1887 és 1914 között a gyártott mennyiség a duplájára nőtt és majdnem elérte az egymillárd pint (~500 millió liter) mennyiséget. Hogyan lehetséges növelni a gyártást és közben biztosítani a sör ízének minőségét, amelyet a vevők elvárnak? Gosset és csapata kapta a feladatot, hogy megválaszolja ezt a kérdést.

A Guiness sörök ízesítésére a komló (homolus lupulus) virágát használták. Ebben az időben a sörgyár ötmillió font (~2,5 millió kg) komlót használt évente. A komló minőségét az úgynevezett „megjelenés és illat” (look and fragrance) módszerrel állapították meg.

A Guiness által gyártott volumen esetében a komló minőségének „megjelenés és illat” alapján történő biztosítása nem volt sem pontos, sem gazdaságos. A tudományos sörfőző csapat feladata volt a mintavételi folyamat javítása.

Gosset főnöke, Thomas B. Case úgy hitte, hogy a legjobb megoldás a komló minőségének meghatározására a tételben található „lágy” és a „kemény” gyanta arányának kiszámítása volt (a gyanta egy félig szilárd anyag, amelyet a komló mirigyéből vonnak ki).

Case úgy döntött, hogy kis mennyiségű mintákat vesz a Kentből származó komló különböző tételeiből és kiszámítja a lágy és a kemény gyanta arányát. A vizsgálat eredményeként azt kapta, hogy az egyik tételből vett 11 mintában a lágy gyanta mennyisége átlagosan 8,1%, egy másik tételből vett 14 mintában pedig átlagosan 8,4% volt. Mit jelentettek ezek a számok a különböző komlótételek minőségének állandósága szempontjából? Case nem tudta pontosan. Az adatok alapján nem tudott dönteni a komlótételek megfelelőségéről, de tudta, hogy meg kell oldania ezt a problémát annak érdekében, hogy a jövőben sikeresen tudja elemezni az adatokat.

Case ekkor fordult Gosset-hez, mert ő tanult matematikát is Oxfordban, ezért „kevésbé félt” az ilyen jellegű problémáktól, mint a többi sörfőző.

A mai adattudósok számára teljesen természetes a kis minták statisztikai elemzése, de akkoriban ezek a módszerek még nem léteztek. Természetesen az emberek gyakran használtak kis mintákat feltételezéseik igazolására, de nem voltak módszerek a következtetések pontosságának becslésére. Csak annyit tudtak, hogy 30-nál több megfigyelés esetében a standard normál eloszlás alkalmazható. Ez tudományos vizsgálatok esetében jól alkalmazható volt, ipari környezetben viszont nem volt lehetséges ilyen nagyszámú minta alkalmazása még az olyan „tudományosan gondolkodó” cégek számára sem, mint a Guiness.

Gosset elsődleges célja annak megértése volt, hogy mennyivel kevésbé reprezentatív egy minta, ha kevés megfigyelésből áll, azaz mennyivel nagyobb az eredmények szóródása, ha egy minta kettő vagy tíz megfigyelésből áll, mintha ezerből. Gosset első problémája az volt, hogy meghatározza, hány malátakivonat (malt extract) mérése szükséges ahhoz, hogy biztos lehessen abban, hogy a kivonat „cukorfoka” (degrees saccharine) a 133 fok plusz-mínusz fél százalékos tartományában van.

Az első megközelítése az volt, hogy csak szimulált egy nagy csomó adatot. Volt egy kivonata, amelyet nagyon sokszor megmért, ezért aránylag biztos volt, hogy mekkora a kivonat cukorfoka. Ezután nagyon sok kételemű mintát vett ugyanabból a kivonatból, hogy tesztelje a kételemű minták eredményeinek pontosságát. Azt találta, hogy a kételemű minták 80%-a esetében a kételemű minták mérési eredményei benne voltak a valós cukorfok körüli 0,5%-os tartományban.

Ezután elvégezte ugyanazt a vizsgálatot háromelemű mintákkal. Ekkor az eredmények 87,5%-a esett ugyanabba a tartományba. Négyelemű minták esetében az eredmény már 92% felett volt. 82 elemű minták esetében gyakorlatilag minden eredmény beleesett a félszázalékos tartományba.

Gosset főnökei nagyon elégedettek voltak az eredményekkel, mert ez lehetővé tette számukra, hogy úgy hozzanak intelligens döntéseket arról, melyik alapanyagokat használják, amire abban az időben senki más nem volt képes.

Gosset viszont nem elégedett meg ezzel a közelítő eljárással, ő szerette volna megfejteni a konkrét matematikai formulát, amely a kis számú minták elemzése mögött van. Engedélyt kért arra, hogy konzultálhasson más „matematikai tudósokkal”. A Guiness engedélyezte, hogy Gosset ellátogathasson Karl Pearson-nak a University College of London-ban található laboratóriumába. Pearson korának egyik vezető tudományos alakja volt, és aki később igen sok hasznos felfedezést tett a statisztika területén.

De hogyan lett Gosset-ből „Student”?

Gosset egy évet töltött el Pearson laboratóriumában, és ezalatt az idő alatt kidolgozta a kis mennyiségű minták esetében alkalmazott „hibák törvénye” (law of errors) mögött meghúzódó matematikai elveket. Ezt ma Student-féle T-eloszlásként ismerjük. Ennek lényeges eleme annak megértése, hogy a vizsgálat lehetséges hibája függ a vizsgálat során alkalmazott megfigyelések számától.

Amikor befejezte kutatásait, publikálni szerette volna az elért eredményeket, hiszen ez egy fontos kutatási eredmény volt, amit szeretett volna megosztani a szélesebb világgal. A főnökei a Guiness-nél viszont nem voltak igazán boldogok emiatt az ötlet miatt. Rájöttek, mekkora előnye származik a vállalatnak ezeknek a módszereknek az alkalmazásából és nem szerették volna, hogy a versenytársak is tudomást szereznek ezekről a módszerekről.

Végül kompromisszumos megoldás született. A sörgyár engedélyezte, hogy Gosset „Student” álnéven publikálja eredményeit, így a széles közösség nem jött rá, hogy ezeket az eredményeket valaki a Guiness sörgyár alkalmazásában fedezte fel és hogy ezeknek az eredményeknek mekkora szerepe van a sörgyár sikereiben.

Noha Gosset publikálta eredményeit, a statisztikusok nagy többsége nem vette figyelembe az eredményeket, kivéve egy R.A Fischer nevű urat, aki elolvasta a cikket és nagyon fellelkesedett az olvasottak láttán. Gosset kutatásai nagy hatással voltak Fischer további tevékenységére, amely megteremtette a modern statisztika alapjait.

De ez már egy másik történet…

Irodalom:

Dan Kopf: The Guinness Brewer Who Revolutionized Statistics, Priceonomics – 11 December 2015. - https://priceonomics.com/the-guinness-brewer-who-revolutionized-statistics/

5 komment

A bejegyzés trackback címe:

https://statisztikaegyszeruen.blog.hu/api/trackback/id/tr3714715827

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Pierr Kardán 2019.04.06. 19:35:25

A sörrel kapcsolatos legfontosabb statisztikai alapvetés az, hogy az összes lefőzött sörmennyiség 90%-át a lakosság 10%-a fogyasztja el.

glantos70 2019.04.06. 20:01:39

@Pierr Kardán: Érdekes statisztikai kérdés lenne, hogy az emberek átlagosan hány korsó sört tudnak meginni anélkül, hogy pisilnének...

Szalay Miklós 2019.04.07. 11:22:52

Hasznos áttekintés a véletlenszerűségről és társairól. (Ok és okozat, valószínűség, kockázat, determinizmus, kiszámíthatóság, stb...)

egyvilag.hu/temakep/017.shtml

kvadrillio 2019.04.07. 14:05:41

KURVÁRA LESZAROM AZ UNIÓBA SIETŐ POLITIKUSOKAT. SEMMIT NEM TETTEK AZ ORSZÁG N YOMORGÓ FELÉÉRT !!!
NU, AZT A RENDELETET, HOGY NEM SZTABAD A KUTYÁKAT LÁNCRA KÖTNI SÜRGŐSEN EL KELL TÖRÖLÉNI ! AKI A RENDELETET MEGALKOTTA, AZT ÉN... VÁLLALOM FÖLAKASZTANI !!!!! AHHHÜJJJJJE-BAROMKURVAANYJÁT AZ ILYJJJEN ÁLLATOKNAK !!!!!!!

Három kutya majdnem halálra harapdált egy idős asszonyt Szegváron
Origo2019.04.04. 23:02

Otthona udvarán támadt rá a három kutya az idős asszonyra a Csongrád megyei Szegváron. Az asszony életveszélyesen megsérült, mentőhelikopterrel vitték kórházba.

glantos70 2019.04.07. 15:59:52

@kvadrillio: Nagyon sajnálom, ami történt és mielőbbi felépülést kívánok az idős asszonynak. Ezzel együtt szeretnélek udvariasan megkérni, hogy ha ebbe a blogba kommentelsz, akkor ezt tedd udvariasan és kultúráltan.

Kösz a türelmet.
süti beállítások módosítása