Statisztika egyszerűen

Mágikus jelek nélkül...

StatKvíz: Feladvány egy vitatott per anyagából

2020. október 23. 08:00 - glantos70

Feladatok

borderau2.jpg

A mai feladványnak története van, amely egészen 1894-ig nyúlik vissza. Ekkor történt, hogy a francia titkosszolgálat - valahogyan - talált egy összetépett kézzel írott levelet a Német Követség egyik irodai szemeteskukájában. A levélben a francia tüzérség kisebb titkairól volt szó, többek között tartalmazta egy 120 mm-es ágyú hidraulikus fékjének leírását is, így a franciák azonnal nyomozni kezdtek, hogy ki írhatta az ominózus levelet. A gyanú csakhamar a francia hadsereg egyik lövésztisztjére, Alfred Dreyfuss-ra terelődött, akit le is tartóztattak és el is ítéltek, életfogytiglant kapott, amit a Francia-Guayanákon található Ördög-szigeten kellett letöltenie.

1896-ban egy Geroges Picquart nevű nyomozó, illetve Dreyfuss bátyja, Mathieu nyomozása során is bizonyítékokat talált egy másik tüzérségi tiszt, Ferdinand Walsin-Esterhazy őrnagy ellen is, de Picquart-t elhallgattatták.

Az ügy igen nagy felzúdulást keltett Franciaországban, mert Dreyfuss egyike volt a kevés zsidó származású tisztnek a francia hadseregben és egyes vélemények szerint ez erősen közrejátszott elítélésében. Émile Zola, a kor híres írója a per hatására jelentette meg J'accuse (vádolom) címmel nyílt levelét a francia köztársasági elnöknek címezve azt. Zolát emiatt szintén elítélték, ezért Angliába menekült. 

Végül 1899-ben perújrafelvételre került sor, ahol a bíróság az eredeti életfogytiglani ítéletet 10 évre változtatta, de két héttel később a köztársasági elnök kegyelemben részesítette a meghurcolt tisztet.

A történetet csak igen negyvonalakban foglaltam össze, akit érdekel itt, és angolul még részletesebben itt megtalálja az ügy részletes és tényszerű leírását. Az eredeti dokumentumokat és további elemzéseket itt találhatsz...

Statisztikai szempontból a történet érdekessége az, hogy a vád igen nagymértékben támaszkodott statisztikai jellegű bizonyítékokra. Egy Alphonse Bertillon nevű szakértő egy részletes elemzést (brochure verte) készített a német követségen talált levél (borderaux) és a Dreyfuss lakásán talált kézzel írt levelek között. Többek között azzal érvelt, hogy a borderaux-ban található 26 összetett szó első és utolsó betűi közül 4 esetben nagy a hasonlóság a Dreyfuss leveleiben talált hasonló betükhöz. Az egész tanulmány első ránézésre igen meggyőző volt, Bertillon mérésekkel és a betűk és szavak felnagyított összehasonlításával próbálta igazolni állításait.

Ettől függetlenül a "brochure verte" igen sok következetlenséget tartalmazott, ráadásul Bertillon nem is volt képzett kézírásszakértő. 1899-ben néhány korablei tudós írt egy olyan esszét, amely pontról pontra cáfolta a "brochure verte" állításait. Ezt Darboux-Appell-Poincaré riportként ismeri a történelem és egyik szerzője Henri Poincaré, a híres matematikus volt. Az esszét az 1899-ben tartott ismételt tárgyaláson olvasta fel az ügyvéd. Az esszében többek között kifogásolták a szerzők azt, hogy Bertillon miért csak 26 összetett szó első és utolsó betűit tekintette "sokaságnak", miért nem hasonlították össze a levél ÖSSZES betüjét a Dreyfuss által írt levelek ÖSSZES betüjével és adták meg így az egyezés mértékét, illetve azt, hogy Bertillon miért nem az eredeti dokumentum szavait és betüit alkalmazta, miért másolta és torzította el a szavakat a méréshez. 

És itt érkeztük el a mai feladványhoz. A Darboux-Appell-Poincaré riportban a szerzők egy egyszerű példa segítségével próbálják bemutatni az ok és a következmény közötti összefüggések megállapításának nehézségeit. A példa a következőképpen szól:

Adott egy edény, amelyben van 90 fehér és 10 fekete golyó. Ha valaki véletlenszerűen kihúz egy golyót az edényból, annak a valószínűsége, hogy fekete golyó kerül kihúzásra természetesen 1/10, hiszen 100 golyóból 10 fekete. 

Tegyük fel, hogy nem egy, hanem két edényünk van. Az egyikben 90 darab fehér és 10 darab fekete golyó van, a másikban viszont 10 darab fehér és 90 darab fekete golyó található. Ha véletlenszerűen kihúzunk egy golyót VALAMELYIK edényből anélkül, hogy tudnánk, hogy melyik edényben hány fehér és fekete golyó van, akkor mekkora a valószínűsége, hogy fehér golyót húzunk?

Az indoklás a levélben egyértelmű. Ha adott az eredmény - úgymint, hogy a kihúzott golyó fehér, a második esetben a következmény oka nem egyértelmű, hiszen nem tudjuk, hogy a golyót melyik edényből húztuk ki.

Ez esetben viszont nem erre vagyok kíváncsi, hanem a konkrét kérdésre adott válasz érdekel, vagyis a második esetben mekkora a valószínűsége annak, hogy a kihúzott golyó fehér színű.

Az esetről egyébként nemrég film is készült Tiszt és kém címmel, amelyet - ha minden igaz - még játszanak a mozik. Sajnos még nem láttam, de remélem mielőbb meg tudom majd nézni.

Helyesbítés:

Mindenkitől elnézést kérek, de sajnos elnéztem valamit a feladat fordításakor. A feladvány helyesen a következő: 

Adott egy edény, amelyben van 90 fehér és 10 fekete golyó. Ha valaki véletlenszerűen kihúz egy golyót az edényból, annak a valószínűsége, hogy fekete golyó kerül kihúzásra természetesen 1/10, hiszen 100 golyóból 10 fekete. 

Tegyük fel, hogy nem egy, hanem két edényünk van. Az egyikben 90 darab fehér és 10 darab fekete golyó van, a másikban viszont 10 darab fehér és 90 darab fekete golyó található. Ha véletlenszerűen kihúzunk egy FEHÉR golyót VALAMELYIK edényből anélkül, hogy tudnánk, hogy melyik edényben hány fehér és fekete golyó van, akkor mekkora a valószínűsége, hogy a golyót az első edényből húztuk ki?

Így most már korhű a feladvány és nyertünk még egy feladványt. Kösz a megértést!

14 komment

A bejegyzés trackback címe:

https://statisztikaegyszeruen.blog.hu/api/trackback/id/tr3016248500

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

fordulo_bogyo 2020.10.24. 03:22:17

Nem latom a kapcsolatot a feladvany es tortenet kozott/
A feladvanyrol:
0.5 az eselye annak, hogy az egyik es 0.5 az eselye annak, hogy a masik edenybol huzunk egy golyot.
Ha az elso edenybol huzunk, akkor 1/10 az eselye a feher golyonak. 1/2*1/10 = 1/20 az eseleye a fehernek ebben az esetben.
0.5 az eselye annak, hogy a masik edenybol huzunk egy golyot.
Ha a masodik edenybol huzunk, akkor 9/10 az eselye a feher golyonak. 1/2*9/10 = 9/20 az eselye a fehernek ebben az esetben.
A ket valoszinuseg osszege a feher golyo eselye 1/20+9/20 = 10/20 azaz 0.5
Valaszom a fenti okfejtes alapjan 0.5 azaz 50% eselye van a feher golyo huzasanak.
Jol gondolom, vagy tevedek?

Ez nem kulonbozik attol, mintha az osszes golyo ugyanabban az edenyben lenne, akkor is 0.5 lenne az esely.

Elgondolkoztam. Tegyuk az osszes feher golyot az egyik es az osszes fekete golyot a masik edenybe. Ugye ekkro trivialis, hogy 0.5 az eselye a feher golyo huzasanak.
Tegyunk 50 feher es 50 fekete golyot mindket edenybe. Ekkor is trivialis a 0.5 eslyes a feher golyonak (mindegy melyik edenybol huzunk, es egyforma az eselye a ket edenynek).

Nagyon kivancsi vagyok, egyetertesz-e, es arra meg inkabb, hogy ez hogyan kapcsolodik a tortenethez?

Bullózus pemfigoid 2020.10.24. 12:36:28

@fordulo_bogyo:
Szerintem a számolásod korrekt. A Poincaré-példa arra szolgálhat, hogy rávilágítson a tényre, hogy ha megválogatod az alapsokaságot a statisztikához, akkor már azzal is befolyásoltad a végeredményt.
Onnantól is számolhatsz tökéletesen, de már senkinek sem fog feltűnni, hogy alapjaiban romlott a számítás. Ebben az esetben a "szakértő" kiválogatta, átméretezte és az elképzeléseihez illesztette a bizonyítékokat.
Összességében tehát ez egy jó módszer arra, hogy függetlennek tűnő, mérésen alapuló, de észrevétlenül elfogult statisztikát gyárts valami konkrét végkimenetel alátámasztásához.

Kovacs Nocraft Jozsefne 2020.10.24. 16:08:06

A kérdés szerintem inkább az, vajon a 26 szó első és utolsó betűje kellően reprezentatív-e a betűk összességéhez képest. Illetve az, vajon mekkora hibahatárt okoz az, hogy a betűknek csak egy hányadát vizsgálták meg - hiszen érthető módon túl nagy és hosszadalmas feladat lett volna minden levél minden betűjét megvizsgálni. Ám önmagában az, hogy csak az első és az utolsó betűket nézték, még nem jelent módszertani hibát. Az esetleg/feltehetően önkényesen kiválasztott 26 szó már sokkal inkább.

A kérdés lényegében analóg azzal, amikor pl. egy közvélemény-kutatás megbízhatóságát kell megadni: nyilván minél kisebb a minta, annál nagyobb a lehetséges hiba.

wadcutter 2020.10.24. 19:52:02

@Bullózus pemfigoid: Erre mondták, hogy"Ich glaube nur der Statistik, die ich selbst gefälscht habe."/Csak annak a statisztikának hiszek, amit én magam hamisítottam/. Állítólag ez a német az eredeti, nem a Churchillé.
Amúgy lehet kiemelt szerepe az első és az utolsó betűknek, nem ugyanaz, mint ha véletlenszerűen választanánk a teljesen egyforma edények közül. Bár szerintem is kevés bizonyíték egy életfogytiglanhoz, inkább csak nem zárja ki a gyanúsítottak közül.

Bullózus pemfigoid 2020.10.24. 20:15:18

@wadcutter: Nem vagyunk írásszakértők, így nem tudhatjuk, hogy valóban elég-e az első és utolsó betűkre koncentrálni, főleg, ha csak 26 szóról beszélünk végső soron.
A dolog azért is zavaros, mert folyóírásnál ezek a betűk lesznek azok, amelyek a legkevésbé térnek el a potenciális általános iskolai követendő sablontól, hiszen csak egy oldalról kell összekötni más betűvel, de ez mindenkire egyformán vonatkozik.

Ettől függetlenül elég durva műhibának tűnik nekem, hogy egy ennyire nyilvánvalóan nehezen védhető, közvetett bizonyíték elég volt. Talán fontosabb tényező volt a politikai nyomás(képzelhetjük, hogy egy hazaárulás esetén mennyire bármi áron akarnak bűnöst találni).

"A kérdés lényegében analóg azzal, amikor pl. egy közvélemény-kutatás megbízhatóságát kell megadni: nyilván minél kisebb a minta, annál nagyobb a lehetséges hiba."

Erre azért elvileg megvan a megfelelő módszertan, illetve kiszámítható a minta méretéből fakadó nagyobb bizonytalanság mértéke is.
Ami inkább lehet aggasztó, az a reprezentativitás. Pl. mondhatjuk, hogy a "mennyire veszélyesek a férfiak a nőkre"-kérdésre veszünk fel válaszokat és igyekszünk 50-50%-ban választani férfi és női válaszadókat, de még a korfának is igyekszünk megfelelni. Ettől még simán lehet csalni azzal, hogy épp a feminista világtalálkozó bejáratánál végezzük a felmérést, vagy mondjuk egy miskolci kocsmában.
És akkor még egy szót sem szóltam a sugalmazó/állító kérdésekről, amikkel manipulálni lehet az egyszeri embereket. Vagy ott van az a lehetőség, hogy valakik érezhetik úgy, hogy nem vállalhatják fel az őszinte válaszukat(pl. lesz itt nagy csodálkozás November 4.-én...).

Kovacs Nocraft Jozsefne 2020.10.24. 22:55:03

@Bullózus pemfigoid:

A minta mérete erősen meghatározza a reprezentativitást, bár utóbbi nem kizárólag a minta méretétől függ. Van az a mintaméret, amely alapból nem lehet reprezentatív.

glantos70 2020.10.25. 10:59:21

@fordulo_bogyo: Ne haragudj, de szerintem nem jó a számításod. Gondolj arra, hogy Bayes tétele abban segít, hogy meg tudd határozni azt, amit nehezen lehet meghatározni (az esemény alapján az okot), abból, amit könnyű meghatározni (az ok alapján az eseményt).

Gondolom arra vagy kíváncsi, hogy ez a kis feladvány milyen módon kapcsolódik a Dreyfuss ügyhöz és miért mentették fel eme levél miatt. A levél legfontosabb indokai azok voltak, mint amit a cikkben is leírtam. A sokaság és a minta nem megfelelő meghatározása és a borderaux betüinek torzítása a vizsgálat során. Ez a kis példa csak az inverz valószínűség fogalmát próbálta egyszerűen szemléltetni.

glantos70 2020.10.25. 12:02:26

És mi a véleményetek erről? Ez szintén egy idézet az ominózus levélből:

"... Suppose that there were 1,000 letters in the "slip", with the differences in abscissas and
ordinals, that makes 999,000 numbers; if one finds 10,000 coincidences, is one to be astonished?
The probability to be sought, it would be 10,000 for over 999,000 numbers, which after10 years of
search, may appear remarkable to a spirit as attentive as Mr Bertillon; it is almost a certainty. ..."

Igaz-e, hogy ha 1000 írott karakter van a levél egy lapján, akkor az 999.000 összehasonlítást jelent? Mert szerintem 500.000 lenne a helyes...

fordulo_bogyo 2020.10.25. 13:13:44

@glantos70: Termeszetesen nem haragszom, ha nincs igazam, de kivancsian olvasnam, hogy szerinted mi a helyes megoldasa a golyos feladvanynak?
Hoppa!
Amiota en valaszoltam, azota helyesbitettel, es megvaltoztattad a feladatot!!!!
Igy mar ertem az osszefuggest, az vilagos, es a megoldas is mas, erre azt hiszem, lehet alkalmazni Bayes-t.
Amig ezen gondolkodom, amit en irtam az feladat korabbi (teves) valtozatara ugye jo megoldas? En ennek az eselyet szamoltam:
Ha véletlenszerűen kihúzunk egy golyót VALAMELYIK edényből ..., akkor mekkora a valószínűsége, hogy fehér golyót húzunk?
ERRE valaszoltam, es kivancsian varom a velemenyedet.
Megjegyzes: a kerdesben ez is szerepel "anélkül, hogy tudnánk, hogy melyik edényben hány fehér és fekete golyó van" ezt nem tudom ertelmezni, hoszen elotte megadtad, hogy 10 es 90 illetve 90 es 10 golyok vannak. Ha ezt tudom, akkor tudok szamolni, annak aki a golyot huzza nem kell tudnia.
Ha en sem tudom, akkor a feladat ertelmetlen, de akkor miert adtad volna meg elotte a golyok szamit.

fordulo_bogyo 2020.10.25. 16:11:48

Probalkozok az uj feladattal. Azert nyilvanosan, mert szeretnem, ha hozzaszolnatok, jol probalkozok-e, vagy tevedek valahol?
P(elsoedeny|feher) annak a valoszinusege, hogy az elso edenybol huztunk feheret.
P(feher|elsoedeny) annak a valoszinusege hogy az elso edenybol feheret huzunk ez =0.9 ( 90/100)
Prior(elsoedeny) azzank a valoszinusege, hogy az elso edenybol huztunk = 0.5 (egyforma valoszinuseggel huzunk barmelyikbol)
P(elsoedeny|fekete) = 0.1
Prior (nem-elsoedeny)= 0.5
Ezt osszerakva
P(elsoedeny|feher) =(0.9*0.5)/(0.9*0.5+0.1*0.5)=0.45/0.5=0.9

Tehat ha feheret huztunk, akkor 90% a valoszinusege, hogy azt az elso edenybol huztuk, es 10% annak a valoszinusege, hogy a masodikbol.
Ez megegyezik az intuiciommal.
Kerdesem, hogy jo-e a fenti okfejtes?

glantos70 2020.10.26. 08:45:09

@fordulo_bogyo: Ismételten elnézést kérek a bakiért és igazán jó, hogy kérdeztél, mert ha nem kérdezel, akkor nem olvasom el mégegyszer a Poincaré levelet és nem jövök rá, hogy hülyeséget írtam.

"anélkül, hogy tudnánk, hogy melyik edényben hány fehér és fekete golyó van" - Elismerem, hogy ezt nyakatekerten fogalmaztam meg. Azt kellett volna írnom, hogy az 'A' edényben 90 fehér és 10 fekete golyó van, a 'B' edényben pedig 10 fehér és 90 fekete. és a fenti mondat pedig úgy hangzott volna ez esetben, hogy "... anélkül, hogy tudnánk, hogy az 'A' vagy a 'B' edényből húztuk ki a golyót. ...".

Ki mondta, hogy egyszerű matematika feladatot fogalmazni? :-)

glantos70 2020.10.26. 08:57:53

@fordulo_bogyo: A levezetésed és a következőképpen látom. Egy nagyon picit átfogalmaznám a két feltételes valószínűséget, de csak amiatt, mert én így jobban értem. Az esemény az, hogy fehér golyót húztunk. Az esemény oka az, hogy az első edényből húztuk ki a golyót. Ennek van egy ellentett oka is: konkrétan az, hogy a golyót a második edényből húztuk ki. Ez a két ok megadja a teljes eseményteret.

P(elsoedeny|feher) annak a valószínűsége, hogy ha az eredmény fehér, akkor azt az első edényből húztuk ki. Ez az az eset, amikor az esemény alapján akarjuk meghatározni az okot, ez az, amit keresünk, vagyis ezt helyesen írtad.

P(feher|elsoedeny) annak a valószínűsége, hogy ha a golyót az első edényből húztuk ki, akkor az fehér. Ez az, amikor ismerjük az okot (az első edényből húztunk ki egy golyót), és ez alapján akarjuk meghatározni az eseményt (a golyó fehér).

Pprior valóban 0,5. P(elsoedeny|fekete) is 01 és a Pprior(nem elsőedény) is 0,5.

Ezek alapján szerintem a számításod így már helyes. Persze ez így egyszerűnek látszik, de csak a példa egyszerűsége miatt. Ha nem két, hanem három edényünk lenne, vagy a golyók száma az egyes edényekben eltérő lenne, nem ilyen szép szimmetrikus, akkor az eredmény sem ilyen egyszerűen adódna.

Köszönöm, hogy ennyit foglalkoztál a feladattal, így nem kell megírnom a megoldást! :-)

Kovacs Nocraft Jozsefne 2020.10.26. 11:41:52

@glantos70:

Nem kell ennyire túlbonyolítani. A kérdés így szóljon: Mekkora a valószínűsége annak, hogy a fehér golyót az első ill. a második dobozból húztuk?
süti beállítások módosítása