Mennyire döntünk egyformán? – A Cohen-féle Kappa teszt

2020. április 10. 08:00 - glantos70

Statisztikai elemzések

Két orvos próbálja eldönteni betegekről, hogy vajon skizofréniásak-e vagy sem. Az egyikük pszichológus, aki általában projektív technikákkal vizsgálja a betegeket, a másik pedig egy pszichiáter, aki inkább screening interjúk alapján dolgozik. Ilyen körülmények között érdemes feltenni a kérdést, hogy vajon a két orvos mennyire fog egyforma döntést hozni ugyanazokról a betegekről; vagyis, ha egy beteg az egyik orvos szerint skizofréniás, akkor a másik orvos is ugyanerre a következtetésre fog-e jutni vagy sem.

Hasonló probléma, amikor egy gyárban ugyanazt a terméket több különböző ellenőr is ellenőrzi; vajon mindegyik ellenőr ugyanazt a döntést hozná meg az ellenőrzött termékekről? Az ellenőrzés módszere mennyire biztosítja azt, hogy a jó darabok mindig jónak lesznek ítélve, a rosszak pedig rosszaknak, függetlenül attól, hogy ki ellenőrizte őket? Lehetséges-e ezt mérni? Jellemezhető-e valamilyen mérőszám segítségével az, hogy két értékelő személy mennyire dönt egyformán olyan esetekben, amikor a döntésnek két lehetséges kimenetele van?

A hasonló problémákra próbált megoldást találni Jacob Cohen matematikus, amikor 1960-ban közzétette a Cohen-féle kappa tesztről szóló tanulmányát (lásd a cikk végén). A publikáció nagy része kivételesen egészen jól érthető, Cohen elmagyarázza az egész problémakör hátterét.

Amikor két kiértékelő személy döntést hoz ugyanazokról a dolgokról vagy jelenségekről, első látásra nem tűnik annyira bonyolultnak kiszámítani, hogy mennyire döntenek egyformán. Ha feltesszük, hogy a döntéseknek csak két lehetséges kimenetele lehet (pl.: igaz vagy hamis), akkor a döntéseiknek összesen négyféle lehetséges kimenetele van:

Mindkét kiértékelő személy úgy dönt az adott dologról, hogy igaz,
Mindkét kiértékelő személy úgy dönt az adott dologról, hogy hamis,
Az első kiértékelő személy úgy dönt, hogy a dolog igaz, a másik kiértékelő személy viszont úgy dönt, hogy a dolog hamis,
Az első kiértékelő személy úgy dönt, hogy a dolog hamis, a másik kiértékelő személy viszont úgy dönt, hogy a dolog igaz.

Az egyszerű megközelítés az, hogy összeadjuk azoknak az eseteknek a számát, amikor a két kiértékelő személy azonos módon dönt, azaz mindkettő úgy dönt, hogy a dolog igaz, vagy úgy, hogy a dolog hamis. Ha ezt elosztjuk az összes eset mennyiségével, akkor megkapjuk azt a százalékos arányt, amely azt jellemzi, hogy a két kiértékelő személy mennyire dönt egyformán. Igen, de sajnos ezzel van egy kis gond!

Mégpedig az, hogy ez a fenti arány azokat az eseteket is tartalmazza, amikor az ellenőrök döntéseit a véletlen befolyásolja! Na ja, de mit jelent az, hogy a döntéseiket a véletlen befolyásolja? Képzeld el azt az esetet, amikor a két döntnöknek mondjuk 100 esetben kellene eldöntenie, hogy melyik eset igaz és melyik hamis. A két döntnök fog egy-egy érmét, és elkezdik feldobálni a levegőbe. A száz eset már elég nagy szám ahhoz, hogy az érmék az esetek egy részében azonosan döntsenek! Mivel csak négy különböző döntési helyzet lehetséges és az érmék esetében a fej és az írás valószínűsége egyformán 50%-50%, ezért a négyféle döntés valószínűsége egyformán 25%-25%! (A binomiális eloszlás - lépjünk szintet az érmedobálásban)

Vagyis a véletlen még akkor is jelentősen befolyásolja a két kiértékelő személy döntéseit, ha egyébként ők tudatosan, a szabályok betartásával végzik el a feladatukat! A probléma az, hogy adott esetben nehezen választható szét az, hogy egy adott esetben az egyezőség a kiértékelő személyek tudatos döntése, vagy csak a véletlen műve. Jacob Cohen pontosan ezt a problémát oldotta meg azáltal, hogy kidolgozta a Kappa-tényezőt, hiszen

The coefficient Kappa is simply the proportion of chance-expected disagreements which do not occur, or alternatively, it is the proportion of agreement after chance agreement is removed from consideration

azaz

A Kappa-tényező egyszerűen a véletlen miatt elvárt véleménykülönbségek aránya, amelyek nem történtek meg, vagy másképpen fogalmazva az egyforma döntések aránya azután, hogy a véletlenszerű egyetértéseket eltávolítottuk az elemzésből

Nézzük meg mindezt egy példán keresztül. Tegyük fel, hogy két ellenőr ellenőrzi ugyanazt a 12 terméket és el kell dönteniük, hogy a termékek jók vagy nem. Ha a termék jó, akkor az ellenőrök IGEN-nel döntenek, ha pedig hibás, akkor NEM-mel. Az alábbi táblázat tartalmazza az ellenőrök döntéseit. 5 esetben mindkét ellenőr IGEN-nel és 4 esetben mindkét ellenőr NEM-mel döntött. 2 esetben az első ellenőr IGEN-nel döntött, de a második ellenőr NEM-mel, illetve 1 esetben az első ellenőr NEM-mel döntött és a második IGEN-nel.

Ha a cikk elején említett egyszerű százalékszámításos módszert alkalmazzuk, akkor a következőt kapjuk:

Eddig jó, de hogyan vesszük ebből ki azt a részt, amelyet a véletlen okoz? Egy korábbi cikkben (Gyakoribb-e a kék szem a szőkék között? – Khí-négyzet próba a függetlenség vizsgálatára) már foglalkoztam azzal a témával, hogy mikor mondjuk azt két valószínűségi változóra azt, hogy ezek viselkedését csak a véletlen befolyásolja. Akkor, ha a két valószínűségi változó független egymástól; vagyis, ha ezek értékei semmilyen módon nem függenek egymástól. Ez pedig akkor fordul elő, ha a két valószínűségi változó együttes előfordulási valószínűsége megegyezik a két valószínűségi változó külön-külön előfordulási valószínűségeinek összegével! Ha ezt valahogyan ki tudnánk számolni és ki tudnánk vonni Po-ból (Pobserved, azaz Pészlelt), akkor már meg is lenne a megoldás.

Nevezzük el ezt a véletlentől függő valószínűséget Pc-vel (az angol „chance” szó után, amelyet Cohen igen gyakran használt a tanulmányában a véletlen megnevezésére). Nos, ezt a Pc-t nagyon hasonlóan számoljuk ki, mint ahogyan azt a fentebb hivatkozott cikkben tettük.

Ha a két ellenőr döntése teljesen független lenne egymástól (ez esetben persze reméljük, hogy nem az), akkor annak a valószínűsége, hogy mindkét ellenőr IGEN-t dönt, megegyezne a két egyedi esemény szorzatával. Annak a valószínűsége, hogy az 1. ellenőr IGEN-t dönt, jelen esetben 7/12, vagyis 0,58, hiszen az 1. ellenőr 7 esetben döntött IGEN-nel a 12-ből. Itt most lényegtelen, hogy a 7-ből két esetben másként döntött, mint a 2. ellenőr, az a fontos, hogy ő 7 esetben döntött IGEN-nel.

Ugyanígy a 2. ellenőr 6 esetben döntött IGEN-nel, vagyis az ő döntésének a valószínűsége 6/12, azaz 0,5.

Vagyis annak a valószínűsége, hogy mind a két ellenőr IGEN-nel szavazna, ha a döntéseik függetlenek lennének egymástól, az 0,58*0,5=0,29.

Hasonlóképpen ki kell számolnunk annak a valószínűségét, hogy mindkét ellenőr NEM-mel szavaz, hiszen ez is része Po-nak. Az 1. ellenőr 1+4=5 esetben döntött NEM-mel, azaz ennek a valószínűsége 5/12, azaz 0,416.

A 2. ellenőr ismét 6 esetben hozott nemleges döntést a 12-ből, ami ismételten 0,5.

Ez alapján annak a valószínűsége, hogy mind a két ellenőr NEM-mel fog dönteni, 0,416*0,5=0,21. Annak a valószínűsége, hogy mindkét ellenőr IGEN-nel vagy mindkét ellenőr NEM-mel döntene, ha a döntéseik csak a véletlentől függenének:

Eddig szuper, mert sikerült kiszámítanunk, hogy a két ellenőr döntéseinek mekkora része függ pusztán a véletlentől. Ha ezt kivonjuk Po-ból, akkor azt kapjuk, hogy

És ez így már nem is néz ki olyan jól, hiszen ebben az esetben az látszik, hogy a két ellenőr csak 25% eséllyel dönt TUDATOSAN egyformán, ami viszont egy elég gyenge valószínűség. Észrevehető, hogy milyen jelentős az eltérés a kétféle módszer között, ez esetben a két ellenőr működését a véletlen erősen befolyásolja.

Cohen azonban nem elégedett meg ennyivel, ő szeretett volna egy - a Pearson-féle korrelációs együtthatóhoz (Valaki átírta a korrelációs együttható képletét, hogy ne lehessen érteni? Ez most komoly…?) hasonló – korrelációs tényezőt létrehozni, ezért a fenti különbséget még elosztotta 1-Pc-vel, ami ugye megfelel a tudatosan hozott összes döntés valószínűségének, hiszen ebben mind a négy döntési variáció valószínűsége benne van, mert a véletlen hatását kivontuk 1-ből. Végül az így kiszámított tényezőt elnevezte Kappának:

Természetesen Cohen bebizonyítja, hogy a Kappa-tényező értéke csak -1 és +1 között változhat, amelyet úgy értelmezhetünk, hogy ha Kappa közel van a +1-hez, akkor a két kiértékelő személy nagyon egyformán dönt, ha 0 körül van az értéke, akkor a két kiértékelő személy döntései közel függetlenek egymástól, ha pedig -1 körüli értéket kapunk, akkor a két kiértékelő személy szinte teljesen ellentétesen dönt.

A két értékelő személy döntéseinek egyformaságát egyébként Landis és Koch határozta meg a következő módon. Ha Kappa nagyobb nulla, akkor

0 < Kappa < 0,2 - Nincs összefüggés a két értékelő személy döntései között

0,21 < Kappa < 0,4 - Kis összefüggés van az értékelő személyek döntései között

0,41 < Kappa < 0,6 - Közepes összefüggés van az értékelő személyek döntései között

0,61 < Kappa < 0,8 - Erős összefüggés van az értékelő személyek döntései között

0,81 < Kappa < 1 - Majdnem tökéletes összefüggés van az értékelő személyek döntései között

Más megközelítések szerint a két értékelő személy döntései akkor elfogadhatók, ha Kappa értéke nagyobb, mint 75%.

A Cohen-féle Kappa tesztnek vannak korlátai, az egyik legfontosabb, hogy csak két értékelő személy döntéseinek összehasonlítására alkalmas, három, vagy több személyre nem alkalmazható, erre a Fleiss-féle Kappa-tesztet alkalmazhatjuk, ezt a következő bejegyzésben fogom bemutatni.

Frissítés 2021 október 29-én:

A Cohen-féle kappa teszt végrehajtásakor ügyelni kell arra, hogy csak akkor fog kijönni értékelhető eredmény, ha a vizsgált minták között vannak jó és rossz darabok is. Amennyiben nincs olyan minta, amelyet mindkét ellenőr elutasít, akkor kappa értéke 0 lesz!

Források:

Jacob Cohen: A COEFFICIENT OF AGREEMENT FOR NOMINAL SCALE, EDUCATIONAL AND PSYCHOLOGICAL MEASUREMENT, VOL. XX, No. 1, 1960 https://www.semanticscholar.org/paper/A-COEFFICIENT-OF-AGREEMENT-FOR-NOMINAL-SCALES-1-Cohen/9e463eefadbcd336c69270a299666e4104d50159

Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics. 1977;33(1):159–74. https://www.ncbi.nlm.nih.gov/pubmed/843571

9 komment

None_taken 2020.04.10. 12:02:14

Egyszerű és érthető, köszi a cikket!

Az egyetlen dolog ami bennem felmerül a témával kapcsolatban (és itt el fogok merülni a gyakorlati alkalmazás mocsarában), hogy a döntési szituációk (megítélendő szituációnként, vagy ellenőrizendő darabonként vett) "nehézségét" vagy egyértelműségét - látszatra legalábbis - nem veszi figyelembe.

Tehát ha veszek egy fiktív példát (még valamikor egy egyetemi üzemlátogatás alatt az egyik abroncsgyártó üzemben láttam ezt, nyugodtan pontosítson aki jobban tudja):
Gumigyártás során a folyamat végén ellenőrök nézik át a termékeket. Egy 150 elemes listájuk van a nem elfogadható hibákról, amit szemmel kell észrevenniük. Kb. fél percük van egy termék átnézésére.

Ha azt akarom eldönteni hogy mennyire jó egy ellenőr, a Cohen's kappa teszttel nem fogom tudni megmondani - nincs mihez hasonlítani. Ha van egy régi dolgozóm akiben eléggé biztos vagyok, és őt veszem referenciának, akkor az új dolgozókat már igenis tudom hozzá hasonlítani - és ha a referenciám elég jó, akkor tudom értékelni hogy mennyire jó hozzá képest. Viszont a 150 elemes listán lesznek olyan hibák (pl tátongó lyuk a gumi oldalán) amit könnyebb észrevenni - itt nyilván jobb lesz a korreláció. Lesznek olyan hibák is, amiket csak akkor tud megbízhatóan észrevenni az ember, ha már nagyobb gyakorlata van, vagy nagyon jó szeme - itt várhatóan rosszabb lesz a korreláció.
Szóval ugyanarra a két dolgozómra kaphatok jó Cohen's kappát és rossz Cohen's kappát is - ha jól gondolom, akkor a Cohen's kappa teszt eredménye (inkább úgy mondom, hasznossága) erősen függ attól (már ha ilyen célra használom), hogy mennyire sikerült megtalálnom azokat a döntési szituációkat, amiket a legnehezebb eldönteni, vagy azokat a termékeket amik leginkább az elfogadás határán állnak.
Ha pedig nincs referencia dolgozóm akinek a döntéseiben feltétlenül megbízom- akkor legfeljebb annyi derül ki a teszt által, hogy a két bírám egyformán rossz vagy egyformán jó. Hogy melyik a kettő közül, azt nem tudhatom.
Itt jön a kérdésem: hogyan lehet "jól" belekeverni referencia értékeket a vizsgálatba? Az első gondolatom az, hogy ( a példánál maradva) vegyek ki referencia abroncsokat amik hibáiról megegyezik az 5 legrégibb/legjobb ellenőr, felírom magamnak hogy melyik jó és melyik selejt, majd minden új ellenőr kiképzése során leellenőriztetem a referenciáimat. És ebből már tudnék számolni egy Cohen's kappát, ahol az egyik "ellenőr" a referenciaérték, a másik ellenőr pedig az újonc. Viszont erős a gyanúm hogy ezzel felrúghatom az egész módszer lényegét, hiszen a referencia értékek esetében nincs bizonytalansági tényezőm - a döntések 0%-a következett a véletlenből. Ugyanakkor valójában itt sem csinálok mást mint az első esetben, hisz a referencia ítészem semmiben nem különbözik egy referencia mintaelemsortól! Szóval ha ezt teszem, akkor mennyire lövöm lábon a kappa kiértékelési kritériumait?

Válasz erre

glantos70 2020.04.10. 17:49:02

@None_taken: Kedvenc példám a felvetésedre az úgynevezett Ishihara ábrák által a színtévesztés megállapítása (baboskönyvként ismert inkább). Én színtévesztő vagyok, nekem elég sok ilyen ábra elolvasása gondot okoz. A családom többi tagja nem színtévesztő, nagyon csalódott voltam, amikor ők mindegyik ábrát hibátlanul elolvasták és úgy néztek rám, mint valami fura lényre...

A Cohen-Kappa teszttel ki tudod szűrni például azokat az ellenőröket, akik nem látják a hibákat vagy nem értik megfelelően az elfogadási kritériumokat, esetleg rájössz, hogy nem jók a fényviszonyok, az észlelhetőség. Az ellenőrizendő minták kiválasztásakor pedig a mérnök feladata, hogy olyan mintákat válasszon, amelyeket problémásnak ítél meg, különben tényleg nem sok értelme van a dolognak...

glantos70 2020.04.10. 17:59:05

@None_taken: Még egy dolog, vagy csak más megfogalmazása a már előbb leírtaknak. Az ellenőrök csak kétféle módon tudnak nagyon egyformán dönteni:
- Ha nagyon egyformán ítélik meg a hibákat, vagy
- Ha összebeszélnek vagy "puskáznak" egymásról.
Pont az a lényeg, hogy amennyiben a második esetet kizárod, akkor a Kappa-teszttel az elsőt fogod mérni. Márpedig az ellenőrök akkor fognak szinkronban dönteni, ha nagyon azonos módon látják a hibákat, ez pedig feltételezi, hogy a hibák jól beazonosíthatók és a döntési kritériumok egyértelműek.

Az MSA kézikönyvben külön elvégzik az egyes ellenőrök összehasonlítását egymáshoz képest, illetve minden egyes ellenőrt is összehasonlítanak a referenciával, azaz az ellenőrzött minták valódi állapotával (jó vagy hibás).

Control_ 2020.04.11. 10:30:40

Ez meg mi volt?

glantos70 2020.04.11. 20:45:14

@Control_: elnézést, mi mi volt?

lenörd hofstadter 2020.04.12. 19:27:59

Elég nagy marhaság orvosi diagnózist és gyártás utáni ellenőrzést egy kalap alá venni.

glantos70 2020.04.14. 15:17:26

@lenörd hofstadter: Nem feltétlenül. Mindkét esetben arról van szó, hogy valamilyen bonyolult képről, hangról, tárgyról kell megítélni, hogy vajon mi az. Annyi viszont igaz, hogy egy orvosi diagnózis esetében sokkal nagyobb a tét.

glantos70 2020.04.21. 08:48:39

@népszopás: Teljesen igazad van, tényleg hasonlít a két dolog egymáshoz, pl. a Cohen kappa is ugyanabból a kontingencia-táblázatból táplálkozik, mint a Chí-négyzet próba a függetlenség vizsgálatára. A különbség a két módszer között a megközelítés. Amíg a függetlenségvizsgálat esetében azt akarjuk bizonyítani, hogy két változó független, ez esetben pont az ellenkezőjét: hogy a két döntnök döntései igenis függenek egymástól.

Statisztika egyszerűen

Mágikus jelek nélkül...

Mennyire döntünk egyformán? – A Cohen-féle Kappa teszt

Statisztikai elemzések

A bejegyzés trackback címe:

Kommentek:

None_taken 2020.04.10. 12:02:14

glantos70 2020.04.10. 17:49:02

glantos70 2020.04.10. 17:59:05

Control_ 2020.04.11. 10:30:40

glantos70 2020.04.11. 20:45:14

lenörd hofstadter 2020.04.12. 19:27:59

glantos70 2020.04.14. 15:17:26

glantos70 2020.04.21. 08:48:39

Mágikus jelek nélkül...

Statisztikai elemzések

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek: