A hét könyve
Aubrey Clayton - Bernoulli's Fallacy: Statistical Illogic and the Crisis of Modern Science
Fotó: Amazon
Nem kell a statisztikai módszerek iránt elkötelezettnek lenni ahhoz, hogy a társadalmi jelenségekkel, történésekkel kapcsolatban ne szükségszerűségekről beszéljünk, kizárva ezzel a másként is lehetségest, vagy teljes bizonyosságot tulajdonítsunk kijelentéseinknek, vonatkozzanak azok a jövőre, a múltra vagy a jelenre. A valószínűség a társadalomtudományi szótárunk egyik alapszava, ám gyakran használják társadalomtudósok anélkül, hogy megmondanánk, pontosan mit értenek alatta. Aubrey Clayton Bernoulli's Fallacy: Statistical Illogic and the Crisis of Modern Science című könyvét ajánljuk – nem csak a statisztikai módszerek iránt elkötelezetteknek, jóllehet vannak benne egyenletek és képletek, nem csak szavak meg mondatok.
Ez a könyv mindenekelőtt egy tévedésről, egy logikai hibáról szól. Egy nem akármilyenről, hanem egy olyanról, amely Aubrey Clayton szerint régóta tévútra vezeti a statisztikai módszereket alkalmazókat-használókat. Kontextusa egy nem ma kezdődő „háború”, amely a bayesiánus és nembayesiánus statisztikusok között zajlik, és a valószínűségről, annak természetéről és eredetéről szóló vitaként írható le. Nem véletlen, hiszen a valószínűség fogalma meghatározó szerepet játszik a statisztikát illetően: hogy miként értelmezzük a valószínűséget, azon fog múlni, hogy miként fogjuk föl a statisztikát, mit fogunk tudni vele kezdeni, csinálni és elérni – például a társadalomkutatásban. De nem csak a statisztikát, hanem a nem determinista társadalomtudományt illetően is meghatározó szerepet játszik a valószínűség fogalma: hogy miként értelmezzük a valószínűséget, azon fog múlik, hogy végül is mit mondunk, amikor – mint például Max Weber és nyomában mi – esélyekről beszélünk. Éppen ezért Clayton könyve, aminek középpontjában nem egyszerűen a statisztika, hanem a valószínűség fogalma áll, tanulságos társadalomtudósok számára is, legyenek akár nem statisztikai módszerek iránt elkötelezettek.
Legfőbb állítása, hogy a modern statisztika módszerei, az adatelemzésé, amit oly sokan tanultak s tanítanak egyetemen, és a következtetésé, amit oly sokan alkalmaznak elemzéseikben vagy munkájukban, egy logikai hibán alapulnak; egy olyanon, ami miatt ezek a módszerek nem kicsit (csak bizonyos körülmények között) hibásak, hanem egyszerűen és jóvátehetetlenül azok. Ennek oka a bizonytalanság – a valószínűség – számszerűsítésének és az adatokból való következtetésben játszott szerepének félreértése. Hogy értsük, miben is áll e félreértés, és mi a jelentősége, ahhoz Clayton szerint föl kell göngyölítenünk a statisztikai gondolkodás történetét, benne a tudományos adatelemzés alapszótárának eredettörténetét. Egészen az 1600-as évekig kell visszamennünk, hogy megnézzük, mi ösztönöte a matematikusokat arra, hogy megalkossák a valószínűség elméletét; mindenekelőtt ezen elmélet egyik alapító atyjához, Jacob Bernoullihoz (1655–1705) kell visszafordulnunk.
Őelőtte a valószínűségről való gondolkodás tárgyát többnyire a kockadobás vagy a szerencsejátékokkal kapcsolatos problémák képezték. Bernoullit viszont Clayton szerint döntően a valószínűségi következtetés problémája izgatta. Van egy urna, tele fehér és fekete golyókkal, hogy milyen arányban, azt nem tudjuk. Elkezdjük véletlenszerűen, egyenként kiszedegetni az urnából a golyókat, s rögzítjük, hogy az fekete vagy fehér. Hogyan s mennyire tudom ebből megbecsülni a fekete és fehér golyók urnabéli arányát? Bernoulli megoldáshoz vezető, ma is meggyőző alapgondolata az volt: ha elég nagy elemszámú a minta, akkor igen biztosak lehetünk abban, hogy a fekete és fehér golyók mintabéli aránya megközelíti azok urnabéli arányát. Maga a megoldás, amit itt most nem ismertetünk, Clayton szerint elegáns és ugyancsak meggyőző, de alapvetően rossz: egy logikai hibát tartalmaz. Két különböző dolog keveredett össze ugyanis benne. Hogy mi, azt Clayton az alábbi két, látszólag nem különböző kijelentéssel mutatja meg:
(1) A mintabéli arány nagy valószínűséggel megközelítően akkora, mint a teljes sokaságbéli arány.
(2) A teljes sokaságbéli arány nagy valószínűséggel megközelítően akkora, mint a mintabéli arány.
E kettő között a különbség Clayton szerint a következő:
o Az (1) esetében a valószínűség a mintavételre vonatkozik (mintavételi valószínűség), a (2) esetében a következtetésre (következtetési valószínűség).
o Az (1) a valószínűség gyakorisági (frekventista) értelmezéséhez vezet: egy esemény valószínűsége azt adja meg, hogy ez az esemény milyen gyakran történik meg; (2) a valószínűség másfajta értelmezéséhez: egy állítás valószínűsége azt adja meg, hogy mekkora ennek az állításnak a bizonyossága.
o Az (1) esetében (alapsokaságra vonatkozó) hipotézistől az adatokhoz (mintához) vezet az út: mit és milyen gyakran fogunk megfigyelni; a (2) esetében megfigyelt adatoktól (mintától) az (alapsokaságra vonatkozó) hipotézisekhez: megfigyelésünkből milyen következtetések vonhatók le, és milyen bizonyossággal.
Bernoulli Clayton olvasatában egy (alapsokaságra vonatkozó) hipotézis valószínűségének – bizonyosságának – kérdésére akart választ adni, és a megfigyelés valószínűségére (mintavételi gyakoriságra) alapozva tette meg ezt. Bernoulli így, állítja Clayton, két különböző dolgot kevert össze. Ezt és azt az elgondolást, hogy a következtetések valószínűségének megállapításához kizárólag a mintavételi valószínűségek használhatók, nevezi Clayton Bernoulli tévedésének vagy Bernoulli-hibának. Ez elsőre igencsak akadémiai szőrszálhasogatásnak tűnik, nem szólva arról, hogy ha évszázadokon keresztül oly sokan, statisztikusok, matematikusok és különböző tudományterületek kutatói „belesetek” ebbe a hibába, mert hiszen nem is láttak itt semmiféle hibát, akkor valószínűleg nincs is itt semmiféle hiba. Clayton szerint viszont van, mégpedig egy olyan, amely ma is meghatározza, hogyan gondolkodunk a bizonytalanságról (valószínűségről), az pedig, hogy miként gondolkodunk a valószínűségről (bizonytalanságról), meghatározza ma is, hogy miként és mit gondolunk a statisztikáról és statisztikai módszerekről – nemcsak a statisztika tudományában és nemcsak a statisztikai módszereket használó társadalomtudományokban, hanem például a jog vagy a gazdaság területén is. Talán ezért sem könnyű meglátni, elfogadni meg még nehezebb, hogy a statisztika és az annak standard módszereit használó-alkalmazó tudományok több száz éves gyakorlata egy tévedésen, egy rendre elkövetett logikai hibán alapul. Hogy az alapoknál valami nem stimmel, annak felismerésében Claytonnál döntő szerepet játszott Edwin Jaynes Probability Theory: The Logic of Science című könyve. Ennek legfőbb állítása, hogy a valószínűség modern statisztikát meghatározó és uraló frekventista értelmezése, mely szerint egy esemény valósínűsége egyenlő azzal, hogy milyen gyakran láthatjuk megtörténni az ismételt próbák/kísérletek/megfigyelések során, téves, és végzetes következményei vannak a statisztikára nézvést.
Clayton könyvének legfőbb állítása hasonló, de az ő érvelése-gondolatmenete két összefont szálon fut: elméletin és történetin. Azzal kezd, hogy mi a valószínűség, és négy értelmezését tárgyalja: „klasszikus”, „frekventista”, „szubjektivista” és „axiomatikus”. Nem részletezzük, most annyi elég, hogy Clayton a szubjektivista (bayesiánus) értelmezés iránt kötelezi el magát. Többek között azért, mert ez választ ad a kérdésre, mi a valószínűség, továbbá a való világban, valamint az egyszersmind a ritka, egyedi, egyszeri és múltbeli eseményekre is alkalmazható. Ilyen alapállásból kiindulva Clayton a valószínűség egy olyan régi-új értelmezése mellett érvel, amely az ortodox statisztika alapjául szolgáló frekventista értelmezés győzelmével háttérbe szorult és „ódivatú” lett, és amely szerint a valószínűség elmélete nem más, mint a logikai következtetés bizonytalan helyzetekre kiterjesztett elmélete. Olyan elmélete, amely, szeretné megmutatni Clayton, lehetővé teszi mind a mintavételi, mind a következtetési valószínűség Bernoulli golyós-urnás példájával illusztrált problémájának megoldását, mégpedig anélkül, hogy Bernoulli tévedésébe esnénk. Egyszersmind azt is szeretné megmutatni Clayton, hogy Bernoulli tévedése túlmutat az urnákon és golyókon meg Bernoullin; vagyis hogy ez nem csupán a statisztikát és a statisztikai módszerekkel dolgozó akadémiai tudományokat érinti, hanem az alkalmazott tudományokat és mindazokat a területeket, ahol a bizonytalan helyzetben valószínűségi következtetéseket végzünk: újra meg újra elkövetjük azt a hibát, amit Bernoulli. Bernoulli tévedéséből így, mondhatni, Bernoulli-hiba lesz.
Ebben, mutat rá Clayton, a valószínűség frekventista értelmezése, annak győzelme és uralkodóvá válása döntő szerepet játszik, az utóbbiban pedig a modern statisztika három atyja, Francis Galton, Karl Pearson és Ronald Fisher. Nem mellesleg, munkásságuk összefonódott az eugenikával és a tudományos rasszizmussal. Nem kicsit, hanem nagyon és mélyen. Ennek is köszönhető, mutat rá Clayton, hogy a frekventista valószínűségértelmezést a végletekig vitték, és hogy épp ez az értelmezés győz, válik riválisaival szemben uralkodóvá. Clayton ezért is érvel amellett, hogy gyökeres újragondolásra szorul, ahogyan a valószínűségről (bizonytalanságról) és a valószínűségi következtetésről gondolkodni szoktunk; ehhez a létező nem frekventista, bayesiánus valószínűségértelmezések és valószínűségelméletek adnak muníciót Claytonnak.
Clayton könyve, kezdtük ajánlónkat, egy tévedésről, egy hibáról szól, egy olyanról, amelyből az ortodox statisztika és vele együtt az ortodox statisztikai módszereket használó tudományok meghatározó hibája lesz; meg arról, tehetjük hozzá most már, hogy a valószínűség miféle értelmezésével és elméletével iktathatjuk ki ezt a hibát. Ez az ortodoxia a valószínűség azon értelmezésén alapul, amely szerint a valószínűség a mintavételi (relatív) gyakoriságot jelent. Ha a valószínűségi következtetések a frekventizmus szellemében kizárólag a mintavételi valószínűségen alapulnak, akkor újra meg újra Bernoulli tévedésébe esünk. Ez arra mutat rá, hogy a valószínűség frekventista értelmezésén alapuló statisztikai módszerek nem csupán nem árulnak el semmit azzal kapcsolatban, hogy egy-egy múltra, jelenre vagy jövőre vonatkozó következtetésünk vagy hipotézisünk milyen valószínűséggel igaz, de nem is alkalmasak ilyen következtetések megtételére, ilyen hipotézisek megalkotására. A frekventista helyett éppen ezért olyan valószínűségértelmezésre van szükség, amely a propozíciók plauzibilitásának mértékét adja meg adott, rendelkezésre álló információk mellett. A valószínűség ilyen, Clayton által könyvében kidolgozott és képviselt értelmezése szerint a valószínűség nem egy esemény bekövetkezésének gyakorisága egy eseménysorozatban, hanem propozíciók igazságában való hit vagy meggyőződés mértéke a rendelkezésre álló és igaznak elfogadott/feltételezett információk függvényében.
Nem lenne szükségünk a valószínűség – semmilyen – fogalmára, ha eleget tudnánk a világról ahhoz, hogy teljesen bizonyos megállapításokat és teljesen pontos előrejelzéseket tegyünk. Nekünk azonban a tökéletlen informáltság, avagy a bizonytalanság állapotában/helyzetében kell következtetésekre jutnunk, amiért is premisszáink és konklúzióink egyaránt csak valószínűleg (többé-kevésbé) igazak. Vagyis mi valószínűségi következtetéseket végezünk, a mi következtetéseink – Arisztotelész Rétorikájával fogalmazva – nem szillogizmusok, hanem enthütémák. Éppen ezért van szükségünk a valószínűség olyan fogalmára és elméletére, amely a bizonytalanság szituációjában való következtetésekre vonatkozik. Akkor sem lenne szükségünk a valószínűség fogalmára, ha minden, ami történik, szükségszerűen történne, következésképp a másként is lehetséges kizárt lenne. Ez azonban a (poszt)modern világunkban nincs így, amiért is nagyon nagy szüksége van a társadalomtudományoknak, köztük a szociológiának a valószínűség fogalmára és elméletére. Hogy milyen is lenne ez a fogalom és elmélet, arra Clayton gondolatébresztő könyvének elolvasása után minden bizonnyal könnyebb lesz megtalálni a választ.
Fotó: Pixabay
Ajánlott olvasmányok:
Dusek Tamás: A valószínűség és a kockázat tudományos és hétköznapi értelmezései. In Statisztikai Szemle 2022/9: 873–895. (Helyben olvasható könyvtárunkban, vagy online hozzáférhető.)
Dusek Tamás: A modern tudomány válsága. (Recenzió Aubrey Clayton: Bernoulli's Fallacy. Statistical Illogic and the Crisis of Modern Science című könyvéről.) In Statisztikai Szemle 2022/11: 1081–1087. (Helyben olvasható könyvtárunkban, vagy online hozzáférhető.)
Szabó Gábor: A valószínűség interpretációi. (Könyvtárunkból kölcsönözhető.)
Jaynes, Edwin: Probability Theory. The Logic of Science. (Online könyvtárunkból letölthető.)