A hét könyve

Justin Grimmer, Margaret E. Roberts & Brandon M. Stewart - Text as Data

A könyv borítója
Fotó: Amazon Books

Szöveg és interpretáció, hermeneutika és dekonstrukció? Hmmm! Diskurzuselemzés? Hmmm! Szöveg mint modell? Hmmm! Szöveg mint adat? Brrr! Egyre kevésbé, de azért – hiába ível fölfelé a karrierje – még megvan a berzenkedés a társadalomtudósok között is a gépi-kvantitatív szövegelemzést illetően. Justin Grimmer, Margaret E. Roberts és Brandon M. Stewart Text as Data című könyvét ajánljuk.

Nem ellenszerként, mely eloszlathatná a kételyeket, fenntartásokat, ellenérzéseket, mert e könyv inkább azoknak szól, akik már megnyíltak, érdeklődnek vagy lelkesednek a gépi-kvantitatív szövegelemzés iránt. Ámde nem gyakorlati útmutatót kap az olvasó, hanem egy olyan kézikönyvet, amely azt mutatja be, példákkal illusztrálva, hogy mit csinál a szöveget mint adatot fölfogó, a szövegelemzéshez gépi tanulási algoritmusokat használó társadalomkutató, illetve hogy mit tud csinálni, mit nem, mire képes, mire nem. Éppen ezért e könyvet tudjuk ajánlani azoknak is, akik kétkednek, akiknek fenntartásaik vagy ellenérzéseik vannak az ilyen fajta szövegelemzést illetően: képet kaphatnak ők is arról, hogy miként képzeli, gondolja el és csinálja a társadalomkutatást az, aki a szöveget mint adatot fogja föl, milyen lehetőségei és korlátai vannak ennek – pillanatnyilag, hiszen egy hihetetlenül gyorsan fejlődő irányzatról van szó.

A szóbeágyazás (word embedding) nevű módszert, amely a szavak közötti szemantikai relációk megragadására hivatott, használták szövegbányászok a kilencévnyi munka után 2009-ben kiadott, ún. Ryan-jelentés elemzésére. Ez a 2600 oldalas dokumentum az írországi, 1936–1990 között szerzetesi vezetésű és államilag finanszírozott intézményekben a kiskorúakkal szemben elkövetett visszaélések (bántalmazások mindenféle formáinak) jegyzőkönyvszerű leírását tartalmazza. Szóbeágyazáson alapuló elemzése azt mutatta meg, hogy ezzel a módszerrel olyan mintázatok, összefüggések tárhatók fel, amilyenek szoros olvasással (close reading) nem; vagyis egy gép, egy algoritmus úgy tudja olvasni a szöveget, ahogy mi nem, olyat tud meglátni, amit az emberi szem nem. A helyzet ezek szerint nem az, hogy a számítógépes, mesterséges intelligenciát használó szövegelemzés „rossz, de hasznos”. És nem is egyszerűen arról van szó, hogy bár a gép nem tud úgy olvasni szöveget, ahogy az ember, hiszen nem tudja értelmezni egy szöveget a maga összetettségében, mégis olyan mennyiségű szöveg válik a gépek révén földolgozhatóvá-elemezhetővé, ami nélkülük elképzelhetetlen lenne. Sokkal inkább arról van szó, a helyzet valójában az, hogy jóllehet egy gép nem tud úgy olvasni, ahogy az ember, de másképp olvasva olyasmit is meglát, amit az ember nem. Épp ez a gépi tanulási algoritmusokat használó szövegelemzésben a lenyűgöző (ígéretes) és letagozó (botrányos): erőteljesen (elfogadhatatlannak tetszőn) redukálja a szöveg komplexitását, ámde olykor hanyatt esünk attól, amit eredményül kapunk.

Ez természetesen nem jelenti azt, hogy például a szoros olvasást – a kvalitatív-interpretatív módszereket – ki kell dobnunk: a kvantitatív-gépi szövegelemzés – ez könyvünk szerint a szöveget adatként fölfogó megközelítés egyik alapelve – nem szorítja ki a humán szövegolvasást és szövegértelmezést; ugyanakkor az a törekvés hatja át és ösztönzi, hogy olyasmit (többet vagy mást) tudjon kideríteni, föltárni, megmutatni, amit másképp, más módszerekkel és eszközökkel nem lehet. És ez teljesen rendben is van, hiszen akkor van igazából értelme a gépi-kvalitatív szövegelemzésnek a társadalomtudományokban, mint bármelyik másiknak: ha nem ágyúval lövünk bolhára esete áll fönn. Persze, a kvalitatív szövegelemzés mindig szerves része volt a társadalomtudományoknak, amiért is igazából nem is kellene nagy hullámokat vernie annak, hogy új eszközökkel és módszerekkel végeznek ilyenfajta elemzéseket; annak sem, hogy ennek során a kutatók olyasmiből csinálnak adatot, ami nem adat, hiszen szöveget eddig is kódoltak, kézzel, most meg géppel, a szövegből így is, úgy is adat lesz... Akkor mégis mi az ellenérzés vagy ellenállás oka a társadalomtudományon belül a számítógépes és mesterséges intelligenciás szövegelemzést illetően? Úgy látjuk, nem pusztán az, hogy ez a szövegelemzés azon a terepen képes eredményeket fölmutatni, amelyik bevett leosztás szerint a kvalitatív kutatóké, hanem hogy olykor olyan eredményeket produkál e terepen, amelyek fölülmúlják a kvalitatív módszerekkel kihozhatókat. Az megjárja, ha a szövegbányász azt vizsgálja, hogy egy korpuszban hányszor fordulnak elő bizonyos szavak, milyen gyakorisággal – ilyen elemzéseket évtizedek óta csinálnak, csak most gyorsabb és óriási korpusz átfésülésére alkalmas technológiával; ugyanígy és részben ugyanezért megjárja a névelem-felismerés (named entity recognition), az osztályozás (classification) vagy a csoportosítás (clustering) is. Ha viszont szemantikai relációkat tár föl a gépi-kvantitatív szövegelemzés, mint például a szóbeágyazás (word embedding) esetében, akkor azzal kiborul a bili. Mert a szöveget adattá csináló eljárásokat ilyen esetekben nem az információ megkeresésére vagy kinyerésére használják, hanem jelentések feltárására, és eredményei olykor fölülmúlják az interpretatív elemzésekét.

Még egyszer, ez nem jeleni azt, hogy búcsút kell intenünk a kvalitatív-interpretatív szövegelemzésnek, de azt igen, hogy a gépi-kvantitatív olyasmire képes, amire a kvalitatív-interpretatív nem. A gépi-kvantitatív szövegelemzés – ez könyvünk szerint a szöveget adatként fölfogó megközelítés egy másik alapelve – nem szorítja ki a másféléket, hanem kiegészíti és gyarapítja azokat. Egy gép nem produkál sűrű leírást, sűrű elemzést ellenben igen. Nem vitás, azzal, hogy a szöveget adattá csináljuk, kilúgozzuk belőle az olvasás-befogadás érzékiséggel teli folyamatát, redukáljuk szemantikai és hermeneutikai komplexitását. Ámde a gépi-kvantitatív szövegelemzés során – bármilyen más módszert és eszközt használó társadalomtudományi szövegelemzéshez hasonlóan – a szöveget bizonyos értelemben nem olvassuk, hanem használjuk: nem maga a szöveg, hanem a szöveg mint valaminek az indikátora érdekel minket, nem az adott szöveg(ek)ről akarunk valamit megtudni, vagy arra vonatkozóan következtetéseket levonni, hanem a szöveg(ek)en keresztül vagy által valami másról. A társadalomtudományok esetében a társadalmi világról.

Az olvasás, a nem gépi feldolgozás és elemzés, ilyenkor is látványos eredményeket produkálhat, mindaddig, amíg kitüntetünk bizonyos szövegeket a szöveghalomból, jellegzetesnek titulálva őket, vagy reprezentatív mintaként annyit választunk ki, amennyit belátható időn belül el tudunk olvasni. Ám minél inkább úgy látjuk, hogy a szöveg a társadalmi világot illetően nem mellékes, nem másodlagos, szemben a „kemény”, „tiszta”, „objektív” tényekkel, hogy a szöveg alakítja-formálja ezt a világot, és nemcsak, mondjuk, a nagy / kiválasztott emberek nagy / kiválasztott szövegei, annál szükségesebb és kényszerítőbb lesz, hogy a szövegeket ne hagyományosan olvasva használjuk a társadalomkutatásban. Vagy legalábbis szembe kell néznünk a következő kínzó kérdésekkel: Nem lesz-e szükségképp torz kutatásunk eredménye, ha csak annyi szöveget teszünk elemzés tárgyává, amennyit el tudunk olvasni, fel tudunk dolgozni humán kapacitással? Nem a nem látjuk a fától az erdőt esete áll fönn ilyenkor? Nem kellene-e élnünk a gépi-kvantitatív szövegelemzés lehetőségével, amely ugyan fájóan redukálja a komplexitást, általa mégis olyasmi válik hozzáférhetővé és feltárttá, amely egyébként hozzáférhetetlen és feltáratlan maradna?

Könyvünk, melynek válasza e kérdésekre a mi olvastatunk szerint igenlő, a szöveget adatként fölfogó (azzá csináló) társadalomtudományi elemzés elméleti kézikönyve kíván lenni, olyan elemzésé, amelyet egyedül és diszciplináris keretek között nem lehet csinálni, csak csapatban és különböző tudásokat egybe-, illetve összerakva. A Text as Data tehát, mely maga is többszerzős, elmélet-, nem pedig gyakorlat- és alkalmazásorientált; nincs benne szó technológiákról, programokról, programnyelvekről; nem az algoritmusok köré szerveződik, hanem feladatok, a szöveg mint adat típusú elemzés feladatai köré. Éspedig: (1) reprezentáció és szelekció (szövegek beszerzése, kiválasztása, összegyűjtése, a korpusz összeállítása, előkészítése és kvantitatív reprezentációja); (2) felfedezés (modellek használata mind fogalmaink megalkotására-finomítására, mind a világ feltárására, tudás előállítására); (3) mérés (szószámláláson alapuló és szótáralapú módszerek, klasszifikáció, klaszterezés, felügyelet és felügyelet nélküli módszerek, kódolás, validálás); (4) előrejelzés és oksági következtetés. E feladatok egy-egy fejezetben való, példákkal illusztrált tárgyalásával bontják ki könyvünk szerzői a szövegeket mint adatokat fölfogó társadalomtudományi szövegelemzés meghatározó gondolati tartalmát, megkülönböztető sajátosságát, lehetőségeit és korlátait. Hogy megtudjuk, miben is állnak ezek, ahhoz csak el kell olvasnunk a könyvet – nem géppel, adattá téve, hanem ahogy szoktuk. Úgyhogy jó olvasást kívánunk!

Imázsfotó
Fotó: Pixabay

Ajánlott olvasmányok:

Sebők Miklós (szerk.): Kvantitatív szövegelemzés és szövegbányászat a politikatudományban. (Könyvtárunkból kölcsönözhető.)

Németh Renáta – Katona Eszter Rita – Kmetty Zoltán: Az automatizált szövegelemzés perspektívája a társadalomtudományokban. In Szociológiai Szemle 30(1) (2020): 44–62.

Maróthy Szilvia: Digitális bölcsészet. A szövegtől az adatig. (E-könyv, olvasóinknak a távolról is elérhető MeRSZ adatbázisban hozzáférhető.)

Dobson, James R.: Critical Digital Humanities. The Search for a Methodology. (Online könyvtárunkból letölthető.)

Bauer, Martin W. – Süerdem, Ahmet – Bicquelet, Aude: Text Analysis – An Introductory Manifesto.