Életünk, 2011 (49. évfolyam, 1-12. szám)

2011 / 3-4. szám - Juhász Zoltán: Gépi adatbányászat a Czuczor-Fogarasi-szótárban

ről. Rájön, hogy a jelsorokat kűlön-külön kell vizsgálni, hiszen az eltérő entrópia görbék eltérő belső szabályokról árulkodnak. Rájön tehát, hogy különböző nyel­veken írt szövegeket halászott ki a világűrből. Elsőnek biztosan azt a nyelvet kezdi tanulmányozni, amelyiknek az entrópiája a 2 - 3 - 4 tagú sorokra a legkisebb, hi­szen éppen ez a legkevesebb bizonytalanságot tartalmazó - tehát a leginkább tervszerűen szerkesztő - nyelv. így választása szükségszerűen pont a magyar szö­vegre esik. Vannak-e ezekben az immár bizonyítottan tervszerűen szerkesztett szavakban ki­sebb, néhány hangos önálló építőelemek - kérdezi magától a marslakó. Kell, hogy legyenek, méghozzá a szavak elején, hiszen az entrópia éppen az első két - három - négy - öt hangra mutat határozottan alacsony értéket a többi nyelvhez képest. Ezek lehetnek a szavak értelmének hordozói - sejti meg marslakónk, és az igazo­lást keresve a következő meggondolásra jut: Az információelmélet segítségével azt is kiszámíthatjuk, hogy mi a bizonytalansága egy adott jelsor folytatására tett jóslatnak egy adott nyelvben. Pl. milyen bizton­sággal jósolható meg az „abla” jelsor folytatása, ha tudjuk, hogy magyar szó lesz a végeredmény. Minden magyar anyanyelvű ember és marslakó azt várja, hogy a jel­sor következő eleme nagy biztonsággal a „k” hang lesz, hiszen számtalan tapasz­talatunk önkéntelenül is előre sugallja az „ablak” szót. Az „abla” jelsor folytatása tehát könnyen jósolható. Ha azonban már a teljes „ablak” szó folytatásán gondol­kozunk, zavarba jövünk a lehetőségek sokaságától: folytatódhat valamilyen tolda­lékkal: „ablakra, ablakban, ablaktól”, de folytatódhat szóösszetétel révén: „ablak­üveg, ablakkeret, ablakszem, ablakmosó”, vagy akár be is fejeződhet a szó - ekkor még bizonytalanabb, mi lesz a folytatás a következő szóban. Az „abla” jelsor ent­rópiája tehát kicsi, az „ablak”-é ellenben nagy. Az entrópiát az „abla” jelsorra úgy számíthatjuk ki, hogy először meghatározzuk az „abla” összes lehetséges folytatá­sának valószínűségét. Ezt megint úgy tehetjük meg, hogy egy hosszú magyar szö­vegben megkeressük az összes „abla” sorral kezdődő szót, és megszámoljuk, hány­szor folytatódott „a”, hányszor „b”, hányszor „c”, stb. betűvel. Ezekből az adatokból az „abla” jelsor összes lehetséges folytatásának valószínűsége kiszámítható, ezek­ből pedig a jelsor folytatásának jóslási bizonytalansága (entrópiája) a már megis­mert Shannon-féle definíció szerint adódik (lásd fent). Ezen a módon zenei mo­tívumok keresésében is érdekes eredményekre juthatunk.4 Marslakónk tehát munkához lát: Kiválogatja az összes háromtagú sorozatot a ma­gyar szavak elejéről, és a lehetséges folytatások gyakoriságaiból kiszámítja az egyes hang-sorok folytatására tehető jóslás entrópiáját (bizonytalanságát). Feltehető, hogy a nagy biztonsággal jósolható sorok valamilyen nagyobb, gyakran előforduló, értelmes egység részei (lásd az „abla-k” példát), tehát az önálló értelemmel ren­delkező sorok éppen azok, melyek folytatása jósolhatatlan - vagyis a nagy entró­piájú jelsorok az értelemhordozók. AMárai könyv alapján az alábbi háromtagú, 0,5- nél nagyobb relatív entrópiájú sorok akadnak fenn a marslakó hálóján (a sorok mellett előfordulási számuk és relatív entrópiájuk látható): 103

Next

/
Thumbnails
Contents