Életünk, 2011 (49. évfolyam, 1-12. szám)
2011 / 3-4. szám - Juhász Zoltán: Gépi adatbányászat a Czuczor-Fogarasi-szótárban
ről. Rájön, hogy a jelsorokat kűlön-külön kell vizsgálni, hiszen az eltérő entrópia görbék eltérő belső szabályokról árulkodnak. Rájön tehát, hogy különböző nyelveken írt szövegeket halászott ki a világűrből. Elsőnek biztosan azt a nyelvet kezdi tanulmányozni, amelyiknek az entrópiája a 2 - 3 - 4 tagú sorokra a legkisebb, hiszen éppen ez a legkevesebb bizonytalanságot tartalmazó - tehát a leginkább tervszerűen szerkesztő - nyelv. így választása szükségszerűen pont a magyar szövegre esik. Vannak-e ezekben az immár bizonyítottan tervszerűen szerkesztett szavakban kisebb, néhány hangos önálló építőelemek - kérdezi magától a marslakó. Kell, hogy legyenek, méghozzá a szavak elején, hiszen az entrópia éppen az első két - három - négy - öt hangra mutat határozottan alacsony értéket a többi nyelvhez képest. Ezek lehetnek a szavak értelmének hordozói - sejti meg marslakónk, és az igazolást keresve a következő meggondolásra jut: Az információelmélet segítségével azt is kiszámíthatjuk, hogy mi a bizonytalansága egy adott jelsor folytatására tett jóslatnak egy adott nyelvben. Pl. milyen biztonsággal jósolható meg az „abla” jelsor folytatása, ha tudjuk, hogy magyar szó lesz a végeredmény. Minden magyar anyanyelvű ember és marslakó azt várja, hogy a jelsor következő eleme nagy biztonsággal a „k” hang lesz, hiszen számtalan tapasztalatunk önkéntelenül is előre sugallja az „ablak” szót. Az „abla” jelsor folytatása tehát könnyen jósolható. Ha azonban már a teljes „ablak” szó folytatásán gondolkozunk, zavarba jövünk a lehetőségek sokaságától: folytatódhat valamilyen toldalékkal: „ablakra, ablakban, ablaktól”, de folytatódhat szóösszetétel révén: „ablaküveg, ablakkeret, ablakszem, ablakmosó”, vagy akár be is fejeződhet a szó - ekkor még bizonytalanabb, mi lesz a folytatás a következő szóban. Az „abla” jelsor entrópiája tehát kicsi, az „ablak”-é ellenben nagy. Az entrópiát az „abla” jelsorra úgy számíthatjuk ki, hogy először meghatározzuk az „abla” összes lehetséges folytatásának valószínűségét. Ezt megint úgy tehetjük meg, hogy egy hosszú magyar szövegben megkeressük az összes „abla” sorral kezdődő szót, és megszámoljuk, hányszor folytatódott „a”, hányszor „b”, hányszor „c”, stb. betűvel. Ezekből az adatokból az „abla” jelsor összes lehetséges folytatásának valószínűsége kiszámítható, ezekből pedig a jelsor folytatásának jóslási bizonytalansága (entrópiája) a már megismert Shannon-féle definíció szerint adódik (lásd fent). Ezen a módon zenei motívumok keresésében is érdekes eredményekre juthatunk.4 Marslakónk tehát munkához lát: Kiválogatja az összes háromtagú sorozatot a magyar szavak elejéről, és a lehetséges folytatások gyakoriságaiból kiszámítja az egyes hang-sorok folytatására tehető jóslás entrópiáját (bizonytalanságát). Feltehető, hogy a nagy biztonsággal jósolható sorok valamilyen nagyobb, gyakran előforduló, értelmes egység részei (lásd az „abla-k” példát), tehát az önálló értelemmel rendelkező sorok éppen azok, melyek folytatása jósolhatatlan - vagyis a nagy entrópiájú jelsorok az értelemhordozók. AMárai könyv alapján az alábbi háromtagú, 0,5- nél nagyobb relatív entrópiájú sorok akadnak fenn a marslakó hálóján (a sorok mellett előfordulási számuk és relatív entrópiájuk látható): 103