Életünk, 2011 (49. évfolyam, 1-12. szám)

2011 / 3-4. szám - Juhász Zoltán: Gépi adatbányászat a Czuczor-Fogarasi-szótárban

Ez már bonyolultabb kérdés, mely a fenti gondolatmenetet követve egy összetett esemény (kísérlet) elemzéséhez vezet: az „ismeretlen jelforrás” először kibocsátja az első hangot, majd a másodikat. Az első hang kibocsátásáról már tudjuk, hogy ha minden kezdőhang azonos gyakorisággal fordulna elő szavainkban, akkor a rela­tív entrópia egyhez közelítene. A második hangok kiválasztása tovább növeli a bi­zonytalanságot: a marslakó információ-elméleti tájékozottsága miatt pontosan tudja, hogy ha ez is teljesen véletlenszerű lenne, egyenletes valószínűségű, és füg­getlen az első hangok választásától, akkor a kéttagú hang-sorozatok relatív entró­piája kettőhöz tartana. Ha viszont a választás nem teljesen véletlenszerű, mert a má­sodik hangok kiválasztása is valamilyen „terv” szerint függ az elsőktől, akkor a relatív entrópia nő ugyan az egyhangoshoz képest, de a növekmény kisebb lesz, mint egy. A három stb. tagú hangsorokra ugyanez érvényes. Marslakónk tehát kellő türelemmel végigvizsgálja a teljes szöveget, és meghatározza a magyar nyelv ent­rópiáját 1, 2, 3 ... stb. hosszúságú hangsorokra, Márai Sándor Fúveskönyve alap­ján. (A számolás részleteit a marslakó határozott kérése ellenére mellőzzük.) Az eredményeket viszont rövidesen tárgyaljuk, csak még egy kis türelmet kérünk, mert előbb be kell számolnunk a marslakót ért újabb megrázkódtatásokról. Mi­közben ugyanis éppen azon töpreng, hogy mit kezdjen most már a kapott értékek­kel - melyek határozottan valamilyen tervezettségre utalnak -, újabb jelsor tűnik fel a gépén: „Cum e Cilicia decedens Rhodum venissem et eo mihi de Q. ... „ stb'. A mit sem sejtő marslakó a rend kedvéért lefuttatja programját ezen a jelsoron is, és meglepve tapasztalja, hogy ennek entrópiája rendre eltér az iméntiétől. Aztán megjelenik egy angol, egy lengyel, egy török, egy finn szöveg is, és mindnek hatá­rozottan más entrópia-eloszlást mér a marslakó. Eredményeit, összesen hat nyelv 1, 2, ... 10 hangnyi hosszúságú hangsorainak entrópiáját az alábbi ábra mutatja: 2. ábra. Az első 1 - 2 - ... - 10 hang entrópiája hat nyelv szavaiban. A vastag vonallal jelölt magyar görbe láthatóan a többi alattfut 1 -2 - 3 - ... - 6 hangos sorok esetében. A magyar szavak „tervezettsége” tehát kimutathatóan meghaladja a többi nyelvét Marslakónkat most már határozottan eszi a kíváncsiság, hogy megfejtse jelsorai tit­kát, hiszen ez az ábra biztosan mutatja, hogy szó sincs itt teljes véletlenszerűség­102

Next

/
Thumbnails
Contents