Életünk, 2011 (49. évfolyam, 1-12. szám)
2011 / 3-4. szám - Juhász Zoltán: Gépi adatbányászat a Czuczor-Fogarasi-szótárban
értékű az entrópia, ha a kísérletnek csak egyetlen kimenetele lehetséges. Ennek az egy kimenetelnek a valószínűsége értelemszerűen 1, a többié pedig 0. (Ilyennek szeretjük elképzelni pl. az azonos feltételek között elvégzett fizikai kísérleteket, mivel a Természetet nagy általánosságban determinisztikus működésűnek tételezzük fel. A választások kimenetelét viszont csak jósolni tudjuk, az „előzetes kísérletnek” szánt közvélemény-kutatások alapján.) Általában igaz, hogy minél kevesebb kimenetel várható minél nagyobb valószínűséggel, annál kisebb az entrópia értéke. Ennyi információelméleti bevezetés után rátérhetünk az alcímben ígért marslakókra. Képzeljük el, hogy egy marslakó a világűrből érkező jeleket figyeli, és egyszer csak számítógépe képernyőjén a következő jelsor jelenik meg: „Olyasféle ez a könyv, mint a régi füves könyvek, amelyek egyszerű példákkal akartak felelni a kérdésekre, mit is kell tenni, ha valakinek a szíve fáj, vagy elhagyta az Isten ...” stb. Értelmes üzenet ez, vagy már megint valami űrbéli zaj kápráztatja el két bolond fejem? - kérdezi magától a marslakó. Első ránézésre látja mind a négy szemével, hogy hosszabb-rövidebb szakaszokból - szavakból - áll az „ismeretlen jelforrásból érkezett üzenet”. Először is: van-e valami tervezettség az első betűk megválasztásában? O is tanult információelméletet, ezért a kérdést pontosan úgy dönti el, ahogy fentebb leírtuk: az üzenet egy kellően hosszú szakaszán meghatározza az a- val, b-vel, c-vel stb. kezdődő szavak gyakoriságait, és ezekből kiszámítja az első hangok relatív entrópiáját. (Ehhez előbb megállapítja, hogy összesen hányféle jelből áll a sorozat.) Az 1. ábrán a gyakoriságok hangonkénti eloszlását látjuk a magyar szövegben. &0 'CO cn O KJ a 1. ábra. A magyar ABC hangainak gyakoriságai a szavak elején Ebből az eloszlásból a szó eleji hangok relatív entrópiájára a következő eredményt kapja: h=0,79. A relatív entrópia tehát 1-nél jóval kisebb értékű lett, ami megalapozza a terv- szerűség gyanúját, a bizonyosság iránti vágy pedig további kérdéseket ébreszt marslakónkban: mekkora a két, három stb. hangból álló sorok entrópiája? 101