Életünk, 2011 (49. évfolyam, 1-12. szám)
2011 / 3-4. szám - Juhász Zoltán: Gépi adatbányászat a Czuczor-Fogarasi-szótárban
társítások, érvelések nem egyebek puszta kitalációknál. Tanulmányunk célja éppen az, hogy e kérdést a természettudomány és az informatika eszközeivel, tehát a nyelvészet eszköztárán kívülről segítsen megválaszolni. A számítógépes szövegfeldolgozás (és zenekutatás) egyik fő kérdése ugyanis éppen az, hogy hogyan lehet a szövegekben, ill. dallamokban előforduló jellegzetes, gyakori hangcsoportokat kiemelni.1 A kérdés megválaszolásában az információelmélet lehet segítségünkre. A Shannon- féle információelmélet központi kérdése az, hogy milyen biztonsággal tudjuk jósolni egy több lehetséges kimenetellel rendelkező kísérlet eredményét, a korábban elvégzett kísérletek eredményeinek ismeretében?2 Például képzeljük el, hogy egy „jelforrás” magyar szavakat küld nekünk, véletlen sorrendben. Milyen biztonsággal jósolható meg a soron következő szó kezdőhangja? A válaszhoz az „adás” hosszasabb megfigyelésével meghatározzuk a magyar szavak első hangjainak gyakoriságait: milyen gyakoriak az „a,”-val, a „b”-vel, a „c”-vel ... stb. kezdődő szavaink. Esetünkben ez a számlálás jelenti a „korábban elvégzett kísérleteket”. Nyilvánvaló, hogy új kísérletünk (a jelforrás kibocsát egy újabb szót) várható legvalószínűbb eredménye olyan szó lesz, mely a leggyakrabban előforduló hanggal kezdődik. Ugyanakkor a többi, viszonylag sűrűn előforduló hang is könnyen lehet a kísérlet eredménye - éppen ezért bizonytalan kimenetelű az. Hogyan jellemezzük most már számszerűen a bizonytalanságot, vagy ennek ellenkezőjét, a jó- solhatóságot? Az információelmélet egy kísérlet bizonytalanságának mértékéül az entrópiát definiálja: az entrópia egy valós szám, mely annál nagyobb, minél bizonytalanabb egy kísérlet kimenetele, ill. annál kisebb, minél biztosabban jósolható. Példánkban a kísérlet összes lehetséges kimenetelének - a magyar ABC 44 hangjának mint szókezdő hangnak - valószínűsége kiszámítható a megfigyelt előfordulási gyakoriságokból, a valószínűségekből pedig a kísérlet bizonytalanságát (entrópiáját) Shannon definíciója szerint a h = ^Ptlog(1/Pi) képlet adja. N az összes lehetséges szókezdet - vagyis most a magyar ABC 44 hangjának- száma, pj pedig az i-edik hang valószínűsége. A h entrópia jellemezheti tehát a kezdőhangok jóslásának bizonytalanságát pl. a magyar nyelvben. Bizonyítható, hogy az entrópia értéke akkor maximális, ha minden kimenetel egyforma valószínűségű - ekkor /?max = >Og(A0 értékű. A maximális entrópia tehát annál nagyobb, minél több lehetséges kimenetele van egy kísérletnek - esetünkben: minél több hangból áll egy nyelv ABC- je. A hangok számából adódó entrópia eltérést úgy küszöbölhetjük ki, ha minden nyelven a h/hmax relatív entrópiával számolunk, ahol a maximális entrópiát az adott nyelv hangjainak számából határozzuk meg. A relatív entrópia már mindig 0 és 1 közötti érték, függetlenül az ABC hangjainak számától. Minimális, vagyis 0 100