Életünk, 2011 (49. évfolyam, 1-12. szám)

2011 / 3-4. szám - Juhász Zoltán: Gépi adatbányászat a Czuczor-Fogarasi-szótárban

társítások, érvelések nem egyebek puszta kitalációknál. Tanulmányunk célja éppen az, hogy e kérdést a természettudomány és az informatika eszközeivel, tehát a nyel­vészet eszköztárán kívülről segítsen megválaszolni. A számítógépes szövegfeldol­gozás (és zenekutatás) egyik fő kérdése ugyanis éppen az, hogy hogyan lehet a szö­vegekben, ill. dallamokban előforduló jellegzetes, gyakori hangcsoportokat kiemelni.1 A kérdés megválaszolásában az információelmélet lehet segítségünkre. A Shannon- féle információelmélet központi kérdése az, hogy milyen biztonsággal tudjuk jó­solni egy több lehetséges kimenetellel rendelkező kísérlet eredményét, a korábban elvégzett kísérletek eredményeinek ismeretében?2 Például képzeljük el, hogy egy „jelforrás” magyar szavakat küld nekünk, véletlen sorrendben. Milyen biztonság­gal jósolható meg a soron következő szó kezdőhangja? A válaszhoz az „adás” hosszasabb megfigyelésével meghatározzuk a magyar szavak első hangjainak gya­koriságait: milyen gyakoriak az „a,”-val, a „b”-vel, a „c”-vel ... stb. kezdődő sza­vaink. Esetünkben ez a számlálás jelenti a „korábban elvégzett kísérleteket”. Nyil­vánvaló, hogy új kísérletünk (a jelforrás kibocsát egy újabb szót) várható legvalószínűbb eredménye olyan szó lesz, mely a leggyakrabban előforduló hang­gal kezdődik. Ugyanakkor a többi, viszonylag sűrűn előforduló hang is könnyen lehet a kísérlet eredménye - éppen ezért bizonytalan kimenetelű az. Hogyan jel­lemezzük most már számszerűen a bizonytalanságot, vagy ennek ellenkezőjét, a jó- solhatóságot? Az információelmélet egy kísérlet bizonytalanságának mértékéül az entrópiát definiálja: az entrópia egy valós szám, mely annál nagyobb, minél bi­zonytalanabb egy kísérlet kimenetele, ill. annál kisebb, minél biztosabban jósolható. Példánkban a kísérlet összes lehetséges kimenetelének - a magyar ABC 44 hang­jának mint szókezdő hangnak - valószínűsége kiszámítható a megfigyelt előfor­dulási gyakoriságokból, a valószínűségekből pedig a kísérlet bizonytalanságát (ent­rópiáját) Shannon definíciója szerint a h = ^Ptlog(1/Pi) képlet adja. N az összes lehetséges szókezdet - vagyis most a magyar ABC 44 hang­jának- száma, pj pedig az i-edik hang valószínűsége. A h entrópia jellemezheti te­hát a kezdőhangok jóslásának bizonytalanságát pl. a magyar nyelvben. Bizonyít­ható, hogy az entrópia értéke akkor maximális, ha minden kimenetel egyforma valószínűségű - ekkor /?max = >Og(A0 értékű. A maximális entrópia tehát annál nagyobb, minél több lehetséges kime­netele van egy kísérletnek - esetünkben: minél több hangból áll egy nyelv ABC- je. A hangok számából adódó entrópia eltérést úgy küszöbölhetjük ki, ha minden nyelven a h/hmax relatív entrópiával számolunk, ahol a maximális entrópiát az adott nyelv hangjainak számából határozzuk meg. A relatív entrópia már mindig 0 és 1 közötti érték, függetlenül az ABC hangjainak számától. Minimális, vagyis 0 100

Next

/
Thumbnails
Contents