Életünk, 2011 (49. évfolyam, 1-12. szám)
2011 / 3-4. szám - Juhász Zoltán: Gépi adatbányászat a Czuczor-Fogarasi-szótárban
fel 228 0.817 egye 80 0.550 nap 63 0.657 kér 29 0.514 bel 34 0.514 tör 98 0.634 szív 58 0.581 nagy 117 0.514 fog 52 0.608 ami 165 0.581 erő 80 0.581 össze 28 0.608 köz 158 0.657 kap 47 0.608 lát 47 0.581 jel 101 0.608 leg 146 0.778 kör 40 0.550 hat 58 0.514 ter 121 0.514 hív 16 0.514 fél 71 0.678 szem 87 0.697 vér 13 0.581 szer 160 0.581 szám 60 0.514 túl 28 0.608 tud 170 0.634 jár 13 0.514 hely 56 0.550 vég 84 0.634 haj 38 0.608 fej 18 0.514 más 150 0.634 pár 23 0.514 gyógy 18 0.514 meg 597 0.899 áll 73 0.550 oda 14 0.581 idő 83 0.678 elv 47 0.514 per 16 0.550 sor 51 0.550 tűz 8 0.514 bor IC i 0 .514 hal 120 0.550 fény 19 0.514 szín 17 0 .550 vál 106 0.550 kor 37 0.608 elő 67 0.678 vár 48 0.514 Ha marslakónk tudna magyarul, most nagyon boldog lenne, hiszen módszerével valóban csupa értelmes hárombetűs szóra bukkant, méghozzá hosszabb szavakon belül. De akkor tudná csak meg igazán, hogy mit is csinált valójában, ha ismerné a Czuczor-Fogarasi-szótár gyök-készletét. A vastag betűvel jelölt hangsorok ui. egytől egyig szerepelnek az ő gyök-szótárukban, vagyis a marslakó módszere nemcsak az értelmes hangcsoportokat találja meg, de 94%-os biztonsággal éppen a CzF. gyökeit (szám szerint 49-et) választja ki akkor, ha az entrópia küszöböt 0,5- ben írja elő. Megengedőbb, 0,3-as küszöb mellett a találati arány még mindig nagyobb, mint 80%, ám ekkor már 144 CzF. gyök akad horogra. (Hozzátesszük, hogy marslakónk teljesen kihagyta a vizsgálatból a két-, három- stb. tagú hangsorok önálló szóként való előfordulásait, mert éppen arra volt kíváncsi, hogy tisztán a szavakon belüli szerepükből is kimutathatók-e a CzF.-féle gyökök. A marslakó tehát csak akkor vette számításba a „fel”, „kér”, „szív” stb. hangsorokat, ha azok valamilyen hosszabb szó részét képezték, mint „felső, kérdez, szívós” stb. Megjegyezzük továbbá, hogy a kétbetűs hangokat minden nyelvben a megfelelő ABC szabályai szerint vette figyelembe, és a számításokban egy hangként kezelte őket. Hogy ezekről honnan volt tudomása, az egyelőre rejtély.) Sok-e ez a 94%, ill. 80%, vagy kevés? A vizsgált szövegben összesen 1507 féle szókezdő hang-hármas található, és ezek közül formálisan 604 egyezik meg a CzF. valamelyik gyökével. Ha tehát találomra mondanánk rá valamely hanghármasra az 1507 közül, hogy CzF.-gyök, akkor 604/1507, vagyis kevesebb, mint 40%-os biztonsággal döntenénk helyesen. Ehhez képest még a 80% is óriási biztonság, nemhogy a 94%. 104