Nyelvtudományi Közlemények 89. kötet (1987-1988)

Tanulmányok - Pajzs Júlia: Számítógépes szótárak [Machine readable dictionaries] 67

ható formában, utána a szótár újabb, módosított kiadásai köny­nyen elkészíthetők, ráadásul minimális az esélye annak, hogy a javítás során újabb hibákat vigyünk fel az adatbázisba. Kellő körültekintéssel készíthető olyan számítógépes szótári adatbá­zis is, amely egyszerre több nyomtatott szótár anyagát tartal­mazza, például egy szótári család három tagja, a nagyszótár, a kéziszótár és a zsebszőtár szócikkei tárolhatók közös adatbá­zisban, ha speciális jelekkel megkülönböztetjük, hogy melyik címszó szerepel mindháromban, melyik csak a nagyszótárban. A szócikkekben szintén elkülönítjük a közös, és csak az egyik vagy másik változatban publikálandó részeket, jelentéseket stb. Erre az egyik legszebb példa a New Van Dalé projektum (erről részletesebben 1. Sterkenburg 1981), amelyben összesen 21 szó­tár alapanyagát tárolják egy közös adatbázisban: először is létrehoznak a meglévő Van Dalé nagyszótár alapján egy alapszó­tárat, majd ebből kiindulva elkészítik a módosított Van Dalé egynyelvű nagyszótárat, a holland-francia, francia-holland, holland-német, német-holland, és a holland-angol, angol-holland nagyszótárakat, ugyanazt a címszóállományt felhasználva; végül pedig elkészítik az összes felsorolt szótár kéziszótár és zsebszótár változatát. Az ilyen projektumok teremtik meg a szá­mítógépes lexikográfiát mint önálló, alkalmazott tudományágat, mivel effajta bonyolult munkára számítógép nélkül még csak gon­dolni sem lehetett. Mindezen túl, bármely számítógépes szótár tekinthető úgy, mint az adott nyelv egy korpusza, amely sok szempontból érdeke­sebb információkat tartalmaz, mint egy folyó szövegekből össze­állított korpusz, hiszen számos grammatikai, esetleg nyelvtör­téneti adat is található benne. Különösen izgalmas kutatásokat folytathatunk akkor, ha egy nyelvről folyó szövegekből álló korpuszunk és szótárunk is van számítógépesített formában: ösz­szehasonlíthatjuk a kétféle adatbázisból kapott adatokat. Sőt, a szótárból eleve legalább háromféle adatot kaphatunk ugyanarra a nyelvi jelenségre, attól függően, hogy a címszavak között, az értelmezések között vagy az idézetek között keresgélünk, hiszen a címszóállományból például a szókincsre vonatkozó információ­kat kaphatunk, az idézetekből korok szerint csoportosított szó/szókapcsolat előfordulásokat kerestethetünk, míg az értei-69

Next

/
Thumbnails
Contents