Nyelvtudományi Közlemények 89. kötet (1987-1988)
Tanulmányok - Pajzs Júlia: Számítógépes szótárak [Machine readable dictionaries] 67
ható formában, utána a szótár újabb, módosított kiadásai könynyen elkészíthetők, ráadásul minimális az esélye annak, hogy a javítás során újabb hibákat vigyünk fel az adatbázisba. Kellő körültekintéssel készíthető olyan számítógépes szótári adatbázis is, amely egyszerre több nyomtatott szótár anyagát tartalmazza, például egy szótári család három tagja, a nagyszótár, a kéziszótár és a zsebszőtár szócikkei tárolhatók közös adatbázisban, ha speciális jelekkel megkülönböztetjük, hogy melyik címszó szerepel mindháromban, melyik csak a nagyszótárban. A szócikkekben szintén elkülönítjük a közös, és csak az egyik vagy másik változatban publikálandó részeket, jelentéseket stb. Erre az egyik legszebb példa a New Van Dalé projektum (erről részletesebben 1. Sterkenburg 1981), amelyben összesen 21 szótár alapanyagát tárolják egy közös adatbázisban: először is létrehoznak a meglévő Van Dalé nagyszótár alapján egy alapszótárat, majd ebből kiindulva elkészítik a módosított Van Dalé egynyelvű nagyszótárat, a holland-francia, francia-holland, holland-német, német-holland, és a holland-angol, angol-holland nagyszótárakat, ugyanazt a címszóállományt felhasználva; végül pedig elkészítik az összes felsorolt szótár kéziszótár és zsebszótár változatát. Az ilyen projektumok teremtik meg a számítógépes lexikográfiát mint önálló, alkalmazott tudományágat, mivel effajta bonyolult munkára számítógép nélkül még csak gondolni sem lehetett. Mindezen túl, bármely számítógépes szótár tekinthető úgy, mint az adott nyelv egy korpusza, amely sok szempontból érdekesebb információkat tartalmaz, mint egy folyó szövegekből összeállított korpusz, hiszen számos grammatikai, esetleg nyelvtörténeti adat is található benne. Különösen izgalmas kutatásokat folytathatunk akkor, ha egy nyelvről folyó szövegekből álló korpuszunk és szótárunk is van számítógépesített formában: öszszehasonlíthatjuk a kétféle adatbázisból kapott adatokat. Sőt, a szótárból eleve legalább háromféle adatot kaphatunk ugyanarra a nyelvi jelenségre, attól függően, hogy a címszavak között, az értelmezések között vagy az idézetek között keresgélünk, hiszen a címszóállományból például a szókincsre vonatkozó információkat kaphatunk, az idézetekből korok szerint csoportosított szó/szókapcsolat előfordulásokat kerestethetünk, míg az értei-69