Tudományszervezési Tájékoztató, 1966

6. szám - Szemle

amit a /hetero-lingvális/ gépi forditásnál látunk majd. A tipikus homo-1ingvális feladatok megértési szintje ennél a szintnél általában "alacsonyabb". A gépi fordításban a szövegelemzés szükségszerűen kiterjed a szöveg teljes grammatikai szerkezetére, szemantikai interpretációjára, sőt bizonyos tárgyköri- lexikális ismeretanyagot is figyelembe vesz. A homo-1ingvális dokumentációban azonban az eredeti szöveg rövidítése a feladat, s a "megértés" voltaképpen a rövidítéshez szükséges szempontok kiválasztását, megitélését jelenti. Ezek a szempontok lehetnek strukturális-grammatikaiak, lexikaiak, statisztikaiak; vagy a szöveg formájából /szerkesztéséből/ adódóak, mint például a cimek, jegyzetek, táblázatok figyelembe vétele. A nyelvészet —pontosabban a modern nyelvészet— az első kettőt általában közvetlenül végzi, a harmadik feladathoz pedig közvetett segitséget nyújt. A strukturális-grammatikai feladatok a szöveg elemeinek kettéosztása releváns /a dokumentum tartalmát hordozó/ és irreleváns /csupán grammatikai szerkesztést végző/ elemekre. Ez a magyarhoz hasonló nyelvekben részben szóazonositás /szótározás/, részben toldalékleválasztás /illetőleg ezt követő szóazonositás/ műveleteiből áll. A statisztikai vizsgálatok hozzájárulnak a releváns, illetőleg irreleváns elemek szétválasztásához, azáltal, hogy szembeállítják a dokumentum /dokumentum-tipus, tárgykör/ elemeinek relativ gyakoriságát a köznyelv /pontosabban a műszaki nyelv/ egészének "abszolút" gyakorisági viszonyaival. Az elemzés alapján több dokumentációs feladat hajtható végre; ilyen például a gépi indexelés, a gépi kivonatolás, vagy a szöveges információk gépi visszakeresése. A gépi indexelés voltaképpen a mutatókészités hagyományos filológiai feladatának gépesitése. A gépi indexelés klasszikus formája a KWIC-index /Key Word in Context = Kulcs-Szó Szövegösszefüggésben/. Ennek lényege egy adott szöveg-korpusz /egy könyv szövege, vagy egy folyóiratévfolyam cimei stb,/ mondatainak —a bennük található releváns /tartalmilag fontos/ szavak szerint— történő betűrendbe állitása; természetesen minden egyes mondat annyiszor szerepel majd a KWIC-indexben, ahány releváns szó található benne. — A KWIC-index visszautal a feldolgozott korpusz pontos lelőhelyeire, tehát azzal együtt használható fel. A szokásos indexeléshez közelebb áll a gépi konkordanciák készitése. Ez történhet félautomatikus uton /kézi kijelölés és gépi rendezés utján/, vagy teljesen automatizálva /ismét a szavak, elemek relevenciájának figyelembevételével/. A deszkriptor jegyzékek készitése átmenet a kivonatoláshoz. A szöveg deszkriptorai a tartalomra jellemző szavak és szókapcsolatok listája. A deszkriptorok már nemcsak a szövegben rejlő információ visszakeresésére alkalmasak, hanem kombinációjukkal jellemzik is a kérdéses szövegdarabot. A deszkriptorok kijelölése a szavak relevanciájára, a terminológia adott rendszerére és bizonyos szemantikai törvényszerűségekre támaszkodik. 789

Thumbnails

Contents