Tudományszervezési Tájékoztató, 1966

6. szám - Szemle

amit a /hetero-lingvális/ gépi forditásnál látunk majd. A tipikus homo-1ingvális fe­ladatok megértési szintje ennél a szintnél általában "alacsonyabb". A gépi fordítás­ban a szövegelemzés szükségszerűen kiterjed a szöveg teljes grammatikai szerkezetére, szemantikai interpretációjára, sőt bizonyos tárgyköri- lexikális ismeretanyagot is figyelembe vesz. A homo-1ingvális dokumentációban azonban az eredeti szöveg rövidíté­se a feladat, s a "megértés" voltaképpen a rövidítéshez szükséges szempontok kiválasz­tását, megitélését jelenti. Ezek a szempontok lehetnek strukturális-grammatikaiak, lexikaiak, statisztikaiak; vagy a szöveg formájából /szerkesztéséből/ adódóak, mint például a cimek, jegyzetek, táblázatok figyelembe vétele. A nyelvészet —pontosabban a modern nyelvészet— az első kettőt általában közvetlenül végzi, a harmadik feladat­hoz pedig közvetett segitséget nyújt. A strukturális-grammatikai feladatok a szöveg elemeinek kettéosztása releváns /a dokumentum tartalmát hordozó/ és irreleváns /csu­pán grammatikai szerkesztést végző/ elemekre. Ez a magyarhoz hasonló nyelvekben rész­ben szóazonositás /szótározás/, részben toldalékleválasztás /illetőleg ezt követő szóazonositás/ műveleteiből áll. A statisztikai vizsgálatok hozzájárulnak a releváns, illetőleg irreleváns elemek szétválasztásához, azáltal, hogy szembeállítják a doku­mentum /dokumentum-tipus, tárgykör/ elemeinek relativ gyakoriságát a köznyelv /pon­tosabban a műszaki nyelv/ egészének "abszolút" gyakorisági viszonyaival. Az elemzés alapján több dokumentációs feladat hajtható végre; ilyen például a gépi indexelés, a gépi kivonatolás, vagy a szöveges információk gépi visszakeresése. A gépi indexelés voltaképpen a mutatókészités hagyományos filológiai feladatának gépesitése. A gépi indexelés klasszikus formája a KWIC-index /Key Word in Context = Kulcs-Szó Szövegösszefüggésben/. Ennek lényege egy adott szö­veg-korpusz /egy könyv szövege, vagy egy folyóiratévfolyam cimei stb,/ mondatainak —a bennük található releváns /tartalmilag fontos/ szavak szerint— történő betűrend­be állitása; természetesen minden egyes mondat annyiszor szerepel majd a KWIC-index­ben, ahány releváns szó található benne. — A KWIC-index visszautal a feldolgozott korpusz pontos lelőhelyeire, tehát azzal együtt használható fel. A szokásos indexeléshez közelebb áll a gépi konkordanciák készitése. Ez történhet félautomatikus uton /kézi kijelölés és gépi rendezés utján/, vagy teljesen automatizálva /ismét a szavak, elemek relevenciájának figyelembevéte­lével/. A deszkriptor jegyzékek készitése átmenet a kivona­toláshoz. A szöveg deszkriptorai a tartalomra jellemző szavak és szókapcsolatok lis­tája. A deszkriptorok már nemcsak a szövegben rejlő információ visszakeresésére al­kalmasak, hanem kombinációjukkal jellemzik is a kérdéses szövegdarabot. A deszkrip­torok kijelölése a szavak relevanciájára, a terminológia adott rendszerére és bizo­nyos szemantikai törvényszerűségekre támaszkodik. 789

Next

/
Thumbnails
Contents