Tudományszervezési Tájékoztató, 1964
3-4. szám - Szemle
AZ ALAPELVEK Az automatikus dokumentum-elemzés alapelve, hogy a dokumentumban foglalt egyee szavak kulcsszavak szerepét töltik he, amelyek alapul szolgálnak annak megállapítására, hogy a szóhanforgó dokumentum előreláthatólag milyen témakategóriáha tartozik. E felfogás szerint a kulcsszavak sorrendjére, jellegére, gyakoriságára és elhelyezkedésére vonatkozó statisztikák lehetővé teszik a dokumentum témájának eléggé biztonságos meghatározását. Továbbá, ha két dokumentum szókincse, szakkifejezései, azok gyakorisága messzemenően azonos, feltehető, hogy ugyanazt a témát tárgyalják. A gépesített index legegyszerűbb formája az un. KWIC /Keyword in Context — kulcsszavak és szövegösszefüggéseik/. A gépet ugy programozták, hogy az összes mondattani szavakat, mint névelőket, elöljárókat, viszonyszókat figyelmen kivül hagyja, majd az összes megmaradt szavakat indexeli. Ily módon a kul-os kifejezése к indexét állitják össze, s azt betűrendben nyomtatják ki, azzal az összefüggő szöveggel együtt, amelyben a kulcskifejezés előfordul. Az American Chemical Society "Chemical Titles" cimen félhavonként jelenteti meg a kémiai szak-irodalom Kf 1С-indexét.' Az ilyen tipusu indexgyüjtemények közé tartozik még a "Keywords Index to US Government Technical Reports", az amerikai kormányzat hivatalos műszaki beszámolóinak kulcsszó-indexe, amelyet 1962 óta adnak ki. INDEX-KÁRTYÁK KÉSZÍTÉSE GÉPI UTON Többféle módszert is javasolnak olyan adatfeldolgozó gépek programozására, amelyeknek az volna a feladata, hogy valamely dokumentum szövegéhói indexkártyaként számbajövó kifejezéseket emeljenek ki. Természetesen minden ilyen módszerben vannak bizonyos hasonlóságok, azonos vonások. Mini. en dokumentum szövegének mintegy 50 %-a közhasználatú szavakból áll, amelyeknek szaktémák esetében semmi jelentősége sincsenj ezek a számológép emlékezetében tárolandók azzal az utasitésaal, hogy ne vegye őket figyelembe. Különleges témáknál is akadnak egyéb, gyakran előfcfrduló szavak, amelyek a témán belül útbaigazítással nem szolgálnak, pl. a polimer szó, ha müanya4 gokról, vagy szénhidrogén, ha olajipari szakirodalomról van szó. A számológép azután a szöveg többi szavait betűrendbe szedi, az azonos szótőből származó szavakat csoportba tömörítve, majd megszámolva mindegyikük előfordulásának gyakoriságát. A szerző itt részletezi a "dokumentum-profil" kialakításának módozatait. Ugyanitt vetődik fel a kérdés: vajon szükséges-e a teljes szöveg statisztikai feldolgozása? Van olyan felfogás, mely szerint minden bekezdésnek csak az első és utolsó mondatát kellene statisztikailag figyelembe 413 4