1960. ÉVI NÉPSZÁMLÁLÁS 2. Személyi és családi adatok képviseleti minta alapján (1960)
IV. A fogalmak magyarázata
A képviseleti minta anyagának kimásolását teljes összeolvasással ellenőriztük, és ezáltal minimálisra csökkentettük a másolásból származó hibákat. Természetesen még a teljes összeolvasás után is maradhattak hibásan másolt adatok a mintában. Ezek számának becslésére egy (egyébként más célra készült) rétegezett háromlépcsős minta adatait használtuk fel. Legkönnyebben a mintába került személyek születési évének másolási pontosságát tudtuk ellenőrizni és megállapítottuk, hogy 20 978 személy adatainak lemásolásánál 52 esetben hibásan másolták le a megfelelő születési évet. Figyelembevéve a mintavétel módját, ez azt jelenti, hogy a másolás ellenőrzése után a lemásolt születési éveknek 99%-os valószínűséggel csak mindössze (0,25 +0,09)%-a hibás és ily módon a mintavételi adatok másolásból eredő pontatlansága elhanyagolható. Megjegyezzük, hogy a későbbi munkamenetek (a minta anyagának logikai revíziója) következtében még a fenti hibaszázalék is csökkent. A képviseleti minta anyagát a teljes népszámlálási anyag tervezett munkamenetei szerint dolgoztuk fel. Mégis megtörténhet, hogy a teljes anyag feldolgozási technikája a későbbiek során finomodni fog és ennek következtében is léphetnek fel bizonyos eltérések a képviseleti minta adatai és a megfelelő országos adatok között. A képviseleti minta nagyságát az 1960. évi népszámlálás előzetes adatai alapján határoztuk meg. A teljes népszámlálási anyag további feldolgozásai során az alapsokaság bizonyos jellemzői (így a népesség száma) némiképpen megváltozhatnak. 5. A kiválasztás módszerének matematikai-statisztikai ellenőrzése A mintavétel gyakorlati végrehajtásának szokásos ellenőrzései mellett még egy matematikaistatisztikai módszer is kínálkozott a minta kiválasztásának ellenőrzésére. Ez a módszer arra alapult, hogy a mintába kerülő mintavételi egység (magánháztartások) nagysága a véletlentől függött, azaz valószínűségi változó volt. Ezen valószínűségi változó szórása miatt a minta nagysága (mely a mintába került háztartások tagjai számának összege) általában nem egyezett meg az ország lakossága 1%-ával, attól bizonyos fokig eltért. A népességszámokra vonatkozó mintanagyság tehát maga is valószínűségi változó volt, amelynek várható értékére megbízhatósági intervallumok számolhatók. Ha a kapott megbízhatósági intervallum lefedi a kiválasztás útján adódó mintaelemszámot, akkor a minta kiválasztását, legalább is a háztartások nagyságát (taglétszámát) illetően, megfelelőnek tekinthetjük. A mintaelemszámra vonatkozó megbízhatósági intervallum meghatározásánál figyelembe vettük, hogy az m háztartásból álló mintába került i tagú háztartások ^ (i = 1, 2,7) számainak együttes eloszlása polihipergeometrikus eloszlás, melyet az alapsokaság nagy elemszáma miatt polinomiális eloszlással közelítettünk. Az előző, 1949. évi magyar népszámlálás, valamint az 1959. évben végrehajtott próbanépszámlálás eredményei alapján jó közelítésben ismertük a háztartások nagyságszerinti megoszlását, amely, ha p,-vel jelöljük az i tagú háztartások relatív gyakoriságát az alapsokaságban, akkor 8 Vi = 0,15, Í> 2 = 0,24, p 3 = 0,25, p t = 0,18, p 5 = 0,10, p f l = 0,04, p 7 = 0,04. (11) A fentiek figyelembevételével a képviseleti minta terjedelmének D 2(»j) szórásnégyzetére: D*{r ]) = m\ 2 2,l kV]V k 1 (12) Li=l 1^7 7 j adódik. Ebből M(rj)-val jelölve az rj valószínűségi változó várható értékét, mintánk várható n terjedelmére M {rj) — t D (7?) <; n < M {rj) + t D {rj) megbízhatósági intervallumot kapjuk, amelynek megbízhatóságát az (5) eloszlásfüggvény felhasználásával, nagy n esetén közelítőleg [2 <£(t) — 1] szolgáltatja. (11) felhasználásával D^J-ra a következő egyszerű kifejezést kaptuk: D (rj) — 1,55 Ym . (13) • Az 1%-os képviseleti minta anyagának feldolgozása után o megoszlásra a következő értékeket kaptuk: p x — 0,14, p, = 0,26, p 3 = 0,24, p t = 0,19, p 5 =« 0,10, p 8 = 0,04, p 7 = 0,03. Becslésünk tehát kielégítő pontosságú volt, hiszen e két sorozat elemei közti maximális eltérés is mindössze 0,02, mely p 2-nél lépett fel ós így relatíve szintén jelentéktelen. A hétnél többtagú háztartásokat, csekély számuk miatt, a héttagú háztartásokkal együtt vettük számitásbu. Ezért p T a hét- és többtagú háztartások relatív gyakoriságát jelenti. 151